-
公开(公告)号:CN116484838A
公开(公告)日:2023-07-25
申请号:CN202211051567.2
申请日:2022-08-31
Applicant: 株式会社东芝
IPC: G06F40/216 , G06F40/284
Abstract: 本发明提供文本段分割装置、方法以及存储介质。实施方式的文本段分割装置具备统计模型存储部、文本接受部、段分割部、错误部位抽出部、学习数据生成部、以及统计模型学习部。统计模型存储部存储进行了用于段分割的学习的统计模型。文本接受部接受输入文本。段分割部使用统计模型,进行针对输入文本的段分割。错误部位抽出部抽出通过段分割得到的片段中的错误部位。学习数据生成部使用错误部位和输入文本,生成用于统计模型的再学习的学习数据。统计模型学习部使用学习数据,实施统计模型的学习。
-
公开(公告)号:CN104462170A
公开(公告)日:2015-03-25
申请号:CN201410466362.X
申请日:2014-09-12
Applicant: 株式会社东芝
IPC: G06F17/30
CPC classification number: G06F17/241 , G06F17/278 , G06F17/3071 , G06F17/27 , G06F17/30011
Abstract: 本发明的实施方式涉及关键词提取装置、方法及程序。目的在于提供能够提示反映了用户意向的关键词的关键词提取装置、方法及程序。本实施方式的文件制作支持装置包括:分离部,针对被赋予了表现用户的意图的第1注解至文字列的多个文件的各个文件,分离第1注解与该文件;第1提取部,从文件中提取一般用语;第2提取部,从文件中进行提取,作为用户用语;生成部,对各文件进行归类,生成1个以上的文件群;计算部,在取得针对文件群中包含的关键词的来自用户的第2注解的情况下,根据注解的种类计算特征量;第1更新部,根据所述特征量更新被赋予了第2注解的关键词的所述得分;以及第2更新部,根据被更新了的得分更新所述文件群,得到更新群。
-
公开(公告)号:CN116680440A
公开(公告)日:2023-09-01
申请号:CN202211059350.6
申请日:2022-08-31
Applicant: 株式会社东芝
IPC: G06F16/783 , G06F16/78
Abstract: 本发明的实施方式涉及一种区段分割处理装置、方法以及存储介质。提供能够高效地管理或者视听视频内容或者声音内容的区段分割处理装置、方法以及存储介质。实施方式的区段分割处理装置具备信息取得部、分割部、区段标签候选取得部、区段标签选择部以及区段标签赋予部。信息取得部取得视频或声音数据、视频或声音数据的领域、以及视频或声音数据的文本信息。分割部将视频或声音数据分割为1个以上的区段。区段标签候选取得部取得与领域对应的区段标签候选。区段标签选择部针对每个区段,根据文本信息从区段标签候选选择区段标签。区段标签赋予部对区段赋予所选择的区段标签。
-
公开(公告)号:CN104464731A
公开(公告)日:2015-03-25
申请号:CN201410305619.3
申请日:2014-06-30
Applicant: 株式会社东芝
Abstract: 本发明提供一种数据收集装置及方法、语音对话装置及方法。本发明的实施方式涉及数据收集装置、语音对话装置、方法以及程序。提供能够高精度地推测读法的数据收集装置、语音对话装置、方法以及程序。本实施方式的数据收集装置与对话的规定的每个分类对应关联地收集在语音对话中使用的数据,包括语音识别部、对话判定部以及储存部。语音识别部对所发言的语音进行语音识别,生成语音的书写字符串和书写字符串的读法。对话判定部使用书写字符串以及读法中的至少某一方来判定语音对话是否成功。储存部在判定为语音对话成功了的情况下,将书写字符串以及读法与分类对应关联起来进行储存。
-
公开(公告)号:CN101447187A
公开(公告)日:2009-06-03
申请号:CN200810178181.1
申请日:2008-11-25
Applicant: 株式会社东芝
Inventor: 永江尚义
IPC: G10L15/28
CPC classification number: G10L15/22
Abstract: 本发明涉及语音识别装置及方法。在该装置中,相连字识别单元基于声学模型和语言模型将语音识别为词素串。句子获取单元从正确句子存储单元中获取与所述语音相关的范句。基于匹配程度,句子对应进行单元将所识别出的词素串中所包含的第一词素与所获得的范句中所包含的第二词素进行对应。差异探查单元探查一个或多个与相对应的所述第二词素不匹配的所述第一词素,将其作为差异部分。原因信息获取单元从原因信息存储单元中获取输出信息,该输出信息对应着每个所述差异所符合的状态。输出单元输出所获得的输出信息。
-
公开(公告)号:CN118297062A
公开(公告)日:2024-07-05
申请号:CN202311040253.7
申请日:2023-08-17
Applicant: 株式会社东芝
IPC: G06F40/289 , G06F40/216
Abstract: 本发明提供一种信息处理装置、信息处理方法以及存储介质。实施方式的信息处理装置具备文本受理部、存储部、计算部、合并部、决定部以及分割部。文本受理部受理输入文本数据。存储部存储计算不同的多个粒度的分割评分的统计模型。计算部将输入文本数据输入到统计模型来计算不同的多个粒度的分割评分。合并部将不同的多个粒度的分割评分合并为1个合并评分。决定部根据输入文本数据和合并评分,决定输入文本数据中的分割位置。分割部在分割位置分割输入文本数据而生成构造化文本数据。
-
公开(公告)号:CN103514153A
公开(公告)日:2014-01-15
申请号:CN201310130904.1
申请日:2013-04-16
Applicant: 株式会社东芝
IPC: G06F17/28
CPC classification number: G06F17/289 , G06F17/2827 , G06F17/2836 , G10L15/005 , G10L15/26 , Y10S707/99934
Abstract: 根据一个实施例,语音翻译装置(100)包括语音识别单元(102)、翻译单元(103)、搜索单元(106)和选择单元(108)。语音识别单元(102)连续地执行语音识别以获得第一语言字串。翻译单元(103)将第一语言字串翻译成第二语言字串。搜索单元(106)搜索至少一个相似例,并获取相似例和翻译例。选择单元(108)根据用户指令选择与相似例相关联的第一语言字串和与翻译例相关联的第二语言字串中的至少一个,作为所选择的字串。
-
公开(公告)号:CN118057358A
公开(公告)日:2024-05-21
申请号:CN202311117404.4
申请日:2023-08-31
Applicant: 株式会社东芝
IPC: G06F16/332 , G06F16/33 , G06F40/284
Abstract: 本发明的实施方式涉及文档检索装置、文档检索方法以及文档检索程序。提供能够容易地检索所期望的信息的文档检索装置、文档检索方法以及文档检索程序。一实施方式的文档检索装置具备第1存储部、检索部以及显示信息生成部。第1存储部存储表示多个块和与所述多个块建立关联的多个参照特征的块信息,所述多个块是文档中包含的在意思上相关联的句子的集合。检索部从输入的查询中提取检索所使用的检索特征,基于所述检索特征与所述多个参照特征的匹配,从所述多个块中检索与所述查询关联的第1块。显示信息生成部生成用于强调显示所述第1块的显示信息。
-
公开(公告)号:CN117669553A
公开(公告)日:2024-03-08
申请号:CN202310165560.1
申请日:2023-02-24
Applicant: 株式会社东芝
IPC: G06F40/284 , G06F40/216 , G06F18/22 , G06F40/237
Abstract: 本发明的实施方式涉及一种关键字检测装置、关键字检测方法以及存储介质。关键字检测装置(10)具备词组检测部(20B)、相似度计算部(20C)以及关键字输出部(20D)。词组检测部(20B)从作为以规定的输入方式表示的输入信息的识别结果的文本信息检测与关键字有关的词组。相似度计算部(20C)计算包含在关键字列表(32)中的多个关键字的各关键字与词组的相似度所对应的输出相似度,该关键字列表(32)是按多个关键字的每个关键字将关键字的关键字记述与以输入方式表示关键字的关键字方式信息相对应而成的。关键字输出部(20D)根据输出相似度输出关键字列表(32)中的关键字。
-
公开(公告)号:CN117371424A
公开(公告)日:2024-01-09
申请号:CN202310153138.4
申请日:2023-02-22
Applicant: 株式会社东芝
IPC: G06F40/205 , G06F40/284 , G06F40/289
Abstract: 本发明的实施方式涉及信息处理装置、信息处理方法以及存储介质。更高精度地解析文本。信息处理装置具备选择部、第1抽取部、第2抽取部、第1特征量计算部、第2特征量计算部以及解析部。选择部从文本数据选择1个以上的部分文本数据。第1抽取部从部分文本数据抽取作为用于确定部分文本数据的第1属性的词或者短语的第1信息。第2抽取部从部分文本数据抽取作为用于确定部分文本数据的第2属性的词或者短语的第2信息。第1特征量计算部计算表示第1信息的特征的第1特征量。第2特征量计算部计算表示第2信息的特征的第2特征量。解析部根据第1特征量以及第2特征量,解析文本数据。
-
-
-
-
-
-
-
-
-