-
公开(公告)号:CN102591857B
公开(公告)日:2015-06-24
申请号:CN201110021725.5
申请日:2011-01-10
Applicant: 富士通株式会社
Abstract: 本发明实施例公开了一种平行语料资源获取方法及系统。一种平行语料资源获取方法包括:获取第一语料库和第二语料库之间相匹配的中间语言公共字串;根据所获取的公共字串,构成第一语言与第二语言的互译文本对,所述互译文本对用于形成第一语言与第二语言的平行语料资源;其中,所述第一语料库中包括第一语言与中间语言的平行语料;所述第二语料库中包括第二语言与中间语言的平行语料。应用本发明实施例所提供的方案,利用第三方语言来获取两种语言之间的平行语料,以解决语言之间语料资源稀缺的问题,并且有利于获得较高质量的翻译规则以构建统计机器翻译系统。
-
公开(公告)号:CN104679742A
公开(公告)日:2015-06-03
申请号:CN201310611314.0
申请日:2013-11-26
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 本申请提供一种信息处理方法和装置,该方法包括:按照预定语法单位,将搜索请求中的关键词针对预定的数据库中的文档进行最大名词单元匹配和/或语法关系匹配,根据所述最大名词单元匹配和/或语法关系匹配的匹配结果确定所述文档与所述搜索请求的相关度;其中,所述文档中的每一个预定语法单位都具有以最大名词单元为中心的语法关系;根据各文档与所述搜索请求的相关度获取作为搜索结果的文档。本申请中,当使用关键词在数据库中搜索文档时,可以根据在文档中搜索到的关键词与文档中的最大名词单元的匹配结果和/或与文档中的语法关系的匹配结果选择文档,从而可以搜索得到与搜索请求的相关度高的文档。
-
公开(公告)号:CN104572646A
公开(公告)日:2015-04-29
申请号:CN201310473243.2
申请日:2013-10-11
Applicant: 富士通株式会社
IPC: G06F17/30
CPC classification number: G06F16/9535
Abstract: 本公开提供一种异常信息确定装置和方法以及电子设备。该异常信息确定装置包括:搜索单元,用于在预定信息源中搜索与特定关键词相关的信息;异常信息候选确定单元,用于根据异常信息的传播规律,确定搜索单元搜索到的信息中的异常信息候选;以及异常信息确定单元,用于基于异常信息候选构建异常信息分类器,并使用异常信息分类器在异常信息候选中确定异常信息。根据本公开的异常信息确定装置和方法以及电子设备能够更准确、可靠地确定诸如网络的信息源中的异常信息。
-
公开(公告)号:CN104123274A
公开(公告)日:2014-10-29
申请号:CN201310150456.1
申请日:2013-04-26
Applicant: 富士通株式会社
IPC: G06F17/28
Abstract: 本发明涉及一种对中间语的词语进行评价的方法和对中间语的词语进行评价的装置以及机器翻译方法和机器翻译设备。对中间语的词语进行评价的方法,包括确定中间语的词语相对于源语言的第一特定属性;确定中间语的词语相对于目标语的第二特定属性;根据第一特定属性和第二特定属性来计算中间语的词语的可靠性分数;以及根据可靠性分数来评价中间语的词语,其中,中间语的词语是将源语言的特定词语翻译成目标语的词语的桥梁。
-
公开(公告)号:CN102654881B
公开(公告)日:2014-10-22
申请号:CN201110056065.4
申请日:2011-03-03
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 提供了用于名称消岐聚类的装置和方法。对名称训练集进行数据处理的装置包括:用于确定至少两个名称训练集中每个名称训练集的代表相似度的装置,代表相似度为名称训练集中的文本间相似度的代表值;用于针对至少两个名称训练集中的每个名称训练集,采用不同的相似度阈值进行聚类以选择使聚类效果较佳的相似度阈值作为优选相似度阈值的装置;以及用于根据至少两个名称训练集中的每个名称训练集的代表相似度和优选相似度阈值拟合表示代表相似度与优选相似度阈值之间对应关系的函数的装置。
-
公开(公告)号:CN102375824B
公开(公告)日:2014-10-22
申请号:CN201010253505.0
申请日:2010-08-12
Applicant: 富士通株式会社
Abstract: 公开了一种用于获取内容彼此相对应的多种语言文本的装置,包括:关键图像生成单元,其被配置为生成与待获取的多种语言文本的内容相关的关键图像;和文本获取单元,其被配置为确定预定的信息源中与该关键图像相匹配的关键图像匹配信息,并根据预定规则从该关键图像匹配信息提取得到内容彼此相对应的多种语言文本。还公开一种用于获取内容彼此相对应的多种语言文本的方法。根据本发明实施例的解决方案可以改善所获取的多种语言对齐文本的精确度,此外还能够提高获取多种语言对齐文本的效率。
-
公开(公告)号:CN104035916A
公开(公告)日:2014-09-10
申请号:CN201310072432.9
申请日:2013-03-07
Applicant: 富士通株式会社
Abstract: 本发明公开了标准化标注工具的方法和设备。根据本发明的标准化标注工具的方法包括:选择与待标准化的非标准工具对应的标准工具;对于所述非标准工具的每一个输出标注类,计算其与所述标准工具的每一个输出标注类的相似度,所述输出标注类表明被标注对象所属的类别;和/或对于所述非标准工具的每一个输出标注属性,计算其与所述标准工具的每一个输出标注属性的相似度,所述输出标注属性表明所述被标注对象所具有的属性;以及根据所述输出标注类的相似度和/或所述输出标注属性的相似度,确定所述非标准工具的标记和所述标准工具的标记之间的对应关系。
-
公开(公告)号:CN103678270A
公开(公告)日:2014-03-26
申请号:CN201210320606.4
申请日:2012-08-31
Applicant: 富士通株式会社
Abstract: 本发明公开了一种语义单元抽取方法和语义单元抽取设备。所述语义单元抽取方法包括:输入经过分词的目标语言的句子;获得与目标语言的句子对应的参考语言的句子;对参考语言的句子进行词性标注;获得目标语言的句子和参考语言的句子之间的词对齐关系;以及根据参考语言的句子的词性标注结果,借助于词对齐关系,抽取目标语言的句子的语义单元。
-
公开(公告)号:CN102163203B
公开(公告)日:2013-12-04
申请号:CN201010120118.X
申请日:2010-02-24
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 本发明提供了网页下载的方法和装置。所述方法包括:选取步骤,从多个网页中选取至少一个列表页面;模板生成步骤,根据所述至少一个列表页面中的一个或多个来生成列表页面模板;下载更新步骤,利用所述列表页面模板和所述至少一个列表页面来下载和/或更新所述至少一个列表页面中所包含的主题的主题页面。根据本发明的网页下载的方法和装置,可以针对具有多个结构相似的网页的网站进行高效、自动的网页下载。
-
公开(公告)号:CN103365912A
公开(公告)日:2013-10-23
申请号:CN201210100155.3
申请日:2012-04-06
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 提供了一种对实体关系模式进行聚类、提取的方法和设备。对实体关系模式进行聚类的方法包括:对原始句子进行预处理,以识别原始句子中表示实体的实体词;根据实体词和关系词本体中的关系词以及实体词和关系词在预处理后的句子中的特定出现序列确定预处理后的句子中的实体词之间的实体关系,并且根据所确定的实体关系将预处理后的句子拆分成子句;提取拆分后的子句的实体关系模式,其中,子句的实体关系模式用实体词及实体词之间的中语境组成的关系元组来表示;计算所提取的子句的实体关系模式之间的第一相似度;以及根据所计算的子句的实体关系模式之间的第一相似度,将子句的实体关系模式聚类成实体关系模式类。
-
-
-
-
-
-
-
-
-