-
公开(公告)号:CN104050156B
公开(公告)日:2017-03-01
申请号:CN201310084666.5
申请日:2013-03-15
Applicant: 富士通株式会社
IPC: G06F17/27
Abstract: 本发明提供了用于提取最大名词短语的装置、方法以及电子设备,以克服现有的语言数据处理技术所存在的处理精度不高的问题。上述装置包括:在待处理的目标语言语句的参考语言译句中确定与名词短语模板相符的参考语言名词短语的名词短语确定单元,名词短语模板包括参考语言的词性标签;将名词短语标签标注给目标语言语句中的与确定的参考语言名词短语相对应的目标语言名词短语的标注单元;和在目标语言语句中将与最大名词短语模板相符的短语确定为最大名词短语的最大名词短语确定单元,最大名词短语模板包括目标语言的词性标签和/或名词短语标签。本发明的上述技术能够应用于数据处理领域。
-
公开(公告)号:CN105574005A
公开(公告)日:2016-05-11
申请号:CN201410532606.X
申请日:2014-10-10
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 本公开涉及对包含多个文档的源数据进行聚类的装置和方法。根据本公开的对包含多个文档的源数据进行聚类的装置包括:设置单元,其设置聚类数的集合;聚类单元,其针对设置单元设置的集合中的每一个聚类数,使用文档中的词作为特征对源数据进行聚类,以将源数据聚类成数目等于聚类数的簇;划分单元,其针对聚类单元聚类的每一个簇,使用文档中的主题作为特征对簇执行划分过程;合并单元,其对划分单元划分后的簇执行合并过程;计数单元,其对合并单元合并后的簇进行计数,以获得更新聚类数;以及聚类数确定单元,其对计数单元获得的相同的更新聚类数进行计数,并且将数目最多的更新聚类数确定为最佳聚类数,并选择最优的聚类结果。
-
公开(公告)号:CN105095191A
公开(公告)日:2015-11-25
申请号:CN201410164469.9
申请日:2014-04-22
Applicant: 富士通株式会社
IPC: G06F17/28
Abstract: 本发明涉及一种基于多词单元进行辅助翻译的方法和装置,该方法包括:获取用户输入的源语言音节或目标语言音节;获取与用户输入的所述音节相关联的、且取自待翻译源语言文本中的至少一个多词单元;将所述多词单元划分为多个短语,并从划分后的所述多词单元中提取出多个短语组合;利用预先建立的模型,至少根据所述多词单元的各短语组合在所述待翻译源语言文本中出现的频率,计算所述多词单元的权值;根据所述多词单元的权值显示目标语言的多词单元。
-
公开(公告)号:CN102129422B
公开(公告)日:2015-10-14
申请号:CN201010004202.5
申请日:2010-01-14
Applicant: 富士通株式会社
IPC: G06F17/27
Abstract: 本发明公开了一种模板提取方法和装置。所述模板提取方法包括:对语料进行包括分句和分词在内的预处理;从预处理后的语料中提取出候选模板;以及对提取出的候选模板进行优化。其中,所述优化步骤包括:针对每一个候选模板,计算由该候选模板中的通配符所代表的词或词序列在语料中出现的频率以及该候选模板中由通配符分隔出的词或词序列在语料中出现的频率;以及确定其中通配符所代表的词或词序列在语料中出现的频率以及所述候选模板中由所述通配符分隔出的词或词序列在语料中出现的频率满足预定条件的候选模板为干扰模板,并从所提取出的候选模板中去除所述干扰模板。
-
公开(公告)号:CN102591857B
公开(公告)日:2015-06-24
申请号:CN201110021725.5
申请日:2011-01-10
Applicant: 富士通株式会社
Abstract: 本发明实施例公开了一种平行语料资源获取方法及系统。一种平行语料资源获取方法包括:获取第一语料库和第二语料库之间相匹配的中间语言公共字串;根据所获取的公共字串,构成第一语言与第二语言的互译文本对,所述互译文本对用于形成第一语言与第二语言的平行语料资源;其中,所述第一语料库中包括第一语言与中间语言的平行语料;所述第二语料库中包括第二语言与中间语言的平行语料。应用本发明实施例所提供的方案,利用第三方语言来获取两种语言之间的平行语料,以解决语言之间语料资源稀缺的问题,并且有利于获得较高质量的翻译规则以构建统计机器翻译系统。
-
公开(公告)号:CN104679742A
公开(公告)日:2015-06-03
申请号:CN201310611314.0
申请日:2013-11-26
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 本申请提供一种信息处理方法和装置,该方法包括:按照预定语法单位,将搜索请求中的关键词针对预定的数据库中的文档进行最大名词单元匹配和/或语法关系匹配,根据所述最大名词单元匹配和/或语法关系匹配的匹配结果确定所述文档与所述搜索请求的相关度;其中,所述文档中的每一个预定语法单位都具有以最大名词单元为中心的语法关系;根据各文档与所述搜索请求的相关度获取作为搜索结果的文档。本申请中,当使用关键词在数据库中搜索文档时,可以根据在文档中搜索到的关键词与文档中的最大名词单元的匹配结果和/或与文档中的语法关系的匹配结果选择文档,从而可以搜索得到与搜索请求的相关度高的文档。
-
公开(公告)号:CN104123274A
公开(公告)日:2014-10-29
申请号:CN201310150456.1
申请日:2013-04-26
Applicant: 富士通株式会社
IPC: G06F17/28
Abstract: 本发明涉及一种对中间语的词语进行评价的方法和对中间语的词语进行评价的装置以及机器翻译方法和机器翻译设备。对中间语的词语进行评价的方法,包括确定中间语的词语相对于源语言的第一特定属性;确定中间语的词语相对于目标语的第二特定属性;根据第一特定属性和第二特定属性来计算中间语的词语的可靠性分数;以及根据可靠性分数来评价中间语的词语,其中,中间语的词语是将源语言的特定词语翻译成目标语的词语的桥梁。
-
公开(公告)号:CN103678270A
公开(公告)日:2014-03-26
申请号:CN201210320606.4
申请日:2012-08-31
Applicant: 富士通株式会社
Abstract: 本发明公开了一种语义单元抽取方法和语义单元抽取设备。所述语义单元抽取方法包括:输入经过分词的目标语言的句子;获得与目标语言的句子对应的参考语言的句子;对参考语言的句子进行词性标注;获得目标语言的句子和参考语言的句子之间的词对齐关系;以及根据参考语言的句子的词性标注结果,借助于词对齐关系,抽取目标语言的句子的语义单元。
-
公开(公告)号:CN102591857A
公开(公告)日:2012-07-18
申请号:CN201110021725.5
申请日:2011-01-10
Applicant: 富士通株式会社
Abstract: 本发明实施例公开了一种平行语料资源获取方法及系统。一种平行语料资源获取方法包括:获取第一语料库和第二语料库之间相匹配的中间语言公共字串;根据所获取的公共字串,构成第一语言与第二语言的互译文本对,所述互译文本对用于形成第一语言与第二语言的平行语料资源;其中,所述第一语料库中包括第一语言与中间语言的平行语料;所述第二语料库中包括第二语言与中间语言的平行语料。应用本发明实施例所提供的方案,利用第三方语言来获取两种语言之间的平行语料,以解决语言之间语料资源稀缺的问题,并且有利于获得较高质量的翻译规则以构建统计机器翻译系统。
-
公开(公告)号:CN102129422A
公开(公告)日:2011-07-20
申请号:CN201010004202.5
申请日:2010-01-14
Applicant: 富士通株式会社
IPC: G06F17/27
Abstract: 本发明公开了一种模板提取方法和装置。所述模板提取方法包括:对语料进行包括分句和分词在内的预处理;从预处理后的语料中提取出候选模板;以及对提取出的候选模板进行优化。其中,所述优化步骤包括:针对每一个候选模板,计算由该候选模板中的通配符所代表的词或词序列在语料中出现的频率以及该候选模板中由通配符分隔出的词或词序列在语料中出现的频率;以及确定其中通配符所代表的词或词序列在语料中出现的频率以及所述候选模板中由所述通配符分隔出的词或词序列在语料中出现的频率满足预定条件的候选模板为干扰模板,并从所提取出的候选模板中去除所述干扰模板。
-
-
-
-
-
-
-
-
-