基于命名实体识别的Web服务整合装置、方法以及设备

    公开(公告)号:CN103377186B

    公开(公告)日:2016-03-16

    申请号:CN201210127438.7

    申请日:2012-04-26

    Abstract: 本发明提供了基于命名实体识别的Web服务整合装置、方法以及设备,以至少克服现有的Web服务整合技术存在的开发效率低和/或不能适用于不同Web应用和服务的问题。Web服务整合装置包括:提取Web应用中包括的文本信息的提取单元;对文本信息进行命名实体识别的命名实体识别单元;确定Web应用的内容类别的确定单元;选择与Web应用相关的Web服务的选择单元;以及将选择的Web服务整合到Web应用中的整合单元。Web服务整合方法用于执行能够实现上述Web服务整合装置的功能的处理。上述设备包括上述Web服务整合装置。应用本发明的上述技术能够适用于不同Web应用和服务,节省时间和人力,可应用于Web服务整合领域。

    确定微博与给定实体的相关性的方法和装置

    公开(公告)号:CN103164428B

    公开(公告)日:2016-01-20

    申请号:CN201110414476.6

    申请日:2011-12-13

    Abstract: 本发明涉及确定微博与给定实体的相关性的方法和装置。确定多个微博中的每个微博与给定实体的相关性的方法包括:提取多个微博中的每个微博的特征;根据所提取的特征确定微博之间的相似度;以及利用所确定的微博之间的相似度,基于半监督分类器来确定多个微博中的每个微博与给定实体的相关性。

    模板提取方法和装置

    公开(公告)号:CN102129422B

    公开(公告)日:2015-10-14

    申请号:CN201010004202.5

    申请日:2010-01-14

    Abstract: 本发明公开了一种模板提取方法和装置。所述模板提取方法包括:对语料进行包括分句和分词在内的预处理;从预处理后的语料中提取出候选模板;以及对提取出的候选模板进行优化。其中,所述优化步骤包括:针对每一个候选模板,计算由该候选模板中的通配符所代表的词或词序列在语料中出现的频率以及该候选模板中由通配符分隔出的词或词序列在语料中出现的频率;以及确定其中通配符所代表的词或词序列在语料中出现的频率以及所述候选模板中由所述通配符分隔出的词或词序列在语料中出现的频率满足预定条件的候选模板为干扰模板,并从所提取出的候选模板中去除所述干扰模板。

    一种平行语料资源获取方法及系统

    公开(公告)号:CN102591857B

    公开(公告)日:2015-06-24

    申请号:CN201110021725.5

    申请日:2011-01-10

    Abstract: 本发明实施例公开了一种平行语料资源获取方法及系统。一种平行语料资源获取方法包括:获取第一语料库和第二语料库之间相匹配的中间语言公共字串;根据所获取的公共字串,构成第一语言与第二语言的互译文本对,所述互译文本对用于形成第一语言与第二语言的平行语料资源;其中,所述第一语料库中包括第一语言与中间语言的平行语料;所述第二语料库中包括第二语言与中间语言的平行语料。应用本发明实施例所提供的方案,利用第三方语言来获取两种语言之间的平行语料,以解决语言之间语料资源稀缺的问题,并且有利于获得较高质量的翻译规则以构建统计机器翻译系统。

    汉字识别方法和装置
    145.
    发明授权

    公开(公告)号:CN102867178B

    公开(公告)日:2015-06-10

    申请号:CN201110187137.9

    申请日:2011-07-05

    Abstract: 本发明提供一种汉字识别装置和方法,该装置包括:第一识别单元用于对文本图像进行切分和识别,以获得识别信息;错误检测单元,用于利用该第一识别单元获得识别信息中图像单元的位置信息和识别编码信息检测错误切分的图像单元;错误修正单元,用于对该错误检测单元检测出的该错误切分的图像单元进行修正;第二识别单元,用于对该错误修正单元修正后的该图像单元进行识别,以获得相应的识别编码信息。通过本发明实施例,利用对文本图像进行识别后获得的识别信息中的识别编码信息和图像单元位置信息检测错误切分的图像单元并对错误切分的图像单元进行修正,从而可提高识别精度,解决现有技术中存在的问题。

    评价中间语的词语的方法和装置以及机器翻译方法和设备

    公开(公告)号:CN104123274A

    公开(公告)日:2014-10-29

    申请号:CN201310150456.1

    申请日:2013-04-26

    Abstract: 本发明涉及一种对中间语的词语进行评价的方法和对中间语的词语进行评价的装置以及机器翻译方法和机器翻译设备。对中间语的词语进行评价的方法,包括确定中间语的词语相对于源语言的第一特定属性;确定中间语的词语相对于目标语的第二特定属性;根据第一特定属性和第二特定属性来计算中间语的词语的可靠性分数;以及根据可靠性分数来评价中间语的词语,其中,中间语的词语是将源语言的特定词语翻译成目标语的词语的桥梁。

    用于名称消岐聚类的装置和方法

    公开(公告)号:CN102654881B

    公开(公告)日:2014-10-22

    申请号:CN201110056065.4

    申请日:2011-03-03

    Abstract: 提供了用于名称消岐聚类的装置和方法。对名称训练集进行数据处理的装置包括:用于确定至少两个名称训练集中每个名称训练集的代表相似度的装置,代表相似度为名称训练集中的文本间相似度的代表值;用于针对至少两个名称训练集中的每个名称训练集,采用不同的相似度阈值进行聚类以选择使聚类效果较佳的相似度阈值作为优选相似度阈值的装置;以及用于根据至少两个名称训练集中的每个名称训练集的代表相似度和优选相似度阈值拟合表示代表相似度与优选相似度阈值之间对应关系的函数的装置。

    获取内容彼此相对应的多种语言文本的装置和方法

    公开(公告)号:CN102375824B

    公开(公告)日:2014-10-22

    申请号:CN201010253505.0

    申请日:2010-08-12

    Inventor: 孟遥 刘汝杰 于浩

    Abstract: 公开了一种用于获取内容彼此相对应的多种语言文本的装置,包括:关键图像生成单元,其被配置为生成与待获取的多种语言文本的内容相关的关键图像;和文本获取单元,其被配置为确定预定的信息源中与该关键图像相匹配的关键图像匹配信息,并根据预定规则从该关键图像匹配信息提取得到内容彼此相对应的多种语言文本。还公开一种用于获取内容彼此相对应的多种语言文本的方法。根据本发明实施例的解决方案可以改善所获取的多种语言对齐文本的精确度,此外还能够提高获取多种语言对齐文本的效率。

    标准化标注工具的方法和设备

    公开(公告)号:CN104035916A

    公开(公告)日:2014-09-10

    申请号:CN201310072432.9

    申请日:2013-03-07

    Inventor: 缪庆亮 孟遥 于浩

    Abstract: 本发明公开了标准化标注工具的方法和设备。根据本发明的标准化标注工具的方法包括:选择与待标准化的非标准工具对应的标准工具;对于所述非标准工具的每一个输出标注类,计算其与所述标准工具的每一个输出标注类的相似度,所述输出标注类表明被标注对象所属的类别;和/或对于所述非标准工具的每一个输出标注属性,计算其与所述标准工具的每一个输出标注属性的相似度,所述输出标注属性表明所述被标注对象所具有的属性;以及根据所述输出标注类的相似度和/或所述输出标注属性的相似度,确定所述非标准工具的标记和所述标准工具的标记之间的对应关系。

Patent Agency Ranking