实体关系抽取方法和装置
    31.
    发明公开

    公开(公告)号:CN110728148A

    公开(公告)日:2020-01-24

    申请号:CN201810701081.6

    申请日:2018-06-29

    Inventor: 郑仲光 孟遥 孙俊

    Abstract: 本发明涉及一种实体关系抽取方法,包括:获取至少一个三元组;对网页集合中的每个网页进行第一处理以获得每个网页的第一处理数据;基于至少一个三元组和每个网页的第一处理数据确定网页集合中与每个三元组所涉及的实体最相关的网页;基于至少一个三元组对最相关的网页的第一处理数据进行第二处理,以得到第二处理数据;基于第二处理数据,在网页集合中选择网页并对选择的网页进行第三处理,以得到第三处理数据,将第三处理数据作为用于实体关系抽取方法的训练集的一部分;利用基于训练集而生成的训练集生成模型进行实体关系抽取。

    识别音译名的方法及装置
    32.
    发明授权

    公开(公告)号:CN104657343B

    公开(公告)日:2017-10-10

    申请号:CN201310575092.1

    申请日:2013-11-15

    Abstract: 本发明提供一种识别音译名的方法和装置。该方法包括:对于当前语言的字符串,获取源语言的与所述字符串对应的至少一种发音单元序列;确定所述至少一种发音单元序列为所述源语言中的名称的概率;根据所述至少一种发音单元序列为所述源语言中的名称的概率判断所述当前语言的字符串是否为音译名。本发明中,对于当前语言的字符串,根据其对应的源语言的发音单元序列为源语言中的名称的概率判断当前语言的字符串是否为源语言音译名,能够准确识别出当前语言的字符串是否为源语言音译名。

    用于检测电子文本中的产品相关信息的装置和方法

    公开(公告)号:CN105868193A

    公开(公告)日:2016-08-17

    申请号:CN201510025848.4

    申请日:2015-01-19

    Abstract: 本公开涉及用于检测电子文本中的产品相关信息的装置和方法。根据本公开的装置包括:获取单元,其获取产品的列表,所述列表中的每一个条目记录产品的品牌信息;第一标注单元,其基于用户的输入为列表中的每一个条目标注歧义标记或非歧义标记以获取标记列表;第二标注单元,其利用标记列表在电子文本中针对产品进行自动标注,以获取自动标注的第一产品相关信息;训练单元,其基于第一产品相关信息对产品信息识别模型进行训练,从而生成训练模型;识别单元,其利用训练模型在电子文本中针对产品相关信息进行识别,以获取识别的第二产品相关信息;以及合并单元,其将第一产品相关信息和第二产品相关信息进行合并,以获取最终的产品相关信息。

    基于层次短语模型的译文词序概率确定方法及装置

    公开(公告)号:CN103116575B

    公开(公告)日:2016-06-22

    申请号:CN201110379623.0

    申请日:2011-11-16

    Inventor: 郑仲光 孟遥 于浩

    Abstract: 本发明实施例公开了一种基于层次短语模型的译文词序概率确定方法及装置。该方法包括:确定源语句的候选翻译模式;针对每一候选翻译模式提取用于表征词序概率的特征量;根据预先获得的模型训练结果确定所述特征量的词序概率;根据所述特征量的词序概率,确定所述每一候选翻译模式的词序概率;根据所述候选翻译模式中词序概率的最大值,确定所述源语句的译文词序概率。本发明实施例通过在候选翻译模式中提取表征词序概率的特征量,进而确定源语句的译文词序概率,增加对调序过程的控制,提高了翻译模式选择的正确性,减少了调序错误的出现,由此改善了将源语句转换为目标语言数据处理过程的性能。

    信息处理方法和装置
    35.
    发明公开

    公开(公告)号:CN104346325A

    公开(公告)日:2015-02-11

    申请号:CN201310325244.2

    申请日:2013-07-30

    Inventor: 郑仲光 孟遥 于浩

    Abstract: 本申请提供一种信息处理方法和装置。该信息处理方法包括:识别信息中的多词单元;从翻译规则数据库中查找所述多词单元的最相似多词单元及关联词串所分别匹配的翻译规则,所述关联词串包括所述多词单元的所有子串及与所述多词单元部分重叠的多词单元;根据每一翻译规则与所述最相似多词单元所匹配的翻译规则的关系确定每一翻译规则的得分;根据得分满足预设条件的翻译规则确定所述多词单元的翻译结果。本申请中,根据最相似多词单元的翻译规则确定没有匹配翻译规则的多词单元的翻译方法,对最相似多词单元的翻译规则的参考提高了译文的可读性。

    用于提取最大名词短语的装置、方法以及电子设备

    公开(公告)号:CN104050156A

    公开(公告)日:2014-09-17

    申请号:CN201310084666.5

    申请日:2013-03-15

    Abstract: 本发明提供了用于提取最大名词短语的装置、方法以及电子设备,以克服现有的语言数据处理技术所存在的处理精度不高的问题。上述装置包括:在待处理的目标语言语句的参考语言译句中确定与名词短语模板相符的参考语言名词短语的名词短语确定单元,名词短语模板包括参考语言的词性标签;将名词短语标签标注给目标语言语句中的与确定的参考语言名词短语相对应的目标语言名词短语的标注单元;和在目标语言语句中将与最大名词短语模板相符的短语确定为最大名词短语的最大名词短语确定单元,最大名词短语模板包括目标语言的词性标签和/或名词短语标签。本发明的上述技术能够应用于数据处理领域。

    基于层次短语模型的译文词序概率确定方法及装置

    公开(公告)号:CN103116575A

    公开(公告)日:2013-05-22

    申请号:CN201110379623.0

    申请日:2011-11-16

    Inventor: 郑仲光 孟遥 于浩

    Abstract: 本发明实施例公开了一种基于层次短语模型的译文词序概率确定方法及装置。该方法包括:确定源语句的候选翻译模式;针对每一候选翻译模式提取用于表征词序概率的特征量;根据预先获得的模型训练结果确定所述特征量的词序概率;根据所述特征量的词序概率,确定所述每一候选翻译模式的词序概率;根据所述候选翻译模式中词序概率的最大值,确定所述源语句的译文词序概率。本发明实施例通过在候选翻译模式中提取表征词序概率的特征量,进而确定源语句的译文词序概率,增加对调序过程的控制,提高了翻译模式选择的正确性,减少了调序错误的出现,由此改善了将源语句转换为目标语言数据处理过程的性能。

    源语言改写处理方法和设备及机器翻译系统

    公开(公告)号:CN103020040A

    公开(公告)日:2013-04-03

    申请号:CN201110305010.2

    申请日:2011-09-27

    Abstract: 本发明提供了一种源语言改写处理方法和设备及机器翻译系统。该改写处理方法包括:对源语言语句中的待处理语句进行语法分析;根据语法分析结果确定待处理语句中的包含子句嵌套结构的语句;基于语法分析结果对所确定的包含子句嵌套结构的语句进行重构,以获得至少一个包含非嵌套子句的语句;以及用所获得的至少一个包含非嵌套子句的语句中的、含有最多非嵌套子句的语句来替换上述包含子句嵌套结构的语句。该处理装置被配置实现上述处理方法中包括的功能。应用本发明的处理方法、设备或系统,能够将一些复合长句降解并重组为若干非复合的子句,降低机器翻译过程中的翻译难度,提高翻译精度和翻译效率。本发明适用于自然语言处理领域。

    实体关系抽取方法和装置
    39.
    发明授权

    公开(公告)号:CN110728148B

    公开(公告)日:2023-07-14

    申请号:CN201810701081.6

    申请日:2018-06-29

    Inventor: 郑仲光 孟遥 孙俊

    Abstract: 本发明涉及一种实体关系抽取方法,包括:获取至少一个三元组;对网页集合中的每个网页进行第一处理以获得每个网页的第一处理数据;基于至少一个三元组和每个网页的第一处理数据确定网页集合中与每个三元组所涉及的实体最相关的网页;基于至少一个三元组对最相关的网页的第一处理数据进行第二处理,以得到第二处理数据;基于第二处理数据,在网页集合中选择网页并对选择的网页进行第三处理,以得到第三处理数据,将第三处理数据作为用于实体关系抽取方法的训练集的一部分;利用基于训练集而生成的训练集生成模型进行实体关系抽取。

    生成语言模型的方法和装置及自然语言处理方法

    公开(公告)号:CN116244404A

    公开(公告)日:2023-06-09

    申请号:CN202111470762.4

    申请日:2021-12-03

    Abstract: 本公开内容涉及生成扩展预训练语言模型的方法和装置以及自然语言处理方法。根据本公开内容的一个实施例,该生成扩展预训练语言模型的方法包括以迭代方式训练扩展预训练语言模型。训练扩展预训练语言模型包括:基于用于随机掩藏包含未登录词汇的样本句子中的词汇的第一掩码生成样本句子的编码特征;基于编码特征生成预测掩藏词汇;以及基于预测掩藏词汇调整扩展预训练语言模型。本公开内容的方法和装置的有益效果包括以下中的至少一个:减少训练时间、提高任务精度、节省硬件资源及使用便利。

Patent Agency Ranking