对实体关系模式进行聚类、提取的方法和设备

    公开(公告)号:CN103365912B

    公开(公告)日:2016-12-14

    申请号:CN201210100155.3

    申请日:2012-04-06

    Abstract: 提供了一种对实体关系模式进行聚类、提取的方法和设备。对实体关系模式进行聚类的方法包括:对原始句子进行预处理,以识别原始句子中表示实体的实体词;根据实体词和关系词本体中的关系词以及实体词和关系词在预处理后的句子中的特定出现序列确定预处理后的句子中的实体词之间的实体关系,并且根据所确定的实体关系将预处理后的句子拆分成子句;提取拆分后的子句的实体关系模式,其中,子句的实体关系模式用实体词及实体词之间的中语境组成的关系元组来表示;计算所提取的子句的实体关系模式之间的第一相似度;以及根据所计算的子句的实体关系模式之间的第一相似度,将子句的实体关系模式聚类成实体关系模式类。

    语义单元抽取方法和语义单元抽取设备

    公开(公告)号:CN103678270B

    公开(公告)日:2016-08-24

    申请号:CN201210320606.4

    申请日:2012-08-31

    Abstract: 本发明公开了一种语义单元抽取方法和语义单元抽取设备。所述语义单元抽取方法包括:输入经过分词的目标语言的句子;获得与目标语言的句子对应的参考语言的句子;对参考语言的句子进行词性标注;获得目标语言的句子和参考语言的句子之间的词对齐关系;以及根据参考语言的句子的词性标注结果,借助于词对齐关系,抽取目标语言的句子的语义单元。

    文档处理方法和文档处理装置

    公开(公告)号:CN103164390B

    公开(公告)日:2016-05-18

    申请号:CN201110421595.4

    申请日:2011-12-15

    Inventor: 葛乃晟 孟遥 于浩

    Abstract: 本发明提供了一种文档处理方法和装置。文档处理方法包括:根据专业名词及搭配双语语料库,判定专业文档中的使用不准确的专业名词,并对使用不准确的专业名词进行修正;以及根据专业名词及搭配双语语料库,判定专业文档中的使用不准确的名词搭配,并对使用不准确的名词搭配进行修正;其中,专业文档为采用目标语言的单语文档,上述双语包括目标语言和原始语言。文档处理装置被配置实现上述文档处理方法中包括的功能。应用本发明的文档处理方法和文档处理装置,可以适用于不同特定专业领域的专业文档处理。

    用于提取最大名词短语的装置、方法以及电子设备

    公开(公告)号:CN104050156A

    公开(公告)日:2014-09-17

    申请号:CN201310084666.5

    申请日:2013-03-15

    Abstract: 本发明提供了用于提取最大名词短语的装置、方法以及电子设备,以克服现有的语言数据处理技术所存在的处理精度不高的问题。上述装置包括:在待处理的目标语言语句的参考语言译句中确定与名词短语模板相符的参考语言名词短语的名词短语确定单元,名词短语模板包括参考语言的词性标签;将名词短语标签标注给目标语言语句中的与确定的参考语言名词短语相对应的目标语言名词短语的标注单元;和在目标语言语句中将与最大名词短语模板相符的短语确定为最大名词短语的最大名词短语确定单元,最大名词短语模板包括目标语言的词性标签和/或名词短语标签。本发明的上述技术能够应用于数据处理领域。

    处理语言数据的装置、方法以及设备

    公开(公告)号:CN103377184A

    公开(公告)日:2013-10-30

    申请号:CN201210110614.6

    申请日:2012-04-16

    Inventor: 葛乃晟 孟遥 于浩

    Abstract: 本发明的实施例涉及处理语言数据的装置、方法以及设备,以至少克服现有的语言处理技术所存在的不能消除语句结构歧义的问题。上述处理语言数据的装置包括:用于识别能够符合至少两种句法关系的至少两个词法单元的识别模块;用于分别针对每种句法关系得到候选语句的转换模块;用于对各个候选语句进行评分的评分模块;以及用于将上述识别的词法单元确定为具有与得分最高的候选语句相对应的句法关系的确定模块。上述处理语言数据的方法用于执行能够实现上述处理语言数据的装置的功能的处理。上述设备包括上述处理语言数据的装置。应用本发明的上述技术,能够消除语言数据中的具有句法歧义的结构的歧义,可以应用于自然语言处理领域。

    源语言改写处理方法和设备及机器翻译系统

    公开(公告)号:CN103020040A

    公开(公告)日:2013-04-03

    申请号:CN201110305010.2

    申请日:2011-09-27

    Abstract: 本发明提供了一种源语言改写处理方法和设备及机器翻译系统。该改写处理方法包括:对源语言语句中的待处理语句进行语法分析;根据语法分析结果确定待处理语句中的包含子句嵌套结构的语句;基于语法分析结果对所确定的包含子句嵌套结构的语句进行重构,以获得至少一个包含非嵌套子句的语句;以及用所获得的至少一个包含非嵌套子句的语句中的、含有最多非嵌套子句的语句来替换上述包含子句嵌套结构的语句。该处理装置被配置实现上述处理方法中包括的功能。应用本发明的处理方法、设备或系统,能够将一些复合长句降解并重组为若干非复合的子句,降低机器翻译过程中的翻译难度,提高翻译精度和翻译效率。本发明适用于自然语言处理领域。

    评价中间语的词语的方法和装置以及机器翻译方法和设备

    公开(公告)号:CN104123274B

    公开(公告)日:2018-06-12

    申请号:CN201310150456.1

    申请日:2013-04-26

    Abstract: 本发明涉及一种对中间语的词语进行评价的方法和对中间语的词语进行评价的装置以及机器翻译方法和机器翻译设备。对中间语的词语进行评价的方法,包括确定中间语的词语相对于源语言的第一特定属性;确定中间语的词语相对于目标语的第二特定属性;根据第一特定属性和第二特定属性来计算中间语的词语的可靠性分数;以及根据可靠性分数来评价中间语的词语,其中,中间语的词语是将源语言的特定词语翻译成目标语的词语的桥梁,其中,中间语的词语的可靠性是该中间语的词语成为将源语言的特定词语翻译成目标语的词语的桥梁的可能性与语义准确性的平衡。

    处理语言数据的装置、方法以及设备

    公开(公告)号:CN103377184B

    公开(公告)日:2016-03-30

    申请号:CN201210110614.6

    申请日:2012-04-16

    Inventor: 葛乃晟 孟遥 于浩

    Abstract: 本发明的实施例涉及处理语言数据的装置、方法以及设备,以至少克服现有的语言处理技术所存在的不能消除语句结构歧义的问题。上述处理语言数据的装置包括:用于识别能够符合至少两种句法关系的至少两个词法单元的识别模块;用于分别针对每种句法关系得到候选语句的转换模块;用于对各个候选语句进行评分的评分模块;以及用于将上述识别的词法单元确定为具有与得分最高的候选语句相对应的句法关系的确定模块。上述处理语言数据的方法用于执行能够实现上述处理语言数据的装置的功能的处理。上述设备包括上述处理语言数据的装置。应用本发明的上述技术,能够消除语言数据中的具有句法歧义的结构的歧义,可以应用于自然语言处理领域。

    信息处理装置和通过外码输入目标语言文字的方法

    公开(公告)号:CN105094358A

    公开(公告)日:2015-11-25

    申请号:CN201410213325.8

    申请日:2014-05-20

    Abstract: 公开了一种信息处理装置和通过外码输入目标语言文字的方法。从最近输入的目标语言文字中获得目标语句序列,针对目标语句序列中的每个目标语句,在源语言的源语句序列中识别一个对应源语句子序列。每个所述目标语句是相应源语句子序列的每个源语句的译文的可能性较大,且目标语句序列中相邻目标语句的对应源语句子序列在源语句序列中的相互距离较小。每个源语句子序列包含尽可能多的可能性较大的连续源语句。估计源语句序列中的可能当前源语句,其包括在覆盖所有源语句子序列的最小区间之外但与区间接近的至少一个语句。在假设当前正在输入或将要输入可能当前语句的目标语言的译文的情况下,减少输入的外码的歧义。

    文档扫描辅助装置及文档扫描方法

    公开(公告)号:CN106803861A

    公开(公告)日:2017-06-06

    申请号:CN201510831562.5

    申请日:2015-11-25

    CPC classification number: H04N1/00519 H04N1/00557 H04N1/00562 H04N1/04

    Abstract: 本公开涉及文档扫描辅助装置及文档扫描方法。在一个实施方式中,文档辅助扫描装置包括:文档扫描辅助装置,包括底座,其中,底座包括:第一文档纸张收纳孔,位于底座的左侧的上表面下方,并且第一文档纸张收纳孔在底座的前后方向贯穿底座;第二文档纸张收纳孔,位于底座的右侧的上表面下方,并且第二文档纸张收纳孔在底座的前后方向贯穿底座;第一开口,在底座的前后方向贯穿底座的上表面并且与第一文档纸张收纳孔贯通以适于纸张经由第一开口进出第一文档纸张收纳孔;以及第二开口,在底座的前后方向贯穿底座的上表面并且与第二文档纸张收纳孔贯通以适于纸张经由第二开口进出第二文档纸张收纳孔。

Patent Agency Ranking