多词单元提取方法和设备及人工神经网络训练方法和设备

    公开(公告)号:CN103678318B

    公开(公告)日:2016-12-21

    申请号:CN201210320806.X

    申请日:2012-08-31

    Abstract: 本申请公开了一种多词单元提取方法和设备及人工神经网络训练方法和设备。提取多词单元的方法包括:针对将语句进行分词得到的多个分词块中的每个分词块,获取每个分词块中的分词的语言学特征作为特征量;将特征量作为参数输入到人工神经网络中;采用人工神经网络计算每个分词块中的分词是多词单元的一部分的第一可能性和该分词不是多词单元的一部分的第二可能性,并且根据第一和第二可能性判断该分词是否为多词单元的一部分;提取相邻的两个或更多个被判断为多词单元的一部分的分词以形成多词单元;以及获取与当前分词块相邻的先前分词块的判断的结果作为反馈信息,并且将反馈信息也作为当前分词块中的分词的特征量。

    用户分类装置、用户分类方法以及电子设备

    公开(公告)号:CN105095324A

    公开(公告)日:2015-11-25

    申请号:CN201410222082.4

    申请日:2014-05-23

    Abstract: 本公开提供一种用户分类装置、用户分类方法和电子设备。该用户分类装置用于针对预定领域的用户进行分类,包括:内容搜索单元,用于在预定数据源中搜索包含该预定领域的主题词的内容作为预定领域内容,并将发布该预定领域内容的用户作为待分类用户;以及用户分类单元,用于根据所述预定领域内容的、与用户相关的属性,对所述待分类用户进行分类。根据本公开的用户分类装置、用户分类方法和电子设备至少能够对预定领域的用户进行更精准的分类。

    生成单语解析模型的方法和装置以及语言转换装置

    公开(公告)号:CN104572629A

    公开(公告)日:2015-04-29

    申请号:CN201310491909.7

    申请日:2013-10-18

    Abstract: 本发明涉及一种生成单语解析模型的方法和装置以及语言转换装置。生成单语解析模型的方法包括:按照双语平行语料中的以目标语言撰写的目标语句的语序来调整双语平行语料中的以源语言撰写的源语句的语序;按照以下助词在目标语句中的位置将该助词插入调整了语序的源语句中以得到作为参考的中间语句,其中,在目标语句中存在该助词而在源语句中没有与该助词对应的助词;根据目标语言和源语言的双语平行语料,利用源语句与目标语句之间的空对齐信息以预定策略生成用于调整源语句的语序的候选结构表示;根据作为参考的中间语句从所生成的候选结构表示中选择用于生成单语解析模型的结构表示;以及对所选择的结构表示进行建模以生成单语解析模型。

    多词单元提取方法和设备及人工神经网络训练方法和设备

    公开(公告)号:CN103678318A

    公开(公告)日:2014-03-26

    申请号:CN201210320806.X

    申请日:2012-08-31

    CPC classification number: G06F17/2705 G06F17/2785 G06N3/08

    Abstract: 本申请公开了一种多词单元提取方法和设备及人工神经网络训练方法和设备。提取多词单元的方法包括:针对将语句进行分词得到的多个分词块中的每个分词块,获取每个分词块中的分词的语言学特征作为特征量;将特征量作为参数输入到人工神经网络中;采用人工神经网络计算每个分词块中的分词是多词单元的一部分的第一可能性和该分词不是多词单元的一部分的第二可能性,并且根据第一和第二可能性判断该分词是否为多词单元的一部分;提取相邻的两个或更多个被判断为多词单元的一部分的分词以形成多词单元;以及获取与当前分词块相邻的先前分词块的判断的结果作为反馈信息,并且将反馈信息也作为当前分词块中的分词的特征量。

    生成单语解析模型的方法和装置以及语言转换装置

    公开(公告)号:CN104572629B

    公开(公告)日:2017-05-24

    申请号:CN201310491909.7

    申请日:2013-10-18

    Abstract: 本发明涉及一种生成单语解析模型的方法和装置以及语言转换装置。生成单语解析模型的方法包括:按照双语平行语料中的以目标语言撰写的目标语句的语序来调整双语平行语料中的以源语言撰写的源语句的语序;按照以下助词在目标语句中的位置将该助词插入调整了语序的源语句中以得到作为参考的中间语句,其中,在目标语句中存在该助词而在源语句中没有与该助词对应的助词;根据目标语言和源语言的双语平行语料,利用源语句与目标语句之间的空对齐信息以预定策略生成用于调整源语句的语序的候选结构表示;根据作为参考的中间语句从所生成的候选结构表示中选择用于生成单语解析模型的结构表示;以及对所选择的结构表示进行建模以生成单语解析模型。

    用于提取最大名词短语的装置、方法以及电子设备

    公开(公告)号:CN104050156B

    公开(公告)日:2017-03-01

    申请号:CN201310084666.5

    申请日:2013-03-15

    Abstract: 本发明提供了用于提取最大名词短语的装置、方法以及电子设备,以克服现有的语言数据处理技术所存在的处理精度不高的问题。上述装置包括:在待处理的目标语言语句的参考语言译句中确定与名词短语模板相符的参考语言名词短语的名词短语确定单元,名词短语模板包括参考语言的词性标签;将名词短语标签标注给目标语言语句中的与确定的参考语言名词短语相对应的目标语言名词短语的标注单元;和在目标语言语句中将与最大名词短语模板相符的短语确定为最大名词短语的最大名词短语确定单元,最大名词短语模板包括目标语言的词性标签和/或名词短语标签。本发明的上述技术能够应用于数据处理领域。

    信息处理方法及装置
    17.
    发明公开

    公开(公告)号:CN104679742A

    公开(公告)日:2015-06-03

    申请号:CN201310611314.0

    申请日:2013-11-26

    Abstract: 本申请提供一种信息处理方法和装置,该方法包括:按照预定语法单位,将搜索请求中的关键词针对预定的数据库中的文档进行最大名词单元匹配和/或语法关系匹配,根据所述最大名词单元匹配和/或语法关系匹配的匹配结果确定所述文档与所述搜索请求的相关度;其中,所述文档中的每一个预定语法单位都具有以最大名词单元为中心的语法关系;根据各文档与所述搜索请求的相关度获取作为搜索结果的文档。本申请中,当使用关键词在数据库中搜索文档时,可以根据在文档中搜索到的关键词与文档中的最大名词单元的匹配结果和/或与文档中的语法关系的匹配结果选择文档,从而可以搜索得到与搜索请求的相关度高的文档。

    评价中间语的词语的方法和装置以及机器翻译方法和设备

    公开(公告)号:CN104123274A

    公开(公告)日:2014-10-29

    申请号:CN201310150456.1

    申请日:2013-04-26

    Abstract: 本发明涉及一种对中间语的词语进行评价的方法和对中间语的词语进行评价的装置以及机器翻译方法和机器翻译设备。对中间语的词语进行评价的方法,包括确定中间语的词语相对于源语言的第一特定属性;确定中间语的词语相对于目标语的第二特定属性;根据第一特定属性和第二特定属性来计算中间语的词语的可靠性分数;以及根据可靠性分数来评价中间语的词语,其中,中间语的词语是将源语言的特定词语翻译成目标语的词语的桥梁。

    语义单元抽取方法和语义单元抽取设备

    公开(公告)号:CN103678270A

    公开(公告)日:2014-03-26

    申请号:CN201210320606.4

    申请日:2012-08-31

    Abstract: 本发明公开了一种语义单元抽取方法和语义单元抽取设备。所述语义单元抽取方法包括:输入经过分词的目标语言的句子;获得与目标语言的句子对应的参考语言的句子;对参考语言的句子进行词性标注;获得目标语言的句子和参考语言的句子之间的词对齐关系;以及根据参考语言的句子的词性标注结果,借助于词对齐关系,抽取目标语言的句子的语义单元。

    对实体关系模式进行聚类、提取的方法和设备

    公开(公告)号:CN103365912A

    公开(公告)日:2013-10-23

    申请号:CN201210100155.3

    申请日:2012-04-06

    Abstract: 提供了一种对实体关系模式进行聚类、提取的方法和设备。对实体关系模式进行聚类的方法包括:对原始句子进行预处理,以识别原始句子中表示实体的实体词;根据实体词和关系词本体中的关系词以及实体词和关系词在预处理后的句子中的特定出现序列确定预处理后的句子中的实体词之间的实体关系,并且根据所确定的实体关系将预处理后的句子拆分成子句;提取拆分后的子句的实体关系模式,其中,子句的实体关系模式用实体词及实体词之间的中语境组成的关系元组来表示;计算所提取的子句的实体关系模式之间的第一相似度;以及根据所计算的子句的实体关系模式之间的第一相似度,将子句的实体关系模式聚类成实体关系模式类。

Patent Agency Ranking