一种基于语料合并的无监督双语词典构建方法

    公开(公告)号:CN113343672A

    公开(公告)日:2021-09-03

    申请号:CN202110685974.8

    申请日:2021-06-21

    Abstract: 一种基于语料合并的无监督双语词典构建方法,属于无监督双语词典构建领域。本方法步骤为:一、根据单语语料训练得到对应的单语词向量;二、根据单语词向量得到映射矩阵W;三、根据映射矩阵W抽取替换单词的词典;四、根据替换词典替换原来单语语料并且合并单语语料为混合语料;五、训练混合语料得到混合词向量;六、分离混合词向量得到新的源语言与目标语言词向量;七、基于新的词向量重新计算映射矩阵并据此构建词典。本发明应用于低资源语言无监督双语词典构建领域。本发明解决了低资源语言平行语料库匮乏导致的双语词典构建代价过高的问题,以及提高基于无监督双语构建的词典的性能的问题。

    一种面向全局的机器阅读理解建模中的候选答案筛选方法

    公开(公告)号:CN108960319B

    公开(公告)日:2019-12-03

    申请号:CN201810700571.4

    申请日:2018-06-29

    Abstract: 本发明提出了一种面向全局的机器阅读理解建模中的候选答案筛选方法,属于计算机信息筛选技术领域。所述方法将问题对应的所有段落作为候选答案片段定位范围,首先,获取段落的文本片段间的F1值,利用F1筛选出最佳候选答案片段,另一方面,提取段落和问题之间的特征后,利用逻辑回归模型进行相关性打分处理后,根据分数获得筛选后的候选答案段落集合,然后判断所述最佳候选答案片段所在段落是否将所述候选答案段落集合中,并将所述最佳候选答案片段所在段落强制放在所述候选答案段落集合的首位,最终输出所述最佳候选答案片段和所述候选答案段落集合。所述方法具有提高训练和预测效率等优点。

    一种基于机器翻译的中文语义知识库的构建方法

    公开(公告)号:CN105677913B

    公开(公告)日:2019-04-26

    申请号:CN201610111365.0

    申请日:2016-02-29

    Abstract: 一种基于机器翻译的中文语义知识库的构建方法,本发明涉及中文语义知识库的构建的方法。本发明是要解决中文语义知识库匮乏的问题、现有技术昂贵的人力及时间的问题,和提高基于跨语言映射的语义知识库翻译的性能的问题,而提出的一种基于机器翻译的中文语义知识库的构建方法。该方法是通过一、得到标注了实体的源语言端语料;二、根据主题模型计算得到实体的主题分布;三、根据源语言端实体词表从短语翻译表中抽取源语言端语义知识库中实体的翻译概率,记为p(tj|si);四、构建基于源语言端语义知识库图结构信息的实体翻译模型等步骤实现的。本发明应用于中文语义知识库的构建领域。

    基于多语平行语料的语义向量的机器翻译方法

    公开(公告)号:CN106202068B

    公开(公告)日:2019-01-22

    申请号:CN201610590241.5

    申请日:2016-07-25

    Abstract: 基于多语平行语料的语义向量的机器翻译方法,本发明涉及机器翻译方法。本发明是要解决双语平行语料获得的语义信息通常较少的问题。本发明是通过一、输入平行的源语言1、2以及目标语言;二、根据公式(1)到公式(6)计算得到隐状态h′和h″;三、计算得到的向量c,四、生成目标语言;或者一、输入源语言1、2以及目标语言;二、计算向量c1和向量c2的归一化之后的余弦距离;三、衡量向量c1和向量c2的相似性;四、令dis(c1,c2)大于阈值δ;给定源语言1句子集合S1和源语言2句子集合S2,即表示为如下约束最优化问题:五、建立最终目标函数等步骤实现的。本发明应用于机器翻译领域。

    一种面向全局的机器阅读理解建模中的候选答案筛选方法

    公开(公告)号:CN108960319A

    公开(公告)日:2018-12-07

    申请号:CN201810700571.4

    申请日:2018-06-29

    Abstract: 本发明提出了一种面向全局的机器阅读理解建模中的候选答案筛选方法,属于计算机信息筛选技术领域。所述方法将问题对应的所有段落作为候选答案片段定位范围,首先,获取段落的文本片段间的F1值,利用F1筛选出最佳候选答案片段,另一方面,提取段落和问题之间的特征后,利用逻辑回归模型进行相关性打分处理后,根据分数获得筛选后的候选答案段落集合,然后判断所述最佳候选答案片段所在段落是否将所述候选答案段落集合中,并将所述最佳候选答案片段所在段落强制放在所述候选答案段落集合的首位,最终输出所述最佳候选答案片段和所述候选答案段落集合。所述方法具有提高训练和预测效率等优点。

Patent Agency Ranking