一种基于相似度感知的神经机器翻译方法

    公开(公告)号:CN111611814B

    公开(公告)日:2022-09-23

    申请号:CN202010384024.7

    申请日:2020-05-08

    Inventor: 冯冲 张天夫

    Abstract: 本发明提出了一种基于相似度感知的神经机器翻译方法,属于自然语言处理机器翻译技术领域。首先构建结构翻译记忆库和对应结构相似度算法。然后构建模板翻译记忆库和对应模板相似度算法。之后对测试集中的字符串、结构和模板维度的高潜力语句进行预先识别。而后构建多维度相似度先验知识,对训练集中所有平行语句进行多维度相似度检索。同时,利用后验正则目标函数,将离散相似度先验知识融入到神经机器翻译目标函数中,并不断迭代更新先验知识的参数,指导训练过程。最后利用训练完成的神经翻译模型,对多维度高潜力待翻译语句进行分别翻译。本发明可以更细粒度的获取最相似语句,减少了人类译员的审阅时间。

    一种集成利用多预训练模型的机器翻译质量估计方法

    公开(公告)号:CN114091480A

    公开(公告)日:2022-02-25

    申请号:CN202111365653.6

    申请日:2021-11-18

    Abstract: 本发明涉及一种集成利用多预训练模型的机器翻译质量估计方法,属于自然语言处理机器翻译技术领域。本发明针对现有的机器翻译质量估计方法存在的评价粒度单一、对译后编辑人员指导效果较差等问题和缺陷,通过集成多种预训练语言模型,充分利用预训练语言模型的表征能力,通过提取源语句和机器翻译语句自身的特征信息,无需借助参考译文便可对机器翻译质量进行估计,显著提高了机器翻译质量估计系统的性能。本方法能够同时给出单词级别和句子级别两种粒度上的预测结果,并综合两种粒度结果给出译后编辑建议,能够更直观的展示模型的预测结果。

    融合多源知识的中文医学命名实体和词性联合学习方法

    公开(公告)号:CN113723103A

    公开(公告)日:2021-11-30

    申请号:CN202110988114.1

    申请日:2021-08-26

    Inventor: 冯冲 赵培雯

    Abstract: 本发明涉及一种融合多源知识的中文医学命名实体和词性联合学习方法,属于自然语言处理中的信息抽取技术领域。本发明提出了一种多输入多任务学习模型,首先为来自不同数据源的任务数据分别设计模型的输入。然后利用相同的编码结构将不同的输入嵌入到同一语义空间中,获得统一的向量表示。之后,通过任务特定层提取任务特定表示,由该嵌入表示计算得出最后的预测结果。训练过程中,采取交替式的计算方式。在信息抽取中,利用该模型,实现捕获来自不同数据源的NER任务和POS任务之间的相关性。本方法有效提高了深度学习模型对中文医学文本命名实体的识别效果及鲁棒性,尤其是对长实体的识别效果及鲁棒性,并能高质量完成中文医学数据词性标注。

    一种基于情感轮模型的情感词典快速构建方法

    公开(公告)号:CN108563635A

    公开(公告)日:2018-09-21

    申请号:CN201810294977.7

    申请日:2018-04-04

    Inventor: 冯冲 王阳

    Abstract: 本发明涉及一种基于情感轮模型的情感词典快速构建方法,属于自然语言处理应用技术领域。首先对大规模语料进行规范化处理,使用CBOW模型训练出词向量,获得词语语义空间表示;再使用词向量和少量人工筛选进行情感种子词构建,得到情感种子词集;最后基于情感轮模型完成语义空间到情感空间的映射,构建词汇级情感词典资源。本发明通过设计更加准确的四维情感模型,克服了传统二维情感模型将句子倾向性绑定到词汇倾向性上导致评价不准确的缺点;本发明构建词汇级情感词典资源的过程仅需极少的人工干预,因此可以在不同语种上快速构建情感词典;本发明构建的词汇级情感词典资源在情感分析的多个任务中都取得很好的效果。

    一种面向机器翻译的多策略英文长句分割方法

    公开(公告)号:CN105068990B

    公开(公告)日:2017-12-19

    申请号:CN201510441708.5

    申请日:2015-07-24

    Abstract: 本发明涉及一种面向机器翻译的多策略英文长句分割方法及装置,属于自然语言处理机器翻译技术领域。该方法包括训练和实际使用两个步骤;对于训练步骤:首先准备英文训练语料,并对其进行预处理;然后对语料进行特征提取,包括提取依存句法特征、词性标注特征以及逗号位置特征等;最后创建特征模版训练CRF模型;同时设计了若干能够较准确地处理简单的现象的规则;对于实际使用步骤,首先对待处理英文长句进行特征提取,提取的特征同训练步骤;之后分别使用规则算法以及CRF模型来标注逗号的位置;然后在所标注的位置添加逗号,完成分割。对比现有技术,通过采用规则与统计相结合的策略,能够有效且准确地分割英文长句,提高机器翻译的质量。

    一种基于词汇语义和句法依存的情感关键句识别方法

    公开(公告)号:CN104281645B

    公开(公告)日:2017-06-16

    申请号:CN201410425148.X

    申请日:2014-08-27

    Abstract: 本发明涉及一种基于词汇语义和句法依存的情感关键句识别方法,属于自然语言处理应用技术领域,包括以下步骤:首先对语料及其分词结果进行规范化处理;然后基于一定规则扩展情感词典、创建关键词词典和提取依存结构模板,并通过扩展后的情感词典和关键词词典获取候选情感关键句;最后设计一种位置打分函数,辅以情感词特征、关键词特征和依存模板特征,利用这四种特征训练SVM分类器,并以之完成情感关键句的最终识别。对比现有技术,通过采用规则与统计相结合的策略,能够有效利用不同层级词汇语义和句法依存信息进行识别,使用户能够更快速而且准确地找到语料中置信度较高的情感关键句,提高中文情感关键句的识别率。

    一种基于本体匹配的语义查询方法

    公开(公告)号:CN103744955B

    公开(公告)日:2017-04-05

    申请号:CN201410004084.6

    申请日:2014-01-04

    Abstract: 本发明公开了一种基于本体匹配的语义查询方法,属于计算机应用技术领域。本方法先计算本体资源的名称、注释与用户输入字符串的语义相似度,然后分别将本体类、本体个体、本体属性与用户输入字符串的语义相似度按从大到小排序,选出最符合用户查询要求的不超过λ*3个本体资源。本方法能够在语义层面进行检索,捕捉设计人员检索意图,提高系统检索效率。

    一种基于领域词典和语义角色的评价对象抽取方法

    公开(公告)号:CN104268160A

    公开(公告)日:2015-01-07

    申请号:CN201410453074.0

    申请日:2014-09-05

    CPC classification number: G06F17/30867 G06F17/2735 G06F17/2785

    Abstract: 本发明涉及一种基于领域词典和语义角色的评价对象抽取方法,属于自然语言处理应用技术领域,包括以下步骤:首先根据词性、依存和语义角色信息,构建评价对象的领域词典DL,然后充分挖掘词汇、依存、相对位置和语义角色四方面的特征,与DL一起利用条件随机场(CRFs)进行模型训练和预测,从而完成评价对象的抽取工作。对比现有技术,根据中文句子特别是微博、论坛评论信息结构灵活多样、构成方法变化多、句子特征较少的特点,充分利用不同层级句法和语义信息,结合基于规则和机器学习的评价对象抽取方法的优点,自动快速而且准确地找到语料中置信度较高的评价对象,提高了中文句子评价对象抽取的准确率。

    一种面向知识管理的自定义知识分类方法

    公开(公告)号:CN103793474A

    公开(公告)日:2014-05-14

    申请号:CN201410003685.5

    申请日:2014-01-04

    CPC classification number: G06F17/30705

    Abstract: 本发明属于计算机应用技术领域,涉及应用于知识管理系统的一种自定义知识分类方法。本发明的目的是为了解决知识管理系统中,在缺乏标注文本集合的条件下,实现用户自定义分类管理知识的问题,提出了一种基于词匹配的用户自定义的知识分类方法。本方法绕过了训练文本集合标注的难题,通过用《同义词词林》扩展用户自定义关键词,利用Wu-Manber多模式匹配算法来快速匹配关键词,根据关键词在文档中的命中率来判断分类类别。本方法有适应缺乏标注文本的条件,且速度快的特点。

Patent Agency Ranking