一种小样本场景下的自然语言理解方法

    公开(公告)号:CN113326360A

    公开(公告)日:2021-08-31

    申请号:CN202110447496.7

    申请日:2021-04-25

    Abstract: 本发明提出一种小样本场景下的自然语言理解方法,所示方法提出预训练模型语言语义表示、意图识别和槽位识别、引入标签语义,使用线性空间映射方法拉远语义表示距离、建立门控网络并融合槽信息和意图信息以及运用抽象标签转移概率来达到在不同领域中也能快速学习理解的目的;本发明的方法能够在小样本的场景下更好的判断出问题的意图,并识别出问题的槽位,从而良好的解决任务型对话系统的自然语言理解任务下数据不足、数据标注成本和模型迁移代价过高的问题。

    一种基于多任务学习的属性级情感分析方法

    公开(公告)号:CN111414476A

    公开(公告)日:2020-07-14

    申请号:CN202010153639.9

    申请日:2020-03-06

    Abstract: 本发明是一种基于多任务学习的属性级情感分析方法。本发明通过构建多个任务的学习模型,实现属性词抽取及其情感极性判断两个子任务的一站式完成,提高系统性能。通过构建属性词平均长度预测辅助任务降低模型属性词抽取的难度;通过构建情感词抽取和词语级情感极性分类辅助任务增强属性词情感极性判断能力;通过构建文档级文本的情感极性分类和领域分类辅助任务从较大规模语料中引入有效的语义信息;通过显式构建属性词抽取和属性词情感极性判别的特征交互单元使模型能学习到两个子任务之间的相关信息。通过实验验证本发明已达到较优的属性级情感分析性能。

    一种面向医疗领域基于深度学习的命名实体识别方法

    公开(公告)号:CN106202054B

    公开(公告)日:2018-12-14

    申请号:CN201610590151.6

    申请日:2016-07-25

    Abstract: 一种面向医疗领域基于深度学习的命名实体识别方法,本发明涉及命名实体识别方法。本发明是要解决CRF模型由于不考虑语义信息,在训练语料极度缺乏的情况下,标注结果中会出现大量的无意义的标注结果的问题,而提出的一种面向医疗领域基于深度学习的命名实体识别方法。该方法是通过一、得到了补充医疗领域语料的词表voc和词表voc对应的词向量vec;二、利用有标注语料中的训练语料进行长短期记忆单元网络LSTM的训练;三、根据二中的更新的神经网络参数θ进行标注结果的路径查找,得到有标注语料的标注结果;利用命名实体识别评估标准F值对有标注语料中的测试语料的标注结果进行评估等步骤实现的。本发明应用于命名实体识别领域。

    一种基于联合深度学习模型的文本情感分类方法

    公开(公告)号:CN106599933A

    公开(公告)日:2017-04-26

    申请号:CN201611223174.X

    申请日:2016-12-26

    CPC classification number: G06K9/6262 G06F16/35 G06K9/6277

    Abstract: 一种基于联合深度学习模型的文本情感分类方法,本发明涉及文本情感分类方法。本发明为了解决现有SVM等浅层分类方法,会带来维数灾难和数据稀疏等问题。步骤为:一:对文本数据中每一个词进行处理,采用word2vec工具对处理后的文本数据中每一个词进行训练,得到词向量字典;二:得到每个句子的矩阵M,LSTM层将矩阵M进行训练转化为固定维度的向量对输入层进行改进,生成d维h个具有上下文语义关系的词向量;三、采用CNN作为一个可训练的特征检测器从d维h个具有上下文语义关系的词向量中抽取特征;四:将抽取的特征依次连接,输出得到每个类别的概率,概率值最大的类别为所预测的类别。本发明用于自然语言处理领域。

    基于多语平行语料的语义向量的机器翻译方法

    公开(公告)号:CN106202068A

    公开(公告)日:2016-12-07

    申请号:CN201610590241.5

    申请日:2016-07-25

    CPC classification number: G06F17/289 G06F17/2785 G06N3/0445 G06N3/08

    Abstract: 基于多语平行语料的语义向量的机器翻译方法,本发明涉及机器翻译方法。本发明是要解决双语平行语料获得的语义信息通常较少的问题。本发明是通过一、输入平行的源语言1、2以及目标语言;二、根据公式(1)到公式(6)计算得到隐状态h′和h″;三、计算得到的向量c,四、生成目标语言;或者一、输入源语言1、2以及目标语言;二、计算向量c1和向量c2的归一化之后的余弦距离;三、衡量向量c1和向量c2的相似性;四、令dis(c1,c2)大于阈值δ;给定源语言1句子集合S1和源语言2句子集合S2,即表示为如下约束最优化问题:五、建立最终目标函数等步骤实现的。本发明应用于机器翻译领域。

    基于领域相似性度量方法的统计机器翻译方法

    公开(公告)号:CN103631773A

    公开(公告)日:2014-03-12

    申请号:CN201310689351.3

    申请日:2013-12-16

    Abstract: 基于领域相似性度量方法的统计机器翻译方法,涉及机器翻译技术领域。它解决了现机器翻译技术中选取平行语料的方法中,采用余弦函数与词频来作为领域间相似性的度工具并不能反应实际的相似程度以及忽略了文字背后的语义关联,而导致选取的平行语不能反映实际含义、最终影响翻译结果准确性的问题。本发明是在现有统计机器翻译方法中,在从双语平行的训练语料库中选取与翻译文本的领域相似性高的若干篇文档作为训练语料,其中判断相似性的方法为:用相对词频或主题模型作为特征代表,采用余弦距离数、变分距离函数、欧式距离函数、偏斜距离函数或者JS距离函数作为相似度函数进行档相似性度量。本发明的翻译结果更接近于人工翻译的结果。

Patent Agency Ranking