一种面向医疗领域基于深度学习的命名实体识别方法

    公开(公告)号:CN106202054B

    公开(公告)日:2018-12-14

    申请号:CN201610590151.6

    申请日:2016-07-25

    Abstract: 一种面向医疗领域基于深度学习的命名实体识别方法,本发明涉及命名实体识别方法。本发明是要解决CRF模型由于不考虑语义信息,在训练语料极度缺乏的情况下,标注结果中会出现大量的无意义的标注结果的问题,而提出的一种面向医疗领域基于深度学习的命名实体识别方法。该方法是通过一、得到了补充医疗领域语料的词表voc和词表voc对应的词向量vec;二、利用有标注语料中的训练语料进行长短期记忆单元网络LSTM的训练;三、根据二中的更新的神经网络参数θ进行标注结果的路径查找,得到有标注语料的标注结果;利用命名实体识别评估标准F值对有标注语料中的测试语料的标注结果进行评估等步骤实现的。本发明应用于命名实体识别领域。

    基于跨语言词向量表示和分类器联合训练的跨语言文本分类方法

    公开(公告)号:CN108960317A

    公开(公告)日:2018-12-07

    申请号:CN201810680474.3

    申请日:2018-06-27

    CPC classification number: G06K9/6256 G06F17/2795 G06F17/28 G06K9/6267

    Abstract: 基于跨语言词向量表示和分类器联合训练的跨语言文本分类方法,本发明涉及跨语言文本分类方法。本发明的目的是为了解决现有基于同义词替换的方法分类准确率低,现有基于翻译的方法准确率较高,但是训练翻译器需要大量的语料,而且训练耗时较长,任务的复杂性与时间消耗远远超过了文本分类这一较为简单的任务,因此并不实用的问题。过程为:一:语料预处理:二:通过梯度优化方法优化总的损失函数,使总的损失函数达到最小值,对应一组词向量和一个分类器;三:取概率最大的标签作为目标端语言T上的测试文本的分类结果;与测试集的标准结果对比,得到测试准确率和召回率指标。本发明用于跨语言文本分类领域。

    一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法

    公开(公告)号:CN104391885B

    公开(公告)日:2017-07-28

    申请号:CN201410624648.6

    申请日:2014-11-07

    Abstract: 一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法,本发明涉及可比语料平行短语对的抽取方法。本发明是要解决获取平行语料需要花费高、将最相近的上下文的两个单词或片段互为翻译应用到可比语料上存在对于双语词典依赖很严重的问题。该方法是通过1源语言句子集合S和目标语言句子集合T;2得到平行语料的短语对集合;3得到平行语料的平行短语对;4得到平行语料的非平行短语对;5得到支持向量机二元分类器;6抽取候选平行短语对 ;7获得可比语料中包含噪声的平行短语对;8得到可比语料的平行短语对;9得到扩展解码器等步骤实现的。本发明应用于可比语料平行短语对的抽取领域。

    一种基于联合深度学习模型的文本情感分类方法

    公开(公告)号:CN106599933A

    公开(公告)日:2017-04-26

    申请号:CN201611223174.X

    申请日:2016-12-26

    CPC classification number: G06K9/6262 G06F16/35 G06K9/6277

    Abstract: 一种基于联合深度学习模型的文本情感分类方法,本发明涉及文本情感分类方法。本发明为了解决现有SVM等浅层分类方法,会带来维数灾难和数据稀疏等问题。步骤为:一:对文本数据中每一个词进行处理,采用word2vec工具对处理后的文本数据中每一个词进行训练,得到词向量字典;二:得到每个句子的矩阵M,LSTM层将矩阵M进行训练转化为固定维度的向量对输入层进行改进,生成d维h个具有上下文语义关系的词向量;三、采用CNN作为一个可训练的特征检测器从d维h个具有上下文语义关系的词向量中抽取特征;四:将抽取的特征依次连接,输出得到每个类别的概率,概率值最大的类别为所预测的类别。本发明用于自然语言处理领域。

    基于多语平行语料的语义向量的机器翻译方法

    公开(公告)号:CN106202068A

    公开(公告)日:2016-12-07

    申请号:CN201610590241.5

    申请日:2016-07-25

    CPC classification number: G06F17/289 G06F17/2785 G06N3/0445 G06N3/08

    Abstract: 基于多语平行语料的语义向量的机器翻译方法,本发明涉及机器翻译方法。本发明是要解决双语平行语料获得的语义信息通常较少的问题。本发明是通过一、输入平行的源语言1、2以及目标语言;二、根据公式(1)到公式(6)计算得到隐状态h′和h″;三、计算得到的向量c,四、生成目标语言;或者一、输入源语言1、2以及目标语言;二、计算向量c1和向量c2的归一化之后的余弦距离;三、衡量向量c1和向量c2的相似性;四、令dis(c1,c2)大于阈值δ;给定源语言1句子集合S1和源语言2句子集合S2,即表示为如下约束最优化问题:五、建立最终目标函数等步骤实现的。本发明应用于机器翻译领域。

    自适应个性化信息检索系统及方法

    公开(公告)号:CN102779193B

    公开(公告)日:2015-05-13

    申请号:CN201210244519.5

    申请日:2012-07-16

    Abstract: 自适应个性化信息检索系统及方法,涉及计算机信息检索技术。本发明针对分布不规律的用户动态检索需求及时捕捉,伴随用户与搜索引擎的交互及时更新检索模型。所述系统包括用于根据当前查询信息、结合历史查询信息和历史点击信息构成特征矩阵,及根据特征矩阵获得训练参数预测模型的数据输入子系统;用于根据特征矩阵训练并应用参数预测模型、获得预测参数的参数训练和预测子系统;用于以预测参数组织当前查询、历史查询和历史点击,及将用户模型和查询模型结合形成个性化查询模型的执行检索子系统;和用于在待检索文档中寻找与个性化查询匹配的文档作为初步检索结果,根据相关性对所述初步检索结果进行排序获得最终检索结果输出的数据输出子系统。

Patent Agency Ranking