一种基于序列生成对抗网络的中文命名实体识别数据增强算法

    公开(公告)号:CN111738007B

    公开(公告)日:2021-04-13

    申请号:CN202010635292.1

    申请日:2020-07-03

    Abstract: 本发明提供了一种通过融合源领域和目标域中句子的语义差异和标签差异,来选择源领域数据中的正样本数据来扩展目标域的训练数据,达到增强目标域的命名实体识别性能的方法。在以往的Bi‑LSTM+CRF模型的基础上,为了融合源领域和目标域中句子的语义差异和标签差异,我们通过强化学习中的状态表示和奖励设置来引入语义差异和标签差异,使得训练的决策网络可以选择源领域的数据中对于目标域的命名实体识别的性能有正向影响的句子,扩展目标域的训练数据,解决目标域训练数据不足的问题,同时提升目标域的命名实体识别性能。

    一种基于加入文本信息的词向量的中文语法错误检测方法

    公开(公告)号:CN108984525B

    公开(公告)日:2019-07-12

    申请号:CN201810741530.X

    申请日:2018-07-06

    Abstract: 本发明公开了一种加入文本信息的词向量的中文语法错误检测方法及装置,属于信息处理领域。该方法的特征包括:先对输入的文本的词语进行向量化,形成文本矩阵;再利用循环神经网络形成各词向量相关的文本信息;重建文本矩阵;利用循环神经网络提取上下文信息;之后利用前向神经网络计算各个词语错误性得分;使用错误性得分推断错误位置。本发明通过结合基于文本化词向量,使得中文语法检测效果得到提升,具有很大的使用价值。

    一种基于多正则化结合的胶囊模型的中文分词方法

    公开(公告)号:CN109766553A

    公开(公告)日:2019-05-17

    申请号:CN201910018546.2

    申请日:2019-01-09

    Abstract: 本发明提供了一种基于多正则化结合的胶囊模型的中文分词方法,通过增加胶囊滑动窗口capsule sliding window,将胶囊模型迁移应用到自然语言处理NLP序列标注任务即中文分词任务中,解决了胶囊模型并不适用于序列标注的任务的技术问题;将多个正则化项联合,实现简单的领域迁移,本发明将胶囊模型适应到序列标注任务上,完成了更高准确率的中文分词,帮助更复杂的自然语言处理任务;通过多正则项的联合,提升了模型的泛化能力,实现了一定的领域迁移,能够减少人工语料的标注,降低在自然语言处理研究时人工标注语料的人工和时间成本。

Patent Agency Ranking