一种基于加入文本信息的词向量的中文语法错误检测方法

    公开(公告)号:CN108984525A

    公开(公告)日:2018-12-11

    申请号:CN201810741530.X

    申请日:2018-07-06

    CPC classification number: G06F17/274 G06F17/277 G06N3/0445

    Abstract: 本发明公开了一种加入文本信息的词向量的中文语法错误检测方法及装置,属于信息处理领域。该方法的特征包括:先对输入的文本的词语进行向量化,形成文本矩阵;再利用循环神经网络形成各词向量相关的文本信息;重建文本矩阵;利用循环神经网络提取上下文信息;之后利用前向神经网络计算各个词语错误性得分;使用错误性得分推断错误位置。本发明通过结合基于文本化词向量,使得中文语法检测效果得到提升,具有很大的使用价值。

    一种基于文本化词向量的中文语法错误检测方法

    公开(公告)号:CN108959260B

    公开(公告)日:2019-05-28

    申请号:CN201810735068.2

    申请日:2018-07-06

    Abstract: 本发明公开了一种中文语法错误检测方法及装置,属于信息处理领域。该方法的特征包括:先对输入的文本词语向量化,连接形成文本矩阵;再利用循环神经网络形成关于词向量中各分量重要程度的掩码;重建文本矩阵;利用循环神经网络提取上下文信息;利用前向神经网络计算各个词语错误性得分;使用错误性得分推断错误位置。本发明通过结合基于文本化词向量,使得中文语法检测效果得到提升,具有很大的使用价值。

    一种基于加入文本信息的词向量的中文语法错误检测方法

    公开(公告)号:CN108984525B

    公开(公告)日:2019-07-12

    申请号:CN201810741530.X

    申请日:2018-07-06

    Abstract: 本发明公开了一种加入文本信息的词向量的中文语法错误检测方法及装置,属于信息处理领域。该方法的特征包括:先对输入的文本的词语进行向量化,形成文本矩阵;再利用循环神经网络形成各词向量相关的文本信息;重建文本矩阵;利用循环神经网络提取上下文信息;之后利用前向神经网络计算各个词语错误性得分;使用错误性得分推断错误位置。本发明通过结合基于文本化词向量,使得中文语法检测效果得到提升,具有很大的使用价值。

    一种基于多正则化结合的胶囊模型的中文分词方法

    公开(公告)号:CN109766553A

    公开(公告)日:2019-05-17

    申请号:CN201910018546.2

    申请日:2019-01-09

    Abstract: 本发明提供了一种基于多正则化结合的胶囊模型的中文分词方法,通过增加胶囊滑动窗口capsule sliding window,将胶囊模型迁移应用到自然语言处理NLP序列标注任务即中文分词任务中,解决了胶囊模型并不适用于序列标注的任务的技术问题;将多个正则化项联合,实现简单的领域迁移,本发明将胶囊模型适应到序列标注任务上,完成了更高准确率的中文分词,帮助更复杂的自然语言处理任务;通过多正则项的联合,提升了模型的泛化能力,实现了一定的领域迁移,能够减少人工语料的标注,降低在自然语言处理研究时人工标注语料的人工和时间成本。

Patent Agency Ranking