一种基于多元文本特征的中文语法查错方法及系统

    公开(公告)号:CN112183094B

    公开(公告)日:2023-06-16

    申请号:CN202011209481.9

    申请日:2020-11-03

    Abstract: 本发明公开了一种基于多元文本特征的中文语法查错方法及系统,方法包括:(1)分别利用预训练模型和语法先验知识对文本进行向量表示,得到语义特征向量和词性特征向量,词性特征向量和语义特征向量首尾拼接得到文本的向量序列;(2)利用Bi‑LSTM模型抽取文本的特征向量序列;(3)对特征向量序列进行基于语义和词性搭配信息的注意力增强;(4)对注意力增强后的特征向量序列进行线性变换,得到标签预测序列;(5)对标签预测序列进行基于词序关系特征的信息增强;(6)捕获信息增强后的标签预测序列的约束信息,基于约束信息判别语法错误边界位置。经过验证,本发明表现出较好的查错效果,优于其他现有同类方法。

    一种基于多元文本特征的中文语法查错方法及系统

    公开(公告)号:CN112183094A

    公开(公告)日:2021-01-05

    申请号:CN202011209481.9

    申请日:2020-11-03

    Abstract: 本发明公开了一种基于多元文本特征的中文语法查错方法及系统,方法包括:(1)分别利用预训练模型和语法先验知识对文本进行向量表示,得到语义特征向量和词性特征向量,词性特征向量和语义特征向量首尾拼接得到文本的向量序列;(2)利用Bi‑LSTM模型抽取文本的特征向量序列;(3)对特征向量序列进行基于语义和词性搭配信息的注意力增强;(4)对注意力增强后的特征向量序列进行线性变换,得到标签预测序列;(5)对标签预测序列进行基于词序关系特征的信息增强;(6)捕获信息增强后的标签预测序列的约束信息,基于约束信息判别语法错误边界位置。经过验证,本发明表现出较好的查错效果,优于其他现有同类方法。

Patent Agency Ranking