-
公开(公告)号:CN116681061A
公开(公告)日:2023-09-01
申请号:CN202310630375.5
申请日:2023-05-31
Applicant: 哈尔滨工业大学
IPC: G06F40/232 , G06F40/30 , G06F16/35
Abstract: 一种基于多任务学习和注意力机制的英文语法纠正技术,它涉及一种英文语法纠正技术。本发明为了解决现有英文语法纠正技术适应能力较差,对一些复杂语句的语法纠正不准确的问题。本发明的步骤为:对于输入的句子,从数据库中读取英文分词词表及编辑标签词表;将句子输入预训练编码模型,获取整个句子的上下文表示;将得到的上下文特征向量经过自注意力层;判别输入子词是否需要进行编辑操作,使用词表大小的分类器对输入的子词进行编辑标签分类;根据模型预测的纠正标签对应的意义对输入句子中的单词进行后处理,得到的后处理结果再输入模型进行多次迭代得到最终结果。本发明属于自然语言处理技术领域。
-
公开(公告)号:CN116842933A
公开(公告)日:2023-10-03
申请号:CN202310630599.6
申请日:2023-05-31
Applicant: 哈尔滨工业大学
IPC: G06F40/232 , G06F40/126 , G06F18/25 , G06N3/048 , G06N3/08
Abstract: 一种基于多模态预训练融合中文拼写纠正技术,它涉及一种中文拼写纠正技术。本发明为了解决现有中文拼写错误纠正技术的准确度和发现速度难以满足实际需要的问题。本发明的步骤为:对于输入的中文句子,从数据库中读取每个字的拼音和音调,并加载该字的黑体字体、小篆字体、该字繁体形式的黑体字体作为字音、字形信息;将句子及其对应字的拼音、字体分别映射为向量,再经过不同的编码器和BERT获取同维度的编码表示;对特征做非线性变换和加权和,获取进一步表示;将字的字音字形编码表示和文本编码表示输入门控层,对三种特征表示做加权融合,进而获得中文字的表示;将字的三个模态融合的表示输入BERT。本发明属于自然语言处理技术领域。
-