-
公开(公告)号:CN111985220A
公开(公告)日:2020-11-24
申请号:CN202010751655.8
申请日:2020-07-30
Applicant: 哈尔滨工业大学
IPC: G06F40/253 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于深度学习的端到端司法文书自动校对方法,属于自然语言处理技术领域。所述自动校对方法包括以下步骤:步骤一、提出Transformer模型结构;步骤二、对所述Transformer模型进行训练,得到最大化模型在训练数据S上的似然;步骤三、在步骤二中得到的似然中引入长度惩罚项,得到解码策略。本发明使用基于自注意力机制的编码器-解码器模型——Transformer,有效地避免了循环神经网络和卷积神经网络的缺点,提出的方法远超基于循环神经网络和卷积神经网络的编码器-解码器模型的性能。
-
公开(公告)号:CN111985219A
公开(公告)日:2020-11-24
申请号:CN202010751644.X
申请日:2020-07-30
Applicant: 哈尔滨工业大学
IPC: G06F40/253 , G06F40/211 , G06N3/04 , G06N3/08
Abstract: 本发明是一种融合单语数据的文本语法错误纠正方法。本发明属于文本纠错技术领域,构建反向语法错误生成模型,并对所述反向语法错误生成模型进行训练;根据训练后的反向语法错误生成模型,对含有语法错误的文本,进行构造错误纠正平行句对;采用对抗训练反向语法错误生成模型,对错误纠正平行句对区分语法错误句子;采用对抗训练正向语法错误纠正模型,对语法错误句子进行纠正。本发明首次在back-translation中采用sampling解码策略来构造伪“错误-纠正”平行句对;基于对抗学习框架训练语法错误生成模型,并用其构造更真实的伪“错误-纠正”平行语料。
-
公开(公告)号:CN111985218A
公开(公告)日:2020-11-24
申请号:CN202010750319.1
申请日:2020-07-30
Applicant: 哈尔滨工业大学
IPC: G06F40/253 , G06F40/284 , G06K9/62 , G06Q50/18
Abstract: 本发明公开了一种基于生成对抗网络的司法文书自动校对方法。步骤1:生成器为一个参数化的随机策略,生成纠正司法文书句子的每一个时间步t;步骤2:智能体基于步骤1的随机策略采取动作;步骤3:步骤2的随机策略采取动作后,生成一个完整的纠正司法文书句子后,将完整的纠正司法文书句子和对应的源端错误句子一起作为判别器的输入;步骤4:判别器判断该“错误-纠正”句对在多大程度上是人工标注;步骤5:根据步骤4判断输出具体的概率值作为奖励反馈给生成器;步骤6:更新步骤5中的生成器参数,以便获取的期望奖励最大化,实现司法文书自动校对。顺利的解决司法文书的语法错误纠正的问题。
-
-