-
公开(公告)号:CN112417089A
公开(公告)日:2021-02-26
申请号:CN201910773587.2
申请日:2019-08-21
Applicant: 东北大学秦皇岛分校
IPC: G06F16/33 , G06F16/332 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种基于深度学习的高并行性阅读理解的方法,包括数据预处理,嵌入层,编码层,交互层,输出层。使用bert模型对预训练进行优化;使用Octave卷积替换原模型中的深度可分离卷积。本发明在原有的高并行机器阅读理解算法——QANet的基础上,改进其嵌入层和编码块的结构,将嵌入层的预训练模型改为BERT,并重构了整个编码块。在编码块中应用了多头自注意力机制,固定了编码块的卷积层的数量,并将本次设计的编码块内所需用到的所有卷积层都改为Octave卷积。并提出将参数量较少其计算较快的的深度可分离卷积应用于Octave卷积中,提升Octave卷积在提升速度的同时提升模型的泛化能力,并将之应用于机器阅读理解任务。
-
公开(公告)号:CN112417089B
公开(公告)日:2022-12-09
申请号:CN201910773587.2
申请日:2019-08-21
Applicant: 东北大学秦皇岛分校
IPC: G06F16/33 , G06F16/332 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种基于深度学习的高并行性阅读理解的方法,包括数据预处理,嵌入层,编码层,交互层,输出层。使用bert模型对预训练进行优化;使用Octave卷积替换原模型中的深度可分离卷积。本发明在原有的高并行机器阅读理解算法——QANet的基础上,改进其嵌入层和编码块的结构,将嵌入层的预训练模型改为BERT,并重构了整个编码块。在编码块中应用了多头自注意力机制,固定了编码块的卷积层的数量,并将本次设计的编码块内所需用到的所有卷积层都改为Octave卷积。并提出将参数量较少其计算较快的的深度可分离卷积应用于Octave卷积中,提升Octave卷积在提升速度的同时提升模型的泛化能力,并将之应用于机器阅读理解任务。
-