-
公开(公告)号:CN116521836A
公开(公告)日:2023-08-01
申请号:CN202310330245.X
申请日:2023-03-30
Applicant: 东南大学
IPC: G06F16/332 , G06F18/214 , G06N3/08 , G06N3/04
Abstract: 本发明公开了一种基于动态路由和答案投票的生物医学抽取式问答方法,具体如下,收集和预处理数据集,将数据集处理成抽取式问答任务所需的格式;设计一个新的路由算法对预训练模型的隐藏层进行动态路由,动态分配合适的权重;预测阶段采用一种投票机制选出更可能的正确答案,该机制能够考虑答案之间的相似度;采用预微调方法,在通用语料上预先训练模型,以提高模型在生物医学问答任务上的性能;本发明基于ALBERT添加动态路由和答案投票,并予以预训练,有效提高了模型性能。在拥有小参数量优势的前提下,能够取得不错的性能。
-
公开(公告)号:CN116561318A
公开(公告)日:2023-08-08
申请号:CN202310617534.8
申请日:2023-05-29
Applicant: 东南大学
IPC: G06F16/35 , G06F40/30 , G06F40/289 , G06F40/151 , G06F18/22 , G06F18/214 , G06N3/0499 , G06N3/084
Abstract: 本发明公开了一种面向社交平台敏感文本检测方法,如图1所示,方法包括以下步骤:步骤1:中文敏感文本数据预处理;步骤2:基于改进MLM掩蔽策略的数据增强;步骤3:基于多粒度交叉注意力的语义关联;步骤4:基于损失函数的分类纠偏。其中,掩蔽语言模型(Mask Language Model)简称为MLM。本发基于相似词替换的掩蔽策略,提高模型对中文文本的学习能力;使用多粒度交叉注意力编码机制增强敏感文本词级和字符级语义之间的关联性;构建整合先验知识的损失函数,提高模型的语义理解和文本分类质量。
-