-
公开(公告)号:CN116561318A
公开(公告)日:2023-08-08
申请号:CN202310617534.8
申请日:2023-05-29
Applicant: 东南大学
IPC: G06F16/35 , G06F40/30 , G06F40/289 , G06F40/151 , G06F18/22 , G06F18/214 , G06N3/0499 , G06N3/084
Abstract: 本发明公开了一种面向社交平台敏感文本检测方法,如图1所示,方法包括以下步骤:步骤1:中文敏感文本数据预处理;步骤2:基于改进MLM掩蔽策略的数据增强;步骤3:基于多粒度交叉注意力的语义关联;步骤4:基于损失函数的分类纠偏。其中,掩蔽语言模型(Mask Language Model)简称为MLM。本发基于相似词替换的掩蔽策略,提高模型对中文文本的学习能力;使用多粒度交叉注意力编码机制增强敏感文本词级和字符级语义之间的关联性;构建整合先验知识的损失函数,提高模型的语义理解和文本分类质量。