一种基于粒球计算的文本噪声标签修正方法

    公开(公告)号:CN119377736A

    公开(公告)日:2025-01-28

    申请号:CN202411429116.7

    申请日:2024-10-14

    Abstract: 本发明属于自然语言处理领域,具体涉及一种基于粒球计算的文本噪声标签修正方法;该方法包括:采用人工标注的干净的文本数据集训练Bert模型,得到训练好的Bert模型;采用训练好的Bert模型对含噪声的文本数据集进行编码,得到特征向量;对特征向量进行降维处理,得到降维后的特征向量;将所有样本的降维后的特征向量和原始标签构成初始粒球;将初始粒球加入到待处理队列中,设置纯度阈值;在待处理队列根据粒球的纯度和纯度阈值对文本的标签进行修正,直到待处理队列为空,得到标签修正完成的文本数据集;本发明降低了文本数据集的噪声比例,增强了后续深度学习模型的鲁棒性,可使得模型实现更准确的文本分类处理。

Patent Agency Ranking