基于自监督双粒度多图学习的文本分类方法

    公开(公告)号:CN116401361A

    公开(公告)日:2023-07-07

    申请号:CN202310038679.2

    申请日:2023-01-13

    Applicant: 东北大学

    Abstract: 本发明提供一种基于自监督双粒度多图学习的文本分类方法,涉及文本分类技术领域。该方法首先获得原始文本数据集与对应的标签集,并对原始文本数据集进行数据预处理,得到多图数据集;再利用增强编码器对图数据进行增强,并使用图编码器学习增强后的图表示;然后将多头自注意力机制作用于图表示,学习图包中各个图之间的上下文信息,生成包级图,并利用包编码器通过包级图学习包表示;再通过图‑图的学习机制同时学习图表示和包表示,并设计包级对比损失和图级对比损失作为损失函数,自监督地学习包表示和图表示;最后对待分类的文本分类任务利用学习到的包表示和图表示,在粗粒度和细粒度上对待分类的文本同时进行标签预测,实现文本分类。

Patent Agency Ranking