基于对比学习及图嵌入优化的文本聚类方法及系统

    公开(公告)号:CN116881455A

    公开(公告)日:2023-10-13

    申请号:CN202310837734.4

    申请日:2023-07-10

    Applicant: 济南大学

    Abstract: 本发明属于自然语言处理领域,提供了基于对比学习及图嵌入优化的文本聚类方法及系统,其技术方案为:采用对比学习并结合图嵌入方法,既考虑了数据的全局结构,又结合了特征的局部图结构。图嵌入充分利用原始高维样本空间的近邻先验信息,对低维表示空间的嵌入施加约束,以保证原始样本的连接强度在隐层特征中得到反映。利用样本和最近的邻居之间的相关性来弥补只依靠全局结构所造成的聚类中心偏差,达到提高聚类精度的目的,从而从高数据量、高稀疏的文本数据集中得到准确的聚类结果。

Patent Agency Ranking