基于图聚类与多图文交互的新闻图集描述生成方法及系统

    公开(公告)号:CN116992832A

    公开(公告)日:2023-11-03

    申请号:CN202310770216.5

    申请日:2023-06-28

    Abstract: 本发明提供一种基于图聚类与多图文交互的新闻图集描述生成方法及系统,包括数据采集与数据标注,从新闻图集网站采集新闻图集数据,去除文本中的无效信息,标注校对后存入数据集;数据预处理,对生成的数据集中的图像进行归一化处理;对生成的数据集中的文本进行命名实体识别处理并生成对应实体词列表;图文特征提取与图集图像间隐含关系探索,图聚类模块探索图集图像间隐含关系,对提取的图像粗粒度特征进行主成分分析降维及聚类分析,挖掘出图集图像间的结构化信息,得到图像分类簇及多个聚类中心;图文信息交互,模型训练,使用端到端的方式进行模型训练,采用交叉熵损失函数。本发明支持对包含外部文本信息的新闻图集进行描述生成。

Patent Agency Ranking