Patent search ap:("讯飞智元信息科技有限公司" OR "国家计算机网络与信息安全管理中心") AND inv:"张浩宇" Page 1

1.

发明公开
一种基于预训练语言模型的长文本聚类方法及装置无效

公开(公告)号：CN112836043A

公开(公告)日：2021-05-25

申请号：CN202011093000.2

申请日：2020-10-13

Applicant: 讯飞智元信息科技有限公司 , 国家计算机网络与信息安全管理中心

Inventor： 张震 , 石瑾 , 李鹏 , 王玉杰 , 张浩宇 , 贾国庆 , 吴飞

IPC: G06F16/35 , G06K9/62

Abstract: 本发明公开了一种基于预训练语言模型的长文本聚类方法及装置，该方法包括：步骤SS1：使用文本摘要模型将长文本压缩为短文本；步骤SS2：根据步骤SS1获得的所述短文本与BERT模型的有标签文本句子对来预测是否两个文本包含相同的事件，生成文本对初始分数；步骤SS3：使用步骤SS2获得的所述文本对初始分数作为初始分数，根据文本对相较于其他文本的关系来重新计算分数；步骤SS4：根据步骤SS3获得的文本对分数，从得分最高的文本对开始计算分组。本发明运用深度学习方法的同时，采用迁移学习，将大规模预训练模型应用到文本聚类中。

Patent Agency Ranking