-
公开(公告)号:CN114398867A
公开(公告)日:2022-04-26
申请号:CN202210298133.6
申请日:2022-03-25
Applicant: 北京大学
IPC: G06F40/194 , G06F40/30
Abstract: 本发明公布了一种两阶段的长文本相似度计算方法,在第一阶段相似句子检测阶段,基于深度学习模型构建句向量提取模型,将文本转换为句向量;检测得到每条长文本之间多种相似类型的相似句子对;在第二阶段图结构计算阶段,计算得到基础相似度;将长文本相似句子对和基础相似度表示成相似句子关系图;图上的每个节点表示一条长文本;通过运算获得融合群体信息的高层次节点表示;更新节点特征信息,节点特征向量上每个维度的值即对应长文本之间的文本相似度;即获得长文本之间的文本相似度。本发明方法可使得长文本相似度具有较强的可解释性,提升文本处理的有效性和精度。
-
公开(公告)号:CN114398867B
公开(公告)日:2022-06-28
申请号:CN202210298133.6
申请日:2022-03-25
Applicant: 北京大学
IPC: G06F40/194 , G06F40/30
Abstract: 本发明公布了一种两阶段的长文本相似度计算方法,在第一阶段相似句子检测阶段,基于深度学习模型构建句向量提取模型,将文本转换为句向量;检测得到每条长文本之间多种相似类型的相似句子对;在第二阶段图结构计算阶段,计算得到基础相似度;将长文本相似句子对和基础相似度表示成相似句子关系图;图上的每个节点表示一条长文本;通过运算获得融合群体信息的高层次节点表示;更新节点特征信息,节点特征向量上每个维度的值即对应长文本之间的文本相似度;即获得长文本之间的文本相似度。本发明方法可使得长文本相似度具有较强的可解释性,提升文本处理的有效性和精度。
-