-
公开(公告)号:CN114398867A
公开(公告)日:2022-04-26
申请号:CN202210298133.6
申请日:2022-03-25
Applicant: 北京大学
IPC: G06F40/194 , G06F40/30
Abstract: 本发明公布了一种两阶段的长文本相似度计算方法,在第一阶段相似句子检测阶段,基于深度学习模型构建句向量提取模型,将文本转换为句向量;检测得到每条长文本之间多种相似类型的相似句子对;在第二阶段图结构计算阶段,计算得到基础相似度;将长文本相似句子对和基础相似度表示成相似句子关系图;图上的每个节点表示一条长文本;通过运算获得融合群体信息的高层次节点表示;更新节点特征信息,节点特征向量上每个维度的值即对应长文本之间的文本相似度;即获得长文本之间的文本相似度。本发明方法可使得长文本相似度具有较强的可解释性,提升文本处理的有效性和精度。
-
公开(公告)号:CN114398867B
公开(公告)日:2022-06-28
申请号:CN202210298133.6
申请日:2022-03-25
Applicant: 北京大学
IPC: G06F40/194 , G06F40/30
Abstract: 本发明公布了一种两阶段的长文本相似度计算方法,在第一阶段相似句子检测阶段,基于深度学习模型构建句向量提取模型,将文本转换为句向量;检测得到每条长文本之间多种相似类型的相似句子对;在第二阶段图结构计算阶段,计算得到基础相似度;将长文本相似句子对和基础相似度表示成相似句子关系图;图上的每个节点表示一条长文本;通过运算获得融合群体信息的高层次节点表示;更新节点特征信息,节点特征向量上每个维度的值即对应长文本之间的文本相似度;即获得长文本之间的文本相似度。本发明方法可使得长文本相似度具有较强的可解释性,提升文本处理的有效性和精度。
-
公开(公告)号:CN109582789B
公开(公告)日:2021-07-09
申请号:CN201811339313.4
申请日:2018-11-12
Applicant: 北京大学
IPC: G06F16/35 , G06F16/36 , G06F40/279 , G06F40/30 , G06N3/04
Abstract: 本发明公布了一种基于语义单元信息的文本多标签分类方法,建立语义单元多标签分类模型SU4MLC,将基于注意力机制的循环神经网络序列到序列模型作为基线模型进行改进,通过改进源端用于注意力机制的表示;利用深度学习中的空洞卷积对基线模型的源端上下文表示进行语义单元相关信息抽取,得到语义单元信息;利用多层混合的注意力机制将语义单元信息和词级别信息进行结合,提供给解码器;利用解码器进行标签序列的解码,由此实现基于语义单元信息的文本多标签分类。本发明能够解决现有的注意力机制易受到噪声影响且对分类贡献不足的问题,能够提升注意力机制对文本分类的贡献,更高效地解决文本多标签分类问题。
-
公开(公告)号:CN109582789A
公开(公告)日:2019-04-05
申请号:CN201811339313.4
申请日:2018-11-12
Applicant: 北京大学
Abstract: 本发明公布了一种基于语义单元信息的文本多标签分类方法,建立语义单元多标签分类模型SU4MLC,将基于注意力机制的循环神经网络序列到序列模型作为基线模型进行改进,通过改进源端用于注意力机制的表示;利用深度学习中的空洞卷积对基线模型的源端上下文表示进行语义单元相关信息抽取,得到语义单元信息;利用多层混合的注意力机制将语义单元信息和词级别信息进行结合,提供给解码器;利用解码器进行标签序列的解码,由此实现基于语义单元信息的文本多标签分类。本发明能够解决现有的注意力机制易受到噪声影响且对分类贡献不足的问题,能够提升注意力机制对文本分类的贡献,更高效地解决文本多标签分类问题。
-
-
-