-
公开(公告)号:CN115114932A
公开(公告)日:2022-09-27
申请号:CN202210738535.3
申请日:2022-06-24
Applicant: 重庆邮电大学
IPC: G06F40/30 , G06F40/289 , G06F40/211 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种基于关键词的多粒度中文短文本匹配方法,属于自然语言处理领域,包括以下步骤:S1:将句子分为字和词两个粒度,将两个粒度的句子统一填充到长度N,在对应数据集上训练Word2Vec,获得字和词两个粒度的嵌入表示;S2:用两个BiGRU对句子向量进行编码,获得句子两个方向的上下文信息;S3:用交叉注意力获得字粒度特征和词粒度特征之间的关联,再对其及逆行平均池化并连接获得句子最终的表示向量;S4:连接两句子的词粒度嵌入向量,用11层Transformer编码器和一层关注关键词的Transformer进行编码;S5:连接关键词特征和两句子的表示向量作为最终的预测向量。
-
公开(公告)号:CN115114932B
公开(公告)日:2024-06-28
申请号:CN202210738535.3
申请日:2022-06-24
Applicant: 重庆邮电大学
IPC: G06F40/30 , G06F40/289 , G06F40/211 , G06N3/048 , G06N3/0455 , G06N3/08
Abstract: 本发明涉及一种基于关键词的多粒度中文短文本匹配方法,属于自然语言处理领域,包括以下步骤:S1:将句子分为字和词两个粒度,将两个粒度的句子统一填充到长度N,在对应数据集上训练Word2Vec,获得字和词两个粒度的嵌入表示;S2:用两个BiGRU对句子向量进行编码,获得句子两个方向的上下文信息;S3:用交叉注意力获得字粒度特征和词粒度特征之间的关联,再对其及逆行平均池化并连接获得句子最终的表示向量;S4:连接两句子的词粒度嵌入向量,用11层Transformer编码器和一层关注关键词的Transformer进行编码;S5:连接关键词特征和两句子的表示向量作为最终的预测向量。
-