一种基于关键词的多粒度中文短文本匹配方法

    公开(公告)号:CN115114932A

    公开(公告)日:2022-09-27

    申请号:CN202210738535.3

    申请日:2022-06-24

    Abstract: 本发明涉及一种基于关键词的多粒度中文短文本匹配方法,属于自然语言处理领域,包括以下步骤:S1:将句子分为字和词两个粒度,将两个粒度的句子统一填充到长度N,在对应数据集上训练Word2Vec,获得字和词两个粒度的嵌入表示;S2:用两个BiGRU对句子向量进行编码,获得句子两个方向的上下文信息;S3:用交叉注意力获得字粒度特征和词粒度特征之间的关联,再对其及逆行平均池化并连接获得句子最终的表示向量;S4:连接两句子的词粒度嵌入向量,用11层Transformer编码器和一层关注关键词的Transformer进行编码;S5:连接关键词特征和两句子的表示向量作为最终的预测向量。

    一种基于关键词的多粒度中文短文本匹配方法

    公开(公告)号:CN115114932B

    公开(公告)日:2024-06-28

    申请号:CN202210738535.3

    申请日:2022-06-24

    Abstract: 本发明涉及一种基于关键词的多粒度中文短文本匹配方法,属于自然语言处理领域,包括以下步骤:S1:将句子分为字和词两个粒度,将两个粒度的句子统一填充到长度N,在对应数据集上训练Word2Vec,获得字和词两个粒度的嵌入表示;S2:用两个BiGRU对句子向量进行编码,获得句子两个方向的上下文信息;S3:用交叉注意力获得字粒度特征和词粒度特征之间的关联,再对其及逆行平均池化并连接获得句子最终的表示向量;S4:连接两句子的词粒度嵌入向量,用11层Transformer编码器和一层关注关键词的Transformer进行编码;S5:连接关键词特征和两句子的表示向量作为最终的预测向量。

Patent Agency Ranking