一种基于部首特征和多层注意力机制的中文自动问答方法

    公开(公告)号:CN114118099B

    公开(公告)日:2025-05-23

    申请号:CN202111325158.2

    申请日:2021-11-10

    Abstract: 一种基于部首特征和多层注意力机制的中文自动问答方法,包括以下步骤:步骤1、对数据集进行预处理;步骤2、得到词嵌入矩阵,通过随机初始化得到部首嵌入矩阵;步骤3、通过词嵌入和部首嵌入将词语分别转化为向量表示,在词语向量后追加语言学特征;步骤4、将文档向量序列问题向量序列分别输入至不同的双向RNN网络进行编码;步骤5、根据文档向量序列与问题向量,依次计算得到答案开始和结束边界的概率,生成目标概率分布,步骤6、使用数据集对模型训练N轮,通过计算损失并对参数进行更新,使用mini‑batch策略对模型进行训练,使用模型对给定的一个文档和与之相关的问题进行处理,预测得到答案。本发明提高了自动问答的准确率。

    一种基于CNN和拼音特征的中文短文本相似度计算方法

    公开(公告)号:CN115525735A

    公开(公告)日:2022-12-27

    申请号:CN202211166508.X

    申请日:2022-09-23

    Inventor: 潘建 吕思睿

    Abstract: 本发明涉及一种基于CNN和拼音特征的中文短文本相似度计算方法,包括:生成两个中文短文本的句子列表,然后生成句粒度拼音嵌入矩阵和句粒度词嵌入矩阵,将相同字的向量拼接并融合;计算两个文本中两个字的注意力分数,生成两个文本间每个字的注意力矩阵,将注意力矩阵与权重矩阵相乘,生成高粒度的句子特征映射;计算单个字的注意力权重并进行平均池化,生成两个中文短文本的句向量;将句向量输入逻辑回归层,计算得到两个中文短文本的相似度。本发明的方法将汉字的拼音信息结合到词分析中来学习更准确的表征,从而用于在中文短文本相似度匹配任务中综合考虑文字的读音,结合读音所表征的语义更精确判断相似度。

    一种基于主题模型和汉字特征的短文本相似度计算方法

    公开(公告)号:CN117574889A

    公开(公告)日:2024-02-20

    申请号:CN202310265739.4

    申请日:2023-03-13

    Abstract: 本发明公开了一种基于主题模型和汉字特征的短文本相似度计算方法,包括步骤1至步骤8,其中步骤1,预处理数据集得到句子列表WListi{i=0,1},步骤2,加载训练的部首矩阵将句子列表转换为部首嵌入矩阵Fi,r,步骤3,加载预训练的词嵌入矩阵将句子列表转换为词嵌入矩阵Fi,w,步骤4,将词嵌入矩阵Fi,w通过主题模型得到主题概率分布矩阵Ti,相对于现有技术,本发明具有如下优点,1)引入了部首特征,增加预训练的丰富性。2)引入了主题模型,在计算相似性之前辅助帮助模型就更加准确的来判断两个句子是否属于同一主题,提高了相似性计算的概率3)在文本表示的基础上利用注意机制学习两个句子之间的关系,将句子对之间的相似度关系赋予不同的权重,增强神经网络学习到的表征信息。

    一种基于部首特征和多层注意力机制的中文自动问答方法

    公开(公告)号:CN114118099A

    公开(公告)日:2022-03-01

    申请号:CN202111325158.2

    申请日:2021-11-10

    Abstract: 一种基于部首特征和多层注意力机制的中文自动问答方法,包括以下步骤:步骤1、对数据集进行预处理;步骤2、得到词嵌入矩阵,通过随机初始化得到部首嵌入矩阵;步骤3、通过词嵌入和部首嵌入将词语分别转化为向量表示,在词语向量后追加语言学特征;步骤4、将文档向量序列问题向量序列分别输入至不同的双向RNN网络进行编码;步骤5、根据文档向量序列与问题向量,依次计算得到答案开始和结束边界的概率,生成目标概率分布,步骤6、使用数据集对模型训练N轮,通过计算损失并对参数进行更新,使用mini‑batch策略对模型进行训练,使用模型对给定的一个文档和与之相关的问题进行处理,预测得到答案。本发明提高了自动问答的准确率。

Patent Agency Ranking