一种基于自监督对比学习的文本分类方法

    公开(公告)号:CN113139053A

    公开(公告)日:2021-07-20

    申请号:CN202110406702.X

    申请日:2021-04-15

    Abstract: 本发明提供一种基于自监督对比学习的文本分类方法,涉及自然语言处理的技术领域,所述方法包括:获取样本文本和每个样本文本对应的类别标签;将样本文本分为训练集、验证集和测试集并构建初始分类模型;对所有样本文本进行预处理;将所有预处理后的样本文本输入初始分类模型,基于训练集中的样本文本,利用自监督对比学习方法对初始分类模型进行预训练;利用验证集中的样本文本,对预训练后的初始分类模型进行调整;利用测试集中的样本文本对调整后的初始分类模型进行测试,获得最终分类模型;将待分类文本输入最终分类模型,获得待分类结果。本发明实现了在少量具有标注的数据下快速学习,数据成本低,分类结果准确。

    一种基于自监督对比学习的文本分类方法

    公开(公告)号:CN113139053B

    公开(公告)日:2024-03-05

    申请号:CN202110406702.X

    申请日:2021-04-15

    Abstract: 本发明提供一种基于自监督对比学习的文本分类方法,涉及自然语言处理的技术领域,所述方法包括:获取样本文本和每个样本文本对应的类别标签;将样本文本分为训练集、验证集和测试集并构建初始分类模型;对所有样本文本进行预处理;将所有预处理后的样本文本输入初始分类模型,基于训练集中的样本文本,利用自监督对比学习方法对初始分类模型进行预训练;利用验证集中的样本文本,对预训练后的初始分类模型进行调整;利用测试集中的样本文本对调整后的初始分类模型进行测试,获得最终分类模型;将待分类文本输入最终分类模型,获得待分类结果。本发明实现了在少量具有标注的数据下快速学习,数据成本低,分类结果准确。

    基于交互式神经网络的文本匹配方法及相关装置

    公开(公告)号:CN116227458A

    公开(公告)日:2023-06-06

    申请号:CN202310244455.7

    申请日:2023-03-13

    Inventor: 程良伦 李睿濠

    Abstract: 本申请公开了基于交互式神经网络的文本匹配方法及相关装置,方法包括:采用预设Bert模型对两个待匹配文本进行预处理,得到第一文本向量和第二文本向量;通过预置双向LSTM网络分别对两个文本向量进行特征分析,得到对应的两个语义特征向量;基于交叉注意力机制分别计算两个语义特征向量中的子向量的交叉相关关系,得到两个权重分布向量;通过预设自注意力机制根据两个语义特征向量和两个权重分布向量进行全局特征分析,得到两个全局特征向量;将两个全局特征向量输入预设匹配器中进行匹配预测操作,得到匹配预测结果。本申请能解决现有技术对文本信息的关联性分析太少,还忽略全局信息的影响,导致匹配结果缺乏准确性和可靠性的技术问题。

    一种文本相似度计算模型训练方法、计算方法及相关装置

    公开(公告)号:CN115221977A

    公开(公告)日:2022-10-21

    申请号:CN202211000798.0

    申请日:2022-08-19

    Inventor: 赵韦人 李睿濠

    Abstract: 本申请公开了一种文本相似度计算模型训练方法、计算方法及相关装置,构建包括第一分支网络、第二分支网络和预测层的孪生网络;通过第一、第二分支网络分别对第一训练文本、第二训练文本依次进行预处理、语义特征提取和配置权重,得到第一、第二高级语义特征向量;通过预测层计算两个高级语义特征向量之间的欧式距离,并基于欧式距离获取训练文本对之间的相似度预测值;根据训练文本对之间的相似度预测值和实际相似度值更新孪生网络参数,得到文本相似度计算模型,改善了现有技术没有提炼和比对将两个文本的语义内容,忽略了不同字词对于语义表达有着不同程度的作用,从而影响对文本语义的数字化表达,导致相似度计算结果准确性较低的技术问题。

    一种小样本文本分类方法、装置、计算机设备和存储介质

    公开(公告)号:CN112989049A

    公开(公告)日:2021-06-18

    申请号:CN202110343641.7

    申请日:2021-03-30

    Abstract: 本发明提供一种小样本文本分类方法、装置、计算机设备和存储介质,所述方法包括:获取文本数据集并处理,获得小样本文本数据集;对小样本文本数据集中的文本数据预处理;获得预处理后文本数据的词向量和句向量表征形式;以句子为单元划分句子节点,计算句子节点间的权重;遍历所有句子节点,计算每个句子节点的累加权重至收敛;按累加权重的数值从大到小对句子节点进行排序,将前n位的句子节点对应的句向量作为文本摘要;对文本摘要的句向量中词向量加权,获得最终句向量;利用最终句向量对分类器进行训练,利用文本数据对分类器进行性能测试,实现分类。本方法可以在少量样本数据中实现快速学习,对新样本进行分类,分类结果准确,稳定性强。

Patent Agency Ranking