一种基于多语义特征融合的文本分类方法和装置

    公开(公告)号:CN117271765A

    公开(公告)日:2023-12-22

    申请号:CN202311059507.X

    申请日:2023-08-22

    Abstract: 本发明公开了一种基于多语义特征融合的文本分类方法及装置,所述方法包括:获取待分类的文本,将所述待分类的文本进行预处理,得到处理后的文本;将词级粒度向量输入训练完毕的词级语义特征提取模型,得到词级语义特征;将句子级粒度向量输入训练完毕的句子级语义特征提取模型,得到句子级语义特征;基于文章级向量对所述处理后的文本进行特征提取,得到文本级语义特征;将所述词级语义特征、句子级语义特征以及文本级语义特征进行特征拼接融合,得到融合后特征,使用分类器对所述融合后特征进行分类。本方法从词粒度、句子粒度和文章粒度等多个层面对文本进行精细语义建模,利用文本的多语义融合特征进行文本分类,提高了文本分类的准确率。

    基于向量动态扰动的新闻脉络关系检测方法及装置

    公开(公告)号:CN117149948B

    公开(公告)日:2024-07-23

    申请号:CN202311056211.2

    申请日:2023-08-22

    Abstract: 本发明公开了一种基于向量动态扰动的新闻脉络关系检测方法及装置,所述方法包括:针对待检测新闻文本对,基于每一新闻文本数据中包含的实体,对新闻文本数据进行文本截取,以得到新文本数据对;获取至少一个预训练模型;基于预训练模型,获取新文本数据对的编码表示;基于待检测新闻文本中包含的事件及事件论元、实体、关键词,对各层CLS关系表示向量进行表示增强;对表示增强的各层CLS嵌入表示进行动态加权平均后,基于平均CLS嵌入表示预测该预训练模型对应的关系预测概率;对至少一个预训练模型对应的关系预测概率进行融合平均,得到待检测新闻文本的关系预测结果。本发明可以提高新闻脉络关系检测任务的准确率和泛化性能。

    基于向量动态扰动的新闻脉络关系检测方法及装置

    公开(公告)号:CN117149948A

    公开(公告)日:2023-12-01

    申请号:CN202311056211.2

    申请日:2023-08-22

    Abstract: 本发明公开了一种基于向量动态扰动的新闻脉络关系检测方法及装置,所述方法包括:针对待检测新闻文本对,基于每一新闻文本数据中包含的实体,对新闻文本数据进行文本截取,以得到新文本数据对;获取至少一个预训练模型;基于预训练模型,获取新文本数据对的编码表示;基于待检测新闻文本中包含的事件及事件论元、实体、关键词,对各层CLS关系表示向量进行表示增强;对表示增强的各层CLS嵌入表示进行动态加权平均后,基于平均CLS嵌入表示预测该预训练模型对应的关系预测概率;对至少一个预训练模型对应的关系预测概率进行融合平均,得到待检测新闻文本的关系预测结果。本发明可以提高新闻脉络关系检测任务的准确率和泛化性能。

Patent Agency Ranking