一种融合句法结构信息的关键词生成方法及装置

    公开(公告)号:CN114692605B

    公开(公告)日:2025-05-06

    申请号:CN202210415569.9

    申请日:2022-04-20

    Applicant: 东南大学

    Abstract: 本发明公开了一种融合句法结构信息的关键词生成方法及装置,能够为新闻文章自动地生成关键词。本发明首先使用爬虫工具采集新闻文章,并采取人工标注参考关键词构造出新闻文章数据集;然后对文本进行预处理,依存句法分析和过滤停用词;接着基于循环神经网络的顺序编码器和基于图卷积网络的图编码器分别获取文章的上下文语义和结构特征,并利用聚类方法将文本分为包含不同子主题部分,并利用多个基于注意力机制的解码器并行生成关键词;采样交叉熵损失进行模型参数优化;最后基于训练后的模型对待处理的新闻文章进行自动关键词生成。本发明通过句法结构信息弥补顺序编码存在的长距离单词依赖信息损失问题,从而提高生成关键词的质量。

    一种基于词干信息融合的关键词生成方法

    公开(公告)号:CN114781367B

    公开(公告)日:2024-11-12

    申请号:CN202210422977.7

    申请日:2022-04-21

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于词干信息融合的关键词生成方法,该方法首先提取词干信息,将词干信息融入Embedding层,以增强同词干单词的强关联性;接着搜索文本中同词干变种组合构建参考文本,通过编码层模块提取参考文本中的词语义信息;再基于初始文本和参考文本加权扩充生成概率分布,采用双软开关复制机制修正复制机制带来的生成偏差;然后在译码器层面构建词干生成任务,通过词与词干的多任务联合训练获得最终关键词生成概率分布,缓解训练偏差导致网络性能无法充分发挥的问题,最后基于BeamSearch方法生成关键词。相比其他方法,本发明方法以词形态学为基础,生成能力强,预测准确率高,在文本理解方面具有明显优势。

    一种基于词干信息融合的关键词生成方法

    公开(公告)号:CN114781367A

    公开(公告)日:2022-07-22

    申请号:CN202210422977.7

    申请日:2022-04-21

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于词干信息融合的关键词生成方法,该方法首先提取词干信息,将词干信息融入Embedding层,以增强同词干单词的强关联性;接着搜索文本中同词干变种组合构建参考文本,通过编码层模块提取参考文本中的词语义信息;再基于初始文本和参考文本加权扩充生成概率分布,采用双软开关复制机制修正复制机制带来的生成偏差;然后在译码器层面构建词干生成任务,通过词与词干的多任务联合训练获得最终关键词生成概率分布,缓解训练偏差导致网络性能无法充分发挥的问题,最后基于BeamSearch方法生成关键词。相比其他方法,本发明方法以词形态学为基础,生成能力强,预测准确率高,在文本理解方面具有明显优势。

    一种融合句法结构信息的关键词生成方法及装置

    公开(公告)号:CN114692605A

    公开(公告)日:2022-07-01

    申请号:CN202210415569.9

    申请日:2022-04-20

    Applicant: 东南大学

    Abstract: 本发明公开了一种融合句法结构信息的关键词生成方法及装置,能够为新闻文章自动地生成关键词。本发明首先使用爬虫工具采集新闻文章,并采取人工标注参考关键词构造出新闻文章数据集;然后对文本进行预处理,依存句法分析和过滤停用词;接着基于循环神经网络的顺序编码器和基于图卷积网络的图编码器分别获取文章的上下文语义和结构特征,并利用聚类方法将文本分为包含不同子主题部分,并利用多个基于注意力机制的解码器并行生成关键词;采样交叉熵损失进行模型参数优化;最后基于训练后的模型对待处理的新闻文章进行自动关键词生成。本发明通过句法结构信息弥补顺序编码存在的长距离单词依赖信息损失问题,从而提高生成关键词的质量。

Patent Agency Ranking