-
公开(公告)号:CN116796739A
公开(公告)日:2023-09-22
申请号:CN202310831372.8
申请日:2023-07-07
Applicant: 北京交通大学
IPC: G06F40/289 , G06F40/126 , G06F40/194 , G06F40/30
Abstract: 本发明提供了一种文档的无监督关键词抽取方法。该方法包括:构建输入文档的候选词语集合;通过文档词语编码器和自注意力机制构建子集抽取智能体,并利用文档到集合的打分函数作为奖励函数训练该智能体,所述子集抽取智能体实现从候选词语集合中抽取关键词子集;将所述输入文档的候选词语集合输入到训练好的子集抽取智能体,所述训练好的子集抽取智能体输出上述输入文档的最优关键词子集。本发明通过正交优化正则的排序损失函数构建了文档到集合的打分函数作为强化学习中的奖励函数,允许模型从集合的角度对候选关键词集合进行打分,达到对关键词重要性准确估计的目的,极大提升了无监督关键词抽取的性能。