-
公开(公告)号:CN119514533A
公开(公告)日:2025-02-25
申请号:CN202411536569.X
申请日:2024-10-30
Applicant: 复旦大学
IPC: G06F40/284 , G06F40/30 , G06N20/00
Abstract: 本发明涉及文本信息处理领域,公开了一种面向大规模英文专利文本的关键词提取方法,包括以下步骤:S01、输入大规模英文专利文本;S02、对大规模英文专利文本进行预处理,获取包含单词和二元组的词汇集合;S03、基于TF‑IDF算法对预处理后的专利文本进行初步关键词筛选,生成每份文本的关键词候选集;S04、调用大语言模型,对关键词候选集进行优化筛选,结合英文专利文本的上下文语义,确定每份文本的最终关键词集合。本发明中,在专利文本预处理阶段以及收集单词关键词的同时,生成二元组集合作为候选关键词,通过TF‑IDF算法筛选出关键词候选集,再调用大语言模型进行进一步优化,能有效排除无关词汇,并解决英文多义词释义问题,从而有效提升大规模英文专利文本关键词提取的效率和准确性。