Patent search ap:("复旦大学") AND inv:"牟尧佳" Page 1

1.

发明公开
一种面向大规模英文专利文本的关键词提取方法审中-实审

公开(公告)号：CN119514533A

公开(公告)日：2025-02-25

申请号：CN202411536569.X

申请日：2024-10-30

Applicant: 复旦大学

Inventor： 牟尧佳 , 朱国牛 , 甘中学

IPC: G06F40/284 , G06F40/30 , G06N20/00

Abstract: 本发明涉及文本信息处理领域，公开了一种面向大规模英文专利文本的关键词提取方法，包括以下步骤：S01、输入大规模英文专利文本；S02、对大规模英文专利文本进行预处理，获取包含单词和二元组的词汇集合；S03、基于TF‑IDF算法对预处理后的专利文本进行初步关键词筛选，生成每份文本的关键词候选集；S04、调用大语言模型，对关键词候选集进行优化筛选，结合英文专利文本的上下文语义，确定每份文本的最终关键词集合。本发明中，在专利文本预处理阶段以及收集单词关键词的同时，生成二元组集合作为候选关键词，通过TF‑IDF算法筛选出关键词候选集，再调用大语言模型进行进一步优化，能有效排除无关词汇，并解决英文多义词释义问题，从而有效提升大规模英文专利文本关键词提取的效率和准确性。

Patent Agency Ranking