一种基于命名实体识别的专利功效提取方法

    公开(公告)号:CN118012985A

    公开(公告)日:2024-05-10

    申请号:CN202410188062.3

    申请日:2024-02-20

    Abstract: 本发明属于文本处理技术领域,具体涉及一种基于命名实体识别的专利功效提取方法,包括:从专利数据库导出专利文本数据,对到处的专利文本数据进行数据去重,选取专利说明书中发明内容和专利摘要,将将选取的内容作为数据源;对数据源进行实体标注,得到带标注的文本;将带标注的文本输入到ERNIE+CRF中,进行模型训练;将训练后的模型作为实体识别模型,输入一段专利文本进行实体识别,得到带有标注的标签序列;将带有标注的标签序列进行配对,得到专利的功效词或功效短语。本发明在不依赖规则和词典的情况下,只需部分标记数据即可达到高精度的识别效果,且具备一定的跨领域识别的能力。

Patent Agency Ranking