一种文本中命名实体的识别方法、装置和存储介质

    公开(公告)号:CN117875328A

    公开(公告)日:2024-04-12

    申请号:CN202410112121.9

    申请日:2024-01-26

    Applicant: 上海大学

    Abstract: 本发明涉及一种文本中命名实体的识别方法、装置和存储介质,方法包括以下步骤:获取有标签数据集和无标签数据集;使用有标签数据集训练模型,得到初始模型;从无标签数据集中进行不放回随机采样,得到一批无标签数据,预测得到模型预测结果,对同一批无标签数据,使用语言模型进行模板填充任务,得到字典结构的语言模型预测结果,筛选出模型预测结果与语言模型预测结果符合启发式规则的数据,作为新的有标签数据加入有标签数据集中,使用补充后的有标签数据集重新训练命名实体识别模型,得到评价分数最高的最终模型,应用最终模型识别命名实体。与现有技术相比,本发明能够在只有少量人工标注数据的情况下,训练出符合需求的命名实体识别模型。

Patent Agency Ranking