一种基于义原分析和跨度特征的工业文本实体抽取方法

    公开(公告)号:CN116304020A

    公开(公告)日:2023-06-23

    申请号:CN202310045143.3

    申请日:2023-01-30

    Abstract: 本发明公开了一种基于义原分析和跨度特征的工业文本实体抽取方法,属于自然语言处理技术领域。该方法包括:获取工业文本数据集,并对其进行预处理,获得原始文本;对所述原始文本进行分词操作,同时进行词向量训练;基于义原分析获取实体类别定义,并对所述原始文本进行实体标注及数据集划分;设计基于跨度的实体抽取模型,利用标注后的所述原始文本进行模型训练及测试,得到训练好的实体抽取模型;利用所述训练好的实体抽取模型对未标注的工业文本进行实体识别。本发明能快速对实体类别进行定义,减轻了实体定义对于专家知识的依赖和对文本的人工分析,同时融合多特征的实体抽取模型在识别工业零部件等常见实体边界的效果较好,实体识别准确率较高。

Patent Agency Ranking