-
公开(公告)号:CN115510245A
公开(公告)日:2022-12-23
申请号:CN202211259591.5
申请日:2022-10-14
Applicant: 北京理工大学
IPC: G06F16/36 , G06F16/335 , G06F16/35 , G06F40/216 , G06F40/295 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种面向非结构化数据的领域知识抽取方法,该方法为:基于双向长短时记忆神经网络及条件随机场建立实体抽取模型,基于注意力机制建立关系抽取模型,并分别训练两个模型;用训练好的实体抽取模型对待抽取的非结构化数据进行抽取,获得领域实体,并将领域实体以表格形式存储为领域实体表;用训练好的关系抽取模型对关系进行抽取,在领域实体表的基础上获得实体‑关系表;根据抽取得到的所有实体与关系,基于语义相似度进行知识融合,得到知识融合后的实体‑关系表,并在neo4j图数据库中建立知识图谱;本发明能够解决目前领域知识获取以手动为主,管理的效率低下,领域知识体系不够完善的问题,实现对非结构化数据的知识抽取。