-
公开(公告)号:CN114817454B
公开(公告)日:2024-11-08
申请号:CN202210150583.0
申请日:2022-02-18
Applicant: 北京邮电大学
Abstract: 本发明公开了一种结合信息量和BERT‑BiLSTM‑CRF的NLP知识图谱构建方法,通过分析知网期刊论文数据的结构并结合自然语言处理的研究任务提出自然语言处理领域知识图谱的模式层结构;之后通过提出一种新词发现的算法获得论文数据中的关键术语实体类,提出一种特征融合多分类的算法获得论文细粒度的NLP研究任务实体类。进而完成知识抽取模块对三元组的获取,最终构建完成自然语言处理知识图谱。本发明的新词识别算法弥补了传统技术上仅仅使用信息量来获取新词的缺陷,极大地提高了新词发现的效果。使用XGBoost模型对论文细粒度研究任务的分类相比于其他机器学习模型准确率较高,此外经过特征融合,分类模型的准确率相比于未经特征融合模型的分类准确率提升了约五个百分点。
-
公开(公告)号:CN114817454A
公开(公告)日:2022-07-29
申请号:CN202210150583.0
申请日:2022-02-18
Applicant: 北京邮电大学
Abstract: 本发明公开了一种结合信息量和BERT‑BiLSTM‑CRF的NLP知识图谱构建方法,通过分析知网期刊论文数据的结构并结合自然语言处理的研究任务提出自然语言处理领域知识图谱的模式层结构;之后通过提出一种新词发现的算法获得论文数据中的关键术语实体类,提出一种特征融合多分类的算法获得论文细粒度的NLP研究任务实体类。进而完成知识抽取模块对三元组的获取,最终构建完成自然语言处理知识图谱。本发明的新词识别算法弥补了传统技术上仅仅使用信息量来获取新词的缺陷,极大地提高了新词发现的效果。使用XGBoost模型对论文细粒度研究任务的分类相比于其他机器学习模型准确率较高,此外经过特征融合,分类模型的准确率相比于未经特征融合模型的分类准确率提升了约五个百分点。
-