-
公开(公告)号:CN112541339A
公开(公告)日:2021-03-23
申请号:CN202011364225.7
申请日:2020-11-29
Applicant: 同济大学
Abstract: 本发明公开了一种基于随机森林和序列标注模型的知识抽取方法,具体涉及基于随机森林和BILSTM_CRF的实体关系联合抽取方法。首先获取非结构化文本,对文本进行预处理以及句子向量化表示,然后把语句序列输入句子选择器筛选出高质量语句,把选择的语句输入BILSTM_CRF序列标注模型进行标注训练,最后用训练好的模型对输入的语句进行句子级别的序列标注。本发明基于随机森林,通过BILSTM_CRF序列标注模型有效地抽取非结构化文本中的知识并形成结构化信息,采用这种抽取方法,极大地提高了非结构化信息抽取的效率,有助于丰富已有的知识图谱资源,进而为各种智能化应用更好地服务。