-
公开(公告)号:CN112307364B
公开(公告)日:2021-10-29
申请号:CN202011336057.0
申请日:2020-11-25
Applicant: 哈尔滨工业大学
IPC: G06F16/9537 , G06F16/29 , G06F40/295 , G06F40/30 , G06N3/04 , G06N3/00
Abstract: 一种面向人物表征的新闻文本发生地抽取方法,属于信息提取领域,用以解决在人物表征过程中现有的命名实体识别算法缺少语义结构信息分析,导致新闻文本中出现多个地名时难以分辨新闻发生地的问题。本发明的技术要点包括,对新闻文本数据集中新闻文本进行预处理;对预处理后的新闻文本中的实体及实体类别、段落特征、句子特征、词特征进行标注;对标注后的新闻文本中的地名关系进行抽取,构建新的地名实体知识图谱;并采用基于深度森林算法gcForest对新闻文本数据集中的新闻发生地进行预测抽取。本发明可用于新闻事件相关人物的特性表征。
-
公开(公告)号:CN112307364A
公开(公告)日:2021-02-02
申请号:CN202011336057.0
申请日:2020-11-25
Applicant: 哈尔滨工业大学
IPC: G06F16/9537 , G06F16/29 , G06F40/295 , G06F40/30 , G06N3/04 , G06N3/00
Abstract: 一种面向人物表征的新闻文本发生地抽取方法,属于信息提取领域,用以解决在人物表征过程中现有的命名实体识别算法缺少语义结构信息分析,导致新闻文本中出现多个地名时难以分辨新闻发生地的问题。本发明的技术要点包括,对新闻文本数据集中新闻文本进行预处理;对预处理后的新闻文本中的实体及实体类别、段落特征、句子特征、词特征进行标注;对标注后的新闻文本中的地名关系进行抽取,构建新的地名实体知识图谱;并采用基于深度森林算法gcForest对新闻文本数据集中的新闻发生地进行预测抽取。本发明可用于新闻事件相关人物的特性表征。
-