-
公开(公告)号:CN108491414A
公开(公告)日:2018-09-04
申请号:CN201810111700.6
申请日:2018-02-05
Applicant: 中国科学院信息工程研究所
Abstract: 本发明提供一种融合话题特征的新闻内容在线抽取方法,步骤包括:将新闻页面的html转化为DOM树,将所有文本节点按照先序遍历的顺序排列;对每一个文本节点的文本进行分词,去除停用词,获取关键词;基于所述关键词,生成局部最大相容类,获得整个页面产生的全部话题,计算每个话题权重特征;将包含所述权重特征的话题特征以及非内容特征量化成证据的形式,使用DS证据理论进行特征融合,获得文本节点是正文的概率;将所述概率进行平滑处理,使用Otsu算法计算使得类间方差最大的分割阈值,获得高特征值的文本节点并将其作为新闻正文。本发明还提供一种融合话题特征的新闻内容在线抽取系统。