-
公开(公告)号:CN114329143A
公开(公告)日:2022-04-12
申请号:CN202111649035.4
申请日:2021-12-30
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F16/951
Abstract: 本发明公开一种新闻网页的信息抽取方法及终端,获取新闻网页的HTML源码,并对所述HTML源码进行一次预处理,得到一次预处理后的HTML源码;根据预设XPATH规则对所述一次预处理后的HTML源码进行信息抽取,得到网页标题、发布标题、发布作者和发布时间;对所述一次预处理后的HTML源码进行二次预处理,得到二次预处理后的HTML源码;利用文本密度公式与符号密度公式对所述二次预处理后的HTML源码进行信息抽取,得到发布内容,实现了新闻网页信息的自动化抽取,且对HTML源码进行一次预处理能够过滤掉其中的无用信息,进而提高信息抽取效率,能够进一步提高发布内容抽取的精确度,从而提高了新闻网页中信息抽取的效率和准确率。