-
公开(公告)号:CN103853738A
公开(公告)日:2014-06-11
申请号:CN201210500929.1
申请日:2012-11-29
Applicant: 中国科学院计算机网络信息中心
IPC: G06F17/30
CPC classification number: G06F17/30864 , G06F17/2785
Abstract: 本发明公开了一种网页信息相关地域的识别方法。本方法为:1)建立一区域信息本体,2)提取所爬取的网页信息的元数据信息以及正文内容,并对提取的信息标题和正文内容进行分词;3)对词语中表示处所的地名代词进行解析,判断地名代词与其前面出现的地理名词之间是否存在指代关系,如果存在,则将地名代词替换为相应的地理名词;4)对经过分词所得词语中非标准地名词语进行解析,将非标准词语替换为标准词语;5)基于区域信息本体对相对位置区域信息进行解析,得到准确的地名词语;6)基于区域信息本体,对解析后的网页信息进行判断处理,将网页信息归入匹配成功的区域。本发明大大提高了网页信息相关区域识别的准确度。
-
公开(公告)号:CN102662966B
公开(公告)日:2014-01-01
申请号:CN201210060335.3
申请日:2012-03-08
Applicant: 中国科学院计算机网络信息中心
IPC: G06F17/30
Abstract: 本发明公开了一种面向主题的获取动态页面内容的方法及系统,属于网络数据采集技术领域。本方法为:1)在抓取服务器端建立一JavaScript过滤库和一JavaScript本地库;2)获取每一抓取页面的页面信息,生成当前页面的DOM对象;3)根据过滤库检验当前页面中请求的外部文件,如果与主题无关,则在当前页面的DOM对象相应位置设置无需加载标记,否则设置正常加载标记;4)如果标记为正常加载的外部文件存在于本地库,则设置本地加载标记,否则设置正常加载标记;5)执行当前页面中的JavaScript,获取动态页面信息;6)获取整合后的页面信息。与现有技术相比,本方法具有更高的时效性、且动态页面信息完整。
-
公开(公告)号:CN103853738B
公开(公告)日:2017-06-27
申请号:CN201210500929.1
申请日:2012-11-29
Applicant: 中国科学院计算机网络信息中心
IPC: G06F17/30
Abstract: 本发明公开了一种网页信息相关地域的识别方法。本方法为:1)建立一区域信息本体,2)提取所爬取的网页信息的元数据信息以及正文内容,并对提取的信息标题和正文内容进行分词;3)对词语中表示处所的地名代词进行解析,判断地名代词与其前面出现的地理名词之间是否存在指代关系,如果存在,则将地名代词替换为相应的地理名词;4)对经过分词所得词语中非标准地名词语进行解析,将非标准词语替换为标准词语;5)基于区域信息本体对相对位置区域信息进行解析,得到准确的地名词语;6)基于区域信息本体,对解析后的网页信息进行判断处理,将网页信息归入匹配成功的区域。本发明大大提高了网页信息相关区域识别的准确度。
-
公开(公告)号:CN102662966A
公开(公告)日:2012-09-12
申请号:CN201210060335.3
申请日:2012-03-08
Applicant: 中国科学院计算机网络信息中心
IPC: G06F17/30
Abstract: 本发明公开了一种面向主题的获取动态页面内容的方法及系统,属于网络数据采集技术领域。本方法为:1)在抓取服务器端建立一JavaScript过滤库和一JavaScript本地库;2)获取每一抓取页面的页面信息,生成当前页面的DOM对象;3)根据过滤库检验当前页面中请求的外部文件,如果与主题无关,则在当前页面的DOM对象相应位置设置无需加载标记,否则设置正常加载标记;4)如果标记为正常加载的外部文件存在于本地库,则设置本地加载标记,否则设置正常加载标记;5)执行当前页面中的JavaScript,获取动态页面信息;6)获取整合后的页面信息。与现有技术相比,本方法具有更高的时效性、且动态页面信息完整。
-
-
-