一种网页信息相关地域的识别方法

    公开(公告)号:CN103853738B

    公开(公告)日:2017-06-27

    申请号:CN201210500929.1

    申请日:2012-11-29

    Abstract: 本发明公开了一种网页信息相关地域的识别方法。本方法为:1)建立一区域信息本体,2)提取所爬取的网页信息的元数据信息以及正文内容,并对提取的信息标题和正文内容进行分词;3)对词语中表示处所的地名代词进行解析,判断地名代词与其前面出现的地理名词之间是否存在指代关系,如果存在,则将地名代词替换为相应的地理名词;4)对经过分词所得词语中非标准地名词语进行解析,将非标准词语替换为标准词语;5)基于区域信息本体对相对位置区域信息进行解析,得到准确的地名词语;6)基于区域信息本体,对解析后的网页信息进行判断处理,将网页信息归入匹配成功的区域。本发明大大提高了网页信息相关区域识别的准确度。

    一种及时高效的互联网信息爬取方法

    公开(公告)号:CN103176985B

    公开(公告)日:2016-06-29

    申请号:CN201110430997.0

    申请日:2011-12-20

    Abstract: 本发明公开了一种及时高效的互联网信息爬取方法,属于信息技术领域。本方法为:1)设定种子地址,爬取保存网页信息并确定导航页面;2)对每一导航页面进行多次爬取,并对爬取的网页进行分析标注;4)建立每一网站的主题判断模型和导航页面变更时间序列预测模型;5)预测每一网站导航页面下一次变更时间,确定下一爬取时间,爬取导航页面并提取未爬取过的子页面地址和锚文本;6)利用所建主题判断模型对上一步提取的子页面地址和锚文本进行判断,并据判断结果分别处理;7)基于新爬取的主题相关页面,形成或更新每一网站导航页面的当前变更时间序列,确定下一爬取时间进行网页爬取。本发明能在较小负载下,保证所采集信息的新颖性和主题性。

    一种网页信息相关地域的识别方法

    公开(公告)号:CN103853738A

    公开(公告)日:2014-06-11

    申请号:CN201210500929.1

    申请日:2012-11-29

    CPC classification number: G06F17/30864 G06F17/2785

    Abstract: 本发明公开了一种网页信息相关地域的识别方法。本方法为:1)建立一区域信息本体,2)提取所爬取的网页信息的元数据信息以及正文内容,并对提取的信息标题和正文内容进行分词;3)对词语中表示处所的地名代词进行解析,判断地名代词与其前面出现的地理名词之间是否存在指代关系,如果存在,则将地名代词替换为相应的地理名词;4)对经过分词所得词语中非标准地名词语进行解析,将非标准词语替换为标准词语;5)基于区域信息本体对相对位置区域信息进行解析,得到准确的地名词语;6)基于区域信息本体,对解析后的网页信息进行判断处理,将网页信息归入匹配成功的区域。本发明大大提高了网页信息相关区域识别的准确度。

    一种及时高效的互联网信息爬取方法

    公开(公告)号:CN103176985A

    公开(公告)日:2013-06-26

    申请号:CN201110430997.0

    申请日:2011-12-20

    Abstract: 本发明公开了一种及时高效的互联网信息爬取方法,属于信息技术领域。本方法为:1)设定种子地址,爬取保存网页信息并确定导航页面;2)对每一导航页面进行多次爬取,并对爬取的网页进行分析标注;4)建立每一网站的主题判断模型和导航页面变更时间序列预测模型;5)预测每一网站导航页面下一次变更时间,确定下一爬取时间,爬取导航页面并提取未爬取过的子页面地址和锚文本;6)利用所建主题判断模型对上一步提取的子页面地址和锚文本进行判断,并据判断结果分别处理;7)基于新爬取的主题相关页面,形成或更新每一网站导航页面的当前变更时间序列,确定下一爬取时间进行网页爬取。本发明能在较小负载下,保证所采集信息的新颖性和主题性。

Patent Agency Ranking