-
公开(公告)号:CN102609518B
公开(公告)日:2015-02-18
申请号:CN201210028947.4
申请日:2012-02-09
Applicant: 清华大学
IPC: G06F17/30
Abstract: 本发明是一种多状态AJAX网页内容自动获取方法和系统,属于互联网数据挖掘技术领域。该方法包括:加载网页并提取AJAX调用事件,按照基于AJAX状态转换图的遍历方法逐步执行所有AJAX调用事件,并用AJAX状态识别方法判断每次执行得到的状态是否是重复状态,从而自动获取多状态AJAX网页所有状态内容和状态转换信息。与所述方法相对应的系统包括:事件识别和执行单元、页面状态识别单元和状态遍历调度单元。通过本发明能获取到多状态AJAX网页内容和状态转换信息,使搜索引擎能够索引更完整的网页内容。
-
公开(公告)号:CN102609518A
公开(公告)日:2012-07-25
申请号:CN201210028947.4
申请日:2012-02-09
Applicant: 清华大学
IPC: G06F17/30
Abstract: 本发明是一种多状态AJAX网页内容自动获取方法和系统,属于互联网数据挖掘技术领域。该方法包括:加载网页并提取AJAX调用事件,按照基于AJAX状态转换图的遍历方法逐步执行所有AJAX调用事件,并用AJAX状态识别方法判断每次执行得到的状态是否是重复状态,从而自动获取多状态AJAX网页所有状态内容和状态转换信息。与所述方法相对应的系统包括:事件识别和执行单元、页面状态识别单元和状态遍历调度单元。通过本发明能获取到多状态AJAX网页内容和状态转换信息,使搜索引擎能够索引更完整的网页内容。
-