-
公开(公告)号:CN102591948A
公开(公告)日:2012-07-18
申请号:CN201110445475.8
申请日:2011-12-27
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F17/30
Abstract: 本发明公开了一种基于用户行为分析的搜索结果改进的方法及其系统,是在用户的初次查询过程中记录用户对初次搜索结果的搜索行为,而在再次查询过程中,先不将获取的再次搜索结果提供给用户,而是首先判断前后两次查询是否为相同主题,当判断为不是相同主题时则将再次查询过程获取的再次搜索结果提供给用户,当判断为是相同主题时则根据用户的搜索行为,对再次搜索结果进行处理并重新排序,并将处理和重新排序后的搜索结果提供给用户。该方法及其系统,通过对用户的搜索行为进行分析处理,判断用户相邻的两次搜索之间的关联性,进而导出主题相关性高的搜索结果,达到节省人力、提高搜索结果相关性进而提升用户的搜索体验的目的。
-
公开(公告)号:CN102937958B
公开(公告)日:2016-03-16
申请号:CN201210277173.9
申请日:2012-08-06
Applicant: 厦门市美亚柏科信息股份有限公司
Abstract: 本发明公开了一种基于不完全子树匹配的Web数据记录提取方法,包括如下步骤:根据HTTP协议下载网页的HTML源代码,并将下载的字符以统一的UNICODE进行编码;过滤噪声标记信息;利用NEKO或者HTMLParser之类的组件对HTML源代码进行解析,构造网页的Document树;候选子树集抽取;不完全子树匹配;数据记录集确定。本发明具基于子树的匹配,不依赖于网页的模板结构所以方法具有很高的通用性;通过标签过滤和候选子树集的确定,可以有效提高数据抽取过程的性能;基于截取的不完全子树匹配方法判断子树结构之间的相似性,可以有效地消除数据对模板进行填充后导致的结构性差异,提高数据记录提取的精度的优点。
-
公开(公告)号:CN102591612B
公开(公告)日:2014-12-03
申请号:CN201110446701.4
申请日:2011-12-27
Applicant: 厦门市美亚柏科信息股份有限公司
Abstract: 本发明公开了一种基于标点连续性的通用网页正文提取方法及其系统,包括读入文件,转化为Unicode的处理步骤;去除噪声标记信息的处理步骤;生成html标记树的处理步骤;处理正文格式信息的处理步骤;提取文本节点生成文本句子序列的处理步骤;利用常用的标点对文本序列块重新分句的处理步骤和利用标点的连续性原理提取最长连续正文的处理步骤。这种利用标点的连续性来获取网页正文的方式,具有处理速度快、适应性强和通用性强的特点。
-
公开(公告)号:CN102591612A
公开(公告)日:2012-07-18
申请号:CN201110446701.4
申请日:2011-12-27
Applicant: 厦门市美亚柏科信息股份有限公司
Abstract: 本发明公开了一种基于标点连续性的通用网页正文提取方法及其系统,包括读入文件,转化为Unicode的处理步骤;去除噪声标记信息的处理步骤;生成html标记树的处理步骤;处理正文格式信息的处理步骤;提取文本节点生成文本句子序列的处理步骤;利用常用的标点对文本序列块重新分句的处理步骤和利用标点的连续性原理提取最长连续正文的处理步骤。这种利用标点的连续性来获取网页正文的方式,具有处理速度快、适应性强和通用性强的特点。
-
公开(公告)号:CN102937958A
公开(公告)日:2013-02-20
申请号:CN201210277173.9
申请日:2012-08-06
Applicant: 厦门市美亚柏科信息股份有限公司
Abstract: 本发明公开了一种基于不完全子树匹配的Web数据记录提取方法,包括如下步骤:根据HTTP协议下载网页的HTML源代码,并将下载的字符以统一的UNICODE进行编码;过滤噪声标记信息;利用NEKO或者HTMLParser之类的组件对HTML源代码进行解析,构造网页的Document树;候选子树集抽取;不完全子树匹配;数据记录集确定。本发明具基于子树的匹配,不依赖于网页的模板结构所以方法具有很高的通用性;通过标签过滤和候选子树集的确定,可以有效提高数据抽取过程的性能;基于截取的不完全子树匹配方法判断子树结构之间的相似性,可以有效地消除数据对模板进行填充后导致的结构性差异,提高数据记录提取的精度的优点。
-
公开(公告)号:CN102591948B
公开(公告)日:2014-11-19
申请号:CN201110445475.8
申请日:2011-12-27
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F17/30
Abstract: 本发明公开了一种基于用户行为分析的搜索结果改进的方法及其系统,是在用户的初次查询过程中记录用户对初次搜索结果的搜索行为,而在再次查询过程中,先不将获取的再次搜索结果提供给用户,而是首先判断前后两次查询是否为相同主题,当判断为不是相同主题时则将再次查询过程获取的再次搜索结果提供给用户,当判断为是相同主题时则根据用户的搜索行为,对再次搜索结果进行处理并重新排序,并将处理和重新排序后的搜索结果提供给用户。该方法及其系统,通过对用户的搜索行为进行分析处理,判断用户相邻的两次搜索之间的关联性,进而导出主题相关性高的搜索结果,达到节省人力、提高搜索结果相关性进而提升用户的搜索体验的目的。
-
-
-
-
-