一种优化网站链接结构的方法

    公开(公告)号:CN100385442C

    公开(公告)日:2008-04-30

    申请号:CN200510011212.0

    申请日:2005-01-20

    Abstract: 本发明涉及网络信息处理技术领域,是一种利用网络用户对网页之间相关性的潜在理解来优化网站链接结构的方法。该方法利用网站的服务器日志中蕴含的网络用户对网页之间相关性的潜在理解,从网站的服务器日志中抽取出用户主观上认为的网站链接结构,即虚拟链接结构;并将虚拟链接结构与网站的实际链接结构相比较,计算二者的匹配程度,匹配度越高,说明该网站的链接质量越好;最后将匹配结果量化,汇报给网站设计者。因为该方法是根据网络用户主观上对网站中各网页之间相关性的理解,去纠正网站设计者对网站链接结构的理解,所以能够真正地帮助网站设计者去优化网站链接结构,为用户提供更好的服务。

    一种网页的正文抽取方法

    公开(公告)号:CN101727461B

    公开(公告)日:2012-11-21

    申请号:CN200810223791.9

    申请日:2008-10-13

    Inventor: 郭岩 丁国栋 张刚

    Abstract: 本发明提供一种网页的正文抽取方法,包括下列步骤:1)将为所述网页建立的DOM树中的所有特征节点进行合并段落操作;2)从承载最长段落的节点集合中任选一个节点,从所选节点回溯至所述DOM树的根节点,计算各个节点的父节点及其子树与该节点及其子树承载的文本的标点符号的数量的差值,顺序构成增量序列;3)在所述增量序列中查找第一个0值的增量,或第一个小于其前面相邻增量且小于或等于其后面相邻增量的增量;4)如果查找到所述增量,则确定该增量的对应节点及其子树所承载的文本是网页的正文;5)如果未查找到所述增量,则确定根节点及其子树所承载的文本是网页的正文。本发明抽取精度高,实现速度快,维护代价低且适应性好。

    一种获取网络音视频节目地址的方法

    公开(公告)号:CN101635826A

    公开(公告)日:2010-01-27

    申请号:CN200810116933.1

    申请日:2008-07-21

    Inventor: 张斌 张刚 程学旗

    Abstract: 本发明涉及网络通信技术领域,提出一种获取网络音视频节目地址的方法,包括:使用浏览器打开包含音视频节目的多个网页,播放器准备开始播放节目;所述播放器向远程视频服务器请求所述网页,播放器根据页面传递的参数得到需要请求的视频源的网络地址,从远程读取数据源进行播放;获取并分析播放器和远程视频服务器的交互信息,获得所述网络音视频节目地址。利用浏览器控制与网络地址监听相结合的方式来发现网络音视频地址,并应用浏览器判定页面是否包含音视频播放器和控制播放器的播放,解决音视频网页脚本复杂以及FLV难以从页面获取地址的问题。

    一种利用网络用户访问特性的网络代理缓存替换方法

    公开(公告)号:CN1281029C

    公开(公告)日:2006-10-18

    申请号:CN200410047534.6

    申请日:2004-05-21

    Abstract: 本发明涉及网络通信技术领域,利用网络用户访问特性的网络代理缓存替换方法。该方法利用用户访问网络的特性,设计了一种网络代理缓存替换系统来实现网络代理缓存服务。步骤:S1,假设Δ′T是网络代理缓存中某页面这次被访问和下次被访问期间发生的所有访问的次数;S2,用户请求页面t,判断缓存中是否包含了t的副本?S3,把t的过期副本从缓存中删除,从网络服务器获得t的新副本;S4,判断缓存中的剩余空间是否足以存放t的新副本?S5,替换优先级最低的页面;S6,把t的新副本压入缓存,S7,副本被返回给用户;S8,根据权重计算公式更新缓存中每个页面的权重;S9,判断是否已经过了一个固定时间段。

    一种从论坛帖子列表页面中抽取帖子元数据的方法

    公开(公告)号:CN101661468B

    公开(公告)日:2011-08-31

    申请号:CN200810119238.0

    申请日:2008-08-29

    Abstract: 本发明公开了一种从论坛帖子列表页面中抽取帖子元数据的方法,其包括如下步骤:步骤S1,提供论坛帖子列表页面作为样例页面,根据样例页面中的帖子记录的组织结构特征生成抽取模板;步骤S2,根据抽取模板,对与样例页面中的帖子记录的组织结构相同或相似的论坛帖子列表页面作在线抽取操作,获得帖子元数据。本发明能够满足处理大量的大规模论坛数据的实际需求,且抽取精度高、抽取速度快、维护代价小。

    一种网页信息抽取的系统及方法

    公开(公告)号:CN101464905B

    公开(公告)日:2011-03-23

    申请号:CN200910076548.3

    申请日:2009-01-08

    Abstract: 本发明涉及网页信息抽取的系统和方法,系统包括:模板生成模块,用于从网页集合中选取待自动标注网页,根据用户标注的训练网页将待自动标注网页分类,生成分类的类别的网页模板;网页同质化模块,用于依据网页模板屏蔽待自动标注网页同其所属类别的网页模板间的差异;自动标注模块,用于解析类别对应的训练网页,生成第一包装器文件,按第一包装器文件对待自动标注网页进行自动标注,以生成新的训练网页;包装器文件生成模块,用于解析所有训练网页,生成第二包装器文件;在线抽取模块,用于应用第二包装器文件对网页集合中未被选取的网页信息进行抽取。本发明能够对应不同类的网页生成多个模板,并对网页中多个记录和每个记录多个属性进行抽取。

    一种网页信息抽取的系统及方法

    公开(公告)号:CN101464905A

    公开(公告)日:2009-06-24

    申请号:CN200910076548.3

    申请日:2009-01-08

    Abstract: 本发明涉及网页信息抽取的系统和方法,系统包括:模板生成模块,用于从网页集合中选取待自动标注网页,根据用户标注的训练网页将待自动标注网页分类,生成分类的类别的网页模板;网页同质化模块,用于依据网页模板屏蔽待自动标注网页同其所属类别的网页模板间的差异;自动标注模块,用于解析类别对应的训练网页,生成第一包装器文件,按第一包装器文件对待自动标注网页进行自动标注,以生成新的训练网页;包装器文件生成模块,用于解析所有训练网页,生成第二包装器文件;在线抽取模块,用于应用第二包装器文件对网页集合中未被选取的网页信息进行抽取。本发明能够对应不同类的网页生成多个模板,并对网页中多个记录和每个记录多个属性进行抽取。

    一种在股评论坛中挖掘股评托的方法

    公开(公告)号:CN1787007A

    公开(公告)日:2006-06-14

    申请号:CN200510130688.6

    申请日:2005-12-21

    Abstract: 本发明涉及网络信息处理技术领域,是一种在股评论坛中利用股评人对某只股票发表股评的前后股市行情的变化,来挖掘股评托的方法。本发明从股评论坛中抽取出某段时间内每个股评人的股评,然后以该股评出笼前后相应股票的行情序列为窗口,用股评托行为模式与窗口中的股评行情序列进行匹配,基于匹配的频率计算股评人是股评托的概率。在股评论坛中挖掘股评托,能够帮助个人投资者认清股评论坛中股评托的真面目,帮助证券业的管理者发现危险分子加以预警,甚至清除出行业队伍,从而保证证券市场的健康发展。目前对我国股评托的行为研究几乎没有。

    一种利用网络用户访问特性的网络代理缓存替换方法

    公开(公告)号:CN1585347A

    公开(公告)日:2005-02-23

    申请号:CN200410047534.6

    申请日:2004-05-21

    Abstract: 本发明涉及网络通信技术领域,利用网络用户访问特性的网络代理缓存替换方法。该方法利用用户访问网络的特性,设计了一种网络代理缓存替换系统来实现网络代理缓存服务。步骤:S1,假设ΔT是网络代理缓存中某页面这次被访问和下次被访问期间发生的所有访问的次数;S2,用户请求页面t,判断缓存中是否包含了t的副本?S3,把t的过期副本从缓存中删除,从网络服务器获得t的新副本;S4,判断缓存中的剩余空间是否足以存放t的新副本?S5,替换优先级最低的页面;S6,把t的新副本压入缓存,S7,副本被返回给用户;S8,根据权重计算公式更新缓存中每个页面的权重;S9,判断是否已经过了一个固定时间段。

    一种获取网络音视频节目地址的方法

    公开(公告)号:CN101635826B

    公开(公告)日:2011-02-09

    申请号:CN200810116933.1

    申请日:2008-07-21

    Inventor: 张斌 张刚 程学旗

    Abstract: 本发明涉及网络通信技术领域,提出一种获取网络音视频节目地址的方法,包括:使用浏览器打开包含音视频节目的多个网页,播放器准备开始播放节目;所述播放器向远程视频服务器请求所述网页,播放器根据页面传递的参数得到需要请求的视频源的网络地址,从远程读取数据源进行播放;获取并分析播放器和远程视频服务器的交互信息,获得所述网络音视频节目地址。利用浏览器控制与网络地址监听相结合的方式来发现网络音视频地址,并应用浏览器判定页面是否包含音视频播放器和控制播放器的播放,解决音视频网页脚本复杂以及FLV难以从页面获取地址的问题。

Patent Agency Ranking