一种基于脚本的网页采集服务方法和系统

    公开(公告)号:CN109815387A

    公开(公告)日:2019-05-28

    申请号:CN201811637869.1

    申请日:2018-12-29

    Abstract: 本发明涉及一种基于脚本的网页采集服务方法和系统,包括:客户端,服务前端和服务执行单元,服务执行单元处理服务请求的过程包括:根据脚本队列中采集脚本的顺序,调度脚本队列中位于队首的采集脚本作为执行脚本;解释执行执行脚本,当执行脚本执行到调用函数时,判断调用函数是否为采集函数,若是,则将采集网页的任务发给网页采集模块,对执行脚本指定的网址进行网页采集处理,得到网址的网页信息作为采集函数的返回值,否则执行调用函数调用的功能,并将执行结果作为调用函数的返回值。由此本发明可通过调用服务的方式处理复杂的网页采集任务,适应性更强。

    社会媒体事件的动态观点演变的可视化方法及设备

    公开(公告)号:CN103324662B

    公开(公告)日:2016-12-28

    申请号:CN201310134433.1

    申请日:2013-04-18

    Abstract: 本发明提供一种社会媒体事件的动态观点演变的可视化方法,该方法首先确定所采集的社会媒体事件信息集合中信息的情感隶属度和情感分类,然后基于所述信息的情感分类,建立情感可视化图形的几何布局并基于所述信息的情感隶属度对所建立的几何布局进行着色。该方法可以直观的显示信息流中事件的情感变化,在事件的变化和发展方面可以显示更多的情感信息,能够帮助用户更好的识别事件的转折点和爆发点,预测事件的发展趋势。

    一种eMule网络上特定资源的发现方法和装置

    公开(公告)号:CN103167029B

    公开(公告)日:2016-08-03

    申请号:CN201310070486.1

    申请日:2013-03-06

    Abstract: 本发明提供一种eMule网络上特定资源的发现方法,包括下列步骤:1)针对所关注的关键词,构造与其对应的KAD虚拟节点,所构造的KAD虚拟节点的ID值与相应关键词的MD4哈希值相同或接近,使得二者的异或距离远远小于KAD真实节点ID之间的通常异或距离;2)对KAD虚拟节点进行初始化,使eMule网络的其它节点感知到所构造的KAD虚拟节点;3)利用所述的KAD虚拟节点监听涉及相应关键词的特定资源的资源发布消息。本发明有助于更全面地获取eMule网络特定资源的信息;时效性强,能够快速发现新发布的特定资源;能够对新出现而又危害巨大的特定资源做出迅速反应;在监控的同时,能够保证eMule网络的正常运作。

    一种面向微博客的话题流行范围评估方法及系统

    公开(公告)号:CN103279483B

    公开(公告)日:2016-04-13

    申请号:CN201310143846.6

    申请日:2013-04-23

    Abstract: 本发明提供一种面向微博客的话题流行范围评估方法及系统,其中方法包括:S1,采集微博客平台的历史数据,提取多个话题及多个消息,进行合并操作获得多个合并消息,然后将发布或者转发同一个合并消息的用户构建一个社区,获得多个社区,基于多个社区的重合程度进行话题的归类,提取同一类别中话题的特征;S2,获取微博客平台的实时数据,提取新话题及多个新消息,进行合并操作获得多个新合并消息,将发布或者转发同一个新合并消息的用户构建一个新社区,获得多个新社区,基于多个新社区的重合程度进行新话题的归类,提取同一类别中新话题的新特征;S3,将所述特征与所述新特征进行匹配,获得目标话题,对所述目标话题的流行范围进行评估。

    一种从单记录网页中抽取规律噪音的方法

    公开(公告)号:CN103064966B

    公开(公告)日:2016-01-27

    申请号:CN201210592795.0

    申请日:2012-12-31

    Abstract: 本发明提供一种从单记录网页中抽取规律噪音的方法,所述方法包括:首先将多个单记录网页转化为DOM树,并且将所述DOM树按照结构进行分类;然后,将同一类别的DOM树进行对齐合并得到站点板块风格树;在所述站点版块风格树中定位网页正文标题节点的近似位置和网页正文主体节点的近似位置,最后根据所述网页正文标题节点和所述网页正文主体节点的近似位置,抽取正文前、正文中和正文后的规律噪音。所述方法减少了建站点版块风格树所需的空间资源、降低了可能出现的漏抽取的情况,加快了抽取速度;此外,本发明的抽取结果具有较高的准确性,取得了较好的效果,并且可靠性高。

    基于开放知识库的短文本语义概念自动化扩展方法及系统

    公开(公告)号:CN103150382B

    公开(公告)日:2015-04-01

    申请号:CN201310081984.6

    申请日:2013-03-14

    Abstract: 本发明公开了一种基于开放知识库的短文本语义概念自动化扩展方法,所述方法将每条短文本生成的n-gram集合中的每个元素链接到开放知识库中与该元素最相关的概念,并且基于开放知识库的概念关系矩阵和所链接的概念,为该元素生成扩展的语义概念集合。该方法仅采用开放知识库文档中的锚文本信息而不采用文档的词项信息和目录信息来构建概念关系矩阵,这使得该矩阵的构造和计算方便,而且克服了目录信息粒度比较粗,歧义多的问题。而且在语义概念扩展阶段,采用基于上下文的语义相似度计算方法来进行语义概念扩展,同时考虑了短文本内容的上下文内容的一致性和概念在抽象语义层的相似性,提高了语义概念扩展的准确性。

    一种面向网络用户的个性化文本排序及推荐方法

    公开(公告)号:CN104298732A

    公开(公告)日:2015-01-21

    申请号:CN201410514028.7

    申请日:2014-09-29

    CPC classification number: G06F17/30867

    Abstract: 本发明提供一种面向网络用户的个性化文本排序及推荐方法,所述个性化文本排序方法包括对于用户的每条包括具有关键词和运算符的表达式的兴趣规则,执行以下步骤:1)、对于多个文本中的每个文本提取关键词和该关键词在该文本中的权重。2)、对于所述多个文本中的每个文本,计算该文本与该兴趣规则对应的表达式树的相似度;其中,表达式树是根据兴趣规则中包括的表达式建立的,表达式树中的节点分为运算符节点和文本节点,文本节点包括关键词和该关键词在该兴趣规则中的权重。3)、根据与所述表达式树的相似度大小,对所述多个文本中的每个文本进行排序。本发明能够在稀疏用户行为的场景下有效地将符合个性化需求的文本信息推荐给用户。

Patent Agency Ranking