-
公开(公告)号:CN109815387A
公开(公告)日:2019-05-28
申请号:CN201811637869.1
申请日:2018-12-29
Applicant: 中国科学院计算技术研究所
IPC: G06F16/953
Abstract: 本发明涉及一种基于脚本的网页采集服务方法和系统,包括:客户端,服务前端和服务执行单元,服务执行单元处理服务请求的过程包括:根据脚本队列中采集脚本的顺序,调度脚本队列中位于队首的采集脚本作为执行脚本;解释执行执行脚本,当执行脚本执行到调用函数时,判断调用函数是否为采集函数,若是,则将采集网页的任务发给网页采集模块,对执行脚本指定的网址进行网页采集处理,得到网址的网页信息作为采集函数的返回值,否则执行调用函数调用的功能,并将执行结果作为调用函数的返回值。由此本发明可通过调用服务的方式处理复杂的网页采集任务,适应性更强。
-
公开(公告)号:CN106503256B
公开(公告)日:2019-05-07
申请号:CN201611005521.1
申请日:2016-11-11
Applicant: 中国科学院计算技术研究所
IPC: G06F16/9535 , G06F16/9536 , G06Q50/00
Abstract: 本发明提供一种基于社交网络文档的热点信息挖掘方法,包括下列步骤:1)根据词项在热度统计窗口内的权重相对于该词项在语料库中的基准权重的波动程度,得出该词项在热度统计窗口内的热度;2)基于各个词项的热度排序,得出当前热度统计窗口内的热点词项。本发明能够提高社交网络中挖掘候选词的准确率;能够获得更准确的表达社交网络热点事件的语义。
-
公开(公告)号:CN108897749A
公开(公告)日:2018-11-27
申请号:CN201810355382.8
申请日:2018-04-19
Applicant: 中国科学院计算技术研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明涉及一种基于语法树和文本块密度的网页信息抽取方法,包括:获取网页的标题文本信息;设定筛选阈值,计算该网页所有节点的文本块密度,以该文本块密度大于该筛选阈值的节点为采集节点,提取该采集节点的节点文本信息;若该采集节点的数量为1,则以该节点文本信息为目标信息进行抽取;若该采集节点的数量大于1,则将该标题文本信息和该节点文本信息分别转换为唯一表达句子语义的标题深层语法树和节点深层语法树;获得每个该节点深层语法树与该标题深层语法树的整体相似度,以该整体相似度中的最大值对应的节点文本信息为目标信息进行抽取。
-
公开(公告)号:CN108769115A
公开(公告)日:2018-11-06
申请号:CN201810354384.5
申请日:2018-04-19
Applicant: 中国科学院计算技术研究所 , 国家计算机网络与信息安全管理中心
IPC: H04L29/08
CPC classification number: H04L67/1008
Abstract: 本发明涉及一种分布式RSS数据采集系统,包括:分布于网络的至少一个采集节点模块,用于采集该网络上的RSS数据;注册中心,用于保存所有该采集节点模块的信息,并将该信息提供给该调度模块;调度模块,用于根据该信息将采集任务分配给该采集节点模块。分布式RSS数据采集方法包括:通过注册中心收集分布于网络的采集节点模块的信息;通过调度模块拉取采集任务;通过该调度模块拉取该信息;根据该信息将该采集任务分配给该采集节点模块;采集该网络上的RSS数据。
-
公开(公告)号:CN103324662B
公开(公告)日:2016-12-28
申请号:CN201310134433.1
申请日:2013-04-18
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种社会媒体事件的动态观点演变的可视化方法,该方法首先确定所采集的社会媒体事件信息集合中信息的情感隶属度和情感分类,然后基于所述信息的情感分类,建立情感可视化图形的几何布局并基于所述信息的情感隶属度对所建立的几何布局进行着色。该方法可以直观的显示信息流中事件的情感变化,在事件的变化和发展方面可以显示更多的情感信息,能够帮助用户更好的识别事件的转折点和爆发点,预测事件的发展趋势。
-
公开(公告)号:CN103167029B
公开(公告)日:2016-08-03
申请号:CN201310070486.1
申请日:2013-03-06
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种eMule网络上特定资源的发现方法,包括下列步骤:1)针对所关注的关键词,构造与其对应的KAD虚拟节点,所构造的KAD虚拟节点的ID值与相应关键词的MD4哈希值相同或接近,使得二者的异或距离远远小于KAD真实节点ID之间的通常异或距离;2)对KAD虚拟节点进行初始化,使eMule网络的其它节点感知到所构造的KAD虚拟节点;3)利用所述的KAD虚拟节点监听涉及相应关键词的特定资源的资源发布消息。本发明有助于更全面地获取eMule网络特定资源的信息;时效性强,能够快速发现新发布的特定资源;能够对新出现而又危害巨大的特定资源做出迅速反应;在监控的同时,能够保证eMule网络的正常运作。
-
公开(公告)号:CN103279483B
公开(公告)日:2016-04-13
申请号:CN201310143846.6
申请日:2013-04-23
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种面向微博客的话题流行范围评估方法及系统,其中方法包括:S1,采集微博客平台的历史数据,提取多个话题及多个消息,进行合并操作获得多个合并消息,然后将发布或者转发同一个合并消息的用户构建一个社区,获得多个社区,基于多个社区的重合程度进行话题的归类,提取同一类别中话题的特征;S2,获取微博客平台的实时数据,提取新话题及多个新消息,进行合并操作获得多个新合并消息,将发布或者转发同一个新合并消息的用户构建一个新社区,获得多个新社区,基于多个新社区的重合程度进行新话题的归类,提取同一类别中新话题的新特征;S3,将所述特征与所述新特征进行匹配,获得目标话题,对所述目标话题的流行范围进行评估。
-
公开(公告)号:CN103064966B
公开(公告)日:2016-01-27
申请号:CN201210592795.0
申请日:2012-12-31
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种从单记录网页中抽取规律噪音的方法,所述方法包括:首先将多个单记录网页转化为DOM树,并且将所述DOM树按照结构进行分类;然后,将同一类别的DOM树进行对齐合并得到站点板块风格树;在所述站点版块风格树中定位网页正文标题节点的近似位置和网页正文主体节点的近似位置,最后根据所述网页正文标题节点和所述网页正文主体节点的近似位置,抽取正文前、正文中和正文后的规律噪音。所述方法减少了建站点版块风格树所需的空间资源、降低了可能出现的漏抽取的情况,加快了抽取速度;此外,本发明的抽取结果具有较高的准确性,取得了较好的效果,并且可靠性高。
-
公开(公告)号:CN103150382B
公开(公告)日:2015-04-01
申请号:CN201310081984.6
申请日:2013-03-14
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明公开了一种基于开放知识库的短文本语义概念自动化扩展方法,所述方法将每条短文本生成的n-gram集合中的每个元素链接到开放知识库中与该元素最相关的概念,并且基于开放知识库的概念关系矩阵和所链接的概念,为该元素生成扩展的语义概念集合。该方法仅采用开放知识库文档中的锚文本信息而不采用文档的词项信息和目录信息来构建概念关系矩阵,这使得该矩阵的构造和计算方便,而且克服了目录信息粒度比较粗,歧义多的问题。而且在语义概念扩展阶段,采用基于上下文的语义相似度计算方法来进行语义概念扩展,同时考虑了短文本内容的上下文内容的一致性和概念在抽象语义层的相似性,提高了语义概念扩展的准确性。
-
公开(公告)号:CN104298732A
公开(公告)日:2015-01-21
申请号:CN201410514028.7
申请日:2014-09-29
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
CPC classification number: G06F17/30867
Abstract: 本发明提供一种面向网络用户的个性化文本排序及推荐方法,所述个性化文本排序方法包括对于用户的每条包括具有关键词和运算符的表达式的兴趣规则,执行以下步骤:1)、对于多个文本中的每个文本提取关键词和该关键词在该文本中的权重。2)、对于所述多个文本中的每个文本,计算该文本与该兴趣规则对应的表达式树的相似度;其中,表达式树是根据兴趣规则中包括的表达式建立的,表达式树中的节点分为运算符节点和文本节点,文本节点包括关键词和该关键词在该兴趣规则中的权重。3)、根据与所述表达式树的相似度大小,对所述多个文本中的每个文本进行排序。本发明能够在稀疏用户行为的场景下有效地将符合个性化需求的文本信息推荐给用户。
-
-
-
-
-
-
-
-
-