-
公开(公告)号:CN110795943B
公开(公告)日:2021-10-08
申请号:CN201910909274.5
申请日:2019-09-25
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种针对事件的话题表示生成方法及系统,包括:获取包含多个文档的文档集,且该多篇文档表述同一事件,提取该文档集中各个文档的标题,形成该事件的标题集合;通过对该标题集合中每N个标题获取其最长公共子序列,得到该标题集合的最长公共子序列集合;统计该最长公共子序列集合中各非空最长公共子序列的出现次数,选择出现次数最多的前K个高频最长公共子序列,从该前K个高频最长公共子序列中筛选出1个高频最长公共子序列作为该事件的话题表示。本发明无需人工干预,其中不存在人为因素,省时省力。因此,相比现有的技术,提高了针对事件的话题表示的可读性,经过筛选处理得到的话题表示也较精炼和准确。
-
公开(公告)号:CN112667872A
公开(公告)日:2021-04-16
申请号:CN202011290564.5
申请日:2020-11-17
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院计算技术研究所
IPC: G06F16/951 , G06F16/9532 , G06F16/25 , G06F9/445 , G16H50/80
Abstract: 本发明公开了新冠肺炎疫情数据的实时采集方法,包括以下步骤:一、建立配置文件,将多个信源网站内实时反映疫情数据的网页的基本信息预置在配置文件中,包括多个字段的名称、各字段的存储路径,各字段的被采纳次数;二、采集网页数据,通过配置文件中待采集字段的存储路径从多个信源网站采集待采集字段当前的数值;三、数据对齐处理,以待采集字段的数据对齐结果为待采集字段的采集数据;步骤四、更新配置文件,将各信源网站中待采集字段的数值与待采集字段的采集数据相同的信源网站中待采集字段的被采纳次数加1。本发明的方法从多个信源网站的实时数据中获取可信度最高的数据作为采集数据,提高了疫情实时数据的准确性。
-
公开(公告)号:CN112307278A
公开(公告)日:2021-02-02
申请号:CN202011154213.1
申请日:2020-10-26
Applicant: 中国科学院计算技术研究所
IPC: G06F16/903 , G06F16/901
Abstract: 本发明提出一种任意尺度的话题脉络实时生成方法及系统,包括:获取话题历史数据,该话题历史数据包括指定时间范围内预设时间单位的子话题及各子话题所包含的文档;以子话题作为节点,根据该指定时间范围内子话题间的相关性,建立节点间的连边,得到该话题历史数据的图数据;通过动态规划得到该指定时间范围内预设时间单位中各节点的路径权值最大的前k条路径,从所有的出度为0的各节点的该前k条路径中选出权值最大的前k条路径作为该话题历史数据的话题脉络,其中k为正整数。
-
公开(公告)号:CN110781367A
公开(公告)日:2020-02-11
申请号:CN201910909270.7
申请日:2019-09-25
Applicant: 中国科学院计算技术研究所
IPC: G06F16/951 , G06F16/955
Abstract: 本发明提出一种基于中间人的互联网数据采集方法及系统,包括:通过安装中间人代理证书至网页信息采集设备,建立网页信息采集设备的中间人,网页信息采集设备访问互联网中网页信息时,中间人代理网页信息采集设备的全部网络流量;中间人获取包含待采集网页URL正则表达式的采集任务,捕获全部网络流量中符合URL正则表达式的流量,作为中间流量,并将采集任务注入中间流量的HTML页面中,得到待解析页面并将其存入第一数据库;解析模块根据第一数据库中待解析页面的URL信息,将待解析页面分发给解析器实例进行解析,从中获取包含结构化数据的网页采集结果并将其存入第二数据库。本发明能够支持所有依靠集成浏览器内核功能来提供信息的应用的数据采集。
-
公开(公告)号:CN110705597A
公开(公告)日:2020-01-17
申请号:CN201910833900.7
申请日:2019-09-04
Applicant: 中国科学院计算技术研究所
IPC: G06K9/62 , G06F16/953
Abstract: 本发明提出一种基于事件因果关系抽取的网络苗头事件检测方法及系统,包括:将苗头因果事件对中原因事件作为苗头事件,存入苗头事件样本库,以苗头事件样本库的数据作为训练集,训练基于机器学习的第一苗头事件分类器,并将苗头因果事件对的因果联系作为苗头事件判定规则,存入苗头事件判定规则库,以苗头事件判定规则库构建基于规则的第二苗头事件分类器;对指定的网络平台进行事件抽取,得到多个结构化事件,并将多个结构化事件中指代同一个事件的结构化事件统一为一个共指事件,并对共指事件进行泛化,得到网络平台的抽象事件,使用第一苗头事件分类器和第二苗头事件分类器分别处理抽象事件,综合两者的结果作为网络平台苗头事件的检测结果。
-
公开(公告)号:CN110557428A
公开(公告)日:2019-12-10
申请号:CN201910646748.1
申请日:2019-07-17
Applicant: 中国科学院计算技术研究所
Abstract: 本发明涉及一种基于Kubernetes的脚本解释型服务代理方法和系统,该方法包括:设置一客户端,用于生成代理脚本并作为服务请求;设置一Kubernetes系统,并在该Kubernetes系统中部署若干服务;设置一服务执行单元,用于处理该服务请求,并返回处理结果至该客户端;该方法包括:函数绑定步骤,该服务执行单元根据一预设协议,定期查询API SERVER,获取该Kubernetes系统中的服务,并为每一服务绑定一函数名称;服务调用步骤,该服务执行单元接收并解析执行该客户端发送的该服务请求中的代理脚本,并在执行脚本的过程中,依据函数名调用Kubernetes中的服务。本发明有效解决了复杂服务以及远程和不可靠环境下的访问问题。
-
公开(公告)号:CN109815382A
公开(公告)日:2019-05-28
申请号:CN201811634238.4
申请日:2018-12-29
Applicant: 中国科学院计算技术研究所
IPC: G06F16/951
Abstract: 本发明涉及一种大规模网络数据的感知与获取方法,包括:感知网络数据的信息来源并将其拆分为信源,对该信源设置采集策略;生成采集任务,注册采集节点,以该注册节点拉取采集器并对其进行配置;根据该采集策略,通过该采集器执行该采集任务,获取结构化数据;监控该采集任务的执行状态,统计该结构化数据,并将监控结果和统计结果发送给用户。本发明的大规模网络数据感知与获取系统,按照不同的功能逻辑,划分为采集子平台、调度子平台、信源管理与配置子平台和监控与统计子平台,本系统是集大规模网络数据的感知发现、多信息来源的网络数据获取、高质量信息抽取及用户友好性交互界面于一体的通用大规模网络数据感知系统。
-
公开(公告)号:CN108959204A
公开(公告)日:2018-12-07
申请号:CN201810653622.2
申请日:2018-06-22
Applicant: 中国科学院计算技术研究所
Abstract: 本发明涉及一种互联网金融项目信息抽取方法和系统,包括:获取包含金融项目信息的训练网页,为训练网页划分目标项目区域,并为目标项目区域中的DOM树节点标注属性标签,根据训练网页的二维图像、HTML代码、DOM树,抽取DOM树节点的特征向量作为训练数据,训练属性标注模型;获取金融项目信息的待抽取网页,将待抽取网页的DOM树,确定待抽取网页的目标项目区域,根据待抽取网页的目标项目区域中项目列表是否为表格,执行相应的抽取步骤。本发明通过将两种不同特点的互联网金融项目列表分开并对应使用不同的抽取方法,极大的提高了抽取的效率和准确率。
-
公开(公告)号:CN103618725B
公开(公告)日:2018-11-09
申请号:CN201310645762.2
申请日:2013-12-04
Applicant: 中国科学院计算技术研究所
IPC: H04L29/06
Abstract: 本发明提供一种KAD网络资源信息的获取方法及系统。该方法包括:在KAD网络的节点ID空间内选取n个均匀分布的节点ID,构造相应的n个模拟节点加入所述KAD网络,其中n为正整数。由所述模拟节点监听所述KAD网络,以及由所述模拟节点解析其他节点发来的资源信息存储请求消息并且获取资源信息。本发明在加快信息获取速度的同时,可以较全面地得到KAD网络中的资源信息。
-
公开(公告)号:CN105975504A
公开(公告)日:2016-09-28
申请号:CN201610273082.6
申请日:2016-04-28
Applicant: 中国科学院计算技术研究所
CPC classification number: G06F16/951 , G06N3/0454 , G06N3/08 , G06Q50/01
Abstract: 本发明提出一种基于循环神经网络(Recurrent Neural Network,RNN)的社交网络消息爆发检测方法及系统,涉及在线社交网络中内容的流行度预测技术领域,该方法包括获取社交网络中用户发布与转发的历史消息,对所述历史消息进行预处理,获取历史转发时间序列;对所述历史消息与所述历史转发时间序列进行循环神经网络训练,并生成预测模型;实时采集用户发布与转发的消息,根据所述消息,生成转发时间序列,将所述转发时间序列输入到所述预测模型,生成特征表达,将所述特征表达输入到全连接神经网络进行分类,结果以softmax方式输出,以完成社交网络消息爆发检测。
-
-
-
-
-
-
-
-
-