-
公开(公告)号:CN107315767B
公开(公告)日:2020-08-04
申请号:CN201710348651.3
申请日:2017-05-17
Applicant: 中国科学院计算机网络信息中心
Abstract: 本发明公开了一种通量数据的汇聚重建方法。本方法为:1)在每个远端通量数据观测站点对实时通量数据进行采集并存储;2)各远端通量数据观测站点对采集的通量数据进行元数据的抽取生成元数据文件,并将其传输到中心站点;3)中心站点检查收到的元数据文件是否已有对应的数据库表结构,如果无,则生成该元数据文件的数据库表结构;如有,则根据该元数据文件中的通量数据文件大小判断是否对该元数据文件描述的通量数据文件进行续传;如果续传,则进行4),否则,通知该元数据文件对应的远端通量数据观测站点进行文件备份并开启新文件的汇聚过程;4)中心站点接收该元数据文件的远端通量数据观测站点采集的通量数据文件,并进行数据分片存储。
-
公开(公告)号:CN110516146A
公开(公告)日:2019-11-29
申请号:CN201910635799.4
申请日:2019-07-15
Applicant: 中国科学院计算机网络信息中心
IPC: G06F16/9535 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于异质图卷积神经网络嵌入的作者名字消歧方法,其步骤为:1)对于一待消歧的目标作者名,收集以该目标作者名所著的出版物,然后根据所收集出版物的标题、作者列表和出版刊物信息构建出版物异质属性网络;2)根据所述出版物异质属性网络,通过基于元路径随机游走策略生成包含出版物节点邻居节点文本信息的路径;3)根据所述出版物异质属性网络以及所述路径,基于异质图卷积神经网络嵌入模型学习每一出版物的表征向量;4)根据所述出版物异质属性网络和所述出版物的表征向量,构建该目标作者名的出版物同质网络;5)对所述出版物同质网络进行划分,得到若干簇;其中同一簇中的出版物为同一人的出版物集合。
-
公开(公告)号:CN110471777A
公开(公告)日:2019-11-19
申请号:CN201910568205.2
申请日:2019-06-27
Applicant: 中国科学院计算机网络信息中心
Abstract: 本发明涉及一种Python-Web环境中多用户共享使用Spark集群的实现方法和系统。本发明引入多进程来支撑多个Spark上下文,能够利用有限数量的Spark上下文来服务和支持多用户的任务计算请求;利用协程而不是线程来守护子进程,协程之间自主调度;能够将任务计算结果或状态异步返回以便实时响应用户的请求,满足了Web实时交互式使用的需求;利用了Spark任务间调度的特性,对于一些耗时较长的任务,给予用户是否终止该任务的权限,能够让Web用户终止正在运行的Spark任务。本发明能够解决Python开发环境中多Web用户共享使用Spark集群的问题。
-
公开(公告)号:CN105718514B
公开(公告)日:2019-05-17
申请号:CN201610023810.8
申请日:2016-01-14
Applicant: 中国科学院计算机网络信息中心
IPC: G06T15/00
Abstract: 本发明公开了一种基于WEB的遥感影像多波段自由组合渲染方法。本方法为:1)服务器端根据遥感影像的属性信息生成一遥感数据标识及对应存储目录,然后将各波段灰度数据及其元数据存储到对应目录中;2)浏览器端根据用户选择的波段组合及期望的样式信息构造切片请求协议发送给服务器端;3)服务器端根据该切片请求协议中的遥感数据标识及波段组合计算得到一hash值,然后将该hash值在服务器端的缓存中进行查找,如果缓存中已存在该切片请求协议对应的切片,则将其返回为该浏览器端;否则根据该切片请求协议对灰度数据进行渲染、叠加,得到合成切片返回给该浏览器端。本方法可在浏览器端对同一遥感影像的不同波段进行动态组合渲染。
-
公开(公告)号:CN106156490B
公开(公告)日:2019-05-07
申请号:CN201610465029.6
申请日:2016-06-23
Applicant: 中国科学院计算机网络信息中心
Abstract: 本发明公开了一种基于气象数据的监测指标时空延迟相关性计算方法。本方法为:1)采集各地的气象数据和监测指标数据;2)对步骤1)的采集数据进行数据对齐,保留同一时刻同时存在的监测指标数据和气象数据;3)从步骤2)处理后的采集数据中分别提取监测地点A、B的设定时间段T内的监测指标数据及气象数据;4)保持地点A的监测指标数据X不变,地点B的监测指标数据Y向前多取t1个时刻的监测指标数据,以及向后多取t2个时刻的监测指标数据;5)对数据Y从数据起始向后移动采样窗口;在每次窗口移动时,计算数据Y移动后采样窗口内的数据与数据X之间的延迟相关性。本发明计算出的相关性更准确。
-
公开(公告)号:CN105354239B
公开(公告)日:2019-04-30
申请号:CN201510653943.9
申请日:2015-10-10
Applicant: 中国科学院计算机网络信息中心
IPC: G06F16/2455
Abstract: 本发明公开了一种基于配置数据加工模型的加工中心数据流式处理方法。本方法为:1)对待加工数据源创建一数据加工模型:包括加工前数据的字段及类型、加工后数据的字段名称及类型,以及加工前、后数据字段之间的对应关系;2)设置一数据加工语法规则,包括设置每一数据源要提取的加工字段信息;每一要加工字段的字段名称和相应的字段类型,以及处理该加工字段的数据加工处理模块和处理时所用的匹配规则;每一个加工字段加工后的名称和数据类型;3)根据数据加工任务和该数据加工语法规则,生成一工单配置文件;4)根据该工单配置文件创建一工厂实例,按照加工工单内容顺序组织和执行实例内容。本发明提高了大数据处理速度和灵活性别。
-
公开(公告)号:CN104572096B
公开(公告)日:2017-12-29
申请号:CN201410849397.1
申请日:2014-12-29
Applicant: 中国科学院计算机网络信息中心
IPC: G06F9/44
Abstract: 本发明涉及一种基于WEB的多模型数据可视化开发方法及平台。该可视化平台通过多模型驱动的方式实现对数据的解析及可视化图形的配置,包括数据配置模型和可视化配置模型;所述数据配置模型接收原始数据并对原始数据进行处理,解析出数据各维度的元数据结构,同时提供给用户多粒度的数据选择方式;所述可视化配置模型将所述数据配置模型的输出作为输入,选择相应的可视化图形,并智能推送可视化配置项,最终输出可视化结果。本发明能够解决不同平台、不同技术路线之间的集成和互操作性问题,定义良好的接口可适应将来出现的新数据源与可视化方法,能够提升开发效率,通过友好的人机交互满足用户对数据可视化的需求。
-
公开(公告)号:CN107463603A
公开(公告)日:2017-12-12
申请号:CN201710454837.7
申请日:2017-06-16
Applicant: 中国科学院计算机网络信息中心
IPC: G06F17/30
Abstract: 本发明涉及一种基于量化DMP的科研项目生命周期数据管理定制化控制方法和系统。该方法首先建立科研项目生命周期数据管理的模型和规范,然后基于建立的模型和规范对数据管理计划DMP的内容进行量化;根据量化DMP元数据规范并结合功能控制需求,分类归纳科研项目生命周期数据管理的规约控制功能点及其触发条件;根据触发条件触发相应的规约控制功能点,进而将规约控制需求提交给数据管理规约控制引擎进行集中处理,经过规约控制逻辑判定完成相应功能的控制实现。本发明实现了数据管理系统规约控制功能与量化DMP元数据要素设置的解耦,大力提升了面向科研项目生命周期数据管理系统设计开发的效率,增强了系统的高可定制性和高复用性。
-
公开(公告)号:CN106570108A
公开(公告)日:2017-04-19
申请号:CN201610936474.6
申请日:2016-11-01
Applicant: 中国科学院计算机网络信息中心
IPC: G06F17/30
CPC classification number: G06F16/172 , G06F16/182
Abstract: 本发明提供一种云存储环境下海量数据自适应读取优化方法,其步骤包括:记录本地用户程序的数据访问日志信息;定期统计分析上述日志信息,得到数据对象间的关联关系;根据用户程序的数据访问请求获取与当前访问的数据对象关联的数据对象集合,并预读取到本地缓存;对于用户程序的数据对象访问请求,先从本地缓存中读取,如本地缓存中不存在待访数据对象,则从分布式文件系统的远端存储节点读取。该方法还包括从分布式文件系统的远端存储节点预读取关联的数据对象集合到本地缓存并更新本地缓存。该方法根据统计与分析的数据对象访问日志建立数据对象的关联关系,通过将当前读取数据对象的关联数据对象预读取到本地缓存中,以提高数据读取速度。
-
公开(公告)号:CN103176985B
公开(公告)日:2016-06-29
申请号:CN201110430997.0
申请日:2011-12-20
Applicant: 中国科学院计算机网络信息中心
IPC: G06F17/30
Abstract: 本发明公开了一种及时高效的互联网信息爬取方法,属于信息技术领域。本方法为:1)设定种子地址,爬取保存网页信息并确定导航页面;2)对每一导航页面进行多次爬取,并对爬取的网页进行分析标注;4)建立每一网站的主题判断模型和导航页面变更时间序列预测模型;5)预测每一网站导航页面下一次变更时间,确定下一爬取时间,爬取导航页面并提取未爬取过的子页面地址和锚文本;6)利用所建主题判断模型对上一步提取的子页面地址和锚文本进行判断,并据判断结果分别处理;7)基于新爬取的主题相关页面,形成或更新每一网站导航页面的当前变更时间序列,确定下一爬取时间进行网页爬取。本发明能在较小负载下,保证所采集信息的新颖性和主题性。
-
-
-
-
-
-
-
-
-