-
公开(公告)号:CN107317865A
公开(公告)日:2017-11-03
申请号:CN201710521896.1
申请日:2017-06-30
Applicant: 中国科学院信息工程研究所
IPC: H04L29/08
Abstract: 本发明公开了一种通用的离线数据接入方法及系统,基于离线数据接入通用处理模板,来适配多种业务数据接入。具有如下优点:1)数据接入与业务耦合度低,数据接入系统更为通用,音视频数据、图片数据、博客数据、即时通信数据等数据源,都可以采用该方法及系统;2)多节点分布式采集数据,在保证数据正确传输的前提下,提供传输的并行度和传输效率,并实现了负载均衡;3)提供完善的异常处理和报错机制;4)实时监控系统运行状态,系统更为稳定。
-
公开(公告)号:CN107273193A
公开(公告)日:2017-10-20
申请号:CN201710295064.2
申请日:2017-04-28
Applicant: 中国科学院信息工程研究所
IPC: G06F9/48
CPC classification number: G06F9/4881
Abstract: 本发明公开了一种基于DAG的面向多计算框架的数据处理方法及系统。本方法为1)用户根据目标计算场景选取算子生成该目标计算场景;然后向管理器发送保存场景信息的请求;2)管理器将场景信息保存到场景表中;当收到该目标计算场景的执行请求后,读取该场景表生成包含该目标计算场景信息的作业并发送给调度器;3)调度器根据收到的作业生成对应的算子DAG并验证;对于验证通过的算子生成子作业DAG;然后根据生成的子作业DAG确定每一执行阶段并将其发送给执行器;4)执行器将调度器下发的每一执行阶段的子作业解释为该计算框架下的计算逻辑并触发计算;然后将计算结果提交给调度器。本发明提高了计算框架的计算效率。
-
公开(公告)号:CN107193643A
公开(公告)日:2017-09-22
申请号:CN201710192864.1
申请日:2017-03-28
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种高可靠分布式数据流实时统计方法及系统。本发明包括三项技术,技术一为基于MapReduce编程模型的分布式数据流计算模型,将MapReducer模型的思想扩展到了集群概念上,每一Map或者Reducer计算单元都是分布式集群中的一节点,分别称作Mapper或Reducer,所有的Mapper节点组成Mapper集群,所有的Reducer节点组成Reducer集群;技术二为带序号的并发数据传递机制,技术三为基于状态与信号的分布式任务管理调度机制,其中技术一通过保证分布式系统的可扩展性,解决了吞吐量的问题;技术二和技术三分别解决了数据可靠性和任务可用性的问题,从而保证了可靠的语义。
-
公开(公告)号:CN103942308B
公开(公告)日:2017-04-05
申请号:CN201410158112.X
申请日:2014-04-18
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明涉及一种大规模社交网络社区的检测方法及装置。方法包括:将输入的大规模社交网络建模成图G=(V,E);通过并行排序算法将图G上的所有节点依节点度的大小关系作降序排列,并计算图G上所有节点的有效度之和DSum;以DSum/P为等分基准参考值,依负载均衡法将图G等分为P个子图;将P个子图通过MapReduce并行计算模型遍历寻找图G上的三角形,基于三角形拓扑结构对图G进行并行化多层粗化,获得最简粗化归约图G’;采用基于遗传学的社区发现算法,对最简粗化归约图G’做初始社区发现,生成社区发现结果;将社区发现结果逐层反粗化还原到图G并伴随作微调优处理,获得图G的社区结构。本发明能够精准而高效地实现大规模社交网络的社区发现和数据分析。
-
公开(公告)号:CN106202573A
公开(公告)日:2016-12-07
申请号:CN201610694804.5
申请日:2016-08-19
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明提供一种通用的两个数据库(A,B)联合查询方法,步骤包括:1)从A库的对应表中读出数据生成数据文件,基于该数据文件生成SQL文件,并发送到B库节点;2)通过B库提供的接口建立临时表,并把上述数据文件导入该表中,替换SQL中的表名;3)在B库中执行替换好的SQL,把结果生成数据文件,并发回A库节点;4)在A库中建立临时表,把步骤3)的数据文件导入该表中,并把库名和表名返回给用户。该方法具有通用性,尤其是两数据库网不通的情况,通过把查询结果在其中一个数据库中建表,给用户拿到想要的数据结果。
-
公开(公告)号:CN103309966B
公开(公告)日:2016-02-24
申请号:CN201310219213.9
申请日:2013-06-04
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明涉及基于时间滑动窗口的数据流点连接查询方法,该方法将一定时间内到来的数据流的元组存入缓冲区,进而对缓冲区内的元组批量与其要连接的时间滑动窗口内的元组进行连接,将完成连接的元组批量删除,将未完成连接的元组批量插入到其对应的时间滑动窗口中;从而大大减少了对时间滑动窗口加锁和解锁操作次数;将缓冲区未完成连接的元组插入到其对应的时间滑动窗口时用顺序存储链表存储元组在时间滑动窗口中的位置,顺序存储链表的头结点中存储该缓冲区的开辟时间,避免查找时间滑动窗口中过期数据时对整个时间窗口进行遍历,只需对顺序存储链表头结点进行遍历,即可找到时间滑动窗口中一批过期元组,降低了运算量,提高了效率。
-
-
-
-
-