-
公开(公告)号:CN107317865B
公开(公告)日:2019-11-05
申请号:CN201710521896.1
申请日:2017-06-30
Applicant: 中国科学院信息工程研究所
IPC: H04L29/08
Abstract: 本发明公开了一种通用的离线数据接入方法及系统,基于离线数据接入通用处理模板,来适配多种业务数据接入。具有如下优点:1)数据接入与业务耦合度低,数据接入系统更为通用,音视频数据、图片数据、博客数据、即时通信数据等数据源,都可以采用该方法及系统;2)多节点分布式采集数据,在保证数据正确传输的前提下,提供传输的并行度和传输效率,并实现了负载均衡;3)提供完善的异常处理和报错机制;4)实时监控系统运行状态,系统更为稳定。
-
公开(公告)号:CN107463595A
公开(公告)日:2017-12-12
申请号:CN201710335307.0
申请日:2017-05-12
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明公开了一种基于Spark的数据处理方法及系统。本方法为:1)用户根据待处理文档的需求选取算子并配置所选取的算子参数,然后建立所选算子的连接关系,生成场景的XML文件;该场景的XML文件中包括每一所选算子的XML内容以及各算子的连接关系;2)根据场景的XML文件生成相应的有向无环图DAG;3)将该有向无环图DAG切分成若干能够在分布式计算环境下执行的子任务subJob,在Spark计算框架下执行切分后得到的子任务subJob,实现对该待处理文档的处理。本发明能够实现对接各种异构数据,提高了数据处理灵活性。
-
公开(公告)号:CN112650915A
公开(公告)日:2021-04-13
申请号:CN202011375913.3
申请日:2020-11-30
Applicant: 中国科学院信息工程研究所
IPC: G06F16/9532 , G06F16/242 , G06F16/27
Abstract: 本发明提供一种基于实时查询的数据交互方法及装置,包括:解析接收的客户端数据查询请求,判断所述客户端数据查询请求为长查询或短查询;若为长查询,则依据生成的查询记录对数据库进行查询,并将长查询结果存储至分布式文件系统中;若为短查询,则通过转换得到的系统sql语句对数据库进行查询,得到短查询结果;将获取的长查询结果或短查询结果返回至客户端。本发明支持短查询和长查询两种不同的请求方式,可以根据业务的紧急程度做不同速度的处理;短查询可以跳过中间系统直接访问数据源并返回结果数据,以达到更快的速度;长查询的结果以较小单位依次返回给请求方达到更高的时效性。
-
公开(公告)号:CN106339459B
公开(公告)日:2019-11-26
申请号:CN201610741134.8
申请日:2016-08-26
Applicant: 中国科学院信息工程研究所
IPC: G06F16/35 , G06F16/955 , G06F17/27
Abstract: 本发明涉及基于关键词匹配进行中文网页预分类的方法,该方法在制作分类算法所需要的训练集的过程中,给每条训练网页进行人工标注的同时,将网页中表征该网页的关键词也标注出来,生成关键词表;对每一条测试网页,首先根据关键词表提取出该网页中出现的关键词,然后通过与训练集进行关键词匹配计算,将训练集的标签转移给该测试网页;如果该预分类方法未能给出训练网页的分类结果,该测试网页需要进行进一步的分类计算。该方法降低了如SVM、KNN、朴素贝叶斯等计算复杂的分类技术的运行时间,同时也使分类结果的准确率和召回率都得到了提高。
-
公开(公告)号:CN107341135A
公开(公告)日:2017-11-10
申请号:CN201710372929.0
申请日:2017-05-24
Applicant: 中国科学院信息工程研究所
IPC: G06F17/22
Abstract: 本发明公开了一种面向通用文本格式的解析方法及工具。本方法为:1)对于一待解析数据a,首先将其对应的各种自定义符号导入解析工具中,然后采用指定的文件编码格式读取该待解析数据a;自定义符号包括行分隔符、字段包围符和字段间分隔符;2)解析工具将解析数据a中的自定义符号统一转换文字符串类型;3)解析工具逐个分析所读取的字符,如果该字符及其后面n个字符组成的字符串与行分隔符一致,则根据行分隔符将待解析数据a分割成行数据;4)解析工具分析得到的行数据,根据字段包围符解析出行数据中所有的记录;5)解析工具逐个分析得到的每个记录,根据字段间分隔符解析出每条记录中所有的字段。本发明大大提高了解析效率。
-
公开(公告)号:CN116910467A
公开(公告)日:2023-10-20
申请号:CN202310691596.3
申请日:2023-06-12
Applicant: 中国科学院信息工程研究所
IPC: G06F18/20 , G06F18/214 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种面向复杂混部扰动的在线运行时环境预测方法及装置,该方法包括:针对训练集中的算子,分别收集每一算子和多个算子在空节点上运行时的环境关键指标Ts和环境关键指标Tm;基于该关键指标Ts和环境关键指标Tm,分别建立算子的算子画像和多个算子的画像;基于算子的算子画像和多个算子的画像,训练环境预测模型;获取待检测的混部算子中每一算子的算子画像,并将每一算子的算子画像输入训练后的环境预测模型,以得到待检测的混部算子在空节点上运行时的环境关键指标。本发明可以实时恶意流量检测,有效缓解、过滤和防御针对恶意流量的攻击。本发明能够准确预测复杂混部算子运行时环境。
-
公开(公告)号:CN108021540B
公开(公告)日:2023-05-02
申请号:CN201711095981.2
申请日:2017-11-09
Applicant: 中国科学院信息工程研究所
IPC: G06F40/126
Abstract: 本发明公开了一种面向Hadoop的通用文本格式的解析方法及工具。本方法为:1)对于一待解析的文件,将该文件对应的自定义的行分隔符、字段间分隔符和字段包围符保存到Hadoop系统中;2)Hadoop系统判断该文件是否可分割,若该文件可分割,则将该文件分割为多个块,然后进行步骤3);否则直接进行步骤3);3)Hadoop系统根据所述行分隔符解析出该文件的每行数据,然后根据所述字段包围符解析出每条记录包含的所有行数据;然后根据所述字段间分隔符和字段包围符,解析出每条记录中所有的字段。本发明能够根据自定义的符号解析出分布式环境中输入文件的每条记录所有字段,满足了自定义文件的解析要求。
-
公开(公告)号:CN112637130A
公开(公告)日:2021-04-09
申请号:CN202011378206.X
申请日:2020-11-30
Applicant: 中国科学院信息工程研究所
Abstract: 本发明提供一种基于消费队列的数据交换方法及系统,包括:接收外网服务器发送的客户端数据查询请求;解析客户端数据查询请求,将得到的订阅任务发送至元数据库,以得到消费队列;转换接收的内部订阅任务数据,将得到的外部订阅任务数据经外网服务器返回至相应客户端,其中所述内部订阅任务数据是通过消费客户端消费消息队列而得到。本发明客户端与内网订阅服务通过HTTP交互,不直接接触MQ数据;可通过客户端循环请求,获取数据。
-
公开(公告)号:CN103309966A
公开(公告)日:2013-09-18
申请号:CN201310219213.9
申请日:2013-06-04
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明涉及基于时间滑动窗口的数据流点连接查询方法,该方法将一定时间内到来的数据流的元组存入缓冲区,进而对缓冲区内的元组批量与其要连接的时间滑动窗口内的元组进行连接,将完成连接的元组批量删除,将未完成连接的元组批量插入到其对应的时间滑动窗口中;从而大大减少了对时间滑动窗口加锁和解锁操作次数;将缓冲区未完成连接的元组插入到其对应的时间滑动窗口时用顺序存储链表存储元组在时间滑动窗口中的位置,顺序存储链表的头结点中存储该缓冲区的开辟时间,避免查找时间滑动窗口中过期数据时对整个时间窗口进行遍历,只需对顺序存储链表头结点进行遍历,即可找到时间滑动窗口中一批过期元组,降低了运算量,提高了效率。
-
公开(公告)号:CN112650915B
公开(公告)日:2023-03-10
申请号:CN202011375913.3
申请日:2020-11-30
Applicant: 中国科学院信息工程研究所
IPC: G06F16/9532 , G06F16/242 , G06F16/27
Abstract: 本发明提供一种基于实时查询的数据交互方法及装置,包括:解析接收的客户端数据查询请求,判断所述客户端数据查询请求为长查询或短查询;若为长查询,则依据生成的查询记录对数据库进行查询,并将长查询结果存储至分布式文件系统中;若为短查询,则通过转换得到的系统sql语句对数据库进行查询,得到短查询结果;将获取的长查询结果或短查询结果返回至客户端。本发明支持短查询和长查询两种不同的请求方式,可以根据业务的紧急程度做不同速度的处理;短查询可以跳过中间系统直接访问数据源并返回结果数据,以达到更快的速度;长查询的结果以较小单位依次返回给请求方达到更高的时效性。
-
-
-
-
-
-
-
-
-