-
公开(公告)号:CN112036182B
公开(公告)日:2024-07-19
申请号:CN202010757468.0
申请日:2020-07-31
Applicant: 中国科学院信息工程研究所
IPC: G06F40/295 , G06F40/30 , G06F40/126 , G06N3/042 , G06N3/084
Abstract: 本发明涉及一种多角度引入属性语义的知识表示学习方法和系统。所述方法包括:对结点的属性语义进行表征,得到属性文本的嵌入式表示;将属性文本的嵌入式表示与结点的嵌入式表示及数字外部信息的嵌入式表示相结合,代入到融合数字外部信息的知识表示学习模型中;通过融合数字外部信息的知识表示学习模型得到实体和关系的嵌入式表示。其中,采用以下两种方式中的至少一种对结点的属性语义进行表征:利用词袋模型对属性的语义进行表征;将属性看作结点的描述性文本,利用自然语言处理工具对描述性文本的语义进行表征。本发明提供了两种引入属性语义的角度,对数字形式的外部数据进行了更充分的利用,并最终提高了表示学习效果。
-
公开(公告)号:CN116910467A
公开(公告)日:2023-10-20
申请号:CN202310691596.3
申请日:2023-06-12
Applicant: 中国科学院信息工程研究所
IPC: G06F18/20 , G06F18/214 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种面向复杂混部扰动的在线运行时环境预测方法及装置,该方法包括:针对训练集中的算子,分别收集每一算子和多个算子在空节点上运行时的环境关键指标Ts和环境关键指标Tm;基于该关键指标Ts和环境关键指标Tm,分别建立算子的算子画像和多个算子的画像;基于算子的算子画像和多个算子的画像,训练环境预测模型;获取待检测的混部算子中每一算子的算子画像,并将每一算子的算子画像输入训练后的环境预测模型,以得到待检测的混部算子在空节点上运行时的环境关键指标。本发明可以实时恶意流量检测,有效缓解、过滤和防御针对恶意流量的攻击。本发明能够准确预测复杂混部算子运行时环境。
-
公开(公告)号:CN112036182A
公开(公告)日:2020-12-04
申请号:CN202010757468.0
申请日:2020-07-31
Applicant: 中国科学院信息工程研究所
IPC: G06F40/295 , G06F40/30 , G06F40/126 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种多角度引入属性语义的知识表示学习方法和系统。所述方法包括:对结点的属性语义进行表征,得到属性文本的嵌入式表示;将属性文本的嵌入式表示与结点的嵌入式表示及数字外部信息的嵌入式表示相结合,代入到融合数字外部信息的知识表示学习模型中;通过融合数字外部信息的知识表示学习模型得到实体和关系的嵌入式表示。其中,采用以下两种方式中的至少一种对结点的属性语义进行表征:利用词袋模型对属性的语义进行表征;将属性看作结点的描述性文本,利用自然语言处理工具对描述性文本的语义进行表征。本发明提供了两种引入属性语义的角度,对数字形式的外部数据进行了更充分的利用,并最终提高了表示学习效果。
-
公开(公告)号:CN115016928A
公开(公告)日:2022-09-06
申请号:CN202210431141.3
申请日:2022-04-22
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种基于算子作用域动态感知的弹性资源分配方法及装置。所述方法包括:构建数据流处理应用的有向无环图,所述有向无环图中的节点表示处理数据流的算子,边表示数据流;根据算子的静态筛选率指标和动态筛选率统计指标来评估上游算子的作用域,自适应地将有向无环图进行分区。预测每个分区未来一段时间的负载;针对每个所述分区中的各算子,基于所述负载生成相应数量的算子实例,以对所述接收数据进行实时处理,满足服务质量要求。本发明以分区为单位规划算子的并行性,从而保证端到端处理延迟,提升资源利用率。
-
公开(公告)号:CN107317865A
公开(公告)日:2017-11-03
申请号:CN201710521896.1
申请日:2017-06-30
Applicant: 中国科学院信息工程研究所
IPC: H04L29/08
Abstract: 本发明公开了一种通用的离线数据接入方法及系统,基于离线数据接入通用处理模板,来适配多种业务数据接入。具有如下优点:1)数据接入与业务耦合度低,数据接入系统更为通用,音视频数据、图片数据、博客数据、即时通信数据等数据源,都可以采用该方法及系统;2)多节点分布式采集数据,在保证数据正确传输的前提下,提供传输的并行度和传输效率,并实现了负载均衡;3)提供完善的异常处理和报错机制;4)实时监控系统运行状态,系统更为稳定。
-
公开(公告)号:CN107273193A
公开(公告)日:2017-10-20
申请号:CN201710295064.2
申请日:2017-04-28
Applicant: 中国科学院信息工程研究所
IPC: G06F9/48
CPC classification number: G06F9/4881
Abstract: 本发明公开了一种基于DAG的面向多计算框架的数据处理方法及系统。本方法为1)用户根据目标计算场景选取算子生成该目标计算场景;然后向管理器发送保存场景信息的请求;2)管理器将场景信息保存到场景表中;当收到该目标计算场景的执行请求后,读取该场景表生成包含该目标计算场景信息的作业并发送给调度器;3)调度器根据收到的作业生成对应的算子DAG并验证;对于验证通过的算子生成子作业DAG;然后根据生成的子作业DAG确定每一执行阶段并将其发送给执行器;4)执行器将调度器下发的每一执行阶段的子作业解释为该计算框架下的计算逻辑并触发计算;然后将计算结果提交给调度器。本发明提高了计算框架的计算效率。
-
公开(公告)号:CN107317865B
公开(公告)日:2019-11-05
申请号:CN201710521896.1
申请日:2017-06-30
Applicant: 中国科学院信息工程研究所
IPC: H04L29/08
Abstract: 本发明公开了一种通用的离线数据接入方法及系统,基于离线数据接入通用处理模板,来适配多种业务数据接入。具有如下优点:1)数据接入与业务耦合度低,数据接入系统更为通用,音视频数据、图片数据、博客数据、即时通信数据等数据源,都可以采用该方法及系统;2)多节点分布式采集数据,在保证数据正确传输的前提下,提供传输的并行度和传输效率,并实现了负载均衡;3)提供完善的异常处理和报错机制;4)实时监控系统运行状态,系统更为稳定。
-
公开(公告)号:CN107463595A
公开(公告)日:2017-12-12
申请号:CN201710335307.0
申请日:2017-05-12
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明公开了一种基于Spark的数据处理方法及系统。本方法为:1)用户根据待处理文档的需求选取算子并配置所选取的算子参数,然后建立所选算子的连接关系,生成场景的XML文件;该场景的XML文件中包括每一所选算子的XML内容以及各算子的连接关系;2)根据场景的XML文件生成相应的有向无环图DAG;3)将该有向无环图DAG切分成若干能够在分布式计算环境下执行的子任务subJob,在Spark计算框架下执行切分后得到的子任务subJob,实现对该待处理文档的处理。本发明能够实现对接各种异构数据,提高了数据处理灵活性。
-
公开(公告)号:CN107229670A
公开(公告)日:2017-10-03
申请号:CN201710229253.X
申请日:2017-04-10
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明公开了基于Avro的通用数据序列化及反序列化方法。该方法使用统一的数据格式,从而保证不同表的数据均可用这种方式进行存储,降低不同表的数据与系统之间的耦合度;支持数据的打包存储,可以提供数据的批量传输,大大的提高了传输效率,此外,本发明使用Avro技术对数据进行校验,避免生成错误数据。
-
公开(公告)号:CN106372105A
公开(公告)日:2017-02-01
申请号:CN201610694772.9
申请日:2016-08-19
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
CPC classification number: G06F16/334 , G06F16/313
Abstract: 本发明涉及一种基于Spark平台的微博数据预处理方法。该方法包括:1)采集微博数据;2)基于Spark平台对采集的微博数据进行去噪处理,并将去噪处理后的微博数据缓存在分布式内存中;3)基于Spark平台对去噪处理后的微博数据进行去重处理,在去重处理中将海明距离小于设定的阈值的文本判定为近似文本。本发明采用Spark平台做为存储及运算的基础,采用内存缓存来提高读写速度,计算节点由Spark平台调度,完成分布式计算,能够实现更准确、高效的去噪、去重功能。
-
-
-
-
-
-
-
-
-