-
公开(公告)号:CN105468702B
公开(公告)日:2019-03-22
申请号:CN201510795962.5
申请日:2015-11-18
Applicant: 中国科学院计算机网络信息中心
IPC: G06F16/245 , G06F16/2453
Abstract: 本发明公开了一种大规模RDF数据关联路径发现方法。本方法为:1)抽取RDF数据库中的RDF关联数据并以 、 、 形式缓存;2)对主语和宾语分别分配一id,生成主语id、url和宾语id、url存入到点文档中;将主语id宾语id谓语url存储到边文档中;3)将点文档内容存到nodes表中构建出点弹性分布式数据集实例,将边文档内容储到edges表中构建出边弹性分布式数据集实例;然后进行实例化,得到分布式图形数据集合;4)计算该集合中数据的所属子图,生成若干没有关联的最大连通子图;将同一子图中的点集合两两组合并计算每一组合中两点之间的关联路径。本发明能更快速完整的发现关联路径。
-
公开(公告)号:CN105468702A
公开(公告)日:2016-04-06
申请号:CN201510795962.5
申请日:2015-11-18
Applicant: 中国科学院计算机网络信息中心
IPC: G06F17/30
CPC classification number: G06F17/30424 , G06F17/30442
Abstract: 本发明公开了一种大规模RDF数据关联路径发现方法。本方法为:1)抽取RDF数据库中的RDF关联数据并以 、 、 形式缓存;2)对主语和宾语分别分配一id,生成主语id、url和宾语id、url存入到点文档中;将主语id宾语id谓语url存储到边文档中;3)将点文档内容存到nodes表中构建出点弹性分布式数据集实例,将边文档内容储到edges表中构建出边弹性分布式数据集实例;然后进行实例化,得到分布式图形数据集合;4)计算该集合中数据的所属子图,生成若干没有关联的最大连通子图;将同一子图中的点集合两两组合并计算每一组合中两点之间的关联路径。本发明能更快速完整的发现关联路径。
-
公开(公告)号:CN105354239A
公开(公告)日:2016-02-24
申请号:CN201510653943.9
申请日:2015-10-10
Applicant: 中国科学院计算机网络信息中心
IPC: G06F17/30
CPC classification number: G06F17/30129
Abstract: 本发明公开了一种基于配置数据加工模型的加工中心数据流式处理方法。本方法为:1)对待加工数据源创建一数据加工模型:包括加工前数据的字段及类型、加工后数据的字段名称及类型,以及加工前、后数据字段之间的对应关系;2)设置一数据加工语法规则,包括设置每一数据源要提取的加工字段信息;每一要加工字段的字段名称和相应的字段类型,以及处理该加工字段的数据加工处理模块和处理时所用的匹配规则;每一个加工字段加工后的名称和数据类型;3)根据数据加工任务和该数据加工语法规则,生成一工单配置文件;4)根据该工单配置文件创建一工厂实例,按照加工工单内容顺序组织和执行实例内容。本发明提高了大数据处理速度和灵活性别。
-
公开(公告)号:CN105354239B
公开(公告)日:2019-04-30
申请号:CN201510653943.9
申请日:2015-10-10
Applicant: 中国科学院计算机网络信息中心
IPC: G06F16/2455
Abstract: 本发明公开了一种基于配置数据加工模型的加工中心数据流式处理方法。本方法为:1)对待加工数据源创建一数据加工模型:包括加工前数据的字段及类型、加工后数据的字段名称及类型,以及加工前、后数据字段之间的对应关系;2)设置一数据加工语法规则,包括设置每一数据源要提取的加工字段信息;每一要加工字段的字段名称和相应的字段类型,以及处理该加工字段的数据加工处理模块和处理时所用的匹配规则;每一个加工字段加工后的名称和数据类型;3)根据数据加工任务和该数据加工语法规则,生成一工单配置文件;4)根据该工单配置文件创建一工厂实例,按照加工工单内容顺序组织和执行实例内容。本发明提高了大数据处理速度和灵活性别。
-
-
-