一种基于配置数据加工模型的加工中心数据流式处理方法

    公开(公告)号:CN105354239B

    公开(公告)日:2019-04-30

    申请号:CN201510653943.9

    申请日:2015-10-10

    Abstract: 本发明公开了一种基于配置数据加工模型的加工中心数据流式处理方法。本方法为:1)对待加工数据源创建一数据加工模型:包括加工前数据的字段及类型、加工后数据的字段名称及类型,以及加工前、后数据字段之间的对应关系;2)设置一数据加工语法规则,包括设置每一数据源要提取的加工字段信息;每一要加工字段的字段名称和相应的字段类型,以及处理该加工字段的数据加工处理模块和处理时所用的匹配规则;每一个加工字段加工后的名称和数据类型;3)根据数据加工任务和该数据加工语法规则,生成一工单配置文件;4)根据该工单配置文件创建一工厂实例,按照加工工单内容顺序组织和执行实例内容。本发明提高了大数据处理速度和灵活性别。

    一种高效的分布式的RDF数据存储方法

    公开(公告)号:CN105608228B

    公开(公告)日:2019-05-17

    申请号:CN201610064516.1

    申请日:2016-01-29

    Abstract: 本发明公开了一种高效的分布式的RDF数据存储方法。本方法为:1)用户为待上传的每一三元组选取一命名图或设定一新的命名图;并根据业务需求为该三元组设定一有效谓词及其三元组;2)数据控制系统对用户上传的RDF数据中的每条三元组进行解析,提取该三元组的谓词及该三元组的命名图的有效谓词;然后根据该有效谓词,将该三元组拆分成具有相同唯一标识的两个三元组:同一主语的完整谓词的三元组和同一主语的有效谓词的三元组;有效谓词为完整谓词中一部分谓词;3)数据控制系统将得到的同一主语的完整谓词的三元组数据和同一主语的有效谓词的三元组数据分别存储到不同的数据库集群。本发明得到提升了数据的高可用性。

    一种大规模RDF数据关联路径发现方法

    公开(公告)号:CN105468702B

    公开(公告)日:2019-03-22

    申请号:CN201510795962.5

    申请日:2015-11-18

    Abstract: 本发明公开了一种大规模RDF数据关联路径发现方法。本方法为:1)抽取RDF数据库中的RDF关联数据并以 、 、 形式缓存;2)对主语和宾语分别分配一id,生成主语id、url和宾语id、url存入到点文档中;将主语id宾语id谓语url存储到边文档中;3)将点文档内容存到nodes表中构建出点弹性分布式数据集实例,将边文档内容储到edges表中构建出边弹性分布式数据集实例;然后进行实例化,得到分布式图形数据集合;4)计算该集合中数据的所属子图,生成若干没有关联的最大连通子图;将同一子图中的点集合两两组合并计算每一组合中两点之间的关联路径。本发明能更快速完整的发现关联路径。

    一种大规模RDF数据关联路径发现方法

    公开(公告)号:CN105468702A

    公开(公告)日:2016-04-06

    申请号:CN201510795962.5

    申请日:2015-11-18

    CPC classification number: G06F17/30424 G06F17/30442

    Abstract: 本发明公开了一种大规模RDF数据关联路径发现方法。本方法为:1)抽取RDF数据库中的RDF关联数据并以 、 、 形式缓存;2)对主语和宾语分别分配一id,生成主语id、url和宾语id、url存入到点文档中;将主语id宾语id谓语url存储到边文档中;3)将点文档内容存到nodes表中构建出点弹性分布式数据集实例,将边文档内容储到edges表中构建出边弹性分布式数据集实例;然后进行实例化,得到分布式图形数据集合;4)计算该集合中数据的所属子图,生成若干没有关联的最大连通子图;将同一子图中的点集合两两组合并计算每一组合中两点之间的关联路径。本发明能更快速完整的发现关联路径。

    一种高效的分布式的RDF数据存储方法

    公开(公告)号:CN105608228A

    公开(公告)日:2016-05-25

    申请号:CN201610064516.1

    申请日:2016-01-29

    CPC classification number: G06F17/3028

    Abstract: 本发明公开了一种高效的分布式的RDF数据存储方法。本方法为:1)用户为待上传的每一三元组选取一命名图或设定一新的命名图;并根据业务需求为该三元组设定一有效谓词及其三元组;2)数据控制系统对用户上传的RDF数据中的每条三元组进行解析,提取该三元组的谓词及该三元组的命名图的有效谓词;然后根据该有效谓词,将该三元组拆分成具有相同唯一标识的两个三元组:同一主语的完整谓词的三元组和同一主语的有效谓词的三元组;有效谓词为完整谓词中一部分谓词;3)数据控制系统将得到的同一主语的完整谓词的三元组数据和同一主语的有效谓词的三元组数据分别存储到不同的数据库集群。本发明得到提升了数据的高可用性。

    一种基于配置数据加工模型的加工中心数据流式处理方法

    公开(公告)号:CN105354239A

    公开(公告)日:2016-02-24

    申请号:CN201510653943.9

    申请日:2015-10-10

    CPC classification number: G06F17/30129

    Abstract: 本发明公开了一种基于配置数据加工模型的加工中心数据流式处理方法。本方法为:1)对待加工数据源创建一数据加工模型:包括加工前数据的字段及类型、加工后数据的字段名称及类型,以及加工前、后数据字段之间的对应关系;2)设置一数据加工语法规则,包括设置每一数据源要提取的加工字段信息;每一要加工字段的字段名称和相应的字段类型,以及处理该加工字段的数据加工处理模块和处理时所用的匹配规则;每一个加工字段加工后的名称和数据类型;3)根据数据加工任务和该数据加工语法规则,生成一工单配置文件;4)根据该工单配置文件创建一工厂实例,按照加工工单内容顺序组织和执行实例内容。本发明提高了大数据处理速度和灵活性别。

    一种支持BLOB的多元大数据融合方法和系统

    公开(公告)号:CN107122486B

    公开(公告)日:2020-08-14

    申请号:CN201710321988.5

    申请日:2017-05-09

    Abstract: 本发明公开了一种支持BLOB的多元大数据融合方法和系统。本方法为:1)基于RDF数据模型,创建RDF‑B数据模型;RDF‑B数据模型采用三元组形式来表达每个资源的属性及其属性值,所述属性值包括BLOB类型的属性值,BLOB类型的属性值包括数据内容、长度、摘要和标志信息;2)RDF‑B数据模型对收到的数据生成三元组并存储到一前端存储系统;其中,如果该数据为BLOB类型,则RDF‑B数据模型根据该数据对应三元组中BLOB类型的属性值生成一四元组 作为该数据的三元组信息的属性值,然后将该数据的三元组保存到该前端存储系统,根据该句柄将数据内容存储到后端存储系统。

    一种支持BLOB的多元大数据融合方法和系统

    公开(公告)号:CN107122486A

    公开(公告)日:2017-09-01

    申请号:CN201710321988.5

    申请日:2017-05-09

    Abstract: 本发明公开了一种支持BLOB的多元大数据融合方法和系统。本方法为:1)基于RDF数据模型,创建RDF‑B数据模型;RDF‑B数据模型采用三元组形式来表达每个资源的属性及其属性值,所述属性值包括BLOB类型的属性值,BLOB类型的属性值包括数据内容、长度、摘要和标志信息;2)RDF‑B数据模型对收到的数据生成三元组并存储到一前端存储系统;其中,如果该数据为BLOB类型,则RDF‑B数据模型根据该数据对应三元组中BLOB类型的属性值生成一四元组 作为该数据的三元组信息的属性值,然后将该数据的三元组保存到该前端存储系统,根据该句柄将数据内容存储到后端存储系统。

Patent Agency Ranking