-
公开(公告)号:CN104317801A
公开(公告)日:2015-01-28
申请号:CN201410483041.0
申请日:2014-09-19
Applicant: 东北大学
IPC: G06F17/30
CPC classification number: G06F17/30303
Abstract: 一种面向大数据的数据清洗系统及方法,该系统应用层包括数据解析抽取模块、相似连接模块、相似子图聚集模块、实体采样模块、概率计算与实体查询模块,存储层利用Hadoop提供的分布式存储工具HDFS对数据清洗过程中产生的结构化数据记录、相似数据记录对、相似连通子图进行存储,利用Hadoop提供的分布式存储工具HBase对清洗后的结构化数据记录进行存储。该方法包括获取待清洗数据;相似连接;相似子图聚集;实体采样;概率计算与实体查询。本发明是一种面向大数据的数据清洗系统与不确定数据确定化方法,解决了以往的集中式的相似性连接无法适应大规模数据运算的问题,充分利用图以及相关知识创造性的完成大数据清洗,并为海量数据分析提供了数据准备。
-
公开(公告)号:CN104317801B
公开(公告)日:2017-07-18
申请号:CN201410483041.0
申请日:2014-09-19
Applicant: 东北大学
IPC: G06F17/30
Abstract: 一种面向大数据的数据清洗系统及方法,该系统应用层包括数据解析抽取模块、相似连接模块、相似子图聚集模块、实体采样模块、概率计算与实体查询模块,存储层利用Hadoop提供的分布式存储工具HDFS对数据清洗过程中产生的结构化数据记录、相似数据记录对、相似连通子图进行存储,利用Hadoop提供的分布式存储工具HBase对清洗后的结构化数据记录进行存储。该方法包括获取待清洗数据;相似连接;相似子图聚集;实体采样;概率计算与实体查询。本发明是一种面向大数据的数据清洗系统与不确定数据确定化方法,解决了以往的集中式的相似性连接无法适应大规模数据运算的问题,充分利用图以及相关知识创造性的完成大数据清洗,并为海量数据分析提供了数据准备。
-