-
公开(公告)号:CN103631927A
公开(公告)日:2014-03-12
申请号:CN201310648184.8
申请日:2013-12-03
Applicant: 南京邮电大学
IPC: G06F17/30
CPC classification number: G06F17/30315
Abstract: 本发明涉及一种基于话单数据的压缩和存储方法,由列存储系统实现,列存储系统包括压缩模块、存储模块和处理模块,本发明方法采用多种轻量级压缩算法从语法和语义分别对数据进行压缩,将数据存储于特定的列存数据库。并支持多种数据处理语言对压缩态下的数据进行查询筛选等操作。本发明针对运营商实际存在的问题提出了一种有效的解决方案,并且适用于各大运营商处理其大量的话单数据,大大减少了数据存储所需的空间,在数据存储上引入了列存数据库,由于其自身存储的特殊性,与各种轻量级压缩算法可以完美的结合起来,由于采用轻量级压缩算法,可以对压缩态的数据直接进行SQL操作,大大提高了数据的处理速度。
-
公开(公告)号:CN104715013A
公开(公告)日:2015-06-17
申请号:CN201510038173.7
申请日:2015-01-26
Applicant: 南京邮电大学
IPC: G06F17/30
CPC classification number: G06F17/30194 , G06F17/30147
Abstract: 本发明公开了一种基于Hadoop的用户健康数据分析方法和系统,该系统包括个人基本健康信息管理模块、个人体测数据管理模块、统计分析模块、数据挖掘模块、分布式存储模块。在业务逻辑层引入Hadoop平台对大数据进行处理分析,并且在数据访问层提供对HBase操作的接口,采用HBase可以对数据进行高效持久化存储。在对健康大数据进行处理的时候主要采用关联分析的数据挖掘方式,并使用基于MapReduce改进后的Apriori算法。在业务逻辑层引入了Hadoop分布式处理平台,大大提高了健康数据的处理速度。采用基于MapReduce的Apriori算法进行关联分析,能及时为用户提供健康建议和预警。数据存储方面采用HBase,适合健康数据多样化、稀疏化的特征,并且大大减少了数据存储所需的空间,便于大数据的持久化存储。
-