-
公开(公告)号:CN107220346B
公开(公告)日:2021-04-30
申请号:CN201710388939.3
申请日:2017-05-27
Applicant: 荣科科技股份有限公司 , 辽宁大学
IPC: G06F16/28
Abstract: 一种高维不完整数据特征选择方法,涉及如下步骤:(1)判断初始数据是否为完整数据;若为不完整数据,则转到步骤(2);若为完整数据,则转到步骤(3);步骤(2):假设现在有各个维度的数据,用1表示该数据项是完整的,用0表示该数据项是缺失的.计算每个维度的缺失率,接着计算缺失熵:依次算出每个维度的缺失熵;对结果进行加权平均;步骤(3):在高维数据中进行特征选择时,通过比较原始数据矩阵的相关矩阵和随机矩阵在奇异值上的差异,对相关矩阵进行去噪。得到去噪后的相关矩阵和选择特征的数量,再进行奇异值分解,通过分解矩阵获得特征与类的相关性,根据特征与类的相关性和特征之间冗余性完成特征选择。
-
公开(公告)号:CN107220346A
公开(公告)日:2017-09-29
申请号:CN201710388939.3
申请日:2017-05-27
Applicant: 荣科科技股份有限公司 , 辽宁大学
IPC: G06F17/30
CPC classification number: G06F17/30592
Abstract: 一种高维不完整数据特征选择方法,涉及如下步骤:(1)判断初始数据是否为完整数据;若为不完整数据,则转到步骤(2);若为完整数据,则转到步骤(3);步骤(2):假设现在有各个维度的数据,用1表示该数据项是完整的,用0表示该数据项是缺失的.计算每个维度的缺失率,接着计算缺失熵:依次算出每个维度的缺失熵;对结果进行加权平均;步骤(3):在高维数据中进行特征选择时,通过比较原始数据矩阵的相关矩阵和随机矩阵在奇异值上的差异,对相关矩阵进行去噪。得到去噪后的相关矩阵和选择特征的数量,再进行奇异值分解,通过分解矩阵获得特征与类的相关性,根据特征与类的相关性和特征之间冗余性完成特征选择。
-
公开(公告)号:CN106599112A
公开(公告)日:2017-04-26
申请号:CN201611081152.4
申请日:2016-11-30
Applicant: 辽宁大学
IPC: G06F17/30
CPC classification number: G06F16/2228 , G06F16/215
Abstract: 本发明涉及一种海量不完整数据存储及操作方法,该方法首先根据完整数据和不完整数据的特点采用不同的处理策略,然后对不完整数据的属性缺失字段进行标记并建立对应索引;根据属性划分对索引文件再次压缩以节省存储空间,通过编码字典来完成无解压查询,在查询的基础上实现了海量不完整数据的删除,修改及插入。该方法越过数据清洗直接对海量不完整数据进行操作,可以大幅度地减少存储空间,快速定位不完整数据的压缩位置,保证查询的快速性,删除的准确性,修改结果的完整性及插入的高效性。本方法能够节省存储空间,快速定位不完整数据的压缩位置,保证查询的快速性,删除的准确性,修改结果的完整性及插入的高效性。
-
-