-
-
公开(公告)号:CN108491476A
公开(公告)日:2018-09-04
申请号:CN201810193125.9
申请日:2018-03-09
Applicant: 深圳大学
IPC: G06F17/30
Abstract: 本发明适用于大数据处理技术领域,提供了一种大数据随机采样数据子块的划分方法,包括:切割一个大数据块,得到P个原始数据子块;从P个中的每一个所述原始数据子块中随机取出若干条数据,并把从每一个所述原始数据子块中取出的若干条数据组合,生成一个新的随机采样数据子块;重复提取组合的操作共K次,得到K个所述随机采样数据子块;本发明提供的划分方法可以保证所得到的随机采样数据子块是整个大数据块的随机采样;并且,在得到各个随机采样数据子块时,并不需要对整个大数据块进行遍历,从而大大提高了效率。
-
公开(公告)号:CN110147804B
公开(公告)日:2023-07-14
申请号:CN201810520058.7
申请日:2018-05-25
Applicant: 腾讯科技(深圳)有限公司 , 深圳大学
Inventor: 何玉林
IPC: G06F18/15 , G06F18/213
Abstract: 本申请公开了一种不平衡数据处理方法、终端及计算机可读存储介质,该方法包括:获取第一原始数据;经过第一变换将第一原始数据生成第一特征数据;经过第二变换将第一特征数据生成克隆数据;分别计算第一原始数据的第i向量与克隆数据的第i向量的误差,i的取值从1到k;根据误差对第一特征数据的向量进行排序,生成第二特征数据;对第二特征数据中的特征信息进行位置互换,生成第三特征数据;经过第三变换将第三特征数据生成仿真小样本数据。通过本申请,可以避免生成的仿真小样本数据与第一原始数据间存在极大空间分布相似度的问题,以使不平衡数据集的数据分布达到均衡,提高数据分析过程中的准确性或数据预测过程中的准确性。
-
公开(公告)号:CN115087999A
公开(公告)日:2022-09-20
申请号:CN202180013308.8
申请日:2021-01-19
Applicant: 深圳大学
IPC: G06Q10/06
Abstract: 本申请公开一种极限学习机训练方法、训练装置以及终端设备,该方法包括:获取目标训练样本集,所述目标训练样本集包括至少两个目标子训练样本集;分别使用各个所述目标子训练样本集对各个原始极限学习机进行训练,得到各个所述目标子训练样本集对应的原始权重值;对各个所述原始权重值进行融合,得到目标融合权重值,并根据所述目标融合权重值构建目标极限学习机。本申请解决了目前极限学习机在保证高准确率的情况下,训练高维度训练样本的时间较长,效率较低的问题。
-
-
公开(公告)号:CN114270341A
公开(公告)日:2022-04-01
申请号:CN202180003883.X
申请日:2021-01-25
Applicant: 深圳大学
IPC: G06F16/906
Abstract: 本申请实施例公开了一种数据属性的分组方法、装置、设备及存储介质。其中,该方法包括:根据待分类数据的聚类簇的中心点、属性与属性组的当前第一关系矩阵,以及聚类簇与属性组的当前第二关系矩阵,更新聚类簇与属性的当前第三关系矩阵(110);判断当前迭代次数是否大于0,若是,则根据当前第一关系矩阵和当前第三关系矩阵,更新聚类簇与属性组的当前第四关系矩阵(120);根据当前第二关系矩阵、当前第三关系矩阵和当前第四关系矩阵,更新属性与属性组的当前第一关系矩阵(130);根据预设的迭代结束条件,判断属性分组是否迭代完成,若完成,则根据更新后的当前第一关系矩阵,确定待分类数据的属性分组结果(140)。实现由高维数据向低维数据的属性分组。
-
公开(公告)号:CN109063335A
公开(公告)日:2018-12-21
申请号:CN201810875048.5
申请日:2018-08-03
Applicant: 深圳大学
IPC: G06F17/50
Abstract: 本发明公开了一种增量核密度估计器的生成方法、装置和计算机可读存储介质,用于挖掘数据,解决了现有技术中生成核密度估计器成本过大的问题,其包括:获取并存储现有数据及新增数据,并将现有数据及新增数据存储至不同位置;根据现有数据生成第一核密度估计器;根据新增数据生成第二核密度估计器;融合第一核密度估计器及第二核密度估计器,以更新第一核密度估计器;生成更新后的第一核密度估计器的窗口宽度参数,以使更新后的第一核密度估计器正常使用;当新增数据加入的时候,只需用第二核密度估计器更新第一核密度估计器即可,无需基于全部数据生成新的第一核密度估计器,从而减少了生成核密度估计器的成本。
-
公开(公告)号:CN108564173A
公开(公告)日:2018-09-21
申请号:CN201810386262.4
申请日:2018-04-26
Applicant: 深圳大学
IPC: G06N3/08
Abstract: 本发明公开了一种随机权网络泛化能力改进方法、装置和计算机可读存储介质,本发明的随机权网络泛化能力改进方法首先在伪残差数据集上解析地计算弱随机权网络的初始输出层权重,之后,设计了考虑当前集成学习模型损失和复杂度的目标函数,通过最小化目标函数计算出了最优输出层权重的优化准则,最后,以初始输出层权重为启发式,结合推导的优化准则,计算出弱随机权网络的最优输出层权重,该过程可以看作是对弱随机权网络初始输出层权重的再次优化,通过目标函数得出优化规则,并对弱随机权网络初始输出层权重进行再次优化的好处主要体现在:结构较为简单的集成学习模型能够获得更好的泛化表现、更优秀的过拟合控制能力以及更小的预测方差。
-
公开(公告)号:CN107679553A
公开(公告)日:2018-02-09
申请号:CN201710827700.1
申请日:2017-09-14
Applicant: 深圳大学
IPC: G06K9/62
CPC classification number: G06K9/622
Abstract: 本发明公开了一种基于密度峰值的聚类方法及装置,方法包括:在样本空间中随机选取若干个观测点,根据各个样本点相对于各个观测点的距离,获得各个观测点的聚类结果,并根据各个观测点的聚类结果生成高维数据的相似度矩阵,将该相似度矩阵各行的和分别作为该相似度矩阵各行对应的样本点的密度,然后根据相似度矩阵各行对应的样本点的密度,获得上述相似度矩阵的密度集合,然后计算该密度集合中各个密度的峰值,根据各个密度的峰值确定候选中心,根据该候选中心中的峰值进行聚类,得到上述各个样本点的聚类结果。本发明不需要设置截断距离参数,同时不需要采用决策图来人为的选择聚类中心,应用范围较广泛。
-
公开(公告)号:CN106295797A
公开(公告)日:2017-01-04
申请号:CN201610652065.3
申请日:2016-08-10
Applicant: 深圳大学
CPC classification number: G06N3/0436 , G06N3/0472 , G06N3/08
Abstract: 本发明涉及数据分析技术领域,尤其涉及一种基于随机权网络的FNR(Fuzzy Nonlinear Regression,模糊非线性回归)分析模型的训练方法及训练系统。该训练方法及训练系统中使用的随机权网络不需要迭代训练,它的输入权重随机选取,输出权重基于模糊输入-模糊输出的训练集解析式地求得,并通过对输出层权重解析表达式的正则化处理来控制模型的过拟合。与传统的基于Sigmoid神经网络的FNR模型和基于径向基函数网络的FNR模型相比较,本发明的优势体现在:具有极快的训练速度(最快比现有方法快将近1000倍)和高效的过拟合控制能力(基本上不存在过拟合现象)。
-
-
-
-
-
-
-
-
-