-
公开(公告)号:CN106599913B
公开(公告)日:2019-08-06
申请号:CN201611115834.2
申请日:2016-12-07
Applicant: 重庆邮电大学
Abstract: 本发明涉及一种基于聚类的多标签不平衡生物医学数据分类方法,包括以下步骤:S101对标签不均衡的数据根据特征相似度和标签关联性定义关系矩阵;S102根据关联矩阵对数据进行聚类;S103对每个类簇中的不平衡标签进行有方向性的增加;S104对每个类簇中的数据用多标签分类器进行训练学习;S105根据投票原则把每个分类器的结果进行合并,预测出标签。本发明通过层次聚类方法对数据进行聚类,并且在聚类时考虑标签关联性来降低簇内标签的不平衡性,从而提高重采样方法生成新数据的可靠性,降低噪声数据的概率。
-
公开(公告)号:CN106875670B
公开(公告)日:2019-12-31
申请号:CN201710131675.3
申请日:2017-03-07
Applicant: 重庆邮电大学
Abstract: 本发明请求保护一种Spark平台下基于GPS数据的出租车调配方法,包括:101从调度中心获取出租车历史GPS数据部署到Spark平台上,对数据做并行地预处理操作;102在Spark平台下对出租车历史GPS数据进行分析,提取特征建立回归模型;103在Spark平台下对出租车的实时GPS数据进行提取并预测其未来的路径、终点位置以及到达时间;104根据预测结果对出租车的调配进行优化。本发明主要是在Spark平台下解决出租车调配问题,通过对出租车历史GPS数据的分析,提取特征建立回归模型,从而预测出租车未来的GPS路径、终点位置以及到达时间,继而对出租车的调配进行优化。
-
公开(公告)号:CN107067025A
公开(公告)日:2017-08-18
申请号:CN201710081921.9
申请日:2017-02-15
Applicant: 重庆邮电大学
IPC: G06K9/62
Abstract: 本发明请求保护一种基于主动学习的数据自动标注方法,属于主动学习领域,包括以下步骤:101对已标记和未标记数据进行处理;102利用多个不同分类器对未标记数据进行分类;103选出分歧熵低的数据;104对分歧熵低的数据进行人工标记;105对人工标记结果进行自检。本发明针对如何在减少人工标注数据的数量的同时,尽量保证人工标注数据的准确性问题,通过结合主动学习方法发明一个附带自检功能的数据自动标注系统,达到缩减工作量且提高人工标注数据准确性的目的。
-
公开(公告)号:CN106777006A
公开(公告)日:2017-05-31
申请号:CN201611115832.3
申请日:2016-12-07
Applicant: 重庆邮电大学
IPC: G06F17/30
Abstract: 本发明涉及一种基于Spark下并行超网络的分类算法,具体包括以下步骤:步骤S1.把文本数据部署到Spark平台上;步骤S2.在Spark平台上对文本数据进行并行化预处理;步骤S3.在Spark平台上,对超网络算法的演化学习进行并行化实现。本发明主要解决在大规模文本数据量的情况下,演化超网络分类算法的并行处理问题,通过分布式数据存储阶段,数据预处理阶段,并且通过改变超边结构以及超网络演化计算方式,修改目标函数,完成对超网络算法的并行化处理,提高传统超网络的分类算法性能和效率,解决在海量数据中,传统的超网络模型已经难以满足时间和空间的限制。
-
公开(公告)号:CN107067025B
公开(公告)日:2020-12-22
申请号:CN201710081921.9
申请日:2017-02-15
Applicant: 重庆邮电大学
IPC: G06K9/62
Abstract: 本发明请求保护一种基于主动学习的文本数据自动标注方法,属于主动学习领域,包括以下步骤:101对已标记和未标记数据进行处理;102利用多个不同分类器对未标记数据进行分类;103选出分歧熵低的数据;104对分歧熵低的数据进行人工标记;105对人工标记结果进行自检。本发明针对如何在减少人工标注数据的数量的同时,尽量保证人工标注数据的准确性问题,通过结合主动学习方法发明一个附带自检功能的数据自动标注系统,达到缩减工作量且提高人工标注数据准确性的目的。
-
公开(公告)号:CN106777006B
公开(公告)日:2020-10-23
申请号:CN201611115832.3
申请日:2016-12-07
Applicant: 重庆邮电大学
IPC: G06F16/953 , G06F16/35
Abstract: 本发明涉及一种基于Spark下并行超网络的分类算法,具体包括以下步骤:步骤S1.把文本数据部署到Spark平台上;步骤S2.在Spark平台上对文本数据进行并行化预处理;步骤S3.在Spark平台上,对超网络算法的演化学习进行并行化实现。本发明主要解决在大规模文本数据量的情况下,演化超网络分类算法的并行处理问题,通过分布式数据存储阶段,数据预处理阶段,并且通过改变超边结构以及超网络演化计算方式,修改目标函数,完成对超网络算法的并行化处理,提高传统超网络的分类算法性能和效率,解决在海量数据中,传统的超网络模型已经难以满足时间和空间的限制。
-
公开(公告)号:CN106875670A
公开(公告)日:2017-06-20
申请号:CN201710131675.3
申请日:2017-03-07
Applicant: 重庆邮电大学
Abstract: 本发明请求保护一种Spark平台下基于GPS数据的出租车调配方法,包括:101从调度中心获取出租车历史GPS数据部署到Spark平台上,对数据做并行地预处理操作;102在Spark平台下对出租车历史GPS数据进行分析,提取特征建立回归模型;103在Spark平台下对出租车的实时GPS数据进行提取并预测其未来的路径、终点位置以及到达时间;104根据预测结果对出租车的调配进行优化。本发明主要是在Spark平台下解决出租车调配问题,通过对出租车历史GPS数据的分析,提取特征建立回归模型,从而预测出租车未来的GPS路径、终点位置以及到达时间,继而对出租车的调配进行优化。
-
公开(公告)号:CN106599913A
公开(公告)日:2017-04-26
申请号:CN201611115834.2
申请日:2016-12-07
Applicant: 重庆邮电大学
CPC classification number: G06K9/6219 , G06K9/6215 , G06K9/6282 , G16H50/20
Abstract: 本发明涉及一种基于聚类的多标签不平衡生物医学数据分类方法,包括以下步骤:S101对标签不均衡的数据根据特征相似度和标签关联性定义关系矩阵;S102根据关联矩阵对数据进行聚类;S103对每个类簇中的不平衡标签进行有方向性的增加;S104对每个类簇中的数据用多标签分类器进行训练学习;S105根据投票原则把每个分类器的结果进行合并,预测出标签。本发明通过层次聚类方法对数据进行聚类,并且在聚类时考虑标签关联性来降低簇内标签的不平衡性,从而提高重采样方法生成新数据的可靠性,降低噪声数据的概率。
-
-
-
-
-
-
-