-
公开(公告)号:CN107067025B
公开(公告)日:2020-12-22
申请号:CN201710081921.9
申请日:2017-02-15
Applicant: 重庆邮电大学
IPC: G06K9/62
Abstract: 本发明请求保护一种基于主动学习的文本数据自动标注方法,属于主动学习领域,包括以下步骤:101对已标记和未标记数据进行处理;102利用多个不同分类器对未标记数据进行分类;103选出分歧熵低的数据;104对分歧熵低的数据进行人工标记;105对人工标记结果进行自检。本发明针对如何在减少人工标注数据的数量的同时,尽量保证人工标注数据的准确性问题,通过结合主动学习方法发明一个附带自检功能的数据自动标注系统,达到缩减工作量且提高人工标注数据准确性的目的。
-
公开(公告)号:CN107086935A
公开(公告)日:2017-08-22
申请号:CN201710457666.3
申请日:2017-06-16
Applicant: 重庆邮电大学
Abstract: 本发明涉及基于WIFI AP记录的机场客流分布预测方法,涉及大数据挖掘处理技术领域,从控制中心获取WIFI AP记录进行预处理操作,通过WIFI AP接入设备数量分类WIFI AP,为各类WIFI AP分别构建训练样本集,使用各自的训练样本集分别构建回归模型,根据回归模型获取测试样本集,集合第一类模型和第二类模型的测试样本集获得预测结果,预测机场客流分布。本发明利用相关特性,使用数据挖掘及机器学习的相关方法,对机场的客流分布进行预测,达到有效利用机场资源。
-
公开(公告)号:CN106886569A
公开(公告)日:2017-06-23
申请号:CN201710026254.4
申请日:2017-01-13
Applicant: 重庆邮电大学
Abstract: 本发明请求保护一种基于MPI的ML‑KNN多标签中文文本分类方法,涉及文本分类和机器学习中的多标签分类算法。为解决ML‑KNN算法在具体实现中大规模文本分类问题和求解优化问题,控制计算的时间和空间的开销,本发明采用的技术方案是,采用MPI编程实现中文文本数据的预处理、特征提取、ML‑KNN算法及分类的并行化。相比传统的串行多标签中文文本分类方法,本发明极大的提高了多标签中文文本分类的效率。同时,在数据量一定的情况下,算法的效率一般会随着计算资源(进程数)的增加而增加。值得一提的是,在基于MPI并行化ML‑KNN步骤中,对数据集进行划分时既可以以样本为单位划分,又可以以特征为单位划分,这使得本发明在处理高维文本数据的时候,具有更大的优势。
-
公开(公告)号:CN106875670A
公开(公告)日:2017-06-20
申请号:CN201710131675.3
申请日:2017-03-07
Applicant: 重庆邮电大学
Abstract: 本发明请求保护一种Spark平台下基于GPS数据的出租车调配方法,包括:101从调度中心获取出租车历史GPS数据部署到Spark平台上,对数据做并行地预处理操作;102在Spark平台下对出租车历史GPS数据进行分析,提取特征建立回归模型;103在Spark平台下对出租车的实时GPS数据进行提取并预测其未来的路径、终点位置以及到达时间;104根据预测结果对出租车的调配进行优化。本发明主要是在Spark平台下解决出租车调配问题,通过对出租车历史GPS数据的分析,提取特征建立回归模型,从而预测出租车未来的GPS路径、终点位置以及到达时间,继而对出租车的调配进行优化。
-
公开(公告)号:CN106803082A
公开(公告)日:2017-06-06
申请号:CN201710059062.3
申请日:2017-01-23
Applicant: 重庆邮电大学
Abstract: 本发明请求保护一种基于条件式生成对抗网络的在线笔迹识别方法,包括:101用户注册模块:用户的基本信息;102接收模块:接收到用户输入的一段文字信息,包括:书写文字的风格、书写文字的力度、书写文字的间距;103条件式生成对抗网络:在笔迹签名数据集上以类别标签为条件训练对抗网络,可以根据标签条件信息,生成对应的方向数字特征;104笔迹鉴定模块:通过条件生成对抗网络挖掘用户的个性化笔迹,鉴别是通过对抗网络签名判别模型,判别模型D是一个二分类器,判别输入是真实笔迹数据还是生成的样本;S105应用模块:将笔迹鉴定应用到门禁系统和多个用户签署文件场景下。本发明具有更高的稳定性、安全性、便捷性;同时结合了条件式生成对抗网络方法,对用户书写风格、力度和间距信息均可识别,避免对文字特征提取不全面的问题。
-
-
-
-