一种减少分布式机器学习通信开销的方法

    公开(公告)号:CN110287031A

    公开(公告)日:2019-09-27

    申请号:CN201910583390.2

    申请日:2019-07-01

    Applicant: 南京大学

    Abstract: 本发明公开了一种减少分布式机器学习通信开销的方法,基于参数服务器架构,既适用于数据中心的多机集群分布式机器学习,也适用于服务器作为云端、手机或嵌入式设备作为终端的端云协同分布式机器学习。包括以下步骤:首先所有工作节点计算梯度,并结合两轮参数差求出全局动量,将全局动量与上一轮记忆梯度求和得到新一轮记忆梯度,对其取部分发给服务器节点,剩下部分进行累积;随后服务器节点累积所有稀疏的记忆梯度和,以此更新参数并将两轮的参数差广播给所有工作节点;最后工作节点接收两轮参数差,并更新参数。本发明的方法基于全局梯度压缩,工作节点与服务器节点间通信时只传递全局动量的一部分,从而减小了分布式机器学习中的通信开销。

    一种基于权重归一化的深度神经网络压缩方法

    公开(公告)号:CN110276451A

    公开(公告)日:2019-09-24

    申请号:CN201910575103.3

    申请日:2019-06-28

    Applicant: 南京大学

    Inventor: 李武军 蔡文朴

    Abstract: 本发明公开了一种基于权重归一化的深度神经网络压缩方法,权重的量化可以分解为三个步骤,首先对权重进行归一化,然后基于最小量化误差把权重量化至极低的比特,最后进行反归一化得到量化的权重,使用量化的权重进行神经网络的正向传播。为了训练量化权重的神经网络,本发明对阶跃形式的量化函数的导数进行近似,从而使得神经网络的梯度可以进行反向传播,梯度累加在浮点权重上。基于权重归一化的权重量化在一定程度上避免了权重的长尾分布,从而减小了量化误差,进而提高了模型的性能。本发明可以把现在的一些主流神经网络的权重压缩至2比特、3比特,同时保证模型的性能没有较大的损失。

    一种用于加速机器学习训练的自适应数据采样方法

    公开(公告)号:CN110110860A

    公开(公告)日:2019-08-09

    申请号:CN201910371632.1

    申请日:2019-05-06

    Applicant: 南京大学

    Abstract: 本发明公开了一种用于加速机器学习训练的自适应数据采样方法,根据每个样本数据上损失函数的利普希茨常数从样本集合中选取一个子集。接下来的若干轮迭代中,将使用这个样本集合的子集代替完整的训练样本集合进行训练,直至下一次的样本数据选择。本发明的方法能在使用部分样本进行训练的情况下不损失最终结果的准确性,所以达到了加速机器学习训练过程的效果。

    一种基于深度多索引哈希的行人重识别方法

    公开(公告)号:CN109919084A

    公开(公告)日:2019-06-21

    申请号:CN201910166071.1

    申请日:2019-03-06

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于深度多索引哈希的行人重识别方法,达到了非重叠视角域多摄像头网络场景下行人检索存储空间低且检索高效的效果。该方法首先从原始视频数据中构造行人图片训练集,再结合深度学习构造端到端的有互反馈的多粒度特征学习网络,基于训练集对网络模型进行训练,得到哈希函数和训练集对应的哈希编码,并基于哈希编码构建索引。对于摄像头新收集的数据,使用哈希函数计算对应的哈希编码,并实时增加到索引中。在线检索时,对于给定的目标行人图片,首先使用多粒度网络模型进行特征的提取,使用哈希函数计算目标行人图片的哈希编码,然后基于哈希编码在索引中进行近邻检索,最后基于实值特征在近邻范围内进行重排序,得到检索结果。

    一种基于哈希学习的广告定向投放方法

    公开(公告)号:CN108596687A

    公开(公告)日:2018-09-28

    申请号:CN201810437471.7

    申请日:2018-05-09

    Applicant: 南京大学

    Inventor: 李武军 翟一飞

    Abstract: 本发明公开了一种基于哈希学习的广告定向投放方法,包括使用神经网络离线训练模型的步骤,对模型参数量化为二值编码的步骤,对用户进行线上广告定向投放的步骤。首先收集广告主为待投放广告提供的种子用户数据,根据数据构建用户与广告的二值关系矩阵用于训练;然后基于哈希学习的框架,先通过神经网络为每个用户和广告学习一个低维实值表示向量,再将所有参数量化为二值表示,进一步压缩模型以便于线上的存储和计算;最后在线上使用得到的模型为用户和所有待投放广告的相关性进行打分,根据得分高低对用户进行广告定向投放。本发明的方法与现有技术相比,用户和广告在线上被表示为经过压缩的二值编码,因而可大幅减少线上存储开销,提高计算性能。

Patent Agency Ranking