-
公开(公告)号:CN115421897A
公开(公告)日:2022-12-02
申请号:CN202211381782.9
申请日:2022-11-07
Applicant: 之江实验室
Abstract: 本发明公开了一种面向芯粒的深度神经网络流水线并行调度方法及装置,该方法包括:获取深度神经网络和芯粒拓扑结构;根据所述深度神经网络,构造深度神经网络计算图并对所述深度神经网络计算图进行缩减;根据缩减后的深度神经网络计算图划分流水线组,得到流水线组图;根据所述流水线组图和芯粒拓扑结构,划分流水线并行区域;根据划分后的流水线并行区域和所述芯粒拓扑结构确定深度神经网络流水线并行调度策略;按照所述深度神经网络流水线并行调度策略,将所述深度神经网络部署到芯粒上,执行深度神经网络流水线并行推理。
-
公开(公告)号:CN115062771B
公开(公告)日:2022-11-25
申请号:CN202210981014.0
申请日:2022-08-16
Applicant: 之江实验室
Abstract: 本发明公开了一种分布式机器学习梯度汇聚方法、装置及模型训练方法,利用智能交换机进行计算节点梯度汇聚任务调度和模型训练。智能交换机不仅包含正常的网络交换功能,还能对梯度数据包进行解析,抽取包内数据并进行计算,并将结果重新组包发送给相关计算服务器,提供更为高效的数据交换服务。智能交换机将多台计算服务器连接起来组成训练网络,共同完成神经网络模型训练任务。本发明实现分布式机器学习训练,可优化梯度汇聚时间,减少梯度交换流量,加速大模型训练。
-
公开(公告)号:CN112579063B
公开(公告)日:2021-06-08
申请号:CN202110223874.3
申请日:2021-03-01
Applicant: 之江实验室
Abstract: 本发明公开了一种用于深度学习编译器中探索优化空间的加速方法,目的是通过编译技术优化神经网络效果,并大幅减少编译器探索算子优化空间的耗时。该方法首先将神经网络抽象成计算图的形式。其次对计算图进行图优化,并为优化后计算图中的每个算子定义优化空间。然后基于包含优化空间信息的算子,提出一种优化空间相似度计算方法。最后提出一种基于相似度的算子状态空间探索方法,基于相似度对算子进行聚类,对每一个聚类中的核心算子进行全空间探索,同类的其余算子在核心算子最优方案中进行探索,确定整个神经网络每个算子的优化方案。
-
公开(公告)号:CN112379849B
公开(公告)日:2021-04-09
申请号:CN202110062697.5
申请日:2021-01-18
Abstract: 本发明提出了一种基于序列可预测的并行深度学习训练数据输入方法,该方法在数据预取和缓存的时候,充分利用数据的访问序列可以预先确定这一特点,结合缓存命中率以及磁盘访问性能确定从底层并行文件系统中预取数据时的预取数据块大小再进行数据分配和缓存,从而使得大规模训练中第一轮训练的本地命中率得到很大提升。之后轮的训练中采用数据请求合并、根据下一轮将要使用的数据提前进行缓存替换,使整体分布式训练过程的通信开销减小,从而加快各节点的数据输入速度。本发明还基于上述方法提出了一种数据输入系统,该系统包括随机序列产生模块、数据预取模块和缓存替换模块,可以在保证全局数据随机读取的要求下,加快数据从存储中读取的速度。
-
公开(公告)号:CN112561038A
公开(公告)日:2021-03-26
申请号:CN202011522568.1
申请日:2020-12-21
Applicant: 之江实验室
IPC: G06N3/04 , G06N3/063 , G06N3/08 , G06F40/211
Abstract: 本申请公开了一种批数据集构建方法、装置、电子设备及存储介质。该方法通过对用于Transformer语言模型训练的数据样本集合进行排序,利用有序的数据样本生成高质量的批数据,从而构建训练批数据集。该方法提高单次载入GPU显存的有效训练样本数量,同时最大程度降低无效的占位文字数量,降低无效数据对GPU计算资源的占用,从而大大提高训练效率,降低训练时间。
-
公开(公告)号:CN112379849A
公开(公告)日:2021-02-19
申请号:CN202110062697.5
申请日:2021-01-18
Abstract: 本发明提出了一种基于序列可预测的并行深度学习训练数据输入方法,该方法在数据预取和缓存的时候,充分利用数据的访问序列可以预先确定这一特点,结合缓存命中率以及磁盘访问性能确定从底层并行文件系统中预取数据时的预取数据块大小再进行数据分配和缓存,从而使得大规模训练中第一轮训练的本地命中率得到很大提升。之后轮的训练中采用数据请求合并、根据下一轮将要使用的数据提前进行缓存替换,使整体分布式训练过程的通信开销减小,从而加快各节点的数据输入速度。本发明还基于上述方法提出了一种数据输入系统,该系统包括随机序列产生模块、数据预取模块和缓存替换模块,可以在保证全局数据随机读取的要求下,加快数据从存储中读取的速度。
-
-
-
-
-