-
公开(公告)号:CN116523045A
公开(公告)日:2023-08-01
申请号:CN202310235465.4
申请日:2023-03-13
Applicant: 之江实验室
Abstract: 本发明公开了一种面向多芯粒芯片的深度学习推理模拟器,包括:配置输入层,用于获取模拟所需的深度学习模型、多芯粒芯片架构和映射策略;模型解析层,用于根据映射策略对所述深度学习模型进行解析,得到模型解析表;路由生成层,用于根据模型解析表中每个算子的运行策略分析算子内路由和算子间路由并生成路由文件;推理模拟层,用于进行深度学习模型在多芯粒芯片架构所描述的多芯粒芯片上的推理模拟,将路由文件分层次并通过片上网络模拟器进行多进程并行模拟,得到各算子路由所需的周期数;结果计算层,用于将推理模拟层中并行模拟得到的算子路由周期数进行整理计算,得到深度学习模型在多芯粒芯片上推理模拟的周期数和平均设备利用率。
-
公开(公告)号:CN115421897A
公开(公告)日:2022-12-02
申请号:CN202211381782.9
申请日:2022-11-07
Applicant: 之江实验室
Abstract: 本发明公开了一种面向芯粒的深度神经网络流水线并行调度方法及装置,该方法包括:获取深度神经网络和芯粒拓扑结构;根据所述深度神经网络,构造深度神经网络计算图并对所述深度神经网络计算图进行缩减;根据缩减后的深度神经网络计算图划分流水线组,得到流水线组图;根据所述流水线组图和芯粒拓扑结构,划分流水线并行区域;根据划分后的流水线并行区域和所述芯粒拓扑结构确定深度神经网络流水线并行调度策略;按照所述深度神经网络流水线并行调度策略,将所述深度神经网络部署到芯粒上,执行深度神经网络流水线并行推理。
-
公开(公告)号:CN115062771B
公开(公告)日:2022-11-25
申请号:CN202210981014.0
申请日:2022-08-16
Applicant: 之江实验室
Abstract: 本发明公开了一种分布式机器学习梯度汇聚方法、装置及模型训练方法,利用智能交换机进行计算节点梯度汇聚任务调度和模型训练。智能交换机不仅包含正常的网络交换功能,还能对梯度数据包进行解析,抽取包内数据并进行计算,并将结果重新组包发送给相关计算服务器,提供更为高效的数据交换服务。智能交换机将多台计算服务器连接起来组成训练网络,共同完成神经网络模型训练任务。本发明实现分布式机器学习训练,可优化梯度汇聚时间,减少梯度交换流量,加速大模型训练。
-
公开(公告)号:CN112561038A
公开(公告)日:2021-03-26
申请号:CN202011522568.1
申请日:2020-12-21
Applicant: 之江实验室
IPC: G06N3/04 , G06N3/063 , G06N3/08 , G06F40/211
Abstract: 本申请公开了一种批数据集构建方法、装置、电子设备及存储介质。该方法通过对用于Transformer语言模型训练的数据样本集合进行排序,利用有序的数据样本生成高质量的批数据,从而构建训练批数据集。该方法提高单次载入GPU显存的有效训练样本数量,同时最大程度降低无效的占位文字数量,降低无效数据对GPU计算资源的占用,从而大大提高训练效率,降低训练时间。
-
公开(公告)号:CN112306697A
公开(公告)日:2021-02-02
申请号:CN202011619848.4
申请日:2020-12-31
Abstract: 本发明提供了一种基于Tensor访问的深度学习内存管理方法,该方法通过收集神经网络的执行信息和硬件平台的性能信息获得相关决策下的内存空间开销和时间开销,并建立整数线性规划模型,通过在约束条件下优化求解最优的Tensor调度策略,从而解决内存不足问题的同时获得较高的深度学习训练性能。相比于现有技术,相同的硬件性能下,本发明可以实现更大的batchsize的神经网络训练。本发明同时还提出了一种内存管理系统,包括profile模块、决策模块和执行模块;该系统可直接添加在深度学习框架上,使用方便。
-
公开(公告)号:CN117632148A
公开(公告)日:2024-03-01
申请号:CN202311611108.X
申请日:2023-11-29
Applicant: 之江实验室
Abstract: 本发明公开了一种面向芯粒的深度大模型容错部署优化方法和系统,该方法包括以下步骤:获取深度大模型的计算图、算子的划分策略及故障芯粒不规则拓扑结构;通过优化算子的划分策略和硬件资源数量分配策略,最小化计算图的计算开销、通信开销和随机映射的链路争用开销,得到算子的最佳划分策略和最佳资源分配数量;通过优化算子基于芯粒不规则拓扑结构的硬件映射策略,最小化芯粒故障网络的链路争用开销,得到算子的最佳映射方案;将上述开销视为总执行开销,通过迭代优化最小化总执行开销,最终获得最佳调度方案。本发明方法能够得到推理性能更强大且执行开销更小的调度方案,推动深度学习大模型在芯粒上的容错部署和优化技术的发展和应用。
-
公开(公告)号:CN117459652A
公开(公告)日:2024-01-26
申请号:CN202311487545.5
申请日:2023-11-08
Applicant: 之江实验室
IPC: H04N1/41 , H04N1/00 , H04N19/42 , G06V10/764 , G06N3/0464
Abstract: 本发明公开了一种基于国产芯片的遥感图像星上混合压缩方法及装置,该方法包括:获取待压缩遥感图像;将待压缩遥感图像分割得到的若干区域图像并进行原始图像位置标记;对于每个区域图像,利用分类识别算法计算该区域图像中内容的重要度,其中分类识别算法已在地面训练完成、移植到国产芯片并上传至星上;根据实时需求和各区域图像中内容的重要度确定对应压缩比例,从而进行各区域图像的压缩;根据各区域图像的原始图片位置标记,将压缩后的各区域图像进行反向拼接,已形成与待压缩遥感图像尺寸一致的混合压缩遥感图像。打破了国产芯片复杂压缩算法移植困难的困境,将压缩算法分解,既针对多目标进行压缩权重指定,又大幅提高了整体压缩效率。
-
公开(公告)号:CN116935155A
公开(公告)日:2023-10-24
申请号:CN202310766856.9
申请日:2023-06-27
Applicant: 之江实验室
IPC: G06V10/774 , G06V10/764 , G06T7/11 , G06T3/40 , G06T3/60 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本申请涉及一种多阶段遥感图像目标检测方法、装置、计算机设备和计算机可读存储介质,其中,多阶段遥感图像目标检测方法包括:将遥感图像输入至预先训练的第一目标检测网络,输出多个预测框及对应的预测信息;在所述预测框对应的置信度大于第二阈值的情况下,获得第一目标检测结果;在所述预测框对应的置信度介于第一阈值和所述第二阈值之间的情况下,根据所述预测框的位置信息对所述遥感图像进行剪切、旋转、缩放处理后输入至预先训练的第二目标检测网络,获得第二目标检测结果;基于所述第一目标检测结果和所述第二目标检测结果,得到最终目标检测结果。解决了遥感图像目标检测结果精度低的问题,提高了遥感图像目标检测结果的准确性。
-
公开(公告)号:CN116320425A
公开(公告)日:2023-06-23
申请号:CN202310183879.7
申请日:2023-02-23
Applicant: 之江实验室
IPC: H04N19/134 , H04N19/42
Abstract: 本申请提供一种图像数据的压缩方法、装置和可读存储介质。其中,该图像数据的压缩方法,包括获取输入的原始图像的原始矩阵;通过原始图像通道指定压缩的隐空间维度,对初始隐空间特征矩阵进行初始化,得到低维隐特征矩阵;初始化原始图像数据的相关偏置属性;使用所述低维隐特征矩阵及所述相关偏置属性,得到图像数据的重建矩阵;利用所述重建矩阵和所述原始矩阵,更新低维隐特征矩阵及相关偏置属性;及,将更新完成的隐特征矩阵及更新完成的相关偏置属性进行存储,得到所述图像数据的压缩数据。
-
公开(公告)号:CN115828831B
公开(公告)日:2023-06-09
申请号:CN202310110451.X
申请日:2023-02-14
Applicant: 之江实验室
IPC: G06F30/392 , G06N3/08 , G06F115/12
Abstract: 本发明公开了一种基于深度强化学习的多芯粒芯片算子放置策略生成方法,包括:获取算子计算图和多芯粒芯片尺寸信息;根据多芯粒芯片尺寸信息生成可选的若干种目标放置芯粒网格尺寸;建立多芯粒芯片算子放置深度学习强化模型,其中多芯粒芯片算子放置深度学习强化模型包括算子运行环境模块和深度Q网络模块,算子运行模块用于根据当前环境网络和输入的动作,计算奖励值,并将环境变换到下一个状态,将奖励值和下一个状态传回深度Q网络模块,深度Q网络模块用于根据当前状态从可选的动作空间中选择价值最高的动作;基于算子运行环境模块对深度Q网络模块进行训练;利用训练好的深度强化学习模型对算子计算图在多芯粒芯片上的运行给出算子放置策略。
-
-
-
-
-
-
-
-
-