深度学习数据集存取方法及系统、电子设备、存储介质

    公开(公告)号:CN113935476A

    公开(公告)日:2022-01-14

    申请号:CN202111542576.7

    申请日:2021-12-16

    Abstract: 本发明公开了一种深度学习数据集存取方法及系统、电子设备、存储介质,所述方法基于存储架构实现,存储架构包括内存层、非易失性内存层和原始数据存储层,方法包括:将原始数据存储层的最初的图片解码成RGB或灰度图,重定义图片大小,以统一的尺寸写入非易失性内存层,并根据RGB或灰度图在非易失性内存层中的地址空间生成索引,将索引写入非易失性内存层;记录每个RGB或灰度图的索引,根据索引,得到每个RGB或灰度图的访问顺序,在DNN模型的每个epoch开始时对索引进行更新;根据访问顺序,利用更新后的索引依次将非易失性内存层中的RGB或灰度图读入内存层中,供DNN模型进行训练。本发明能够显著提高数据DNN图片数据集的读吞吐,进而提升模型的整体训练速度。

    一种基于NUMA系统特性优化Winograd卷积的方法及装置

    公开(公告)号:CN116401502B

    公开(公告)日:2023-11-03

    申请号:CN202310680737.1

    申请日:2023-06-09

    Abstract: 本发明公开了一种基于NUMA系统特性优化Winograd卷积的方法及装置,该方法首先根据输入参数构建内存数据布局;采用缓存分块搜索方法确定数据分块大小;利用CPU的多核心执行Winograd卷积计算:将数据分块读取到CPU高速缓存,依次执行输入转换、矩阵乘法和输出转换,再将数据分块写回内存。进一步优化Winograd卷积的内存访问从而提升其在NUMA系统上的性能表现。

    一种基于NUMA系统特性优化Winograd卷积的方法及装置

    公开(公告)号:CN116401502A

    公开(公告)日:2023-07-07

    申请号:CN202310680737.1

    申请日:2023-06-09

    Abstract: 本发明公开了一种基于NUMA系统特性优化Winograd卷积的方法及装置,该方法首先根据输入参数构建内存数据布局;采用缓存分块搜索方法确定数据分块大小;利用CPU的多核心执行Winograd卷积计算:将数据分块读取到CPU高速缓存,依次执行输入转换、矩阵乘法和输出转换,再将数据分块写回内存。进一步优化Winograd卷积的内存访问从而提升其在NUMA系统上的性能表现。

    基于向量指令加速计算的Winograd卷积实现方法

    公开(公告)号:CN113835758A

    公开(公告)日:2021-12-24

    申请号:CN202111412784.5

    申请日:2021-11-25

    Abstract: 本发明公开了基于向量指令加速计算的Winograd卷积实现方法,包括如下步骤:S1,构建寄存器分块策略,在CPU上的Winograd卷积实现过程中,原始数据转换到Winograd数据域时,对中间缓冲的数据进行向量分块和寄存器分块;S2,构建内存数据布局策略,将Winograd卷积的原始数据和中间缓冲的数据在内存上进行排列,相对于矩阵乘法的最优性,对中间缓冲的数据布局,将Winograd分块维度安排到更内层的位置;S3,构建cache分块搜索,根据CPU硬件参数和卷积参数确定的小范围内,搜索cache分块的性能最优解,并将其与对应的卷积参数一起保存,后续通过卷积参数直接采用该性能最优解。

    一种任务执行的方法、装置、存储介质及电子设备

    公开(公告)号:CN116204324A

    公开(公告)日:2023-06-02

    申请号:CN202310345473.4

    申请日:2023-03-29

    Abstract: 本说明书公开了一种任务执行的方法、装置、存储介质及电子设备。所述任务执行的方法包括:确定目标模型中的每个网络层对应的计算任务各计算设备对应的设备信息,针对每个网络层,根据执行该网络层对应计算任务时涉及的计算次数以及各计算设备的设备信息,确定通过各计算设备执行该网络层对应计算任务时所需的计算时长,根据计算时长、上一个网络层对应的计算设备与其他各计算设备之间的数据传输时长、该网络层的数据所需的内存空间以及各计算设备的剩余内存中的至少一种,确定该网络层对应的目标设备,在接收到各网络层对应计算任务的执行请求后通过各网络层对应的目标设备执行计算任务。

    文本情感分类方法及装置、电子设备、存储介质

    公开(公告)号:CN113849592B

    公开(公告)日:2022-04-08

    申请号:CN202111441129.2

    申请日:2021-11-30

    Inventor: 曾令仿 陈志广

    Abstract: 本发明涉及情感识别技术领域,公开了一种文本情感分类方法及装置、电子设备、存储介质,该方法包括:将待情感分类的文本输入到训练好的情感分类模型中,得到情感分类结果;其中所述训练好的情感分类模型,包括:词向量化处理模块,用于对文本进行词向量化处理,得到词KEY、QUERY和VALUE矩阵;辅助数组构建模块,用于根据文本的长度,构建辅助数组;第一计算模块,用于根据辅助数组,对所述KEY与QUERY矩阵中的有效块相乘,将有效块相乘的结果写入到QK中;第二计算模块,用于根据辅助数组,将QK与VALUE矩阵中的有效块相乘,将有效块相乘的结果写入到得到词与词的依赖关系矩阵;映射模块,用于根据依赖关系矩阵得到词与词的依赖关系矩阵与情感分析结果的映射。

    用于3D图像处理的3D-CNN加速方法及装置、电子设备

    公开(公告)号:CN114281554A

    公开(公告)日:2022-04-05

    申请号:CN202210218607.1

    申请日:2022-03-08

    Inventor: 曾令仿 陈志广

    Abstract: 本发明公开了一种用于3D图像处理的3D‑CNN加速方法及装置、电子设备,包括:将3D图像进行预处理,得到3D特征图数据,将所述3D特征图数据存放到全局内存;将所述全局内存中的3D特征图数据进行隐式数据转化,得到第一中间数据;将所述第一中间数据写入到共享内存中;在所述共享内存中分配出读取缓冲区与写入缓冲区,通过第一中间数据在读取缓冲区与写入缓冲区交替传输,实现所有第一中间数据都写入寄存器;对所述寄存器中的第一中间数据进行分块;将分块后的第一中间数据进行计算,得到第二中间数据;对所述第二中间数据进行所述隐式数据转化的逆过程,重新转化成新的3D特征图数据;将所述新的3D特征图数据存放到所述全局内存中。

    用于3D图像处理的3D-CNN加速方法及装置、电子设备

    公开(公告)号:CN114281554B

    公开(公告)日:2022-06-17

    申请号:CN202210218607.1

    申请日:2022-03-08

    Inventor: 曾令仿 陈志广

    Abstract: 本发明公开了一种用于3D图像处理的3D‑CNN加速方法及装置、电子设备,包括:将3D图像进行预处理,得到3D特征图数据,将所述3D特征图数据存放到全局内存;将所述全局内存中的3D特征图数据进行隐式数据转化,得到第一中间数据;将所述第一中间数据写入到共享内存中;在所述共享内存中分配出读取缓冲区与写入缓冲区,通过第一中间数据在读取缓冲区与写入缓冲区交替传输,实现所有第一中间数据都写入寄存器;对所述寄存器中的第一中间数据进行分块;将分块后的第一中间数据进行计算,得到第二中间数据;对所述第二中间数据进行所述隐式数据转化的逆过程,重新转化成新的3D特征图数据;将所述新的3D特征图数据存放到所述全局内存中。

    基于向量指令加速计算的Winograd卷积实现方法

    公开(公告)号:CN113835758B

    公开(公告)日:2022-04-15

    申请号:CN202111412784.5

    申请日:2021-11-25

    Abstract: 本发明公开了基于向量指令加速计算的Winograd卷积实现方法,包括如下步骤:S1,构建寄存器分块策略,在CPU上的Winograd卷积实现过程中,原始数据转换到Winograd数据域时,对中间缓冲的数据进行向量分块和寄存器分块;S2,构建内存数据布局策略,将Winograd卷积的原始数据和中间缓冲的数据在内存上进行排列,相对于矩阵乘法的最优性,对中间缓冲的数据布局,将Winograd分块维度安排到更内层的位置;S3,构建cache分块搜索,根据CPU硬件参数和卷积参数确定的小范围内,搜索cache分块的性能最优解,并将其与对应的卷积参数一起保存,后续通过卷积参数直接采用该性能最优解。

    文本情感分类方法及装置、电子设备、存储介质

    公开(公告)号:CN113849592A

    公开(公告)日:2021-12-28

    申请号:CN202111441129.2

    申请日:2021-11-30

    Inventor: 曾令仿 陈志广

    Abstract: 本发明涉及情感识别技术领域,公开了一种文本情感分类方法及装置、电子设备、存储介质,该方法包括:将待情感分类的文本输入到训练好的情感分类模型中,得到情感分类结果;其中所述训练好的情感分类模型,包括:词向量化处理模块,用于对文本进行词向量化处理,得到词KEY、QUERY和VALUE矩阵;辅助数组构建模块,用于根据文本的长度,构建辅助数组;第一计算模块,用于根据辅助数组,对所述KEY与QUERY矩阵中的有效块相乘,将有效块相乘的结果写入到QK中;第二计算模块,用于根据辅助数组,将QK与VALUE矩阵中的有效块相乘,将有效块相乘的结果写入到得到词与词的依赖关系矩阵;映射模块,用于根据依赖关系矩阵得到词与词的依赖关系矩阵与情感分析结果的映射。

Patent Agency Ranking