-
公开(公告)号:CN119830974A
公开(公告)日:2025-04-15
申请号:CN202411862127.4
申请日:2024-12-17
Applicant: 上海交通大学
Abstract: 本发明提供一种基于Tensor Core的图神经网络计算加速方法、系统、介质、电子设备,所述方法包括以下步骤:将稀疏矩阵划分为多个子矩阵块,每个子矩阵块的大小和Tensor Core的矩阵运算单元的计算粒度相匹配;对所述子块矩阵中的全零行进行重新排列,以在所述稀疏矩阵中构建全零子块矩阵并在Tensor Core中跳过所述全零子块矩阵的计算。本发明的基于Tensor Core的图神经网络计算加速方法、系统、介质、电子设备能够在Tensor Core上有效提升了图神经网络的计算性能和效率。
-
公开(公告)号:CN119739650A
公开(公告)日:2025-04-01
申请号:CN202411937785.5
申请日:2024-12-26
Applicant: 上海交通大学
IPC: G06F12/1027 , G06F12/1009
Abstract: 本发明提供一种用于MCM GPU的虚拟内存架构设计方法、系统、介质及设备,所述方法包括以下步骤:接收虚拟地址转换请求并识别,基于虚拟地址的识别结果,将虚拟地址转换请求定向至对应的一级转换缓冲区,以查询是否存在对应的页表项;若存在,则执行地址转换操作;若不存在,则利用cuckoo过滤器构建的硬件查找表对虚拟地址转换请求进行查询,基于硬件查询结果,将虚拟地址转换请求定向至对应的二级转换缓冲区,以查询是否存在对应的页表项;若存在,则执行地址转换操作;若不存在,则对虚拟地址转换请求执行页表遍历操作直至获取对应的页表项完成地址转换操作。本发明通过优化芯片之间的数据访问和缓存利用,以及改进L2TLB的管理,以提高GPU的整体性能和效率。
-
公开(公告)号:CN115526312A
公开(公告)日:2022-12-27
申请号:CN202211228686.0
申请日:2022-10-09
Applicant: 上海交通大学
Abstract: 本申请提供基于贝叶斯优化的结构化剪枝方法、装置、终端及介质,本发明与其他手动剪枝方法相比,无需对每个卷积层手动设置剪枝阈值来识别候选的滤波器参数;与随机剪枝方法相比,使用更系统的方法来寻找候选剪枝参数,避免了模型重要参数被剪枝的可能性;与其他基于群体的方法相比,并不会在每次迭代中都生成一组解决方案,所提出的方法受益于贝叶斯优化的探索策略,因此所耗的计算时间更少;本发明所提出的方法具有一个新颖的目标函数,在找到模型的最佳参数时考虑了资源约束和模型性能。
-
公开(公告)号:CN114118357A
公开(公告)日:2022-03-01
申请号:CN202111191968.3
申请日:2021-10-13
Applicant: 上海交通大学
Abstract: 本发明提供了一种计算机视觉神经网络中替换激活函数的重训练方法及系统,涉及计算机视觉神经网络技术领域,该方法包括:单阶段的替换训练方法范式或两阶段的替换训练方法范式;所述单阶段的替换训练方法范式或所述两阶段的替换训练方法范式包括:指定训练方案参数后启动训练程序,再给出替换激活函数后的模型权重文件。本发明适用性良好,表现稳定,能够快速且稳定地把精度重训练至原模型精度接近的水准。
-
公开(公告)号:CN114117896A
公开(公告)日:2022-03-01
申请号:CN202111320976.3
申请日:2021-11-09
Applicant: 上海交通大学
IPC: G06F30/27 , G06F15/80 , G06F111/04
Abstract: 本发明提供了一种面向超长SIMD管线的二值规约优化实现方法及系统,包括:通过编译器端对基于移位的快速二值规约SIMD算法或基于移位的快速二值规约SIMD扩展算法进行收益分析,当收益为正且大于预设值时,则选择基于移位的快速二值规约SIMD算法或基于移位的快速二值规约SIMD扩展算法实现满足预设要求条件的纯规约类算子或内部包含规约操作的非规约类算子,从而实现面向超长SIMD管线的二值规约优化。
-
公开(公告)号:CN112990449B
公开(公告)日:2022-10-25
申请号:CN201911271108.3
申请日:2019-12-12
Applicant: 上海交通大学
Abstract: 本发明涉及一种面向神经网络的可变计算精度的SIMT系统,包括L1指令缓存、L0指令缓存、线程组调度器、指令调度单元、U‑Core阵列、特殊函数单元、寄存器堆和读写单元,其中,L1指令缓存、L0指令缓存、线程组调度器与指令调度单元依次连接,U‑Core阵列和特殊函数单元均与指令调度单元和寄存器堆连接,读写单元与线程组调度器连接,所述的U‑Core阵列为由多个可配置成不同精度的计算单元U‑Core组成的计算单元阵列。与现有技术相比,本发明具有计算灵活度高、计算性能高、计算效率高、计算精度可变、通用性高等特点。
-
公开(公告)号:CN113255564B
公开(公告)日:2022-05-06
申请号:CN202110652261.1
申请日:2021-06-11
Applicant: 上海交通大学
Abstract: 本发明公开了一种基于关键对象拼合的实时视频识别加速器,包括对象追踪模块、对象聚合模块、对象拆分模块、预设神经网络加速器、更新对象队列模块和主存模块。其中对象追踪模块用于获取P帧图像数据中关键对象矩形框的原始位置信息或B帧图像数据中关键对象矩形框的原始位置信息;对象聚合模块用于基于对P帧图像数据中的关键对象矩形框和/或B帧图像数据中的关键对象矩形框进行合并,得到合成帧;预设神经网络加速器用于对合成帧进行处理,得到合成帧识别结果;对象拆分模块用于对合成帧进行拆分,并将拆分结果返回到原始图像数据中。本发明大大节省了目标视频识别任务中的计算工作量,提高了识别任务处理速度和识别准确率。
-
公开(公告)号:CN113378717A
公开(公告)日:2021-09-10
申请号:CN202110652794.X
申请日:2021-06-11
Applicant: 上海交通大学
Abstract: 本发明公开了一种基于关键对象拼合的视频识别方法及装置存储介质和终端,其中方法包括对目标视频进行解码;获取I类帧图像识别结果;通过对象追踪算法获取P类帧图像数据中的所有关键对象矩形框和B类帧图像数据中的所有关键对象矩形框;通过对象聚合算法对所获取的关键对象矩形框进行聚合,并将合成帧输入到预设深度神经网络中得到合成帧识别结果;通过对象拆分算法对合成帧识别结果进行拆分,并将拆分结果返还到原图像数据中。本发明方法通过挤压掉输入到预设深度神经网络中的非关键信息来减少视频帧所对应的冗余计算,大大节省了目标视频识别任务中的计算工作量,提高了识别任务处理速度和识别准确率。
-
公开(公告)号:CN104679509B
公开(公告)日:2019-11-15
申请号:CN201510062024.4
申请日:2015-02-06
Applicant: 腾讯科技(深圳)有限公司 , 上海交通大学
IPC: G06F9/451 , G06F3/01 , G06F1/3234
Abstract: 本发明公开了一种渲染图形的方法和装置,属于终端技术领域。方法包括:获取待渲染的图形的图形数据和用户视线的焦点在终端屏幕中的第一区域;根据所述图形数据,在所述第一区域中按照第一图元大小进行渲染;以及,根据所述图形数据,在所述终端屏幕中的第二区域中按照第二图元大小进行渲染,所述第二区域为所述终端屏幕中除所述第一区域之外的其他区域,所述第一图元大小小于所述第二图元大小。装置包括:获取模块,第一渲染模块和第二渲染模块。本发明实现了用户视线焦点区域中的图形进行细粒度渲染,终端屏幕中非用户视线焦点区域中的图形进行粗粒度渲染,从而节省了终端的电能,延长了终端的待机时间。
-
公开(公告)号:CN114117896B
公开(公告)日:2024-07-26
申请号:CN202111320976.3
申请日:2021-11-09
Applicant: 上海交通大学
IPC: G06F30/27 , G06F15/80 , G06F111/04
Abstract: 本发明提供了一种面向超长SIMD管线的二值规约优化实现方法及系统,包括:通过编译器端对基于移位的快速二值规约SIMD算法或基于移位的快速二值规约SIMD扩展算法进行收益分析,当收益为正且大于预设值时,则选择基于移位的快速二值规约SIMD算法或基于移位的快速二值规约SIMD扩展算法实现满足预设要求条件的纯规约类算子或内部包含规约操作的非规约类算子,从而实现面向超长SIMD管线的二值规约优化。
-
-
-
-
-
-
-
-
-