一种H.265/HEVC中8x8子宏块的并行帧内预测方法

    公开(公告)号:CN105516728B

    公开(公告)日:2019-06-28

    申请号:CN201510933636.6

    申请日:2015-12-15

    Inventor: 蒋文斌 金海 池也

    Abstract: 本发明公开了一种H.265/HEVC中8x8子宏块的并行帧内预测方法,包括以下步骤:统一帧内预测公式形式、建立系数表和参考位置表以及并行帧内预测的具体执行步骤,统一帧内预测公式形式与建立系数表和参考位置表是根据CUDA和帧内预测计算公式的特性制定而成的,更加有利于一个8x8子宏块块中64个待预测像素和相应的35种预测模式通过统一的预测公式进行预测,满足了CUDA多线程单指令多数据流的需求,实现了帧内预测子宏块中细粒度并行,消除了影响并行算法性能的大量分支语句。本发明在帧内预测过程中实现了像素级并行,可以有效地利用GPU中众核资源加速帧内预测过程,缩短编码时间。

    一种基于GPU的多尺度空间特征提取方法

    公开(公告)号:CN104778471B

    公开(公告)日:2017-10-31

    申请号:CN201510181541.3

    申请日:2015-04-17

    Abstract: 本发明公开了一种基于GPU的多尺度空间特征提取方法,包括以下步骤:利用多尺寸并行非线性滤波构造尺度空间、在尺度空间中并行的进行关键点检测和描述符生成。其中尺度空间构造包括:多尺寸数据打包、多尺寸并行降采样、多尺寸并行非线性滤波的具体执行步骤。为了提高算法的并行度、降低数据依赖性,通过并行降采样提前得到各个尺寸下的初始图像,使得各个尺寸下的非线性滤波、关键点检测和描述符生成可以在GPU中并行的执行。本发明通过利用多尺寸数据打包、多尺寸并行降采样、多尺寸并行非线性滤波的方法,构造尺度空间,进行特征提取,可以有效的利用GPU中众核资源,实现特征提取方法的实时性。

    分布式深度神经网络集群分组同步优化方法及系统

    公开(公告)号:CN107018184A

    公开(公告)日:2017-08-04

    申请号:CN201710191685.6

    申请日:2017-03-28

    Abstract: 本发明公开了一种分布式深度神经网络集群分组同步优化方法及系统,其中,方法的实现包括:对集群中的节点按性能分组、训练数据按节点性能分配、同组内使用同步并行机制、不同组间使用异步并行机制和不同组间使用不同的学习率。将性能相近的节点分为一组,可以减小同步开销;性能好的节点分配更多的训练数据,可以提高其资源利用率;在同步开销小的组内使用同步并行机制,可以发挥同步并行机制收敛效果好的优点;在同步开销大的组间使用异步并行机制,可以避免同步开销;对不同分组使用不同的学习率,有利于模型收敛。本发明针对异构集群中分布式深度神经网络的参数同步过程,使用了分组同步方法,大大提高了模型的收敛速度。

    深度神经网络模型并行的全连接层数据交换方法及系统

    公开(公告)号:CN106991474A

    公开(公告)日:2017-07-28

    申请号:CN201710191684.1

    申请日:2017-03-28

    Abstract: 本发明公开了一种深度神经网络模型并行的全连接层数据交换方法及系统,将深度神经网络的全连接层按神经元的数目均匀划分到N个训练单元上,形成一种在深度神经网络中全连接层模型并行的网络模型;在全连接层的前向传播过程中,采用半停等前向传播方法对前层的输入数据,采取部分到达、部分计算、整体输出和整体传播的处理方式;在全连接层的后向传播过程中,采用定停等后向传播方法对后层的残差数据,采取定量达到、定量计算和定量传播的处理方式;在一次前向与后向传播完成后,依据所求的权值梯度与阈值梯度,并行地更新各层的权值数据与阈值数据。能够将全连接层的数据通信与数据计算进行重叠,在保证正确率的前提下加速模型的收敛。

    一种虚拟实验平台离线应用交互系统

    公开(公告)号:CN102325159B

    公开(公告)日:2014-06-04

    申请号:CN201110199078.7

    申请日:2011-07-14

    Abstract: 本发明公开了一种虚拟实验平台离线应用交互系统,其特征在于,该系统包括设置在客户端的离线应用插件和数据交换层插件,设置在服务器端的离线应用缓存,设置在本地端的SQLite本地资源数据库和离线应用插件接口,离线应用插件接口包括本地资源访问接口和资源下载接口。是个发明针对的是在网络短时间断开和网络抖动的情况,在这种情况超过离线计时器的初值时,提示用户网络断开,告知用户选择可选操作,如保存实验、退出实验等。本发明可以让用户在虚拟实验平台上进行实验时,如果遇到短暂的网络断开或者网络不稳定的情况,仍然能够正常运行,显示正确的实验结果,让用户能够更加稳定和通顺地进行实验。

    一种H.264/AVC中4x4子宏块的并行帧内预测方法

    公开(公告)号:CN103747250A

    公开(公告)日:2014-04-23

    申请号:CN201310740320.6

    申请日:2013-12-28

    Abstract: 本发明公开了一种H.264/AVC中4x4子宏块的并行帧内预测方法,包括以下步骤:统一帧内预测公式、参考值数组、参考位置表和并行帧内预测的具体执行步骤,统一帧内预测公式是根据CUDA和帧内预测计算公式的特性改进而成的,通过将9种预测模式对应的预测公式变换成一个计算公式,满足了CUDA多线程单指令多数据流的需求,实现了帧内预测子宏块中细粒度并行,参考值数组及参考位置表是为了配合统一帧内预测公式而设计的,完全消除了影响并行算法性能的大量分支语句。本发明在帧内预测过程中实现了像素级并行,可以有效地利用GPU中众核资源加速帧内预测过程,缩短编码时间。

    一种虚拟实验系统中仿真进程迁移方法

    公开(公告)号:CN102289391A

    公开(公告)日:2011-12-21

    申请号:CN201110181510.X

    申请日:2011-06-30

    Abstract: 本发明一种虚拟实验系统中仿真进程迁移方法,任务管理服务器负责仿真任务的分发;任务计算服务器根据仿真步长对每个仿真进程进行状态数据缓存,并向任务管理服务器发送相关的状态数据缓存信息;任务管理服务器实时探测多个任务计算服务器是否失效,当某个任务计算服务器失效,任务管理服务器根据仿真任务的状态数据缓存信息,将该任务计算服务器上的仿真进程在其他未失效的任务计算服务器进行重建,接着进行计算;一旦某个实验计算任务操作结束,即可清理该仿真任务相关状态数据缓存信息。本发明适合多领域,多学科虚拟实验的统一建模,可扩展性强,缓存和恢复的代价都很小,而且效率很高,可以很好满足虚拟实验实时交互体验性的要求。

    基于异构数据流架构的细粒度多算子并行调度方法及系统

    公开(公告)号:CN119645584A

    公开(公告)日:2025-03-18

    申请号:CN202411532526.4

    申请日:2024-10-30

    Abstract: 本发明涉及基于异构数据流架构的细粒度多算子并行调度方法及系统。方法包括:根据分解得到的与任务调度过程相关的算子建立算子拓扑图,并且构造算子数据流图;根据算子拓扑图分析算子间在任务中的数据依赖关系,基于数据依赖关系和算子的运行时特征将算子分组并为各个算子组维护对应的调度队列;根据调度队列对并行算子组进行调度,并且基于运行时特征为并行算子分配计算资源;根据算子数据流图对并行算子组的原算子数据流图进行数据流图动态重构;当PE数据流阵列并行执行算子结束后,检查各个调度队列是否均为空,若是,则结束算子调度,否则,继续根据调度队列对并行算子组进行调度。本发明可以减少对SPM的访问,实现多算子高效并行调度。

    一种基于模型结构特性的分布式深度学习通信方法和系统

    公开(公告)号:CN111027671A

    公开(公告)日:2020-04-17

    申请号:CN201911105252.X

    申请日:2019-11-12

    Abstract: 本发明公开了一种基于模型结构特性的分布式深度学习通信方法和系统,属于深度学习领域。包括:使用分布式集群预训练深度神经网络模型,对于每台机器,计算各层网络之前所有层的前向计算与后向计算所用时间总和Tij,对于每个server,对在[min{ti′j},min{ti′j+Ti′j})期间收集到的第j层网络梯度,在min{ti′j+Ti′j}时间点进行累加,并用累加梯度更新权值参数。本发明根据网络各层的前向计算与后向计算所需时间及在网络位置,限制server接收梯度的时间,实现多机间的软同步,对每一层采用不同的同步节点个数,消除迭代计算中等待时间。根据梯度的陈旧度对其缩放,减小陈旧梯度的影响,在保证训练精度的前提下,提高分布式深度学习通信效率,加快训练速度。

    深度神经网络模型并行的全连接层数据交换方法及系统

    公开(公告)号:CN106991474B

    公开(公告)日:2019-09-24

    申请号:CN201710191684.1

    申请日:2017-03-28

    Abstract: 本发明公开了一种深度神经网络模型并行的全连接层数据交换方法及系统,将深度神经网络的全连接层按神经元的数目均匀划分到N个训练单元上,形成一种在深度神经网络中全连接层模型并行的网络模型;在全连接层的前向传播过程中,采用半停等前向传播方法对前层的输入数据,采取部分到达、部分计算、整体输出和整体传播的处理方式;在全连接层的后向传播过程中,采用定停等后向传播方法对后层的残差数据,采取定量达到、定量计算和定量传播的处理方式;在一次前向与后向传播完成后,依据所求的权值梯度与阈值梯度,并行地更新各层的权值数据与阈值数据。能够将全连接层的数据通信与数据计算进行重叠,在保证正确率的前提下加速模型的收敛。

Patent Agency Ranking