一种多GPU平台上8×8块离散余弦变换算法的并行优化方法

    公开(公告)号:CN118838713A

    公开(公告)日:2024-10-25

    申请号:CN202410924099.8

    申请日:2024-07-10

    Abstract: 本发明公开了一种多GPU平台上8×8块离散余弦变换(DCT8×8)算法的并行优化方法,该方法包括如下步骤:重构GPU端DCT8×8算法执行逻辑;对输入图像进行数据初始化和数据读取操作;依据读取的数据大小自适应地选择所需的GPU个数;对输入图像进行行块划分;设计算法执行时输入数据,执行多GPU平台DCT8×8计算并验证。本发明的目的在于处理海量图像数据时,针对目前8×8块离散余弦变换在图像压缩等领域计算效率低下的问题,提出了一种在多GPU平台上8×8块离散余弦变换算法的并行化实现与优化方法。利用DCT变换矩阵的对称性重构GPU端算法执行逻辑,通过输入的图像的总大小和平台GPU的峰值吞吐量,利用自适应资源调度方法自动选择满足计算所需要的GPU数量,免去手动选择GPU个数造成的资源浪费情况,然后根据选择的GPU个数,通过对输入图像进行行块划分,实现GPU间的负载均衡。通过以上方法提高多GPU平台的资源利用率,从而达到DCT8×8算法计算效率的提升。

    一种多GPU平台上Advanced Encryption Standard(AES)加密算法的自适应分块并行优化方法

    公开(公告)号:CN118779901A

    公开(公告)日:2024-10-15

    申请号:CN202410926285.5

    申请日:2024-07-11

    Abstract: 本发明公开了一种多GPU平台上Advanced Encryption Standard(AES)加密算法的自适应分块并行优化方法,该方法包括如下步骤:确定数据规模F和GPU数量G;设定并行粒度选项;建立数据规模与并行粒度的关系;采取合适的分块策略计算并行粒度;实现自适应分块加密。本发明的目的在于针对目前AES加密算法在CPU或单GPU平台上,特别是每线程16字节的并行粒度下,在处理大规模数据时运行效率不高,吞吐量较低,加密时间较长的现状,利用多GPU结构更多的计算资源和存储能力,提出一种在多GPU平台上自适应分块的AES加密算法并行优化方法。通过自适应策略设置每个线程的并行粒度(即每个线程要处理的字节数),之后每个线程根据并行粒度从全局内存中加载相应数量的数据到私有内存进行加密,这样可以灵活适应不同规模的数据,进而提升AES加密算法的性能。

    一种基于RISC-V向量的深度神经网络量化加速方法

    公开(公告)号:CN119903880A

    公开(公告)日:2025-04-29

    申请号:CN202410831667.X

    申请日:2024-06-25

    Abstract: 本发明公开了一种基于RISC‑V向量的深度神经网络量化加速方法,该方法包括如下步骤:根据向量寄存器堆大小进行分块,使得其大小和张量分块长度一致;计算分块后的张量的量化尺度(Δ,Quantization Scale)与零点(z,Zero Point)保存到一个全局数据结构中;修改编译器让其能识别拓展的乘除指令并完成编译;在向量架构下进行并行计算加速量化和反量化运算。本发明的目的在于解决目前不同神经网络在RISC‑V架构下量化与反量化时,执行相关的除加操作(Divide‑Accumulate Operation,DIVADD)和乘加操作(Multiply‑Accumulate Operation,MAC)时并行度较低、指令开销较大、数据在内存与计算单元间频繁移动而导致的额外功耗等问题。

    一种基于POSIT的大语言模型浮点运算优化方法

    公开(公告)号:CN119127120A

    公开(公告)日:2024-12-13

    申请号:CN202411224249.0

    申请日:2024-09-03

    Abstract: 本发明公开了一种基于POSIT的大语言模型(LLM)浮点运算优化方法,该方法包括如下步骤:自定义RISC‑V指令,使其适配Posit格式运算;将LLM的权重参数用Posit数进行权重量化;将LLM训练过程中使用的浮点数转换为Posit数;将LLM推理过程中使用的浮点数转换为Posit数;使用Posit数进行模型量化。本发明的目的在于针对目前LLM的浮点运算采用IEEE 754浮点数格式的现状,用Posit浮点数代替IEEE 754浮点数,借助于Posit浮点数的自适应精度和动态范围,规避各种计算异常、保持高精度的同时减少LLM模型大小、加速浮点数计算从而加速LLM推理训练。

Patent Agency Ranking