-
公开(公告)号:CN119668894A
公开(公告)日:2025-03-21
申请号:CN202411635336.5
申请日:2024-11-15
IPC: G06F9/54 , G06F9/50 , G06N3/0455 , G06N5/04 , G06N3/063
Abstract: 本发明提供一种向量量化大语言模型的算子融合机制分配方法与系统,所述方法包括以下步骤:获取布局数据,其中,布局数据包括解量化数据布局以及计算内核所需布局;基于布局数据计算得到数据混洗次数,并基于数据混洗次数与预设阈值进行比较,以动态响应决策机制,当数据混洗次数小于预设阈值,则采用第一决策机制,第一决策机制至少包括寄存器级别算子融合机制;当数据混洗次数大于或者等于预设阈值,则采用第二决策机制,第二决策机制至少包括共享内存级别算子融合机制。本发明的向量量化大语言模型的算子融合机制分配方法与系统,解决了数据在共享内存和寄存器之间频繁传输导致的带宽瓶颈和延迟问题,从而实现了更高效的解量化与计算融合。
-
公开(公告)号:CN117077161B
公开(公告)日:2024-05-03
申请号:CN202310954534.7
申请日:2023-07-31
Abstract: 本发明提供一种基于动态规划求解的隐私保护深度模型构建方法与系统,其中,所述方法包括:获取初始神经网络模型,其中,所述初始神经网络模型包括深度神经网络模型;基于所述初始神经网络模型做节点分割得到不同的分割子图;基于所述分割子图利用预设的搜索方式进行局部调度得到当前分割子图对应的备选项;基于所述备选项进行全局调度,以利用动态规划得到不同分割子图对应备选项的目标组合,基于所述目标组合输出所述隐私保护深度模型。本发明使用图分析的方法对一个神经网络模型的计算图分析,并基于动态规划的方法对其进行安全性编译,实现在保证安全性的前提下得到性能最优的隐私保护深度模型。
-
公开(公告)号:CN117077161A
公开(公告)日:2023-11-17
申请号:CN202310954534.7
申请日:2023-07-31
Abstract: 本发明提供一种基于动态规划求解的隐私保护深度模型构建方法与系统,其中,所述方法包括:获取初始神经网络模型,其中,所述初始神经网络模型包括深度神经网络模型;基于所述初始神经网络模型做节点分割得到不同的分割子图;基于所述分割子图利用预设的搜索方式进行局部调度得到当前分割子图对应的备选项;基于所述备选项进行全局调度,以利用动态规划得到不同分割子图对应备选项的目标组合,基于所述目标组合输出所述隐私保护深度模型。本发明使用图分析的方法对一个神经网络模型的计算图分析,并基于动态规划的方法对其进行安全性编译,实现在保证安全性的前提下得到性能最优的隐私保护深度模型。
-
公开(公告)号:CN116185610A
公开(公告)日:2023-05-30
申请号:CN202211692197.0
申请日:2022-12-28
Abstract: 本发明提供一种基于神经网络中静态计算图的内存优化方法及电子设备,所述方法包括:识别神经网络静态计算图中前向兼容算子;消除与所述前向兼容算子对应的与后向自动微分相关的子图;生成与所述前向兼容算子对应的前向求导子图,并输出当前的神经网络静态计算图。本发明能够在不引入额外计算开销的情况下,通过自动优化静态计算图有效降低大部分神经网络激活函数的内存占用;本发明为大模型在内存受限设备上进行训练提供了有效支持,为新型激活函数的大规模应用铺平了道路,为大型神经网络基于静态计算图的训练节约了大量内存资源。
-
公开(公告)号:CN119692405A
公开(公告)日:2025-03-25
申请号:CN202411614646.9
申请日:2024-11-13
IPC: G06N3/063 , G06N3/0455 , G06F9/50 , G06T1/20 , G06T1/60
Abstract: 本发明提供一种自注意力机制的处理方法、装置、设备及介质,本发明通过沿自注意力机制头维度的任务划分方式,自注意力机制可以有效地利用GPU的并行计算能力,加速自注意力机制的计算过程,减少全局内存的访问量,提高计算性能。
-
公开(公告)号:CN117033718B
公开(公告)日:2024-06-07
申请号:CN202311190214.5
申请日:2023-09-14
IPC: G06F16/903 , G06F16/901 , G06F16/906
Abstract: 本申请提供一种基于光线追踪的近似近邻搜索方法、系统、介质及设备,所述方法包括过滤搜索点以获取编码本条目与子空间级反向索引;基于光线追踪单元构建子空间距离查询表;基于所述子空间距离查询表与所述子空间级反向索引查询距离以获取近似近邻搜索结果。本申请通过利用新兴的光线追踪单元的光线追踪技术来进行距离计算,从而取代IVFPQ中的子空间距离查询表构建中的距离计算操作,在保证计算结果正确的前提下,大大地提高基于IVFPQ的ANNS的搜索效率。此外,本申请还提出了一种对于光线追踪单元计算友好的内积近似计算方法,进一步提高了距离计算的效率。
-
公开(公告)号:CN115034387A
公开(公告)日:2022-09-09
申请号:CN202210774598.4
申请日:2022-07-01
Abstract: 本发明提供一种基于无数据场景的神经网络实时量化方法及电子设备,所述基于无数据场景的神经网络实时量化方法包括:采用海森矩阵表示量化模型与原始模型之间的精度损失;对所述海森矩阵进行近似计算,将所述海森矩阵分解为三个矩阵的和;基于所述三个矩阵对每一层的神经网络分别按照元素、卷积核、卷积输出通道的顺序进行量化。本发明无需额外的训练数据,能够实现毫秒级别的模型量化过程,同时能够在快速量化的同时,保证神经网络的高识别精度。
-
公开(公告)号:CN119668837A
公开(公告)日:2025-03-21
申请号:CN202411600764.4
申请日:2024-11-11
IPC: G06F9/50
Abstract: 本申请提供一种基于向量量化的编码本缓存方法、系统、电子设备及介质,所述方法包括:获取待处理编码本;对所述待处理编码本进行排序以获取目标编码本索引;根据所述目标编码本索引和编码本缓存以获取索引边界;所述编码本缓存为存储所述待处理编码本的缓存;根据所述索引边界和所述目标编码本索引进行判断比较以获取判断结果;根据所述判断结果将所述待处理编码本存储在所述编码本缓存中对应的缓存内。本申请根据编码本的使用频率,通过将编码本条目放置到GPU的内存层级的不同位置,提高了内存运行性能和执行效率,解决了共享内存和全局内存效率低的问题。
-
公开(公告)号:CN117194737B
公开(公告)日:2024-06-07
申请号:CN202311190218.3
申请日:2023-09-14
IPC: G06F16/903 , G06F16/901 , G06F16/906
Abstract: 本申请提供一种基于距离阈值的近似近邻搜索方法、系统、介质及设备,所述方法包括过滤搜索点以获取编码本条目与子空间级反向索引;基于所述距离阈值筛选所述编码本条目以构建子空间距离查询表;基于所述子空间距离查询表与所述子空间级反向索引查询距离以获取近似近邻搜索结果。本申请基于距离阈值进行近似近邻搜索,显著降低其中子空间距离查询表构建和距离计算中不必要的查询、计算操作,进而在保证搜索质量的前提下显著提高了基于反向索引的乘积量化的近似近邻搜索的搜索效率。
-
公开(公告)号:CN117194737A
公开(公告)日:2023-12-08
申请号:CN202311190218.3
申请日:2023-09-14
IPC: G06F16/903 , G06F16/901 , G06F16/906
Abstract: 本申请提供一种基于距离阈值的近似近邻搜索方法、系统、介质及设备,所述方法包括过滤搜索点以获取编码本条目与子空间级反向索引;基于所述距离阈值筛选所述编码本条目以构建子空间距离查询表;基于所述子空间距离查询表与所述子空间级反向索引查询距离以获取近似近邻搜索结果。本申请基于距离阈值进行近似近邻搜索,显著降低其中子空间距离查询表构建和距离计算中不必要的查询、计算操作,进而在保证搜索质量的前提下显著提高了基于反向索引的乘积量化的近似近邻搜索的搜索效率。
-
-
-
-
-
-
-
-
-