一种基于POSIT的大语言模型浮点运算优化方法

    公开(公告)号:CN119127120A

    公开(公告)日:2024-12-13

    申请号:CN202411224249.0

    申请日:2024-09-03

    Abstract: 本发明公开了一种基于POSIT的大语言模型(LLM)浮点运算优化方法,该方法包括如下步骤:自定义RISC‑V指令,使其适配Posit格式运算;将LLM的权重参数用Posit数进行权重量化;将LLM训练过程中使用的浮点数转换为Posit数;将LLM推理过程中使用的浮点数转换为Posit数;使用Posit数进行模型量化。本发明的目的在于针对目前LLM的浮点运算采用IEEE 754浮点数格式的现状,用Posit浮点数代替IEEE 754浮点数,借助于Posit浮点数的自适应精度和动态范围,规避各种计算异常、保持高精度的同时减少LLM模型大小、加速浮点数计算从而加速LLM推理训练。

    一种加速图神经网络中稀疏-稠密矩阵乘的自适应边采样方法

    公开(公告)号:CN118690806A

    公开(公告)日:2024-09-24

    申请号:CN202410713500.3

    申请日:2024-06-04

    Abstract: 本发明公开了一种加速图神经网络中稀疏‑稠密矩阵乘的自适应边采样方法,该方法包括如下步骤:设定GPU共享内存宽度W;将稀疏矩阵图数据转化为CSR格式;针对当前行选择合适的采样策略进行边采样;将采样后的稀疏矩阵图数据加载到共享内存中;将共享内存中的元素与全局内存中代表节点特征的稠密矩阵对应元素计算得到最终结果。本发明的目的在于针对目前边采样加速GNN中的SpMM操作无法同时兼顾准确率和速度的现状,提出一种加速图神经网络中稀疏‑稠密矩阵乘的自适应边采样方法,通过自适应的选择采样策略进行边采样,将采样后的图数据加载到GPU共享内存中,之后从共享内存和全局内存中加载相应的数据进行SpMM操作,以此兼顾边采样加速GNN中SpMM操作的准确率和速度,进而提升GNN运算的性能。

    一种图神经网络采样流程中基于流水线并行的数据传输过程的优化

    公开(公告)号:CN117764124A

    公开(公告)日:2024-03-26

    申请号:CN202211147165.2

    申请日:2022-09-20

    Abstract: 本发明公开了一种图神经网络采样流程中基于流水线并行的数据传输过程的优化,该方法包括如下步骤:初始化数据加载器和队列,同时启动后台线程;确定后台线程所获取的数据加载器数据(步骤2);确定主线程开始批量计算;确定当前批次是否为最后一批,是则批量计算结束。否则继续执行以下操作;确定队列中的数据,开始GPU计算的同时执行步骤2,并且继续执行以下操作;当前批量计算结束。本发明针对目前图神经网络采样流程中数据传输过程分为采样子图数据传输和节点特征数据传输而低效的问题,提出一种基于流水线的采样子图数据传输、节点特征数据传输两个步骤的并行优化方法,为数据加载器启动守护线程,基于数据预取技术、多线程和CUDA流的方式实现了图神经网络采样流程三大步骤的流水线并行执行以及数据传输过程子图数据传输和节点特征数据传输的流水线并行执行。

    一种图神经网络训练中的定长式边点结合采样机制

    公开(公告)号:CN116841762A

    公开(公告)日:2023-10-03

    申请号:CN202310395448.7

    申请日:2023-04-14

    Abstract: 本发明公开了一种图神经网络训练中的定长式边点结合采样机制,该采样机制包括如下步骤:对图进行节点采样,得到子图;对子图进行边采样,得到新的子图;将得到的子图数据转化为CSR格式;根据GPU共享内存大小,设置所需的共享内存宽度S;将子图数据存入到GPU共享内存之中;进行后续的GNN计算操作。本发明针对目前图神经网络训练中采集机制均无法达到快速并且准确的图特征采集的现状,提出一种图神经网络训练中的定长式边点结合采样机制,通过在节点采样时保留具有连续内存位置的邻居节点避免不规则的内存访问,结合边采样消除冗余的边,以便完成快速并且准确的图特征采集。

    一种多GPU平台上软硬件协同的朴素贝叶斯算法并行优化方法

    公开(公告)号:CN116522246A

    公开(公告)日:2023-08-01

    申请号:CN202310584047.6

    申请日:2023-05-23

    Abstract: 本发明的目的在于针对目前朴素贝叶斯算法在图像识别和自然语言处理等领域,特别是在处理复杂的数据集时多元特征处理困难,可能存在大量的相关特征,这使得朴素贝叶斯算法的预测效果大打折扣,其缺点也会对模型的准确度产生不良影响,利用MGPUSim更多的计算资源和存储能力,提出了一种在多GPU平台下朴素贝叶斯算法的并行化实现与优化方法,在本地计算机上使用多线程来并行化计算先验概率和条件概率阶段。对离散属性做数值标记,再对离散属性做正交变换,从而提高分类正确率,然后获取训练样本,再引入一个超参数去指导训练。将数据集分割成多个部分,每个线程都可以在不同的部分上进行计算,然后将结果合并到一起,使用GPU来加速朴素贝叶斯分类器的计算。GPU在并行计算方面具有很大的优势,因此使用GPU可以极大地提高计算速度。

    一种多GPU平台上并行双调排序的K-最近邻算法并行优化方法

    公开(公告)号:CN116302562A

    公开(公告)日:2023-06-23

    申请号:CN202310398414.3

    申请日:2023-04-14

    Abstract: 本发明公开了一种多GPU平台上并行双调排序的K‑最近邻算法并行优化方法,该方法包括如下步骤:搭建多GPU平台MGPUSim的系统环境;初始化MGPUSim工作负载与定义内核参数;进行k‑最近邻算法的数据预处理;输入常用UCI数据集将测试数据和训练数据集从CPU端拷入GPU;定义基于OpenCL的并行化内核;优化k‑最近邻算法的距离计算与距离排序阶段;判断数据进行分类,验证算法分类效果;识别性能瓶颈,验证改进;本发明针对目前K‑最近邻算法在图像识别和计算机视觉等领域,特别是在处理大规模数据集时运行效率不高,每个测试数据的距离排序阶段时间复杂度高的现状,利用MGPUSim更多的计算资源和存储能力,提出了一种在多GPU平台上K‑最近邻算法的并行化实现与优化方法,首先需要优化数据预处理,然后在GPU端采用并行双调排序与欧式距离的并行化优化。通过多GPU并行加速计算的方案,从源头上减少单个GPU的运行负担,提升并行K‑最近邻算法的效率。

    一种基于全局索引表的快速特征采集方法

    公开(公告)号:CN115713628A

    公开(公告)日:2023-02-24

    申请号:CN202211552678.1

    申请日:2022-12-05

    Abstract: 本发明公开了一种基于全局索引表的快速特征采集方法,该方法包括如下步骤:剖析内存使用,确定可用于缓存分配的最大GPU内存量;在离线状态下,按出度数对顶点进行预排序。并在运行时选择高出度的顶点来填充GPU缓存;确定mini‑batch输入的顶点数;确定全局索引表中局部顶点的位置;从GPU缓存数据中获取输入特征;当前批次特征采集结束。本发明针对目前图神经网络中的特征采集机制均无法达到快速查找特征数据的现状,提出一种基于全局索引表的快速特征采集方法,需要在GPU内存中有一个连续的空间用于缓存特征数据,同时将顶点元数据组织到一个全局索引表中(元数据远小于缓存的特征数据),用于答复查询到的顶点位于什么位置,以便完成快速查找特征。

    一种基于GPU加速稀疏-稠密矩阵乘的自适应平衡划分方法

    公开(公告)号:CN116820743A

    公开(公告)日:2023-09-29

    申请号:CN202310306441.3

    申请日:2023-03-27

    Abstract: 本发明公开了一种基于GPU加速稀疏‑稠密矩阵乘的自适应平衡划分方法,该方法包括如下步骤:分析稀疏矩阵,确定影响并行性能的长行;将长行划分成等大的“部分”;用新存储格式存储划分后的稀疏矩阵;将“部分”中的所有非零元素加载到GPU上的共享内;消耗共享内存中的非零元素,与稠密矩阵对应元素相乘;将来自同一行的部分和相加,得到最终结果。本发明针对目前GPU加速稀疏‑稠密乘都采用行划分机制而长行导致并行效率不高的现状,提出一种基于GPU结构特性的自适应平衡划分方法,将“部分”代替行作为并行粒度,“部分”的大小控制在合理范围内保证了线程组有足够的线程有效并行非零元素任务,大小类似的“部分”避免了线程组之间的负载不均衡。

    一种基于GPU线程并行的自适应多矩阵块映射批处理方法

    公开(公告)号:CN115731091A

    公开(公告)日:2023-03-03

    申请号:CN202211589330.X

    申请日:2022-12-12

    Abstract: 本发明公开了一种基于GPU线程并行的自适应多矩阵块映射批处理方法,该方法包括如下步骤:批处理场景分析,确定合适的批处理策略;确定批处理矩阵块对应的线程块数量;确定采取不同批处理策略对应的硬件资源占有率;选择合适的批处理策略。本发明针对目前矩阵批处理中单个矩阵块占据一个线程块而导致硬件资源利用率不高的现状,提出一种基于GPU线程并行的自适应多矩阵块映射批处理方法,在对矩阵分块后的处理进一步细粒度化,通过自适应的选择矩阵块和线程块的映射方案,将矩阵块合理地匹配相应的线程块大小和数量,从源头上减少粗粒度分配方案带来的线程空闲和负载不均衡的问题。

    一种使用重叠图对三代宏基因组分箱的方法

    公开(公告)号:CN118692566A

    公开(公告)日:2024-09-24

    申请号:CN202410721171.7

    申请日:2024-06-05

    Abstract: 本发明公开了一种使用重叠图对三代宏基因组分箱的方法,该方法包括如下步骤:宏基因组Reads的重叠图信息构建;组成和覆盖特征构建与融合;针对整个数据集进行概率抽样;对抽取的样本进行聚类和标记;使用图神经网络进行分箱得到最终的分箱结果。本发明的目的在于针对第三代测序技术产生的较长的原始序列信息,无法很好的对较长序列的特征进行提取和结合的现状,提出了一种依赖重叠图的宏基因组分箱方法,通过序列间的近似重叠区域来构建重叠图,通过计算k‑mer频率向量,将节点度信息与k‑mer频率进行特征融合,旨在解决目前特征提取不充分,对特征融合方式不规范的问题,以及对样本采样不准确,导致分箱结果波动较大的问题。

Patent Agency Ranking