解决非结构网格离散访存问题众核并行优化算法

    公开(公告)号:CN112445604A

    公开(公告)日:2021-03-05

    申请号:CN201910799249.6

    申请日:2019-08-28

    Abstract: 本发明公开一种解决非结构网格离散访存问题众核并行优化算法,包括以下步骤:S1、将网格单元周围的网格面通量数据分为若干数据块,并将不同数据块定义为不同属性;S2、将分块后的数据块并行拷入各个从核中;S3、各从核并行遍历拷入的数据块中的数据,按照该数据所对应的l(u)所在的位置,对一个数据块中的若干数据进行局部重排,并记录重排后各个数据位置索引;S4、各从核分别从主存中拷入一个通量数据块,并根据S3记录的位置索引,从重排序后的暂存空间中,拷入通量数据块所需要的Lower数据、Upper数据进行计算。本发明对非结构网格离散访存问题进行基于众核的重排序优化,极大减少了离散访存时间,提高该类问题的求解效率,从而提高整个应用系统的运行效率。

    一种数值预报产品实时处理方法

    公开(公告)号:CN105678060B

    公开(公告)日:2018-04-10

    申请号:CN201511027453.4

    申请日:2015-12-31

    Abstract: 一种数值预报产品实时处理方法,包括:使用数值预报系统计算预报数据,数值预报系统将每次计算的预报数据保存在文件系统中;采用预报产品生产服务进程,以服务运行方式,读取数值预报系统计算的预报数据,实时判断数值预报系统计算的预报数据是否加入了新数据,在加入了新数据的情况下,从文件系统中读入新数据进行更新;实时接收预报产品发布服务进程发送的针对预报区域内使用经纬度坐标确定的任意点的预报数据请求;响应于接收的针对该任意点的预报数据请求,对数值预报系统计算的预报数据进行实时处理,通过预定算法生成发布服务进程请求的预报区域内使用经纬度坐标确定的任意点的预报产品,将该任意点的预报产品返回给预报产品发布服务进程。

    基于控制约束的访存测试程序生成方法

    公开(公告)号:CN114564397B

    公开(公告)日:2025-05-09

    申请号:CN202210185716.8

    申请日:2022-02-28

    Abstract: 本发明公开一种基于控制约束的访存测试程序生成方法,包括以下步骤:步骤1、生成控制核心运行的程序,在其中声明可操作的地址空间大小以及首地址,并生成计算核心的代码段;步骤2、生成计算核心访存测试程序,将计算核心的访存首地址设置成控制程序申请的可操作首地址;步骤3、在计算核心访存地址遍历生成时,进行地址访存序列的控制生成;步骤4、根据步骤3中获得的参数,形成对应的测试程序。本发明面向国产向众核异构处理器实现满足约束条件的随机访存测试,另外能够根据访存策略进行定制,对处理器的存储一致性实现有针对性的验证测试,实现了合法且随机的访存测试程序生成。

    一种基于遗传算法的极端测试用例生成方法

    公开(公告)号:CN114218064B

    公开(公告)日:2025-05-06

    申请号:CN202110426746.9

    申请日:2021-04-20

    Abstract: 本发明公开一种基于遗传算法的极端测试用例生成方法,包括以下步骤:S1、种群生成器生成初始种群;S2、适应值计算器对S1中获得的初始种群中每个个体进行适应值计算;S3、适应值收集模块收集所有个体的适应值,并反馈给遗传算法核心;S4、遗传算法核心判断是否获得近优解,得到近优解并跳转到S5,若还未获得近优解,遗传算法核心根据上一代的适应值结果,交叉和变异产生多组指令序列,并由种群生成器嵌入汇编代码,生成下一代种群,跳转到S2;S5、得到近优解汇编代码。本发明不需要人工排指令来编写极端测试用例,可以自动生成特定的极端测试用例。

    一种针对深度学习半精度算子数据访存对界处理方法

    公开(公告)号:CN114218141B

    公开(公告)日:2024-02-02

    申请号:CN202110479722.X

    申请日:2021-04-30

    Abstract: 本发明公开一种针对深度学习半精度算子数据访存对界处理方法,针对深度学习中算子的计算特点和张量空间分布,对多维张量的特定维度做4B对界处理,将四维张量的输入数据按照实际参与计算的维度分为不同的类,分别使用不同的半精度数据对界处理方法;具体为,根据输入的算子类型和输入数据的计算维度,选择不同的对界方法。本发明解决了异构众核平台上半精度算子DMA访存的不对界问题,且不仅能降低内存空间的占用,还能有效减少对界处理的时间,提升对界处理的性能。

    非结构网格DILU预条件子众核并行优化方法

    公开(公告)号:CN112446004B

    公开(公告)日:2023-07-07

    申请号:CN201910799250.9

    申请日:2019-08-28

    Abstract: 本发明公开一种非结构网格DILU预条件子众核并行优化方法,包括以下步骤:S1、对所有的从核进行编号,建立众核通信模型;S2、对wPtr数组进行分块、编号,各核按块拷入wPtr数据,同时按块拷入相应的rDPtr和lowerPtr;S3、依次确定各块的依赖关系;S4、根据依赖关系,第0块遍历计算一遍,将0号块的值全部更新,同时生成数据数组,发送至后面的块;S5、根据依赖关系,其余块接收来自前在先块的数据,遍历计算后,更新块内数据,同时生成数据数组,发送至后面的块;S6、当某一从核完成更新并将数据发送给需要的核之后,重新拷入新的块。本发明对科学计算领域常见的预条件子并行问题进行代码级优化,极大减少预处理时间,提高优化效率,对大规模线性方程组求解的性能提升效果更加显著。

    深度神经网络模型并行模式选择方法

    公开(公告)号:CN112541584B

    公开(公告)日:2022-10-04

    申请号:CN201910897718.8

    申请日:2019-09-23

    Abstract: 本发明公开一种深度神经网络模型并行模式选择方法,包括以下步骤:S1、测算整个神经网络模型的总数据量;S2、判断S1中获得的神经网络模型的总数据量是否超过进行训练的单个计算节点的可用内存总量,如果不超过,执行S3,如果超过,执行S4;S3、选择数据并行模式;S4、将神经网络模型的网络层进行切分,根据切分的结果,得到神经网络模型所需要分布的计算节点数量,如果输入参数中的计算节点数量不足模型切分所需节点数量两倍以上,执行S5,否则执行S6;S5、选择模型并行模式;S6、选择包括数据并行和模型并行的混合并行模式。本发明通过对模型参数、超参数和数据量的信息采集和分析,实现分布式扩展并行模式的自动选择,并且保证较高的并行性能。

    众核实现的超越函数处理方法
    48.
    发明公开

    公开(公告)号:CN114564973A

    公开(公告)日:2022-05-31

    申请号:CN202210197587.4

    申请日:2022-03-02

    Abstract: 本发明公开一种众核实现的超越函数处理方法,包括以下步骤:步骤1、通过一定的数学变换,将超越函数转换为常用的基本函数的复合运算实现;步骤2、利用数学函数的性质,将经过步骤1转换后的超越函数按照多项式的形式展开计算,获得相应的多项式函数实现;步骤3、结合函数特性,将超越函数的输入区间分解为若干个收敛区间,采用近似多项式逼近的方式,将步骤2中生成的无穷多项式系数降低到有限数量的多项式系数,在每个收敛区间中用近似多项式函数来拟合步骤2中得到的超越函数展开的多项式函数,通过误差逼近来获得收敛区间的范围以及对应的近似多项式函数的系数。本发明可以在处理器上实现不同精度的超越函数计算。

    一种针对深度学习半精度算子数据访存对界处理方法

    公开(公告)号:CN114218141A

    公开(公告)日:2022-03-22

    申请号:CN202110479722.X

    申请日:2021-04-30

    Abstract: 本发明公开一种针对深度学习半精度算子数据访存对界处理方法,针对深度学习中算子的计算特点和张量空间分布,对多维张量的特定维度做4B对界处理,将四维张量的输入数据按照实际参与计算的维度分为不同的类,分别使用不同的半精度数据对界处理方法;具体为,根据输入的算子类型和输入数据的计算维度,选择不同的对界方法。本发明解决了异构众核平台上半精度算子DMA访存的不对界问题,且不仅能降低内存空间的占用,还能有效减少对界处理的时间,提升对界处理的性能。

Patent Agency Ranking