一种高效的矩阵乘运算加速装置及方法

    公开(公告)号:CN115357854A

    公开(公告)日:2022-11-18

    申请号:CN202211045832.6

    申请日:2022-08-30

    Abstract: 本发明涉及机器学习技术领域,具体涉及一种高效的矩阵乘运算加速装置及方法,包括矩阵乘法加速单元、北向数据加载器、西向数据整形与加载器、累加缓冲器、累加结果写回控制器和本地局部存储器,矩阵乘法加速单元包括呈二维脉动阵列排列的矩阵乘法加速核心,矩阵乘法加速单元通过北向数据加载器从本地局部存储器获取北向数据,西向数据整形与加载器从本地局部存储器获取西向数据并整形,矩阵乘法加速核心的运算单元进行乘加运算,乘加结果输入至累加缓冲器,全部运算结束后,累加结果写回本地局部存储器。本发明的有益技术性效果包括:北向数据可以预加载,掩盖延迟;2)固定北向数据,增加数据重用性;3)减少数据流动,降低功耗。

    面向异构众核后端基于代价模型的多面体优化方法

    公开(公告)号:CN112558977B

    公开(公告)日:2022-11-15

    申请号:CN201910910502.0

    申请日:2019-09-25

    Abstract: 本发明公开一种面向异构众核后端基于代价模型的多面体优化方法,包括以下步骤:S1、编译器解析位于主核和从核上的用户程序的编译标识,生成对应的主核中间表示和从核中间表示;S2、编译器对S1中生成的主核和从核的中间表示层代码进行分析和优化;S3、对是否实施多面体调度与优化方法进行收益评估;S4、对有收益的静态控制单元实施多面体调度与优化,生成新的中间表示;S5、编译器将新的向量中间表示生成可重定向文件;S6、将中的可重定向文件与库文件链接,生成可执行文件。本发明首次提出并实现了片上异构众核的程序多面体优化自动变换方法,并加入了主核和从核独立的代价模型计算框架,保证了在有收益的前提下进行程序变换以节省程序的编译时间。

    基于大规模芯片测试结果的快速检索方法

    公开(公告)号:CN112527757B

    公开(公告)日:2022-11-15

    申请号:CN201910879802.7

    申请日:2019-09-18

    Abstract: 本发明公开了一种基于大规模芯片测试结果的快速检索方法,包括以下步骤:对目录进行检查,将目录中的日志文件按照文件名进行升序排序,检查是否存在校验文件.checksum,如果是,执行下一步,否则对目录下的所有文件进行顺序入库,并将数据列表写入.checksum文件;将之前从该目录中获取的数据列表写入.checksum_new文件;读入该目录中的校验文件.checksum;对该目录中的校验文件.checksum和.checksum_new进行MD5值比对,判断这两个文件MD5值是否相同,如果是,结束操作;该方法通过对目录中的文件分层级并检索,达到快速定位更新目录或者更新文件的目的,提升检测效率。

    针对循环内条件转移指令的转移预测优化方法

    公开(公告)号:CN112445520B

    公开(公告)日:2022-11-15

    申请号:CN201910794939.2

    申请日:2019-08-27

    Abstract: 本发明公开一种针对循环内条件转移指令的转移预测优化方法,包括以下步骤:S11、判断一次循环内的指令条数是否能够满足带条件标记的运算指令在带条件转移标志位的条件转移指令之前至少提前N条的条件;S12、如果满足条件,编译器直接生成汇编代码,如果不满足,编译器根据循环体代码量与条件N计算需要循环展开的次数,进行循环展开,生成汇编代码;S13、带条件标记的运算指令提前改变条件转移指令的转移标志位;S14、条件转移指令根据对应的条件标记位进行判断,如果成立,则处理器根据条件转移标记指示跳转取指,否则顺序取指;S15、不论预测为跳转还是不跳转,条件标记位使用后即作废,转移指令条件标记位清0。本发明能够规避循环最后一次转移带来的性能损失。

    一种支持非线性函数扩展功能的并行查表方法及装置

    公开(公告)号:CN115328553A

    公开(公告)日:2022-11-11

    申请号:CN202211017025.3

    申请日:2022-08-24

    Abstract: 本发明公开了一种支持非线性函数扩展功能的并行查表方法及装置,涉及人工智能技术领域,包括:将非线性函数分割成若干区间,每个区间内函数值由线性函数表示,其中线性函数系数存放在查找表内,查找表位于局部存储内;进行多格式数据转换,根据函数种类指示符中的数据格式字段,针对输入源操作数的格式,进行展开并移位至预定小数点位置;获取上述数据放置规则,计算出并行查表的表内偏移地址;向量查询基地址和表内偏移地址相加,得到待访问元素的存放地址。本发明可以在普通单端口或双端口存储器上快速实现因变量到表内偏移的转化,并实现向量查表的方法,提升向量计算结构、通用寄存器等资源的利用率,从而优化流水线性能。

    一种基于操作系统内核的量子计算资源管理方法

    公开(公告)号:CN115269195A

    公开(公告)日:2022-11-01

    申请号:CN202210933675.6

    申请日:2022-08-04

    Abstract: 一种基于操作系统内核的量子计算资源管理方法,属于量子计算技术领域。本发明包括如下步骤:步骤1,解析当前量子计算任务所需的量子计算资源;步骤2,根据量子计算资源和当前系统中可用计算资源,给当前量子任务分配并映射相应的量子比特;步骤3,检测量子计算资源中量子比特的状态,若量子比特状态不满足计算需求,则对量子比特实施校准;步骤4,根据当前量子任务中所包含的量子逻辑门操作生成对应的控制脉冲波形文件;步骤5,根据控制脉冲波形文件,控制量子计算资源执行量子计算;步骤6,测量本次量子计算任务的计算结果。本发明对用户屏蔽了复杂的量子特性,为上层软件提供稳定的量子态描述,方便用户使用和控制量子设备。

    基于异构平台的常量数据访问优化方法

    公开(公告)号:CN112527264B

    公开(公告)日:2022-10-04

    申请号:CN201910886036.7

    申请日:2019-09-19

    Abstract: 本发明公开一种基于异构平台的常量数据访问优化方法,包括以下步骤:S1、进行中间表示降级,即结合目标后端信息对中间表示进行降级处理,将常量节点降级为目标相关的节点;S2、分析中间表示,寻找常量节点,即进行常量数据分析,对常量数据的类型、大小及范围进行计算,且根据不同的架构后端采用不用的算法进行代价评估,生成降级节点;S3、生成汇编代码,即将生成的降级中间表示翻译为指令,并建立相应的数据段。本发明实现了精细化、自动化的常量数据访问优化选择,保证程序能最大限度的利用内存,优化常量数据内存使用,使常量数据访问的性能得到进一步的提升,从而提升国产异构从核平台的性能。

    用户透明的运算核并行打印保序代理方法

    公开(公告)号:CN112486424B

    公开(公告)日:2022-10-04

    申请号:CN201910861483.7

    申请日:2019-09-12

    Abstract: 本发明公开了一种用户透明的运算核并行打印保序代理方法,对运算核上的打印输出语句进行扩展替换,将打印输出语句变换成调用运行时系统中的线程打印处理函数;对线程打印处理函数进行参数解析,申请数据转存缓冲区,根据参数类型进行数据转存;运算核请求控制核进行打印保序代理,将申请的数据转存缓冲区首地址传送给控制核;控制核接到中断信号,转入中断处理,根据数据转存缓冲的参数类型执行嵌汇编指令装填打印函数参数,调用printf代理实现运算核打印输出。本发明采用编译器和运行时相结合,自动完成所有运算核的并行有序输出;对用户透明且不需要对运算核的打印输出进行额外管理;只需要运算核的基础编译器对运算核程序进行简单的程序变换即可。

    计算节点功耗感知方法
    299.
    发明授权

    公开(公告)号:CN112395150B

    公开(公告)日:2022-10-04

    申请号:CN201910764228.0

    申请日:2019-08-19

    Abstract: 本发明公开一种计算节点功耗感知方法,包括以下步骤:运行带外系统;数据感知和登记程序模块周期性调用数据感知与转换模块,以获取节点的功耗数据;数据感知与转换模块读取传感器的原始电压、电流数据,并将来自传感器的原始电压、电流数据转换为节点的功耗数据;数据感知和登记程序模块将从数据感知与转换模块获取的功耗数据写入带内系统CPU的寄存器;数据感知和登记程序模块等待时间T后,转入步骤二,依此循环;当带外系统需要获取节点功耗数据时,功耗查询接口调用数据感知与转换模块,获取节点功耗数据。本发明解决了现有的计算机节点功耗数据感知方法高度依赖带内外网络传输、时效差、代价高、数据不完整的问题。

    一种跨处理器的Linux待迁移软件定位与评估的方法

    公开(公告)号:CN112181857B

    公开(公告)日:2022-10-04

    申请号:CN202011228686.1

    申请日:2020-11-06

    Abstract: 本发明公开一种跨处理器的Linux待迁移软件定位与评估的方法,包括以下步骤:步骤一、收集已经迁移过的软件列表;步骤二、将依赖软件包中的软件与待迁移软件一起放进待迁移软件列表中;步骤三、逐个分析待迁移软件列表中的软件;步骤四、获得精简过的待迁移软件列表;步骤五、确定所有待迁移软件的顺序;步骤六、获取编译参数与对应待编译的源码文件;步骤七、若源码文件为汇编文件,则将其文件名记入待迁移文件列表中,待修改范围为整个文件;步骤八、若源码文件为C/C++文件,则针对源码文件里的内嵌汇编语言、条件编译宏以及平台相关头文件进行处理。本发明大大提高Linux软件跨处理器迁移的效率,减少对人工与经验的严重依赖。

Patent Agency Ranking