一种基于掩码的混合浮点乘法低功耗控制方法及装置

    公开(公告)号:CN110727412B

    公开(公告)日:2022-01-07

    申请号:CN201910867700.3

    申请日:2019-09-14

    Abstract: 本发明公开了一种基于掩码的混合浮点乘法低功耗控制方法。包括硬件自动确定混合浮点乘法操作类型,将标准的浮点乘数与被乘数尾数的高位填充全0,使所述浮点乘数、所述被乘数均与复用定点硬件乘法器输入位宽相同;对于浮点乘法操作,将填充后的浮点乘数与被乘数根据预设的乘法编码规则、符号扩展规则获得部分积,并将无效尾数移至高位,采用掩码控制无效尾数不参与部分积压缩求和运算,以节省逻辑功耗。本发明还公开了一种基于掩码的混合浮点乘法低功耗控制装置。本发明支持复用定点乘法硬件实现浮点乘法的低功耗控制,硬件自动检测浮点乘法运算,基于掩码控制高位扩充位编码,具有硬件开销低、易于逻辑实现、功耗控制简单等优点。

    多虚通道传输时共享与私有相结合的缓冲设计方法与装置

    公开(公告)号:CN110661728A

    公开(公告)日:2020-01-07

    申请号:CN201910866274.1

    申请日:2019-09-12

    Abstract: 本发明提供多虚通道传输时共享与私有相结合的缓冲设计方法与装置,属于计算机体系结构与处理器微结构设计技术领域。该多虚通道传输时共享与私有相结合的缓冲设计方法与装置包括如下步骤:S1:发送器获取缓冲条目中的待发送网络包的类型、NO域的值和信用值,如果NO域的值为0和信用值为非0则将待发送网络包发送出去;S2:将与待发送网络包的同类型所有条目的NO域的值减1、将本地待发送网络包的信用值减1,将该网络包所在条目释放;S3:接收器判断私有缓冲区域是否存在空闲,如果有则接收器将待发送网络包存储在私有缓冲区域,如果没有则接收器将待发送网络包存储在共享缓冲区域。本发明灵活性较高。

    一种支持累加及卸载的矩阵乘运算脉动阵列系统

    公开(公告)号:CN115357215A

    公开(公告)日:2022-11-18

    申请号:CN202211055136.3

    申请日:2022-08-30

    Abstract: 本发明涉及机器学习技术领域,具体涉及一种支持累加及卸载的矩阵乘运算脉动阵列系统,包括呈矩阵排列的运算核心、北向数据加载器、西向数据整形与加载器、累加缓冲器、累加结果写回控制器和本地局部存储器,累加缓冲器包括两个缓冲器,两个缓冲器交替工作于累加模式及卸载模式下,运算核心包括乘法器、加法器和累加数据寄存器,乘法器接收北向数据和西向数据,乘法器计算北向数据和西向数据的乘积,加法器与乘法器及累加数据寄存器连接,加法器计算乘法器输出值与累加数据寄存器值的和,并输出到南侧的运算核心的累加数据寄存器。本发明的有益技术效果包括:通过设置双缓冲器轮流工作在累加模式和卸载模式,进一步提高矩阵乘法运算的效率。

    一种实现归约算法的方法及装置
    14.
    发明公开

    公开(公告)号:CN115345290A

    公开(公告)日:2022-11-15

    申请号:CN202211017020.0

    申请日:2022-08-24

    Abstract: 本发明公开了一种实现归约算法的方法及装置,涉及人工智能技术领域,包括:获取从接口发来的访存请求时,判断该访存请求是否是规约读请求;如果是规约读请求,则将一个访存请求按地址拆为多个请求,并悬挂至悬挂缓冲:当收到带规约标志的响应时,在悬挂缓冲中进行规约操作;当收齐多个存储控制器返回的响应时,将规约出的结果作为一个响应返回给接口。本发明使用较小的逻辑代价,高效实现了多核人工智能处理器归约算法,避免了大量重复的访存操作,实现最大化的数据利用率。

    一种神经网络处理器
    15.
    发明公开

    公开(公告)号:CN115271050A

    公开(公告)日:2022-11-01

    申请号:CN202210986888.5

    申请日:2022-08-17

    Abstract: 一种神经网络处理器,属于高性能计算技术领域。本发明包括:控制核心,用于控制各个功能单元上的运算和处理;张量/向量/标量处理阵列,集成有n*m个张量/向量/标量处理单元,用于进行张量/向量/标量计算;内存单元,包括共享内存和若干个私有内存;片上网络单元,用于实现片上的各个功能单元之间的数据交换;集合操作加速单元,包括在线计算部件和在线压缩/解压部件,用于实现片上的支持集合操作的在线计算和在线解压缩;I/O接口单元,用于与其他神经网络处理器或者主处理器连接,以及实现芯片与其他芯片之间的数据交换。本发明能够有效提高神经网络模型训练和推理的算力,并增加数据处理的灵活性。

    一种无横向一致性的众核精简Cache协议实现方法

    公开(公告)号:CN114217809A

    公开(公告)日:2022-03-22

    申请号:CN202110398338.7

    申请日:2021-04-14

    Abstract: 本发明公开一种无横向一致性的众核精简Cache协议实现方法,包括以下步骤:S1、对Cache行内数据更新情况进行分析,标记出被更新的数据;S2、如果Cache行内所有数据都没有被更新,或者Cache行内所有数据都被更新,跳转至S5,如果Cache行内只有部分数据被更新,跳转至S3;S3、当一个Cache行内的数据只有部分内容需要写回时,其他位掩码置0;S4、根据掩码粒度大小与置位情况,更新主存中对应掩码位为1的数据;S5、直接对Cache行进行写回操作。本发明有效解决共享主存Cache结构的假共享问题,还可以提高写回效率、有效降低处理器在Cache数据管理方面的硬件开销。

    一种可同时支持多套Cache数据私有段动态设置的方法

    公开(公告)号:CN110688329B

    公开(公告)日:2021-08-10

    申请号:CN201910839658.4

    申请日:2019-09-06

    Abstract: 本发明公开了一种可同时支持多套Cache数据私有段动态设置的方法,包括步骤S1、确定目标数据Cache中需要设置的n套私有段数据位置地址,为各个私有段数据设置相对应的n套第一私有段寄存器;S2、在目标数据Cache中分别设置与每套私有段数据相对应的第一比较器、第二比较器;S3、按一定规则对需要写入Cache中的数据行进行判断,来确定其是否具有“私有段标准”;S4、确认符合“私有段标准”后,在指令Cache中生成私有段设置指令;S5、设置指令发射规则判断器,对指令Cache内的指令执行情况进行判断;S6、确认在指令Cache内排列在私有段设置指令前的指令全部执行结束后,开始执行私有段设置指令,将需要写入Cache中的数据行写入与对应的私有段位置地址相联的数据Cache中。

    一种支持写暗示的硬件高速缓存数据装入方法

    公开(公告)号:CN110716887A

    公开(公告)日:2020-01-21

    申请号:CN201910857256.7

    申请日:2019-09-11

    Abstract: 本发明包括下述步骤:S1、确定需要目标主存的主存数据行的地址信息,该地址信息由写暗示指令携带;S2、通过CPU向目标Cache发出写暗示指令,所述写暗示指令生成写暗示标记,并且将要携带的目标主存的主存数据行地址映射为目标Cache中的缓存行;S3、判断映射的目标Cache中对应的缓存行是否访问命中;S4、确定映射的目标Cache中对应的缓存行命中,则判断缓存行是否有效;S5、确定缓存行有效时,则将该缓存行淘汰回主存;S6、设置缓存行有效,并结束处理,后续对写暗示装入的缓存行进行访问时,按照正常的高速缓存访问方式进行。本发明通过在硬件高速缓存中直接占用缓存行,而不读取并装入对应的主存行,显著降低缓存行第一次访问主存的延迟。

    面向众核处理器访存和片内通信的数据传输方法与装置

    公开(公告)号:CN110704343A

    公开(公告)日:2020-01-17

    申请号:CN201910852824.4

    申请日:2019-09-10

    Abstract: 本发明提供面向众核处理器访存和片内通信的数据传输方法与装置,属于计算机体系结构与处理器微结构领域。该面向众核处理器访存和片内通信的数据传输方法与装置包括如下步骤:S1:通道指令缓冲单元获取1或多个源核心处理器发出的通道指令;S2:从通道指令缓冲单元内抽取DMA通道指令或者RMA通道指令;S3:从DMA通道指令中解析DMA微访问,并将DMA微访问发送至内存,从RMA通道指令中解析RMA微访问发送至目标核心处理器中;S4:获取内存返回的应答或者目标核心处理器返回的应答后发起回答字操作。本发明减少了硬件逻辑开销,实现高效的实现片内数据复用,提升众核处理器的计算能力。

    一种可同时支持多套Cache数据私有段动态设置的方法

    公开(公告)号:CN110688329A

    公开(公告)日:2020-01-14

    申请号:CN201910839658.4

    申请日:2019-09-06

    Abstract: 本发明公开了一种可同时支持多套Cache数据私有段动态设置的方法,包括步骤S1、确定目标数据Cache中需要设置的n套私有段数据位置地址,为各个私有段数据设置相对应的n套第一私有段寄存器;S2、在目标数据Cache中分别设置与每套私有段数据相对应的第一比较器、第二比较器;S3、按一定规则对需要写入Cache中的数据行进行判断,来确定其是否具有“私有段标准”;S4、确认符合“私有段标准”后,在指令Cache中生成私有段设置指令;S5、设置指令发射规则判断器,对指令Cache内的指令执行情况进行判断;S6、确认在指令Cache内排列在私有段设置指令前的指令全部执行结束后,开始执行私有段设置指令,将需要写入Cache中的数据行写入与对应的私有段位置地址相联的数据Cache中。

Patent Agency Ranking