片上网络路由器通道资源的贪婪分配方法、装置及路由器

    公开(公告)号:CN106453072A

    公开(公告)日:2017-02-22

    申请号:CN201610460938.0

    申请日:2016-06-22

    CPC classification number: H04L45/00 H04L45/60

    Abstract: 本发明提供了一种片上网络路由器通道资源的贪婪分配方法,适用于片上网络技术领域,所述贪婪分配方法在交叉开关分配阶段为路由器的内部的输入端口与输出端口进行映射之前进行,包括:预处理步骤,当数据包进入所述输入端口的子通道和虚通道中时,将数据包信息进行归类处理得到预处理信息表;执行步骤,根据所述预处理信息表以及所述数据包对应的所述输出端口的大小,选择最大限度多个所述数据包匹配所述子通道和所述输出端口。同时还提供一种片上网络路由器通道资源的贪婪分配装置。借此,本发明利用贪婪算法思想对输入端口和输出端口之间进行通道的匹配,达到趋向于最优的映射,提高通道的利用率。

    一种基于超导快速单磁通量子逻辑门的数字突触电路

    公开(公告)号:CN118153696A

    公开(公告)日:2024-06-07

    申请号:CN202311799038.5

    申请日:2023-12-25

    Abstract: 本发明提出一种基于超导快速单磁通量子逻辑门的数字突触电路,包括:控制模块,用于接收时钟信号和突触前神经元的脉冲序列,并控制权重序列的产生;由两输出T型触发器级联的TFF2触发器序列,该触发器序列接收该脉冲序列用于解码存储权重数据的非破坏性读取(NDRO)序列;由NDRO级联的NDRO序列,用于存储权重数据;突触配置模块,与该NDRO序列中各NDRO的置位端与复位端相连;其中,该触发器序列中触发器的第一输出端口接至该NDRO序列中对应的NDRO,该触发器序列中最后一级触发器的输出端口产生终止信号至该控制模块;该NDRO序列中各NDRO输出的脉冲合并,得到合并脉冲。

    针对动态图快照的CPU-GPU异构并发图处理方法及系统

    公开(公告)号:CN117971485A

    公开(公告)日:2024-05-03

    申请号:CN202410161999.1

    申请日:2024-02-04

    Abstract: 本发明提出一种针对动态图快照的CPU‑GPU异构并发图处理方法和系统,包括:提取所有图快照的公共子图和每个图快照对应变化的子图,从而形成子图Gs和Gc;将公共子图Gs,依据GPU显存大小和顶点度的属性信息,划分为两部分,分别为Gs0和Gs1,之后将Gs0在初始时一次性拷贝到GPU显存中,Gs1则在迭代处理过程中,按需进行数据重组后,然后以异步多流的方式拷贝到GPU显存中;基于GPU和CPU的计算资源,图处理过程中以顶点为中心,同步迭代方式执行图处理算法。

    一种超高速、超低功耗的超导神经元电路

    公开(公告)号:CN117829229A

    公开(公告)日:2024-04-05

    申请号:CN202311797379.9

    申请日:2023-12-25

    Abstract: 本发明提出一种超高速、超低功耗的超导神经元电路,包括串联的第一约瑟夫森结、第二约瑟夫森结、第三约瑟夫森结和电感;为超导神经元电路的输入端施加偏置电流,偏置电流通过第一约瑟夫森结接地,同时偏置电流也可以通过第二约瑟夫森结、第三约瑟夫森结和电感接地;第一约瑟夫森结,用于接收输入端的脉冲输入并产生相位差翻转,翻转后释放磁通量子,磁通量子通过第三约瑟夫森结存入电感;第二约瑟夫森结,与电感的输出端相连,当电感内存储的磁通量子超过一定数量时,会导致通过第二约瑟夫森的电流超过临界值,随后第二约瑟夫森结翻转并发出一个脉冲信号至超导神经元电路的输出端。采用电感作为磁通量子的收集部件,避免了存储电路的消耗。

    一种基于数据流架构的深度可分离卷积融合方法及系统

    公开(公告)号:CN113313251B

    公开(公告)日:2023-05-23

    申请号:CN202110522385.8

    申请日:2021-05-13

    Abstract: 本发明提出一种基于数据流架构的深度可分离卷积融合方法和系统,包括:将输入图像数据、卷积参数从主存DRAM搬运到数据缓存SPM;PE阵列通过从数据缓存SPM中读取该输入图像数据、卷积参数,以执行DW卷积,并将得到的DW卷积结果存储在PE内的寄存器中;PE阵列对寄存器中DW卷积结果进行激活计算得到该输入图像数据的初步结果Act_out,将该初步结果Act_out写回数据缓存SPM后,进一步存回主存;PE阵列通过从数据缓存SPM中读取初步结果Act_out与卷积参数,执行PW卷积得到最终结果Output;将最终结果Output写回数据缓存SPM后,进一步存回主存DRAM。本发明减少了数据的存储与访问带来的开销,使得深度可分离式卷积计算在数据流架构上的计算实现加速。

    生成面向超导RSFQ电路的多扇出时钟信号的方法

    公开(公告)号:CN111950215B

    公开(公告)日:2023-04-28

    申请号:CN202010703091.0

    申请日:2020-07-21

    Abstract: 提供一种生成面向超导RSFQ电路的多扇出时钟信号的方法,其中N是扇出时钟信号的数量,N个扇出时钟信号的每一个与从时钟源点到时钟端点所经过的由SPL构成的分支路径相对应,由SPL构成的分支路径构成SPL树,所述方法包括:建立高度P为1的SPL树,将其存入集合R;根据N计算SPL树的最大高度Pmax;自底向上逐层建立SPL树,每次迭代P增加1,直到P>Pmax,并将所得到的SPL树存入集合R中;选择所述集合R中叶节点数为N的树构成最优解;根据所述最优解确定多扇出时钟信号的由SPL构成的分支路径;其中,高度为P的树是由所述集合R中高度为P‑1的子树组成的。

    超导处理器及其输入输出控制模块

    公开(公告)号:CN112861463B

    公开(公告)日:2023-04-25

    申请号:CN202110266205.4

    申请日:2021-03-11

    Abstract: 提供一种用于超导处理器的输入输出控制模块,包括:取指令状态寄存器,用于指示取指令状态或者非取指令状态,以及用于将指令地址输出到内存;读数据等待状态寄存器,用于根据处理器的读数据请求以及取指令状态寄存器由取指令状态转换至非取指令状态,将读数据地址由暂存转换为输出到内存;读数据状态寄存器,用于指示读数据状态,以及用于将读数据地址输出到内存;写数据等待状态寄存器,用于根据处理器的写数据请求以及取指令状态寄存器由取指令状态转换至非取指令状态,将写数据地址和写数据内容由暂存转换为输出到内存;写数据状态寄存器,用于指示写数据状态,以及用于将写数据地址和写数据内容输出到内存。

    一种应用于分布式计算节点集群的图数据处理方法和介质

    公开(公告)号:CN111737540B

    公开(公告)日:2022-11-29

    申请号:CN202010460064.5

    申请日:2020-05-27

    Abstract: 本发明实施例提供了一种图数据处理方法,包括:S1、获取包含多个顶点的图数据,按顶点的出度由小到大的顺序对顶点排序并将排序序号作为第一重排序ID;S2、根据第一重排序ID将图数据的顶点按预设粒度以轮询方式依次分配到分布式计算节点集群中的每一个分布式计算节点;S3、计算节点使用混合BFS算法对其获得的部分图数据进行遍历,每层遍历后各计算节点得到局部的下一层活跃顶点集;S4、每层遍历后相邻计算节点间进行环形通信以传递局部的下一层活跃顶点集,在部分层遍历后传递局部的下一层活跃顶点集之前,确定本次待传递的局部的下一层活跃顶点集的压缩方式,本发明通过顶点的出度对顶点ID进行重排序、数据压缩和环形通信,提高了通信效率。

    一种超导流水线电路及处理器

    公开(公告)号:CN112116094B

    公开(公告)日:2022-08-30

    申请号:CN202010875646.X

    申请日:2020-08-27

    Abstract: 提供一种超导流水线电路,至少包括:第一可清零寄存器组、第一逻辑组合电路、第二可清零寄存器组以及第二逻辑组合电路,其中第一和第二可清零寄存器组用于在使能信号的控制下接收数据输入,并在第一时钟的控制下,将接收的输入数据进行输出;第一逻辑组合电路接收第一可清零寄存器组的输出数据,并在第一时钟的控制下将该数据运算之后输出至第二可清零寄存器组;第二逻辑组合电路接收第二可清零寄存器组的输出数据,并在第一时钟的控制下将该数据运算之后进行输出;其中,第二逻辑组合电路还用于生成内部清零信号以及阻塞信号;阻塞信号用于控制使能信号的有效和无效,以及内部清零信号用于控制第一和第二可清零寄存器组清零。

    一种用于分布式训练计算阶段的自动优化方法

    公开(公告)号:CN114911621A

    公开(公告)日:2022-08-16

    申请号:CN202210553734.7

    申请日:2022-05-20

    Abstract: 本发明提供一种用于分布式训练计算阶段的自动优化方法,所述方法包括在分布式训练的每个回合执行如下步骤:S1、以预设的最小单位负载为粒度,计算当前回合中参与分布式训练的所有节点的计算性能;S2、以计算性能最差的节点计算其对应的最大允许负载数的完成时间为限制时间,分别计算每个节点在限制时间内能够完成计算的最大负载数,以所有节点在限制时间内对应的能够完成计算的最大负载数组成负载分配策略;S3、以步骤S2中负载分配策略,分配下一回合每个计算节点的负载。其中,节点的计算性能是该节点完成预设最小单位负载计算的时间。

Patent Agency Ranking