-
公开(公告)号:CN113298236B
公开(公告)日:2023-07-21
申请号:CN202110676008.X
申请日:2021-06-18
Applicant: 中国科学院计算技术研究所
IPC: G06N3/0464 , G06N3/063
Abstract: 本发明提供一种基于数据流结构的低精度神经网络计算装置,包括输入缓存区,输出缓存区、权重缓存区以及PE阵列,其中,PE阵列中的每个PE包括乘加部件,所述乘加部件以SIMD方式进行乘加运算。本发明还提供一种基于上述装置的低精度神经网络加速方法。本发明节省了计算资源,减少了访存带来的开销。
-
公开(公告)号:CN112015473B
公开(公告)日:2023-06-27
申请号:CN202010719417.9
申请日:2020-07-23
Applicant: 中国科学院计算技术研究所
IPC: G06F9/30 , G06F9/32 , G06N3/10 , G06N3/0464 , G06N3/0495 , G06N3/082
Abstract: 本发明提出一种基于数据流架构的稀疏卷积神经网络加速方法及系统。针对稀疏卷积应用,使用软件方式设计了一套指令共享检测装置和稀疏卷积加速方法。通过对编译器生成的指令进行检测和对比,标记所有指令中指令内容完全相同的指令,将这些指令的地址设置为相同的地址,实现稀疏卷积中指令共享,从而减少了指令加载对内存的访问,提升了稀疏卷积运行的时间。
-
公开(公告)号:CN111694643B
公开(公告)日:2023-04-11
申请号:CN202010395810.7
申请日:2020-05-12
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种面向图神经网络应用的任务调度执行系统及方法,包括:待发射图运算符缓存模块读取待处理图运算符处理请求,根据待处理图运算符处理请求的图运算符标签,从缓存中获取所需输入数据;发射单元将待处理图运算符处理请求和输入数据发送给基于静态数据流的统一结构处理单元;统一结构处理单元根据图运算符标签的图运算符码将输入数据映射到相应的二叉运算树的输入上和图运算符执行帧,并完成本轮运算,得到中间结果;标签生成器依据前一轮运算标签信息,生成新的图运算符标签;统一结构处理单元将中间结果以及新的图运算符标签返回给待发射图运算符缓存模块;循环执行直至图运算符标签中剩余重复次数数值为1,将当前中间结果写回缓存。
-
公开(公告)号:CN115686639A
公开(公告)日:2023-02-03
申请号:CN202211290962.6
申请日:2022-10-21
Applicant: 中国科学院计算技术研究所
IPC: G06F9/38
Abstract: 本发明提供了一种应用于处理器的分支预测方法以及分支预测器,该分支预测方法包括:获取TAGE预测器对分支指令进行分支预测的第一中间参数以及第一预测值;获取GEHL预测器对所述分支指令进行分支预测的第二中间参数以及第二预测值;利用预设的组合预测器根据所述分支指令对应的PC值、第一中间参数、第一预测值、第二中间参数以及第二预测值中的指定比特位按照预定的规则重组确定多个子索引,并基于重组的多个子索引确定对应的第三预测值以及第三预测值的置信度;根据所述分支指令对应的PC值、第三预测值以及第三预测值的置信度生成查询索引,利用所述查询索引从预定的模式历史表中确定分支指令对应的最终预测值,从而提升分支预测的精度和处理器效率。
-
公开(公告)号:CN115600658A
公开(公告)日:2023-01-13
申请号:CN202211208844.6
申请日:2022-09-30
Applicant: 中国科学院计算技术研究所(CN)
IPC: G06N3/0464 , G06N3/082 , G06N3/047
Abstract: 本发明提供一种应用于图神经网络训练的采样方法,用于在图神经网络训练过程中对图数据进行采样,所述采样方法包括:获取图数据中每个节点的所有邻居节点的存储位置,并以节点的所有邻居节点的存储位置随机排序构成该节点对应的邻居节点序列;基于得到的每个节点对应的邻居节点序列判断该节点的所有邻居节点是否符合集中分布;根据得到的每个节点的邻居节点的判断结果调整该节点被采样的概率,其中,将对应邻居节点符合集中的节点被采样的概率提高,将对应邻居节点不符合集中分布的节点被采样的概率降低;采用调整后的每个节点被采样的概率形成的概率分布对图数据进行采样。本发明减少了采样过程中的访存开销。
-
公开(公告)号:CN115296743A
公开(公告)日:2022-11-04
申请号:CN202210764499.8
申请日:2022-06-29
Applicant: 中国科学院计算技术研究所
IPC: H04B10/25
Abstract: 本发明提出一种光纤通信转接系统,包括光纤通信转接单元,所述光纤通信转接单元配置有光纤通信模块作为通信接口;光纤通信转接单元还包括:Aurora协议IP核模块,与光纤通信模块互联,用于将高速串行数据转化为低速并行数据流;用户逻辑模块,配置为状态机,与Aurora协议IP核模块互联;PCIe协议IP核模块,与用户逻辑模块互联,光纤通信转接单元与上位机之间通过PCIe协议IP核模块进行连接。该光纤通信转接系统作为高速数据传输接口,实现了高速数据传输。
-
公开(公告)号:CN115103036A
公开(公告)日:2022-09-23
申请号:CN202210557371.4
申请日:2022-05-20
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种高效的TCP/IP数据报处理方法和系统,利用基于TCP的通信过程中由于所需要发送的数据报直接交由DMA处理,在协议栈只处理内存地址和数据大小,减少了协议栈发生的大量数据拷贝过程,从而有效的减少了该过程的时间开销,通过由于引入DMA作为内存与内存之间的数据交换,则减少了CPU的资源占用。由此可见,本发明的数据报处理方法可以有效的提高网络数据报在应用程序与网卡之间的传输速率,且节省CPU资源的占用率。
-
公开(公告)号:CN115098320A
公开(公告)日:2022-09-23
申请号:CN202210694431.7
申请日:2022-06-20
Applicant: 中国科学院计算技术研究所
IPC: G06F11/26
Abstract: 本发明提供一种基于FPGA验证SOC芯片DDR控制器的系统,包括:待验证的SOC芯片DDR控制器、DFI‑AXI桥、FPGA DDR控制器、FPGA DDR PHY和DDR颗粒。DFI‑AXI桥通过DFI接口与SOC芯片DDR控制器连接并且通过AXI接口与FPGA DDR控制器连接,DFI‑AXI桥用于执行DFI与AXI间的协议转换,从而在SOC芯片DDR控制器与FPGA DDR控制器之间进行交互;FPGA DDR控制器与FPGA DDR PHY通过FPGA内部总线连接,并且FPGA DDR PHY与DDR颗粒连接。本发明实现了在FPGA硬件原型验证平台上对SOC芯片DDR控制器的验证,提升了芯片流片的成功率。
-
公开(公告)号:CN115016918A
公开(公告)日:2022-09-06
申请号:CN202210769041.1
申请日:2022-06-30
Applicant: 中国科学院计算技术研究所
IPC: G06F9/48 , G06F9/50 , G06F16/2455 , G06F16/2457
Abstract: 本发明实施例提供了一种用于数据流架构的计算设备的数据处理方法,所述计算设备包括多个计算节点和多个路由节点,每个计算节点用于调度执行指令槽中的指令,每个路由节点包括共享缓存,所述共享缓存用于缓存指令执行后的数据,共享缓存中指令执行后的数据被发送完毕后释放该数据占用的共享缓存空间,所述方法包括在计算节点执行如下操作:获取指令槽中所有处于就绪可执行状态的指令,对比获取到的所有指令被执行后的数据占用共享缓存后释放共享缓存空间的快慢,选择其中被执行后得到的数据占用的共享缓存空间被最快释放的优选指令进行执行。本发明每次选择当前能够最快释放共享缓存空间的优选指令进行执行,提升数据流架构的效率。
-
公开(公告)号:CN114860433A
公开(公告)日:2022-08-05
申请号:CN202210440779.3
申请日:2022-04-25
Applicant: 中国科学院计算技术研究所
Abstract: 本发明实施例提供了一种在模拟器上进行池化计算操作的方法,包括:获取需要池化的图像数据的尺度以及模拟器上可用于本次池化的指定的处理单元的资源信息,其中,所述资源信息至少包括指定的处理单元的个数;根据模拟器上可用于本次池化的指定的处理单元的资源信息对图像数据进行尺度调整,得到调整后的图像数据,以使得对所述调整后的图像数据的池化计算操作能够均衡分布到所述指定的处理单元上;将所述调整后的图像数据均衡分配到模拟器上所述指定的处理单元中执行池化计算操作。
-
-
-
-
-
-
-
-
-