-
公开(公告)号:CN118446265A
公开(公告)日:2024-08-06
申请号:CN202410526918.3
申请日:2024-04-29
Applicant: 中国科学院计算技术研究所
IPC: G06N3/063
Abstract: 本发明提供一种神经网络加速器的设计方法以及装置,所述方法包括:根据硬件模板和硬件设计约束生成硬件设计空间,该硬件设计空间包括多个硬件设计实例;其中,每个硬件设计实例包括用于处理不同的数据流的多个子加速器,每个子加速器由多个芯粒构成;以及针对硬件设计实例:根据确定输入的任务负载模型中每个算子在该硬件设计实例的单个子加速器上的最优调度策略;根据所述最优调度策略和所述任务负载模型,确定将任务负载模型中各个算子映射至该硬件设计实例的各子加速器的最优映射策略;评估各个硬件设计实例对应的最优调度策略和最优映射策略的性能代价,从中选出最优的硬件设计实例。本发明可以改善神经网络加速器的硬件设计效率。
-
公开(公告)号:CN118099127A
公开(公告)日:2024-05-28
申请号:CN202211505080.7
申请日:2022-11-28
Applicant: 中国科学院计算技术研究所
IPC: H01L23/528 , H01L23/522 , H01L23/538 , H01L25/04
Abstract: 本发明提出一种基于可重用有源硅中介层的芯片,包括:多个芯粒;基板,用于提供电源、时钟和芯片外部输入输出信号;由多个瓦片构成的可重用有源硅中介层,每个瓦片表面和底面均具有凸块,通过底面的凸块与基板电气连接,获取电源、时钟、外部输入输出信号;通过表面的凸块与芯粒电气连接;且每个瓦片内包含竖直方向的硅通孔,在部分瓦片表面的凸块与瓦片底面的凸块之间形成电气连接,为芯粒传送电源、时钟、芯片外部输入输出信号;每个瓦片内部还包含至少一个路由器,路由器与多个表面凸块形成电气连接,芯粒通过微凸块与路由器进行芯粒间数据传输。本发明能为不同的芯粒系统提供交互,且芯粒间互联网络性能更高、能够容忍导线与路由器故障。
-
公开(公告)号:CN118095189A
公开(公告)日:2024-05-28
申请号:CN202211505070.3
申请日:2022-11-28
Applicant: 中国科学院计算技术研究所
IPC: G06F30/392 , G06F30/33 , G06F111/04 , G06F119/08
Abstract: 本发明提出一种基于可重用硅中介层的2.5D芯片设计方法和系统,包括:通过对应用中所有任务在芯粒库中的可运行芯粒集合求并集,得到候选芯粒集合;根据应用和约束,生成候选芯粒集合中芯粒间互联网络拓扑;热量优化阶段根据互联网络拓扑构建满足预设系统温度指标的中间芯粒布局,整体优化阶段根据预设性能指标对中间芯粒布局进行优化,得到最终芯粒布局;获取芯片中可重用硅中介层的可配置芯粒间互联网络,将最终芯粒布局映射至芯片中可重用硅中介层的可配置组件,得到用于执行应用的2.5D芯片。本发明能够根据应用、约束与优化目标,生成最优的芯粒组合、芯粒间互联网络拓扑、芯粒布局以及可重用硅中介层配置。
-
公开(公告)号:CN117313811A
公开(公告)日:2023-12-29
申请号:CN202311271368.7
申请日:2023-09-28
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种用于图像处理的神经网络加速器装置,所述装置包括:乘累加运算模块,其配置有多个矩阵运算单元,用于进行连续乘累加运算;数据存储模块,其被配置为多级存储结构,用于对数据进行分层多级存储并进行数据共享;数据管理模块,用于进行运算数据的调用与存储空间的分配;通用处理器,用于进行外参矩阵求解运算;辅助运算模块,用于进行乘累加运算、外参矩阵求解运算以外的其他不能分解的运算。本发明将特征点匹配、深度预测以及深度融合三个运算载荷大的运算主体分配给三个矩阵运算单元,并对运算时间、算子比例进行合理分配,可使各单元运算互不干扰,达到三级流水线的并行处理效果,提升加速器针对图像处理的高效性与兼容性。
-
公开(公告)号:CN112132272B
公开(公告)日:2023-09-12
申请号:CN202010999082.0
申请日:2020-09-22
Applicant: 中国科学院计算技术研究所
IPC: G06N3/063
Abstract: 本发明提供了一种神经网络的计算装置、处理器和电子设备,其中,计算装置包括:逻辑运算电路和通路选择模块;所述通路选择模块,用于根据接收的神经网络中的计算元素所占用的位宽控制所述逻辑运算电路包括的多个计算电路中的一个计算电路导通;所述逻辑运算电路,用于基于所述导通的计算电路对所述计算元素进行运算,获得所述计算元素对应的计算结果。通过根据计算元素占用的位宽不同,控制逻辑运算电路导通不同的计算电路,实现可对不同位宽的计算元素进行计算,应用到神经网络的计算中,可实现对二值神经网络和三值神经网络的计算,实现了对二值神经网络和三值神经网络的运算加速。
-
公开(公告)号:CN113129231B
公开(公告)日:2023-05-30
申请号:CN202110370804.0
申请日:2021-04-07
Applicant: 中国科学院计算技术研究所
IPC: G06T5/00 , G06N3/0475 , G06N3/094
-
公开(公告)号:CN112115009B
公开(公告)日:2022-02-18
申请号:CN202010809877.0
申请日:2020-08-13
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种用于神经网络处理器的故障检测方法,所述检测方法包括:S1、根据待检测处理器的应用场景,获取该场景中对故障敏感的测试样本组成的测试集;S2、将所述测试集输入待检测处理器中进行神经网络推理;S3、计算待检测处理器对测试集进行神经网络推断后的分类置信度与无故障神经网络处理器对测试集进行神经网络推断后的分类置信度的置信度偏差,根据所述置信度偏差判断待检测处理器是否发生故障。其中,置信度偏差大于预设的偏差阈值的待检测处理器被判定为发生了故障。基于本发明,深度学习处理器只需要完成神经网络推断计算就可以高效地检测故障的发生,显著降低了故障检测的开销,提高了检测精度。
-
公开(公告)号:CN113505825A
公开(公告)日:2021-10-15
申请号:CN202110759760.0
申请日:2021-07-06
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种图计算装置,包括存储层、逻辑层、列控制器,所述存储层用于原始数据以及中间数据的存储;所述逻辑层包括树创建模块、动态构图模块以及图创建模块;以及所述列控制器用于控制数据在存储层和逻辑层之间迁移。本发明是针对动态图构建进行优化的专用硬件加速器架构,针对动态图更新的性能和吞吐量进行了优化,更贴近现实应用的需求。
-
公开(公告)号:CN110222846B
公开(公告)日:2021-07-20
申请号:CN201910393609.2
申请日:2019-05-13
Applicant: 中国科学院计算技术研究所
IPC: G06N20/00 , G06F40/279 , G06K9/62 , G10L15/26
Abstract: 本发明提供一种面向互联网终端的信息安防方法及信息安防系统,其中,信息安防方法适用于用户的终端设备,信息安防方法包括:步骤1,终端设备获取用于检测有害信息的信息识别模型的离线训练结果,并根据该离线训练结果,初始化或更新信息识别模型的参数和权重;步骤2,终端设备接收外部的信息数据,并根据信息数据的数据种类,生成信息数据的待检测样本,并根据信息识别模型、参数以及权重,利用前向运算,检测待检测样本,生成信息识别结果;步骤3,终端设备根据信息识别结果,对接收到的信息数据进行处理。通过本发明的技术方案,有效阻止了有害信息的传播至用户,解决了由于数据量过大而导致云端或服务器端或路由器端信息处理遗漏问题。
-
公开(公告)号:CN108446761B
公开(公告)日:2021-07-20
申请号:CN201810244097.9
申请日:2018-03-23
Applicant: 中国科学院计算技术研究所
Abstract: 本发明涉及一种神经网络加速器,包括存储单元,用于存储LSTM网络的神经元数据和权值数据并输出;向量乘累加矩阵单元,用于从所述存储单元接收数据并针对所述接收的数据执行向量乘累加运算并输出运算结果;加法单元,用于从所述向量乘累加矩阵单元接收数据,并针对所述接收的数据执行偏移量加法操作;激活单元,用于从所述多功能运算单元和/或所述存储单元接收数据,并针对所述接收的数据执行激活操作并输出激活结果;向量平行乘累加单元,用于从所述激活单元和/或所述存储单元接收数据,并针对所述接收的数据执行乘法和累加操作。各模块通过端对端链接组成以权值行向量为单位与输入向量执行数据处理的流水线工作机制。
-
-
-
-
-
-
-
-
-