一种基于异构图神经网络的异构图数据加速处理方法

    公开(公告)号:CN118536564A

    公开(公告)日:2024-08-23

    申请号:CN202410652421.6

    申请日:2024-05-24

    Abstract: 本发明提供了一种基于异构图神经网络的异构图数据加速处理方法,所述方法执行特征映射计算步骤、以及语义融合计算步骤以完成异构图数据的处理,其中,在邻居聚合计算步骤中,基于映射后的子图中目标节点和各个源节点的特征向量对该子图进行剪枝计算以筛选出该子图中对目标节点符合预设重要性要求的多个源节点,并基于映射后的目标节点和筛选出的各个源节点的特征向量执行邻居聚合计算以得到子图中目标节点对应的结构特征向量。本发明的方案能够在保证异构图神经网络准确地捕捉图数据中的重要信息的同时减小异构图神经网络处理异构图数据过程中的计算复杂度和片外访存带宽的需求,从而提高异构图神经网络处理异构图数据时的执行效率。

    光电共封装交换机
    142.
    发明公开

    公开(公告)号:CN118524315A

    公开(公告)日:2024-08-20

    申请号:CN202410446740.1

    申请日:2024-04-12

    Inventor: 郝沁汾 叶笑春

    Abstract: 本发明提供了一种光电共封装交换机,包括交换芯片、多个光学引擎、多个第一光电器件、第一电路板和第二电路板;第一电路板集成于第二电路板上,交换芯片集成于第一电路板上;多个光学引擎包围在交换芯片的四周,并且多个光学引擎包括多个第二光电器件,多个第二光电器件直接集成于第一电路板上;多个第一光电器件分别布置于第一电路板的正面或背面;光电共封装交换机还包括多个内置激光光源或者多个外置激光光源,每个内置激光光源分别集成于一个光学引擎中,或者多个外置激光光源分别集成于第二电路板上。借此,本发明光电共封装交换机具有成本低、功耗低、可靠性高、信号质量好、带宽大、散热压力小等优点。

    一种流图程序生成方法和采用该方法的粗粒度数据流装置

    公开(公告)号:CN118152090A

    公开(公告)日:2024-06-07

    申请号:CN202410156325.2

    申请日:2024-02-04

    Abstract: 本发明提供了一种应用于处理器的流图程序生成方法,其中,流图程序为指示粗粒度数据流架构下计算任务的数据流图,所述粗粒度数据流架构包括执行阵列,所述执行阵列包括多个执行单元,所述方法包括对算子任务执行如下步骤:S1、获取粗粒度数据流架构的参数,所述参数至少包括执行单元个数、可同时支持的并行任务个数;S2、基于算子任务并行计算特征以及所述步骤S1中获取的架构参数,将算子任务划分为一个或多个分任务,其中,分任务个数应小于或等于所述粗粒度数据流架构可同时支持的并行任务个数;S3、将每个分任务进一步划分成多个子任务,每个子任务执行不同的一个或多个功能;S4、按照预设的规则对每个子任务进行流图程序编码。

    一种数据流众核处理器的数据预取方法及处理器

    公开(公告)号:CN118132462A

    公开(公告)日:2024-06-04

    申请号:CN202410263613.8

    申请日:2024-03-08

    Abstract: 本发明提供了一种数据流众核处理器的数据预取方法及处理器,方法包括:对于待执行的程序,将程序执行所需的数据划分为可预取数据和不可预取数据;对于可预取数据,在程序执行前加载至处理器的片上存储,且在程序执行前将片上存储中存有所述可预取数据的缓存路设为不可被覆盖的只读状态;对于不可预取数据,在程序执行过程中按需加载至片上存储,有效地减少了对片外存储的访问请求次数,降低了平均访问延迟;并且在程序执行前将片上存储中存有所述可预取数据的缓存路设为不可被覆盖的只读状态,使得可预取数据在程序执行完毕前被稳定地保持在片上存储中。

    一种基于卷积神经网络的图像检测方法及系统

    公开(公告)号:CN112288085B

    公开(公告)日:2024-04-09

    申请号:CN202011147836.6

    申请日:2020-10-23

    Abstract: 本发明提出一种卷积神经网络加速方法及系统,包括将待特征分析的图像作为输入激活输入卷积神经网络,分解该卷积神经网络中滤波器的权值向量,得到滤波器中权值对应的符号向量;通过符号向量与输入激活向量执行卷积运算,得到第一卷积结果,通过补偿因子与输入激活向量执行卷积运算,得到第二卷积结果,将该第一卷积结果和第二卷积结果相加,得到预测结果;该卷积神经网络执行卷积计算时根据该预测结果跳过0值相关的运算,得到卷积结果。本发明可预知输出激活的稀疏度,以指导原始的神经网络运算跳过0值相关的运算,从而减少原始网络的计算量,节省计算资源、降低功耗并提升性能。

    一种三维芯片及其芯片间通信方法

    公开(公告)号:CN114416618B

    公开(公告)日:2024-03-12

    申请号:CN202111553453.3

    申请日:2021-12-17

    Abstract: 本发明提出一种三维芯片,包括:多个堆叠的芯片层,每个该芯片层包括至少一个芯片;层间通信模块;该芯片与该层间通信模块通过硅通孔通信连接;第一芯片层的发送芯片通过该层间通信模块向第二芯片层的接收芯片发送数据信息。还提出一种三维芯片的芯片间通信方法,包括:当第一芯片层的发送芯片拟向第二芯片层的接收芯片发送数据信息时,由该发送芯片向层间通信模块发送握手信息,该握手信息中包括该接收芯片的芯片地址;由该层间通信模块根据该芯片地址,以该握手信息进行该发送芯片与该接收芯片之间的握手操作;根据握手结果,由该层间通信模块接收该数据信息并传输至该接收芯片。

    一种基于GPU的稀疏深度神经网络的推理加速方法

    公开(公告)号:CN117592524A

    公开(公告)日:2024-02-23

    申请号:CN202311359769.8

    申请日:2023-10-19

    Abstract: 本发明提供一种基于GPU的稀疏深度神经网络的推理加速方法,用于加速所述稀疏深度神经网络对待处理数据的推理过程,所述GPU包括全局内存,所述稀疏深度神经网络包括多层网络层,所述全局内存中存储来自CPU传输的所述稀疏深度神经网络的网络层权重参数,所述方法包括:S1、基于所述全局内存大小、所述待处理数据整体所需内存大小和单层网络层权重参数所需大小,按照预设的分块规则对所述待处理数据进行分块处理得到分块数据,以使每个分块数据均能被完整的存储于全局内存中;S2、将每个分块数据与所述全局内存中存储的网络层权重参数进行计算,直至每个分块数据与所述稀疏深度神经网络的每一网络层权重参数完成计算。

    仲裁型物理不可克隆的激励响应生成方法及其电路

    公开(公告)号:CN117527249A

    公开(公告)日:2024-02-06

    申请号:CN202311238730.0

    申请日:2023-09-22

    Abstract: 本发明提出一种仲裁型物理不可克隆的激励响应生成方法和装置,包括:基于PUF构建的PUF满二叉树,树中每个PUF均具有信号输入端、激励输入端和信号输出端;通过PUF树构建步骤在目标设备中构建两个PUF树,分别为第一PUF树和第二PUF树,将输入信号输入第一PUF树和第二PUF树的头节点的信号输入端,将激励信号输入每个节点的激励输入端,进而从第一PUF树和第二PUF树所有尾节点的信号输出端得到输出信号;从第一PUF树所有尾节点中选择一路输出信号作为第一输出,从第二PUF树所有尾节点中选择一路输出信号作为第二输出;将第一输出和第二输出输出至仲裁器件,根据第一输出和第二输出到达仲裁器件的先后顺序,生成响应,保存激励信号和响应作为目标设备的激励响应对。

    带宽控制单元、处理器芯片以及访存流量控制方法

    公开(公告)号:CN114610138B

    公开(公告)日:2023-08-08

    申请号:CN202210230341.2

    申请日:2022-03-10

    Abstract: 提供一种带宽控制单元,其用于包括多个数据处理单元的处理器芯片,所述多个数据处理单元通过总线对存储器进行访问,所述存储器包括优先级管理单元,所述带宽控制单元包括:第一温度判断模块,其用于接收所述多个数据处理单元的温度值,以及将所述温度值分别与相应的数据处理单元的温度阈值进行比较,并输出第一比较结果;以及优先级处理模块,其用于接收所述第一比较结果,以及根据所述第一比较结果调整所述多个数据处理单元中的一个或者多个的访存优先级;其中,所述优先级处理模块将调整后的访存优先级输出至所述存储器的优先级管理单元,以控制所述多个数据处理单元访存所述存储器的带宽。

Patent Agency Ranking