基于拓扑计算的大模型推理计算架构、方法及装置

    公开(公告)号:CN119740663A

    公开(公告)日:2025-04-01

    申请号:CN202411809841.7

    申请日:2024-12-10

    Abstract: 本发明提出一种基于拓扑计算的大模型推理计算架构,包括:CPU、SDRAM、代码存储器、提示词存储器,以及大模型推理加速器,并通过总线将该CPU、该SDRAM、该代码存储器、该提示词存储器及该大模型推理加速器进行路由连接;进行大模型推理计算时,首先将该代码存储器中的代码及该提示词存储器中的提示词和词表,读取至该SDRAM,再根据该提示词的标记ID查询该SDRAM中的词表以获取嵌入向量,然后将该嵌入向量发送给该大模型推理加速器进行大模型推理计算,将该大模型推理加速器获得的输出结果发送上位机。本发明还提出一种基于拓扑计算的大模型推理计算方法及装置。本发明解决了大模型推理过程中权值加载的开销过大及KV cache的SRAM实现面积开销过大的问题。

    硬件感知的高效特征融合网络搜索方法及系统

    公开(公告)号:CN117689864A

    公开(公告)日:2024-03-12

    申请号:CN202211024965.5

    申请日:2022-08-25

    Abstract: 本发明提出一种硬件感知的高效特征融合网络搜索方法和系统,包括:构建包括融合特征搜索单元、融合路径搜索单元和融合模式搜索单元的特征融合网络;特征融合网络从图片的多尺度特征中搜索得到各尺度下的最优特征;对各尺度下的最优特征的通道进行分组,融合路径搜索单元从各分组中搜索得到候选特征,构建多个由两个候选特征构成的候选特征对;根据候选特征对,融合模式搜索单元从包括多个候选融合操作的操作集中搜索得到融合策略,并以融合策略对候选特征对进行特征融合,得到每个候选特征对的融合特征;基于融合特征确定图片中检测目标的预测位置类别。把在目标硬件上特征融合网络的硬件开销作为搜索目标;在目标硬件上能实现精度和计算开销的良好权衡。

    一种神经网络量化压缩方法及系统

    公开(公告)号:CN114697654B

    公开(公告)日:2023-06-30

    申请号:CN202011607739.0

    申请日:2020-12-30

    Abstract: 本发明提出一种神经网络量化压缩方法,包括:获取经过量化处理后待压缩的神经网络数据,对该神经网络数据进行游程全零编码,得到游程压缩数据,其中该游程全零编码包括仅对该神经网络数据中的零字符进行游程编码;对该游程压缩数据进行规范化哈夫曼编码,并对编码结果进行重整,得到规范哈夫曼编码,作为该神经网络数据的压缩结果。本发明针对量化后神经网络数据具有稀疏性的特点,本发明对游程编码进行了改进提出了游程全零编码,可以更高效的无损压缩神经网络数据;对哈夫曼树自上而下地进行重整,省去存储完整的哈夫曼树结构,显著降低了查表操作的复杂程度。

    基于游程全零编码的神经网络量化压缩方法及系统

    公开(公告)号:CN114697672B

    公开(公告)日:2023-06-27

    申请号:CN202011607727.8

    申请日:2020-12-30

    Abstract: 本发明提出一种游程全零编码的神经网络量化压缩方法和系统,包括:对神经网络数据中的零数据进行游程编码,得到第一中间数据;将第一中间数据的游程为3的编码片段替换为ZeroLiteral字符,得到第二中间数据;判断第二中间数据中与ZeroLiteral字符相同的字符是否为神经网络数据中的原字符,若是,则将第二中间数据中与ZeroLiteral字符相同的字符替换为ZeroExtra字符,同时在其后增加表示其为原字符的标志位,否则将第二中间数据中与ZeroLiteral字符相同的字符替换为ZeroExtra字符,同时在其后增加表示其为替换字符的标志位。本发明提出了游程全零编码,可以高效的无损压缩神经网络数据且游程全零编码包括二阶字符替换,减少了数据中0出现的数量,为后续哈夫曼编码留出了更多的压缩空间。

    均衡流间压缩速度的神经网络量化压缩方法及系统

    公开(公告)号:CN114697655B

    公开(公告)日:2023-04-11

    申请号:CN202011611154.6

    申请日:2020-12-30

    Abstract: 本发明提出一种基于均衡流间压缩速度的神经网络量化压缩方法,包括:步骤1、获取经过量化处理后待压缩的神经网络数据,对神经网络数据进行分块,得到多个数据块;步骤2、对每一个数据块分配一个数据流进行压缩,每条数据流的压缩包括:对数据块进行游程全零编码,得到游程压缩数据,其中游程全零编码仅对神经网络数据中的零字符进行游程编码,对游程压缩数据进行规范化哈夫曼编码,并对编码结果进行重整,得到规范哈夫曼编码,作为数据块的压缩结果;步骤2包括:步骤21、监测各数据流已经压缩编码的数据量,向当前编码速度快的数据流的输出缓存写入虚字符对应的虚编码。均衡流间压缩速度,缩小流水线之间的编码差距,进而避免产生死锁。

    一种神经网络量化压缩方法及系统

    公开(公告)号:CN114697654A

    公开(公告)日:2022-07-01

    申请号:CN202011607739.0

    申请日:2020-12-30

    Abstract: 本发明提出一种神经网络量化压缩方法,包括:获取经过量化处理后待压缩的神经网络数据,对该神经网络数据进行游程全零编码,得到游程压缩数据,其中该游程全零编码包括仅对该神经网络数据中的零字符进行游程编码;对该游程压缩数据进行规范化哈夫曼编码,并对编码结果进行重整,得到规范哈夫曼编码,作为该神经网络数据的压缩结果。本发明针对量化后神经网络数据具有稀疏性的特点,本发明对游程编码进行了改进提出了游程全零编码,可以更高效的无损压缩神经网络数据;对哈夫曼树自上而下地进行重整,省去存储完整的哈夫曼树结构,显著降低了查表操作的复杂程度。

    基于人工智能的音频推送方法及系统、相关方法及设备

    公开(公告)号:CN111666444B

    公开(公告)日:2021-04-27

    申请号:CN202010492049.9

    申请日:2020-06-02

    Inventor: 支天 周聖元

    Abstract: 本公开提供了一种基于人工智能技术的智能音频文件推送方法、播放方法、图像采集方法、设备及系统,智能音频文件推送方法包括:获取用户图像;根据用户图像,利用人工智能平台获取用户动作信息和用户表情信息;根据用户动作信息,确定出音频文件集合;根据用户动作信息和用户表情信息,确定出用户的心情参数;从音频文件集合获取与心情参数对应的音频文件,并发送至用户的用户设备。本公开实施例利用人工智能算法进行数据处理,获取到用户的动作信息和表情信息,进而确定出需要推送的音频,提升了音频推荐时的准确性,另外,利用人工智能处理器加速运算过程,能够加快运算速度,提升反馈效率。

    智能路线规划方法及设备

    公开(公告)号:CN111006653B

    公开(公告)日:2021-06-18

    申请号:CN201911335857.8

    申请日:2019-12-20

    Inventor: 支天 周聖元

    Abstract: 本公开提供一种智能路线规划方法及设备,其中方法包括:获取起始位置和多个目的位置;将所述起始位置、所述多个目的位置输入到路线规划神经网络模型,通过深度学习处理器处理后确定目标行进路线,所述目标行进路线的终点为所述多个目的位置之一。通过本公开的路线规划方法,能够通过深度学习处理器实现多个目的位置的统一协调,减少用户不必要的路程耽搁,或者为用户提供其它便利。

    用于分形智能处理器的分形可重配指令集

    公开(公告)号:CN111831331A

    公开(公告)日:2020-10-27

    申请号:CN202010688961.1

    申请日:2020-07-16

    Abstract: 本公开提供一种用于分形智能处理器的分形可重配指令集,该分形可重配指令集将本地指令或计算原语映射为用于分形运算的分形指令,该本地指令作用于向量数据或标量数据。该分形可重配指令集包括间接指令域。对应的,分形智能处理器的控制系统包括分解模块、降级模块及记录模块;分解模块用于对分形可重配指令集进行串行分解;降级模块用于对串行分解后的串行分解子指令进行降级;分解模块还用于对降级后的串行分解子指令进行并行分解。记录模块,用于在每一次串行分解之前,替换所间接指令域的值,以实现对分形可重配指令集的动态控制。该分形可重配指令抽象层次高,表达灵活性强,结合控制系统的硬件架构支持,可解决计算过程中的失效问题。

Patent Agency Ranking