-
公开(公告)号:CN104504205B
公开(公告)日:2017-09-15
申请号:CN201410827960.5
申请日:2014-12-29
Applicant: 南京大学 , 中国电子科技集团公司第十四研究所
IPC: G06F17/50
Abstract: 本发明涉及一种对称FIR算法的并行化二维分割方法,包括设定对称FIR算法的参数:源向量点数,滤波系数长度;2)采用支持四路并行运算的乘法器、加法器通过对称FIR算法处理源数据;3)根据源数据长度,采用不同的算法完成DMA搬运阶段。有益效果为:解决了DMA搬运阶段基于并行化设计的数据细粒度分割、数据存放问题,以及向量长度过大而内存容量受限,需要作多次DMA搬入、处理、搬出,由此带来的源数据粗粒度分割问题。
-
公开(公告)号:CN119441086A
公开(公告)日:2025-02-14
申请号:CN202411555382.4
申请日:2024-11-04
Applicant: 南京大学
Abstract: 本发明涉及向量处理器的技术领域,公开了一种多场景多算法适配的向量访存控制器实现方法,包括以下步骤:访存控制模块获取上位机的配置信号,确定数据读取模式与算法并行度,并生成访存控制信号;访存状态模块响应所述访存控制信号,生成读数控制指令与写数控制指令;源数据模块响应所述读数控制指令,从存储资源中读取源数据,并送入计算资源进行数据运算,得到结果数据;结果数据模块响应所述写数控制指令,从计算资源中获取结果数据并写入存储资源。本发明可根据算法并行度、数据批数、数据点数灵活进行算法实现方式的选择,从而在不同的应用场景或不同的数据维度下取得更好的向量访存性能。
-
公开(公告)号:CN110751192A
公开(公告)日:2020-02-04
申请号:CN201910927807.2
申请日:2019-09-27
Applicant: 南京大学
Abstract: 本发明公开了一种基于CART算法的随机森林的决策树推理系统,包括控制模块,输出控制信号;数据存储模块,根据所述控制信号传输包含有多棵决策树数据的源数据并存放计算模块的计算结果;计算模块,根据所述控制信号计算Gini不纯度,获取最优特征。有益效果:有效地提高数据推理的精确度,加快算法运行的速度,有着广泛的应用前景,针对不同的场合有良好的应用价值。
-
公开(公告)号:CN104461465A
公开(公告)日:2015-03-25
申请号:CN201410833374.1
申请日:2014-12-29
Applicant: 南京大学 , 中国电子科技集团公司第十四研究所
Abstract: 本发明涉及一种基于乒乓操作的高效率控制器,与外部DSP核连接,包括外部接口模块,用于实现控制器与外部DSP之间的数据传递;主状态机模块,用于完成状态的跳转,通过将计算时间掩盖搬运数据的时间,实现乒乓功能;寄存器组,用于实现外部DSP与本控制器的信息交互;存储分配单元,用于完成内部存储的分配,为实现乒乓操作提供存储资源基础。有益效果为:将内部存储资源分为两部分,在前半部分运算时,搬运后半部分所需的数据,从而掩盖部分搬运数据的时间,实现乒乓操作流程,提高实际运算效率。
-
公开(公告)号:CN112052941B
公开(公告)日:2024-02-20
申请号:CN202010947798.6
申请日:2020-09-10
Applicant: 南京大学
IPC: G06N3/0464 , G06N3/063 , G06F17/15 , H04L67/568
Abstract: 本发明提出了一种应用于CNN网络卷积层的高效存算系统及其运算方法,该架构包括:用于缓存结果数据的数据缓存模块;用于进行高并行全流水卷积运算,得到卷积运算结果的运算阵列;用于读取数据缓存中的图像源数据并发送给所述运算阵列的源数据分发模块;用于读取数据缓存中的权重数据,并将数据复制重新编组,发送给所述运算阵列的权重共享模块;用于将运算阵列卷积计算结果存入所述数据缓存模块中的结果数据写入模块。本发明提出的高效存算架构基于全流水的并行运算簇设计了运算阵列,并且设计与之匹配的数据缓存和高带宽供数通道,以较低的硬件复杂度,实现了CNN网络密集卷积算法的高性能运算,具有良好的应用前景。
-
公开(公告)号:CN111723336B
公开(公告)日:2023-01-24
申请号:CN202010486502.5
申请日:2020-06-01
Applicant: 南京大学
Abstract: 本发明提出了一种采用循环迭代方式的基于cholesky分解的任意阶矩阵求逆硬件加速系统,包括DSP核,外部DDR存储器,AXI接口,主控制器、双DMA控制器、SRAM存储器、PE运算阵列及矩阵求逆运算模块;所述矩阵求逆模块包括cholesky分解,三角矩阵求逆和三角矩阵乘法三个子运算模块,三个子模块使用相同的数据存储方式;采用循环迭代的方法代替传统的乘累加计算,求解cholesky分解的结果以及三角矩阵的逆矩阵,降低了读写数据时的寻址复杂度;采用一种适用于三角矩阵的新型矩阵乘法算法,缩短了矩阵乘法的计算时间;本发明支持4至256阶中任意阶数复数矩阵的求逆运算,具有硬件复杂度低,存储资源利用率高的特点,实现了高阶高性能的设计目标。
-
公开(公告)号:CN113612575B
公开(公告)日:2022-10-18
申请号:CN202110737035.3
申请日:2021-06-30
Applicant: 南京大学
Abstract: 本发明提出了一种面向Wimax协议的QC‑LDPC译码器译码方法及系统,基于提出的面向Wimax协议的QC‑LDPC译码器,利用存储的QC‑LDPC校验矩阵信息,简化了译码器的译码计算复杂度,同时节省了硬件计算资源。其中,译码过程采用基于Offset Min‑sum的行分层译码算法作为译码方法,使得硬件兼容性更广、且具备易于实现的优点。通过流水化设计,对校验矩阵信息读取、映射,实现了高效流水LDPC译码;最终可支持IEEE 802.16e通信协议下,1/2码率19种码长的LDPC译码运算;因此本发明具有硬件复杂度低,存储资源利用率高的特点,以及可实现高吞吐率LDPC译码运算。
-
公开(公告)号:CN112199317B
公开(公告)日:2022-10-18
申请号:CN202011163715.0
申请日:2020-10-27
Applicant: 南京大学
Abstract: 本发明提出一种RISCV处理器访问Flash存储器的桥接系统及其桥接方法,能够实现RISCV处理器对Flash存储器数据的高速读取。该桥接系统包括:RISCV处理器总线接口,该RISCV处理器采用自定义的ICB总线协议;Flash存储器总线接口,该Flash存储器采用SPI总线协议;ICB控制模块,用来对RISCV处理器发起的总线事务进行处理;SPI总线模块,用来对Flash存储器发起总线事务请求;ICB‑SPI交互模块,用来实现ICB控制模块和SPI控制模块的信号交互。异步电路的设计让RISCV处理器和Flash存储器都能够工作在各自的最高频率下,保证了整个系统的工作效率。与传统的桥接模块相比,本发明不需要异步FIFO完成跨时钟域信号处理,能够减少桥接模块的面积消耗。
-
公开(公告)号:CN113377332A
公开(公告)日:2021-09-10
申请号:CN202110591328.5
申请日:2021-05-28
Applicant: 南京大学
Abstract: 本发明提出了一种基于线性分段的softmax硬件实现方法,该方法实现的电路系统包括:控制器用于实现softmax运算所需的源数据的读取和分发,以及运算结果的存储;排序模块用于将输入进行排序,并找出最大值;自然指数模块用于计算输入源数据的e指数函数值;加法树模块用于将e指数模块的结果进行累加;除法模块用于计算每个e指数计算结果与累加结果的比值。该方法实现的电路系统通过分解计算过程、压缩计算区间,大幅降低了传统查找表方法实现softmax的参数,兼具了高性能和低硬件资源开销,可用于各种人工智能算法加速场景。
-
公开(公告)号:CN111045965B
公开(公告)日:2021-06-04
申请号:CN201911025671.2
申请日:2019-10-25
Applicant: 南京大学
Abstract: 本发明涉及一种多通道无冲突拆分的硬件实现方法及运行该方法的计算机设备与可读存储介质,该方法基于DMA接口单元、控制单元、数据存储单元、无冲突访存单元和数据重组单元实现。DMA接口单元用于DDR和SRAM之间的数据交互;控制单元用于根据配置信息选择数据存储单元划分模式和无冲突访存单元访存模式;数据存储单元用于存储源数据和结果数据;无冲突访存单元通过地址映射将按采样点输入的源数据按通道存入数据存储单元;数据重组单元用于根据配置信息重组结果数据,送至DMA接口单元进行结果输出。本发明对采样点数、通道数没有限制,适用于数字信号处理和人工智能场景,具有高通用性、高并行路数、高存储资源利用率和低控制复杂度的特点。
-
-
-
-
-
-
-
-
-