-
公开(公告)号:CN111290732B
公开(公告)日:2023-03-14
申请号:CN202010138191.3
申请日:2020-03-03
Applicant: 南京大学
Abstract: 本申请提供了一种基于posit数据格式的浮点数的乘法运算电路。该电路包括数据输入单元101、第一解码器102、第二解码器103、乘法器104、MSB单元105、加法器106、编码器107和多路选择器108,通过电路中各元件的协同,实现基于posit数据格式的浮点数的乘法运算。本申请实施例中,采用posit数据格式进行乘法运算,则可以在0附近保证精度的同时,又可以很大程度的减少数据位宽,从而减少神经网络的训练时间,也降低了对于存储,位宽等资源的需求。
-
公开(公告)号:CN115567159A
公开(公告)日:2023-01-03
申请号:CN202211143479.5
申请日:2022-09-20
Applicant: 南京大学
IPC: H04L1/00
Abstract: 本申请涉及数字信号处理技术领域,提供一种基于GPU的细粒度极化码译码系统及方法,采用两种细粒度策略,提升系统吞吐率。其一,利用联合存储矩阵M存储单个码字在迭代译码过程中从信源端至信道端的消息和从信道端至信源端的消息,每个码字的存储消耗很低,使得系统能够加载更多的极化码码字进行译码。其二,在每次迭代译码中,只更新从信源端至信道端前m‑1个阶段的消息,进而降低单个极化码的译码时间。不仅节省单个码字的存储开销,还减少迭代的步骤数,进而提升系统吞吐率,得益于细粒度策略,能够充分利用片上共享内存加速数据访存。
-
公开(公告)号:CN115496190A
公开(公告)日:2022-12-20
申请号:CN202110678678.5
申请日:2021-06-18
Applicant: 南京大学
Abstract: 本申请涉及卷积神经网络技术领域,提供一种面向卷积神经网络训练的高效可重构硬件加速器,包括PE阵列,PE阵列包括K个PE簇,每个PE簇中包括三个输入行、加法树和部分和缓存器,每个输入通道中设置有多个PE基本单元,三个输入行之间的求和由加法树完成,加法树得到的中间计算结果存入部分和缓存器中。在实际应用过程中,能够支持DNN训练过程中不同计算阶段多种不同的计算模式;能够在不同维度实现并行计算,从而提高处理速度;能够消除卷积层在不同阶段的无效计算,提高计算利用率;以一种灵活的访存方案,实现不同层面的数据复用,降低数据访问量,从而降低时间和功耗开销。
-
公开(公告)号:CN115270817A
公开(公告)日:2022-11-01
申请号:CN202210898773.0
申请日:2022-07-28
Applicant: 南京大学
Abstract: 本申请涉及自然语言处理技术领域,提供一种对话文本处理方法及装置,通过将对话文本中的说话者和话语按时间顺序拼接,得到时间流,聚合不同说话者在所述对话文本中的全部话语,得到说话者流,将得到的时间流和说话者流作为双流输入,以充分利用对话信息。时间流和说话者流是人类理解对话的两个方向,时间流有助于理解对话的发展,而说话者流则按说话者聚合话语,有利于理解不同说话者的信息,同时因为减少说话者的切换,可降低模型理解出错的概率,从而提高模型的忠实度。此外,本申请的说话者流是自动生成的,不需要任何其他资源消耗,例如额外模型预测和人工注释等,这使得本申请可以被低成本地、便捷地应用。
-
公开(公告)号:CN115238879A
公开(公告)日:2022-10-25
申请号:CN202210980058.1
申请日:2022-08-16
Applicant: 南京大学
Abstract: 本申请提供一种深度神经网络的架构搜索方法及硬件加速器。所述架构搜索方法包括:构建超级网络,所述超级网络包括依次连接的第一固定层、候选模块模组、第二固定层、池化层以及分类器;候选模块的搜索空间包括卷积层和非卷积层,非卷积层为加法层和/或移位层;预训练超级网络,以更新超级网络的权重参数;使用可微分搜索算法从所述预训练后的超级网络中搜索,得到目标深度神经网络。所述候选模块组的搜索空间包括卷积层和加法层和/或移位层,如此,得到的目标深度神经网络是一种乘法减少的混合深度神经网络,具有基于乘法算子的卷积层精度高的优点、以及加法层或者移位层的硬件效率高的优点,实现硬件效率和任务精度的平衡。
-
公开(公告)号:CN115186802A
公开(公告)日:2022-10-14
申请号:CN202210844507.X
申请日:2022-07-18
Applicant: 南京大学
Abstract: 本申请涉及数据处理技术领域,提供一种基于卷积神经网络的块稀疏方法、装置及处理单元,所述基于卷积神经网络的块稀疏方法,通过将维度为N×C×K×K的原始权重,转换为K2个C×K的重排权重,然后根据预设维度,将重排权重分割为多个数据块,最后根据预先设置的数据稀疏度,剪去所述多个数据块内冗余的非零值。对于数据块而言,剪去的是对数据块影响较小的数据,这可以减少稀疏对于训练精度的影响,因此可以达到较高的稀疏度,同时,在硬件设计时,解决传统训练加速器在处理稀疏张量时,存在的不同处理单元之间运算任务不平衡的问题,且在前向传播和反向传播过程中,避免造成权重数据在存储上的读写冲突。
-
公开(公告)号:CN108021537B
公开(公告)日:2022-09-16
申请号:CN201810016954.X
申请日:2018-01-05
Applicant: 南京大学
IPC: G06F17/15
Abstract: 本发明公开了一种基于各种硬件平台(CPLD、FPGA、专用芯片等)的softmax函数计算方法。softmax函数广泛应用于深度学习的多分类任务及注意力模型等,其中涉及到的e指数及除法计算需要消耗较大的硬件资源。设计方法通过对函数进行简单变换,将其中的e指数计算简化为一次常数乘法、一个输入范围固定的2的指数次运算、一次移位运算;将n次除法运算的简化为一次“最高位1检测运算”,一次输入范围固定的倒数运算,一次移位运算及n次乘法运算。其中2指数及倒数运算以特殊设计的查找表实现,使得更小的存储空间可实现同样精度。将本发明用在深度学习注意力模型等中,可以在精度几乎不受损的前提下大大提高计算速度,减少计算资源的消耗。
-
公开(公告)号:CN114842873A
公开(公告)日:2022-08-02
申请号:CN202210399955.3
申请日:2022-04-15
Applicant: 南京大学
Abstract: 本申请提供了一种基于水声辐射音频数据的船舶分类方法及系统。所述船舶分类方法包括获取待分类船舶的目标水声辐射音频数据;对目标水声辐射音频数据按照预设转换方法进行处理,得到目标待分类声谱图;使用已训练的船舶分类模型对目标待分类声谱图进行分类处理,得到待分类船舶的目标类别。所述船舶分类方法得到的分类结果精度高。
-
公开(公告)号:CN114742215A
公开(公告)日:2022-07-12
申请号:CN202210393362.6
申请日:2022-04-14
Applicant: 南京大学
Abstract: 本申请提供一种三维反卷积加速方法及三维反卷积硬件加速架构。所述方法包括:利用候选反卷积核的尺寸、预设的变换强度和反卷积步长预先确定候选输入块的尺寸、待运算数据块的尺寸以及输出数据块的尺寸后,分别利用对应的二维预设前处理矩阵和前处理转置矩阵对候选输入块和候选反卷积核进行变换,并将各自得到的前处理数据块进行逐元素相乘,得到待运算数据块,再利用二维预设后处理矩阵和后处理转置矩阵对待运算数据块进行变换,最终得到候选输入块所对应的输出数据块。整个方法利用反卷积计算前后数据之间的关联性,将常规三维反卷积的乘法累加操作转化为前后处理和逐元素乘法,可以减少乘法次数,降低计算复杂度,从而极大地提高了计算效率。
-
公开(公告)号:CN114528982A
公开(公告)日:2022-05-24
申请号:CN202111628128.9
申请日:2021-12-28
Applicant: 南京大学 , 北京达佳互联信息技术有限公司
IPC: G06N3/063 , G06N3/04 , G06N3/08 , G06F16/9535 , G06F16/435 , G06F16/45
Abstract: 本公开关于一种业务处理设备、方法、系统、电子设备及存储介质,该设备包括业务处理单元被配置为执行业务处理网络对应的至少一种业务运算;业务处理单元包括第一数量个并行内积单元,并行内积单元包括第二数量个基础内积单元;基础内积单元包括第三数量个乘法器和第一加法器;任一基础内积单元被配置为执行任一业务运算对应的左乘业务矩阵与右乘业务矩阵中任意一列间的相乘运算;左乘业务矩阵被拆分成第四数量个子业务矩阵,任一业务运算对应的第四数量个子业务矩阵按照执行时间顺序依次输入第三数量个乘法器;并行内积单元被配置为并行执行左乘业务矩阵与右乘业务矩阵中第二数量个列间的相乘运算。利用本公开实施例可提升硬件利用率和计算效率。
-
-
-
-
-
-
-
-
-