-
-
公开(公告)号:CN115965528A
公开(公告)日:2023-04-14
申请号:CN202211651686.1
申请日:2022-12-21
Applicant: 西安交通大学
Abstract: 本发明提供一种面向高速图像采集的超分辨率系统和方法,包括:Padding模块、Linebuffer模块、Bicubic顶层计算模块和移位寄存器;Padding模块对原始图像进行补充,输出补充图像至Linebuffer模块;Linebuffer模块对补充图像进行行缓存,按顺序同步输出四行数据;Bicubic顶层计算模块接收Linebuffer模块输出的四行数据,通过纵向窗按列计算一维插值中间结果并暂存在移位寄存器中,四列计算完成后,通过横向窗按行计算一维插值中间结果的一维插值,得到插值点像素值并输出。本发明提高了处理效率,降低了资源消耗。
-
公开(公告)号:CN117608521A
公开(公告)日:2024-02-27
申请号:CN202311574205.6
申请日:2023-11-23
Applicant: 西安交通大学
Abstract: 本发明提供基于改进Schoolbook算法的Toom‑Cook多项式乘法器及加解密方法,基于新的Winograd‑Schoolbook算法,设计了Toom‑Cook多项式乘法器,与常规Schoolbook算法相比,当多项式长度为256时Winograd‑Schoolbook算法可以减少29.1%的乘法运算量,即本发明能大幅度降低运算量。采用F(2,3)的Winograd参数使得Winograd‑schoolbook更适合于小型PE阵列,大大提高了PE的利用率。
-
公开(公告)号:CN116976406A
公开(公告)日:2023-10-31
申请号:CN202310962009.X
申请日:2023-08-01
Applicant: 西安交通大学
IPC: G06N3/0464 , G06N3/0495 , G06N3/082 , G06N3/063 , G06F9/50
Abstract: 本发明提供一种面向稠密及稀疏卷积神经网络的稀疏度自适应卷积加速方法及加速器。本发明对卷积层的卷积类型及以及稀疏度变化进行了针对性优化。针对不同尺寸的卷积核,将其尺寸统一为预设尺寸;对输入特征图进行相应处理,将其划分为预设尺寸的输入块,从而在实现简单规整的硬件结构的同时提升硬件资源利用率。针对不同稀疏度的卷积层,根据卷积核的稀疏度动态调整转换方法,通过Winograd加速算法以及抓取非零权重等方法降低冗余运算,使得所需的乘法运算量大幅度降低。
-
公开(公告)号:CN115640833A
公开(公告)日:2023-01-24
申请号:CN202211274717.6
申请日:2022-10-18
Applicant: 西安交通大学
IPC: G06N3/0464 , G06N3/063
Abstract: 本发明面向稀疏卷积神经网络的加速方法,包括:S1,根据稀疏卷积神经网络中稀疏卷积核的非零权重的重要性,将稀疏卷积核中的非零权重进行聚集和重排,得到重排卷积核;S2,根据重排卷积核中非零权重的索引对输入块进行扩张,得到扩张输入块;S3,对扩张输入块中的特征图子块进行累加,得到累加块,将累加块与重排卷积核进行卷积运算并取平均值,得到卷积结果;或者,根据扩张输入块中特征图子块的重要性对特征图子块进行筛选,得到候选块,将候选块与重排卷积核进行卷积运算,得到卷积结果。本发明在改善网络结构的同时能大幅度降低稀疏卷积神经网络模型中的冗余运算量。
-
公开(公告)号:CN117608520A
公开(公告)日:2024-02-27
申请号:CN202311574160.2
申请日:2023-11-23
Applicant: 西安交通大学
Abstract: 本发明提供一种基于改进Schoolbook算法的Saber硬件加速器及加解密方法,本发明基于Winograd的高并行度且可伸缩的Schoolbook算法构建了一种高吞吐率、可伸缩的Saber硬件加速器,设计了一个高度并行的流水线结构,并在硬件实现中通过并行核模块展开了Schoolbook的内循环,从而避免了多项式的重复读取。此外,得益于高度并行的流水线结构,每个循环只产生一个输出,避免了中间计算结果的读写,减少了对片上存储器的需求。
-
公开(公告)号:CN116561819A
公开(公告)日:2023-08-08
申请号:CN202310536435.7
申请日:2023-05-12
Applicant: 西安交通大学
Abstract: 本发明提供一种基于Toom‑Cook环上多项式乘法的加解密方法及环上多项式乘法器,本发明加解密方法基于改进的Toom‑Cook环上多项式乘法,将原算法中的多项式重组和多项式模运算两个步骤集成到插值过程中,这使得Toom‑Cook算法在插值后直接获得环上多项式乘法的最终乘法结果,而不需要其他步骤,简化了算法流程;同时改变插值矩阵,将多项式重组和多项式模映射到插值矩阵中,消除了大量冗余的算术运算,使后处理的算术运算次数比原Toom‑Cook算法减少了至少33.33%,从而有效降低了后处理局部算法的时间复杂度和空间复杂度,提高加密解密速度,节省大量时间,能减小硬件实现中处理单元阵列的尺寸。
-
公开(公告)号:CN119356638A
公开(公告)日:2025-01-24
申请号:CN202411503839.7
申请日:2024-10-25
Applicant: 西安交通大学
Abstract: 本发明提供一种实现原位存储、恒定几何结构、无访存冲突的NTT多项式乘法器,将传统的恒定几何结构型NTT的错位存储方式转换为原位存储方式,采用奇数Bank存储结构来实现无访存冲突和原位存储。从而实现了与多项式长度N和NTT/INTT计算阶段无关的无冲突存储映射,统一存储结构和数据加载模式。这种结构为动态支持不同长度的多项式乘法提供了条件。此外,随着RAEPM支持的最大多项式长度N的增加,所提缓冲区的结构不需要修改,只需要增加Bank的深度,因此,可以在不重新编译的情况下执行不同次数的多项式乘法。
-
公开(公告)号:CN119047513A
公开(公告)日:2024-11-29
申请号:CN202411138208.X
申请日:2024-08-19
Applicant: 西安交通大学
IPC: G06N3/0455 , G06F18/22 , G06F16/9035
Abstract: 本发明提供一种基于局部敏感哈希的Transformer硬件加速器及加速方法。本发明基于局部敏感哈希的Transformer加速方法,采用基于MinHash算法的局部敏感哈希筛选方案,MinHash算法能实现向量降维,从而在获取比较好的Q‑K向量对筛选效果的情况下,降低局部敏感哈希筛选的运算量,提高加速效率,更利用硬件实现。本发明基于局部敏感哈希的Transformer硬件加速器,针对Transformer网络自注意力机制运算特点所带来的硬件实现瓶颈问题,采用基于MinHash文本相似度算法的LSH筛选方案,不但能获取比较好的Q‑K向量对筛选效果,且效率高,硬件结构易于实现。
-
-
-
-
-
-
-
-