-
公开(公告)号:CN117037039A
公开(公告)日:2023-11-10
申请号:CN202311045216.5
申请日:2023-08-18
Applicant: 杭州电子科技大学信息工程学院 , 杭州电子科技大学
IPC: G06V20/40 , G06V40/20 , G06V10/774 , G06V10/82 , G06V10/764 , G06V10/766 , G06N3/0464
Abstract: 本发明公开了一种基于Transformer的视频多注意力机制的时序动作检测方法,包括如下步骤:S1、获取待检测的视频图像,将视频帧经过预训练的视频模型提取初始视频特征;S2、将所述视频特征输入到一个浅层卷积网络进行投影得到视频片段特征嵌入;S3、将所有特征嵌入输入到局部自注意力的Transformer模块输出其局部样式特征;S4、将所述的局部样式特征输入到全局自注意力的Transformer模块对长期依赖进行建模;S5、最终每个Transformer层的输出构建为特征金字塔结构;S6、将特征金字塔的每一层输入到检测头中,检测头中包括回归头和分类头,分别输出最终动作的时序边界和类别。该方法能够提升动作检测的准确率,同时效率比传统的Transformer模型更高。
-
公开(公告)号:CN118968634A
公开(公告)日:2024-11-15
申请号:CN202411456009.3
申请日:2024-10-18
Applicant: 杭州电子科技大学
IPC: G06V40/20 , G06V20/40 , G06V10/25 , G06V10/42 , G06V10/44 , G06V10/764 , G06V10/766 , G06V10/70 , G06V10/82 , G06N3/0455 , G06N3/0464
Abstract: 本发明公开了一种基于卷积和多头自注意力的时序动作定位方法,属于深度学习视频理解领域。本发明的方法先将待识别视频中的每个视频帧各自提取为视频表示序列,并将其作为多时间跨度上下文模型的输入,然后将编码器每层主干网络输出的特征序列堆叠构成特征金字塔,最后由预测模块输出最终的动作分类结果以及相应的动作起始时间点和动作终止时间点,实现时间点的精确定位,从而减少单一回归头带来的误差。主干网络中融合带有非线性分支的瞬时平均卷积模块以及瞬时平均空洞卷积模块,并将其与多头自注意力模块相结合,以增强学习局部特征的能力和相邻帧特征的区分度。此外,瞬时平均空洞卷积模块中整合了空洞卷积以增强对深层特征的学习能力。
-
公开(公告)号:CN118968634B
公开(公告)日:2025-01-07
申请号:CN202411456009.3
申请日:2024-10-18
Applicant: 杭州电子科技大学
IPC: G06V40/20 , G06V20/40 , G06V10/25 , G06V10/42 , G06V10/44 , G06V10/764 , G06V10/766 , G06V10/70 , G06V10/82 , G06N3/0455 , G06N3/0464
Abstract: 本发明公开了一种基于卷积和多头自注意力的时序动作定位方法,属于深度学习视频理解领域。本发明的方法先将待识别视频中的每个视频帧各自提取为视频表示序列,并将其作为多时间跨度上下文模型的输入,然后将编码器每层主干网络输出的特征序列堆叠构成特征金字塔,最后由预测模块输出最终的动作分类结果以及相应的动作起始时间点和动作终止时间点,实现时间点的精确定位,从而减少单一回归头带来的误差。主干网络中融合带有非线性分支的瞬时平均卷积模块以及瞬时平均空洞卷积模块,并将其与多头自注意力模块相结合,以增强学习局部特征的能力和相邻帧特征的区分度。此外,瞬时平均空洞卷积模块中整合了空洞卷积以增强对深层特征的学习能力。
-
公开(公告)号:CN117891096A
公开(公告)日:2024-04-16
申请号:CN202410249503.6
申请日:2024-03-05
Applicant: 杭州电子科技大学信息工程学院
IPC: G02F1/1333 , G02F1/1339
Abstract: 本发明公开了一种透明显示单元、显示面板和显示装置,涉及显示技术领域,第一基板;第二基板,所述第二基板与第一基板之间平行布置;密封构件,所述密封构件连接第一基板和第二基板,使第一基板和第二基板之间形成密封腔;液晶层,所述液晶层填充于所述密封腔;其中,所述第一基板远离液晶层一侧的边缘区域倒角处理,通过对第一基板边缘的倒角处理,有效分散和降低了应力集中程度,提高了显示单元的抗破碎性,增强了产品的耐用性和安全性,提升了其抗破碎性。
-
-
-