基于双通道交叉注意力机制的打架识别方法和装置

    公开(公告)号:CN113936339B

    公开(公告)日:2022-04-22

    申请号:CN202111537924.1

    申请日:2021-12-16

    Abstract: 本发明公开了基于双通道交叉注意力机制的打架识别方法和装置,该方法首先采集生成视频数据集,设置快慢两种帧率获取不同帧图像序列,进行预处理后分别送入快慢通道,在快慢通道采用基于分开时空自注意力机制的Transformer编码器提取图像序列时空编码特征;然后,经过交叉注意力模块融合一个通道CLS token与另一通道patch token信息,实现双通道时空编码特征融合;最后,将融合后的时空编码特征经过多层感知机头进行打架行为识别。本发明通过双通道Transformer模型与交叉注意力模块能有效提取视频时空特征,提高打架行为识别的准确率,适用于室内外监控系统。

    基于双通道交叉注意力机制的打架识别方法和装置

    公开(公告)号:CN113936339A

    公开(公告)日:2022-01-14

    申请号:CN202111537924.1

    申请日:2021-12-16

    Abstract: 本发明公开了基于双通道交叉注意力机制的打架识别方法和装置,该方法首先采集生成视频数据集,设置快慢两种帧率获取不同帧图像序列,进行预处理后分别送入快慢通道,在快慢通道采用基于分开时空自注意力机制的Transformer编码器提取图像序列时空编码特征;然后,经过交叉注意力模块融合一个通道CLS token与另一通道patch token信息,实现双通道时空编码特征融合;最后,将融合后的时空编码特征经过多层感知机头进行打架行为识别。本发明通过双通道Transformer模型与交叉注意力模块能有效提取视频时空特征,提高打架行为识别的准确率,适用于室内外监控系统。

    一种基于注意力机制的手绘草图识别方法

    公开(公告)号:CN112580614A

    公开(公告)日:2021-03-30

    申请号:CN202110210499.9

    申请日:2021-02-25

    Abstract: 本发明公开了一种基于注意力机制的手绘草图识别方法,该方法包括将原始手绘草图输入到一个深度卷积神经网络中,得到最后一个卷积层输出的特征图;将特征图输入到一个通道注意力模块中,得到基于通道注意力优化后的特征图;训练一个用于预测手绘草图垂直翻转的分类网络,将原始手绘草图输入到训练好的分类网络中,得到垂直翻转空间注意力图;联合基于通道注意力优化后的特征图和垂直翻转空间注意力图,计算得到垂直翻转空间注意力优化后的特征图;最后经过全连接层输出识别的结果。本发明的优点:采用通道注意力和垂直翻转空间注意力对卷积神经网络的特征进行优化,能够使网络关注于学习更有判别力的部分,从而有效提高手绘草图的识别精度。

    一种基于注意力网络的日/夜间图像分类及物体检测方法

    公开(公告)号:CN112434723A

    公开(公告)日:2021-03-02

    申请号:CN202011163778.6

    申请日:2020-10-27

    Abstract: 本发明公开了一种基于注意力网络的日/夜间图像分类及物体检测方法,该方法首先采集街道摄像头监控视频处理成图像进行标注,结合开源的街道数据集共同构建图像数据集;通过基于特征金字塔的深度卷积神经网络提取图像的表观特征;在所提取特征上预测图像的日/夜属性,并捕获表征日/夜间物体的注意图;基于注意力图对提取的特征图进行加权;最后根据预测的日/夜属性将加权后的特征图输入对应日/夜间的检测头做位置回归与物体分类。本发明旨在通过注意力机制使网络关注到日/夜间的不同特征,并通过两个分支分别完成日/夜间物体的检测,能够提升日/夜间物体检测的性能,可用于街道智能监控系统。

    基于多模态图像生成的工件表面形貌生成方法和装置

    公开(公告)号:CN116977652A

    公开(公告)日:2023-10-31

    申请号:CN202311227139.5

    申请日:2023-09-22

    Abstract: 本发明公开了一种基于多模态图像生成的工件表面形貌生成方法和装置,属于机加工数据处理技术领域,包括:基于不同加工方式的历史数据的多模态信息,构建引导向量;基于扩散模型,对表面形貌灰度图的低维表征加噪得到噪声向量,将引导向量、时间步长和噪声向量输入逆向扩散过程,层层降噪还原出低维表征,实现对模型的训练;提取目标多模态信息构建目标引导向量,将随机噪声隐变量和目标引导向量输入到训练好的扩散模型得到目标低维表征,通过解码器得到目标表面形貌灰度图;采用图像质量综合评价模块进行质量评价。本发明采用扩散模型,实现了多模态信息到表面形貌图像的准确映射,具有快速生成、高保真性的特点,对实时表面形貌预测有极大潜力。

    一种基于模糊语义建模的深度场景文本检测方法和装置

    公开(公告)号:CN114972947B

    公开(公告)日:2022-12-06

    申请号:CN202210882622.6

    申请日:2022-07-26

    Abstract: 本发明公开了一种基于模糊语义建模的深度场景文本检测方法和装置,该方法包括:步骤一,获取现有的用于训练场景文本检测的多组具有真值标注的图像数据集;步骤二,对数据集中的图像进行特征学习与全局特征融合,得到融合的全局特征图;步骤三,对融合的全局特征图进行像素级别语义分类,同时通过数值回归预测像素级别的语义可靠性,在全监督下进行多分支的联合优化,完成端到端联合学习框架的构建;步骤四,使用端到端联合学习框架,预测图像中的模糊语义信息,并利用可靠性分析及融合获得文本属性图;步骤五,对文本属性图进行二值化和联通域提取,得到最终的文本检测结果。本发明实现方法简便,灵活鲁棒,适用范围广。

Patent Agency Ranking