-
公开(公告)号:CN119904715A
公开(公告)日:2025-04-29
申请号:CN202510125811.2
申请日:2025-01-27
Applicant: 中国科学院自动化研究所
IPC: G06V10/774 , G06V10/82 , G06V10/74 , G06N3/0464
Abstract: 本公开涉及一种基于跨模型泛化和扩散模型的数据集蒸馏方法和装置,所述方法包括:获取与目标数据集的应用场景对应的多种图像处理模型,得到模型池;从模型池中选择得到替代图像处理模型;将当前样本的特征和针对当前样本的提示词输入到扩散模型,得到替代样本;将替代样本输入到替代图像处理模型,得到替代图像处理模型的当前输出;其中,目标图像处理模型与替代图像处理模型同构;基于替代图像处理模型的当前输出和目标图像处理模型的当前输出,计算目标图像处理模型与替代图像处理模型之间的梯度匹配损失;基于梯度匹配损失对扩散模型进行训练;响应于训练完成,得到对目标数据集蒸馏后的替代数据集。
-
公开(公告)号:CN119342233A
公开(公告)日:2025-01-21
申请号:CN202411299969.3
申请日:2024-09-18
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种基于时空令牌合并的视频处理方法、装置、电子设备及存储介质,属于视频处理技术领域,包括:获取第一组令牌和第二组令牌,其中,第一组令牌和第二组令牌为一组视频帧中相邻的两个视频帧对应的两组令牌;将第一组令牌和第二组令牌输入第一变换器块,得到第一变换器块输出的部分第一组令牌、部分第二组令牌和一组时序合并令牌;将部分第一组令牌、部分第二组令牌和一组时序合并令牌进行拼接,得到第三组令牌;将第三组令牌输入第二变换器块,得到第二变换器块输出的第四组令牌。本发明提供的基于时空令牌合并的视频处理方法,解决了相关技术中的基于时空令牌合并的视频处理方法,存在视频信息容易丢失且处理性能有限的技术问题。
-
公开(公告)号:CN119314081A
公开(公告)日:2025-01-14
申请号:CN202411355315.8
申请日:2024-09-26
Applicant: 中国科学院自动化研究所
IPC: G06V20/40 , G06V10/44 , G06V10/764 , G06V10/80 , G06V10/82 , G06N3/045 , G06N3/0464 , G06N3/049
Abstract: 本公开提供了一种视频分类方法、装置、电子设备、存储介质和程序产品,视频分类方法包括:获取目标视频帧序列;对目标视频帧序列进行树状取样,得到两层结构的视频帧序列和关键帧;基于卷积神经网络模型对视频帧序列进行特征提取处理,得到时序特征;基于脉冲神经网络模型对关键帧进行特征提取处理,得到脉冲特征;对时序特征和脉冲特征进行融合处理,得到视频融合特征;根据视频融合特征进行分类处理,得到目标视频帧序列的类别信息。该方法能够提升视频的特征表达力,从而提升了视频分类的准确性,能够更好地完成视频分类任务。
-
公开(公告)号:CN119206580A
公开(公告)日:2024-12-27
申请号:CN202411294779.2
申请日:2024-09-14
Applicant: 中国科学院自动化研究所
IPC: G06V20/40 , G06V10/44 , G06V10/42 , G06N3/042 , G06V10/82 , G06V10/74 , G06N3/08 , G06V10/25 , G06N3/045
Abstract: 本发明提供一种基于时空域实例增强的视频复制片段定位方法及装置,其中方法包括:提取查询视频和参考视频中目标帧的区域特征和全局特征,并基于所述区域特征和所述全局特征构造实例关系图;基于所述实例关系图,分别通过空间分支和时间分支获取局部对齐信息和全局对齐信息;通过互补性感知对齐模块,基于所述局部对齐信息和所述全局对齐信息生成最终的帧间对齐结果;所述帧间对齐结果用于所述查询视频和所述参考视频的复制片段定位。其综合考虑了全局语义信息和细粒度的更加鲁棒的局部表示,提升查询视频和参考视频中视频帧的匹配精度,还可以提升查询视频和参考视频中复制片段匹配结果的准确性。
-
公开(公告)号:CN118072079B
公开(公告)日:2024-12-06
申请号:CN202410123207.1
申请日:2024-01-29
Applicant: 中国科学院自动化研究所 , 人民中科(北京)智能技术有限公司
IPC: G06V10/764 , G06V10/82 , G06V10/44 , G06V10/80 , G06N3/049 , G06N3/0464 , G06N3/048 , G06N3/084
Abstract: 本发明提供一种基于脉冲神经网络的小目标物体识别方法及装置,该方法包括:获取待测物体图像;基于双流融合模型对待测物体图像进行分类识别,得到分类识别结果;双流融合模型基于脉冲神经网络和残差网络构建得到,双流融合模型通过以样本物体图像为训练样本,以融合特征为训练特征训练得到;融合特征基于脉冲神经网络输出特征和残差网络输出特征确定,脉冲神经网络和残差网络分别包括多个依次排列的残差块,脉冲神经网络的当前残差块输入的特征为脉冲神经网络的上一个残差块输出的特征和残差网络中与上一个残差块对应的残差块输出的特征之和。本发明所述方法能够提取更丰富的图像特征信息,可提升小目标物体的识别精度。
-
公开(公告)号:CN115019087B
公开(公告)日:2024-11-19
申请号:CN202210557333.9
申请日:2022-05-20
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院自动化研究所
IPC: G06V10/764 , G06V10/774 , G06V10/80 , G06V10/77
Abstract: 本发明提供一种小样本视频分类和分类模型训练方法及其装置,涉及计算机视觉技术领域,所述分类方法包括:将小样本分类任务输入预先构建的收敛的压缩域长短时Cross‑Transformer模型,获取压缩域信息;基于压缩域信息,获取短时融合的帧特征;基于短时融合的帧特征,获取查询特征,并输出基于查询特征获取的小样本分类任务中查询视频对各个查询类别原型所属支撑类别的分类分数,其中,分类分数最大的支撑类别用于表示查询视频的分类结果。本发明可实现少量示例视频下的快速、高精度、高效率的小样本视频分类。
-
公开(公告)号:CN118747730A
公开(公告)日:2024-10-08
申请号:CN202410641051.6
申请日:2024-05-22
Applicant: 中国科学院自动化研究所
IPC: G06T7/00 , G06V10/80 , G06V10/774 , G06V10/764 , G06N3/0455 , G06N3/08
Abstract: 本发明提供一种图像质量评估方法、装置、电子设备及存储介质,该方法包括:获取待评估图像和待评估图像的用户评估需求提示信息;将待评估图像和用户评估需求提示信息输入至图像质量评估模型,得到图像质量评估模型输出的待评估图像的图像质量评分;图像质量评估模型是根据图像样本及对应的用户评估需求提示信息样本训练得到的;用户评估需求提示信息样本包括图像样本对应的图像质量评估分数标签。本发明可以有针对性地对待评估图像进行图像质量评估和评分,提升图像质量评估的场景适应性,同时,可以在不用模型微调的情况下,通过极少量的提示信息对未知的评估需求达到很好的迁移能力,大大降低了图像质量评估模型在全新评估需求的迁移成本。
-
公开(公告)号:CN111507905B
公开(公告)日:2024-06-28
申请号:CN201910100742.4
申请日:2019-01-31
Applicant: 华为技术有限公司 , 中国科学院自动化研究所
IPC: G06T5/90 , G06V10/762 , H04N9/73
Abstract: 本申请实施例公开了一种白平衡处理方法、白平衡处理装置以及存储介质,该白平衡处理方法包括:获取至少一个目标特征向量,所述至少一个目标特征向量包括原始图像的特征向量和/或所述原始图像转换后的图像的特征向量;根据训练图像样本集获取所述至少一个目标特征向量对应的至少一个目标光照色度值,所述训练图像样本集包括图像的特征向量和光照色度值的对应关系;根据所述至少一个目标光照色度值对所述原始图像进行白平衡处理。通过已训练的训练图像样本集来获取原始图像对应的目标光照色度值,提升了计算原始图像的光照色度值的效率,而且通过目标特征向量对原始图像的光照进行计算,提升了计算原始图像的光照色度值的准确性。
-
公开(公告)号:CN118014049A
公开(公告)日:2024-05-10
申请号:CN202410177798.0
申请日:2024-02-08
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院自动化研究所
IPC: G06N3/09 , G06N3/0455 , G06F18/22 , G06F18/2431 , G06F40/30 , G06V20/70 , G06V10/40 , G06V10/82
Abstract: 本发明提供一种图文互生模型的训练方法,该方法包括:基于模态自感单元从样本模态数据中提取自感信息;模态自感单元基于自注意力网络通过多任务有监督训练得到;基于图文编码器对自感信息进行编码,得到隐空间特征,并对隐空间特征进行多模态扩散处理,得到扩散后的目标模态类型的隐空间特征;基于图文解码器对自感信息和扩散后的目标模态类型的隐空间特征进行解码,得到解码信息;根据解码信息和多任务损失函数对图文编码器和图文解码器进行训练,得到图文互生模型;目标损失包括重建损失、图像类的理解辅助任务对应损失和文本类的理解辅助任务对应损失确定。本发明所述方法提高了图文互生对应模型的性能和可适配性。
-
公开(公告)号:CN111626373B
公开(公告)日:2023-07-25
申请号:CN202010484081.2
申请日:2020-06-01
Applicant: 中国科学院自动化研究所
IPC: G06V10/774 , G06V10/40 , G06V10/82 , G06N3/0464
Abstract: 本发明属于机器学习领域,具体涉及一种多尺度加宽残差网络、小目标识别检测网络及其优化方法,本发明多尺度加宽残差网络包括串行连接的多尺度加宽卷积层、多尺度加宽残差网络单元结构;所述多尺度加宽卷积层,包括并行设置的多个不同尺度的卷积核,其输出为所述多个不同尺度的卷积核提取特征的合并;所述多尺度加宽残差网络单元结构,包括多个串联设置的所述多尺度加宽卷积层,设定两个所述多尺度加宽卷积层之间跃层连接,以直接将两层输出特征取大融合。基于本发明得到的特征进行小目标识别检测,可以提高小目标物体识别的准确度。
-
-
-
-
-
-
-
-
-