-
公开(公告)号:CN106778852A
公开(公告)日:2017-05-31
申请号:CN201611115016.2
申请日:2016-12-07
Applicant: 中国科学院信息工程研究所
IPC: G06K9/62
CPC classification number: G06K9/6267 , G06K9/6256
Abstract: 本发明公开一种修正误判的图像内容识别方法。该方法包括:1)对训练样本的数据集进行扩展,保证能够提取出足够识别物体的特征;2)利用扩展后的数据集,采用Faster R‑CNN框架进行数据训练,在训练过程中引入易误判负类,将其与正样本一同进行训练,最终得到Faster R‑CNN网络;3)利用训练得到的Faster R‑CNN网络,识别待检测图像中的特定物体。其中步骤1)通过对样本进行拉伸、加噪扩展数据集,也可采用其它方式;步骤2)通过深入分析数据自身特点和测试过程中的误判图像规律,将易与正样本混淆的图像细分为多类,形成所述易误判负类。本发明能显著减少模型误判,提高图像内容识别的精度。
-
公开(公告)号:CN105812832A
公开(公告)日:2016-07-27
申请号:CN201610203951.8
申请日:2016-04-01
Applicant: 中国科学院信息工程研究所
IPC: H04N21/231 , H04N21/234 , H04N21/472 , H04N21/4722 , H04N21/475 , H04N21/647
CPC classification number: H04N21/231 , H04N21/23418 , H04N21/47205 , H04N21/4722 , H04N21/475 , H04N21/647
Abstract: 本发明涉及一种基于安卓多媒体框架的视频类App中视频数据获取方法。该方法根据视频解码播放流程跟踪Android源码中多媒体数据的流向,定位Acodec框架中视频分离后通过OMXCodec接口进入解码器的位置,从该位置获取H264视频数据;然后跟踪H264数据经过解码器解码后的视频数据,定位其送至图形显示框架ANativeWindow的位置从而获取视频的YUV数据,并根据需求选择是否压缩YUV数据为Jpeg数据。本发明基于Android源码或者CyanogenMod源码,能够处理基于Android多媒体框架的所有App以获取视频数据,视频数据的获取可以达到零延时。
-
公开(公告)号:CN118691460A
公开(公告)日:2024-09-24
申请号:CN202410774655.8
申请日:2024-06-17
Applicant: 复旦大学 , 中国科学院信息工程研究所
IPC: G06T3/04 , G06V30/19 , G06N3/045 , G06N3/0475 , G06N3/094 , G06N3/0985 , G06V10/82
Abstract: 本发明属于图像生成技术领域,具体为一种基于扩散模型的书法字型图像生成方法;该方法将书法生成图像作为无条件分类器扩散过程,使用CGGAN网络提取多张目标风格图像的风格特征,采用风格特征融合模块SFF进行特征融合得到更具代表性的特征,作为条件来引导字型生成模型Fontdiffuser生成目标风格以及内容的书法字型。在训练过程中CGGAN和扩散模型一同训练,采用无分类引导方式。实验证实了本发明在书法家真迹图像上超越了现有公开技术方法,并且生成图像具有更好的美观性。
-
公开(公告)号:CN118918336A
公开(公告)日:2024-11-08
申请号:CN202310507784.6
申请日:2023-05-08
Applicant: 中国科学院信息工程研究所
IPC: G06V10/40 , G06V10/774 , G06V10/74 , G06V10/82 , G06N3/0455 , G06N3/047 , G06N3/0464 , G06N3/0895
Abstract: 本发明公开了一种基于视觉语言模型的图像变化描述方法,包括以下步骤:1)网络输入为变化前图像、变化后图像以及描述该变化的一段文本,将该文本转化为特征向量作为视觉语言模型的第一个输入;2)变化前图像和变化后图像经过特征提取初步提取特征,并将两幅图像对应的特征输入视点编码模块;3)经过视点编码模块的图像特征随后输入变化编码模块,得到不同点增强后的图像特征;4)两幅图像不同点增强后的图像特征作为视觉语言模型的第二、三个输入,训练视觉语言模型;5)对于一对待处理图像A、B,依次经所述视点编码模块、变化编码模块处理得到图像A、B不同点增强后的图像特征并输入视觉语言模型,预测输出图像A、B的变化描述信息。
-
公开(公告)号:CN115588111A
公开(公告)日:2023-01-10
申请号:CN202211065663.2
申请日:2022-09-01
Applicant: 中国科学院信息工程研究所
IPC: G06V10/764 , G06V10/82 , G06V10/77 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于注意力数据增强的网络数据监督细粒度图像识别方法,其步骤包括:1)采用图像的细粒度类别作为关键词在网络上检索图像,根据图像对应细粒度类别生成样本图像,利用各样本图像对细粒度图像识别模型进行热身训练;2)选取一组所述样本图像分别输入热身训练后的细粒度图像识别模型,得到每一样本图像对应的类别激活图;3)根据样本图像的类别激活图生成对应样本图像的注意力图;4)随机选取两张样本图像,根据其注意力图对图像及标签进行混合,得到增强后的样本图像;5)使用数据增强后的样本图像训练细粒度图像识别模型;6)利用训练后的细粒度图像识别模型对待识别图像进行识别,得到该待识别图像中的细粒度类别。
-
公开(公告)号:CN105812832B
公开(公告)日:2019-04-30
申请号:CN201610203951.8
申请日:2016-04-01
Applicant: 中国科学院信息工程研究所
IPC: H04N21/231 , H04N21/234 , H04N21/472 , H04N21/4722 , H04N21/475 , H04N21/647
Abstract: 本发明涉及一种基于安卓多媒体框架的视频类App中视频数据获取方法。该方法根据视频解码播放流程跟踪Android源码中多媒体数据的流向,定位Acodec框架中视频分离后通过OMXCodec接口进入解码器的位置,从该位置获取H264视频数据;然后跟踪H264数据经过解码器解码后的视频数据,定位其送至图形显示框架ANativeWindow的位置从而获取视频的YUV数据,并根据需求选择是否压缩YUV数据为Jpeg数据。本发明基于Android源码或者CyanogenMod源码,能够处理基于Android多媒体框架的所有App以获取视频数据,视频数据的获取可以达到零延时。
-
-
-
-
-