-
公开(公告)号:CN118535765A
公开(公告)日:2024-08-23
申请号:CN202411003383.8
申请日:2024-07-25
Applicant: 中国科学院自动化研究所
IPC: G06F16/783 , G06N3/0455 , G06N3/0464 , G06V20/62 , G06N3/0895 , G06F18/22
Abstract: 本发明涉及跨模态技术领域,提供一种跨模态模型的训练方法、装置、设备和存储介质,包括视频编码器提取第一视频特征,文本编码器提取第一文本特征以及文本掩码特征、同一词汇空间下的第二视频特征与第二文本特征、同一词汇空间下的第三视频特征与第三文本特征;基于第二视频特征与第二文本特征获取第一全局损失函数,基于第二视频特征与文本掩码特征获取第二全局损失函数;基于第一视频特征、第一文本特征以及感知器获取第一局部损失函数;基于第一视频特征、文本掩码特征以及感知器获取第二局部损失函数;基于第一全局损失函数、第二全局损失函数、第一局部损失函数、第二局部损失函数、掩码损失函数进行训练。实现缓解模态鸿沟的问题。
-
公开(公告)号:CN118520153A
公开(公告)日:2024-08-20
申请号:CN202410972733.5
申请日:2024-07-19
Applicant: 中国科学院自动化研究所
IPC: G06F16/903 , G06N3/0455 , G06N3/08
Abstract: 本发明提供一种NFT跨模态检索方法、装置及存储介质,涉及电数字数据处理技术领域,所述方法包括:获取用于检索的语义信息;将所述语义信息输入至NFT跨模态检索模型中,基于置信累加两阶段搜索算法获取与语义信息最为匹配的NFT检索结果,所述NFT跨模态检索模型是基于动态组件差分训练得到的。本发明提供的NFT跨模态检索方法、装置及存储介质,可以根据动态组件差分训练得到NFT跨模态检索模型,然后根据NFT跨模态检索模型通过置信累加两阶段搜索算法,从而能够根据用户输入的语义信息输出与之最为匹配的检索结果,可以提高NFT图像的检索精度。
-
公开(公告)号:CN118333135A
公开(公告)日:2024-07-12
申请号:CN202410388726.0
申请日:2024-04-01
Applicant: 中国科学院自动化研究所
IPC: G06N3/094 , G06N3/0475 , G06N3/045 , G06N3/0464 , G06F18/24
Abstract: 本发明提供一种基于类别条件的人体动作生成模型的训练及动作生成方法,其中方法包括:获取噪声样本向量序列和动作类别标签,并对动作类别标签进行编码得到类别特征向量;将噪声样本向量序列和类别特征向量进行融合,得到融合向量;将融合向量输入至噪声预处理映射网络中,得到隐藏向量序列;将隐藏向量序列输入至生成对抗模型中的生成器中得到预测人体骨架序列;基于预测人体骨架序列,以及与预测人体骨架序列动作类别相同的真实人体骨架序列对生成对抗模型进行训练,将训练完成后的生成对抗模型作为人体动作生成模型。人体动作生成模型可以实现生成数据类别准确性与生成数据质量的平衡,实现类别条件控制的人体骨架序列数据的高质量生成。
-
公开(公告)号:CN118296446A
公开(公告)日:2024-07-05
申请号:CN202410728250.0
申请日:2024-06-06
Applicant: 中国科学院自动化研究所
IPC: G06F18/24 , G06F18/22 , G06V10/762
Abstract: 本发明提供一种音视频内容风险识别方法、装置、电子设备和存储介质,属于多媒体内容安全识别领域,该方法包括:构建多模态特征推理模型;构建风险样例知识库,所述风险样例知识库中包含至少一个风险样例分别对应的多模态特征向量,所述至少一个风险样例分别属于至少一种风险类别;将待识别音视频输入所述多模态特征推理模型,获得所述待识别音视频的多模态特征向量;将所述待识别音视频的多模态特征向量与所述风险样例知识库中的多模态特征向量进行相似度计算,并基于相似度输出所述待识别音视频的风险类别,可以提高风险内容识别的精准率和召回率。
-
公开(公告)号:CN118072079A
公开(公告)日:2024-05-24
申请号:CN202410123207.1
申请日:2024-01-29
Applicant: 中国科学院自动化研究所 , 人民中科(北京)智能技术有限公司
IPC: G06V10/764 , G06V10/82 , G06V10/44 , G06V10/80 , G06N3/049 , G06N3/0464 , G06N3/048 , G06N3/084
Abstract: 本发明提供一种基于脉冲神经网络的小目标物体识别方法及装置,该方法包括:获取待测物体图像;基于双流融合模型对待测物体图像进行分类识别,得到分类识别结果;双流融合模型基于脉冲神经网络和残差网络构建得到,双流融合模型通过以样本物体图像为训练样本,以融合特征为训练特征训练得到;融合特征基于脉冲神经网络输出特征和残差网络输出特征确定,脉冲神经网络和残差网络分别包括多个依次排列的残差块,脉冲神经网络的当前残差块输入的特征为脉冲神经网络的上一个残差块输出的特征和残差网络中与上一个残差块对应的残差块输出的特征之和。本发明所述方法能够提取更丰富的图像特征信息,可提升小目标物体的识别精度。
-
公开(公告)号:CN111598167B
公开(公告)日:2023-04-07
申请号:CN202010418929.1
申请日:2020-05-18
Applicant: 中国科学院自动化研究所
IPC: G06F18/21 , G06N3/08 , G06N3/0464
Abstract: 本发明涉及一种基于图学习的小样本图像识别方法及系统,所述图像识别方法包括:获取源域样本图像数据集;以各样本图像作为节点,建立无向带权图;基于特征生成模型提取各样本图像的基础特征向量;对各节点之间执行信息的传递和聚合,得到优化特征向量;基于优化特征向量,建立图像识别模型;根据所述优化特征向量,建立对比损失函数;采用随机梯度下降方法优化图像识别模型的参数直到对比损失函数收敛,以确定面向小样本图像的识别模型;根据面向小样本图像的识别模型,确定待测样本图像的所属类别。通过学习出来的识别模型在小样本场景下可以放大异类样本的类间差异,缩小同类样本的类内差异,极大提升了小样本识别的准确率。
-
公开(公告)号:CN109582953B
公开(公告)日:2023-04-07
申请号:CN201811302326.4
申请日:2018-11-02
Applicant: 中国科学院自动化研究所
IPC: G06F40/30 , G06F40/289 , G06F16/9535
Abstract: 本发明公开了一种资讯的言据支撑评分方法、设备和存储介质。该方法包括:对资讯库中的所有资讯分别进行深度语义向量编码;根据每个所述资讯的深度语义向量,计算所有资讯两两之间的相似度,得到语义相似度矩阵;根据所述语义相似度矩阵,构建语义网络;根据预设的随机游走模型,对所述语义网络中每个节点对应的资讯进行言据支撑评分。本发明的立足点在于评价资讯中观点的可靠性,对资讯进行深度语言向量编码,通过计算资讯两两之间的相似度,构建语义网络,进而可以计算出每个资讯的言据支撑评分,本发明准确性高,并且可以有效降低人力成本。
-
公开(公告)号:CN115311595A
公开(公告)日:2022-11-08
申请号:CN202210771422.3
申请日:2022-06-30
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种视频特征提取方法、装置及电子设备,涉及视频处理技术领域,可以应用于视频特征提取的场景。该视频特征提取方法包括:获取视频图像和视频图像对应的音频数据;将音频数据转换为声谱图,得到声谱图像;将视频图像和声谱图像输入至视频特征提取模型,得到视频特征提取模型输出的视频特征;其中,视频特征提取模型是基于样本视频数据和对偶式对比学习模型对基础神经网络模型进行预训练得到的,对偶式对比学习模型用于对样本视频数据经基础神经网络模型处理后输出的第一多模态样本特征矩阵分别进行行维度和列维度上的对比学习。本发明提供的技术方案可以提高视频特征提取的准确性和泛化性。
-
公开(公告)号:CN115311475A
公开(公告)日:2022-11-08
申请号:CN202210752086.8
申请日:2022-06-28
Applicant: 中国科学院自动化研究所 , 中国国家铁路集团有限公司
Abstract: 本发明提供一种基于内容安全的图像识别方法、装置、设备和存储介质,涉及计算机视觉技术领域,所述方法包括:获取待识别图像;将待识别图像输入至多尺度纹理感知模型,输出用于表征图像是否伪造的图像种类识别结果;其中,多尺度纹理感知模型是基于图像样本数据以及对应的图像种类标签进行训练后得到的,多尺度纹理感知模型用于基于待识别图像的多尺度纹理特征任意两通道之间的相关性,对待识别图像进行种类识别。本发明可结合多尺度纹理特征以及各特征不同通道之间的细微差异,以提高图像种类识别精准度,且提高鲁棒性和泛化性。
-
公开(公告)号:CN114241144A
公开(公告)日:2022-03-25
申请号:CN202111467249.X
申请日:2021-12-03
Applicant: 中国科学院自动化研究所
Abstract: 本申请公开了一种处理三维点云的方法、装置及存储介质。其中,方法包括:至少两个处理模块中的任一处理模块,接收三维点数据集,三维点数据集来自于处理模块之前所有层级的处理模块,分别获取三维点数据集中至少两个空间区域的区域特征数据,聚集至少两个空间区域的区域特征数据得到三维点数据集的特征数据,从而降低了三维点云的计算过程较复杂度,提高了计算速度,若处理模块是处理模型中中间层的处理模块,将三维点数据集的特征数据分别输出至到处理模块之后每一层的处理模块中,若处理模块是处理模型中最后一层处理模块,将三维点数据集的特征数据作为三维点云对应的几何表征,从而不会出现几何信息缺失,提升了三维点云得到的数据准确率。
-
-
-
-
-
-
-
-
-