-
公开(公告)号:CN111783755A
公开(公告)日:2020-10-16
申请号:CN202010918877.4
申请日:2020-09-04
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及计算机视觉领域,具体涉及一种基于空间变换信息传递的人体关键点检测方法与系统,旨在减少空预测、假阳性预测的产生。本发明的检测方法包括:将待检测的人体图像输入对抗网络,提取关键点特征和肢干特征,进而生成关键点第一热度图和肢干热度图;将待检测的人体图像进行降采样,得到降采样后的人体图像;根据降采样后的人体图像、关键点第一热度图、肢干热度图和关键点特征,基于空间变换网络生成经过信息传递修正后的关键点热度图。本发明通过对相邻关键点的空间关系变换和传递补充了人体关键点的预测先验,抑制了遮挡与人体姿态多样性给关键点预测带来的噪声,从而有效减少空预测、假阳性预测的产生。
-
公开(公告)号:CN106570477A
公开(公告)日:2017-04-19
申请号:CN201610962720.5
申请日:2016-10-28
Applicant: 中国科学院自动化研究所
CPC classification number: G06K9/00825 , G06K9/6256 , G06K9/627 , G06K2209/23 , G06N3/08
Abstract: 本发明提出了一种基于深度学习的车型识别模型构建方法,该方法针对车型识别问题,设计了一种深层卷积神经网络结构,联合采用softmax分类损失和利用车型类别的层次化结构构建的基于四元组的排序损失来监督深层卷积神经网络的训练,实现对车型类内差异和类间差异的同时约束,以期学到语义信息更丰富的特征表示和更具有判别力的分类器;为了加快网络收敛,还采用了一种在线困难样本挖掘策略和改进的梯度反传优化算法,大大缩短了网络训练时间。同时本发明还提出了一种基于深度学习的车型识别方法,该方法利用上述模型构建方法构建的模型进行车辆图片中车辆类型的识别,有效提升车型分类精度。
-
公开(公告)号:CN102148921B
公开(公告)日:2012-12-12
申请号:CN201110113290.7
申请日:2011-05-04
Applicant: 中国科学院自动化研究所
IPC: H04N5/14
Abstract: 本发明是基于动态群组划分的多目标跟踪方法,所述多目标跟踪方法包括步骤如下:S1:对于视频场景中的某一时刻,首先判定是否有目标进入或离开场景区域,根据检测结果更新目标集合;S2:设定目标集合的分组阈值,使用层次聚类按距离对上一时刻目标集合进行聚类,根据上一时刻的聚类结果,将上一时刻目标位置分成不同群组;S3:为目标集合中的每个群组分配一个跟踪器,跟踪器根据群组内每个目标上一时刻的位置状态,加上群组内每个目标当前时刻在图像上的观测值,使用贝叶斯框架推断每个目标在当前时刻位置的最优值,用每个目标当前时刻位置的最优值更新目标集合中各个目标的位置状态,为推断各个目标的下一时刻的位置做准备。
-
公开(公告)号:CN102054176B
公开(公告)日:2012-09-26
申请号:CN201010603240.2
申请日:2010-12-23
Applicant: 中国科学院自动化研究所
Abstract: 本发明用计算机对运动目标的场景图像建立语义场景模型的方法,包括步骤S1:利用图像处理设备输入的视频数据,得到待处理的运动目标图像数据,进行目标检测和跟踪;步骤S2:基于协同训练方法学习行人和车的分类器,减少训练标注样本和充分利用目标的多种特征;根据学习得到的分类器,将目标分为行人和车辆;步骤S3:对于每类目标的轨迹进行轨迹聚类,得到目标的轨迹聚类;步骤S4:根据目标的轨迹聚类,得到每种轨迹的分布区域,并且利用均值漂移算法得到每种轨迹分布区域的主要轨迹和轨迹的入点和出点,从而得到有一定语义的区域和实现应用。
-
公开(公告)号:CN117197268B
公开(公告)日:2025-03-04
申请号:CN202310946688.1
申请日:2023-07-27
Applicant: 武汉人工智能研究院 , 中国科学院自动化研究所
IPC: G06F30/27 , G06T11/00 , G06N3/09 , G06N3/0455
Abstract: 本申请提供一种图像生成方法、装置及存储介质。该图像生成方法包括:将待处理提示词输入至预训练的第一稳定扩散模型,得到所述待处理提示词对应的表观图像,并将待处理提示词输入至边缘图生成模型,得到所述待处理提示词对应的第一边缘图像;基于所述表观图像和所述第一边缘图像生成与所述待处理提示词相关联的图像。本申请提供的图像生成方法、装置及存储介质,提取小样本类别图像的表观信息和边缘信息,并用其联合进行相应类别的图像生成,提高了基于小样本图像的图像生成模型的训练精度以及泛化能力,从而提高了小样本图像生成的准确性。
-
公开(公告)号:CN119418686A
公开(公告)日:2025-02-11
申请号:CN202510013378.3
申请日:2025-01-06
Applicant: 武汉人工智能研究院 , 中国科学院自动化研究所
IPC: G10L13/027 , G10L13/08 , G10L25/63
Abstract: 本发明涉及人工智能技术领域,提供一种语音生成方法、模型构建方法、装置、设备、介质和产品,其中方法包括:确定情感特征参数;基于所述情感特征参数,构建待生成的情感语音的情感向量;将所述情感向量和文本向量输入至已训练的情感语音生成模型,得到所述情感语音生成模型输出的与所述文本向量对应的语音令牌,并基于所述语音令牌生成所述情感语音。本发明提供的语音生成方法、模型构建方法、装置、设备、介质和产品,通过情感特征参数构建待生成的情感语音的情感向量,完成情感的精细化建模,基于情感向量和文本向量,通过情感语音生成模型的强大能力,生成得到的情感语音有很强的情绪表达能力。
-
公开(公告)号:CN118820509B
公开(公告)日:2025-02-11
申请号:CN202411297843.2
申请日:2024-09-18
Applicant: 中国科学院自动化研究所
IPC: G06F16/583 , G06N3/0455 , G06N3/0464 , G06V10/26 , G06V10/82
Abstract: 本发明提供一种图文信息处理方法、装置、设备、存储介质及程序产品,应用于计算机视觉技术领域。该方法包括:获取第一图文信息,所述第一图文信息包括第一文本和第一图像;为所述第一图像添加指示令牌,得到第二图文信息,所述指示令牌包括图像开始令牌和图像结束令牌,所述图像开始令牌位于所述第一图像之前,所述图像结束令牌位于所述第一图像之后;确定所述第一文本对应的文本特征,确定所述第一图像对应的图像特征,确定所述指示令牌对应的令牌特征,并根据所述文本特征、所述图像特征以及所述令牌特征确定输入序列;将所述输入序列输入大语言模型,得到对应的图文理解定位信息。
-
公开(公告)号:CN118797562B
公开(公告)日:2024-12-06
申请号:CN202411282777.1
申请日:2024-09-13
Applicant: 中国科学院自动化研究所
IPC: G06F18/25 , G06N3/0464 , G06V10/26 , G06V10/80 , G06V10/82
Abstract: 本发明提供一种基于多模态多形式统一的多轮图文理解与定位方法及装置,涉及图像数据处理技术领域,方法包括:获取执行图文理解或定位任务的多模态数据,将多模态数据的待处理图像切分为多个图像块;确定多模态数据的待处理文本的文本特征以及图像块的图像序列特征;通过状态空间模型特征提取模块,对图像序列特征进行基于米字形结构方向的2D空间序列扫描,得到扫描序列特征;通过状态空间模型特征处理模块进行基于序列离散化的线性映射,得到离散序列特征后扫描合并,进而与文本特征融合得到多模态融合特征,用于执行图文理解或定位任务。通过本申请,解决神经网络模型在处理输入的长序列或高维度数据时,模型计算复杂度高的缺陷。
-
公开(公告)号:CN116310520B
公开(公告)日:2024-12-06
申请号:CN202310153095.X
申请日:2023-02-10
Applicant: 中国科学院自动化研究所 , 武汉人工智能研究院
IPC: G06V10/764 , G06V10/40 , G06V10/74 , G06V10/82
Abstract: 本发明涉及图像处理技术领域,提供一种目标检测方法、装置、电子设备以及存储介质,其中方法包括:确定目标图像的多个图像块特征以及类别集合对应的类别特征集合;基于图像类别统一编码器,对图像块特征以及类别特征集合中的类别特征进行自注意力编码,基于得到的图像块编码特征与类别编码特征集合中各类别编码特征的相似度,确定目标类别编码特征用于目标检测,得到目标图像的目标检测结果。本发明提供的目标检测方法、装置、电子设备以及存储介质,通过图像类别统一编码器,以统一的方式为图像块和类别提取编码特征用于后续实现目标检测,从而实现了开放类别的目标检测,有效地在提升了目标检测模型在未见过类别上的泛化能力。
-
公开(公告)号:CN118941586A
公开(公告)日:2024-11-12
申请号:CN202410845624.7
申请日:2024-06-27
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种基于大型语言模型的图像分割方法、装置、电子设备,包括:获取待分割图像和问题文本,其中,问题文本用于指示待分割图像中的待分割目标;分别对所述待分割图像和问题文本进行特征提取处理,得到视觉嵌入向量和文本嵌入向量;基于所述视觉嵌入向量和所述文本嵌入向量确定所述待分割目标的中心点,并确定以所述中心点为起点的预设数量的射线,其中,所述射线的终点用于指示所述待分割目标的轮廓;基于所述预设数量的射线对所述待分割图像进行分割处理,得到所述待分割目标。通过中心点和以中心点为起点的预设数量的射线自适应地确定待分割目标的轮廓,能够精确保留待分割图像的轮廓形状信息,有效提高了图像分割时的分割精度。
-
-
-
-
-
-
-
-
-