-
公开(公告)号:CN118172452B
公开(公告)日:2024-08-27
申请号:CN202410604983.3
申请日:2024-05-15
Applicant: 广东工业大学
IPC: G06T13/20 , G06T13/40 , G06N3/0455 , G06N3/0475 , G06N3/094
Abstract: 本发明涉及计算机视觉技术领域,公开了一种基于时间相关性的头部动画生成方法及装置,方法包括利用音频和视频片段提取特征向量并计算它们的时间相关性,建立对应的协方差矩阵训练头部动画生成模型,利用通道注意力机制单元对视频特征向量和音频协方差矩阵进行增强处理,得到特征增强网络输入已训练好的头部动画生成模型,生成头部动画。本发明通过构建音频协方差矩阵和视频协方差矩阵来细致地分析音视频之间的时间同步性,能够有效地捕捉并利用音频和视觉内容之间的时序关联,改善了音频驱动的头部动画生成,提供了更加流畅和真实的视觉表现,从而提高动画的真实性和自然度。
-
公开(公告)号:CN118015522B
公开(公告)日:2024-09-24
申请号:CN202410336432.3
申请日:2024-03-22
Applicant: 广东工业大学
IPC: G06V20/40 , G06F16/34 , G06V10/62 , G06V10/764 , G06V10/70
Abstract: 本发明涉及计算机图像处理和机器学习领域,更具体,用于视频场景图生成的时间过渡正则化方法和系统,本发明创建以图像的类别和上下文为条件的转换矩阵,以捕获基于每个类别的统计相关性以及基于每个上下文图像的细粒度相关性,并以显式方式将这些相关性合并到当前的VidSGG算法中,以提供更强、更细粒度的正则化,本发明着重解决视频中时间相关性的建模和利用,以提升人工智能对视频内容语义分析性能,在高风险领域,如自动驾驶和医疗诊断中,本发明可以提供更准确的场景图生成,有助于提高决策的可信度。
-
公开(公告)号:CN117935030A
公开(公告)日:2024-04-26
申请号:CN202410336507.8
申请日:2024-03-22
Applicant: 广东工业大学
IPC: G06V10/98 , G06N3/0499 , G06N3/0985 , G06V10/74 , G06V10/762 , G06V10/764 , G06V10/82
Abstract: 本发明公开了一种双视角相关性感知正则化的多标签置信度校准方法,包括:首先进行特定类别对比学习;其次进行实例级相关性感知正则化;然后进行原型级相关感知正则化;最后计算实例级相关性感知正则化平滑后的标签和原型级相关性感知正则化平滑后的标签的损失函数,并结合样本总损失计算得到置信度。本发明通过学习类别相关性来建模语义混淆,引入双重视角的相关性感知正则化,并将这些相关性引入到自适应正则化中,从而提高置信度的准确性,提高了计算机图像处理在高风险领域的实用性。
-
公开(公告)号:CN117935030B
公开(公告)日:2024-10-25
申请号:CN202410336507.8
申请日:2024-03-22
Applicant: 广东工业大学
IPC: G06V10/98 , G06N3/0499 , G06N3/0985 , G06V10/74 , G06V10/762 , G06V10/764 , G06V10/82
Abstract: 本发明公开了一种双视角相关性感知正则化的多标签置信度校准方法,包括:首先进行特定类别对比学习;其次进行实例级相关性感知正则化;然后进行原型级相关感知正则化;最后计算实例级相关性感知正则化平滑后的标签和原型级相关性感知正则化平滑后的标签的损失函数,并结合样本总损失计算得到置信度。本发明通过学习类别相关性来建模语义混淆,引入双重视角的相关性感知正则化,并将这些相关性引入到自适应正则化中,从而提高置信度的准确性,提高了计算机图像处理在高风险领域的实用性。
-
公开(公告)号:CN118172452A
公开(公告)日:2024-06-11
申请号:CN202410604983.3
申请日:2024-05-15
Applicant: 广东工业大学
IPC: G06T13/20 , G06T13/40 , G06N3/0455 , G06N3/0475 , G06N3/094
Abstract: 本发明涉及计算机视觉技术领域,公开了一种基于时间相关性的头部动画生成方法及装置,方法包括利用音频和视频片段提取特征向量并计算它们的时间相关性,建立对应的协方差矩阵训练头部动画生成模型,利用通道注意力机制单元对视频特征向量和音频协方差矩阵进行增强处理,得到特征增强网络输入已训练好的头部动画生成模型,生成头部动画。本发明通过构建音频协方差矩阵和视频协方差矩阵来细致地分析音视频之间的时间同步性,能够有效地捕捉并利用音频和视觉内容之间的时序关联,改善了音频驱动的头部动画生成,提供了更加流畅和真实的视觉表现,从而提高动画的真实性和自然度。
-
公开(公告)号:CN118015522A
公开(公告)日:2024-05-10
申请号:CN202410336432.3
申请日:2024-03-22
Applicant: 广东工业大学
IPC: G06V20/40 , G06F16/34 , G06V10/62 , G06V10/764 , G06V10/70
Abstract: 本发明涉及计算机图像处理和机器学习领域,更具体,用于视频场景图生成的时间过渡正则化方法和系统,本发明创建以图像的类别和上下文为条件的转换矩阵,以捕获基于每个类别的统计相关性以及基于每个上下文图像的细粒度相关性,并以显式方式将这些相关性合并到当前的VidSGG算法中,以提供更强、更细粒度的正则化,本发明着重解决视频中时间相关性的建模和利用,以提升人工智能对视频内容语义分析性能,在高风险领域,如自动驾驶和医疗诊断中,本发明可以提供更准确的场景图生成,有助于提高决策的可信度。
-
-
-
-
-