-
公开(公告)号:CN116091668B
公开(公告)日:2023-07-21
申请号:CN202310374538.8
申请日:2023-04-10
Applicant: 广东工业大学
IPC: G06T13/40 , G10L19/16 , G06T13/20 , G06T15/00 , G06V40/16 , G06V20/40 , G06V10/82 , G06V10/80 , G06N3/0455 , G06N3/08
Abstract: 本发明公开一种基于情绪特征指导的说话头视频生成方法,引入了情绪特征指导,训练得到的模型能够具有表达情绪的能力,生成的说话头能够具有丰富的情绪化的逼真表达,可以很好地解决目前说话头中性化固态表达的问题。同时,本发明通过基于二维数据的三维重建技术,从现有的情绪丰富的二维数据集得到近似数据,能够解决缺乏数据的问题。本发明侧重在生成人物形象视频的同时提高其表达的情绪化能力。通过在保证传播内容的同时,赋予视频中的人物与传播内容向匹配的情绪张力,使得视频人物表达更具情感特征,提高虚拟形象真实性,从而提高用户体验。
-
公开(公告)号:CN118015522B
公开(公告)日:2024-09-24
申请号:CN202410336432.3
申请日:2024-03-22
Applicant: 广东工业大学
IPC: G06V20/40 , G06F16/34 , G06V10/62 , G06V10/764 , G06V10/70
Abstract: 本发明涉及计算机图像处理和机器学习领域,更具体,用于视频场景图生成的时间过渡正则化方法和系统,本发明创建以图像的类别和上下文为条件的转换矩阵,以捕获基于每个类别的统计相关性以及基于每个上下文图像的细粒度相关性,并以显式方式将这些相关性合并到当前的VidSGG算法中,以提供更强、更细粒度的正则化,本发明着重解决视频中时间相关性的建模和利用,以提升人工智能对视频内容语义分析性能,在高风险领域,如自动驾驶和医疗诊断中,本发明可以提供更准确的场景图生成,有助于提高决策的可信度。
-
公开(公告)号:CN116012569B
公开(公告)日:2023-08-15
申请号:CN202310299402.5
申请日:2023-03-24
Applicant: 广东工业大学
Abstract: 本发明提供一种基于深度学习的含噪数据下的多标签图像识别方法,包括获取多标签含噪数据集并进行预处理;建立双分支多标签修正神经网络模型;将预处理后的多标签含噪数据集输入双分支多标签修正神经网络模型中进行对比学习训练,获得优化后的双分支多标签修正神经网络模型;获取待修正的含噪图片,利用优化后的双分支多标签修正神经网络模型对待修正的含噪图片进行修正,根据修正标签对待修正的含噪图片进行图像识别;本发明能够对多标签含噪数据集进行标签修正,节省人力物力成本,实现对数据资源的高效利用;同时预测结果更具有鲁棒性;另外,本发明根据对训练图片的预测值规定了上下界,能够减弱噪声,避免对噪声的过拟合。
-
公开(公告)号:CN116012569A
公开(公告)日:2023-04-25
申请号:CN202310299402.5
申请日:2023-03-24
Applicant: 广东工业大学
Abstract: 本发明提供一种基于深度学习的含噪数据下的多标签图像识别方法,包括获取多标签含噪数据集并进行预处理;建立双分支多标签修正神经网络模型;将预处理后的多标签含噪数据集输入双分支多标签修正神经网络模型中进行对比学习训练,获得优化后的双分支多标签修正神经网络模型;获取待修正的含噪图片,利用优化后的双分支多标签修正神经网络模型对待修正的含噪图片进行修正,根据修正标签对待修正的含噪图片进行图像识别;本发明能够对多标签含噪数据集进行标签修正,节省人力物力成本,实现对数据资源的高效利用;同时预测结果更具有鲁棒性;另外,本发明根据对训练图片的预测值规定了上下界,能够减弱噪声,避免对噪声的过拟合。
-
公开(公告)号:CN116091668A
公开(公告)日:2023-05-09
申请号:CN202310374538.8
申请日:2023-04-10
Applicant: 广东工业大学
IPC: G06T13/40 , G10L19/16 , G06T13/20 , G06T15/00 , G06V40/16 , G06V20/40 , G06V10/82 , G06V10/80 , G06N3/0455 , G06N3/08
Abstract: 本发明公开一种基于情绪特征指导的说话头视频生成方法,引入了情绪特征指导,训练得到的模型能够具有表达情绪的能力,生成的说话头能够具有丰富的情绪化的逼真表达,可以很好地解决目前说话头中性化固态表达的问题。同时,本发明通过基于二维数据的三维重建技术,从现有的情绪丰富的二维数据集得到近似数据,能够解决缺乏数据的问题。本发明侧重在生成人物形象视频的同时提高其表达的情绪化能力。通过在保证传播内容的同时,赋予视频中的人物与传播内容向匹配的情绪张力,使得视频人物表达更具情感特征,提高虚拟形象真实性,从而提高用户体验。
-
公开(公告)号:CN118015522A
公开(公告)日:2024-05-10
申请号:CN202410336432.3
申请日:2024-03-22
Applicant: 广东工业大学
IPC: G06V20/40 , G06F16/34 , G06V10/62 , G06V10/764 , G06V10/70
Abstract: 本发明涉及计算机图像处理和机器学习领域,更具体,用于视频场景图生成的时间过渡正则化方法和系统,本发明创建以图像的类别和上下文为条件的转换矩阵,以捕获基于每个类别的统计相关性以及基于每个上下文图像的细粒度相关性,并以显式方式将这些相关性合并到当前的VidSGG算法中,以提供更强、更细粒度的正则化,本发明着重解决视频中时间相关性的建模和利用,以提升人工智能对视频内容语义分析性能,在高风险领域,如自动驾驶和医疗诊断中,本发明可以提供更准确的场景图生成,有助于提高决策的可信度。
-
公开(公告)号:CN115755988B
公开(公告)日:2023-04-11
申请号:CN202310031278.4
申请日:2023-01-10
Applicant: 广东工业大学
Abstract: 本发明公开了一种无人机集群的纯方位无源定位方法、系统及存储介质,包括:在无人机集群进行遂行编队飞行时,当某位置固定但未知编号的无人机及圆心的无人机向被动接收信号的无人机发送信号时,通过分析无人机接收到不同相对位置的无人机信号时信号角度的波动范围,找出两无人机相对位置与信号角度之间的关系,通过位于圆心和圆周上另外两架位置无偏差且编号已知的无人机发射信号实现对被动接收信号的无人机精确定位,建立无人机定位模型,并通过梯度下降法对无人机进行定位。纯方位无源定位的方法,有利于减少无人机集群向外发射电磁波的次数,即尽可能让无人机保持电磁静默,使得外界设备不易发现无人机的存在,达到避免外界干扰的目的。
-
公开(公告)号:CN115755988A
公开(公告)日:2023-03-07
申请号:CN202310031278.4
申请日:2023-01-10
Applicant: 广东工业大学
Abstract: 本发明公开了一种无人机集群的纯方位无源定位方法、系统及存储介质,包括:在无人机集群进行遂行编队飞行时,当某位置固定但未知编号的无人机及圆心的无人机向被动接收信号的无人机发送信号时,通过分析无人机接收到不同相对位置的无人机信号时信号角度的波动范围,找出两无人机相对位置与信号角度之间的关系,通过位于圆心和圆周上另外两架位置无偏差且编号已知的无人机发射信号实现对被动接收信号的无人机精确定位,建立无人机定位模型,并通过梯度下降法对无人机进行定位。纯方位无源定位的方法,有利于减少无人机集群向外发射电磁波的次数,即尽可能让无人机保持电磁静默,使得外界设备不易发现无人机的存在,达到避免外界干扰的目的。
-
-
-
-
-
-
-