-
公开(公告)号:CN117292704A
公开(公告)日:2023-12-26
申请号:CN202311007818.1
申请日:2023-08-11
Applicant: 华南农业大学
IPC: G10L21/055 , G06V10/774 , G06N3/0464 , G06N3/08 , G10L25/30
Abstract: 本发明公开了一种基于扩散模型的语音驱动姿势动作生成方法及装置,包括:获取具有语音标注的人体姿势动作数据集,对人体姿势动作数据集进行预处理,得到具有语音信息标注的姿势动作序列片段的训练数据,对训练数据中的姿势动作序列进行加噪,得到加噪后的姿势动作序列样本,以用于训练扩散模型;构建并训练用于语音驱动姿势动作生成的扩散模型,所述扩散模型将姿势动作生成任务视为对带噪姿势动作序列的去噪过程;使用训练好的扩散模型,根据给定的任意长度的语音输入,从随机采样的高斯噪声开始进行迭代去噪,生成姿势动作序列。本发明利用扩散模型建模基于语音驱动的姿势动作序列分布,能够生成更具真实性和多样性的姿势动作序列。
-
公开(公告)号:CN117593519A
公开(公告)日:2024-02-23
申请号:CN202311372654.2
申请日:2023-10-23
Applicant: 华南农业大学
IPC: G06V10/26 , G06V10/762 , G06F17/16 , G06F17/18
Abstract: 本发明公开了一种基于改进的熵正则化模糊K‑means的图像分割方法及装置。方法包括:首先,对原始图像进行预处理;接着,利用k×1个中间变量构造熵正则化模糊K‑means算法的等效目标函数;然后,通过一个简单的交替迭代算法求解变量;然后,通过一个简单且高效的迭代重加权方法优化变量求解,并得到最终的隶属矩阵。最后,将每个像素聚类到隶属度最高的集群中,得到分割结果,实现图像的分割。本发明方法不仅可以降低熵正则化模糊K‑means算法的空间复杂度,还解决了熵正则化模糊K‑means算法容易收敛到较差的局部最小值缺陷,同时也提高了分割精度。
-
公开(公告)号:CN117541784A
公开(公告)日:2024-02-09
申请号:CN202311279962.0
申请日:2023-10-07
Applicant: 华南农业大学
IPC: G06V10/26 , G06V10/42 , G06V10/774 , G06V10/82 , G06V10/764 , G06V20/40
Abstract: 本发明公开了一种基于高斯注意力和自适应聚焦的单目标跟踪方法及装置,方法包括:对数据集进行裁剪操作并生成训练集;提取训练集的搜索图像特征和模板图像特征;构建并利用训练集训练高斯Transformer,具体地,从搜索图像特征中建立稀疏注意力,获取搜索图像中最相关的区域,然后利用高斯注意力增强模板图像特征,获得模板图像中核心的特征信息,最后利用自适应聚焦模块进行特征的目标聚焦;最终,利用双头预测器实现单目标跟踪。本发明利用高斯注意力解决了自注意力捕捉图像中元素位置关系的问题,同时在自适应聚焦模块中引入前一帧中目标的形状和位置信息,增加目标与相似物体的对比度,使目标特征更加突出,以实现鲁棒且精准的目标跟踪。
-
公开(公告)号:CN116645535A
公开(公告)日:2023-08-25
申请号:CN202310470637.6
申请日:2023-04-27
Applicant: 华南农业大学
IPC: G06V10/762 , G06V10/26 , G06V10/426 , G06V10/44 , G06V10/46 , G06V10/75 , G06V10/74 , G06V10/82 , G06V10/80
Abstract: 本发明公开了一种基于超图学习的图案元素分组方法及装置,方法包括:对图案进行预处理操作,获取图案中元素的图像分割结果;提取图案元素的格式塔规则特征,包括相似性、邻近性、连续性和混合式特征;使用超图建模图案元素之间基于不同格式塔规则的相关性;设计自适应的超图融合方法,获得融合多种格式塔规则的超图;使用基于超图学习和用户引导的标签传播方法,来获得图案的分组结果。本发明提出格式塔分组规则在图案元素上的表示,同时根据不同分组规则,利用超图建模图案元素之间的连接关系,并使用超图进行统一表示,实现格式塔规则的融合,有效地解决格式塔规则冲突的问题,并实现根据用户的分组意图来对图案元素进行个性化分组。
-
-
-