一种基于人声分离的音高定位识别方法

    公开(公告)号:CN118412009A

    公开(公告)日:2024-07-30

    申请号:CN202410673253.9

    申请日:2024-05-28

    Abstract: 本发明公开了一种基于人声分离的音高定位识别方法,首先需要根据待识别的演唱视频选择对应的真实的对比文件并进行预处理;然后采用端到端人声分离技术对处理后的数据进行人声分离,得到人声文件;再构建音高定位识别网络,网络由输入层、关系层和输出层组成;最后人声分离得到人声文件输入构建的音高定位识别网络实现音高定位识别。在本发明方法中,通过构建音高定位识别网络,将音高和标准线进行可视化,能够直观地看到人声和经过修音合成的声音的曲线对比,维护观众粉丝的权益,同时相对现有技术提高了泛用性以及准确性。

    一种多模态深度感知的高精度集成动态手势识别方法

    公开(公告)号:CN118155290A

    公开(公告)日:2024-06-07

    申请号:CN202410442762.0

    申请日:2024-04-12

    Abstract: 本发明公开了一种多模态深度感知的高精度集成动态手势识别方法。首先获取动态手势数据集,应用2D和3D数据增强方法增加样本数量;然后将增强后的数据进行灰度变换,并分别输入3D‑CNN子网络、ConvLSTM子网络和TCN子网络分别提取手势序列特征;将手势序列特征直接或融合输入相应分类器;最后将分类器结果集成,输出最终的概率分布。本发明额外对数据进行了数据增强和灰度变换,在数据原有的多模态之外,增加了灰度2D和灰度3D模态,使得本方法能识别分辨率更低的输入图像;并且本发明使用了一种优化加权集成,能够更有效地优化的综合多模态的分类结果。

    一种基于径向基函数模糊神经网络的多目标跟踪匹配方法

    公开(公告)号:CN117636477A

    公开(公告)日:2024-03-01

    申请号:CN202311721802.7

    申请日:2023-12-14

    Abstract: 本发明公开了一种基于径向基函数模糊神经网络的多目标跟踪匹配方法。首先确定应用的具体运动场景,获取对应的训练数据,根据确定的具体运动场景,构建用于此运动场景的径向基函数模糊神经网络。优化跟踪匹配技术,提取姿态对齐特征输入径向基函数模糊神经网络以获得更准确的相关匹配结果。根据优化后的训练数据和确定的学习策略训练模型。最后基于训练好的模型实现多目标跟踪匹配。对于复杂的人体运动,本发明提出的基于径向基函数模糊神经网络的人体信息识别模型具有更高的识别精度,通过对构建的上下文图提取其全局特征图和姿态热图,也能够准确地检测出人的运动状态。

Patent Agency Ranking