-
公开(公告)号:CN109545240B
公开(公告)日:2022-12-09
申请号:CN201811375640.5
申请日:2018-11-19
Applicant: 清华大学
IPC: G10L21/0272
Abstract: 本发明涉及一种人机交互的声音分离的方法,属于音频处理技术领域。该方法首先对待分离的音频进行初步分离,得到每个声音源的音频并划分为不发声区间和发声区间,将该声音源的区间分布图呈现用户,使得用户听音频并看到音频进度对应区间位置;若用户满意声音分离效果,则分离结束;若用户不满意分离结果,则用户可对发声区间和不发声区间进行修改,直至得到满意的分离结果;用户还可以对分离结果进行精细调整,删除声音源中包含其他声音源的声音。本发令用户分离声音无需相应的音乐知识,使得普通用户能够轻松分离视频或音频中不同来源的声音。
-
公开(公告)号:CN109559758A
公开(公告)日:2019-04-02
申请号:CN201811306545.X
申请日:2018-11-05
Applicant: 清华大学
Abstract: 本发明涉及一种基于深度学习的将纹理图像转换成触觉信号的方法,属于人工智能、信号处理技术领域。首先学习训练纹理图像数据,得到图像的特征信息,从而对各类纹理识别分类;利用短时傅里叶算法将材质表面摩擦震动的三轴加速度信号转换成频谱图像,随后训练得到频谱生成器;将分类信息与频谱生成器结合起来,自动生成纹理图像的频谱,将频谱转换成不同类别图像的触觉信号,实现不同纹理图像到触觉信号的转换。将结果通过接入到鼠标内部的触觉反馈器传递给手掌,鼠标指针所处区域即为被测材质区域,从而使得滑动鼠标即可实时的反馈了解被测物体的材质属性。本发明的转换结果与图像纹理的真实触感相似度较高,应用场景丰富,具有极高的实用价值。
-
公开(公告)号:CN109559758B
公开(公告)日:2023-01-24
申请号:CN201811306545.X
申请日:2018-11-05
Applicant: 清华大学
Abstract: 本发明涉及一种基于深度学习的将纹理图像转换成触觉信号的方法,属于人工智能、信号处理技术领域。首先学习训练纹理图像数据,得到图像的特征信息,从而对各类纹理识别分类;利用短时傅里叶算法将材质表面摩擦震动的三轴加速度信号转换成频谱图像,随后训练得到频谱生成器;将分类信息与频谱生成器结合起来,自动生成纹理图像的频谱,将频谱转换成不同类别图像的触觉信号,实现不同纹理图像到触觉信号的转换。将结果通过接入到鼠标内部的触觉反馈器传递给手掌,鼠标指针所处区域即为被测材质区域,从而使得滑动鼠标即可实时的反馈了解被测物体的材质属性。本发明的转换结果与图像纹理的真实触感相似度较高,应用场景丰富,具有极高的实用价值。
-
公开(公告)号:CN109635676A
公开(公告)日:2019-04-16
申请号:CN201811403303.2
申请日:2018-11-23
Applicant: 清华大学
CPC classification number: G06K9/00718 , G06K2209/21 , G06N3/0454 , G06N3/08 , G10L25/30
Abstract: 本发明提出一种从视频中定位音源的方法,属于跨模态学习领域。该方法在训练阶段获取训练样本视频并进行预处理,构建一个由全连接层构成的神经网络和一个定位网络构成的音源定位神经网络,利用预处理完毕的训练样本对该音源定位神经网络进行训练,得到训练完毕的的音源定位神经网络。在测试阶段,获取测试视频并预处理,然后输入训练完毕的音源定位神经网络并计算相似度,通过相似度来进行进一步的声音与视频画面的同步以及同步后的音源定位,从而解决不同步视频的音源定位问题。本发明可以自动发现视频画面中的各个物体和声音之间的对应关系,定位准确率高,位置精确度高,有很高的应用价值。
-
公开(公告)号:CN109545240A
公开(公告)日:2019-03-29
申请号:CN201811375640.5
申请日:2018-11-19
Applicant: 清华大学
IPC: G10L21/0272
Abstract: 本发明涉及一种人机交互的声音分离的方法,属于音频处理技术领域。该方法首先对待分离的音频进行初步分离,得到每个声音源的音频并划分为不发声区间和发声区间,将该声音源的区间分布图呈现用户,使得用户听音频并看到音频进度对应区间位置;若用户满意声音分离效果,则分离结束;若用户不满意分离结果,则用户可对发声区间和不发声区间进行修改,直至得到满意的分离结果;用户还可以对分离结果进行精细调整,删除声音源中包含其他声音源的声音。本发令用户分离声音无需相应的音乐知识,使得普通用户能够轻松分离视频或音频中不同来源的声音。
-
公开(公告)号:CN109635676B
公开(公告)日:2020-12-11
申请号:CN201811403303.2
申请日:2018-11-23
Applicant: 清华大学
Abstract: 本发明提出一种从视频中定位音源的方法,属于跨模态学习领域。该方法在训练阶段获取训练样本视频并进行预处理,构建一个由全连接层构成的神经网络和一个定位网络构成的音源定位神经网络,利用预处理完毕的训练样本对该音源定位神经网络进行训练,得到训练完毕的的音源定位神经网络。在测试阶段,获取测试视频并预处理,然后输入训练完毕的音源定位神经网络并计算相似度,通过相似度来进行进一步的声音与视频画面的同步以及同步后的音源定位,从而解决不同步视频的音源定位问题。本发明可以自动发现视频画面中的各个物体和声音之间的对应关系,定位准确率高,位置精确度高,有很高的应用价值。
-
-
-
-
-