高度对象的分离和渲染
    51.
    发明公开

    公开(公告)号:CN119422389A

    公开(公告)日:2025-02-11

    申请号:CN202380049436.7

    申请日:2023-06-23

    Abstract: 本公开涉及一种用于处理音频的方法和系统,以及一种包括指令的计算机程序产品,当所述程序由计算机执行时,所述指令使所述计算机执行所述方法。所述方法包括获得输入音频信号并处理所述输入音频信号以从所述输入音频信号中提取高度音频对象,其中,所述高度音频对象是使用被配置为提取预定高度音频源类型的音频对象的源分离模块来提取的。所述方法进一步包括将所述输入音频信号渲染到多声道呈现,使得所述至少一个高度音频对象被包括在所述多声道呈现的至少一个高度声道中。

    情境感知音频捕捉和渲染
    52.
    发明公开

    公开(公告)号:CN118923135A

    公开(公告)日:2024-11-08

    申请号:CN202380029774.4

    申请日:2023-03-17

    Abstract: 公开了用于情境感知捕捉和渲染的实施例。在一个实施例中,音频处理方法包括:捕捉多通道输入音频信号;对于多通道输入音频信号的每个通道,生成降噪的感兴趣目标声音事件以及环境噪声;确定用于渲染的事件类型;基于事件类型和扬声器布局选择渲染方案;以及使用所选的渲染方案来渲染多通道输出音频信号。

    采用两级噪声分类器的音量调节单元的控制

    公开(公告)号:CN118871988A

    公开(公告)日:2024-10-29

    申请号:CN202380026864.8

    申请日:2023-02-06

    Abstract: 使用音量调节控制信号对音频信号进行音量调节。该方法包括:确定噪声可靠性比率w(n)作为当前时间段中似噪声帧与所有帧的比率;确定PGC噪声置信度分数XPGN(n),该分数指示在该时间段内存在专业生成内容PGC噪声的可能性;以及对于该时间段,确定噪声可靠性比率是否高于预定阈值。当噪声可靠性比率高于预定阈值时,基于PGC噪声置信度分数更新音量调节控制信号,当噪声可靠性比率低于预定阈值时,音量调节控制信号保持不变。通过防止增强例如UGC中的手机录制的环境噪声,同时对于其他类型内容保持原始行为,来改善音量调节。

    响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频

    公开(公告)号:CN118433628A

    公开(公告)日:2024-08-02

    申请号:CN202410510302.7

    申请日:2014-12-18

    Abstract: 本公开涉及响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频。在一些实施例中,提供用于响应多通道音频信号的通道产生双耳信号的虚拟化方法,这些虚拟化方法向各通道应用双耳房间脉冲响应(BRIR),包含通过使用至少一个反馈延迟网络(FDN)以向通道的下混应用公共晚期混响。在一些实施例中,输入信号通道在第一处理路径中被处理,以向各通道应用的用于该通道的单通道BRIR的直接响应和早期反射部分,并且,通道的下混在包含至少一个应用公共晚期混响的FDN的第二处理路径中被处理。典型地,公共晚期混响模仿单通道BRIR中的至少一些的晚期混响部分的共同宏观属性。其它方面是被配置为执行方法的任何实施例的耳机虚拟化器。

    检测用户生成内容中的环境噪声
    55.
    发明公开

    公开(公告)号:CN117859176A

    公开(公告)日:2024-04-09

    申请号:CN202280057779.3

    申请日:2022-08-23

    Abstract: 一种音频处理方法包括使用第一模型将音频信号分类为噪声或非噪声。对于噪声信号,使用第二模型将音频信号分类为用户生成内容(UGC)噪声或专业生成内容(PGC)噪声。对于非噪声信号或PGC噪声,使用第一音频处理过程来处理音频信号。对于UGC噪声,使用第二音频处理过程来处理音频信号。

    情境感知声景控制
    56.
    发明公开

    公开(公告)号:CN117044233A

    公开(公告)日:2023-11-10

    申请号:CN202280021289.8

    申请日:2022-04-28

    Abstract: 公开了情境感知声景控制的实施例。在实施例中,一种音频处理方法包括:使用移动设备上的第一组麦克风捕获来自音频场景的第一音频信号;使用一副耳塞上的第二组麦克风捕获来自所述音频场景的第二音频信号;使用所述移动设备上的相机捕获来自视频场景的视频信号;利用至少一个处理器从所述第一音频信号和所述第二音频信号生成经处理的音频信号,所述经处理的音频信号是基于情境信息通过自适应声景控制来生成的;以及利用所述至少一个处理器将所述经处理的音频信号与所捕获的视频信号进行组合以作为多媒体输出。

    用于双耳音频录制的感知增强
    57.
    发明公开

    公开(公告)号:CN116636233A

    公开(公告)日:2023-08-22

    申请号:CN202180086839.X

    申请日:2021-12-14

    Abstract: 一种音频处理的方法包括捕获双耳音频信号,使用机器学习模型计算噪声减少增益,以及生成经修改的双耳音频信号。该方法还可以包括对音频执行各种校正以考虑由诸如前置相机和后置相机的不同相机捕获的视频。该方法还可以包括在前置相机与后置相机之间切换时执行双耳音频的平滑切换。以这种方式,在双耳音频中可以减少噪声,并且可以提高组合的视频和双耳音频的用户感知。

    使用嵌套卷积神经网络架构进行音频处理的方法和装置

    公开(公告)号:CN116368495A

    公开(公告)日:2023-06-30

    申请号:CN202180071571.2

    申请日:2021-10-19

    Abstract: 描述了基于卷积神经网络(CNN)进行音频处理的系统、方法和计算机程序产品。CNN架构可以包括多尺度输入块和多尺度嵌套块。多尺度输入块可以被配置为接收输入数据,并且通过对输入数据进行下采样来生成第一下采样输入数据集。多尺度嵌套块可以包括第一编码层,第一编码层被配置为通过基于输入数据执行卷积来生成第一编码数据集。多尺度嵌套块可以包括第二编码层,第二编码层被配置为通过基于第一下采样输入数据集执行卷积来生成第二编码数据集。此外,多尺度嵌套块可以包括第一卷积层,第一卷积层被配置为通过对第二编码数据集进行上采样、将第一编码数据集和上采样的第二编码数据集进行级联、并且执行卷积来生成第一输出数据集。第一卷积层可以嵌套在编码层与解码层之间,从而增加了与CNN的通信通道的数量,并且简化了底层优化问题。

    响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频

    公开(公告)号:CN107770718B

    公开(公告)日:2020-01-17

    申请号:CN201711094044.5

    申请日:2014-12-18

    Abstract: 本公开涉及响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频。在一些实施例中,提供用于响应多通道音频信号的通道产生双耳信号的虚拟化方法,这些虚拟化方法向各通道应用双耳房间脉冲响应(BRIR),包含通过使用至少一个反馈延迟网络(FDN)以向通道的下混应用公共晚期混响。在一些实施例中,输入信号通道在第一处理路径中被处理,以向各通道应用的用于该通道的单通道BRIR的直接响应和早期反射部分,并且,通道的下混在包含至少一个应用公共晚期混响的FDN的第二处理路径中被处理。典型地,公共晚期混响模仿单通道BRIR中的至少一些的晚期混响部分的共同宏观属性。其它方面是被配置为执行方法的任何实施例的耳机虚拟化器。

Patent Agency Ranking