与阵列几何形状无关的多通道个性化语音增强

    公开(公告)号:CN118020101A

    公开(公告)日:2024-05-10

    申请号:CN202280065219.2

    申请日:2022-08-22

    Abstract: 与阵列几何形状无关的多通道个性化语音增强(PSE)的示例从目标说话者登记数据中提取说话者嵌入,该说话者嵌入表示一个或多个目标说话者的声学特性。从由麦克风阵列所捕获的输入音频中提取空间特征(例如,通道间相位差)。输入音频包括(多个)目标说话者和一个或多个干扰说话者的语音数据的混合。输入音频、所提取的说话者嵌入和所提取的空间特征被提供给经训练的与几何形状无关的PSE模型。产生输出数据,其包括(多个)目标说话者的估计的干净语音数据,其具有(多个)干扰说话者的语音数据的减少(或消除),而经训练的PSE模型不需要麦克风阵列的几何形状信息。

    在多说话者音频流上训练和使用转录生成模型

    公开(公告)号:CN118451496A

    公开(公告)日:2024-08-06

    申请号:CN202280080966.3

    申请日:2022-10-27

    Abstract: 转录生成模型从多说话者音频流生成转录。获得包括多个说话者的重叠语音的音频数据,并且使用音频数据编码器从所获得的音频数据的音频数据帧生成帧嵌入集合。使用转录生成模型从帧嵌入集合生成词集合和通道改变(CC)符号。CC符号被包括在由不同人同时说出的相邻词对之间。词集合和CC符号被变换为多个转录行,其中基于CC符号将词集合中的词归类到转录行中,并且基于多个转录行来生成多说话者转录。由模型对CC符号的包括实现高效、准确的多说话者转录。

Patent Agency Ranking