用于长格式音频的语音识别的假设拼接器

    公开(公告)号:CN116648744A

    公开(公告)日:2023-08-25

    申请号:CN202180085554.4

    申请日:2021-11-23

    Abstract: 一种用于长格式音频的语音识别的假设拼接器提供了优越的性能,诸如更高的准确性和更低的计算成本。所公开的操作示例包括:将音频流分割成多个音频片段;标识多个音频片段中的每个音频片段内的多个说话者;对多个音频片段中的每个音频片段执行自动语音识别(ASR)以生成多个短片段假设;将短片段假设中的至少一部分合并到第一合并假设集合中;将拼接符号插入第一合并假设集合中,拼接符号包括窗口改变(WC)符号;以及利用基于网络的假设拼接器将第一合并假设集合汇总到第一汇总假设中。公开了多种变型,包括基于对齐的拼接器和串行拼接器,它们可以操作为特定于说话者的拼接器或多说话者拼接器,并且还可以支持用于不同假设配置的多个选项。

    在多说话者音频流上训练和使用转录生成模型

    公开(公告)号:CN118451496A

    公开(公告)日:2024-08-06

    申请号:CN202280080966.3

    申请日:2022-10-27

    Abstract: 转录生成模型从多说话者音频流生成转录。获得包括多个说话者的重叠语音的音频数据,并且使用音频数据编码器从所获得的音频数据的音频数据帧生成帧嵌入集合。使用转录生成模型从帧嵌入集合生成词集合和通道改变(CC)符号。CC符号被包括在由不同人同时说出的相邻词对之间。词集合和CC符号被变换为多个转录行,其中基于CC符号将词集合中的词归类到转录行中,并且基于多个转录行来生成多说话者转录。由模型对CC符号的包括实现高效、准确的多说话者转录。

Patent Agency Ranking