音频信号内容分析方法、装置、设备及存储介质

    公开(公告)号:CN117594060B

    公开(公告)日:2024-12-03

    申请号:CN202311435217.0

    申请日:2023-10-31

    Abstract: 本申请提出一种音频信号内容分析方法、设备及存储介质,该方法包括:获取待处理的目标音频信号的目标音频特征;基于目标嵌入特征和目标音频特征,确定当前时间步的特征概率分布,目标嵌入特征为前一时间步的描述词的原始词嵌入特征或者目标音频信号的预设词嵌入特征;基于特征概率分布从特征概率分布的多个潜在特征中选取当前时间步的目标潜在特征;基于多个时间步的目标词潜在特征和目标音频特征,生成目标音频信号对应的目标描述信息。本申请实施例实现了可以基于音频信号生成不同的描述信息。

    低资源的音频字幕生成方法、装置、电子设备及介质

    公开(公告)号:CN117809654B

    公开(公告)日:2024-11-12

    申请号:CN202311593526.0

    申请日:2023-11-27

    Abstract: 本申请公开了一种低资源的音频字幕生成方法、装置、电子设备及介质。通过应用本申请的技术方案,可以在一个包含语言编码器与音频编码器的多模态预训练模型中,首先利用样本量比较充足的文本数据,为已有的语言编码器训练得到一个语言解码器。并在后续将该语言编码器替换为音频编码器,以达到间接为音频编码器训练得到语言解码器的目的。以使后续仅用样本量较少的音频配对数据也能训练得到一个精度较高的音频多模态预训练模型。从而实现了一种在仅有少量可供训练音频‑字幕数据对的情况下,仍能取得较高模型性能的技术方案。

    低资源的音频字幕生成方法、装置、电子设备及介质

    公开(公告)号:CN117809654A

    公开(公告)日:2024-04-02

    申请号:CN202311593526.0

    申请日:2023-11-27

    Abstract: 本申请公开了一种低资源的音频字幕生成方法、装置、电子设备及介质。通过应用本申请的技术方案,可以在一个包含语言编码器与音频编码器的多模态预训练模型中,首先利用样本量比较充足的文本数据,为已有的语言编码器训练得到一个语言解码器。并在后续将该语言编码器替换为音频编码器,以达到间接为音频编码器训练得到语言解码器的目的。以使后续仅用样本量较少的音频配对数据也能训练得到一个精度较高的音频多模态预训练模型。从而实现了一种在仅有少量可供训练音频‑字幕数据对的情况下,仍能取得较高模型性能的技术方案。

    音频信号内容分析方法、装置、设备及存储介质

    公开(公告)号:CN117594060A

    公开(公告)日:2024-02-23

    申请号:CN202311435217.0

    申请日:2023-10-31

    Abstract: 本申请提出一种音频信号内容分析方法、设备及存储介质,该方法包括:获取待处理的目标音频信号的目标音频特征;基于目标嵌入特征和目标音频特征,确定当前时间步的特征概率分布,目标嵌入特征为前一时间步的描述词的原始词嵌入特征或者目标音频信号的预设词嵌入特征;基于特征概率分布从特征概率分布的多个潜在特征中选取当前时间步的目标潜在特征;基于多个时间步的目标词潜在特征和目标音频特征,生成目标音频信号对应的目标描述信息。本申请实施例实现了可以基于音频信号生成不同的描述信息。

Patent Agency Ranking