Patent search ap:("北京邮电大学") AND inv:"张益铭" Page 1

1.

发明授权
多模态信号内容分析方法、装置、电子设备及存储介质有权

公开(公告)号：CN115952255B

公开(公告)日：2023-12-05

申请号：CN202211457156.3

申请日：2022-11-21

Applicant: 北京邮电大学

Inventor： 马占宇 , 张益铭 , 杜若一 , 梁孔明

IPC: G06F16/33 , G06F16/35 , G06F40/289 , G06F16/683 , G06F16/783 , G06F18/22 , G06F18/241 , G06F18/2415 , G06N3/0464 , G06N3/047 , G06N3/08

Abstract: 本申请公开了一种多模态信号内容分析方法、装置、电子设备及存储介质。该多模态信号内容分析方法包括：获取音频‑视频信号对应的字幕词嵌入特征；利用预训练的字幕代理特征提取模型处理所述字幕词嵌入特征，得到字幕代理特征；基于所述字幕代理特征生成字幕。本申请实施例提供的多模态信号内容分析方法，利用预训练的字幕代理特征提取模型处理所述字幕词嵌入特征，得到字幕代理特征，基于字幕代理特征生成字幕，避免了由于字幕语义差异性对训练的影响，生成的字幕能够更好地描述音频‑视频信号的内容，克服了相关技术中没有考虑字幕差异

2.

发明公开
多模态信号内容分析方法、装置、电子设备及存储介质有权

公开(公告)号：CN115952255A

公开(公告)日：2023-04-11

申请号：CN202211457156.3

申请日：2022-11-21

Applicant: 北京邮电大学

Inventor： 马占宇 , 张益铭 , 杜若一 , 梁孔明

IPC: G06F16/33 , G06F16/35 , G06F40/289 , G06F16/683 , G06F16/783 , G06F18/22 , G06F18/241 , G06F18/2415 , G06N3/0464 , G06N3/047 , G06N3/08

Abstract: 本申请公开了一种多模态信号内容分析方法、装置、电子设备及存储介质。该多模态信号内容分析方法包括：获取音频‑视频信号对应的字幕词嵌入特征；利用预训练的字幕代理特征提取模型处理所述字幕词嵌入特征，得到字幕代理特征；基于所述字幕代理特征生成字幕。本申请实施例提供的多模态信号内容分析方法，利用预训练的字幕代理特征提取模型处理所述字幕词嵌入特征，得到字幕代理特征，基于字幕代理特征生成字幕，避免了由于字幕语义差异性对训练的影响，生成的字幕能够更好地描述音频‑视频信号的内容，克服了相关技术中没有考虑字幕差异性对音频‑视频字幕任务的影响所导致的不良影响。

3.

发明授权
音频信号内容分析方法、装置、设备及存储介质有权

公开(公告)号：CN117594060B

公开(公告)日：2024-12-03

申请号：CN202311435217.0

申请日：2023-10-31

Applicant: 北京邮电大学

Inventor： 马占宇 , 张益铭 , 杜若一 , 梁孔明

IPC: G10L25/27 , G10L25/30 , G10L25/03 , G10L25/24 , G10L25/21

Abstract: 本申请提出一种音频信号内容分析方法、设备及存储介质，该方法包括：获取待处理的目标音频信号的目标音频特征；基于目标嵌入特征和目标音频特征，确定当前时间步的特征概率分布，目标嵌入特征为前一时间步的描述词的原始词嵌入特征或者目标音频信号的预设词嵌入特征；基于特征概率分布从特征概率分布的多个潜在特征中选取当前时间步的目标潜在特征；基于多个时间步的目标词潜在特征和目标音频特征，生成目标音频信号对应的目标描述信息。本申请实施例实现了可以基于音频信号生成不同的描述信息。

4.

发明授权
低资源的音频字幕生成方法、装置、电子设备及介质有权

公开(公告)号：CN117809654B

公开(公告)日：2024-11-12

申请号：CN202311593526.0

申请日：2023-11-27

Applicant: 北京邮电大学

Inventor： 马占宇 , 张益铭 , 杜若一 , 梁孔明

IPC: G10L15/26 , G10L19/16 , G10L15/06

Abstract: 本申请公开了一种低资源的音频字幕生成方法、装置、电子设备及介质。通过应用本申请的技术方案，可以在一个包含语言编码器与音频编码器的多模态预训练模型中，首先利用样本量比较充足的文本数据，为已有的语言编码器训练得到一个语言解码器。并在后续将该语言编码器替换为音频编码器，以达到间接为音频编码器训练得到语言解码器的目的。以使后续仅用样本量较少的音频配对数据也能训练得到一个精度较高的音频多模态预训练模型。从而实现了一种在仅有少量可供训练音频‑字幕数据对的情况下，仍能取得较高模型性能的技术方案。

5.

发明公开
低资源的音频字幕生成方法、装置、电子设备及介质有权

公开(公告)号：CN117809654A

公开(公告)日：2024-04-02

申请号：CN202311593526.0

申请日：2023-11-27

Applicant: 北京邮电大学

Inventor： 马占宇 , 张益铭 , 杜若一 , 梁孔明

IPC: G10L15/26 , G10L19/16 , G10L15/06

Abstract: 本申请公开了一种低资源的音频字幕生成方法、装置、电子设备及介质。通过应用本申请的技术方案，可以在一个包含语言编码器与音频编码器的多模态预训练模型中，首先利用样本量比较充足的文本数据，为已有的语言编码器训练得到一个语言解码器。并在后续将该语言编码器替换为音频编码器，以达到间接为音频编码器训练得到语言解码器的目的。以使后续仅用样本量较少的音频配对数据也能训练得到一个精度较高的音频多模态预训练模型。从而实现了一种在仅有少量可供训练音频‑字幕数据对的情况下，仍能取得较高模型性能的技术方案。

6.

发明公开
音频信号内容分析方法、装置、设备及存储介质审中-实审

公开(公告)号：CN117594060A

公开(公告)日：2024-02-23

申请号：CN202311435217.0

申请日：2023-10-31

Applicant: 北京邮电大学

Inventor： 马占宇 , 张益铭 , 杜若一 , 梁孔明

IPC: G10L25/27 , G10L25/30 , G10L25/03 , G10L25/24 , G10L25/21

Abstract: 本申请提出一种音频信号内容分析方法、设备及存储介质，该方法包括：获取待处理的目标音频信号的目标音频特征；基于目标嵌入特征和目标音频特征，确定当前时间步的特征概率分布，目标嵌入特征为前一时间步的描述词的原始词嵌入特征或者目标音频信号的预设词嵌入特征；基于特征概率分布从特征概率分布的多个潜在特征中选取当前时间步的目标潜在特征；基于多个时间步的目标词潜在特征和目标音频特征，生成目标音频信号对应的目标描述信息。本申请实施例实现了可以基于音频信号生成不同的描述信息。

Patent Agency Ranking