Patent search ap:("东南大学") AND inv:"孟凡满" Page 1

1.

发明公开
一种提升合成音频自然度以及降噪的方法审中-公开

公开(公告)号：CN119785762A

公开(公告)日：2025-04-08

申请号：CN202510003560.0

申请日：2025-01-02

Applicant: 东南大学

Inventor： 孟凡满 , 伍家松 , 杨淳沨 , 孔佑勇 , 董志芳 , 陈阳 , 舒华忠

IPC: G10L13/027 , G10L13/08 , G10L21/0208 , G10L25/30

Abstract: 本发明涉及一种提升合成音频自然度以及降噪的方法，包括以下步骤：步骤1，构建音素编码器，步骤2，构建方差适配器，步骤3，构建频谱降噪器，实现提升合成音频自然度以及降噪；该方案提出在音素编码器阶段，加入基于Transformer的双向编码器，能够利用较少的训练资源，完成语音合成模型的训练；本发明首次将具有选择性状态空间的线性时间序列建模用于语音合成任务，借助于小波分解在图像去噪领域的应用，将其引入语音合成网络，成功地减少了生成音频的噪声。

2.

发明公开
一种文本驱动视频生成系统的实现方法有权

公开(公告)号：CN116403559A

公开(公告)日：2023-07-07

申请号：CN202310330246.4

申请日：2023-03-30

Applicant: 东南大学

Inventor： 孟凡满 , 伍家松 , 杨淳沨 , 孔佑勇 , 章品正 , 杨冠羽 , 陈阳 , 舒华忠

IPC: G10L13/02 , H04N21/4627 , H04N21/439 , H04N21/44

Abstract: 本发明公开了一种文本驱动视频生成系统的实现方法，该方法把语音合成系统、视频生成系统集成到了一个系统。语音合成系统采用动态Web技术的JSP页面，通过执行后端服务器训练完成的语音合成模型，完成语音的生成，再通过框架把语音传送到前端，其中还增加了新增、删除、查询、批量删除、合成语音下载、合成语音变速等模块。视频生成系统以语音合成系统为基石，既可以采用语音合成系统生成的语音，也可以采用任意用户上传的语音，以及任意一张人脸图片，通过JSP页面将语音和图片传送到后端服务器，后端加载训练完成的视频生成模型，完成视频的生成，再通过框架把视频传送到前端，从而实现了完整的文本驱动视频生成系统。

3.

发明公开
一种军事新闻视频中自动裁剪的语音合成数据集制作方法审中-实审

公开(公告)号：CN116208801A

公开(公告)日：2023-06-02

申请号：CN202310242449.8

申请日：2023-03-14

Applicant: 东南大学

Inventor： 孟凡满 , 伍家松 , 杨淳沨 , 孔佑勇 , 章品正 , 陈阳 , 董志芳 , 舒华忠

IPC: H04N21/439 , H04N21/44 , G10L13/08 , G10L13/02 , H04N21/2187 , H04N21/478

Abstract: 本发明公开了一种军事新闻视频中自动裁剪的语音合成数据集制作方法，该方法采用FFmpeg对视频的原始语音模态、视频模态进行提取，基于语音的pcm文件判断是否存在静默段，对静默段语音进行删除，基于科大讯飞的语音转文字功能，对每个语音文件进行文字转换，为了适应语音合成模型，还需要每段文字对应的拼音以及对齐的音素，基于python的pypinyin库，完成文字到拼音的转换，基于MFA模型、普通话模型、普通话词典完成音素对齐任务，实现军事新闻视频中自动裁剪出语音合成数据集的工作。通过设计的合理的流程和使用高效的算法，提高了构建高质量用于军事语音合成任务的数据集的效率，并能够方便地推广到其他任意场景下的语音合成数据集制作中。

4.

发明公开
一种包含戴口罩人脸的语音分离数据集制作方法审中-实审

公开(公告)号：CN115205920A

公开(公告)日：2022-10-18

申请号：CN202210228919.0

申请日：2022-03-08

Applicant: 东南大学

Inventor： 伍家松 , 孟凡满 , 舒华忠 , 孔佑勇 , 杨冠羽 , 杨淳沨 , 姜龙玉 , 章品正

IPC: G06V40/16 , G06V20/40 , G06V10/74 , G06V10/764 , G06V10/82 , G06K9/62 , G06N3/04 , G10L21/0272

Abstract: 本发明公开了一种利用新闻发布会视频制作包含戴口罩人脸的语音分离数据集的方法，该方法：把新闻发布会视频裁剪为图像、视频以及语音三个模态的数据集合，基于戴口罩检测预训练模型，获取到每一帧都戴口罩的画面，从而组成戴口罩的视频，以此为数据源，再基于感知哈希算法把视频关键帧与自定义人脸特征库进行比对，实现视频裁剪与分类的过程全自动。本发明通过利用自定义的人脸库裁剪新闻发布会视频中的多模态数据，提高构建包含戴口罩人脸的语音分离数据集的效率。

5.

发明授权
一种文本驱动视频生成系统的实现方法有权

公开(公告)号：CN116403559B

公开(公告)日：2025-01-24

申请号：CN202310330246.4

申请日：2023-03-30

Applicant: 东南大学

Inventor： 孟凡满 , 伍家松 , 杨淳沨 , 孔佑勇 , 章品正 , 杨冠羽 , 陈阳 , 舒华忠

IPC: G10L13/02 , H04N21/4627 , H04N21/439 , H04N21/44

Abstract: 本发明公开了一种文本驱动视频生成系统的实现方法，该方法把语音合成系统、视频生成系统集成到了一个系统。语音合成系统采用动态Web技术的JSP页面，通过执行后端服务器训练完成的语音合成模型，完成语音的生成，再通过框架把语音传送到前端，其中还增加了新增、删除、查询、批量删除、合成语音下载、合成语音变速等模块。视频生成系统以语音合成系统为基石，既可以采用语音合成系统生成的语音，也可以采用任意用户上传的语音，以及任意一张人脸图片，通过JSP页面将语音和图片传送到后端服务器，后端加载训练完成的视频生成模型，完成视频的生成，再通过框架把视频传送到前端，从而实现了完整的文本驱动视频生成系统。

Patent Agency Ranking