-
公开(公告)号:CN119785762A
公开(公告)日:2025-04-08
申请号:CN202510003560.0
申请日:2025-01-02
Applicant: 东南大学
IPC: G10L13/027 , G10L13/08 , G10L21/0208 , G10L25/30
Abstract: 本发明涉及一种提升合成音频自然度以及降噪的方法,包括以下步骤:步骤1,构建音素编码器,步骤2,构建方差适配器,步骤3,构建频谱降噪器,实现提升合成音频自然度以及降噪;该方案提出在音素编码器阶段,加入基于Transformer的双向编码器,能够利用较少的训练资源,完成语音合成模型的训练;本发明首次将具有选择性状态空间的线性时间序列建模用于语音合成任务,借助于小波分解在图像去噪领域的应用,将其引入语音合成网络,成功地减少了生成音频的噪声。
-
公开(公告)号:CN116403559A
公开(公告)日:2023-07-07
申请号:CN202310330246.4
申请日:2023-03-30
Applicant: 东南大学
IPC: G10L13/02 , H04N21/4627 , H04N21/439 , H04N21/44
Abstract: 本发明公开了一种文本驱动视频生成系统的实现方法,该方法把语音合成系统、视频生成系统集成到了一个系统。语音合成系统采用动态Web技术的JSP页面,通过执行后端服务器训练完成的语音合成模型,完成语音的生成,再通过框架把语音传送到前端,其中还增加了新增、删除、查询、批量删除、合成语音下载、合成语音变速等模块。视频生成系统以语音合成系统为基石,既可以采用语音合成系统生成的语音,也可以采用任意用户上传的语音,以及任意一张人脸图片,通过JSP页面将语音和图片传送到后端服务器,后端加载训练完成的视频生成模型,完成视频的生成,再通过框架把视频传送到前端,从而实现了完整的文本驱动视频生成系统。
-
公开(公告)号:CN116208801A
公开(公告)日:2023-06-02
申请号:CN202310242449.8
申请日:2023-03-14
Applicant: 东南大学
IPC: H04N21/439 , H04N21/44 , G10L13/08 , G10L13/02 , H04N21/2187 , H04N21/478
Abstract: 本发明公开了一种军事新闻视频中自动裁剪的语音合成数据集制作方法,该方法采用FFmpeg对视频的原始语音模态、视频模态进行提取,基于语音的pcm文件判断是否存在静默段,对静默段语音进行删除,基于科大讯飞的语音转文字功能,对每个语音文件进行文字转换,为了适应语音合成模型,还需要每段文字对应的拼音以及对齐的音素,基于python的pypinyin库,完成文字到拼音的转换,基于MFA模型、普通话模型、普通话词典完成音素对齐任务,实现军事新闻视频中自动裁剪出语音合成数据集的工作。通过设计的合理的流程和使用高效的算法,提高了构建高质量用于军事语音合成任务的数据集的效率,并能够方便地推广到其他任意场景下的语音合成数据集制作中。
-
公开(公告)号:CN115205920A
公开(公告)日:2022-10-18
申请号:CN202210228919.0
申请日:2022-03-08
Applicant: 东南大学
IPC: G06V40/16 , G06V20/40 , G06V10/74 , G06V10/764 , G06V10/82 , G06K9/62 , G06N3/04 , G10L21/0272
Abstract: 本发明公开了一种利用新闻发布会视频制作包含戴口罩人脸的语音分离数据集的方法,该方法:把新闻发布会视频裁剪为图像、视频以及语音三个模态的数据集合,基于戴口罩检测预训练模型,获取到每一帧都戴口罩的画面,从而组成戴口罩的视频,以此为数据源,再基于感知哈希算法把视频关键帧与自定义人脸特征库进行比对,实现视频裁剪与分类的过程全自动。本发明通过利用自定义的人脸库裁剪新闻发布会视频中的多模态数据,提高构建包含戴口罩人脸的语音分离数据集的效率。
-
公开(公告)号:CN116403559B
公开(公告)日:2025-01-24
申请号:CN202310330246.4
申请日:2023-03-30
Applicant: 东南大学
IPC: G10L13/02 , H04N21/4627 , H04N21/439 , H04N21/44
Abstract: 本发明公开了一种文本驱动视频生成系统的实现方法,该方法把语音合成系统、视频生成系统集成到了一个系统。语音合成系统采用动态Web技术的JSP页面,通过执行后端服务器训练完成的语音合成模型,完成语音的生成,再通过框架把语音传送到前端,其中还增加了新增、删除、查询、批量删除、合成语音下载、合成语音变速等模块。视频生成系统以语音合成系统为基石,既可以采用语音合成系统生成的语音,也可以采用任意用户上传的语音,以及任意一张人脸图片,通过JSP页面将语音和图片传送到后端服务器,后端加载训练完成的视频生成模型,完成视频的生成,再通过框架把视频传送到前端,从而实现了完整的文本驱动视频生成系统。
-
-
-
-