-
公开(公告)号:CN115831119B
公开(公告)日:2023-07-21
申请号:CN202211561326.2
申请日:2022-12-07
Applicant: 湘潭大学
IPC: G10L15/26 , G06F16/783 , G10L21/0272 , G10L25/03 , G10L25/27
Abstract: 本发明公开了一种基于交叉注意力机制的说话人检测及字幕生成方法,涉及主动说话人检测以及字幕生成技术领域,包括以下步骤:(1)获取数据集;(2)设计算法模型,得到主动说话人检测及字幕生成模型;(3)对数据进行预处理;(4)使用设计的主动说话人检测及字幕生成模型对预处理过的数据进行训练,得到训练模型;(5)对主动说话人检测及字幕生成进行演示,将字幕生成结果展示在视频下方。通过设计模型的视觉时间编码器和音频时间编码器,在获取具有时空信息的音视频特征的同时,应用交叉注意力机制让音频信息和视频信息相互学习,让字幕生成器能够在多说话人场景下生成与说话人对应的字幕,并且在复杂的语音环境下仍能保持准确性。
-
公开(公告)号:CN116386142A
公开(公告)日:2023-07-04
申请号:CN202310347019.2
申请日:2023-04-03
Applicant: 湘潭大学
IPC: G06V40/20 , G06V20/40 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种基于Convformer的粤语句子级唇语识别方法,包括以下步骤:(1)构建粤语句子级唇语识别数据集;(2)设计算法模型;(3)对数据进行预处理,将处理过的视频信息和文本信息打包整合之后保存至可用于训练的npz文件中,生成训练文件;(4)使用设计的算法对预处理过的数据进行训练,得到训练模型;(5)用训练模型构建演示系统进行演示。本发明通过上述一种基于Convformer的粤语句子级唇语识别方法,能够捕获唇部序列的全局时间信息和局部时间信息,提升了粤语句子级唇语识别的精度。
-
公开(公告)号:CN115019772A
公开(公告)日:2022-09-06
申请号:CN202210636176.0
申请日:2022-06-07
Applicant: 湘潭大学
IPC: G10L15/00 , G10L21/02 , G10L15/16 , H04N21/8547 , G06V40/20 , G06V20/40 , G06V10/82 , G06V10/80 , G06N3/08 , G06N3/04 , G06K9/62 , G06F40/289
Abstract: 本发明公开了一种基于视觉信息的粤语语音识别增强方法,步骤如下:S1、构建数据集;S2、数据处理;S3、使用算法对预处理过的数据进行训练,得到训练模型。S4、利用训练模型在不同语音环境下对识别效果同纯音频模型进行对比。本发明采用上述的一种基于视觉信息的粤语语音识别增强方法,通过提出一种基于多尺度时间卷积网络的端到端音视频增强网络,利用视觉信息对粤语语音识别增强,有效的提升了在复杂的语音环境下的粤语语音识别效果。
-
公开(公告)号:CN114299418A
公开(公告)日:2022-04-08
申请号:CN202111507949.7
申请日:2021-12-10
Applicant: 湘潭大学
Abstract: 本发明公开了一种粤语唇读识别方法、设备以及存储介质,方法包括获取第一粤语视频片段;裁剪第一粤语视频片段中的无用片段,得到第二粤语视频片段;划分第二粤语视频片段中的视频序列和音频序列,对音频序列进行分词并生成分词时间戳,根据分词和分词时间戳生成标签;提取视频序列中的人脸图像,并过滤不完整的人脸图像,根据过滤后的人脸图像和标签生成样本图像;根据样本图像训练预设的粤语唇读识别模型,得到训练完成的粤语唇读识别模型;根据训练完成的粤语唇读识别模型识别目标视频序列,得到识别结果。本方法能够采集粤语单词级的唇读样本图像数据集,由于剔除了视频序列中的无用序列,能够提升训练后的模型的识别精度。
-
公开(公告)号:CN114299418B
公开(公告)日:2025-01-03
申请号:CN202111507949.7
申请日:2021-12-10
Applicant: 湘潭大学
IPC: G06V20/40 , G06V40/20 , G06V40/16 , G06V10/82 , G06N3/0442 , G06N3/045 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种粤语唇读识别方法、设备以及存储介质,方法包括获取第一粤语视频片段;裁剪第一粤语视频片段中的无用片段,得到第二粤语视频片段;划分第二粤语视频片段中的视频序列和音频序列,对音频序列进行分词并生成分词时间戳,根据分词和分词时间戳生成标签;提取视频序列中的人脸图像,并过滤不完整的人脸图像,根据过滤后的人脸图像和标签生成样本图像;根据样本图像训练预设的粤语唇读识别模型,得到训练完成的粤语唇读识别模型;根据训练完成的粤语唇读识别模型识别目标视频序列,得到识别结果。本方法能够采集粤语单词级的唇读样本图像数据集,由于剔除了视频序列中的无用序列,能够提升训练后的模型的识别精度。
-
公开(公告)号:CN115831119A
公开(公告)日:2023-03-21
申请号:CN202211561326.2
申请日:2022-12-07
Applicant: 湘潭大学
IPC: G10L15/26 , G06F16/783 , G10L21/0272 , G10L25/03 , G10L25/27
Abstract: 本发明公开了一种基于交叉注意力机制的说话人检测及字幕生成方法,涉及主动说话人检测以及字幕生成技术领域,包括以下步骤:(1)获取数据集;(2)设计算法模型,得到主动说话人检测及字幕生成模型;(3)对数据进行预处理;(4)使用设计的主动说话人检测及字幕生成模型对预处理过的数据进行训练,得到训练模型;(5)对主动说话人检测及字幕生成进行演示,将字幕生成结果展示在视频下方。通过设计模型的视觉时间编码器和音频时间编码器,在获取具有时空信息的音视频特征的同时,应用交叉注意力机制让音频信息和视频信息相互学习,让字幕生成器能够在多说话人场景下生成与说话人对应的字幕,并且在复杂的语音环境下仍能保持准确性。
-
-
-
-
-