一种基于交叉注意力机制的说话人检测及字幕生成方法

    公开(公告)号:CN115831119B

    公开(公告)日:2023-07-21

    申请号:CN202211561326.2

    申请日:2022-12-07

    Applicant: 湘潭大学

    Abstract: 本发明公开了一种基于交叉注意力机制的说话人检测及字幕生成方法,涉及主动说话人检测以及字幕生成技术领域,包括以下步骤:(1)获取数据集;(2)设计算法模型,得到主动说话人检测及字幕生成模型;(3)对数据进行预处理;(4)使用设计的主动说话人检测及字幕生成模型对预处理过的数据进行训练,得到训练模型;(5)对主动说话人检测及字幕生成进行演示,将字幕生成结果展示在视频下方。通过设计模型的视觉时间编码器和音频时间编码器,在获取具有时空信息的音视频特征的同时,应用交叉注意力机制让音频信息和视频信息相互学习,让字幕生成器能够在多说话人场景下生成与说话人对应的字幕,并且在复杂的语音环境下仍能保持准确性。

    一种基于Convformer的粤语句子级唇语识别方法

    公开(公告)号:CN116386142A

    公开(公告)日:2023-07-04

    申请号:CN202310347019.2

    申请日:2023-04-03

    Applicant: 湘潭大学

    Abstract: 本发明公开了一种基于Convformer的粤语句子级唇语识别方法,包括以下步骤:(1)构建粤语句子级唇语识别数据集;(2)设计算法模型;(3)对数据进行预处理,将处理过的视频信息和文本信息打包整合之后保存至可用于训练的npz文件中,生成训练文件;(4)使用设计的算法对预处理过的数据进行训练,得到训练模型;(5)用训练模型构建演示系统进行演示。本发明通过上述一种基于Convformer的粤语句子级唇语识别方法,能够捕获唇部序列的全局时间信息和局部时间信息,提升了粤语句子级唇语识别的精度。

    基于深度卷积神经网络的绝缘子检测方法、装置及设备

    公开(公告)号:CN111862013A

    公开(公告)日:2020-10-30

    申请号:CN202010650667.1

    申请日:2020-07-08

    Applicant: 湘潭大学

    Abstract: 本申请涉及一种基于深度卷积神经网络的绝缘子检测方法、装置及设备,基于深度卷积神经网络的绝缘子检测方法包括:采集若干原始图像,并对原始图像进行预处理,构建样本训练集;基于RPN网络、倾斜NMS算法和角度因子,构建多角度候选区域网络结构;基于多角度候选区域网络结构,利用样本训练集对深度卷积神经网络进行训练,得到训练模型;利用训练模型对待识别图像进行识别,若待识别图像中存在绝缘子,则输出带有目标框的绝缘子图像。如此,有效提高了对绝缘子信息的提取精度,避免了在检测时对背景复杂且目标较小的绝缘子出现漏检的情况,也避免了绝缘子图像中因部分重叠或遮挡而造成的检测效果不佳的情况。

    一种自动低电阻测试装置

    公开(公告)号:CN105158575A

    公开(公告)日:2015-12-16

    申请号:CN201510509669.8

    申请日:2015-08-19

    Applicant: 湘潭大学

    Abstract: 一种自动低电阻测试装置,属电阻测试的技术领域,特别适用于火工品电阻测试;它包括主控单元1、恒流源模块2、测试通道切换电路3、信号调理电路4、模数转换电路5等;主控单元1根据对应测试项先后输出正、反测试通道的片选码控制测试通道切换电路3进行切换,使恒流源模块2的输出电流能流经被选通的火工品回路;信号调理电路4对被选通回路的端口电压进行滤波和差分放大;模数转换电路5采集相关的电压信号并送至主控单元1进行计算,得到被测项在不同方向测试电流下的电阻值,通过求平均值得到该项的测试结果;主控单元1依据预设测试顺序重复上述步骤完成其它测试项,实现对火工品电阻自动快速全面测试。

    一种基于交叉注意力机制的说话人检测及字幕生成方法

    公开(公告)号:CN115831119A

    公开(公告)日:2023-03-21

    申请号:CN202211561326.2

    申请日:2022-12-07

    Applicant: 湘潭大学

    Abstract: 本发明公开了一种基于交叉注意力机制的说话人检测及字幕生成方法,涉及主动说话人检测以及字幕生成技术领域,包括以下步骤:(1)获取数据集;(2)设计算法模型,得到主动说话人检测及字幕生成模型;(3)对数据进行预处理;(4)使用设计的主动说话人检测及字幕生成模型对预处理过的数据进行训练,得到训练模型;(5)对主动说话人检测及字幕生成进行演示,将字幕生成结果展示在视频下方。通过设计模型的视觉时间编码器和音频时间编码器,在获取具有时空信息的音视频特征的同时,应用交叉注意力机制让音频信息和视频信息相互学习,让字幕生成器能够在多说话人场景下生成与说话人对应的字幕,并且在复杂的语音环境下仍能保持准确性。

    一种粤语唇读识别方法、设备以及存储介质

    公开(公告)号:CN114299418B

    公开(公告)日:2025-01-03

    申请号:CN202111507949.7

    申请日:2021-12-10

    Applicant: 湘潭大学

    Abstract: 本发明公开了一种粤语唇读识别方法、设备以及存储介质,方法包括获取第一粤语视频片段;裁剪第一粤语视频片段中的无用片段,得到第二粤语视频片段;划分第二粤语视频片段中的视频序列和音频序列,对音频序列进行分词并生成分词时间戳,根据分词和分词时间戳生成标签;提取视频序列中的人脸图像,并过滤不完整的人脸图像,根据过滤后的人脸图像和标签生成样本图像;根据样本图像训练预设的粤语唇读识别模型,得到训练完成的粤语唇读识别模型;根据训练完成的粤语唇读识别模型识别目标视频序列,得到识别结果。本方法能够采集粤语单词级的唇读样本图像数据集,由于剔除了视频序列中的无用序列,能够提升训练后的模型的识别精度。

    基于深度卷积神经网络的绝缘子检测方法、装置及设备

    公开(公告)号:CN111862013B

    公开(公告)日:2024-02-02

    申请号:CN202010650667.1

    申请日:2020-07-08

    Applicant: 湘潭大学

    Abstract: 本申请涉及一种基于深度卷积神经网络的绝缘子检测方法、装置及设备,基于深度卷积神经网络的绝缘子检测方法包括:采集若干原始图像,并对原始图像进行预处理,构建样本训练集;基于RPN网络、倾斜NMS算法和角度因子,构建多角度候选区域网络结构;基于多角度候选区域网络结构,利用样本训练集对深度卷积神经网络进行训练,得到训练模型;利用训练模型对待识别图像进行识别,若待识别图像中存在绝缘子,则输出带有目标框的绝缘子图像。如此,有效提高了对绝缘子信息的提取精度,避免了在检测时对背景复杂且目标较小的绝缘子出现漏检的情况,也避免了绝缘子图像中因部分重叠或遮挡而造成的检测效果不佳的情况。

    基于级联卷积神经网络的销钉缺陷识别方法、装置和设备

    公开(公告)号:CN112837281A

    公开(公告)日:2021-05-25

    申请号:CN202110109172.2

    申请日:2021-01-27

    Applicant: 湘潭大学

    Abstract: 本申请涉及一种基于级联卷积神经网络的销钉缺陷识别方法、装置和设备。其中,所述方法包括:基于原始MTCNN算法进行改进,并构建改进后的MTCNN算法模型;在不同环境下利用无人机拍摄得到输电线路中连接处的电力金具图像样本,并对所述电力金具图像样本进行预处理,构建样本训练集;基于改进后的MTCNN算法模型,利用所述样本训练集对级联卷积神经网络进行训练,得到训练模型;利用所述训练模型对待识别图像进行销钉缺陷识别:将无人机巡检获取的电力金具图像输入所述训练模型中,获得销钉状态识别结果。如此设置,相对传统识别方法,本申请在识别速度和精度上都有较大的提高,模型在移动设备上的移植和应用也更具优势。

    基于级联卷积神经网络的销钉缺陷识别方法、装置和设备

    公开(公告)号:CN112837281B

    公开(公告)日:2022-10-28

    申请号:CN202110109172.2

    申请日:2021-01-27

    Applicant: 湘潭大学

    Abstract: 本申请涉及一种基于级联卷积神经网络的销钉缺陷识别方法、装置和设备。其中,所述方法包括:基于原始MTCNN算法进行改进,并构建改进后的MTCNN算法模型;在不同环境下利用无人机拍摄得到输电线路中连接处的电力金具图像样本,并对所述电力金具图像样本进行预处理,构建样本训练集;基于改进后的MTCNN算法模型,利用所述样本训练集对级联卷积神经网络进行训练,得到训练模型;利用所述训练模型对待识别图像进行销钉缺陷识别:将无人机巡检获取的电力金具图像输入所述训练模型中,获得销钉状态识别结果。如此设置,相对传统识别方法,本申请在识别速度和精度上都有较大的提高,模型在移动设备上的移植和应用也更具优势。

Patent Agency Ranking