Patent search ap:("湘潭大学") AND inv:"田丕承" Page 1

1.

发明授权
一种基于交叉注意力机制的说话人检测及字幕生成方法有权

公开(公告)号：CN115831119B

公开(公告)日：2023-07-21

申请号：CN202211561326.2

申请日：2022-12-07

Applicant: 湘潭大学

Inventor： 肖业伟 , 刘烜铭 , 滕连伟 , 朱澳苏 , 田丕承 , 黄健

IPC: G10L15/26 , G06F16/783 , G10L21/0272 , G10L25/03 , G10L25/27

Abstract: 本发明公开了一种基于交叉注意力机制的说话人检测及字幕生成方法，涉及主动说话人检测以及字幕生成技术领域，包括以下步骤：(1)获取数据集；(2)设计算法模型，得到主动说话人检测及字幕生成模型；(3)对数据进行预处理；(4)使用设计的主动说话人检测及字幕生成模型对预处理过的数据进行训练，得到训练模型；(5)对主动说话人检测及字幕生成进行演示，将字幕生成结果展示在视频下方。通过设计模型的视觉时间编码器和音频时间编码器，在获取具有时空信息的音视频特征的同时，应用交叉注意力机制让音频信息和视频信息相互学习，让字幕生成器能够在多说话人场景下生成与说话人对应的字幕，并且在复杂的语音环境下仍能保持准确性。

2.

发明公开
一种基于Convformer的粤语句子级唇语识别方法审中-实审

公开(公告)号：CN116386142A

公开(公告)日：2023-07-04

申请号：CN202310347019.2

申请日：2023-04-03

Applicant: 湘潭大学

Inventor： 肖业伟 , 刘烜铭 , 滕连伟 , 朱澳苏 , 田丕承 , 黄健

IPC: G06V40/20 , G06V20/40 , G06V10/82 , G06N3/0464 , G06N3/08

Abstract: 本发明公开了一种基于Convformer的粤语句子级唇语识别方法，包括以下步骤：(1)构建粤语句子级唇语识别数据集；(2)设计算法模型；(3)对数据进行预处理，将处理过的视频信息和文本信息打包整合之后保存至可用于训练的npz文件中，生成训练文件；(4)使用设计的算法对预处理过的数据进行训练，得到训练模型；(5)用训练模型构建演示系统进行演示。本发明通过上述一种基于Convformer的粤语句子级唇语识别方法，能够捕获唇部序列的全局时间信息和局部时间信息，提升了粤语句子级唇语识别的精度。

3.

发明公开
一种基于交叉注意力机制的说话人检测及字幕生成方法有权

公开(公告)号：CN115831119A

公开(公告)日：2023-03-21

申请号：CN202211561326.2

申请日：2022-12-07

Applicant: 湘潭大学

Inventor： 肖业伟 , 刘烜铭 , 滕连伟 , 朱澳苏 , 田丕承 , 黄健

IPC: G10L15/26 , G06F16/783 , G10L21/0272 , G10L25/03 , G10L25/27

Abstract: 本发明公开了一种基于交叉注意力机制的说话人检测及字幕生成方法，涉及主动说话人检测以及字幕生成技术领域，包括以下步骤：(1)获取数据集；(2)设计算法模型，得到主动说话人检测及字幕生成模型；(3)对数据进行预处理；(4)使用设计的主动说话人检测及字幕生成模型对预处理过的数据进行训练，得到训练模型；(5)对主动说话人检测及字幕生成进行演示，将字幕生成结果展示在视频下方。通过设计模型的视觉时间编码器和音频时间编码器，在获取具有时空信息的音视频特征的同时，应用交叉注意力机制让音频信息和视频信息相互学习，让字幕生成器能够在多说话人场景下生成与说话人对应的字幕，并且在复杂的语音环境下仍能保持准确性。

4.

发明授权
一种粤语唇读识别方法、设备以及存储介质有权

公开(公告)号：CN114299418B

公开(公告)日：2025-01-03

申请号：CN202111507949.7

申请日：2021-12-10

Applicant: 湘潭大学

Inventor： 肖业伟 , 滕连伟 , 朱澳苏 , 刘烜铭 , 田丕承

IPC: G06V20/40 , G06V40/20 , G06V40/16 , G06V10/82 , G06N3/0442 , G06N3/045 , G06N3/0464 , G06N3/08

Abstract: 本发明公开了一种粤语唇读识别方法、设备以及存储介质，方法包括获取第一粤语视频片段；裁剪第一粤语视频片段中的无用片段，得到第二粤语视频片段；划分第二粤语视频片段中的视频序列和音频序列，对音频序列进行分词并生成分词时间戳，根据分词和分词时间戳生成标签；提取视频序列中的人脸图像，并过滤不完整的人脸图像，根据过滤后的人脸图像和标签生成样本图像；根据样本图像训练预设的粤语唇读识别模型，得到训练完成的粤语唇读识别模型；根据训练完成的粤语唇读识别模型识别目标视频序列，得到识别结果。本方法能够采集粤语单词级的唇读样本图像数据集，由于剔除了视频序列中的无用序列，能够提升训练后的模型的识别精度。

5.

发明公开
一种面向医院环境下语言障碍患者的唇语识别方法审中-实审

公开(公告)号：CN116959060A

公开(公告)日：2023-10-27

申请号：CN202310427059.8

申请日：2023-04-20

Applicant: 湘潭大学

Inventor： 肖业伟 , 朱澳苏 , 刘烜铭 , 腾连伟 , 田丕承 , 黄健

IPC: G06V40/16 , G06V20/40 , G06V10/77 , G06V10/774 , G06V10/82 , G06N3/0464 , G06N3/0499 , G06N3/045 , G06N3/048 , G06N3/08 , G10L15/25 , G10L15/26 , G06F40/211 , G06F40/289

Abstract: 本发明公开了一种面向医院环境下语言障碍患者的唇语识别方法，属于唇语识别技术领域，包括以下步骤：S1：构建医院中文唇读数据集；S2：构建中文句子唇读网络模型；S3：训练网络；S4：搭建演示系统实现唇语识别。本发明采用上述的一种面向医院环境下语言障碍患者的唇语识别方法，通过录制在病房环境下模拟暂时性语言障碍患者说话的视频作为源数据，然后将视频输入到中文唇语识别数据采集系统中制作数据集，通过这种数据生成的方式可以有效避免数据集本身出现错误的问题，提高训练模型的鲁棒性，填补了病房场景下唇语识别的研究的空白；基于Transformer结构，让模型能够有效的捕捉视频帧中的时空信息，提高唇语识别的精度。

6.

发明公开
一种基于视觉信息的粤语语音识别增强方法无效

公开(公告)号：CN115019772A

公开(公告)日：2022-09-06

申请号：CN202210636176.0

申请日：2022-06-07

Applicant: 湘潭大学

Inventor： 肖业伟 , 滕连伟 , 刘烜铭 , 朱澳苏 , 田丕承

IPC: G10L15/00 , G10L21/02 , G10L15/16 , H04N21/8547 , G06V40/20 , G06V20/40 , G06V10/82 , G06V10/80 , G06N3/08 , G06N3/04 , G06K9/62 , G06F40/289

Abstract: 本发明公开了一种基于视觉信息的粤语语音识别增强方法，步骤如下：S1、构建数据集；S2、数据处理；S3、使用算法对预处理过的数据进行训练，得到训练模型。S4、利用训练模型在不同语音环境下对识别效果同纯音频模型进行对比。本发明采用上述的一种基于视觉信息的粤语语音识别增强方法，通过提出一种基于多尺度时间卷积网络的端到端音视频增强网络，利用视觉信息对粤语语音识别增强，有效的提升了在复杂的语音环境下的粤语语音识别效果。

7.

发明公开
一种粤语唇读识别方法、设备以及存储介质有权

公开(公告)号：CN114299418A

公开(公告)日：2022-04-08

申请号：CN202111507949.7

申请日：2021-12-10

Applicant: 湘潭大学

Inventor： 肖业伟 , 滕连伟 , 朱澳苏 , 刘烜铭 , 田丕承

IPC: G06V20/40 , G06V40/20 , G06V40/16 , G06N3/04 , G06N3/08

Abstract: 本发明公开了一种粤语唇读识别方法、设备以及存储介质，方法包括获取第一粤语视频片段；裁剪第一粤语视频片段中的无用片段，得到第二粤语视频片段；划分第二粤语视频片段中的视频序列和音频序列，对音频序列进行分词并生成分词时间戳，根据分词和分词时间戳生成标签；提取视频序列中的人脸图像，并过滤不完整的人脸图像，根据过滤后的人脸图像和标签生成样本图像；根据样本图像训练预设的粤语唇读识别模型，得到训练完成的粤语唇读识别模型；根据训练完成的粤语唇读识别模型识别目标视频序列，得到识别结果。本方法能够采集粤语单词级的唇读样本图像数据集，由于剔除了视频序列中的无用序列，能够提升训练后的模型的识别精度。

8.

实用新型
一种手势识别结构有权转让

公开(公告)号：CN219493634U

公开(公告)日：2023-08-08

申请号：CN202320682184.9

申请日：2023-03-31

Applicant: 湘潭大学

Inventor： 肖业伟 , 田丕承

IPC: F16M11/04 , F16M11/18 , F16F15/08 , G06F3/01 , G06V40/20

Abstract: 本实用新型公开了手势识别领域的一种手势识别结构，包括底座、支撑杆和识别环，所述支撑杆固定连接于所述底座顶部中部，所述识别环通过调节机构固定连接于所述支撑杆顶部，所述识别环内侧底部内嵌有手势识别摄像模块，该手势识别结构，通过踩踏踏板使第一齿条下降，带动齿轮转动，带动第二齿条上升，使调节杆上升，从而使卡槽上升，对卡块进行挤压，使卡块退出卡槽内部，带动拉杆移动，使复位弹簧压缩，当卡块与下一个卡槽对齐时，通过复位弹簧的复原，使卡块卡接于该卡槽中，完成固定，从而便于对识别环的高度进行调节，便于不同身高的人群根据自己的身高进行调节高度，给用户带来良好的体验，体验感增加。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification