一种基于堆栈记忆网络的多模态语音合成方法及系统

    公开(公告)号:CN116543749A

    公开(公告)日:2023-08-04

    申请号:CN202310814315.9

    申请日:2023-07-05

    Abstract: 本发明提供一种基于堆栈记忆网络的多模态语音合成方法及系统,涉及视频和语音处理技术领域,包括:用视频信息辅助从文本中合成具有视听同步性的语音。从人脸中提取说话人特性,即利用人脸控制合成语音的音色。在训练和推理时,通过引入的视频‑语音堆栈记忆网络,显式的利用视频检索对应语音,并从检索得到的语音中提取风格特征,解决多模态TTS模块训练‑推理风格不匹配的问题并增强合成音频的表现性,定制个性化语音。本发明引入视频‑语音堆栈记忆网络显式的连接视频和语音两个模态,而非利用距离损失去最小化不同模态信息提取的特征之间的距离。

    声纹识别模型的训练方法、声纹识别方法、装置及设备

    公开(公告)号:CN115424621B

    公开(公告)日:2023-04-07

    申请号:CN202211349630.0

    申请日:2022-10-31

    Abstract: 本发明实施例涉及一种声纹识别模型的训练方法、声纹识别方法、装置及设备,涉及语音识别领域,通过迭代执行对所述当前语音数据子集中的语音数据进行预处理,获得语音片段;确定第一对比正对和对比负对;将每个语音片段输入到上一迭代获得的深度残差网络模型中,获得对应的说话人嵌入;针对每个说话人嵌入,从预设说话人嵌入队列中确定对应的最近邻正实例,并确定第二对比正对;根据所述第一对比正对、第二对比正对和对比负对对所述上一迭代获得的深度残差网络模型进行训练,获得当前深度残差网络模型;即本发明的实施例通过额外引入的说话人嵌入队列,选取最近邻正实例来构成额外的对比正对,使得训练出的声纹识别模型准确性更高。

    车载环境下基于图卷积神经网络的异常驾驶行为识别方法

    公开(公告)号:CN112329689A

    公开(公告)日:2021-02-05

    申请号:CN202011280953.X

    申请日:2020-11-16

    Abstract: 本发明提供了一种车载环境下基于图卷积神经网络的异常驾驶行为识别方法,涉及计算机视觉技术领域,能够对人体细微行为和相似性行为做出有效识别,提高异常驾驶行为的识别能力;该方法采用改进型时空卷积网络和新型循环神经网络相结合的方式识别人体行为;改进型时空卷积网络在原有时空卷积网络的基础上进一步增加关节数量来改进空间拓扑图,提取多帧骨架序列片段的时空特征信息,再使用引入了长短期记忆的神经网络提取不同骨架序列片段的时间语义信息,以提取出的所有信息为依据进行驾驶行为的识别。本发明提供的技术方案适用于人体行为识别的过程中。

    车载环境下基于图卷积神经网络的异常驾驶行为识别方法

    公开(公告)号:CN112329689B

    公开(公告)日:2024-06-18

    申请号:CN202011280953.X

    申请日:2020-11-16

    Abstract: 本发明提供了一种车载环境下基于图卷积神经网络的异常驾驶行为识别方法,涉及计算机视觉技术领域,能够对人体细微行为和相似性行为做出有效识别,提高异常驾驶行为的识别能力;该方法采用改进型时空卷积网络和新型循环神经网络相结合的方式识别人体行为;改进型时空卷积网络在原有时空卷积网络的基础上进一步增加关节数量来改进空间拓扑图,提取多帧骨架序列片段的时空特征信息,再使用引入了长短期记忆的神经网络提取不同骨架序列片段的时间语义信息,以提取出的所有信息为依据进行驾驶行为的识别。本发明提供的技术方案适用于人体行为识别的过程中。

    一种多模态的表现性语音合成方法及装置

    公开(公告)号:CN116386590A

    公开(公告)日:2023-07-04

    申请号:CN202310613237.6

    申请日:2023-05-29

    Abstract: 本发明公开了一种多模态的表现性语音合成方法及装置,属于语音合成技术领域,方法包括:将噪声语谱图和与噪声语谱图对应的第一无声视频序列输入至噪声掩码编码器,通过噪声掩码编码器获得去噪掩码;将第二无声视频序列输入至多尺度风格编码器,通过多尺度风格编码器提供多尺度的风格嵌入;将文本信息输入至文本编码器,通过文本编码器获得文本信息嵌入;文本信息嵌入序列经过变量适配器的处理,获得帧级别的语音特征;将帧级别的语音特征与去噪掩码相乘,获得去噪后的帧级别的语音特征;将去噪后的帧级别的语音特征与风格嵌入在通道维度上进行拼接;将拼接得到的特征序列输入至解码器,通过解码器合成干净的语谱图。

    一种基于特征洗牌的低资源车牌识别方法及装置

    公开(公告)号:CN118351524B

    公开(公告)日:2025-02-11

    申请号:CN202410477685.2

    申请日:2024-04-19

    Abstract: 本发明涉及人工智能与计算机视觉技术领域,特别是指一种基于特征洗牌的低资源车牌识别方法及装置,方法包括:获取车牌图像的样本数据集;构建初始的车牌识别模型;车牌识别模型包括:全局感知编码器、特征洗牌模块以及解码器模块;将样本数据集输入初始的车牌识别模型中,通过全局感知编码器对样本数据进行特征提取,获得全局视觉特征,通过特征洗牌模块对初始的阅读顺序进行洗牌,获得洗牌后的空间关注特征;将空间关注特征输入解码器,获得预测结果;根据预测结果,采用最小化损失函数训练模型,获得训练好的车牌识别模型;获取待识别的车牌图像数据并输入训练好的车牌识别模型中,获得预测车牌号码。采用本发明,可提高低资源车牌识别的性能。

    一种基于局部注意力机制的人脸活体检测方法及装置

    公开(公告)号:CN117133059A

    公开(公告)日:2023-11-28

    申请号:CN202311045752.5

    申请日:2023-08-18

    Abstract: 本发明提供一种基于局部注意力机制的人脸活体检测方法和装置,方法包括:S1、将人脸活体检测数据集中的视频进行预处理,得到预处理后的图片数据;S2、在图像分类数据集ImageNet上预训练的视觉Transformer模型Vi T中,插入局部注意力Patch Attent i on模块和新的MLP分类头,再使用所述预处理后的图片数据对新的视觉Transformer模型进行微调,得到训练完成的Vi T*模型;S3、使用所述Vi T*模型作为教师网络,指导插入局部注意力Patch Attent i on模块的轻量级Vi T‑T i ny模型学习,训练得到最终的Vi T‑T i ny*模型;S4、使用最终的Vi T‑T i ny*模型进行推理,判断待检测图片是否为真实人脸。本发明对演示攻击具有良好的分辨能力,从而提升模型检测精度。

    一种基于堆栈记忆网络的多模态语音合成方法及系统

    公开(公告)号:CN116543749B

    公开(公告)日:2023-09-15

    申请号:CN202310814315.9

    申请日:2023-07-05

    Abstract: 本发明提供一种基于堆栈记忆网络的多模态语音合成方法及系统,涉及视频和语音处理技术领域,包括:用视频信息辅助从文本中合成具有视听同步性的语音。从人脸中提取说话人特性,即利用人脸控制合成语音的音色。在训练和推理时,通过引入的视频‑语音堆栈记忆网络,显式的利用视频检索对应语音,并从检索得到的语音中提取风格特征,解决多模态TTS模块训练‑推理风格不匹配的问题并增强合成音频的表现性,定制个性化语音。本发明引入视频‑语音堆栈记忆网络显式的连接视频和语音两个模态,而非利用距离损失去最小化不同模态信息提取的特征之间的距离。

Patent Agency Ranking