-
公开(公告)号:CN117155583A
公开(公告)日:2023-12-01
申请号:CN202311379267.1
申请日:2023-10-24
Applicant: 清华大学 , 北京得意音通技术有限责任公司
Abstract: 本申请涉及模式识别技术领域,特别涉及一种非完整信息深度融合的多模态身份认证方法及系统,其中,方法包括:检测目标的人脸和语音;分别对人脸和语音进行分块得到多个人脸分块和多个语音分块,分别提出每个人脸分块的人脸浅层特征和每个语音分块的声纹浅层特征,并对人脸浅层特征和声纹浅层特征分别注入模态类别和分块位置信息;将注入信息后的人脸浅层特征和声纹浅层特征输入身份特征提取模型,身份特征提取模型输出人脸浅层特征和声纹浅层特征深度融合后的多模态身份特征,基于多模态身份特征对目标进行身份认证。解决了相关技术的多模态身份认证准确率和适应性差,影响实际使用体验等问题。
-
公开(公告)号:CN102637433A
公开(公告)日:2012-08-15
申请号:CN201110037314.5
申请日:2011-02-09
Abstract: 公开了一种生成语音情感模型的方法、设备以及识别语音信号中所承载的情感状态的方法、设备。生成语音情感模型的方法包括以下步骤:通过无监督聚类将标注为同一情感状态的多个情感语音样本聚类成n个子类,每个子类对应于同一情感状态的不同情感表达方式中的一种情感表达方式;以及为每个子类中的情感语音样本生成一个语音情感模型,从而得到分别对应于n个子类的n个语音情感模型,n个语音情感模型用于识别语音信号所承载的不同情感表达方式的情感状态,其中,n为大于或等于2的整数。
-
公开(公告)号:CN117155583B
公开(公告)日:2024-01-23
申请号:CN202311379267.1
申请日:2023-10-24
Applicant: 清华大学 , 北京得意音通技术有限责任公司
Abstract: 本申请涉及模式识别技术领域,特别涉及一种非完整信息深度融合的多模态身份认证方法及系统,其中,方法包括:检测目标的人脸和语音;分别对人脸和语音进行分块得到多个人脸分块和多个语音分块,分别提出每个人脸分块的人脸浅层特征和每个语音分块的声纹浅层特征,并对人脸浅层特征和声纹浅层特征分别注入模态类别和分块位置信息;将注入信息后的人脸浅层特征和声纹浅层特征输入身份特征提取模型,身份特征提取模型输出人脸浅层特征和声纹浅层特征深度融合后的多模态身份特征,基于多模态身份特征对目标进行身份认证。解决了相关技术的多模态身份认证准确率和适应性差,影响实际使用体验等问题。
-
公开(公告)号:CN114283824A
公开(公告)日:2022-04-05
申请号:CN202210201058.7
申请日:2022-03-02
Applicant: 清华大学 , 上海浦东发展银行股份有限公司
IPC: G10L19/16
Abstract: 本发明提供一种基于循环损失的语音转换方法及装置,所述方法包括:获取不同说话人的语音信息;将所述语音信息输入至训练好的语音转换模型中,基于所述语音转换模型的共享编码器和解码器转换为重构语音信息;获取所述重构语音与语音信息之间的循环损失,并基于所述循环损失对所述语音信息进行语音内容信息以及说话人风格信息的分离;其中,所述语音转换模型是基于不同语音样本以及样本的语音转换结果训练得到的。本发明能够基于循环损失实现语音内容信息以及说话人风格信息的分离,从而提高了语音转换的效率和语音转换质量。
-
公开(公告)号:CN118016238A
公开(公告)日:2024-05-10
申请号:CN202410095227.2
申请日:2024-01-23
Applicant: 清华大学 , 北京清华长庚医院 , 北京复数健康科技有限公司 , 富伯(北京)医疗科技有限公司
Abstract: 本发明实施例提供了一种肢体康复运动的评估与训练方法、系统、设备及介质,其中,该方法包括以下步骤:选择康复运动的评估内容并生成上肢与手的评估动作,向目标对象展示评估动作;在多个方位角度上分别采集第一影像数据并确定评估内容的评估结果;根据评估结果确定多个训练动作组构成训练方案;向目标对象展示训练方案中的所有训练动作;在目标对象执行训练动作进行运动的过程中,在多个方位角度上分别采集第二影像数据;将第二影像数据分别和训练影像数据进行对比,当存在差异时,输出用于纠正目标对象的训练动作的提示信息。该方案能够提供内容全面、操作简单、结果准确的智能化康复运动评估并为目标对象提供远程反馈式康复训练内容。
-
公开(公告)号:CN114283824B
公开(公告)日:2022-07-08
申请号:CN202210201058.7
申请日:2022-03-02
Applicant: 清华大学 , 上海浦东发展银行股份有限公司
IPC: G10L19/16
Abstract: 本发明提供一种基于循环损失的语音转换方法及装置,所述方法包括:获取不同说话人的语音信息;将所述语音信息输入至训练好的语音转换模型中,基于所述语音转换模型的共享编码器和解码器转换为重构语音信息;获取所述重构语音与语音信息之间的循环损失,并基于所述循环损失对所述语音信息进行语音内容信息以及说话人风格信息的分离;其中,所述语音转换模型是基于不同语音样本以及样本的语音转换结果训练得到的。本发明能够基于循环损失实现语音内容信息以及说话人风格信息的分离,从而提高了语音转换的效率和语音转换质量。
-
公开(公告)号:CN102637433B
公开(公告)日:2015-11-25
申请号:CN201110037314.5
申请日:2011-02-09
Abstract: 公开了一种生成语音情感模型的方法、设备以及识别语音信号中所承载的情感状态的方法、设备。生成语音情感模型的方法包括以下步骤:通过无监督聚类将标注为同一情感状态的多个情感语音样本聚类成n个子类,每个子类对应于同一情感状态的不同情感表达方式中的一种情感表达方式;以及为每个子类中的情感语音样本生成一个语音情感模型,从而得到分别对应于n个子类的n个语音情感模型,n个语音情感模型用于识别语音信号所承载的不同情感表达方式的情感状态,其中,n为大于或等于2的整数。
-
公开(公告)号:CN117133295B
公开(公告)日:2023-12-29
申请号:CN202311379225.8
申请日:2023-10-24
Applicant: 清华大学 , 北京得意音通技术有限责任公司
Abstract: 本申请涉及语音检测技术领域,特别涉及一种基于类脑感知和决策的伪造语音检测方法、装置及设备,包括:若待检测语音中存在至少一个伪造痕迹,则对每个伪造痕迹进行信息编码,基于信息编码确定每个伪造痕迹对应的伪造信息检测元,并将每个伪造痕迹分别输入至每个伪造痕迹对应的伪造信息检测元得到每个伪造痕迹的感知结果,计算感知结果对应的置信度分数,将置信度分数转换为刺激信息,基于置信度分数和刺激信息得到每个伪造信息检测元的信息值;根据每个伪造信息检测元的信息值判定待检测语音为是否为伪造语音。由此,解决了相关技术中的伪造语音检测算法过于依赖数据,缺少泛化性,检测结果缺少可解释性的问题,提高了检测方法的普适性、泛化性。
-
公开(公告)号:CN117133295A
公开(公告)日:2023-11-28
申请号:CN202311379225.8
申请日:2023-10-24
Applicant: 清华大学 , 北京得意音通技术有限责任公司
Abstract: 本申请涉及语音检测技术领域,特别涉及一种基于类脑感知和决策的伪造语音检测方法、装置及设备,包括:若待检测语音中存在至少一个伪造痕迹,则对每个伪造痕迹进行信息编码,基于信息编码确定每个伪造痕迹对应的伪造信息检测元,并将每个伪造痕迹分别输入至每个伪造痕迹对应的伪造信息检测元得到每个伪造痕迹的感知结果,计算感知结果对应的置信度分数,将置信度分数转换为刺激信息,基于置信度分数和刺激信息得到每个伪造信息检测元的信息值;根据每个伪造信息检测元的信息值判定待检测语音为是否为伪造语音。由此,解决了相关技术中的伪造语音检测算法过于依赖数据,缺少泛化性,检测结果缺少可解释性的问题,提高了检测方法的普适性、泛化性。
-
公开(公告)号:CN114333850B
公开(公告)日:2022-08-19
申请号:CN202210255312.1
申请日:2022-03-15
Applicant: 清华大学 , 上海浦东发展银行股份有限公司
Abstract: 本发明提供一种语音声纹可视化方法与装置,所述方法包括:获取说话者的语音信息,并获取语音信息的特征信息;将所述特征信息输入至训练好的声纹识别模型中,基于所述声纹识别模型的多层卷积层得到所述语音信息的层次性类激活热力图;其中,所述声纹识别模型是基于语音样本以及语音样本对应的说话人标签进行训练得到的。本发明能够根据层次性类激活热力图实现对语音声纹的可视化。
-
-
-
-
-
-
-
-
-