-
公开(公告)号:CN113642522B
公开(公告)日:2022-02-08
申请号:CN202111021587.0
申请日:2021-09-01
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供基于音视频的疲劳状态检测方法和装置,包括:通过人脸识别技术在本地驾驶员档案数据库中确认目标驾驶员身份,如果没有对应人员信息,则新建驾驶员档案;在车辆驾驶过程中,采集目标驾驶员在驾驶过程中的音视频信息和生理信息,并提取出所述音视频信息和生理信息中与疲劳检测相关的数据,得到疲劳检测数据;面部视频信息、整体躯干部位视频信息和音频信息;根据疲劳检测数据和历史的疲劳检测数据对目标驾驶员当前状态进行分析,得出局部疲劳状态;根据局部疲劳状态,以及目标驾驶员当前持续驾驶时间,计算目标驾驶员综合疲劳状态并根据映射关系进行安全评价,根据安全评价的等级对所述目标驾驶员进行防疲劳驾驶示警操作。
-
公开(公告)号:CN113642540B
公开(公告)日:2022-01-28
申请号:CN202111195200.3
申请日:2021-10-14
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种基于胶囊网络的人脸表情识别方法及装置,其中方法包括:利用倒谱理论自动的评估图像清晰度,自动筛选出清晰图像;将筛选出清晰图像去除背景和非人脸区域,做图像裁剪;对图像裁剪后的图像提取局部特征人脸关键点,做图像校准;通过旋转、移动、倾斜、缩放和颜色抖动操作来扩充校准后的图像的数据集;将校准后的图像输入到胶囊网络中提取具有可解释性的人脸表情特征,具体方法包括:部件胶囊学习和部件胶囊融合;将具有可解释性的人脸表情特征输入到分类器中,得到人脸表情最后的分类结果。
-
公开(公告)号:CN113920989A
公开(公告)日:2022-01-11
申请号:CN202111516645.7
申请日:2021-12-13
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种语音识别与语音翻译端到端系统及电子设备,其中,系统包括:声学编码器、多任务解码器和语义不变性约束模块,同时完成识别系统与翻译系统这两个任务,另外根据不同任务的文本语义相同特点,对模型施加语义约束,学习高层次语义信息,语义信息可以有效提升语音识别与语音翻译的性能。本发明具有避免了串行系统的误差累积问题,同时模型的计算代价低,实时性很高;同时利用不同任务之间文本的语义一致性特点,对模型施加语义约束,学习高层次语义信息。
-
公开(公告)号:CN113469153B
公开(公告)日:2022-01-11
申请号:CN202111033403.2
申请日:2021-09-03
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供了一种基于微表情、肢体动作和语音的多模态情感识别方法,包括:第一步输入受试者接收某种信号的刺激的面部视频,对微表情进行识别;第二步输入受试者接收某种信号的刺激的身体视频,对肢体动作进行识别;第三步输入受试者接收某种信号的刺激的音频信号,对语音情感进行识别。将步骤第一步中的微表情识别结果和步骤第二步中肢体动作识别结果和第三步中的语音情感识别结果相融合,判断当前受试者的连续情感状态。本方法通过微表情识别出的情感和肢体动作识别和语音情感识别结果情感相结合,更准确的预测出受试者的情感状态。本发明的有益效果是:相较于现有技术,本发明可以更加准确的识别出人的真实情感。
-
公开(公告)号:CN113808579A
公开(公告)日:2021-12-17
申请号:CN202111383856.8
申请日:2021-11-22
Applicant: 中国科学院自动化研究所
Abstract: 本公开涉及一种生成语音的检测方法、装置、电子设备及存储介质,上述方法包括:获取待检测语音,并提取所述待检测语音的第一声学特征和第二声学特征;将所述第一声学特征输入语音识别模型,输出所述第一声学特征对应的文本序列;分别通过词嵌入模型与语音嵌入模型提取所述文本序列的词向量和音向量;对所述词向量和所述音向量进行拼接处理,得到第一融合特征,并将所述第一融合特征输入韵律节奏预测模型,输出韵律节奏特征;对所述第二声学特征和所述韵律节奏特征进行所述拼接处理,得到第二融合特征,并将所述第二融合特征输入语音检测模型,输出语音检测结果。
-
公开(公告)号:CN113274023B
公开(公告)日:2021-12-14
申请号:CN202110732115.X
申请日:2021-06-30
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供基于多角度分析的多模态精神状态评估的方法,包括:从原始视频中采集音频文件和视频文件,并对所述音频文件和视频文件进行数据预处理:从音频文件中提取时域波形点和梅尔频率倒谱系数作为音频特征;将图片序列输入到预训练网络,得到视频编码向量;提取图片序列的人脸运动单元;将视频编码向量和人脸运动单元作为视频特征;将音频特征和视频特征分别输入抑郁分析模块、焦虑分析模块和压力分析模块进行多角度分析,得到抑郁特征、焦虑特征和压力特征;将所述抑郁特征、焦虑特征和压力特征输入到融合分析模块进行注意力特征融合,得到融合特征;将融合特征输入支持向量回归,评估音频文件和视频文件中个体的精神状态。
-
公开(公告)号:CN113284485B
公开(公告)日:2021-11-09
申请号:CN202110777611.7
申请日:2021-07-09
Applicant: 中国科学院自动化研究所
IPC: G10L15/06 , G10L15/02 , G10L15/183 , G10L15/26
Abstract: 本发明提供通用的统一中英混合文本生成和语音识别的端到端系统,包括:声学编码器、音素编码器、判别器和解码器;所述音素编码器和所述判别器构成生成对抗网络,所述音素编码器作为所述生成对抗网络的生成器,所述判别器为所述生成对抗网络的判别器,所述声学编码器作为所述生成对抗网络的真实数据输入,以这种对抗生成网络来促使音素编码器输出的音素编码表示的分布接近声学编码器输出的声学编码表示,所述解码器将所述声学编码表示和所述音素编码表示融合,得到解码表示,再将所述解码表示输入到softmax函数得到概率最大的输出目标。
-
公开(公告)号:CN113283605B
公开(公告)日:2021-11-09
申请号:CN202110841128.0
申请日:2021-07-26
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供基于预训练模型的交叉聚焦损失的溯因推理方法,包括:将观测对O1和O2与所有假设的结合,得到输入序列;将输入序列中的单一输入变量输入预训练模型,得到对应句子级别的特征矩阵,然后对特征矩阵的单词维度求和,得到特征向量;遍历输入序列中所有单一输入变量,得到特征向量序列;将特征向量序列输入双向长短期记忆网络,获取到分布式特征表示,再利用全连接层进行映射求和得到每个输入的分数;将输入序列中N个标签为真的值分别与所有标签为假的值组成N组,并进行组内softmax,得到交叉预测值;引入聚类因子和引入权重因子,改进FocalLoss,得到训练损失函数;优化所述训练损失函数,得到最优的溯因推理模型。
-
公开(公告)号:CN113555037A
公开(公告)日:2021-10-26
申请号:CN202111103012.3
申请日:2021-09-18
Applicant: 中国科学院自动化研究所
Abstract: 本公开涉及一种篡改音频的篡改区域的检测方法、装置及存储介质,上述方法包括:获取待检测信号,并提取所述待检测信号的声学特征;将所述声学特征输入篡改区域检测模型,输出每帧所述待检测信号的标签,其中,所述篡改区域检测模型已通过训练,学习并保存有所述声学特征和所述标签的对应关系,所述标签用于表示所述待检测信号中每一帧信号是否被篡改;通过平均平滑策略对所述篡改区域检测模型输出的连续多帧所述待检测信号的标签进行处理,得到所述待检测信号被篡改的起始位置和终止位置。采用上述技术手段,解决现有技术中,根据音频的局部信息检测音频的篡改区域时,现有技术对音频的篡改区域检测准确率低的问题。
-
公开(公告)号:CN113257248A
公开(公告)日:2021-08-13
申请号:CN202110675286.3
申请日:2021-06-18
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种流式和非流式混合语音识别系统,包括:流式编码器、联结时序分类解码器和注意力机制解码器;流式编码器采用基于局部自注意力机制的Transformer来进行构建;联结时序分类解码器包含一个线性映射层,负责将编码状态映射到预先设计好的词表空间,使编码状态映射表示的维度与词表空间的维度相同,然后通过Softmax计算预测到的标记,用于流式解码;注意力机制解码器采用Transformer解码器来构建,由前端卷积层和多层重复的单向Transformer编码层组成,最后一层为线性映射层,使编码状态映射表示的维度与词表空间的维度相同,并计算最终输出的概率。
-
-
-
-
-
-
-
-
-