-
公开(公告)号:CN116421187A
公开(公告)日:2023-07-14
申请号:CN202310328673.9
申请日:2023-03-30
Applicant: 之江实验室
Abstract: 本发明公开了一种基于言语层级序列的注意力缺陷多动障碍的分析系统,包括:语音序列生成模块,用于构建具有音节和词汇两层级的语音序列;脑电信号采集模块,使用音频输入设备向被测试者呈现语音序列,并使用脑电记录设备同步采集被测试者的脑电信号;脑电信号分析模块,对脑电信号进行处理得到脑电响应频谱,基于脑电响应频谱计算不同频率处脑电响应的试次间相位一致性,通过音节、词汇频率处的脑电响应相位一致性峰值判断被测试者是否存在注意力缺陷多动障碍。本发明系统具备便捷、高效的特性,通过脑电信号为注意力缺陷多动障碍的诊断与干预提供了良好的辅助作用,具有广泛的适用场景与适用人群。
-
公开(公告)号:CN118155624B
公开(公告)日:2025-03-28
申请号:CN202410431630.8
申请日:2024-04-11
Applicant: 之江实验室
Abstract: 本发明公开了一种基于视觉场景的多模态语音识别方法、电子设备、介质,包括:获取语音音频以及语音音频所处环境对应的场景视频;将其输入至预先训练好的视听特征编码模型进行特征提取,分别得到声学特征、视觉特征,经拼接与融合,得到视听融合特征;其中,视听特征编码模型的训练过程包括:获取初始声学特征、初始视觉特征,经拼接、融合后得到视听融合特征;对每段时间窗口内的视听融合特征进行聚类,得到聚类标签;随机选择部分时间窗口的视听融合特征进行掩蔽;利用未掩蔽时间窗口的视听融合特征对掩蔽时间窗口的聚类标签进行预测,完成训练过程;将视听融合特征输入至微调后的语音识别解码模型转换为语音文本,得到语音识别结果。
-
公开(公告)号:CN118155624A
公开(公告)日:2024-06-07
申请号:CN202410431630.8
申请日:2024-04-11
Applicant: 之江实验室
Abstract: 本发明公开了一种基于视觉场景的多模态语音识别方法、电子设备、介质,包括:获取语音音频以及语音音频所处环境对应的场景视频;将其输入至预先训练好的视听特征编码模型进行特征提取,分别得到声学特征、视觉特征,经拼接与融合,得到视听融合特征;其中,视听特征编码模型的训练过程包括:获取初始声学特征、初始视觉特征,经拼接、融合后得到视听融合特征;对每段时间窗口内的视听融合特征进行聚类,得到聚类标签;随机选择部分时间窗口的视听融合特征进行掩蔽;利用未掩蔽时间窗口的视听融合特征对掩蔽时间窗口的聚类标签进行预测,完成训练过程;将视听融合特征输入至微调后的语音识别解码模型转换为语音文本,得到语音识别结果。
-
公开(公告)号:CN116421187B
公开(公告)日:2023-10-13
申请号:CN202310328673.9
申请日:2023-03-30
Applicant: 之江实验室
Abstract: 本发明公开了一种基于言语层级序列的注意力缺陷多动障碍的分析系统,包括:语音序列生成模块,用于构建具有音节和词汇两层级的语音序列;脑电信号采集模块,使用音频输入设备向被测试者呈现语音序列,并使用脑电记录设备同步采集被测试者的脑电信号;脑电信号分析模块,对脑电信号进行处理得到脑电响应频谱,基于脑电响应频谱计算不同频率处脑电响应的试次间相位一致性,通过音节、词汇频率处的脑电响应相位一致性峰值判断被测试者是否存在注意力缺陷多动障碍。本发明系统具备便捷、高效的特性,通过脑电信号为注意力缺陷多动障碍的诊断与干预提供了良好的辅助作用,具有广泛的适用场景与适用人群。
-
-
-