-
公开(公告)号:CN116269447A
公开(公告)日:2023-06-23
申请号:CN202310552371.X
申请日:2023-05-17
Applicant: 之江实验室
Abstract: 本发明公开了一种基于语音调制和脑电信号的言语认知评估系统,包括:语音序列生成模块,选择结构化语音材料并将其合成为语音序列,对语音序列进行调制得到若干种调制语音序列;结构化语音材料中的词汇按预设的频率呈现,每一种调制语音序列间的词汇节奏相位相同、声学节奏相位不同;脑电信号采集模块,使用音频输入设备向被测试者呈现所有调制语音序列,使用脑电记录设备同步采集被测试者的脑电信号;脑电信号分析模块,对脑电信号进行处理得到脑电响应频谱,分别提取所有调制语音序列对应的脑电响应频谱在词汇频率处的脑电响应相位;言语认知评估结果获取模块,计算不同种调制语音序列对应的脑电响应相位之差,判定言语认知评估结果。
-
公开(公告)号:CN116206755B
公开(公告)日:2023-08-22
申请号:CN202310501896.0
申请日:2023-05-06
Applicant: 之江实验室
IPC: G16H50/20 , G06F18/241 , G06F18/214 , G06N3/084 , G16H10/60 , G06N5/02
Abstract: 本发明公开了一种基于神经主题模型的疾病检测与知识发现装置,由预处理模块对数据进行预处理,将每个入院记录重建为半结构化文本数据集,并作为训练数据;然后将训练数据输入患者画像分析模块,优化参数,得到患者典型画像信息及可以提取患者画像分布表征的模型;再将患者画像分布表征作为训练数据训练分类模块,得到辅助诊断模型。本发明可基于患者入院记录文本提取可解释文本表征并完成高性能分类,同时完成辅助诊断任务与辅助知识发现任务,利用目前难以被充分使用的医疗文本信息辅助完成临床决策支持任务。
-
公开(公告)号:CN116269447B
公开(公告)日:2023-08-29
申请号:CN202310552371.X
申请日:2023-05-17
Applicant: 之江实验室
Abstract: 本发明公开了一种基于语音调制和脑电信号的言语认知评估系统,包括:语音序列生成模块,选择结构化语音材料并将其合成为语音序列,对语音序列进行调制得到若干种调制语音序列;结构化语音材料中的词汇按预设的频率呈现,每一种调制语音序列间的词汇节奏相位相同、声学节奏相位不同;脑电信号采集模块,使用音频输入设备向被测试者呈现所有调制语音序列,使用脑电记录设备同步采集被测试者的脑电信号;脑电信号分析模块,对脑电信号进行处理得到脑电响应频谱,分别提取所有调制语音序列对应的脑电响应频谱在词汇频率处的脑电响应相位;言语认知评估结果获取模块,计算不同种调制语音序列对应的脑电响应相位之差,判定言语认知评估结果。
-
公开(公告)号:CN116206755A
公开(公告)日:2023-06-02
申请号:CN202310501896.0
申请日:2023-05-06
Applicant: 之江实验室
IPC: G16H50/20 , G06F18/241 , G06F18/214 , G06N3/084 , G16H10/60 , G06N5/02
Abstract: 本发明公开了一种基于神经主题模型的疾病检测与知识发现装置,由预处理模块对数据进行预处理,将每个入院记录重建为半结构化文本数据集,并作为训练数据;然后将训练数据输入患者画像分析模块,优化参数,得到患者典型画像信息及可以提取患者画像分布表征的模型;再将患者画像分布表征作为训练数据训练分类模块,得到辅助诊断模型。本发明可基于患者入院记录文本提取可解释文本表征并完成高性能分类,同时完成辅助诊断任务与辅助知识发现任务,利用目前难以被充分使用的医疗文本信息辅助完成临床决策支持任务。
-
公开(公告)号:CN118155624B
公开(公告)日:2025-03-28
申请号:CN202410431630.8
申请日:2024-04-11
Applicant: 之江实验室
Abstract: 本发明公开了一种基于视觉场景的多模态语音识别方法、电子设备、介质,包括:获取语音音频以及语音音频所处环境对应的场景视频;将其输入至预先训练好的视听特征编码模型进行特征提取,分别得到声学特征、视觉特征,经拼接与融合,得到视听融合特征;其中,视听特征编码模型的训练过程包括:获取初始声学特征、初始视觉特征,经拼接、融合后得到视听融合特征;对每段时间窗口内的视听融合特征进行聚类,得到聚类标签;随机选择部分时间窗口的视听融合特征进行掩蔽;利用未掩蔽时间窗口的视听融合特征对掩蔽时间窗口的聚类标签进行预测,完成训练过程;将视听融合特征输入至微调后的语音识别解码模型转换为语音文本,得到语音识别结果。
-
公开(公告)号:CN118155624A
公开(公告)日:2024-06-07
申请号:CN202410431630.8
申请日:2024-04-11
Applicant: 之江实验室
Abstract: 本发明公开了一种基于视觉场景的多模态语音识别方法、电子设备、介质,包括:获取语音音频以及语音音频所处环境对应的场景视频;将其输入至预先训练好的视听特征编码模型进行特征提取,分别得到声学特征、视觉特征,经拼接与融合,得到视听融合特征;其中,视听特征编码模型的训练过程包括:获取初始声学特征、初始视觉特征,经拼接、融合后得到视听融合特征;对每段时间窗口内的视听融合特征进行聚类,得到聚类标签;随机选择部分时间窗口的视听融合特征进行掩蔽;利用未掩蔽时间窗口的视听融合特征对掩蔽时间窗口的聚类标签进行预测,完成训练过程;将视听融合特征输入至微调后的语音识别解码模型转换为语音文本,得到语音识别结果。
-
-
-
-
-