-
公开(公告)号:CN107437417B
公开(公告)日:2020-02-14
申请号:CN201710651866.2
申请日:2017-08-02
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及语音识别处理领域,提出了一种基于循环神经网络的语音数据增强的方法,旨在解决循环神经网络在语音识别中由于模拟语音识别中不规则语法现象引起的过度建模词间依赖的问题。该方法包括:从输入的语音数据中提取标识语音的各个频率能量值的声学特征,生成声学特征向量;根据预设的标注文件和声学特征向量获得语音数据的语句标签序列;通过决策聚类预设的标注文件和语句标签序列获得决策聚类操作后的对齐文件;生成一个[0,1]之间的第一随机数γ,并与预设的调整比例α比较;如果第一随机数γ大于调整比例α,在边界文件所指示的位置对上述语音数据进行增强处理。该方法够快速、方便地增加训练数据中不规则的口语化现象。
-
公开(公告)号:CN100423929C
公开(公告)日:2008-10-08
申请号:CN200510093317.5
申请日:2005-08-25
Applicant: 中国科学院自动化研究所
IPC: B29C45/78
Abstract: 本发明涉及自适应温度控制技术领域,特别是一种用于注射模塑成型机的基于专家规则的自适应温度控制方法及其电路。整个系统由数据采集系统、规则库、知识库、自适应算法以及控制输出单元组成,具体如下:1)温度数据获取;2)专家规则库与知识库;3)参数自适应调整;4)控制输出。电路包括隔离输出电路(1)、达林顿驱动(2)、继电器输出(3)、过流保护电路(4)、输出滤波电路(5)、交流接触器输出(6)。该方法满足高精度注塑要求,稳定性和鲁棒性高,能够显著提高产品的正品率。
-
公开(公告)号:CN1919579A
公开(公告)日:2007-02-28
申请号:CN200510093317.5
申请日:2005-08-25
Applicant: 中国科学院自动化研究所
IPC: B29C45/78
Abstract: 本发明涉及自适应温度控制技术领域,特别是一种用于注射模塑成型机的基于专家规则的自适应温度控制方法及其电路。整个系统由数据采集系统、规则库、知识库、自适应算法以及控制输出单元组成,具体如下:1)温度数据获取;2)专家规则库与知识库;3)参数自适应调整;4)控制输出。电路包括隔离输出电路(1)、达林顿驱动(2)、继电器输出(3)、过流保护电路(4)、输出滤波电路(5)、交流接触器输出(6)。该方法满足高精度注塑要求,稳定性和鲁棒性高,能够显著提高产品的正品率。
-
公开(公告)号:CN116504248A
公开(公告)日:2023-07-28
申请号:CN202310345272.4
申请日:2023-03-31
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种基于层次化蒸馏的语音识别模型的训练方法、装置、电子设备和存储介质,其中方法包括:确定训练语音文本对,得到训练语音文本对对应的高阶声学表征,并确定训练语音文本对对应的语言学表征;基于预训练语言模型确定训练语音文本对的预训练语言学表征,并对高阶声学表征和预训练语言学表征进行归一化处理,得到第一归一表征和第二归一表征;基于第一归一表征和第二归一表征得到声学层次的第一蒸馏损失,以及基于语言学表征和预训练语言学表征得到语言学层次的第二蒸馏损失;基于声学层次的第一蒸馏损失和语言学层次的第二蒸馏损失,确定语音识别模型是否训练完成,并在训练完成时得到语音识别模型。提高了语音识别模型的识别准确率。
-
公开(公告)号:CN116110378B
公开(公告)日:2023-07-18
申请号:CN202310383270.4
申请日:2023-04-12
Applicant: 中国科学院自动化研究所
Abstract: 本申请提供一种模型训练方法、语音识别方法、装置和电子设备,涉及语音识别技术领域。该方法包括:获取基于连续整合发放CIF机制训练得到的语音识别模型,并基于语音识别模型中声学编码模块的模型参数和CIF模块的模型参数,分别对初始多模态语音识别模型中初始声学编码模块的模型参数和初始CIF模块的模型参数进行初始化;再基于语音样本、语音样本对应的视觉图像样本和文本样本对初始化后的多模态语音识别模型进行训练,使得训练出的多模态语音识别模型在进行语音识别时,在多模态语音识别中引入了情境视觉知识和情境语言知识,有效地提高了语音识别性能,拓展了多模态语音识别的边界。
-
公开(公告)号:CN116245080A
公开(公告)日:2023-06-09
申请号:CN202211600613.X
申请日:2022-12-12
Applicant: 中国科学院自动化研究所
IPC: G06F40/151 , G06F40/289 , G06F40/30 , G06F16/35 , G06F18/214 , G06N3/08 , G06N3/09
Abstract: 本发明提供一种基于强化学习的口语书面语转换方法、装置、设备和介质,其中方法包括:获取口语文本;将所述口语文本输入到转换模型中,得到所述转换模型输出的书面文本;所述转换模型是以样本口语文本中各分词的编辑操作为动作,以所述编辑操作执行所得的样本书面文本与所述样本口语文本之间的语义一致程度和/或所述样本书面文本的书面化程度为奖励,强化学习得到的。本发明提供的方法、装置、设备和介质,强化学习的过程脱离了标注数据不足的限制,并且语义一致程度和书面化程度给出了高层次、可解释的奖励,应用由此得到的转换模型进行文本转换,保证了口语文本到书面文本转换的可靠性和可解释性。
-
公开(公告)号:CN114064864A
公开(公告)日:2022-02-18
申请号:CN202110854064.8
申请日:2021-07-27
Applicant: 中国科学院自动化研究所
IPC: G06F16/332 , G06F16/33 , G06F16/36 , G06F40/126 , G06F40/30
Abstract: 本发明实施例涉及一种智能问答方法、装置、设备及存储介质,利用两种上下文感知变换为对话情景中的单词表示融入上下文信息;将对话情景与知识库语义信息分开存储;通过记忆网络对用户当前语句进行理解,并激活了当前的对话生成任务;工作记忆动态的控制长时记忆的“激活”,从长时记忆中读取当前任务相关的内容到短时存储中,然后基于启发式策略逐个词地生成当前回复。本发明能够将对话情景与知识库语义信息分开存储,并通过记忆推理的方式利用这两种存储的信息,可以高效地利用外部知识库信息,极大地提升了任务型对话生成的性能。
-
公开(公告)号:CN107315742A
公开(公告)日:2017-11-03
申请号:CN201710535661.8
申请日:2017-07-03
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供了一种具有人机对话功能的拟人化口语翻译方法,其包括以下步骤:对源语言语音进行智能语音识别,得到源语言文本;对源语言文本以及对话场景进行处理,进行拟人化人机对话沟通;进行机器翻译,得到翻译结果。本发明还提供了一种具有人机对话功能的拟人化口语翻译系统。本发明根据翻译任务需要在必要时跟用户进行人机对话,确切地获得能够显著提升复杂应用场景下用户的翻译体验,并提高翻译语义的准确度。
-
公开(公告)号:CN119557580A
公开(公告)日:2025-03-04
申请号:CN202410744135.2
申请日:2024-06-11
Applicant: 中国科学院自动化研究所
IPC: G06F18/20 , G06F18/213 , G06N3/092 , G06N3/045 , G06N3/0475 , G06N3/094 , G06F123/02
Abstract: 本发明提供一种环境状态新颖度评估方法、装置及存储介质。该环境状态新颖度评估方法包括:基于多组随机噪声与当前时刻的环境状态并利用环境状态转移函数获取每组随机噪声对应的下一时刻的低维环境特征预测值;环境状态转移函数用于根据当前时刻的环境状态预测下一时刻的低维环境特征;根据下一时刻的低维环境特征真实值和每组随机噪声对应的下一时刻的低维环境特征预测值计算平均误差,并将平均误差作为环境状态新颖度。本发明提供的环境状态新颖度评估方法、装置及存储介质,通过多组随机噪声求得环境状态特征的平均误差作为环境状态新颖度,避免单一模型的偶然性和多个并行模型的高能耗,提高环境状态新颖度衡量的准确度。
-
公开(公告)号:CN119129669A
公开(公告)日:2024-12-13
申请号:CN202411043452.8
申请日:2024-07-31
Applicant: 中国科学院自动化研究所
IPC: G06N3/0499 , G06N3/092 , G06N20/00 , G06N3/047
Abstract: 本发明提供一种多场景通用的决策方法和装置,应用于智能决策技术领域。该方法包括:获取当前时刻智能体的观测值和行动值;将所述观测值和所述行动值输入任务状态提示器模块,得到任务状态提示序列;将所述任务状态提示序列输入广义动力学模块,得到所述智能体的下一时刻的观测值;其中,所述广义动力学模块为基于变换器的循环状态空间模型。由于可以解决不同场景下动力学难以拟合的问题,因此可以提高多场景离线强化学习方法的学习回报率,从而实现决策方法的多场景通用需求。
-
-
-
-
-
-
-
-
-