-
公开(公告)号:CN119339282A
公开(公告)日:2025-01-21
申请号:CN202411213211.3
申请日:2024-08-30
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种基于脉冲Transformer网络的视觉信息识别方法,方法包括:获取待识别视觉信息的脉冲序列;基于脉冲Transformer网络,构建视觉信息识别模型;其中,采用傅里叶基函数或小波基函数中的一种或多种基函数,构建先验知识嵌入层;采用先验知识嵌入层替换所述脉冲Transformer网络中的注意力模块;将所述脉冲序列输入所述视觉信息识别模型中,得到所述待识别视觉信息的识别结果。本发明通过采用上述方法,解决相关技术中由于脉冲神经网络对于实数值的离散脉冲编码方式,导致使用脉冲Transformer网络的进行视觉信息识别时的准确率较低的问题。
-
公开(公告)号:CN114842834B
公开(公告)日:2024-11-05
申请号:CN202210346308.6
申请日:2022-03-31
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种语音文本联合预训练方法及系统,包括:将非成对语音数据和非成对文本数据输入至预训练联合模型中,得到初始损失总函数和初始训练联合模型;将非成对语音数据、非成对文本数据和成对语音文本数据输入初始训练联合模型,得到更新损失总函数和更新训练联合模型;将非成对语音数据、非成对文本数据和成对语音文本数据输入更新训练联合模型,得到最终损失总函数和最终训练联合模型。本发明利用非成对语音数据、非成对文本数据、成对语音文本数据对联合模型进行多次迭代训练,采用闭环言语链机理和连续累积发放机制,有效解决了非成对数据利用不充分问题,以及成对数据对齐关系学习不充分的问题。
-
公开(公告)号:CN117273098A
公开(公告)日:2023-12-22
申请号:CN202311165021.4
申请日:2023-09-11
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种自注意力运算方法、装置、电子设备及存储介质,应用于数据处理技术领域,该方法包括:获取第一脉冲矩阵、第二脉冲矩阵以及第三脉冲矩阵;对所述第一脉冲矩阵和所述第二脉冲矩阵进行第一注意力运算处理,得到第四脉冲矩阵;对所述第三脉冲矩阵和所述第四脉冲矩阵进行第二注意力运算处理,得到第五脉冲矩阵,所述第五脉冲矩阵的矩阵维度与所述第三脉冲矩阵的矩阵维度相同;其中,所述第一注意力运算和所述第二注意力运算均为全加法运算。
-
公开(公告)号:CN115393351B
公开(公告)日:2023-01-24
申请号:CN202211322197.1
申请日:2022-10-27
Applicant: 北京大学第三医院(北京大学第三临床医学院) , 中国科学院自动化研究所
IPC: G06T7/00 , G06T7/62 , G06V10/26 , G06V10/774 , G06V10/82
Abstract: 本发明提供了一种基于朗格汉斯细胞判断角膜免疫状态的方法及装置,其方法,包括:收集不同程度免疫性角膜疾病患者的共聚焦图像并挑选,获取目标共聚焦图像并构建专家数据库,基于专家数据库,确定机器学习模型;对朗格汉斯细胞实例分割模型进行设计与训练;将待识别图像输入至朗格汉斯细胞实例分割模型中进行推理,确定不同类型的朗格汉斯细胞的细胞密度及细胞个数占比;将不同类型朗格汉斯细胞的细胞密度及细胞个数占比输入至机器学习模型中,预测角膜免疫状态的级别。本方案的朗格汉斯细胞实例分割模型可以自动识别细胞的位置和类型,结合专家库建模结果,可以帮助医生更快、更准确判断患者的角膜免疫状态。
-
公开(公告)号:CN114722166A
公开(公告)日:2022-07-08
申请号:CN202210147542.6
申请日:2022-02-17
Applicant: 中国科学院自动化研究所
IPC: G06F16/332 , G06F16/33 , G06F16/35 , G06F40/295 , G09B7/02
Abstract: 本发明提供一种应用题解题知识的生成方法、装置及应用题解题机器人,包括:获取与用户输入的目标应用题相对应的输入文本;对输入文本进行分句,并为获取到的每个文本分句设置对应的句子编号;获取每个文本分句相关的名词性内容,构成名词内容识别知识;根据每个文本分句相关的名词性内容及其对应的句子编号,从预先构建的知识库中匹配出输入文本相关的名词内容扩展知识。本发明提供的应用题解题知识的生成方法、装置及应用题解题机器人,可以生成应用题本身不包含但对解题价值很大的名词内容扩展知识,从而可以更有效地辅助应用题相关的各类系统的开发,能一定程度上提高各类系统的解题准确性。
-
公开(公告)号:CN112951213B
公开(公告)日:2022-05-24
申请号:CN202110175961.6
申请日:2021-02-09
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于语音检测与识别领域,具体涉及了一种端到端的在线语音检测与识别方法、系统及设备,旨在解决现有在线语音识别技术需要训练与部署多个模型,模型计算效率低,部署与调参过程复杂,对标注样本数据依赖强的问题。本发明包括:通过无标注语音数据自监督训练获取预训练wav2vec2.0模型;进行模型的一阶段和二阶段微调,并通过多任务语音数据进行训练,获得语音检测与识别的多任务模型;对于在线音频数据,进行分块、边缘拼接,并通过多任务模型在线识别与边缘剔除,获得实时的语音识别文本。本发明对标签数据依赖性低,模型参数量少、结构简单,并且联合建模降低计算消耗,可用于低资源、实时性要求高的场景,识别准确、精度高。
-
公开(公告)号:CN114333767A
公开(公告)日:2022-04-12
申请号:CN202011055886.1
申请日:2020-09-29
Applicant: 华为技术有限公司 , 中国科学院自动化研究所
Abstract: 本申请提供一种发声者语音抽取方法、装置、存储介质及电子设备,用以提高语音识别的实时性,以便更好的适应实际应用场景。该方法包括:采集环境中的混合语音,所述混合语音包括目标发声者的语音;基于所述混合语音,获得第一语音时域特征信息;基于已有的所述目标发声者的声纹信息,从所述第一语音时域特征信息中实时抽取所述目标发声者的第二语音时域特征信息;基于所述第二语音时域特征信息,获得所述目标发声者的语音段。
-
公开(公告)号:CN113552807B
公开(公告)日:2022-01-28
申请号:CN202111105029.2
申请日:2021-09-22
Applicant: 中国科学院自动化研究所
IPC: G05B13/04
Abstract: 本公开涉及一种数据集生成方法、装置、电子设备及存储介质,上述方法包括:根据每个机器人的参数、拓扑结构和模型维度确定每个所述机器人对应的机器人模型,得到多个所述机器人模型;分别确定多个所述机器人模型中每个所述机器人模型对应的动力学公式;根据每个所述机器人模型对应的动力学公式,计算每个所述机器人模型对应的所述机器人的多条运动轨迹;根据多个所述机器人模型和每个所述机器人模型对应的所述机器人的所述多条运动轨迹生成机器人数据集。采用上述技术手段,解决现有技术中,当需要使用数据集训练机器人模型时,需要人工获取数据集的问题。
-
公开(公告)号:CN113635310B
公开(公告)日:2022-01-11
申请号:CN202111206993.4
申请日:2021-10-18
Applicant: 中国科学院自动化研究所
IPC: B25J9/16
Abstract: 本公开涉及一种模型迁移方法、装置,上述方法包括:获取目标模型、验证数据集和参数微调数据集;对所述目标模型进行知识蒸馏处理,得到迁移模型,并在对所述目标模型进行所述知识蒸馏处理的过程中,根据所述验证数据集和所述知识蒸馏处理对应的误差函数,对所述迁移模型进行优化处理;使用所述参数微调数据集对所述迁移模型进行自监督训练,以对所述迁移模型的参数进行微调。采用上述技术手段,解决现有技术中,缺少机器人模型迁移的方法的问题。
-
公开(公告)号:CN110428818B
公开(公告)日:2021-09-28
申请号:CN201910732557.7
申请日:2019-08-09
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于语音识别领域,具体涉及一种低资源多语言的语音识别模型、语音识别方法,旨在为了解决多语言混用状态下小语种语言识别准确度低的问题。本发明语音识别模型为端到端的语音识别模型,该模型中子词词表为多语言子词词表,所述多语言子词词表为设定低资源语种的标注文本与设定高资源语种的标注文本合并起来采用BPE算法共同生成多语言的符号词表;所述语音识别模型的训练数据为设定低资源语种的伪标注训练数据和设定高资源语种的训练数据的合并数据。本发明提高了包含小语种的多语种语音信息识别的准确度。
-
-
-
-
-
-
-
-
-