-
公开(公告)号:CN113505610A
公开(公告)日:2021-10-15
申请号:CN202110779788.0
申请日:2021-07-09
Applicant: 中国人民解放军战略支援部队信息工程大学 , 郑州信大先进技术研究院
Abstract: 本发明公开一种基于模型增强的语音翻译模型训练方法、系统及语音翻译方法和设备,该训练方法包括:收集语音翻译数据集,所述语音翻译数据集由多个语音‑翻译‑转录三元组构成;利用语音翻译数据集中的语音‑转录数据对训练语音识别模型,利用语音翻译数据集中的转录‑翻译数据对训练机器翻译模型;用语音识别模型初始化语音翻译模型的编码层,用机器翻译模型初始化语音翻译模型的解码层;对语音翻译模型的隐含层输出进行掩码,利用语音翻译数据集、结合损失函数对语音翻译模型进行训练;语音翻译模型训练好后,去掉掩码,对训练好的语音翻译模型进行微调。本发明提升了语音翻译模型的识别性能,可以有效提高语音翻译效率和质量。
-
公开(公告)号:CN116229948A
公开(公告)日:2023-06-06
申请号:CN202211655769.8
申请日:2022-12-22
Applicant: 中国人民解放军战略支援部队信息工程大学 , 郑州信大先进技术研究院
Abstract: 本发明提供一种基于任务的多项式损失提升多语言元学习语音识别方法。该方法包括:步骤1:初始化语音识别模型,输入原始语音特征序列;步骤2:从多语言数据集中抽取任务Ti,将Ti分为支持集和查询集;步骤3:计算Ti的ASR损失,使用梯度下降得到在支持集上更新后的参数θi;步骤4:使用在支持集上更新后的参数θi在查询集上计算查询损失步骤5:根据Ti的计算得到Ti的多项式损失;步骤6:重复N次步骤2至步骤5,计算得到N个任务对应的多项式损失;步骤7:基于所有任务对应的多项式损失来更新语音识别模型参数θ;步骤8:重复步骤2至步骤7,直至更新后的语音识别模型fθ满足给定要求。
-
公开(公告)号:CN114464198A
公开(公告)日:2022-05-10
申请号:CN202111437237.2
申请日:2021-11-30
Applicant: 中国人民解放军战略支援部队信息工程大学 , 郑州信大先进技术研究院
Abstract: 本发明属于人工智能人声分离技术领域,特别涉及一种可视化人声分离系统、方法以及装置,该方法包括打开可视化人声分离系统,把要分离的音/视频文件导入系统中;把音/视频转换成和人声分离算法相匹配的音频格式;把要处理的音频文件进行逻辑切分,按时间先后顺序进行分句,最终形成每句话包含说话人名称、开始时间和结束时间的json文件;把分离后的结果在界面上进行展示,音频文件以波形形式展示在上半部分,解析后的json文件以列表形式展示在下半部分;在结果展示界面进行每句话的播放和调整,实现精准人声分离;把分离好的人声分句,根据需求进行选中导出。本发明在人工智能人声分离算法基础上,进行界面可视化的手动调整,达到精准人声分离效果。
-
公开(公告)号:CN114171011A
公开(公告)日:2022-03-11
申请号:CN202111605503.8
申请日:2021-12-25
Applicant: 中国人民解放军战略支援部队信息工程大学 , 郑州信大先进技术研究院
IPC: G10L15/04 , G10L15/22 , G10L15/26 , G10L17/02 , G10L21/0272 , G10L21/055
Abstract: 本发明属于铁路调度业务处理技术领域,特别涉及一种基于铁路调度单声道语音识别方法及系统,构建铁路调度人员声纹特征库并存储每个调度人员声纹特征;收集调度台与车站之间的调度指令录音数据,并对调度指令录音数据进行录音片段切割和分组规整,形成语音片段数据集一,且在每个录音片段均对应设置有ID;针对每个录音片段,将发声人员身份与声纹特征库中每个调度员身份进行关联,形成包含调度员身份信息的语音片段数据集二,通过文字转写形成包含对应录音片段转写文字信息的数据集三;根据上述两个数据集三合并获取语音片段数据集四,以实现铁路调度指令语音的听看识别,便于对铁路调度业务中调度员的监管,提升铁路运输服务质量及国民满意度。
-
公开(公告)号:CN112686058A
公开(公告)日:2021-04-20
申请号:CN202011557480.3
申请日:2020-12-24
Applicant: 中国人民解放军战略支援部队信息工程大学 , 郑州信大先进技术研究院
Abstract: 本发明属于语音翻译技术领域,涉及一种BERT嵌入语音翻译模型训练方法、系统及语音翻译方法和设备,训练方法包含:收集模型训练数据;利用训练数据中的源语言预训练BERT模型,并将预训练后的BERT模型作为机器翻译模型编码层,并利用成对的源语言和目标语言文本对机器翻译模型进行训练,通过设置机器翻译模型中解码层层数来获取多个机器翻译模型;利用源语言成对的语音翻译数据训练语音识别模型;将训练后的语音识别模型编码层作为语音翻译模型编码层初始化参数,并采用熵加权方式对多个机器翻译模型输出进行加权来训练语音翻译模型,结合模型损失函数完成语音翻译模型训练。本发明提升语音翻译模型的识别性能,进而提高语音翻译效率和质量。
-
公开(公告)号:CN111046962A
公开(公告)日:2020-04-21
申请号:CN201911300222.4
申请日:2019-12-16
Applicant: 中国人民解放军战略支援部队信息工程大学 , 郑州信大先进技术研究院
Abstract: 本发明公开一种基于稀疏注意力的卷积神经网络模型的特征可视化方法及系统,该方法包括:对输入彩色图像进行特征提取,输出多通道特征图;使用像素级注意力对特征图进行加权调整;采用交叉熵损失函数作为分类损失函数,对像素级注意力进行L1正则化约束,并对分类损失函数进行改进,对加权调整后的特征图进行训练,得出分类结果;将调整后的特征图与原始输入的彩色图像进行叠加,得出彩色图像重要特征的可视化展示,从而给出对分类结果的可视化解释;该系统包括特征提取模块、注意力模块、分类模块及特征可视化模块。本发明提升图像分类准确率的同时,采用特征可视化展示出该图像最重要的特征区域。
-
公开(公告)号:CN117271717A
公开(公告)日:2023-12-22
申请号:CN202310992550.5
申请日:2023-08-08
Applicant: 中国人民解放军战略支援部队信息工程大学
IPC: G06F16/332 , G06F40/166 , G06N5/022 , G06N3/0455 , G06N3/0442 , G06N3/0475 , G06N3/08 , G06N20/00
Abstract: 本发明涉及人工智能对话文本生成技术领域,特别涉及一种对话数据样本增强方法及对话文本生成模型预训练方法和系统,从收集的对话样本数据集中选取单轮对话,所述单轮对话包括对话内容、对话响应及对话最佳知识,其中,对话最佳知识为单轮对话主题相关程度最佳且辅助生成对话响应的外部知识;基于交叉轮换对单轮对话中的对话内容、对话响应及对话最佳知识进行交换,以生成新的扩展单轮对话;将原单轮对话和新的扩展单轮对话进行拼接,以获取数据增强后的对话样本数据集。本发明能够加强对已有知识对话数据的利用,在不增加数据标注成本的情况下,用简单的方法实现数据增强,提升模型性能,使模型在训练过程中获得不同视角下生成回复的能力。
-
公开(公告)号:CN116611473A
公开(公告)日:2023-08-18
申请号:CN202310629724.1
申请日:2023-05-31
Applicant: 中国人民解放军战略支援部队信息工程大学
IPC: G06N3/045 , G06N3/0455 , G06N3/09 , G06N3/084
Abstract: 本发明涉及人工智能应用技术领域,特别涉及一种面向序列任务的Transformer监督学习双重一致性正则化方法及系统,通过对训练输入序列添加扰动,得到用于模型训练的扰动序列数据;基于扰动序列数据确定基础模型训练损失、及基础模型和均值模型之间一致性损失,其中,基础模型为采用Transformer结构建模的序列任务端到端模型,均值模型为基于基础模型并利用指数移动平均值对基础模型反向传播更新参数进行迁移来获取的模型结构;基于基础模型训练损失和基础模型和均值模型之间一致性损失获取基础模型的整体训练损失;基于整体训练损失调整基础模型参数,得到目标序列任务端到端模型。本发明可提升序列生成模型鲁棒性,便于机器翻译、文本摘要等序列任务中应用。
-
公开(公告)号:CN116564287A
公开(公告)日:2023-08-08
申请号:CN202310637146.6
申请日:2023-05-31
Applicant: 中国人民解放军战略支援部队信息工程大学
Abstract: 本发明提供一种基于预训练模型和强化学习微调的半监督语音识别方法。该方法包括:采用编码器‑解码器模型作为语音识别模型,基于有标注数据集和无标注数据集,采用半监督训练方法对语音识别模型进行训练得到初始的语音识别模型和含伪标签的无标注数据集;将有标注数据集和含伪标签的无标注数据集进行合并,基于合并后的数据集采用强化学习方法对初始的语音识别模型进行微调得到最终的语音识别模型;将待识别的语音序列输入至训练好的语音识别模型,识别得到文本序列。
-
公开(公告)号:CN116644763A
公开(公告)日:2023-08-25
申请号:CN202310543688.7
申请日:2023-05-15
Applicant: 中国人民解放军战略支援部队信息工程大学
IPC: G06F40/58 , G06N3/0455 , G06N3/084 , G06N3/042 , G06N3/0895
Abstract: 本发明属于自然语言处理技术领域,特别涉及一种构建基于双重知识蒸馏的机器翻译模型的方法及装置,该方法包括针对单语数据,将知识蒸馏和自训练相结合,构建单语数据的在线自蒸馏模块;针对双语数据,在交叉熵的损失函数基础上,将非参数知识蒸馏方法和自蒸馏相结合,构建双语数据的非参数知识蒸馏模块。针对双语数据,运用k近邻非参数知识蒸馏加入一致性损失的方式,实现更好的挖掘双语知识;针对单语数据,将知识蒸馏和自训练相结合提出一种自蒸馏的模型,实现更好的挖掘单语知识;两个模块相结合构成双重知识蒸馏的机器翻译模型,实现了更有效的挖掘双语数据和单语数据中的知识。
-
-
-
-
-
-
-
-
-