-
公开(公告)号:CN115410556B
公开(公告)日:2024-10-22
申请号:CN202210976069.2
申请日:2022-08-15
Applicant: 中国人民解放军战略支援部队信息工程大学 , 郑州信大先进技术研究院
Abstract: 本发明提供一种元对抗学习提升多语言预训练与低资源语音识别的方法,采用CTC‑注意力联合的端到端语音识别网络架构,在端到端语音识别网络架构中的编码器的输出端添加语言识别器,在元学习外循环中利用所述语言识别器与更新的语音识别模型对抗,引导更新的语音识别模型产生与语言无关的表征,缩小不同语言在语义空间中的差距;所述语言识别器由浅层至深层依次包括第一Linear层、第一Relu层、第二Linear层、第二Relu层、第三Linear层和softmax层。本发明可以解决不同语言数据规模与难度差异大导致ASR模型容易对一些语言产生倾向性以及不容易学习多种语言之间的共享语义空间的问题。
-
公开(公告)号:CN112651407B
公开(公告)日:2023-10-20
申请号:CN202011640809.2
申请日:2020-12-31
Applicant: 中国人民解放军战略支援部队信息工程大学 , 郑州信大先进技术研究院
IPC: G06V10/40 , G06V10/764 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本发明涉及一种基于区分性反卷积的CNN可视化方法,方法包括给定输入图像进行特征提取,并得到最高层特征图和分类结果,基于最高层特征图,使用Grad‑CAM方法,生成类别激活图。一方面,将类别激活图作为初始特征图,逐层反卷积到输入空间,生成具有类别区分性的热力图。另一方面,将类别激活图逐层融合中间层特征图,并使用反卷积恢复到输入空间,生成具有细粒度特征的热力图。将所述具有类别区分性的热力图与所述具有细粒度特征的热力图相融合,生成最终的热力图。本发明用于实现具有细粒度和类别区分性的CNN可视化效果。
-
公开(公告)号:CN116644763A
公开(公告)日:2023-08-25
申请号:CN202310543688.7
申请日:2023-05-15
Applicant: 中国人民解放军战略支援部队信息工程大学
IPC: G06F40/58 , G06N3/0455 , G06N3/084 , G06N3/042 , G06N3/0895
Abstract: 本发明属于自然语言处理技术领域,特别涉及一种构建基于双重知识蒸馏的机器翻译模型的方法及装置,该方法包括针对单语数据,将知识蒸馏和自训练相结合,构建单语数据的在线自蒸馏模块;针对双语数据,在交叉熵的损失函数基础上,将非参数知识蒸馏方法和自蒸馏相结合,构建双语数据的非参数知识蒸馏模块。针对双语数据,运用k近邻非参数知识蒸馏加入一致性损失的方式,实现更好的挖掘双语知识;针对单语数据,将知识蒸馏和自训练相结合提出一种自蒸馏的模型,实现更好的挖掘单语知识;两个模块相结合构成双重知识蒸馏的机器翻译模型,实现了更有效的挖掘双语数据和单语数据中的知识。
-
公开(公告)号:CN109545201B
公开(公告)日:2023-06-06
申请号:CN201811537321.X
申请日:2018-12-15
Applicant: 中国人民解放军战略支援部队信息工程大学
IPC: G10L15/14
Abstract: 本发明涉及语音识别技术领域,公开基于深层混合因子分析的声学模型的构建方法,包括:利用训练数据,采用HMM‑GMM模型生成基线系统;根据HMM‑GMM模型参数,对DMFA模型进行初始化,DMFA模型由两层MFA模型组成,采用GMM聚类和概率主成分分析方法初始化DMFA模型参数;利用训练数据,通过HMM‑GMM模型的基线系统,采用贪婪EM算法估计声学特征空间的DMFA模型的整体模型参数;估计DMFA模型的第一层MFA模型的状态模型参数,所述状态模型参数包括状态相关参数及状态无关参数;估计DMFA模型的第二层MFA模型的状态模型参数。本发明将深层混合因子分析模型引入到状态模型的建模过程中,提出了基于深层混合因子分析的声学模型,具备更好的抗过拟合能力。
-
公开(公告)号:CN115410556A
公开(公告)日:2022-11-29
申请号:CN202210976069.2
申请日:2022-08-15
Applicant: 中国人民解放军战略支援部队信息工程大学 , 郑州信大先进技术研究院
Abstract: 本发明提供一种元对抗学习提升多语言预训练与低资源语音识别的方法,采用CTC‑注意力联合的端到端语音识别网络架构,在端到端语音识别网络架构中的编码器的输出端添加语言识别器,在元学习外循环中利用所述语言识别器与更新的语音识别模型对抗,引导更新的语音识别模型产生与语言无关的表征,缩小不同语言在语义空间中的差距;所述语言识别器由浅层至深层依次包括第一Linear层、第一Relu层、第二Linear层、第二Relu层、第三Linear层和softmax层。本发明可以解决不同语言数据规模与难度差异大导致ASR模型容易对一些语言产生倾向性以及不容易学习多种语言之间的共享语义空间的问题。
-
公开(公告)号:CN111090981B
公开(公告)日:2022-04-15
申请号:CN201911241042.3
申请日:2019-12-06
Applicant: 中国人民解放军战略支援部队信息工程大学 , 郑州信大先进技术研究院
IPC: G06F40/191 , G06F40/211 , G06N3/04
Abstract: 本发明属于自然语言处理技术领域,公开一种基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建方法及系统,该方法包括:将中文文本语料进行处理,去除无用符号,同时为每个字符添加设计好的标签;利用双向长短时记忆网络作为中文文本自动断句与标点生成模型的基准网络结构;采用对数似然损失函数,通过加入长句惩罚因子对对数似然损失函数进行改进,以最小化改进后的对数似然损失函数为目标,从正反两个方向对添加标签后的中文文本语料进行训练,完成中文文本自动断句与标点生成模型构建;该系统包括:语料处理模块、网络结构选择模块及模型构建与优化模块。本发明解决了语音转写文本中,无法自动断句以及标点符号缺失的问题。
-
公开(公告)号:CN113505611A
公开(公告)日:2021-10-15
申请号:CN202110780410.2
申请日:2021-07-09
Applicant: 中国人民解放军战略支援部队信息工程大学 , 郑州信大先进技术研究院
Abstract: 本发明提供一种在生成对抗中获得更好的语音翻译模型的训练方法和系统。该方法包括收集训练数据,利用训练数据中的转录‑翻译数据对训练MT模型;利用收缩机制对ST模型的输入长度进行压缩,使得语音和文本的编码层输出长度近似相同,包括:先采用CTC损失帮助ST模型预测语音的转录,捕捉语音的声学信息;然后利用CTC存在的峰值现象去除ST模型编码层状态中的冗余信息;采用对抗器通过“最大最小”的方法,使ST模型的编码层输出分布拟合MT模型的编码层输出分布,帮助ST模型捕捉到更多的语义信息;以CTC损失作为附加损失,结合端到端ST模型的损失对整个语音翻译模型进行联合训练。本发明能提升语音翻译模型的识别性能,进而提高语音翻译效率和质量。
-
公开(公告)号:CN108630199A
公开(公告)日:2018-10-09
申请号:CN201810702540.2
申请日:2018-06-30
Applicant: 中国人民解放军战略支援部队信息工程大学
Abstract: 本发明提供一种声学模型的数据处理方法。该声学模型包括编码网络、注意力网络和解码网络,数据处理方法包括:步骤1、编码网络对语音特征序列(x1,x2,...,xT)进行编码得到高层特征序列(h1,h2,...,hT),xT表示待识别语音经过语音特征提取预处理后在T时刻的语音特征,hT表示所述语音特征xT在T时刻的高层特征;步骤2、注意力网络根据高层特征序列(h1,h2,...,hT)计算目标向量,目标向量用于对所述高层特征序列(h1,h2,...,hT)进行压缩;步骤3、解码网络根据高层特征序列(h1,h2,...,hT)和目标向量计算待识别语音每个位置上所有音素的后验概率以得到概率序列(y1,y2,...,yO),yO表示待识别语音经解码网络输出后在位置o上所有音素的后验概率。本发明能够减少参数训练规模,提升训练速度以及提升音素和语音特征对齐的准确度。
-
公开(公告)号:CN117972058A
公开(公告)日:2024-05-03
申请号:CN202410144351.3
申请日:2024-02-01
Applicant: 中国人民解放军战略支援部队信息工程大学
IPC: G06F16/332 , G06F18/23 , G06F18/22 , G06N5/02
Abstract: 本发明涉及人工智能对话技术领域,特别涉及一种基于对话思维链的隐性知识引导对话生成方法及系统,通过获取与对话源语句相关的对话背景知识,所述对话背景知识用于描述对话任务要求及对话语句规律;将对话源语句和对话背景知识输入至预配置的大语言模型中,以利用对话背景知识作为提示指令,通过大语言模型生成对话背景知识思维链下针对对话源语句的对话回复。本发明将隐性知识以思维链方式来促使模型能够更准确调用内部知识,使模型能够搜寻内部知识并合理使用来生成有针对性、高质量的对话内容,进而较好的完成对话任务,便于在语言翻译、文本对话和文本问答等智能对话系统中的应用部署,具有较好的应用前景。
-
公开(公告)号:CN117271717A
公开(公告)日:2023-12-22
申请号:CN202310992550.5
申请日:2023-08-08
Applicant: 中国人民解放军战略支援部队信息工程大学
IPC: G06F16/332 , G06F40/166 , G06N5/022 , G06N3/0455 , G06N3/0442 , G06N3/0475 , G06N3/08 , G06N20/00
Abstract: 本发明涉及人工智能对话文本生成技术领域,特别涉及一种对话数据样本增强方法及对话文本生成模型预训练方法和系统,从收集的对话样本数据集中选取单轮对话,所述单轮对话包括对话内容、对话响应及对话最佳知识,其中,对话最佳知识为单轮对话主题相关程度最佳且辅助生成对话响应的外部知识;基于交叉轮换对单轮对话中的对话内容、对话响应及对话最佳知识进行交换,以生成新的扩展单轮对话;将原单轮对话和新的扩展单轮对话进行拼接,以获取数据增强后的对话样本数据集。本发明能够加强对已有知识对话数据的利用,在不增加数据标注成本的情况下,用简单的方法实现数据增强,提升模型性能,使模型在训练过程中获得不同视角下生成回复的能力。
-
-
-
-
-
-
-
-
-