-
公开(公告)号:CN115132171A
公开(公告)日:2022-09-30
申请号:CN202210778061.5
申请日:2022-06-28
Applicant: 中国人民解放军战略支援部队信息工程大学 , 郑州信大先进技术研究院
Abstract: 本发明提供一种基于任务的焦点损失提升多语言元学习语音识别方法。该方法基于任务的焦点损失改进多语言元学习对任务不平衡的忽略,基于每个任务的查询损失引入了难任务调节器,引导模型更加关注难任务,并且为了充分利用难任务的数据,同时使用支持集梯度与查询集梯度来更新元参数。此外,本发明还在样本层面解释了难任务调节器的意义,经过公式推导,发现它与任务内样本的预测概率乘积成反相关。通过使用本发明方法,可以使模型学习到的初始化更加均衡,更加充分地利用了所有源语言的知识,从而能够有效的对目标语言进行泛化。
-
公开(公告)号:CN115063297A
公开(公告)日:2022-09-16
申请号:CN202210760864.8
申请日:2022-06-30
Applicant: 中国人民解放军战略支援部队信息工程大学 , 郑州信大先进技术研究院
Abstract: 本发明属于超分辨率图像重建技术领域,特别涉及一种基于参数重构的图像超分辨率重建方法及系统,通过构建用于对输入图像数据中的低分辨率图像进行特征提取并依据提取特征进行图像重建的超分辨率重建网络,其中,超分辨率重建网络中,首先利用标准卷积来提取输入图像数据的浅层特征,然后利用参数重构的深度可分离卷积提取浅层特征中的深层特征,利用深层特征进行图像重建;利用收集的样本数据进行网络训练;并针对待重建的图像数据,利用训练后的超分辨率重建网络进行特征提取和图像重建。本发明通过参数重构进行特征提取,能够在减少网络参数量和计算量的同时,实现更深层次的特征提取,提升重建图像质量,便于实际场景应用。
-
公开(公告)号:CN112735460B
公开(公告)日:2021-10-29
申请号:CN202011557418.4
申请日:2020-12-24
Applicant: 中国人民解放军战略支援部队信息工程大学 , 郑州信大先进技术研究院
IPC: G10L21/0216 , G10L25/30 , G10L15/20
Abstract: 本发明属于语音增强技术领域,特别涉及一种基于时频掩蔽值估计的波束成形方法及系统,方法包含:获取多通道语音序列,通过傅里叶变换提取幅度谱特征和空域特征;对幅度谱特征通过对数变换得到多通道语音频谱特征序列,送入预先训练优化的神经网络模型获取复值时频掩蔽值;将复值时频掩蔽值转换为语音存在概率,利用概率模型获取时频掩蔽值;由时频掩蔽值及多通道语音特征序列计算语音信号协方差矩阵,对协方差矩阵进行特征值分解获取波束成形滤波器系数;结合波束成形滤波器系数,利用波束成形滤波器对多通道语音序列语音特征滤波处理,得到增强语音信号。本发明集成神经网络和空域聚类进行时频掩蔽值估计,提升波束形成和语音识别的性能。
-
公开(公告)号:CN111090981A
公开(公告)日:2020-05-01
申请号:CN201911241042.3
申请日:2019-12-06
Applicant: 中国人民解放军战略支援部队信息工程大学 , 郑州信大先进技术研究院
IPC: G06F40/191 , G06F40/211 , G06N3/04
Abstract: 本发明属于自然语言处理技术领域,公开一种基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建方法及系统,该方法包括:将中文文本语料进行处理,去除无用符号,同时为每个字符添加设计好的标签;利用双向长短时记忆网络作为中文文本自动断句与标点生成模型的基准网络结构;采用对数似然损失函数,通过加入长句惩罚因子对对数似然损失函数进行改进,以最小化改进后的对数似然损失函数为目标,从正反两个方向对添加标签后的中文文本语料进行训练,完成中文文本自动断句与标点生成模型构建;该系统包括:语料处理模块、网络结构选择模块及模型构建与优化模块。本发明解决了语音转写文本中,无法自动断句以及标点符号缺失的问题。
-
公开(公告)号:CN115132171B
公开(公告)日:2024-10-29
申请号:CN202210778061.5
申请日:2022-06-28
Applicant: 中国人民解放军战略支援部队信息工程大学 , 郑州信大先进技术研究院
IPC: G10L15/00 , G10L15/28 , G10L15/02 , G06N3/0464 , G06N3/08
Abstract: 本发明提供一种基于任务的焦点损失提升多语言元学习语音识别方法。该方法基于任务的焦点损失改进多语言元学习对任务不平衡的忽略,基于每个任务的查询损失引入了难任务调节器,引导模型更加关注难任务,并且为了充分利用难任务的数据,同时使用支持集梯度与查询集梯度来更新元参数。此外,本发明还在样本层面解释了难任务调节器的意义,经过公式推导,发现它与任务内样本的预测概率乘积成反相关。通过使用本发明方法,可以使模型学习到的初始化更加均衡,更加充分地利用了所有源语言的知识,从而能够有效的对目标语言进行泛化。
-
公开(公告)号:CN111046939B
公开(公告)日:2023-08-04
申请号:CN201911241048.0
申请日:2019-12-06
Applicant: 中国人民解放军战略支援部队信息工程大学 , 郑州信大先进技术研究院
IPC: G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/084
Abstract: 本发明属于深度学习与计算机可视化技术领域,公开一种基于注意力的CNN类别激活图生成方法,包括:步骤1、计算特征图M=(M0,M1,...,MK‑1)每个像素点的梯度值作为神经元类别相关的空间注意力权重;步骤2、获取各类别神经元对应的连接权重作为通道注意力权重;步骤3、根据空间注意力权重及通道注意力权重生成CNN类别激活图。本发明将类别激活权重作用注意力权重,同时利用特征图的通道‑空间位置重要性,与CAM、Grad‑CAM方法相比,生成的类别激活图的可视化效果更好,并且该方法不受网络结构的限制,使用更加灵活。
-
公开(公告)号:CN114464198B
公开(公告)日:2023-06-06
申请号:CN202111437237.2
申请日:2021-11-30
Applicant: 中国人民解放军战略支援部队信息工程大学 , 郑州信大先进技术研究院
Abstract: 本发明属于人工智能人声分离技术领域,特别涉及一种可视化人声分离系统、方法以及装置,该方法包括打开可视化人声分离系统,把要分离的音/视频文件导入系统中;把音/视频转换成和人声分离算法相匹配的音频格式;把要处理的音频文件进行逻辑切分,按时间先后顺序进行分句,最终形成每句话包含说话人名称、开始时间和结束时间的json文件;把分离后的结果在界面上进行展示,音频文件以波形形式展示在上半部分,解析后的json文件以列表形式展示在下半部分;在结果展示界面进行每句话的播放和调整,实现精准人声分离;把分离好的人声分句,根据需求进行选中导出。本发明在人工智能人声分离算法基础上,进行界面可视化的手动调整,达到精准人声分离效果。
-
公开(公告)号:CN113505611B
公开(公告)日:2022-04-15
申请号:CN202110780410.2
申请日:2021-07-09
Applicant: 中国人民解放军战略支援部队信息工程大学 , 郑州信大先进技术研究院
Abstract: 本发明提供一种在生成对抗中获得更好的语音翻译模型的训练方法和系统。该方法包括收集训练数据,利用训练数据中的转录‑翻译数据对训练MT模型;利用收缩机制对ST模型的输入长度进行压缩,使得语音和文本的编码层输出长度近似相同,包括:先采用CTC损失帮助ST模型预测语音的转录,捕捉语音的声学信息;然后利用CTC存在的峰值现象去除ST模型编码层状态中的冗余信息;采用对抗器通过“最大最小”的方法,使ST模型的编码层输出分布拟合MT模型的编码层输出分布,帮助ST模型捕捉到更多的语义信息;以CTC损失作为附加损失,结合端到端ST模型的损失对整个语音翻译模型进行联合训练。本发明能提升语音翻译模型的识别性能,进而提高语音翻译效率和质量。
-
公开(公告)号:CN112804401A
公开(公告)日:2021-05-14
申请号:CN202011640661.2
申请日:2020-12-31
Applicant: 中国人民解放军战略支援部队信息工程大学 , 郑州信大先进技术研究院
Abstract: 本发明涉及智能语音识别技术领域,具体涉及一种会议角色的确定及语音采集控制方法和装置。该方法包括以下步骤:步骤1:服务器通过监听消息队列获取多路语音数据;所述消息队列由主机对多路语音数据采集后形成;步骤2:服务器获取角色配置数据,并对多路语音数据进行分离,得到多个单路语音数据;步骤3:服务器将分离后得到的多个单路语音数据和角色配置数据进行关联;步骤4:服务器根据角色配置数据获取角色信息,服务器的语音识别引擎将语音数据转换为文本数据,前端展示系统展示文本数据和文本数据对应的角色信息。本发明高效率实现了会议角色的确定,且能将会议角色的语音数据转换为文本信息进行展示。
-
公开(公告)号:CN112735460A
公开(公告)日:2021-04-30
申请号:CN202011557418.4
申请日:2020-12-24
Applicant: 中国人民解放军战略支援部队信息工程大学 , 郑州信大先进技术研究院
IPC: G10L21/0216 , G10L25/30 , G10L15/20
Abstract: 本发明属于语音增强技术领域,特别涉及一种基于时频掩蔽值估计的波束成形方法及系统,方法包含:获取多通道语音序列,通过傅里叶变换提取幅度谱特征和空域特征;对幅度谱特征通过对数变换得到多通道语音频谱特征序列,送入预先训练优化的神经网络模型获取复值时频掩蔽值;将复值时频掩蔽值转换为语音存在概率,利用概率模型获取时频掩蔽值;由时频掩蔽值及多通道语音特征序列计算语音信号协方差矩阵,对协方差矩阵进行特征值分解获取波束成形滤波器系数;结合波束成形滤波器系数,利用波束成形滤波器对多通道语音序列语音特征滤波处理,得到增强语音信号。本发明集成神经网络和空域聚类进行时频掩蔽值估计,提升波束形成和语音识别的性能。
-
-
-
-
-
-
-
-
-