-
公开(公告)号:CN113077785A
公开(公告)日:2021-07-06
申请号:CN201911300918.7
申请日:2019-12-17
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明属于网络通信技术领域,具体涉及一种端到端的多语言连续语音流语音内容识别方法,该方法包括:将待识别的语音频谱特征输入至预先构建的基于深度神经网络的段级别语种分类模型,提取语句级别语种状态后验概率分布向量;将每一种语言种类的待识别的语音频谱特征序列和语句级别语种状态后验概率分布向量输入至预先构建的多语言语音识别模型,输出对应语言种类的语音识别结果。
-
公开(公告)号:CN119559964A
公开(公告)日:2025-03-04
申请号:CN202310496296.X
申请日:2023-05-05
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本申请提供了一种伪造语音检测方法,包括:训练阶段,训练阶段包括:采集用于训练第一语音信号;确定第一语音信号中的静音帧和语音帧;对第一语音信号的静音帧进行零值掩蔽;获取掩蔽后的第一语音信号的特征;将特征输入伪造语音检测模型进行训练,得到训练好的伪造语音检测模型;推理阶段,推理阶段包括:采集目标语音,获取目标语音的特征;对所述目标语音进行零值掩蔽,获取掩蔽后的所述目标语音的特征;将目标语音的特征输入训练好伪造语音检测模型,输出目标语音的检测结果,检测结果包括目标语音为伪造语音或目标语音为真语音。
-
公开(公告)号:CN113077785B
公开(公告)日:2022-07-12
申请号:CN201911300918.7
申请日:2019-12-17
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明属于网络通信技术领域,具体涉及一种端到端的多语言连续语音流语音内容识别方法,该方法包括:将待识别的语音频谱特征输入至预先构建的基于深度神经网络的段级别语种分类模型,提取语句级别语种状态后验概率分布向量;将每一种语言种类的待识别的语音频谱特征序列和语句级别语种状态后验概率分布向量输入至预先构建的多语言语音识别模型,输出对应语言种类的语音识别结果。
-
公开(公告)号:CN112712096A
公开(公告)日:2021-04-27
申请号:CN201911022350.7
申请日:2019-10-25
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了基于深度递归非负矩阵分解的音频场景分类方法及系统,该方法包括:将待分类的音频信号按照贝叶斯信息准则进行音频场景切分;将切分后的每一段音频划分为多个块,每个块包括多个音频帧;以块为单位分别输入多个预先训练好的深度递归NMF网络,得到每块音频在不同子空间中的展开特征;将不同子空间中的展开特征拼接为一个长特征向量,输入支持向量机,获得每块音频的类别判别结果;计算该段音频所有块的类别判别结果的均值,由此得到该段音频的所属类别。本发明的方法将深度NMF用于音频场景分类,通过探索相邻帧之间NMF系数的递归关系,降低模型复杂度,提高泛化能力。
-
公开(公告)号:CN113436616B
公开(公告)日:2022-08-02
申请号:CN202110594183.4
申请日:2021-05-28
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本申请提出一种多领域自适应的端到端语音识别方法,所述方法包括:提取待识别语音的第一特征;将所述第一特征和领域标签输入训练好的端到端语音识别模型;所述领域标签是为所述待识别语音的预先设定的口音标签;基于所述训练好的端到端语音识别模型,根据所述领域标签提取第二特征,将所述第一特征与所述第二特征拼接后进行编码得到第三特征;对所述第三特征进行解码,得到多条候选文本,输出第一文本候选列表,所述第一文本候选列表包括所述多条候选文本。本申请通过使用多领域自适应的方法,利用丰富资源领域预训练模型、多目标领域数据及多目标领域鉴别特征来提升在多个目标领域上的语音识别性能。
-
公开(公告)号:CN113436616A
公开(公告)日:2021-09-24
申请号:CN202110594183.4
申请日:2021-05-28
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本申请提出一种多领域自适应的端到端语音识别方法,所述方法包括:提取待识别语音的第一特征;将所述第一特征和领域标签输入训练好的端到端语音识别模型;所述领域标签是为所述待识别语音的预先设定的口音标签;基于所述训练好的端到端语音识别模型,根据所述领域标签提取第二特征,将所述第一特征与所述第二特征拼接后进行编码得到第三特征;对所述第三特征进行解码,得到多条候选文本,输出第一文本候选列表,所述第一文本候选列表包括所述多条候选文本。本申请通过使用多领域自适应的方法,利用丰富资源领域预训练模型、多目标领域数据及多目标领域鉴别特征来提升在多个目标领域上的语音识别性能。
-
公开(公告)号:CN119863846A
公开(公告)日:2025-04-22
申请号:CN202411792800.1
申请日:2024-12-07
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明提供了一种人脸匿名化方法,包括:筛选从视图数据中检出的人脸图像;从所述人脸图像中获取关键点的特征向量和高维嵌入的表征向量;构造与所述表征向量同维度的随机向量,将所述表征向量结合所述随机向量和为所述随机向量设定的噪声系数,计算扰动表征向量;将所述扰动表征向量和所述特征向量拼接后获得随机扰动后的人脸图像,以所述随机扰动后的人脸图像替换所述人脸图像。本发明有益效果:通过对人脸属性特征的的修改,不改变人脸基本状态的情况下就可以隐藏特定个人的属性特征信息,同时不会影响视觉效果。
-
公开(公告)号:CN119741919A
公开(公告)日:2025-04-01
申请号:CN202411802628.3
申请日:2024-12-09
Applicant: 国家计算机网络与信息安全管理中心
IPC: G10L15/22 , G10L13/02 , G10L21/007 , G06F40/151 , G10L25/30
Abstract: 本发明提供了一种语音匿名化方法,包括:将语音数据按照激活检测结果分割为语音数据片段,转写所述语音数据片段为文本序列;由敏感词列表和所述文本序列对比以获取敏感词,以敏感词替换符替换所述敏感词,生成脱敏文本片段;根据所述脱敏文本片段生成文本嵌入表征码,与随机声纹嵌入表征码拼接,生成拼接表征码;通过后向解码网络将所述拼接表征码解码为时频谱后,声码器将所述时频谱转化为音频波形。本发明有益效果:通过对语音声纹的修改和敏感词的提出,实现的在不改变语音数据属性的条件下,对语音数据脱敏和匿名化。
-
公开(公告)号:CN113761919B
公开(公告)日:2025-01-07
申请号:CN202010500426.9
申请日:2020-06-04
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F40/295 , G06F40/211
Abstract: 本发明提供一种口语化短文本的实体属性提取方法及电子装置,包括对口语化短文本切词及词性标注,并对各标注词性的词语进行命名主体识别,得到实体词语;将口语化短文本映射为主谓宾三元组,获取主谓宾三元组中各词语的依存关系,并使用实体词语对主谓宾三元组中各词语进行实体识别;当主谓宾三元组中的主谓宾满足一触发规则时,提取宾语词组作为实体属性。本发明采用词性标注、依存句法分析、实体识别以及结合触发词词性规则的综合方法,更加有针对性的提取了口语化短数据的实体属性信息,丰富了口语化短文本领域的结构化信息抽取方法。
-
公开(公告)号:CN118332103A
公开(公告)日:2024-07-12
申请号:CN202410507046.6
申请日:2024-04-25
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/34 , G06F16/35 , G06F16/33 , G06F16/332 , G06F40/30 , G06F40/284 , G06N3/0455 , G06N3/047 , G06N3/084
Abstract: 本公开提供一种主题提取方法、装置、相关设备和计算机程序产品,涉及计算机与互联网技术领域。主题提取方法包括:获取多个文本和多个热点关键词,热点关键词是从网络中获得的;根据多个热点关键词对各个文本分别进行关键词匹配,以确定各个文本中的文本关键词;通过文本关键词对多个文本进行文本聚类,以确定至少一个文本组;将每个文本组中命中热点关键词最多的文本作为文本组的主题。本公开实施例可以快速且准确的从多个文本中提取出主题信息。
-
-
-
-
-
-
-
-
-