语音对抗样本生成方法及装置、电子设备及存储介质

    公开(公告)号:CN114267363B

    公开(公告)日:2022-05-24

    申请号:CN202210201797.6

    申请日:2022-03-03

    Abstract: 本公开涉及一种语音对抗样本生成方法及装置、电子设备及存储介质,所述方法包括:接收目标文本,并从所述目标文本中提取文本特征序列;将所述文本特征序列输入预先训练好的声学模型,得到多维声学参数序列;将所述多维声学参数序列输入预先训练好的声码器模型,生成语音的时域采样序列,作为目标文本对应的对抗样本,声学模型的输出为多维声学参数序列,使得生成的语音内容在多种声学特征维度描述下保证高相似度(匹配度),因而,在语音对抗样本的生成过程中利用多维声学参数重构方法,能够提升语音对抗样本的抗检测能力,更加有效对语音生成检测模型进行欺骗。

    一种细粒度韵律建模的语音生成装置、设备及存储介质

    公开(公告)号:CN114093342B

    公开(公告)日:2022-05-03

    申请号:CN202210078586.8

    申请日:2022-01-24

    Abstract: 本发明提供细粒度韵律建模的语音生成模型、设备及存储介质,其中,模型包括:文本信息输入文本编码器模块,得到文本的编码特征;频谱信息输入韵律编码模块,得到音素级别的语音的韵律特征;语音的韵律特征输入解耦合模块,将语音的韵律特征中包含的文本内容信息和韵律信息解耦合,并只留下语音的韵律特征的韵律信息;文本的编码特征和语音的韵律特征的韵律信息输入解码器,生成合成语音。本发明提出的方案能够利用时长信息对音频进行时域的划分,韵律编码器可以建模语音的局部韵律信息以描述韵律的变化走势,同时韵律解耦合模块保证了韵律编码器模型只学习到语音的韵律信息而不包含文本信息。

    一种可定制的中英混合语音识别端到端系统

    公开(公告)号:CN113936641B

    公开(公告)日:2022-03-25

    申请号:CN202111548173.3

    申请日:2021-12-17

    Abstract: 本发明提供一种可定制的中英混合语音识别端到端系统,其中,系统包括:声学编码器、英文词表编码器、所述解码器和softmax函数。声学编码器、英文词表编码器‑解码器结构的端到端模型,声学编码器、英文词表编码器与解码器内部使用基于注意力的建模方式。模型可定制的方式是将需要定制化的英文单词或者英文词组进行提前编码,将离散的单词转化为模型的隐层表示,形成待检索向量列表。在进行识别过程时,解码器同时对声学特征的高维表示和英文词表的最终表示的序列进行注意力的计算。本发明具有能够实现针对不同领域的英文专有名词进行定制化模型,实现中英混合表达中英文的精准识别,同时减少模型对训练数据的依赖。

    语音场景篡改鉴别的方法、装置、电子设备及存储介质

    公开(公告)号:CN114155875A

    公开(公告)日:2022-03-08

    申请号:CN202210120276.8

    申请日:2022-02-09

    Abstract: 本申请涉及一种语音场景篡改鉴别的方法、装置、电子设备及存储介质,所述语音场景篡改鉴别的方法,包括以下步骤:提取输入的待鉴别音频的对数功率谱的声学特征;将提取的待鉴别音频的对数功率谱的声学特征输入预先训练的语音场景篡改识别模型中,输出待鉴别音频场景是否被篡改的结果,其中,所述语音场景篡改识别模型由语音场景篡改后的音频与原始语音数据按照预设比例混合作为训练集训练得到的,本申请能够通过待鉴别音频的对数功率谱识别出语音的篡改,特别是能够应用于语音场景的篡改,从而应对语音场景篡改这一手段的危害。

    一种语音识别与语音翻译端到端系统及设备

    公开(公告)号:CN113920989A

    公开(公告)日:2022-01-11

    申请号:CN202111516645.7

    申请日:2021-12-13

    Abstract: 本发明提供一种语音识别与语音翻译端到端系统及电子设备,其中,系统包括:声学编码器、多任务解码器和语义不变性约束模块,同时完成识别系统与翻译系统这两个任务,另外根据不同任务的文本语义相同特点,对模型施加语义约束,学习高层次语义信息,语义信息可以有效提升语音识别与语音翻译的性能。本发明具有避免了串行系统的误差累积问题,同时模型的计算代价低,实时性很高;同时利用不同任务之间文本的语义一致性特点,对模型施加语义约束,学习高层次语义信息。

    生成语音的检测方法、装置、电子设备及存储介质

    公开(公告)号:CN113808579A

    公开(公告)日:2021-12-17

    申请号:CN202111383856.8

    申请日:2021-11-22

    Abstract: 本公开涉及一种生成语音的检测方法、装置、电子设备及存储介质,上述方法包括:获取待检测语音,并提取所述待检测语音的第一声学特征和第二声学特征;将所述第一声学特征输入语音识别模型,输出所述第一声学特征对应的文本序列;分别通过词嵌入模型与语音嵌入模型提取所述文本序列的词向量和音向量;对所述词向量和所述音向量进行拼接处理,得到第一融合特征,并将所述第一融合特征输入韵律节奏预测模型,输出韵律节奏特征;对所述第二声学特征和所述韵律节奏特征进行所述拼接处理,得到第二融合特征,并将所述第二融合特征输入语音检测模型,输出语音检测结果。

    统一中英混合文本生成和语音识别的端到端系统

    公开(公告)号:CN113284485B

    公开(公告)日:2021-11-09

    申请号:CN202110777611.7

    申请日:2021-07-09

    Abstract: 本发明提供通用的统一中英混合文本生成和语音识别的端到端系统,包括:声学编码器、音素编码器、判别器和解码器;所述音素编码器和所述判别器构成生成对抗网络,所述音素编码器作为所述生成对抗网络的生成器,所述判别器为所述生成对抗网络的判别器,所述声学编码器作为所述生成对抗网络的真实数据输入,以这种对抗生成网络来促使音素编码器输出的音素编码表示的分布接近声学编码器输出的声学编码表示,所述解码器将所述声学编码表示和所述音素编码表示融合,得到解码表示,再将所述解码表示输入到softmax函数得到概率最大的输出目标。

    篡改音频的篡改区域检测方法、装置及存储介质

    公开(公告)号:CN113555037A

    公开(公告)日:2021-10-26

    申请号:CN202111103012.3

    申请日:2021-09-18

    Abstract: 本公开涉及一种篡改音频的篡改区域的检测方法、装置及存储介质,上述方法包括:获取待检测信号,并提取所述待检测信号的声学特征;将所述声学特征输入篡改区域检测模型,输出每帧所述待检测信号的标签,其中,所述篡改区域检测模型已通过训练,学习并保存有所述声学特征和所述标签的对应关系,所述标签用于表示所述待检测信号中每一帧信号是否被篡改;通过平均平滑策略对所述篡改区域检测模型输出的连续多帧所述待检测信号的标签进行处理,得到所述待检测信号被篡改的起始位置和终止位置。采用上述技术手段,解决现有技术中,根据音频的局部信息检测音频的篡改区域时,现有技术对音频的篡改区域检测准确率低的问题。

    一种流式和非流式混合语音识别系统及流式语音识别方法

    公开(公告)号:CN113257248A

    公开(公告)日:2021-08-13

    申请号:CN202110675286.3

    申请日:2021-06-18

    Abstract: 本发明提供一种流式和非流式混合语音识别系统,包括:流式编码器、联结时序分类解码器和注意力机制解码器;流式编码器采用基于局部自注意力机制的Transformer来进行构建;联结时序分类解码器包含一个线性映射层,负责将编码状态映射到预先设计好的词表空间,使编码状态映射表示的维度与词表空间的维度相同,然后通过Softmax计算预测到的标记,用于流式解码;注意力机制解码器采用Transformer解码器来构建,由前端卷积层和多层重复的单向Transformer编码层组成,最后一层为线性映射层,使编码状态映射表示的维度与词表空间的维度相同,并计算最终输出的概率。

    基于力导向的知识图谱可视化方法

    公开(公告)号:CN113254670A

    公开(公告)日:2021-08-13

    申请号:CN202110665550.5

    申请日:2021-06-16

    Abstract: 本发明提供基于力导向的知识图谱可视化方法,包括:知识图谱数据提取包括:知识图谱构建和知识图谱查询;构造图数据结构:对构建好的知识图谱查询得到的相关的节点和关系进行图数据结构格式转换;力导向算法布局:随机初始化所有节点在屏幕中的坐标;把节点作为电子,使节点彼此之间存在斥力;把关系作为弹簧,使节点彼此之间存在引力;在斥力和引力的作用下迭代n次,最终达到平衡状态,得到所有节点的稳定坐标;可视化呈现:根据所有节点的稳定坐标,分别绘制节点以及节点之间的连线,得到最终知识图谱;运算流程可视化交互:通过最终知识图谱,为每个节点和关系绑定监听事件,使用户能通过鼠标操作节点和关系。

Patent Agency Ranking