基于思维链的跨模态问答的处理方法和装置

    公开(公告)号:CN117453898A

    公开(公告)日:2024-01-26

    申请号:CN202311795864.2

    申请日:2023-12-25

    Abstract: 本公开涉及一种基于思维链的跨模态问答的处理方法和装置,上述处理方法包括:获取目标问答场景下的语音问题和对应的上下文文本;基于预训练好的思维链生成模型,对上述语音问题和上述上下文文本进行跨模态学习,得到用于表示上述语音问题的解决思路的思维链;将上述上下文文本和上述思维链进行拼接,得到目标上下文文本;基于预训练好的答案生成模型,对上述语音问题和上述目标上下文文本进行跨模态学习,得到上述语音问题对应的答案。支持跨模态问答并能先学习生成思维链,学习对问题进行思考的过程,之后基于思维链学习到答案,不仅有助于提升答案的正确率,也能有效提升答案的可解释性。

    基于语音大模型的合成语音检测方法及装置

    公开(公告)号:CN117351940A

    公开(公告)日:2024-01-05

    申请号:CN202311655426.6

    申请日:2023-12-05

    Abstract: 本发明涉及一种基于语音大模型的合成语音检测方法及装置,基于语音大模型的合成语音检测方法包括:对每一语音合成算法对应的样本语音进行多鉴别任务的标签标记,构建鉴别任务序列;遍历每一语音合成算法,获取该语音合成算法对应的样本语音的梅尔谱,输入基于前一语音合成算法对应的语音训练模型的编码器,得到隐变量;将隐变量及鉴别任务序列输入基于前一语音合成算法对应的语音训练模型的解码器,获取预测鉴别值;依据预测鉴别值及实际鉴别值,对前一语音合成算法对应的语音训练模型的模型参数值矩阵进行梯度方向优化,在所有合成语音算法遍历完毕后,得到语音大模型。可以提升合成语音检测效率。

    基于预训练语言模型的语音生成方法、装置、设备及介质

    公开(公告)号:CN116364055A

    公开(公告)日:2023-06-30

    申请号:CN202310634393.0

    申请日:2023-05-31

    Abstract: 本发明实施例涉及一种基于预训练语言模型的语音生成方法、装置、设备及介质,属于语音合成领域,通过基于第一预训练语言模型对待生成语音的目标文本进行编码,获得语义令牌序列;基于第二预训练语言模型对基于自然语言描述的语音风格控制信息进行编码,获得风格令牌序列;基于第三预训练语言模型对所述语义令牌序列和所述风格令牌序列进行自回归,获得声学令牌序列;基于训练好的神经编解码器对所述声学令牌序列进行解码,生成所述目标文本对应的目标语音;通过各预训练语言模型生成语音,并通过自然语言便捷、精确的控制文本所要生成的语音风格,增加了语音风格控制的多样化,提高语音生成质量。

    一种骨传麦克风语音增强方法及装置、设备及存储介质

    公开(公告)号:CN115862656B

    公开(公告)日:2023-06-02

    申请号:CN202310054459.9

    申请日:2023-02-03

    Abstract: 本公开涉及一种骨传麦克风语音增强方法及装置、设备及存储介质,所述方法包括:获取两种频域信号,并根据预设的截止频率,对所述两种频域信号分别进行截取,得到两种截取后频域信号;对所述两种截取后频域信号分别进行半波整流,得到两种半波整流后时域信号;按照预设的中间频带,根据所述两种半波整流后时域信号确定融合因子;根据融合因子对所述两种截取后频域信号进行融合,得到骨传麦克风语音增强语音,根据预设的截止频率作为滤波器组,先对两种频域信号进行截取和融合,并通过半波整流对整体信号进行修正,实现对噪声的有效抑制,能够保留骨传导麦克风清晰的低频信号,同时对其缺失的中、高频信息进行补充,得到感知质量更高的音频信号。

    语音识别模型的训练方法、语音识别方法和系统

    公开(公告)号:CN113936647B

    公开(公告)日:2022-04-01

    申请号:CN202111548060.3

    申请日:2021-12-17

    Abstract: 本发明实施例公开了一种语音识别模型的训练方法、语音识别方法和系统,涉及语音识别技术领域。该实施例包括:将音频训练样本输入声学编码器,对音频训练样本进行编码表示,确定声学编码状态向量;将预设的词表输入语言预测器中,确定文本预测向量;将文本预测向量线输入文本映射层,得到文本输出概率分布;根据音频训练样本对应的目标文本序列和文本输出概率分布,计算第一损失函数;将文本预测向量和声学编码状态向量输入联合网络,计算第二损失函数,根据第一损失函数和第二损失函数进行迭代优化,直至满足停止条件。本实施例对语音识别模型的训练、预测过程进行了调整,提高了该语义识别模型的建模能力,从而提高了该语音识别模型的准确率。

    语音识别模型的训练方法、语音识别方法和系统

    公开(公告)号:CN113936647A

    公开(公告)日:2022-01-14

    申请号:CN202111548060.3

    申请日:2021-12-17

    Abstract: 本发明实施例公开了一种语音识别模型的训练方法、语音识别方法和系统,涉及语音识别技术领域。该实施例包括:将音频训练样本输入声学编码器,对音频训练样本进行编码表示,确定声学编码状态向量;将预设的词表输入语言预测器中,确定文本预测向量;将文本预测向量线输入文本映射层,得到文本输出概率分布;根据音频训练样本对应的目标文本序列和文本输出概率分布,计算第一损失函数;将文本预测向量和声学编码状态向量输入联合网络,计算第二损失函数,根据第一损失函数和第二损失函数进行迭代优化,直至满足停止条件。本实施例对语音识别模型的训练、预测过程进行了调整,提高了该语义识别模型的建模能力,从而提高了该语音识别模型的准确率。

    一种可定制的中英混合语音识别端到端系统

    公开(公告)号:CN113936641A

    公开(公告)日:2022-01-14

    申请号:CN202111548173.3

    申请日:2021-12-17

    Abstract: 本发明提供一种可定制的中英混合语音识别端到端系统,其中,系统包括:声学编码器、英文词表编码器、所述解码器和softmax函数。声学编码器、英文词表编码器‑解码器结构的端到端模型,声学编码器、英文词表编码器与解码器内部使用基于注意力的建模方式。模型可定制的方式是将需要定制化的英文单词或者英文词组进行提前编码,将离散的单词转化为模型的隐层表示,形成待检索向量列表。在进行识别过程时,解码器同时对声学特征的高维表示和英文词表的最终表示的序列进行注意力的计算。本发明具有能够实现针对不同领域的英文专有名词进行定制化模型,实现中英混合表达中英文的精准识别,同时减少模型对训练数据的依赖。

    一种环境对抗的鲁棒语音鉴别方法

    公开(公告)号:CN113284486B

    公开(公告)日:2021-11-16

    申请号:CN202110841144.X

    申请日:2021-07-26

    Abstract: 本发明提供一种环境对抗的鲁棒语音鉴别方法,包括:采集语音鉴别模型训练数据;提取所述训练数据中每个语音句子的训练声学特征;将所述训练声学特征输入语音鉴别模型,所述语音鉴别模型包括:语音真假判别器和环境对抗判别器,联合优化语音鉴别模型的语音真假判别器和环境对抗判别器的损失函数;得到训练后的语音鉴别模型;采集语音鉴别模型预测数据;提取所述预测数据中每个语音句子的预测声学特征;将所述预测声学特征输入训练后的去除环境对抗判别器的所述语音鉴别模型,输出语音的判别结果。

    基于层级区分的生成音频检测系统

    公开(公告)号:CN113284508B

    公开(公告)日:2021-11-09

    申请号:CN202110827718.8

    申请日:2021-07-21

    Abstract: 本发明提供基于层级区分的生成音频检测系统,包括:音频预处理模块、CQCC特征提取模块、LFCC特征提取模块、第一阶段轻量初步筛选模型和第二阶段深度鉴别模型;音频预处理模块对采集到的音视频数据进行数据预处理,得到长度不超过限定的音频片段;将音频片段分别输入CQCC特征提取模块和LFCC特征提取模块,得到CQCC特征和LFCC特征;将CQCC特征或者LFCC特征输入第一阶段轻量初步筛选模型进行第一阶段筛选,筛选出第一阶段真实语音和第一阶段生成语音;将第一阶段生成语音的CQCC特征或者LFCC特征输入所述第二阶段深度鉴别模型,鉴别出第二阶段真实语音和第二阶段生成语音,第二阶段生成语音确认为生成语音。

Patent Agency Ranking