信号处理方法和信息处理设备

    公开(公告)号:CN111524536B

    公开(公告)日:2023-09-08

    申请号:CN201910104232.4

    申请日:2019-02-01

    Abstract: 本公开提供了信号处理方法和信息处理设备。信息处理设备包括处理器,所述处理器被配置为:对根据声音信号获得的时频域信号按照频率方向上的多个子带进行划分,以获得与各个子带对应的子带信号;将所获得的子带信号输入到预先训练好的分类模型中;以及利用分类模型确定声音信号中所包括的声音事件的类别,其中,分类模型包括分别与各个子带相对应的多个子带模型,每个子带模型根据通过训练获得的、相对应的子带对声音事件分类的影响而对所输入的子带信号施加权重,并根据被施加权重后的子带信号输出关于声音事件的初步分类结果,以及其中,分类模型根据多个子带模型的初步分类结果输出关于声音事件的最终分类结果。

    语音分离装置、方法及介质

    公开(公告)号:CN111696572B

    公开(公告)日:2023-07-18

    申请号:CN201910188493.9

    申请日:2019-03-13

    Abstract: 公开了一种语音分离装置、方法及介质,所述语音分离装置包括:预处理单元,其对包含预定数目的语音信号混合而成的混合语音信号进行预处理以得到混合表达;多分支网络,其具有多个分支,每个分支使用不同的感受野处理所述混合表达以获取不同时间尺度的信息;分支权重网络,其基于所述混合语音信号为所述多分支网络中的每个分支的结果分配权重,其中,所述多分支网络基于获取的不同时间尺度的信息和为每个分支的结果分配的权重得到估计特征;掩模生成单元,其基于所述估计特征针对所述预定数目的语音中的每一个生成掩模;以及分离单元,其基于所述掩模和所述混合表达生成分离的语音信号。

    文本相关的说话人确认方法和设备

    公开(公告)号:CN110188338B

    公开(公告)日:2023-02-21

    申请号:CN201810155360.7

    申请日:2018-02-23

    Abstract: 本发明公开了一种文本相关的说话人确认方法和设备。该方法包括:利用识别模型,根据输入音频数据,得到表明说话人和文本都正确的第一概率和表明说话人和文本中的至少一个不正确的第二概率;当第一概率与第二概率的差异大于预定阈值时,确认说话人身份,否则拒识说话人;其中,识别模型基于至少包括说话人视角和文本视角的多视角向量,所述多视角向量包括如下分量:多视角向量的总体均值μ、说话人视角的分量u、文本视角的分量v、以及噪声∈。

    识别面部动作的方法和装置以及存储介质

    公开(公告)号:CN115082979A

    公开(公告)日:2022-09-20

    申请号:CN202110276297.4

    申请日:2021-03-15

    Abstract: 公开了识别面部动作的方法和装置以及存储介质。该方法包括:由第一编码器针对第一面部图像提取第一特征;由第一分类器基于第一特征针对预定的多个运动单元生成第一预测结果,该第一预测结果指示该多个运动单元中的每一个是否存在于面部中;由第二分类器基于第一特征针对第一图像中除了运动单元之外的其它因素生成第二预测结果;通过以下方式训练第一编码器、第一分类器和第二分类器:第一编码器和第一分类器相互协作以增加第一预测结果的准确性,并且第一编码器和第二分类器相互对抗以降低第二预测结果的准确性;利用经训练的第一编码器和第一分类器,针对待识别的面部图像执行运动单元的识别。

    多视角向量处理方法和设备

    公开(公告)号:CN108875463B

    公开(公告)日:2022-08-12

    申请号:CN201710343390.6

    申请日:2017-05-16

    Abstract: 本申请公开了一种多视角向量处理方法和设备。其中,所述多视角向量x用于表征包含至少两个不可分立的视角的信息的对象,该方法包括:建模步骤,建立该多视角向量的模型,使得其至少包含以下分量:所述多视角向量的总体均值μ;所述多视角向量的每一个视角的分量;以及噪声∈;以及训练步骤,利用所述多视角向量x的训练数据获得所述总体均值μ、每一个视角的分量的参数和所述噪声∈的参数。该设备包括处理器和存储有程序代码的存储介质,所述程序代码当被处理器执行时,实现如前所述的方法。

    用于检测声音事件的装置和方法以及存储介质

    公开(公告)号:CN113269216A

    公开(公告)日:2021-08-17

    申请号:CN202010097053.5

    申请日:2020-02-17

    Abstract: 本公开内容涉及用于检测声音事件的装置、用于检测声音事件的方法及其上存储有程序的计算机可读存储介质。根据本公开内容的一个实施例,该用于检测声音事件的装置,包括:变换单元,被配置成通过对表征声音事件的波形的声音数据进行傅里叶变换确定包括与波形的幅度和相位有关的多个复数向量的复数谱数据;以及声音事件分类器,被配置成通过使用神经网络处理复数谱数据来确定声音事件关于多种候选事件类型的概率。本公开内容的方法、装置和存储介质至少能有助于实现如下效果之一:区分更多类型的声音事件,以及改善声音事件检测的准确度。

    声音事件的识别装置和方法

    公开(公告)号:CN112447187A

    公开(公告)日:2021-03-05

    申请号:CN201910822623.X

    申请日:2019-09-02

    Abstract: 公开了一种声音事件的识别装置,包括:编码器,其配置成将其中含有多个声音事件的声音信号转换为低维空间中的特征;以及检测器,其配置成将所述特征映射为每个声音事件的后验概率,其中,所述检测器对所述特征执行多次空洞卷积运算。根据本公开的识别装置通过端到端方式来更有效地进行自动声音事件检测。

    文本相关的说话人确认方法和设备

    公开(公告)号:CN110188338A

    公开(公告)日:2019-08-30

    申请号:CN201810155360.7

    申请日:2018-02-23

    Abstract: 本发明公开了一种文本相关的说话人确认方法和设备。该方法包括:利用识别模型,根据输入音频数据,得到表明说话人和文本都正确的第一概率和表明说话人和文本中的至少一个不正确的第二概率;当第一概率与第二概率的差异大于预定阈值时,确认说话人身份,否则拒识说话人;其中,识别模型基于至少包括说话人视角和文本视角的多视角向量,所述多视角向量包括如下分量:多视角向量的总体均值μ、说话人视角的分量u、文本视角的分量v、以及噪声∈。

    说话人确认方法和说话人确认设备

    公开(公告)号:CN108630207A

    公开(公告)日:2018-10-09

    申请号:CN201710179026.0

    申请日:2017-03-23

    Abstract: 本发明公开了一种说话人确认方法和说话人确认设备。该说话人确认方法用于验证是否由特定说话人进行特定发言,该方法包括:从输入语音中提取与任何文本内容无关的说话人特征,并将所提取的说话人特征与所存储的特定说话人特征进行比较,以确定是否是特定说话人在说话;基于输入语音帧序列的频域特征,从输入语音帧序列中提取分别与彼此不同文本内容对应的多个模板构成的模板串;以及将所得到的模板串与所存储的特定说话人的特定内容模板串进行比较,以确定是否进行了特定发言。

    基于声纹的身份验证方法和装置

    公开(公告)号:CN108288470A

    公开(公告)日:2018-07-17

    申请号:CN201710019531.9

    申请日:2017-01-10

    CPC classification number: G10L17/18 G06F17/17 G10L17/04 G10L17/06 G10L25/30

    Abstract: 本发明涉及基于声纹的身份验证方法和装置。该方法包括:一种基于声纹的身份验证方法,包括:接收未知语音;利用预先训练得到的基于神经网络的声纹提取器来提取所述未知语音中的声纹;将所提取的声纹与预先存储的声纹进行拼接得到拼接的声纹;以及利用预先训练的分类模型对所述拼接的声纹进行判断,验证所提取的声纹与预先存储的声纹是否来自同一个人。根据本发明的身份验证方法和装置,可以从较短的语音中提取说话者的全息声纹,使得验证结果更加鲁棒。

Patent Agency Ranking