Patent search ap:("北京达佳互联信息技术有限公司") AND inv:"张大威" Page 1

1.

发明公开
发声对象识别方法、装置、服务器及存储介质审中-实审

公开(公告)号：CN114512133A

公开(公告)日：2022-05-17

申请号：CN202011159156.6

申请日：2020-10-26

Applicant: 北京达佳互联信息技术有限公司

Inventor： 张大威 , 姜涛 , 王晓瑞 , 王俊 , 李岩

IPC: G10L17/00 , G10L17/02 , G10L17/04 , G10L17/18 , G10L25/18 , G10L25/24 , G10L25/30 , G10L25/45

Abstract: 本公开关于一种发声对象识别方法、装置、服务器及存储介质。其中，该发声对象识别方法包括：从待识别发声对象的第一语音数据中提取第一语音向量，以及从目标发声对象的第二语音数据中提取第二语音向量；将第一语音向量和第二语音向量输入到声纹特征识别模型，利用声纹特征识别模型中隐藏层的激活函数分别对第一语音向量和第二语音向量进行声纹特征提取，得到待识别发声对象的第一声纹特征和目标发声对象的第二声纹特征；计算第一声纹特征与第二声纹特征之间的相似度；若相似度大于或等于相似度阈值，则确定待识别发声对象与目标发声对象相匹配。能够准确地确定出待识别发声对象与目标发声对象是否相匹配。

2.

发明授权
语种识别方法、装置、电子设备及存储介质有权

公开(公告)号：CN110033756B

公开(公告)日：2021-03-16

申请号：CN201910299006.6

申请日：2019-04-15

Applicant: 北京达佳互联信息技术有限公司

Inventor： 张大威 , 卢亮

IPC: G10L15/00 , G10L25/18 , G10L25/30 , G10L25/78

Abstract: 本公开是关于一种语种识别方法、装置、电子设备及存储介质，属于计算机技术领域。所述方法包括：获取待识别的音视频文件；对所述音视频文件进行特征提取，得到所述音视频文件的多个音频特征；将所述多个音频特征输入语种识别模型，由所述语种识别模型基于注意力机制，从所述多个音频特征中筛选出关键音频特征，基于所述关键音频特征进行语种识别，输出语种识别结果，所述语种识别结果用于指示所述音视频文件的语种。本公开基于注意力机制，从多个音频特征中筛选出少量的关键音频特征，使得语种识别模型将注意力集中在关键音频特征上，能够更加准确快速的识别出音视频文件的语种，提高了语种识别的准确率和效率。

3.

发明公开
语种识别方法、装置、电子设备及存储介质有权

公开(公告)号：CN110033756A

公开(公告)日：2019-07-19

申请号：CN201910299006.6

申请日：2019-04-15

Applicant: 北京达佳互联信息技术有限公司

Inventor： 张大威 , 卢亮

IPC: G10L15/00 , G10L25/18 , G10L25/30 , G10L25/78

Abstract: 本公开是关于一种语种识别方法、装置、电子设备及存储介质，属于计算机技术领域。所述方法包括：获取待识别的音视频文件；对所述音视频文件进行特征提取，得到所述音视频文件的多个音频特征；将所述多个音频特征输入语种识别模型，由所述语种识别模型基于注意力机制，从所述多个音频特征中筛选出关键音频特征，基于所述关键音频特征进行语种识别，输出语种识别结果，所述语种识别结果用于指示所述音视频文件的语种。本公开基于注意力机制，从多个音频特征中筛选出少量的关键音频特征，使得语种识别模型将注意力集中在关键音频特征上，能够更加准确快速的识别出音视频文件的语种，提高了语种识别的准确率和效率。

4.

发明授权
一种身份识别方法和装置有权

公开(公告)号：CN113035202B

公开(公告)日：2023-02-28

申请号：CN202110122528.6

申请日：2021-01-28

Applicant: 北京达佳互联信息技术有限公司

Inventor： 张大威 , 王俊 , 王欣 , 王晓瑞 , 王仲远

IPC: G10L17/00 , G10L17/02 , G10L17/06 , G10L17/18 , G10L25/18 , G10L25/24

Abstract: 本公开关于一种身份识别方法和装置，该方法包括：在对可疑音视频信息检测时，可以从可疑音视频信息中获取待识别音频信息，将待识别音频信息输入到声纹特征确定模型中进行声纹特征提取，得到待视频音频信息中发声对象的声纹特征。将待视频音频信息中发声对象的声纹特征和预存储的注册声纹特征输入到声纹特征匹配模型中进行声纹特征匹配，将获取到的注册声纹特征对应的发声对象的身份信息作为待识别音频信息中发声对象的身份识别结果。该方法可以基于声纹特征确定模型和声纹特征匹配模型确定待识别音频信息中发声对象的身份信息，提高身份识别的效率和准确性，从而减少人力成本。

5.

发明公开
语义文本的生成方法、装置、电子设备及存储介质有权

公开(公告)号：CN115206305A

公开(公告)日：2022-10-18

申请号：CN202211128827.1

申请日：2022-09-16

Applicant: 北京达佳互联信息技术有限公司

Inventor： 王俊 , 张大威 , 邓峰 , 王晓瑞

IPC: G10L15/18 , G10L15/02 , G10L15/26 , G06F40/30 , G06K9/00 , G06K9/62 , G06N3/04 , G06N3/08

Abstract: 本公开提供了一种语义文本的生成方法、装置、电子设备及存储介质，属于音频处理技术领域。该方法包括：获取音频信号的梅尔谱图；通过语义识别模型中的音频特征提取网络，基于时空注意力机制和通道注意力机制，对所述梅尔谱图进行特征提取，得到音频特征矩阵；通过所述语义识别模型中的文本生成网络，基于所述音频特征矩阵，生成语义文本。上述方案不仅基于时空注意力机制来提取音频信号的特征，还能够基于通道注意力机制来提取音频信号的特征，使得提取到的音频特征矩阵能够准确表示音频信号的特征，从而能够提高语义文本的准确率，进而更加准确表达音频信号的语义。

6.

发明公开
语种识别方法、装置、服务器及存储介质无效

公开(公告)号：CN112185347A

公开(公告)日：2021-01-05

申请号：CN202011033457.4

申请日：2020-09-27

Applicant: 北京达佳互联信息技术有限公司

Inventor： 张大威 , 姜涛 , 王晓瑞 , 王俊 , 李岩

IPC: G10L15/00 , G10L15/02 , G10L15/06 , G10L15/16 , G10L15/30 , G10L25/21 , G10L25/51 , H04L29/08

Abstract: 本公开关于一种语种识别方法、装置、服务器及存储介质，该方法包括：获取待检测音频信号中的声学特征；将声学特征输入预先训练的声纹特征提取网络模型中，得到预先训练的声纹特征提取网络模型中目标神经网络层输出的特征，作为待检测音频信号中的声纹特征；根据待检测音频信号中的声纹特征以及各个预设语种音频信号中的声纹特征，确定待检测音频信号与各个预设语种音频信号之间的对数似然比值；根据各个对数似然比值，确定待检测音频信号与各个预设语种音频信号之间的特征相似度；根据特征相似度，从各个预设语种音频信号对应的语种信息中，确定待检测音频信号的语种信息。采用本方法，有利于提高语种识别的准确度。

7.

发明公开
直播间歌唱识别方法、装置及服务器、存储介质有权

公开(公告)号：CN111147871A

公开(公告)日：2020-05-12

申请号：CN201911229100.0

申请日：2019-12-04

Applicant: 北京达佳互联信息技术有限公司

Inventor： 张大威

IPC: H04N21/2187 , H04N21/233 , H04N21/439 , G10L25/30 , G10L25/24

Abstract: 本公开关于一种直播间歌唱识别方法、装置及服务器、存储介质，涉及直播领域。首先通过经音乐声分类模型对声音特征向量序列进行分类，并得到分类结果；如果分类结果表征声音特征向量序列包括音乐声特征向量，则从直播流中提取出包括音乐声特征向量的音频流；然后提取出包括音乐声特征向量的音频流中的人声特征向量；最后经清唱声分类模型对人声特征向量进行分类，并得到分类结果。通过上述的方式分析得出分别通过先通过音乐声分类模型对声音特征向量序列进行分类、再经过清唱声分类模型对人声特征向量进行分类，从而得到的分类结果更加精确，能够更准的确定当前的直播间的主播是否正在进行歌唱表演。

8.

发明授权
音频场景识别方法、音频场景识别模型的训练方法和装置有权

公开(公告)号：CN111477250B

公开(公告)日：2023-11-28

申请号：CN202010266672.2

申请日：2020-04-07

Applicant: 北京达佳互联信息技术有限公司

Inventor： 王俊 , 卢亮 , 张大威

IPC: G10L25/51 , G10L25/18 , G10L25/30 , G10L25/24

Abstract: 本公开关于音频场景识别方法、音频场景识别模型的训练方法、装置、电子设备以及存储介质。该音频场景识别方法包括：获取音频信号；提取音频信号的频谱；将音频信号的频谱切分为至少两个子频带；根据至少两个子频带，确定音频信号的音频场景识别结果。采用该音频场景识别方法，可以实现将不同声音场景的频带差异性应用到音频场景识别中，从而提高模型识别音频场景的准确率和效率。

9.

发明授权
直播间歌唱识别方法、装置及服务器、存储介质有权

公开(公告)号：CN111147871B

公开(公告)日：2021-10-12

申请号：CN201911229100.0

申请日：2019-12-04

Applicant: 北京达佳互联信息技术有限公司

Inventor： 张大威

IPC: H04N21/2187 , H04N21/233 , H04N21/439 , G10L25/30 , G10L25/24

Abstract: 本公开关于一种直播间歌唱识别方法、装置及服务器、存储介质，涉及直播领域。首先通过经音乐声分类模型对声音特征向量序列进行分类，并得到分类结果；如果分类结果表征声音特征向量序列包括音乐声特征向量，则从直播流中提取出包括音乐声特征向量的音频流；然后提取出包括音乐声特征向量的音频流中的人声特征向量；最后经清唱声分类模型对人声特征向量进行分类，并得到分类结果。通过上述的方式分析得出分别通过先通过音乐声分类模型对声音特征向量序列进行分类、再经过清唱声分类模型对人声特征向量进行分类，从而得到的分类结果更加精确，能够更准的确定当前的直播间的主播是否正在进行歌唱表演。

10.

发明公开
音频识别方法、装置、计算机设备及存储介质无效

公开(公告)号：CN110047510A

公开(公告)日：2019-07-23

申请号：CN201910300042.X

申请日：2019-04-15

Applicant: 北京达佳互联信息技术有限公司

Inventor： 张大威 , 卢亮

IPC: G10L25/51 , G10L25/30 , G10L25/24 , G10L25/18

Abstract: 本公开是关于一种音频识别方法、装置、计算机设备及存储介质，属于机器学习技术领域。该方法包括：获取音频数据中至少一个语音帧的频率特征；将该至少一个语音帧的频率特征输入分类模型；通过该分类模型中的各个BLSTM，根据每个语音帧的上下文语音帧的频率特征，对该至少一个语音帧的频率特征进行加权变换，得到该音频数据为敏感音频的预测概率；当该预测概率大于概率阈值时，将该音频数据确定为该敏感音频。通过将音频数据的频率特征输入分类模型，当输出的预测概率大于概率阈值时，确定为敏感音频，提升了音频识别的效率，避免了客服人员进行人工筛选，节约了人力资源。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification