Patent search ap:("蚂蚁智信(杭州)信息技术有限公司") AND inv:"祝慧佳" Page 1

1.

发明公开
图像真假识别模型的训练方法和图像真假识别方法审中-实审

公开(公告)号：CN119810483A

公开(公告)日：2025-04-11

申请号：CN202411997618.X

申请日：2024-12-31

Applicant: 蚂蚁智信(杭州)信息技术有限公司

Inventor： 洪燕 , 兰钧 , 祝慧佳 , 王维强

IPC: G06V10/74 , G06V10/82 , G06V20/70 , G06N3/045 , G06N3/084 , G06N3/0895

Abstract: 本说明书实施例提供了一种图像真假识别模型的训练方法，图像真假识别模型至少包括相似度确定网络，该方法包括:获取已知为真实图像的第一图像对应的第一特征、和已知为虚假图像的第二图像对应的第二特征，以及，获取第一图像对应的第一描述和第二图像对应的第二描述，第一描述中包括第一图像为真实图像的第一指示，第二描述中包括第二图像为虚假图像的第二指示；提取第一描述对应的第三特征、和第二描述对应的第四特征；将第一特征、第二特征、第三特征、第四特征输入相似度确定网络，得到第一特征与第三特征之间的第一相似度、以及第二特征与第四特征之间的第二相似度；以第一相似度、第二相似度趋向变大为目的，更新相似度确定网络的网络参数。

2.

发明公开
一种图像生成模型的训练方法、图像生成方法及装置审中-实审

公开(公告)号：CN119810242A

公开(公告)日：2025-04-11

申请号：CN202411998131.3

申请日：2024-12-31

Applicant: 蚂蚁智信(杭州)信息技术有限公司

Inventor： 洪燕 , 兰钧 , 祝慧佳 , 王维强

IPC: G06T11/00 , G06N3/045 , G06N3/0455 , G06N3/0464 , G06N3/0475 , G06N3/08 , G06N3/084

Abstract: 本说明书实施例提供了一种图像生成模型的训练方法、图像生成方法及装置，图像生成模型包括第一网络和第二网络，该训练方法包括：将包含字符图案的第一图像输入预训练的第一网络，得到第一图像的第一图像特征；获取对于第一背景图案的第一描述对应的第一文本特征，将第一图像特征、第一文本特征，以及预设的第一噪声输入预训练的第二网络，得到第二图像；根据第二图像和第一噪声，得到第三图像；将第一图像特征、第一文本特征、第二图像输入第二网络，得到第二噪声；根据第一噪声和第二噪声，确定噪声差异，以噪声差异变小为目的，更新第一网络的网络参数。

3.

发明公开
基于语音多任务的模型训练方法和语音多任务处理方法审中-实审

公开(公告)号：CN119580745A

公开(公告)日：2025-03-07

申请号：CN202510089613.5

申请日：2025-01-21

Applicant: 蚂蚁智信(杭州)信息技术有限公司

Inventor： 顾艳梅 , 王志铭 , 祝慧佳

IPC: G10L17/02 , G10L17/04 , G10L17/18 , G10L15/34 , G06N3/0455 , G06N3/0464 , G06N3/048 , G06N3/08

Abstract: 本说明书实施例公开了一种基于语音多任务的模型训练方法和语音多任务处理方法。首先，获取目标语音信号，并通过预训练的特征提取模型提取目标语音信号中的第一语音特征。然后，通过伪造检测模型对第一语音特征进行处理，得到第一语音伪造概率。接着，基于第一语音伪造概率训练伪造检测模型，训练完成后，冻结伪造检测模型的参数。进一步地，通过声纹识别模型对第一语音特征进行处理，得到第一声纹信息，并基于第一声纹信息对声纹识别模型进行训练。最后，利用训练好的伪造检测模型和声纹识别模型对待处理语音信号进行伪造检测和说话人验证。

4.

发明公开
一种合成语音检测方法、装置、存储介质及电子设备审中-实审

公开(公告)号：CN119517008A

公开(公告)日：2025-02-25

申请号：CN202510090649.5

申请日：2025-01-21

Applicant: 蚂蚁智信(杭州)信息技术有限公司

Inventor： 李俊奎 , 王维强 , 顾艳梅 , 王志铭 , 祝慧佳

IPC: G10L15/01 , G10L15/02 , G10L15/06 , G10L15/16 , G10L25/18 , G10L25/24

Abstract: 本说明书公开了一种合成语音检测方法、装置、存储介质及电子设备。在本说明书提供的合成语音检测方法中，获取用户输入的待检测音频；将所述待检测音频输入预先训练的检测模型，所述检测模型至少包括第一提取子网、第二提取子网、输出子网；通过所述第一提取子网提取所述待检测音频的音频特征，并通过所述第二提取子网提取所述待检测音频的频率倒谱特征；采用所述输出子网，根据所述音频特征与所述频率倒谱特征，输出所述待检测音频的检测结果。

Patent Agency Ranking