Patent search ap:("支付宝(杭州)信息技术有限公司") AND inv:"伏冠宇" Page 1

1.

发明授权
韵律标注数据生成方法及装置有权

公开(公告)号：CN117012178B

公开(公告)日：2024-11-01

申请号：CN202310954803.X

申请日：2023-07-31

Applicant: 支付宝(杭州)信息技术有限公司

Inventor： 金春祥 , 杨明晖 , 薛吕欣 , 伏冠宇 , 王晶

IPC: G10L13/10 , G10L13/08

Abstract: 本说明书实施例提供了韵律标注数据生成方法及装置，该方法包括：从目标视频中提取目标音频，以及提取目标音频对应的目标文本；利用预训练的音频文本对齐模型，对目标音频和目标文本进行字级别的对齐处理，得到对齐结果；基于对齐结果，对目标音频进行特征提取处理，从而得到目标文本中的各个字分别对应的音频特征；利用预设的关联于多个韵律标签的韵律识别规则，基于音频特征确定各个字分别对应的韵律标签；在目标文本中为各个字分别标注识别的韵律标签，并将标注后的目标文本作为韵律标注数据。

2.

发明公开
用于自动回复医疗咨询的方法、系统、装置和介质审中-实审

公开(公告)号：CN114999676A

公开(公告)日：2022-09-02

申请号：CN202210747520.3

申请日：2022-06-29

Applicant: 支付宝(杭州)信息技术有限公司

Inventor： 伏冠宇 , 彭爽 , 杨明晖

IPC: G16H80/00 , G06F16/332 , G06N20/00

Abstract: 提供了一种由计算机实现的自动回复医疗咨询的方法，包括：获取医疗对话前文，该医疗对话前文包括医疗咨询；基于该医疗对话前文，利用检索模型在医疗问答知识库中检索对该医疗咨询的一个或多个第一候选回复；基于该医疗对话前文，利用对话生成模型自动生成对该医疗咨询的一个或多个第二候选回复，该一个或多个第一候选回复和该一个或多个第二候选回复构成候选回复集；利用打分模型对该候选回复集中的候选回复打分；以及基于对该候选回复集中的候选回复的打分结果从该候选回复集中选择对该医疗咨询的回复。本申请还涉及相关联的系统、装置和介质。本申请的方案能够更灵活可靠地自动回复医疗咨询。

3.

发明授权
一种数字人唇形生成方法及装置有权

公开(公告)号：CN117095672B

公开(公告)日：2024-07-30

申请号：CN202310855500.2

申请日：2023-07-12

Applicant: 支付宝(杭州)信息技术有限公司

Inventor： 伏冠宇 , 杨明晖 , 薛吕欣 , 金春祥

IPC: G10L13/10 , G10L13/027 , G10L21/055 , G10L21/0356 , G06T13/40

Abstract: 本说明书实施例涉及一种数字人唇形生成方法及装置，所述方法的输入数据包括文本数据和与其对应的音频数据，将文本数据和音频数据输入到对齐模块中进行对齐，得到文本数据中任一文本单位所对应的音频片段和时间段。然后，使用预先配置好的文本‑口型字典，根据文本单位获得对应的口型信息；根据音频片段的特定音频特征获取该口型对应的幅度信息，综合口型信息和幅度信息，便可以得到一个时间段上的对应的唇形。将不同时间段上的唇形按照时间顺序进行排列后，得到初步的唇形序列。对这个唇形序列在相邻唇形之间的空白时间段进行插值和平滑操作，实现不同唇形之间的过渡，得到最终的平滑唇形序列。

4.

发明公开
一种数字人唇形生成方法及装置审中-实审

公开(公告)号：CN117095672A

公开(公告)日：2023-11-21

申请号：CN202310855500.2

申请日：2023-07-12

Applicant: 支付宝(杭州)信息技术有限公司

Inventor： 伏冠宇 , 杨明晖 , 薛吕欣 , 金春祥

IPC: G10L13/10 , G10L13/027 , G10L21/055 , G10L21/0356 , G06T13/40

Abstract: 本说明书实施例涉及一种数字人唇形生成方法及装置，所述方法的输入数据包括文本数据和与其对应的音频数据，将文本数据和音频数据输入到对齐模块中进行对齐，得到文本数据中任一文本单位所对应的音频片段和时间段。然后，使用预先配置好的文本‑口型字典，根据文本单位获得对应的口型信息；根据音频片段的特定音频特征获取该口型对应的幅度信息，综合口型信息和幅度信息，便可以得到一个时间段上的对应的唇形。将不同时间段上的唇形按照时间顺序进行排列后，得到初步的唇形序列。对这个唇形序列在相邻唇形之间的空白时间段进行插值和平滑操作，实现不同唇形之间的过渡，得到最终的平滑唇形序列。

5.

发明授权
韵律预测模型的训练方法及装置、语音合成方法及装置有权

公开(公告)号：CN116978354B

公开(公告)日：2024-04-30

申请号：CN202310963940.X

申请日：2023-08-01

Applicant: 支付宝(杭州)信息技术有限公司

Inventor： 薛吕欣 , 胡翔 , 伏冠宇 , 金春祥 , 杨明晖

IPC: G10L13/10 , G10L13/047

Abstract: 本说明书实施例提供了韵律预测模型的训练方法及装置、语音合成方法及装置。该训练方法包括：利用韵律预测模型包括的编码器对样本字符序列进行编码处理，得到编码结果；利用切分值预测网络处理该编码结果，从而针对各相邻字符之间的各位置，预测得到在该位置处进行语义切分的切分值；基于各位置的切分值，生成表征样本字符序列的句法的第一句法二叉树；利用预训练的结构化语言模型，针对样本字符序列生成第二句法二叉树；基于第一句法二叉树和第二句法二叉树，确定结构损失；以最小化总预测损失为目标，调整该编码器的参数；其中,总预测损失基于结构损失确定、且与结构损失正相关。

6.

发明公开
一种语音合成方法、电子设备、介质及计算机程序产品审中-实审

公开(公告)号：CN118629392A

公开(公告)日：2024-09-10

申请号：CN202410712113.8

申请日：2024-06-03

Applicant: 支付宝(杭州)信息技术有限公司

Inventor： 伏冠宇 , 刘成龙 , 金春祥

IPC: G10L13/047 , G10L13/08

Abstract: 本说明书一个或多个实施例提供一种语音合成方法、电子设备、介质及计算机程序产品。该语音合成方法可以包括：对接收到的第一语音合成请求中携带的第一待处理文本依次实施语音学特征提取、声学合成与语音参数调整三个阶段的处理，得到目标语音；其中，在对第一待处理文本实施语音学特征提取阶段的处理或实施语音参数调整阶段的处理的过程中，若存在其他语音合成请求且该其他语音合成请求处于三个阶段中的任意阶段，则对该其他语音合成请求与第一语音合成请求做并行处理；在对第一待处理文本实施声学合成阶段的处理的过程中，若存在需要被实施声学合成阶段的处理的其他语音合成请求，则对该其他语音合成请求与第一语音合成请求做串行处理。

7.

发明公开
韵律预测模型的训练方法及装置、语音合成方法及装置审中-实审

公开(公告)号：CN116978354A

公开(公告)日：2023-10-31

申请号：CN202310963940.X

申请日：2023-08-01

Applicant: 支付宝(杭州)信息技术有限公司

Inventor： 薛吕欣 , 胡翔 , 伏冠宇 , 金春祥 , 杨明晖

IPC: G10L13/10 , G10L13/047

Abstract: 本说明书实施例提供了韵律预测模型的训练方法及装置、语音合成方法及装置。该训练方法包括：利用韵律预测模型包括的编码器对样本字符序列进行编码处理，得到编码结果；利用切分值预测网络处理该编码结果，从而针对各相邻字符之间的各位置，预测得到在该位置处进行语义切分的切分值；基于各位置的切分值，生成表征样本字符序列的句法的第一句法二叉树；利用预训练的结构化语言模型，针对样本字符序列生成第二句法二叉树；基于第一句法二叉树和第二句法二叉树，确定结构损失；以最小化总预测损失为目标，调整该编码器的参数；其中,总预测损失基于结构损失确定、且与结构损失正相关。

8.

发明公开
一种唇形确定方法、装置、设备、存储介质和程序产品审中-实审

公开(公告)号：CN118692484A

公开(公告)日：2024-09-24

申请号：CN202410940948.9

申请日：2024-07-12

Applicant: 支付宝(杭州)信息技术有限公司

Inventor： 朱帅 , 伏冠宇

IPC: G10L21/10 , G10L25/30 , G10L15/26

Abstract: 本说明书提供一种唇形确定方法，获取数字人带播报的文本数据，并确定文本数据中每个音素的播报时间段，将每个音素的播报时间段均划分为三个时间段，其中，三个之间段的中间的时间段，可以通过查音素‑唇形映射表来确定所需维持的关键帧唇形，另外两个时间段可以利用该音素的关键帧唇形分别和该音素前后的关键帧唇形之间的插值来确定。这样，将每个音素的播报时间段划分为三份，仅中间的时间段用于维持当前音素的唇形，另外的时间段都用于和前一个音素的唇形或后一个音素的唇形之间进行过渡，这样可以使得唇形变化更加逼真自然。

9.

发明公开
韵律标注数据生成方法及装置审中-实审

公开(公告)号：CN117012178A

公开(公告)日：2023-11-07

申请号：CN202310954803.X

申请日：2023-07-31

Applicant: 支付宝(杭州)信息技术有限公司

Inventor： 金春祥 , 杨明晖 , 薛吕欣 , 伏冠宇 , 王晶

IPC: G10L13/10 , G10L13/08

Abstract: 本说明书实施例提供了韵律标注数据生成方法及装置，该方法包括：从目标视频中提取目标音频，以及提取目标音频对应的目标文本；利用预训练的音频文本对齐模型，对目标音频和目标文本进行字级别的对齐处理，得到对齐结果；基于对齐结果，对目标音频进行特征提取处理，从而得到目标文本中的各个字分别对应的音频特征；利用预设的关联于多个韵律标签的韵律识别规则，基于音频特征确定各个字分别对应的韵律标签；在目标文本中为各个字分别标注识别的韵律标签，并将标注后的目标文本作为韵律标注数据。

10.

发明公开
用于自动问答的方法、系统、装置和介质审中-实审

公开(公告)号：CN114996429A

公开(公告)日：2022-09-02

申请号：CN202210750003.1

申请日：2022-06-29

Applicant: 支付宝(杭州)信息技术有限公司

Inventor： 伏冠宇 , 彭爽 , 杨明晖

IPC: G06F16/332 , G06F16/33 , G06F16/35 , G06K9/62 , G16H80/00

Abstract: 公开了一种由计算机实现的自动问答方法，包括：获取对话前文，所述对话前文包括要回复的询问；基于所述对话前文，利用检索模型在问答知识库中检索对所述询问的一个或多个第一候选回复；基于所述对话前文，利用对话生成模型自动生成对所述询问的一个或多个第二候选回复，所述一个或多个第一候选回复和所述一个或多个第二候选回复构成候选回复集；利用回复打分模型对所述候选回复集中的候选回复打分；以及基于对所述候选回复集中的候选回复的打分结果从所述候选回复集中选择对所述询问的回复。本申请还涉及相关联的自动问答系统、装置和介质。本申请的方案能够更灵活、更高质量地生成对对话前文中的询问的回复。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification