-
公开(公告)号:CN118410789A
公开(公告)日:2024-07-30
申请号:CN202410425777.6
申请日:2024-04-09
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F40/20 , G06N3/08 , G06N3/045 , G06N3/0442 , G06F18/24
Abstract: 本公开提供一种多音字的读音预测方法和系统,包括:获得待预测文本,待预测文本包括待预测多音字,从预先训练的各模型信息中,获得与待预测多音字对应的目标模型信息,其中,目标模型信息包括目标微调参数矩阵和目标分类器,根据预设编码器和目标模型信息确定与待预测文本对应的目标读音预测结果,目标读音预测结果包括与待预测多音字对应的目标读音,预测系统在对预测待预测文本进行读音预测的情况下,共享预设编码器,调用专属的目标模型信息,以结合预设编码器和目标模型信息确定待预测文本中的多音字的目标读音,可以提高对多音字预测的准确性,进而可以提高对待预测文本的读音预测的准确性和可靠性。
-
公开(公告)号:CN117012178A
公开(公告)日:2023-11-07
申请号:CN202310954803.X
申请日:2023-07-31
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供了韵律标注数据生成方法及装置,该方法包括:从目标视频中提取目标音频,以及提取目标音频对应的目标文本;利用预训练的音频文本对齐模型,对目标音频和目标文本进行字级别的对齐处理,得到对齐结果;基于对齐结果,对目标音频进行特征提取处理,从而得到目标文本中的各个字分别对应的音频特征;利用预设的关联于多个韵律标签的韵律识别规则,基于音频特征确定各个字分别对应的韵律标签;在目标文本中为各个字分别标注识别的韵律标签,并将标注后的目标文本作为韵律标注数据。
-
公开(公告)号:CN111651582B
公开(公告)日:2023-06-23
申请号:CN202010587169.7
申请日:2020-06-24
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/332 , G06F16/36 , G06F40/35
Abstract: 本说明书的实施例公开了一种模拟用户发言的方法和系统,该方法包括:获取待模拟对话,基于所述待模拟对话确定待模拟客服对话策略。基于所述待模拟客服对话策略从对话字典中确定至少一条目标用户发言;所述对话字典基于历史对话中任意轮对话生成,所述对话字典包括历史客服对话策略和历史用户发言之间的映射关系;在所述对话字典中所述目标用户发言对应的历史客服对话策略与所述待模拟客服对话策略匹配。将所述至少一条目标用户发言作为所述待模拟对话的用户发言的模拟结果。
-
公开(公告)号:CN111444308B
公开(公告)日:2020-09-18
申请号:CN202010535282.0
申请日:2020-06-12
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/31 , G06F16/332 , G06F40/216 , G06F40/30 , G06N20/00
Abstract: 本说明书的实施例公开了一种模拟用户发言的方法和系统,所述方法包括:获取待模拟对话,基于待模拟对话确定检索项,检索项至少包括:待模拟对话任意一轮的用户意图、待模拟对话任意一轮的客服响应策略和待模拟对话的最新客服发言;将检索项和索引库中对应的索引内容分别进行匹配,获取匹配结果;索引库中包含多组索引,多组索引基于多个历史对话上文生成,多组索引中任意一组的索引内容至少包括:历史最新客服发言、历史最新用户发言、历史客服响应策略链路和历史用户意图链路;基于匹配结果,确定多组索引中所述历史最新用户发言的分数;将分数满足预设条件的历史最新用户发言,作为待模拟对话的用户的后续发言。
-
公开(公告)号:CN117095672B
公开(公告)日:2024-07-30
申请号:CN202310855500.2
申请日:2023-07-12
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G10L13/10 , G10L13/027 , G10L21/055 , G10L21/0356 , G06T13/40
Abstract: 本说明书实施例涉及一种数字人唇形生成方法及装置,所述方法的输入数据包括文本数据和与其对应的音频数据,将文本数据和音频数据输入到对齐模块中进行对齐,得到文本数据中任一文本单位所对应的音频片段和时间段。然后,使用预先配置好的文本‑口型字典,根据文本单位获得对应的口型信息;根据音频片段的特定音频特征获取该口型对应的幅度信息,综合口型信息和幅度信息,便可以得到一个时间段上的对应的唇形。将不同时间段上的唇形按照时间顺序进行排列后,得到初步的唇形序列。对这个唇形序列在相邻唇形之间的空白时间段进行插值和平滑操作,实现不同唇形之间的过渡,得到最终的平滑唇形序列。
-
公开(公告)号:CN117095672A
公开(公告)日:2023-11-21
申请号:CN202310855500.2
申请日:2023-07-12
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G10L13/10 , G10L13/027 , G10L21/055 , G10L21/0356 , G06T13/40
Abstract: 本说明书实施例涉及一种数字人唇形生成方法及装置,所述方法的输入数据包括文本数据和与其对应的音频数据,将文本数据和音频数据输入到对齐模块中进行对齐,得到文本数据中任一文本单位所对应的音频片段和时间段。然后,使用预先配置好的文本‑口型字典,根据文本单位获得对应的口型信息;根据音频片段的特定音频特征获取该口型对应的幅度信息,综合口型信息和幅度信息,便可以得到一个时间段上的对应的唇形。将不同时间段上的唇形按照时间顺序进行排列后,得到初步的唇形序列。对这个唇形序列在相邻唇形之间的空白时间段进行插值和平滑操作,实现不同唇形之间的过渡,得到最终的平滑唇形序列。
-
公开(公告)号:CN112100387B
公开(公告)日:2021-02-19
申请号:CN202011269071.3
申请日:2020-11-13
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供一种用于文本分类的神经网络系统的训练方法,该神经网络系统包括文本表征网络、特征提取层和分类网络。该训练方法包括:首先,获取训练文本集,该训练文本集对应K个类别;接着,针对该训练文本集中任一的第一训练文本,利用上述文本表征网络对其进行处理,得到第一文本向量;然后,利用上述特征提取层,将该第一文本向量分别与对应所述K个类别的K个类别特征向量进行组合操作,得到K个特征提取向量;再接着,基于该K个特征提取向量和上述分类网络,确定分类预测结果;再然后,基于该分类预测结果和上述第一训练文本的类别标签,训练上述神经网络系统。
-
公开(公告)号:CN111339309B
公开(公告)日:2020-09-04
申请号:CN202010440488.5
申请日:2020-05-22
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/35 , G06F16/33 , G06F16/332
Abstract: 本说明书的实施例公开了一种用户意图的语料扩展方法,该方法包括:获取第一服务话术和用户意图,所述用户意图为回答所述第一服务话术的话语所代表的意图;从至少一条第二服务话术中,确定与所述第一服务话术的相似度满足第一预设条件的至少一条第三服务话术,所述第二服务话术为对话记录中的服务话术;确定至少一条候选扩展语料,所述候选扩展语料为所述对话记录中回答所述至少一条第三服务话术的话语;从所述至少一条候选扩展语料中,确定至少一条目标扩展语料,所述目标扩展语料的意图与所述用户意图相同或者相近;将所述至少一条目标扩展语料作为所述用户意图的扩展语料。
-
公开(公告)号:CN110990547A
公开(公告)日:2020-04-10
申请号:CN201911204119.X
申请日:2019-11-29
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/332 , G06F16/33
Abstract: 本说明书实施例公开了话术生成方法。所述方法可以包括:获取对话上文,以及与所述对话上文相关的至少一个意图;分别获取与每一个意图相关的历史话术;基于话术生成模型,确定所述历史话术与所述对话上文的关联编码表示,所述话术生成模型为编码解码模型;基于所述话术生成模型,基于所述关联编码表示进行解码,生成目标话术。本说明书所披露的话术生成方法中采用了具有明确意图的历史话术,使得生成的话术具备多样性及针对性。
-
公开(公告)号:CN117012178B
公开(公告)日:2024-11-01
申请号:CN202310954803.X
申请日:2023-07-31
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供了韵律标注数据生成方法及装置,该方法包括:从目标视频中提取目标音频,以及提取目标音频对应的目标文本;利用预训练的音频文本对齐模型,对目标音频和目标文本进行字级别的对齐处理,得到对齐结果;基于对齐结果,对目标音频进行特征提取处理,从而得到目标文本中的各个字分别对应的音频特征;利用预设的关联于多个韵律标签的韵律识别规则,基于音频特征确定各个字分别对应的韵律标签;在目标文本中为各个字分别标注识别的韵律标签,并将标注后的目标文本作为韵律标注数据。
-
-
-
-
-
-
-
-
-