-
公开(公告)号:CN113626602A
公开(公告)日:2021-11-09
申请号:CN202110955119.4
申请日:2021-08-19
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/35 , G06F40/30 , G06F40/289 , G06F40/232 , G06F40/253 , G06N3/04 , G06N3/08
Abstract: 说明书披露一种文本分类的方法和装置。所述方法包括:对待分类文本进行切分得到若干文本片段;针对每个文本片段,将其作为入参输入已训练的片段语义提取模型,得到文本片段对应的片段语义向量;将片段语义向量作为入参输入已训练的第一分类模型,得到文本片段的分类结果;若任一文本片段的分类结果满足预设的置信要求,则根据满足置信要求的分类结果,确定待分类文本所属的文本分类;若所有文本片段的分类结果均不满足置信要求,则将若干文本片段对应的若干片段语义向量作为入参输入已训练的文本语义提取模型,得到待分类文本对应的文本语义向量;将文本语义向量作为入参输入已训练的第二分类模型,确定待分类文本所属的文本分类。
-
公开(公告)号:CN111680287A
公开(公告)日:2020-09-18
申请号:CN202010819239.7
申请日:2020-08-14
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供一种基于用户隐私保护的应用程序检测方法及装置,该方法从待检测的目标应用程序中,提取出存在用户隐私数据获取需求的若干场景对应的用户界面和隐私数据列表,然后提取第一用户界面的内容数据,将内容数据转换为相应的第一特征向量;计算第一特征向量与第一参考特征向量之间的第一相似度,当第一相似度超过第一预定阈值时,获取第一参考特征向量对应的参考场景下的参考隐私数据列表;计算第一隐私数据列表与参考隐私数据列表之间的第二相似度;至少基于第二相似度,判别第一场景是否为异常场景。该方法能够有效检测出隐私数据不合理的场景,进而防止用户隐私数据被不必要地获取。
-
公开(公告)号:CN111401062A
公开(公告)日:2020-07-10
申请号:CN202010216591.1
申请日:2020-03-25
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F40/289 , G06F16/35 , G06N3/04
Abstract: 本说明书实施例提供一种文本的风险识别方法、装置及设备,其中,方法包括:标注待进行风险识别的第一文本中各词汇的风险权重,所述风险权重用于表征词汇的风险程度;根据所述第一文本中各词汇的风险权重从所述第一文本中提取至少一个文本片段形成第二文本;每个所述文本片段中词汇的风险权重满足预设权重条件;对所述第二文本采用预先训练得到的文本分类模型进行风险识别,得到所述第二文本的风险识别结果。本说明书实施例的方案,能够在保证文本分类模型处理能力的情况下防止风险漏识,有效提高文本的风险识别效率。
-
公开(公告)号:CN113626602B
公开(公告)日:2025-05-13
申请号:CN202110955119.4
申请日:2021-08-19
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/353 , G06F40/30 , G06F40/284 , G06F40/232 , G06F40/253 , G06N3/045 , G06N3/0464 , G06N3/0442 , G06N3/084
Abstract: 说明书披露一种文本分类的方法和装置。所述方法包括:对待分类文本进行切分得到若干文本片段;针对每个文本片段,将其作为入参输入已训练的片段语义提取模型,得到文本片段对应的片段语义向量;将片段语义向量作为入参输入已训练的第一分类模型,得到文本片段的分类结果;若任一文本片段的分类结果满足预设的置信要求,则根据满足置信要求的分类结果,确定待分类文本所属的文本分类;若所有文本片段的分类结果均不满足置信要求,则将若干文本片段对应的若干片段语义向量作为入参输入已训练的文本语义提取模型,得到待分类文本对应的文本语义向量;将文本语义向量作为入参输入已训练的第二分类模型,确定待分类文本所属的文本分类。
-
公开(公告)号:CN119360834A
公开(公告)日:2025-01-24
申请号:CN202411170573.9
申请日:2024-08-23
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G10L15/06 , G10L15/26 , G06F40/232
Abstract: 本说明书实施例公开了一种文本获取方法、装置、介质及设备。为每个用户提供个性化的语音识别模型。本方案可以应用在可信执行环境。用户在使用自己专用的语音识别模型的过程中,需要对语音识别模型识别出的文本进行确认或否认,如果用户否认语音识别模型识别出的文本,则会触发文本纠错机制,不仅可以纠正用户本次想要输入的文本,而且还可以为语音识别模型的迭代优化提供正确的样本。
-
公开(公告)号:CN119203933A
公开(公告)日:2024-12-27
申请号:CN202411217241.1
申请日:2024-08-30
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书提供的一种模型训练方法、业务执行方法、装置以及存储介质,可以首先获取文本数据,将文本数据输入到预设的大语言模型中,以使大语言模型对文本数据进行语义分析,以确定出文本数据所对应的各文本要素信息,并根据各文本要素信息,生成用于对文本数据从至少部分角度进行总结的总结文本,以将总结文本与文本数据进行匹配,得到总结文本与文本数据之间的匹配结果,作为实际匹配结果,将文本数据以及总结文本输入到待训练的语言模型中,以使语言模型生成文本数据与总结文本之间的匹配结果,作为待验证匹配结果,根据待验证匹配结果和实际匹配结果之间的偏差,确定损失值,并根据损失值,对待训练的语言模型进行训练。
-
公开(公告)号:CN119202185A
公开(公告)日:2024-12-27
申请号:CN202411322542.0
申请日:2024-09-20
Applicant: 中国科学院软件研究所 , 支付宝(杭州)信息技术有限公司
IPC: G06F16/332 , G06N5/045
Abstract: 本说明书公开了一种业务执行方法、装置、存储介质及电子设备。在此方法中,获取至少一个提示示例以及待分析文本,并确定待分析文本对应的自解释指令,将至少一个提示示例、待分析文本以及自解释指令输入到预设的大语言模型中,以使大语言模型根据至少一个提示示例所包含的待分析示例文本与待分析示例文本对应的标准回复文本,来预测待分析文本对应的初始回复文本,并通过待分析文本对应的自解释指令,生成得到初始回复文本的原因信息,以根据原因信息,调整初始回复文本,并将调整后的初始回复文本作为待分析文本对应的目标回复文本,继而,根据待分析文本对应的目标回复文本,执行业务。
-
公开(公告)号:CN119170051A
公开(公告)日:2024-12-20
申请号:CN202411217063.2
申请日:2024-08-30
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例公开了一种语音的防伪攻击检测方法、装置及设备,该方法包括:获取待检测的语音数据;将所述语音数据输入到语音防伪攻击检测模型中的由多个编码块串联构成的第一编码子模型中,获取每个编码块输出的语音编码信息;基于所述多个编码块中每个编码块输出的语音编码信息,通过所述语音识别模型中的语音处理子模型对所述语音数据进行防伪攻击检测处理,得到所述语音数据对应的检测结果。
-
公开(公告)号:CN119006957A
公开(公告)日:2024-11-22
申请号:CN202411124386.7
申请日:2024-08-15
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V10/774 , G06V10/82 , G06V40/70 , G06N3/0464 , G06N3/08
Abstract: 本说明书实施例公开了一种模型的处理方法、装置及设备,该方法包括:从用于训练学生模型的多批图像样本中获取第一批图像样本,第一批图像样本中包括多张不同的图像样本,以及图像样本被掩码处理后的掩码图像;将多张图像样本输入到学生模型对应的教师模型中,分别得到每张图像样本对应的第一预测结果,并将多张掩码图像输入到学生模型中,分别得到每张掩码图像对应的第二预测结果;基于第一预测结果,确定多张图像样本之间的关联关系信息,并基于多张图像样本之间的关联关系信息对第二预测结果进行调制处理,得到每张掩码图像对应的重建图像的预测编码信息;基于第一预测结果和预测编码信息,对学生模型进行训练。
-
公开(公告)号:CN112199947B
公开(公告)日:2024-10-18
申请号:CN202011061564.8
申请日:2020-09-30
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/35 , G06F40/242 , G06F40/284 , G06F18/22 , G06N3/0464 , G06N3/0442 , G06N3/045 , G06N3/08
Abstract: 本说明书实施例提供一种程序名称宽泛检测方法和装置,该方法包括:获取一个程序的程序名称和主体名称后,首先从程序名称中解析出第一分词并分别将每个第一分词映射为第一词向量,从主体名称中解析出第二分词并分别将每个第二分词映射为第二词向量,接着根据各第一词向量生成用于表征程序名称内容特征的程序名称编码,接着根据程序名称编码和各第二词向量生成用于表征主体名称内容特征及第一分词与第二分词之间相似性的主体名称编码,接着将程序名称编码和主体名称编码输入分类器获得名称宽泛系数,接着根据名称宽泛系统与预设名称宽泛阈值的大小关系确定该程序的程序名称是否宽泛。
-
-
-
-
-
-
-
-
-