-
公开(公告)号:CN117852609A
公开(公告)日:2024-04-09
申请号:CN202410133285.X
申请日:2024-01-30
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06N3/082 , G06N3/092 , G06F18/10 , G06F18/214
Abstract: 本说明书实施例提供一种针对大语言模型进行预处理的方法及装置,可以基于大语言模型在各个训练样本上各自最后一个隐层输出的隐状态确定的教师模型的预测结果,针对大语言模型进行层剪枝蒸馏操作和神经元剪枝蒸馏操作得到进行业务处理的目标模型。其中,在层剪枝蒸馏操作中,通过从后往前逐层剪枝后蒸馏,每次只减掉少部分参数,避免一次性剪掉多个网络层后难以收敛的问题。
-
公开(公告)号:CN116401567A
公开(公告)日:2023-07-07
申请号:CN202310653728.3
申请日:2023-06-02
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F18/231 , G06F18/22 , G06F16/9035 , G06F18/214
Abstract: 本说明书实施例提供了一种聚类模型训练、用户聚类、信息推送方法及装置。聚类模型包含父类簇和子类簇等多层类簇。聚类模型的待学习变量包括末端子类簇中心。在聚类模型的一次迭代训练中,通过聚类模型,从多层类簇的类簇中心中确定与用户特征匹配的末端子类簇中心,得到用户样本归属的末端子类簇。基于匹配的末端子类簇中心与用户特征之间的相似度确定预测损失,基于预测损失更新待学习变量。当聚类模型经过训练后,从中导出类簇标识与类簇中心的对应关系。该聚类模型可以确定新用户样本归属的类簇标识。在信息推送场景中,利用上述对应关系可以从用户标识查询到对应的类簇中心,将该类簇中心作为用户样本的特征向量,用于信息推送。
-
公开(公告)号:CN116684480A
公开(公告)日:2023-09-01
申请号:CN202310948354.8
申请日:2023-07-28
Applicant: 支付宝(杭州)信息技术有限公司
IPC: H04L67/55 , G06F16/9535 , G06F18/214
Abstract: 本发明涉及一种信息推送模型的确定及信息推送的方法及装置,在模型构建过程中,采用多输入多输出模型作为初始模型,通过样本特征深度提取多输入向量,同时产出多层次丰富的输出表征,并根据初始模型的训练结果对初始模型中的连接关系进行删减。其中,初始模型包括依次连接的第一数量的网络层,单个网络层的输出作为其后的第二数量网络层的输入。如此训练得到的模型可以具有更加有效的拓扑结构。
-
公开(公告)号:CN115841068A
公开(公告)日:2023-03-24
申请号:CN202211257443.X
申请日:2022-10-14
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F30/27 , G06F18/214 , G06F119/02
Abstract: 本说明书实施例公开了一种针对用户的干预执行方法、装置以及设备。方案包括:获取包含第一模型和第二模型的基础模型,所述第一模型用于预测对用户进行干预的情况下的转化率,所述第二模型用于预测未对用户进行干预的情况下的转化率;获取用户训练样本集合,并对所述用户训练样本集合中的各样本进行聚类,得到多个样本包;分别确定各所述样本包整体的期望干预增量和预测干预增量;根据所述期望干预增量和预测干预增量之间的一致性程度,为所述基础模型生成辅助损失;根据所述辅助损失,对所述基础模型进行训练;利用训练后的所述基础模型,对目标用户进行预测,并根据所述预测的结果,确定是否对所述目标用户进行干预。
-
公开(公告)号:CN117744631A
公开(公告)日:2024-03-22
申请号:CN202311688510.8
申请日:2023-12-10
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F40/211 , G06F40/253 , G06F18/214
Abstract: 本说明书实施例提供一种文本预测的方法及装置,在基于大模型进行文本预测过程中,为当前词预测下文时,根据当前业务请求及历史生成文本,确定将当前词作为起始词的若干个预取词组,然后对各个预取词组并行执行前向预测,从而确定基于若干个预取词组匹配到的最长词序列,根据最长词序列确定相应的若干输出词作为当前词的下文。如此,可以通过预取和并行计算提高词预测速率。
-
公开(公告)号:CN116684480B
公开(公告)日:2023-10-31
申请号:CN202310948354.8
申请日:2023-07-28
Applicant: 支付宝(杭州)信息技术有限公司
IPC: H04L67/55 , G06F16/9535 , G06F18/214
Abstract: 本发明涉及一种信息推送模型的确定及信息推送的方法及装置,在模型构建过程中,采用多输入多输出模型作为初始模型,通过样本特征深度提取多输入向量,同时产出多层次丰富的输出表征,并根据初始模型的训练结果对初始模型中的连接关系进行删减。其中,初始模型包括依次连接的第一数量的网络层,单个网络层的输出作为其后的第二数量网络层的输入。如此训练得到的模型可以具有更加有效的拓扑结构。
-
公开(公告)号:CN116383458B
公开(公告)日:2023-08-11
申请号:CN202310650591.6
申请日:2023-06-02
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/9035 , G06Q30/0601
Abstract: 本说明书实施例提供一种信息推送的方法及装置,在信息推送的排序过程中将用于粗排的第一子网络和用于精排的第二子网络同时连接在嵌入模块之后,并增加动态选择模块完成第一子网络至第二子网络的连接,从而,在信息推送过程中在一个模型架构下完成信息排序,可以减少模型调用次数,且嵌入模块的嵌入结果可以由第一子网络和第二子网络共用。在信息推送过程中,先由第一子网络对候选信息进行粗排过滤,从而经由动态选择模块选择不固定条数的候选信息作为优选信息进行精排打分,之后,将优选信息的精排打分和其他候选信息的粗排打分结果一起进行融合排序,以按照打分结果进行信息推送。如此,可以提高信息推送的处理效率。
-
公开(公告)号:CN116384473B
公开(公告)日:2023-08-08
申请号:CN202310652126.6
申请日:2023-06-02
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06N3/082 , G06F16/9535
Abstract: 本说明书实施例提供了一种计算图改进、信息推送方法及装置。信息推送模型用于针对用户确定多条待选推送信息的评分。在该方法中,获取用户特征和待选推送信息特征,并据此特征对计算图的特征输入节点和其他节点进行类别标记,标记为与用户特征相关联的第一类,或者与待选推送信息特征相关联的第二类。接着,在属于第一类的特征输入节点与其下游节点之间增加切分节点,切分节点可以对输入的高维数据进行切分,并输出得到的低维数据。还要从其他节点中确定自身类别为第一类、其下游节点的类别为第二类的节点,作为用户特征叶节点。接着,在用户特征叶节点与其下游节点之间增加复制节点,复制节点对输入的低维数据进行复制,输出得到的高维数据。
-
公开(公告)号:CN111401972A
公开(公告)日:2020-07-10
申请号:CN202010286947.9
申请日:2020-04-13
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例公开了一种数据处理及广告评分方法、装置及设备。其中数据处理方案,包括:从输入特征矩阵中获取第一特征数据和第二特征数据;分别计算所述第一特征数据和所述第二特征数据,以生成深度网络中所述第一特征数据对应的第一隐藏信息和所述第二特征数据对应的第二隐藏信息;根据所述第一隐藏信息和所述第二隐藏信息,计算输出所述输入特征矩阵对应的预测结果。
-
公开(公告)号:CN118227882A
公开(公告)日:2024-06-21
申请号:CN202410431048.1
申请日:2024-04-10
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/9535 , G06Q30/0601 , G06Q30/0251 , G06F18/214 , G06N20/00
Abstract: 本说明书提供的点击率预测模型训练方法和系统以及内容推荐方法和系统,获得训练样本集,所述训练样本集中包括不加入位置特征的无位置特征样本集和加入位置特征的有位置特征样本集,基于这两部分样本集及其对应的点击率标签训练目标预测模型,使得目标预测模型在训练过程中能够正确学习到位置特征对点击率的影响,这样训练完成的目标预测模型就能够准确预测目标用户对推荐内容的预测点击率,消除了由位置特征引起的偏差,提高了预测点击率的预测准确性。而且,基于准确率高的多个预测点击率就能够向目标用户推荐与其相关性更高的目标推荐内容,提升了内容推荐的准确性。
-
-
-
-
-
-
-
-
-