大语言模型的优化方法、装置、设备、介质及计算机程序产品

    公开(公告)号:CN117973478A

    公开(公告)日:2024-05-03

    申请号:CN202410149071.1

    申请日:2024-02-01

    Abstract: 本说明书提供一种大语言模型的优化方法、装置、设备、介质及计算机程序产品。所述方法包括:根据大语言模型中量化后和量化前的目标矩阵的差异获得残差矩阵;根据与所述残差矩阵的第一列向量相似度最高的量化后的目标矩阵中的第二列向量,确定所述残差矩阵的稀疏基;根据所述稀疏基得到量化后的网络层的修正参数,所述修正参数用于对推理过程中所述量化后的网络层的输出数据进行修正。通过从目标矩阵中获得与网络层量化后与量化前的误差相似的参数组合,来对推理过程中该网络层的输出数据进行修正,可以使输出数据更接近于量化前网络层的输出数据,从而减小了量化误差,降低了量化效果损失。

    基于大语言模型的知识挖掘方法和装置

    公开(公告)号:CN117725113A

    公开(公告)日:2024-03-19

    申请号:CN202311654784.5

    申请日:2023-12-05

    Abstract: 本说明书的实施例提供了一种基于大语言模型的知识挖掘方法和装置。在该基于大语言模型的知识挖掘方法中,根据预定实体图谱,获取针对源实体的结构化知识;根据该源实体在该预定实体图谱中的目标属性确定候选关系集;利用大语言模型根据该结构化知识、该候选关系集和针对该源实体的附加知识,输出对应的目标关系集和可继承知识,其中,该可继承知识包括该目标关系集中的关系所对应的至少一个目标实体词;再利用大语言模型基于该源实体、该目标关系集中的关系和结构化知识、附加知识、可继承知识中的至少一项构建的提示信息,输出与所提供的关系对应的候选实体词集;进而,得到与该源实体相关联的实体和相应关系。

    一种聚类模型训练、用户聚类、信息推送方法及装置

    公开(公告)号:CN116401567B

    公开(公告)日:2023-09-08

    申请号:CN202310653728.3

    申请日:2023-06-02

    Abstract: 本说明书实施例提供了一种聚类模型训练、用户聚类、信息推送方法及装置。聚类模型包含父类簇和子类簇等多层类簇。聚类模型的待学习变量包括末端子类簇中心。在聚类模型的一次迭代训练中,通过聚类模型,从多层类簇的类簇中心中确定与用户特征匹配的末端子类簇中心,得到用户样本归属的末端子类簇。基于匹配的末端子类簇中心与用户特征之间的相似度确定预测损失,基于预测损失更新待学习变量。当聚类模型经过训练后,从中导出类簇标识与类簇中心的对应关系。该聚类模型可以确定新用户样本归属的类簇标识。在信息推送场景中,利用上述对应关系可以从用户标识查询到对应的类簇中心,将该类簇中心作为用户样本的特征向量,用于信息推送。

    一种计算图改进、信息推送方法及装置

    公开(公告)号:CN116384473A

    公开(公告)日:2023-07-04

    申请号:CN202310652126.6

    申请日:2023-06-02

    Abstract: 本说明书实施例提供了一种计算图改进、信息推送方法及装置。信息推送模型用于针对用户确定多条待选推送信息的评分。在该方法中,获取用户特征和待选推送信息特征,并据此特征对计算图的特征输入节点和其他节点进行类别标记,标记为与用户特征相关联的第一类,或者与待选推送信息特征相关联的第二类。接着,在属于第一类的特征输入节点与其下游节点之间增加切分节点,切分节点可以对输入的高维数据进行切分,并输出得到的低维数据。还要从其他节点中确定自身类别为第一类、其下游节点的类别为第二类的节点,作为用户特征叶节点。接着,在用户特征叶节点与其下游节点之间增加复制节点,复制节点对输入的低维数据进行复制,输出得到的高维数据。

    信息推送的方法及装置
    45.
    发明公开

    公开(公告)号:CN116383458A

    公开(公告)日:2023-07-04

    申请号:CN202310650591.6

    申请日:2023-06-02

    Abstract: 本说明书实施例提供一种信息推送的方法及装置,在信息推送的排序过程中将用于粗排的第一子网络和用于精排的第二子网络同时连接在嵌入模块之后,并增加动态选择模块完成第一子网络至第二子网络的连接,从而,在信息推送过程中在一个模型架构下完成信息排序,可以减少模型调用次数,且嵌入模块的嵌入结果可以由第一子网络和第二子网络共用。在信息推送过程中,先由第一子网络对候选信息进行粗排过滤,从而经由动态选择模块选择不固定条数的候选信息作为优选信息进行精排打分,之后,将优选信息的精排打分和其他候选信息的粗排打分结果一起进行融合排序,以按照打分结果进行信息推送。如此,可以提高信息推送的处理效率。

    预测模型训练方法和装置
    49.
    发明授权

    公开(公告)号:CN114792173B

    公开(公告)日:2022-10-04

    申请号:CN202210694769.2

    申请日:2022-06-20

    Abstract: 本说明书实施例提供一种训练预测模型的方法和装置,该预测模型包括第一分支和第二分支;根据该方法,首先获取目标样本,其包括样本特征,第一标签和第二标签;第一标签指示用户是否点击了目标对象;第二标签表示该用户是否实施与目标对象有关的目标行为。利用预测模型对样本特征进行处理,第一分支输出用户点击目标对象的第一概率;第二分支输出用户实施目标行为的第二概率。基于第一标签值和第一概率,确定第一损失。并且,在预设条件满足的情况下,根据第二标签值和第二概率确定第二损失,并根据第一损失和第二损失确定该目标样本的预测损失,其中预设条件包括,第一标签值指示用户点击了目标对象。于是可以根据上述预测损失,训练该预测模型。

    行为预测模型的训练方法及装置

    公开(公告)号:CN112581191A

    公开(公告)日:2021-03-30

    申请号:CN202011626281.3

    申请日:2020-08-14

    Abstract: 本说明书实施例提供一种行为预测模型的训练方法,包括:针对目标对象,获取基于多个种子用户形成的多个正样本,其中任意的第一正样本包括,与第一种子用户对应的第一用户特征和正例标签,此标签指示对应用户是被确定为对目标对象做出特定行为的用户;基于多个种子用户各自的用户特征,采用无监督的离群点检测算法,确定第一种子用户的离群分数,作为针对行为预测任务的第一训练权重;利用包括上述多个正样本以及预先获取的多个负样本,对第一行为预测模型进行第一训练,具体包括:将第一用户特征输入第一行为预测模型中,结合得到的行为预测结果和上述正例标签,确定行为预测损失,并利用第一训练权重对其进行加权处理,以训练第一行为预测模型。

Patent Agency Ranking