用于处理数据的方法、装置、设备、介质和程序产品

    公开(公告)号:CN119599145A

    公开(公告)日:2025-03-11

    申请号:CN202411647783.2

    申请日:2024-11-15

    Inventor: 童泳淇 张鑫

    Abstract: 本公开的实施例涉及用于处理数据的方法、装置、设备、介质和程序产品。该方法包括获取用于训练机器学习模型的原始数据集,原始数据集包括可用作机器学习模型的输入的第一多个提示。该方法还包括将第一多个提示划分为多个提示组,来自同一提示组的两个提示之间的相似度大于来自不同提示组中的两个提示之间的相似度。该方法还包括确定多个提示组中的提示组中的第二多个提示到提示组的中心点的多个距离。该方法还包括基于多个距离,从提示组中选择部分提示以用于调整机器学习模型。通过该方法,从原始数据集的多个提示中选择有代表性的提示来进行模型的调整,有效地减少了知识广度,并且减少了计算资源的使用,提高了数据处理效率和用户体验。

Patent Agency Ranking