代码处理方法、训练数据的处理方法及模型微调方法

    公开(公告)号:CN118860412A

    公开(公告)日:2024-10-29

    申请号:CN202411075167.4

    申请日:2024-08-06

    Abstract: 本说明书提供代码处理方法、训练数据的处理方法及模型微调方法,代码处理方法包括:提取待处理代码的图数据,其中,所述图数据包括多个节点和不同节点之间的连接关系;根据所述待处理代码内与所述图数据中至少一个节点对应的代码片段,分别提取所述图数据中至少一个节点的特征;根据所述图数据中至少一节点的特征,以及至少两个节点之间的连接关系,确定所述图数据对应的词向量,其中,所述词向量为适应于大语言模型的特征空间的词向量。该方法能够将代码处理为适应于大语言模型的特征空间的等效词向量,从而使得代码能够接入大语言模型,并提高大语言模型对代码含义的获知能力。

Patent Agency Ranking