-
公开(公告)号:CN119398163A
公开(公告)日:2025-02-07
申请号:CN202411185864.5
申请日:2024-08-27
Applicant: 北京大学
Abstract: 本发明提供一种多模态大语言模型构建方法及系统,该方法包括:获取样本图像数据和所述样本图像数据对应的样本文本数据,其中,所述样本文本数据包括正确描述所述样本图像数据的正样本文本数据和错误描述所述样本图像数据的负样本文本数据;基于对比学习损失函数,根据所述样本图像数据和所述样本文本数据,对多模态大语言模型进行迭代训练,并在满足预设训练条件后,得到训练好的多模态大语言模型,其中,所述对比学习损失函数是根据所述样本图像数据对应的样本视觉特征表示与所述样本文本数据对应的样本文本特征表示之间的互信息构建得到的。本发明提高了多模态大语言模型在面对真实视觉数据时的鲁棒性和可靠性。
-
公开(公告)号:CN118171291B
公开(公告)日:2024-09-20
申请号:CN202410595002.3
申请日:2024-05-14
Applicant: 北京大学
Abstract: 本发明提供一种代码漏洞检测大模型构建方法、装置和电子设备,涉及计算机技术领域,该方法包括:基于漏洞修复信息对初始大语言模型进行第一轮训练,获得第一大语言模型;基于奖励函数对第一大语言模型进行优化,获得第二大语言模型;针对各预设代码,对预设代码对应的值依赖图进行分析,确定预设代码对应的初始漏洞检测结果;基于预设代码对应的初始漏洞检测结果和漏洞标注结果,确定初始漏洞检测结果到漏洞标注结果的噪音转移矩阵;基于各预设代码分别对应的初始漏洞检测结果和噪音转移矩阵生成各预设代码分别对应的第二提示词,基于各第二提示词对第二大语言模型进行训练,获得目标大语言模型。本发明技术方案能够降低计算的复杂度。
-
公开(公告)号:CN111651198A
公开(公告)日:2020-09-11
申请号:CN202010312534.3
申请日:2020-04-20
Applicant: 北京大学
Abstract: 本发明实施例提供一种代码摘要自动化生成方法及装置,方法包括:基于代码摘要生成模型中的编码器分别对输入序列进行编码,获取输入序列的语义向量;基于代码摘要生成模型中的解码器对输入序列的语义向量进行解码,生成代码样本的函数名和代码摘要;根据生成的函数名、生成的代码摘要,以及预先获取的代码样本的目标函数名和目标代码摘要,计算代码摘要生成模型的损失函数的值,根据损失函数的值对代码摘要生成模型进行训练;将目标代码的输入序列输入训练好的代码摘要生成模型中生成目标代码的代码摘要。本发明实施例采用基于函数名预测任务和代码自动摘要生成任务的多任务学习机制对代码摘要生成模型进行训练,提升自动生成的代码摘要的质量。
-
公开(公告)号:CN119512524A
公开(公告)日:2025-02-25
申请号:CN202411185891.2
申请日:2024-08-27
Applicant: 北京大学
IPC: G06F8/33 , G06F8/75 , G06N3/0455
Abstract: 本发明提供一种基于大语言模型的多源信息融合的代码生成方法及系统,该方法包括:根据待补全代码的代码结构内容,从第一代码文件路径和多个第二代码文件路径中的代码文件中获取所述待补全代码对应的应用程序编程接口信息和代码关系信息;根据所述应用程序编程接口信息和所述代码关系信息,从目标代码库中匹配得到待定上下文代码片段;将所述待定上下文代码片段输入至代码评价模型,得到由所述代码评价模型输出的目标补全代码片段;根据所述待补全代码对应的代码输入光标位置信息,获取所述待补全代码的前序代码和后缀代码,并根据所述前序代码、所述后缀代码和所述目标补全代码片段,生成代码补全提示词。本发明得到更为准确的代码补全结果。
-
公开(公告)号:CN119396400A
公开(公告)日:2025-02-07
申请号:CN202411192606.X
申请日:2024-08-28
Applicant: 北京大学
IPC: G06F8/41
Abstract: 本发明提供一种基于大模型的代码分析与生成方法及系统,其中方法包括:获取用户输入的生成需求;基于所述生成需求,从代码功能模块集合中,确定待调用的目标功能模块,以及确定所述目标功能模块的执行顺序,所述代码功能模块集合包括代码分析模块和各种代码生成功能的大模型代理模块。基于所述执行顺序依次调用所述目标功能模块,得到与所述生成需求对应的代码。本发明通过自动生成符合规范的代码片段,减轻了开发人员的编码负担,降低了开发成本,提升了开发效率。同时,高效利用大模型代理技术,通过自动化代码分析,提高了分析的准确性。此外,系统能够适应不同的编程语言和开发框架,满足多样化的开发需求。
-
公开(公告)号:CN113946682B
公开(公告)日:2022-03-11
申请号:CN202111565272.2
申请日:2021-12-21
Applicant: 北京大学
Abstract: 本发明涉及一种基于自适应图神经网络的敏感文本检测方法及系统,方法包括:采集网络敏感文本,将敏感文本以及敏感文本的类型保存至数据库;解析敏感文本,过滤解析后的敏感文本,得到高质量敏感文本语料库;对语料库进行预处理,得到模型训练需要的敏感语句输入序列以及目标敏感类型序列;将敏感语句输入序列和目标敏感类型序列输入模型进行训练,训练后经过验证得到分类模型;将数据库中用于测试的文本信息输入分类模型,输出分类结果。本发明提出基于采用强化学习的自适应图神经网络,改模型基于图神经网络,能够很好的从敏感文本中提取有用特征,用强化学习来生成图,并输入图神经网络,提升文本分类的准确率。
-
公开(公告)号:CN119396986A
公开(公告)日:2025-02-07
申请号:CN202411185369.4
申请日:2024-08-27
Applicant: 北京大学
IPC: G06F16/3332 , G06F16/3329 , G06F16/334
Abstract: 本发明提供一种基于序列生成的检索增强生成方法,方法包括:对查询文本进行检索得到候选相关文本;基于初始化上下文序列和序列生成模型,生成当前预测文本块向量,以基于当前预测文本块向量,从候选相关文本中匹配得到最相关文本序列;基于当前最相关文本序列更新初始化上下文序列,基于更新的初始化上下文序列和序列生成模型,生成下一预测文本块向量,以得到下一轮次的最相关文本序列,直至得到的最相关文本序列满足预设条件;基于得到的最相关文本序列,确定目标提示词。本发明提供的方法,通过序列生成模型对检索得到的候选相关文本进行优化,实现生成连贯、高质量的提示词,进而提升基于提示词进行微调或者提示学习的下游任务的性能。
-
公开(公告)号:CN118171291A
公开(公告)日:2024-06-11
申请号:CN202410595002.3
申请日:2024-05-14
Applicant: 北京大学
Abstract: 本发明提供一种代码漏洞检测大模型构建方法、装置和电子设备,涉及计算机技术领域,该方法包括:基于漏洞修复信息对初始大语言模型进行第一轮训练,获得第一大语言模型;基于奖励函数对第一大语言模型进行优化,获得第二大语言模型;针对各预设代码,对预设代码对应的值依赖图进行分析,确定预设代码对应的初始漏洞检测结果;基于预设代码对应的初始漏洞检测结果和漏洞标注结果,确定初始漏洞检测结果到漏洞标注结果的噪音转移矩阵;基于各预设代码分别对应的初始漏洞检测结果和噪音转移矩阵生成各预设代码分别对应的第二提示词,基于各第二提示词对第二大语言模型进行训练,获得目标大语言模型。本发明技术方案能够降低计算的复杂度。
-
公开(公告)号:CN117788970A
公开(公告)日:2024-03-29
申请号:CN202311741774.5
申请日:2023-12-18
Applicant: 北京大学
IPC: G06V10/774 , G06V10/764 , G06V20/17
Abstract: 本发明提供一种地表属性分类数据集构建方法及系统,属于自动驾驶技术领域,利用在复杂真实环境中无人平台连续运动,同步采集无人平台的机体感知数据与环境感知数据;利用无人平台位置姿态与传感器几何参数,为每一段机体感知数据自动关联图像块,实现对采集的环境感知数据与机体感知数据进行关联;利用部分人工标注后的关联后的数据,半自动生成数据样本,构建环境感知与机体感知数据集;进行批量化的样本可视化、检查与编辑,得到地表属性分类数据集。本发明利用在复杂真实环境中连续采集的机体感知与环境感知数据,对其进行少量的人工标注即可高效的制作大量数据集,为研制地表属性分类模型,在复杂动态及多样环境中验证算法性能提供数据基础。
-
公开(公告)号:CN114580433B
公开(公告)日:2022-08-02
申请号:CN202210477581.2
申请日:2022-05-05
Applicant: 北京大学
Abstract: 本发明涉及信息检测技术领域,提出一种基于动态权重对比学习的多标签文本分类方法和系统,其中方法包括:预处理,得到训练集词向量和标签序列;采用基于预训练语言模型Bert和双向长短时记忆网络的分类模型对训练集多标签文本进行编码,得到包含语义信息的向量化表示;将标签序列和包含语义信息的向量化表示解码,得到预测的标签序列;通过联合交叉熵概率分布损失和对比学习损失计算预测的标签序列和标签序列之间的损失,根据损失优化分类模型作为多标签文本分类模型;将待分类的测试集多标签文本输入所述多标签文本分类模型,输出对应的最终的标签序列。根据该方法有效解决了多标签语义混淆现象以及多标签分类数据集中存在的长尾问题。
-
-
-
-
-
-
-
-
-