Java程序的区间分析方法及装置

    公开(公告)号:CN110244953A

    公开(公告)日:2019-09-17

    申请号:CN201910422882.3

    申请日:2019-05-21

    Abstract: 本发明实施例提供一种Java程序的区间分析方法和装置,其中方法包括:生成Java程序的值依赖图,值依赖图的节点为Java程序中的常量和变量,值依赖图的边为节点间的依赖关系,每条边还保存有前驱节点到后继节点的守卫值条件,从值依赖图的起始节点开始逐个计算区间信息:对于当前计算的节点,将前驱节点的区间信息的并集采用当前计算的节点与前驱节点之间的守卫值条件进行过滤,获得当前计算的节点的区间取值,将区间取值经对应的转换函数进行转换,作为当前计算的节点的区间信息。本发明实施例解决了现有方法对判断语句处理上精度不足的弊端。

    基于混合对比学习的关系抽取方法、装置、设备及介质

    公开(公告)号:CN119476206A

    公开(公告)日:2025-02-18

    申请号:CN202411294832.9

    申请日:2024-09-14

    Abstract: 本发明提供一种基于混合对比学习的关系抽取方法、装置、设备及介质,涉及人工智能技术领域,通过获取待抽取文本;将所述待抽取文本输入混合对比学习关系抽取模型,输出关系抽取结果,其中,所述混合对比学习关系抽取模型基于正样本以及混合负样本训练得到,所述混合负样本根据实体向量表示和上下文词向量表示构造。本发明通过引入混合对比学习策略,生成更具挑战性的负样本实例,从而提升关系抽取模型的关系抽取性能,不仅拓宽了负样本的选择范围,还提高了模型的泛化能力,可以实现各种复杂情况的文本关系抽取。

    基于序列生成的检索增强生成方法

    公开(公告)号:CN119396986A

    公开(公告)日:2025-02-07

    申请号:CN202411185369.4

    申请日:2024-08-27

    Applicant: 北京大学

    Inventor: 谢睿 张世琨 叶蔚

    Abstract: 本发明提供一种基于序列生成的检索增强生成方法,方法包括:对查询文本进行检索得到候选相关文本;基于初始化上下文序列和序列生成模型,生成当前预测文本块向量,以基于当前预测文本块向量,从候选相关文本中匹配得到最相关文本序列;基于当前最相关文本序列更新初始化上下文序列,基于更新的初始化上下文序列和序列生成模型,生成下一预测文本块向量,以得到下一轮次的最相关文本序列,直至得到的最相关文本序列满足预设条件;基于得到的最相关文本序列,确定目标提示词。本发明提供的方法,通过序列生成模型对检索得到的候选相关文本进行优化,实现生成连贯、高质量的提示词,进而提升基于提示词进行微调或者提示学习的下游任务的性能。

    代码漏洞检测大模型构建方法、装置和电子设备

    公开(公告)号:CN118171291A

    公开(公告)日:2024-06-11

    申请号:CN202410595002.3

    申请日:2024-05-14

    Applicant: 北京大学

    Inventor: 叶蔚 谢睿 张世琨

    Abstract: 本发明提供一种代码漏洞检测大模型构建方法、装置和电子设备,涉及计算机技术领域,该方法包括:基于漏洞修复信息对初始大语言模型进行第一轮训练,获得第一大语言模型;基于奖励函数对第一大语言模型进行优化,获得第二大语言模型;针对各预设代码,对预设代码对应的值依赖图进行分析,确定预设代码对应的初始漏洞检测结果;基于预设代码对应的初始漏洞检测结果和漏洞标注结果,确定初始漏洞检测结果到漏洞标注结果的噪音转移矩阵;基于各预设代码分别对应的初始漏洞检测结果和噪音转移矩阵生成各预设代码分别对应的第二提示词,基于各第二提示词对第二大语言模型进行训练,获得目标大语言模型。本发明技术方案能够降低计算的复杂度。

    基于动态权重对比学习的多标签文本分类方法和系统

    公开(公告)号:CN114580433B

    公开(公告)日:2022-08-02

    申请号:CN202210477581.2

    申请日:2022-05-05

    Applicant: 北京大学

    Abstract: 本发明涉及信息检测技术领域,提出一种基于动态权重对比学习的多标签文本分类方法和系统,其中方法包括:预处理,得到训练集词向量和标签序列;采用基于预训练语言模型Bert和双向长短时记忆网络的分类模型对训练集多标签文本进行编码,得到包含语义信息的向量化表示;将标签序列和包含语义信息的向量化表示解码,得到预测的标签序列;通过联合交叉熵概率分布损失和对比学习损失计算预测的标签序列和标签序列之间的损失,根据损失优化分类模型作为多标签文本分类模型;将待分类的测试集多标签文本输入所述多标签文本分类模型,输出对应的最终的标签序列。根据该方法有效解决了多标签语义混淆现象以及多标签分类数据集中存在的长尾问题。

    基于对偶对比学习的零样本关系抽取方法和系统

    公开(公告)号:CN114548325B

    公开(公告)日:2022-08-02

    申请号:CN202210441073.9

    申请日:2022-04-26

    Applicant: 北京大学

    Abstract: 本发明涉及软件检测技术领域,提出一种基于对偶对比学习的零样本关系抽取方法和系统,其中方法包括:获取样本数据集,将样本数据集分为训练集、验证集和测试集;对训练集进行预处理;对预处理后的样本进行编码,结合位置编码,得到各样本的向量表示,对训练集中样本的标签进行编码,得到各标签的向量表示;结合样本层的对比学习和标签层的对比学习计算模型损失,计算模型损失后构建关系抽取模型;将验证集输入关系抽取模型,得到最优关系抽取模型;将测试集输入优化后的关系抽取模型,得到语义匹配的结果作为零样本关系抽取结果。根据本发明的方案,保证零样本关系抽取的高效和精准,解决了现有技术中对零样本关系抽取迫切需求的问题。

    基于动态权重对比学习的多标签文本分类方法和系统

    公开(公告)号:CN114580433A

    公开(公告)日:2022-06-03

    申请号:CN202210477581.2

    申请日:2022-05-05

    Applicant: 北京大学

    Abstract: 本发明涉及信息检测技术领域,提出一种基于动态权重对比学习的多标签文本分类方法和系统,其中方法包括:预处理,得到训练集词向量和标签序列;采用基于预训练语言模型Bert和双向长短时记忆网络的分类模型对训练集多标签文本进行编码,得到包含语义信息的向量化表示;将标签序列和包含语义信息的向量化表示解码,得到预测的标签序列;通过联合交叉熵概率分布损失和对比学习损失计算预测的标签序列和标签序列之间的损失,根据损失优化分类模型作为多标签文本分类模型;将待分类的测试集多标签文本输入所述多标签文本分类模型,输出对应的最终的标签序列。根据该方法有效解决了多标签语义混淆现象以及多标签分类数据集中存在的长尾问题。

    基于文档上下文的机器翻译方法及装置

    公开(公告)号:CN111666774B

    公开(公告)日:2022-06-03

    申请号:CN202010334379.5

    申请日:2020-04-24

    Applicant: 北京大学

    Abstract: 本发明实施例提供一种基于文档上下文的机器翻译方法及装置,方法包括:基于句子级Encoder获取当前句子的源端上下文表征、目标端上下文草稿表征和当前句子的草稿译文表征;基于文档级Encoder获取当前句子的源端句子表征,在源端句子表征中融合源端上下文表征,获取融合后的所述源端句子表征;基于文档级Decoder获取所述当前句子的目标端句子表征,在目标端句子表征中融合当前句子的草稿译文表征和目标端上下文草稿表征,根据融合后的目标端句子表征和融合后的源端句子表征,获取当前句子的最终翻译结果。本发明实施例引入文档级信息进行上下文知识推理,以此对句子级别的草稿译文进行修正,改善了翻译质量,得到更好的译文。

    基于对偶对比学习的零样本关系抽取方法和系统

    公开(公告)号:CN114548325A

    公开(公告)日:2022-05-27

    申请号:CN202210441073.9

    申请日:2022-04-26

    Applicant: 北京大学

    Abstract: 本发明涉及软件检测技术领域,提出一种基于对偶对比学习的零样本关系抽取方法和系统,其中方法包括:获取样本数据集,将样本数据集分为训练集、验证集和测试集;对训练集进行预处理;对预处理后的样本进行编码,结合位置编码,得到各样本的向量表示,对训练集中样本的标签进行编码,得到各标签的向量表示;结合样本层的对比学习和标签层的对比学习计算模型损失,计算模型损失后构建关系抽取模型;将验证集输入关系抽取模型,得到最优关系抽取模型;将测试集输入优化后的关系抽取模型,得到语义匹配的结果作为零样本关系抽取结果。根据本发明的方案,保证零样本关系抽取的高效和精准,解决了现有技术中对零样本关系抽取迫切需求的问题。

    序列标注方法及装置
    10.
    发明授权

    公开(公告)号:CN111666734B

    公开(公告)日:2021-08-10

    申请号:CN202010334370.4

    申请日:2020-04-24

    Applicant: 北京大学

    Abstract: 本发明实施例提供一种序列标注方法及装置。其中,方法包括:获取待分析的句子;将待分析的句子输入至序列标注模型,输出句子的分词结果及每个词的标注结果;其中,序列标注模型是基于样本句子及样本句子对应的分词和标注数据进行基于强化学习的训练获得的。本发明实施例提供的序列标注方法及装置,通过强化学习技术隐式地学习文本的分词信息,能缓解中文序列标注中分词与目标的不匹配。

Patent Agency Ranking