-
公开(公告)号:CN113963357B
公开(公告)日:2022-03-11
申请号:CN202111535596.1
申请日:2021-12-16
Applicant: 北京大学
IPC: G06V30/19 , G06V30/10 , G06V10/774 , G06F16/36 , G06F16/35
Abstract: 本发明公开了一种基于知识图谱的敏感文本检测方法及系统,其中方法包括:爬取网络中现有知识,对所述现有知识进行预处理,得到知识图谱网络;获取网络中的敏感文本,对所述敏感文本进行预处理,得到训练语料;根据所述训练语料和所述知识图谱网络得到文本检测模型的编码信息,将所述编码信息转化为向量表示,得到最终的所述文本检测模型;对待测试文本进行预处理,根据所述文本检测模型得到检测结果。本发明通过知识图谱引入外部知识,建立文本检测模型,并通过多视图推理网络对外部知识进行进一步融合,使得外部知识能够得到充分利用。
-
公开(公告)号:CN113963357A
公开(公告)日:2022-01-21
申请号:CN202111535596.1
申请日:2021-12-16
Applicant: 北京大学
IPC: G06V30/19 , G06V30/10 , G06V10/774 , G06F16/36 , G06F16/35
Abstract: 本发明公开了一种基于知识图谱的敏感文本检测方法及系统,其中方法包括:爬取网络中现有知识,对所述现有知识进行预处理,得到知识图谱网络;获取网络中的敏感文本,对所述敏感文本进行预处理,得到训练语料;根据所述训练语料和所述知识图谱网络得到文本检测模型的编码信息,将所述编码信息转化为向量表示,得到最终的所述文本检测模型;对待测试文本进行预处理,根据所述文本检测模型得到检测结果。本发明通过知识图谱引入外部知识,建立文本检测模型,并通过多视图推理网络对外部知识进行进一步融合,使得外部知识能够得到充分利用。
-
公开(公告)号:CN111651198B
公开(公告)日:2021-04-13
申请号:CN202010312534.3
申请日:2020-04-20
Applicant: 北京大学
Abstract: 本发明实施例提供一种代码摘要自动化生成方法及装置,方法包括:基于代码摘要生成模型中的编码器分别对输入序列进行编码,获取输入序列的语义向量;基于代码摘要生成模型中的解码器对输入序列的语义向量进行解码,生成代码样本的函数名和代码摘要;根据生成的函数名、生成的代码摘要,以及预先获取的代码样本的目标函数名和目标代码摘要,计算代码摘要生成模型的损失函数的值,根据损失函数的值对代码摘要生成模型进行训练;将目标代码的输入序列输入训练好的代码摘要生成模型中生成目标代码的代码摘要。本发明实施例采用基于函数名预测任务和代码自动摘要生成任务的多任务学习机制对代码摘要生成模型进行训练,提升自动生成的代码摘要的质量。
-
公开(公告)号:CN111666761A
公开(公告)日:2020-09-15
申请号:CN202010404188.1
申请日:2020-05-13
Applicant: 北京大学
IPC: G06F40/289 , G06F40/211 , G06N20/00
Abstract: 本发明实施例提供一种细粒度情感分析模型训练方法及装置,所述方法包括:获取带有情感标记以及方面词的文本信息;对文本信息中的每条语句进行分词处理,获取每条语句中每个词的上下文词向量,根据每个词的上下文词向量以及方面词的词向量得到文本信息中每条语句对应的语句向量;根据每条语句对应的语句向量获取每条语句的上下文语句向量,并获取每条语句基于方面词的语句权重,根据上下文语句向量与语句权重得到文本信息的文本向量;将文本向量、情感标记、以及方面词输入到循环神经网络,训练得到神经网络模型。采用本方法能够对文本数据的细粒度的各种方面情感类型进行识别,进而也提高了情感识别的准确率。
-
公开(公告)号:CN111666734A
公开(公告)日:2020-09-15
申请号:CN202010334370.4
申请日:2020-04-24
Applicant: 北京大学
IPC: G06F40/117 , G06F40/289 , G06F40/205 , G06N3/04 , G06N3/08
Abstract: 本发明实施例提供一种序列标注方法及装置。其中,方法包括:获取待分析的句子;将待分析的句子输入至序列标注模型,输出句子的分词结果及每个词的标注结果;其中,序列标注模型是基于样本句子及样本句子对应的分词和标注数据进行基于强化学习的训练获得的。本发明实施例提供的序列标注方法及装置,通过强化学习技术隐式地学习文本的分词信息,能缓解中文序列标注中分词与目标的不匹配。
-
公开(公告)号:CN119512524A
公开(公告)日:2025-02-25
申请号:CN202411185891.2
申请日:2024-08-27
Applicant: 北京大学
IPC: G06F8/33 , G06F8/75 , G06N3/0455
Abstract: 本发明提供一种基于大语言模型的多源信息融合的代码生成方法及系统,该方法包括:根据待补全代码的代码结构内容,从第一代码文件路径和多个第二代码文件路径中的代码文件中获取所述待补全代码对应的应用程序编程接口信息和代码关系信息;根据所述应用程序编程接口信息和所述代码关系信息,从目标代码库中匹配得到待定上下文代码片段;将所述待定上下文代码片段输入至代码评价模型,得到由所述代码评价模型输出的目标补全代码片段;根据所述待补全代码对应的代码输入光标位置信息,获取所述待补全代码的前序代码和后缀代码,并根据所述前序代码、所述后缀代码和所述目标补全代码片段,生成代码补全提示词。本发明得到更为准确的代码补全结果。
-
公开(公告)号:CN119396400A
公开(公告)日:2025-02-07
申请号:CN202411192606.X
申请日:2024-08-28
Applicant: 北京大学
IPC: G06F8/41
Abstract: 本发明提供一种基于大模型的代码分析与生成方法及系统,其中方法包括:获取用户输入的生成需求;基于所述生成需求,从代码功能模块集合中,确定待调用的目标功能模块,以及确定所述目标功能模块的执行顺序,所述代码功能模块集合包括代码分析模块和各种代码生成功能的大模型代理模块。基于所述执行顺序依次调用所述目标功能模块,得到与所述生成需求对应的代码。本发明通过自动生成符合规范的代码片段,减轻了开发人员的编码负担,降低了开发成本,提升了开发效率。同时,高效利用大模型代理技术,通过自动化代码分析,提高了分析的准确性。此外,系统能够适应不同的编程语言和开发框架,满足多样化的开发需求。
-
公开(公告)号:CN118350462B
公开(公告)日:2024-08-16
申请号:CN202410767684.1
申请日:2024-06-14
Applicant: 人民法院信息技术服务中心 , 北京大学
Abstract: 本说明书涉及司法关系要素抽取技术领域,提供了一种基于标签向量正交约束的司法关系要素抽取方法及装置,该方法包括:对司法文本集合内每个司法文本中的实体对进行标注;在标注后的每个司法文本中增加针对所述实体对的关系提示语句;所述关系提示语句中的每个司法关系类型均由多个不同的掩码组成;将加入关系提示语句后的司法文本转换为向量化司法文本;以所述向量化司法文本为输入,以任务损失和正交损失共同作为优化参数,训练深度学习模型,以获得司法关系要素抽取模型;利用所述司法关系要素抽取模型,从待处理司法文本中抽取实体对的司法关系要素。本说明书实施例可以提高司法领域关系抽取要素的抽取精度。
-
公开(公告)号:CN113946682B
公开(公告)日:2022-03-11
申请号:CN202111565272.2
申请日:2021-12-21
Applicant: 北京大学
Abstract: 本发明涉及一种基于自适应图神经网络的敏感文本检测方法及系统,方法包括:采集网络敏感文本,将敏感文本以及敏感文本的类型保存至数据库;解析敏感文本,过滤解析后的敏感文本,得到高质量敏感文本语料库;对语料库进行预处理,得到模型训练需要的敏感语句输入序列以及目标敏感类型序列;将敏感语句输入序列和目标敏感类型序列输入模型进行训练,训练后经过验证得到分类模型;将数据库中用于测试的文本信息输入分类模型,输出分类结果。本发明提出基于采用强化学习的自适应图神经网络,改模型基于图神经网络,能够很好的从敏感文本中提取有用特征,用强化学习来生成图,并输入图神经网络,提升文本分类的准确率。
-
公开(公告)号:CN111666774A
公开(公告)日:2020-09-15
申请号:CN202010334379.5
申请日:2020-04-24
Applicant: 北京大学
IPC: G06F40/58 , G06F40/30 , G06F40/205
Abstract: 本发明实施例提供一种基于文档上下文的机器翻译方法及装置,方法包括:基于句子级Encoder获取当前句子的源端上下文表征、目标端上下文草稿表征和当前句子的草稿译文表征;基于文档级Encoder获取当前句子的源端句子表征,在源端句子表征中融合源端上下文表征,获取融合后的所述源端句子表征;基于文档级Decoder获取所述当前句子的目标端句子表征,在目标端句子表征中融合当前句子的草稿译文表征和目标端上下文草稿表征,根据融合后的目标端句子表征和融合后的源端句子表征,获取当前句子的最终翻译结果。本发明实施例引入文档级信息进行上下文知识推理,以此对句子级别的草稿译文进行修正,改善了翻译质量,得到更好的译文。
-
-
-
-
-
-
-
-
-