-
公开(公告)号:CN114091406A
公开(公告)日:2022-02-25
申请号:CN202111202937.3
申请日:2021-10-15
Applicant: 北京大学
IPC: G06F40/117 , G06F40/295 , G06K9/62 , G06N3/04 , G06N3/08 , G06N5/02
Abstract: 本发明涉及一种面向知识抽取的智能文本标注方法及系统,针对知识抽取过程存在的深度学习模型缺乏标注数据,且人工数据标注繁琐,需要领域专家大量人工操作,耗时耗力等问题,面向知识抽取的实体识别和关系抽取两个阶段,提出基于主动学习的智能标注方法与系统,本发明的效果在于,当获取完全无标签数据时,领域专家可以自由设定标注模型和标注批次规模等参数,边标注数据,边使实体识别和关系抽取联合模型学习该知识抽取行为,在尽可能少的标注轮次后完成深度学习模型的训练,进而完成整个数据集的知识抽取。
-
公开(公告)号:CN117807063A
公开(公告)日:2024-04-02
申请号:CN202311595548.0
申请日:2023-11-27
Applicant: 北京大学
IPC: G06F16/215 , G06F16/25
Abstract: 本申请提供一种面向知识抽取模型全生命周期管理方法、装置及相关产品,可用于人工智能技术领域。该方法包括:获取多个预设数据集;将各预设数据集中的数据转换为统一规定格式,并进行数据清洗处理及模型特有的特征抽取处理,以获得各处理后数据集;从Git仓库中获取各预设知识抽取模型;采用各处理后数据集分别对各预设知识抽取模型进行自动训练及评估,以获得各处理后数据集对应的最优预设知识抽取模型;获取待确认的目标数据集,并基于目标数据集与多个候选处理后数据集的相似度确定目标数据集对应的最优目标知识抽取模型;采用最优目标知识抽取模型对目标数据集进行预测。
-
公开(公告)号:CN117521802A
公开(公告)日:2024-02-06
申请号:CN202311517351.5
申请日:2023-11-14
Applicant: 北京大学
Abstract: 本申请提供一种融合预训练语言模型的知识抽取方法及系统,涉及自然语言处理技术领域。通过获取应用预训练语言模型对知识抽取对象进行序列标注和实体类别分类的生成式输出,并应用超参平滑该生成式输出的边界,得到知识浓度矩阵,进一步根据知识浓度矩阵、文本长度特征矩阵和应用知识抽取模型对知识抽取对象进行知识抽取得到的第一知识抽取结果,确定知识抽取对象对应的第二知识抽取结果,利用预训练语言模型增强知识抽取模型的性能,提高知识抽取的准确性。
-
-