-
公开(公告)号:CN113298253A
公开(公告)日:2021-08-24
申请号:CN202110621275.7
申请日:2021-06-03
Applicant: 清华大学
IPC: G06N3/08 , G06N3/04 , G06K9/62 , G06F40/295
Abstract: 本发明提供一种用于命名实体识别的模型训练方法、识别方法及装置,该模型训练方法包括:将预定义类数据输入到由编码模块和分类模块构建的第一原型网络,得到学习后的编码模块;将预定义类数据分别输入到学习前后的编码模块,结果分别输入到组分类器进行训练;将其他类数据分别输入到学习前后的编码模块,结果分别输入到训练后的组分类器,得到其他类数据的分组结果;将预定义类数据和其他类数据输入到第二原型网络,对第二原型网络进行训练。本发明提供的用于命名实体识别的模型训练方法、识别方法及装置,通过利用预定义类的弱监督信号,能够有效地从其他类中挖掘更多的未定义类,从而利用其他类中丰富的语义信息,增强小样本命名实体识别能力。
-
公开(公告)号:CN113158673A
公开(公告)日:2021-07-23
申请号:CN202110326886.9
申请日:2021-03-26
Applicant: 清华大学
IPC: G06F40/295 , G06F40/242 , G06K9/62 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明提供一种单篇文档分析方法和装置,包括:对文档进行分类;对文档进行实体链接,得到实体链接结果;对文档进行分句、分词处理和词性标注处理,对处理结果分别进行关键词抽取、命名实体识别和实体开放关系抽取,得到关键词抽取结果、命名实体识别结果和开放关系抽取结果;将实体链接结果、关键词抽取结果和命名实体识别结果进行处理,得到实体合并结果;基于实体链接结果进行关系扩展,得到关系扩展结果;根据分句得到的句子和实体合并结果进行共现关系计算,得到共现关系确定结果;基于关系扩展结果、开放关系抽取结果和共现关系确定结果得到文档的分析结果。本发明能够帮助用户对文档进行快速查阅和分析,得到准确全面的分析结果。
-
公开(公告)号:CN113094469A
公开(公告)日:2021-07-09
申请号:CN202110363310.X
申请日:2021-04-02
Applicant: 清华大学
IPC: G06F16/33 , G06F40/211 , G06F40/279 , G06F40/295
Abstract: 本发明提供一种文本数据分析方法、装置、电子设备及存储介质,该方法包括:确定目标文本和目标文本中的目标实体,根据目标实体确定关联文本;根据目标文本确定三元组,以及在目标文本中对应于三元组的段落;根据目标文本和关联文本确定对应于目标实体的词云和开放关系;根据三元组、对应于三元组的段落、词云和开放关系确定分析结果。本发明提供的文本数据分析方法、装置、电子设备及存储介质,通过对文本进行分析,得到与目标实体相关联的三元组、段落、词云和开放关系,实现对文本数据的多层次挖掘,构建文本分级知识展示形态,方便对文本的重点了解。
-
公开(公告)号:CN112541087A
公开(公告)日:2021-03-23
申请号:CN202011507799.5
申请日:2020-12-18
Applicant: 清华大学
IPC: G06F16/36
Abstract: 本发明提供一种基于百科的跨语言知识图谱构建方法及装置,所述方法包括:获取目标领域的原始百科数据,原始百科数据包括至少两种语言、至少两处来源的所述目标领域的原始数据;对原始百科数据进行预处理,获得经过预处理后的目标数据;基于经过预处理后的目标数据,执行知识建模操作,获得概念数据、不同概念之间的上下位关系和概念属性数据;基于经过预处理后的目标数据,执行知识获取操作,获得实例数据、实例与概念之间的关系以及实例属性数据;执行知识融合操作,生成所述目标领域的知识图谱。本发明实现了基于百科的跨语言领域知识图谱的构建,数据来源具有多样性,可有效提升知识图谱的构建效率。
-
公开(公告)号:CN112527981A
公开(公告)日:2021-03-19
申请号:CN202011312007.9
申请日:2020-11-20
Applicant: 清华大学
IPC: G06F16/332 , G06F16/36 , G06F16/953
Abstract: 本发明提供一种开放式信息抽取方法、装置、电子设备及存储介质,其中,该方法包括:根据预设的知识图谱,获取目标技术领域的文档集中每一待提取文档中的候选三元组;根据各待提取文档中的候选三元组,建立图表示模型,根据图表示模型,获取每一待提取文档中每一候选三元组的重要性分值;对于每一待提取文档,根据每一待提取文档中各候选三元组的重要性分值,获取抽取结果。本发明提供的开放式信息抽取方法、装置、电子设备及存储介质,根据从目标技术领域的文档集中提取出的各候选三元组,建立图表示模型,根据图表示模型,获取候选三元组的重要性分值,对待提取文档中的候选三元组进行筛选,获取抽取结果,能提高开放式信息抽取的准确率。
-
公开(公告)号:CN112487213A
公开(公告)日:2021-03-12
申请号:CN202011507796.1
申请日:2020-12-18
Applicant: 清华大学
IPC: G06F16/36 , G06F40/289
Abstract: 本发明提供一种跨语言领域知识图谱构建方法及装置,所述方法包括:获取目标领域对应的至少两种语言的种子词汇;利用所述至少两种语言的种子词汇,进行词汇扩展,直至扩展得到的词汇数量满足预设条件,获得所述至少两种语言的扩展词汇;对所述至少两种语言的扩展词汇执行交叉补充操作,获得所述目标领域的相关词汇;从现有数据库中提取所述相关词汇对应的原始数据;对所述原始数据进行知识图谱的构建,生成所述目标领域的知识图谱。本发明实现了适用于任何领域的跨语言领域知识图谱的构建方法,知识图谱的构建过程中无需依赖该特定领域的专家知识和行业调研才能实现,可有效提升知识图谱的构建效率,节省人力物力。
-
公开(公告)号:CN112182151A
公开(公告)日:2021-01-05
申请号:CN202011012758.9
申请日:2020-09-23
Applicant: 清华大学
IPC: G06F16/33 , G06F16/332 , G06F40/58
Abstract: 本发明实施例提供一种基于多语言的阅读理解任务识别方法及装置,该方法包括:获取任一目标语言的阅读理解任务数据,编码得到上下文嵌入表达向量;将所述嵌入表达向量,输入预设的多语言阅读理解模型,根据多语言阅读理解模型的输出结果,确定阅读理解任务的答案;其中,所述多语言阅读理解模型,以源语言任务数据分别和每一目标语言任务数据的关联语义信息矩阵,进行融合后得到的特征向量作为输入,以源语言任务数据的答案作为标签,进行训练后得到。该方法能够同时支持迁移多语言和多任务数据集中的知识到目标语言中,实现目标语言无数据、少数据条件下的抽取式阅读理解任务,可以提高目标语言少数据以及富数据的抽取式阅读理解任务的准确度。
-
公开(公告)号:CN112100398A
公开(公告)日:2020-12-18
申请号:CN202010931215.0
申请日:2020-09-07
Applicant: 清华大学
Abstract: 本发明实施例提供一种专利空白预测方法及系统,包括:获取预设时间段内的历史专利,生成历史文本文件;提取历史文本文件中的实体和各实体之间的关系;将实体作为节点,将关系作为边,构建专利知识图谱;在专利知识图谱中预测未连边的两个节点间所存在的潜在边,以构建新的专利知识图谱;根据新的专利知识图谱,获取目标预测专利。本发明实施例提供的专利空白预测方法及系统,利用历史专利文档数据中的实体和关系构建专利知识图谱,通过图神经网络算法来预测专利知识图谱中潜在的三元组,以实现空白专利的预测,为明确科技研究方向与新专利的申报方向提供了便捷的途径。
-
公开(公告)号:CN111813931A
公开(公告)日:2020-10-23
申请号:CN202010548917.0
申请日:2020-06-16
Applicant: 清华大学
Abstract: 本发明实施例提供了一种基于开放域知识增强的事件检测深度学习模型的构建方法、装置、电子设备及存储介质,方法包括:获取标注数据和未标注数据;将标注数据输入到第一事件分类模型中,进行训练;根据外部语义库采用义原映射算法,对未标注数据中的第一数据子集进行处理,得到开放域触发词识别结果;根据开放域触发词识别结果和第二数据子集,采用知识蒸馏的方式,对第二事件分类模型进行训练;对训练后的第一事件分类模型和训练后的第二事件分类模型进行联合训练,得到基于开放域知识增强的事件检测深度学习模型。本发明实施例得到的基于开放域知识增强的事件检测深度学习模型可以有效解决各类标注分布不均匀的长尾难题。
-
公开(公告)号:CN107577670B
公开(公告)日:2020-09-22
申请号:CN201710833633.4
申请日:2017-09-15
Applicant: 清华大学
IPC: G06F40/284 , G06F40/289
Abstract: 本发明属于文本挖掘领域,尤其涉及一种基于定义与关系的术语抽取方法,该方法以挖掘术语定义与术语关系为主,综合构词规则和边界检测,其首先对文本进行定义抽取,从定义中生成初始的优质术语候补,之后会根据术语关系不断对术语候补进行扩充。本发明提出的上述术语抽取方法有利于提高对低频术语的辨识能力和对于通用性较高术语、长字数术语的抽取能力。
-
-
-
-
-
-
-
-
-