-
公开(公告)号:CN112650817A
公开(公告)日:2021-04-13
申请号:CN202011444885.6
申请日:2020-12-08
Applicant: 清华大学
IPC: G06F16/28 , G06F40/289
Abstract: 本发明提供一种关键词汇扩展方法及系统、电子设备及存储介质,包括:S1:基于关键词汇,从数据库中提取出与关键词汇相对应的文本数据;S2:对所述文本数据进行实体链接,得到和关键词汇相关的关联要素;S3:基于所述关键词汇和关联要素,进行相关性筛选,得到筛选后的词汇;S4:判断所述筛选后的词汇是否满足预设条件;若是,执行S5;若否,则将所述筛选后的词汇作为关键词汇,返回所述S1;S5:将筛选后的词汇汇总作为关键词汇的相关词汇列表。本发明只需要使用少量的领域种子词汇或种子文本,通过较少的人力成本、时间能够快速实现领域词汇扩展的任务。
-
公开(公告)号:CN112487212A
公开(公告)日:2021-03-12
申请号:CN202011507759.0
申请日:2020-12-18
Applicant: 清华大学
IPC: G06F16/36 , G06F40/289
Abstract: 本发明提供一种领域知识图谱的构建方法及装置,所述方法包括:获取目标领域的种子词汇;利用所述目标领域的种子词汇,进行词汇扩展,直至扩展得到的词汇满足预设条件,获得所述目标领域的相关词汇;从现有数据库中提取所述相关词汇对应的原始数据;基于所述原始数据进行知识图谱的构建,生成所述目标领域的知识图谱。在本发明实施例中,通过利用目标领域的种子词汇进行词汇扩展获得相关词汇,并基于相关词汇获取原始数据,基于原始数据进行知识图谱构建,提供了一套适用于任何领域的知识图谱的构建方法,在知识图谱的构建过程中无需依赖该特定领域的专家知识和行业调研才能实现,可有效提升知识图谱的构建效率,节省人力物力。
-