-
公开(公告)号:CN110929041A
公开(公告)日:2020-03-27
申请号:CN201911143409.8
申请日:2019-11-20
Applicant: 北京邮电大学 , 国网河北省电力有限公司信息通信分公司
Abstract: 本发明实施例提供一种基于分层注意力机制的实体对齐方法及系统,该方法包括:将知识图谱中待实体对齐的目标实体数据进行划分,得到词级别实体数据向量和句级别实体数据向量;根据注意力机制,获取所述词级别实体数据向量之间的词向量相似度,并根据注意力机制,获取所述句级别实体数据向量之间的句向量相似度;根据所述词向量相似度,获取所述词级别实体数据向量的分配权重参数向量矩阵,并根据所述句向量相似度和杰卡德系数公式,获取所述句级别实体数据向量的分配权重参数向量矩阵,以用于对所述目标实体数据进行实体对齐。本发明实施例提高了实体对齐的准确率,使得实体向量更容易生成,有效解决实体对齐过程中先验信息不易获得的问题。
-
公开(公告)号:CN110347896B
公开(公告)日:2021-09-21
申请号:CN201910507881.9
申请日:2019-06-12
Applicant: 国网浙江省电力有限公司电力科学研究院 , 国家电网有限公司 , 北京邮电大学
IPC: G06F16/951 , G06F16/23
Abstract: 本发明公开了一种基于PageRank算法的医疗数据爬取方法及系统。本发明的医疗数据爬取方法,包括步骤:用户根据需要输入要爬取的医疗关键词;计算网页时间因子及潜在相关性因子;计算得到第一轮PR值,并临时存入数据库中;对各网页中的超链接进行权重计算;计算得到第二轮PR值,并更新数据库;比较PR值大小,获取PR值最大的N个网页;输出PR值最大的N个网页。本发明能够有效的解决传统通用爬虫算法偏重旧网页、主题漂移和偏重综合性网页的缺陷,可以高效、准确的爬取医疗数据网页。
-
公开(公告)号:CN110347896A
公开(公告)日:2019-10-18
申请号:CN201910507881.9
申请日:2019-06-12
Applicant: 国网浙江省电力有限公司电力科学研究院 , 国家电网有限公司 , 北京邮电大学
IPC: G06F16/951 , G06F16/23
Abstract: 本发明公开了一种基于PageRank算法的医疗数据爬取方法及系统。本发明的医疗数据爬取方法,包括步骤:用户根据需要输入要爬取的医疗关键词;计算网页时间因子及潜在相关性因子;计算得到第一轮PR值,并临时存入数据库中;对各网页中的超链接进行权重计算;计算得到第二轮PR值,并更新数据库;比较PR值大小,获取PR值最大的N个网页;输出PR值最大的N个网页。本发明能够有效的解决传统通用爬虫算法偏重旧网页、主题漂移和偏重综合性网页的缺陷,可以高效、准确的爬取医疗数据网页。
-
-