-
公开(公告)号:CN104794222B
公开(公告)日:2017-12-12
申请号:CN201510211926.X
申请日:2015-04-29
Applicant: 北京交通大学
IPC: G06F17/30
Abstract: 本发明提供了一种网络表格语义恢复方法。该方法包括:基于Probase语义库对待恢复的网络表格进行初步的语义恢复,得到网络表格中每列的候选概念集合;根据网络表格中不同元组之间的组合距离确定聚类算法中的各个初始聚类中心,将网络表格中各个元组归纳于各个初始聚类中心所在的簇中,调整各个簇的聚类中心,根据各个簇的最终聚类中心获取缩减后的网络表格;根据网络表格中每列的候选概念集合和缩减后的网络表格,恢复出网络表格中每列的列标签和实体列。本发明通过从初始聚类中心的选择和基于组合距离的相似度计算两个方面来改善K‑means聚类算法,有效缩减了网络表格的规模,降低了完成任务的复杂度,提高了恢复出的网络表格的表头和实体列的准确率。
-
公开(公告)号:CN104794222A
公开(公告)日:2015-07-22
申请号:CN201510211926.X
申请日:2015-04-29
Applicant: 北京交通大学
IPC: G06F17/30
CPC classification number: G06F17/30705
Abstract: 本发明提供了一种网络表格语义恢复方法。该方法包括:基于Probase语义库对待恢复的网络表格进行初步的语义恢复,得到网络表格中每列的候选概念集合;根据网络表格中不同元组之间的组合距离确定聚类算法中的各个初始聚类中心,将网络表格中各个元组归纳于各个初始聚类中心所在的簇中,调整各个簇的聚类中心,根据各个簇的最终聚类中心获取缩减后的网络表格;根据网络表格中每列的候选概念集合和缩减后的网络表格,恢复出网络表格中每列的列标签和实体列。本发明通过从初始聚类中心的选择和基于组合距离的相似度计算两个方面来改善K-means聚类算法,有效缩减了网络表格的规模,降低了完成任务的复杂度,提高了恢复出的网络表格的表头和实体列的准确率。
-