一种基于LSH的非等值可连接数据表直接查询方法

    公开(公告)号:CN115374142A

    公开(公告)日:2022-11-22

    申请号:CN202210396758.6

    申请日:2022-04-15

    Abstract: 本发明提出了一种基于LSH的非等值可连接数据表直接查询方法,基于高维数据近似匹配方法中常用的LSH方法,根据相似度阈值在候选数据表构建列维度的索引,使用相同的哈希函数将查询数据表中的查询列生成哈希值,在创建的候选数据表的索引中查找满足相似度阈值的可连接数据表;本发明方法只需要提供需要丰富数据的数据表,即查询数据表,和候选数据集以及相似度阈值,即可快速地在候选数据集中找到满足相似度阈值的可连接数据表,丰富查询数据;算法没有多余的预处理,不需要额外的计算步骤,且设计简单容易实现,提高了非等值可连接数据表查询算法的查询效率。

    一种面向数据湖的多表语义连接方法

    公开(公告)号:CN115017151A

    公开(公告)日:2022-09-06

    申请号:CN202210413337.X

    申请日:2022-04-20

    Abstract: 本发明提供的一种面向数据湖的多表语义连接方法,基于两个构建列嵌入向量模型构建孪生网络模型,将步骤一获得新表格,根据给定的标签,组建表格对;将多组表格对输入到孪生网络模型中,对其进行训练,因此只需要提供表格具有基本的内容信息就能够进行表格的可连接性预测,并快速计算出结果;该方法没有多余的预处理不需要额外的计算步骤,且设计简单容易实现,提高了多表语义连接方法和预测模型的效率,具备良好的可扩展性、鲁棒性和稳定性;采用Simhash对表格内的行进行抽样,只需按照相同的比例重新构造一张数据行更少的新表格作为输入,这既可以减小表格的输入规模,又可以最大限度的保留表格的特征。

Patent Agency Ranking