-
公开(公告)号:CN118363960A
公开(公告)日:2024-07-19
申请号:CN202410532285.7
申请日:2024-04-29
Applicant: 北京理工大学
IPC: G06F16/22 , G06F16/28 , G06F16/2455
Abstract: 本发明公开了一种用于数据湖中的表维护、搜索和分析端到端的系统,属于机器学习领域,使用本发明能够提升用于评估数据湖中可连接和可合并表的查询方法的有效性、效率和可扩展性,实现了端到端的表搜索。包括嵌入数据湖模块、索引构建模块、表格搜索模块、迭代模型分析模块、交互模块以及模型性能展示模块。通过嵌入数据湖模块进行编码,并采用索引构建模块进行索引的构建;表格搜索模块用户根据给定的关键词或者查询表,选择查询方式来查询,并支持表连接查询和表合并查询。再训练一个预测模型,通过表连接查询或表合并查询以增强更多元组。采取迭代分析来选择对模型有益的元组,迭代地集成到查询表中并评估性能。