-
公开(公告)号:CN101163107B
公开(公告)日:2011-02-09
申请号:CN200710170788.0
申请日:2007-11-22
Applicant: 复旦大学
Abstract: 本方法属于自组织网络技术领域,具体是一种自组织网络中组合服务的执行路径的发现方法。该方法依次包括如下步骤:首先服务请求节点发送初始的路径探测包,路径探测包中包含组合服务的服务有向无环图、基本服务所在节点列表和服务执行有向无环图;然后基本服务提供节点处理路径探测包;最后服务请求节点接收服务执行有向无环图。服务请求节点收到第一个反馈回来的服务执行有向无环图,说明该服务执行有向无环图所描述的执行方案在当前网络环境下具有最快的网络传输和节点响应速度,即是当前情况下最快的执行方案。
-
公开(公告)号:CN117331835A
公开(公告)日:2024-01-02
申请号:CN202311322798.7
申请日:2023-10-12
Applicant: 复旦大学
IPC: G06F11/36 , G06F16/2452
Abstract: 本发明涉及数据集的处理方法,包括:接收多个第一SQL语句‑自然语言对;对于每个所述第一SQL语句‑自然语言对,将其中的第一SQL语句切分为SQL语句单元,将其中的第一自然语言切分为自然语言单元,并将所述SQL语句单元和所述自然语言单元对齐;将多个所述SQL语句单元和对齐的所述自然语言单元组合为多个第二SQL语句‑自然语言对;将多个所述第二SQL语句‑自然语言对分为训练集和测试集。本发明还涉及SQL‑自然语言翻译模型的测试的方法、数据集的处理和SQL‑自然语言翻译模型的测试装置,以及计算设备集群、计算机程序产品和介质。
-
公开(公告)号:CN110175191B
公开(公告)日:2023-06-27
申请号:CN201910401717.X
申请日:2019-05-14
Applicant: 复旦大学
IPC: G06F16/2457 , G06F16/2458 , G06F16/248
Abstract: 本发明属于数据分析技术领域,具体为一种数据分析中的数据过滤规则建模方法。本发明的数据过滤规则建模方法主要包含三个部分:(1)数据列分析过滤(2)数据范围分析过滤(3)结果集自动可视化。本发明通过合理的设定相关的规则解决如何在数据分析中应用数据过滤规则建立分析过滤模型,利用模型分析过滤数据并直观的展示数据。本发明可方便用户快速筛选数据并找到感兴趣的数据子集,分析与挖掘数据项之间联系。
-
公开(公告)号:CN114911844A
公开(公告)日:2022-08-16
申请号:CN202210515794.X
申请日:2022-05-11
Applicant: 复旦大学
IPC: G06F16/2458 , G06F16/2453 , G06N3/04 , G06N3/08
Abstract: 本发明属于数据分析技术领域,具体为一种基于机器学习的近似查询优化系统。本发明系统包括数据诱导谓词和抽样器参数优化两部分;前者将一张表上的谓词转换为连接表上的诱导谓词,将谓词信息横向传递到其它表上来实现数据跳过,即让各表的输入数据变为各自的分区子集,从而引导查询优化器在削减后的数据上找出更好的查询计划;后者在数据诱导谓词部分找出的含诱导谓词的查询计划上插入抽样器来获取一系列候选查询计划,并通过训练深度学习模型来预测候选查询计划中抽样器的抽样率取值,从而在查询优化过程中降低局部数据与全局数据分布不一致时的负面影响。本发明在为用户提供查询误差保障性的同时降低查询执行时延。
-
公开(公告)号:CN108228721B
公开(公告)日:2021-06-04
申请号:CN201711290927.3
申请日:2017-12-08
Applicant: 复旦大学
Abstract: 本发明属于关系数据库技术领域,具体为一种大型语料库上的快速文本聚类方法。由于文本数据通常具有高维和稀疏的特征,单纯基于数据相似度的聚类方法难以获得较好的效果,而基于生成模型的方法如狄利克雷多项混合模型在表现上更加突出。本发明通过使用狄利克雷分布的对称先验和构造索引来进行优化,使总时间仅依赖于文档中不同单词的个数,从而在篇幅较长的文档中也能高效运行。
-
公开(公告)号:CN112380250A
公开(公告)日:2021-02-19
申请号:CN202011106056.7
申请日:2020-10-15
Applicant: 复旦大学
IPC: G06F16/2453 , G06F16/242
Abstract: 本发明属于数据分析技术领域,具体为一种近似查询处理中的样本调节系统。本发明系统包括查询分析器、查询执行器、样本生成器、样本调节器;查询分析器利用物化样本在线回答查询,根据物化样本的统计信息确定查询在物化样本上执行或者在原始数据集上执行;样本生成器和样本调节器负责离线构造、删除和调整更新物化样本,包括:根据用户查询,生成抽象样本;根据样本物化策略对一些抽象样本进行物化,并根据存储资源限制删除已有的物化样本;定期评估物化样本的效用,通过强化学习模型学习更新样本物化策略,并与系统中已经存在的物化样本集进行对比,以便生成更好的物化样本。本发明可帮助分析人员及时从大数据中获取查询结果,减少查询等待时间。
-
公开(公告)号:CN108776707A
公开(公告)日:2018-11-09
申请号:CN201810625076.1
申请日:2018-06-17
Applicant: 复旦大学
Abstract: 本发明属于数据仓库技术领域,具体为一种针对探索性查询的高效抽样方法。本发明方法包括:根据收集到的用户历史查询记录,将整个数据集划分成若干个抽样块,并构建一棵抽样块索引树来检索所有的抽样块;对于每一个抽样块,根据用户限定的总体样本空间大小限制,生成k个基于优化的分层抽样样本集;运行时,根据用户提交的查询,从抽样块索引树中找到所有有关的抽样块,从每个抽样块中的k个样本集合中取出最优的样本集进行近似结果计算并返回;选取最优样本集时,选出与目标查询分组条件下最优分层抽样策略距离最小的预生成策略;本发明能够成功匹配更多的探索性查询并返回更为精确的结果。
-
公开(公告)号:CN101179498A
公开(公告)日:2008-05-14
申请号:CN200710170789.5
申请日:2007-11-22
Applicant: 复旦大学
Abstract: 本发明属于自组织网络技术领域,具体是涉及一种自组织网络中服务合成的可靠代理执行方法。该方法包括:请求源通过执行代理评估及自组织网络评估,了解各个执行代理的状态和能力;请求源的执行代理选择,一旦执行代理选择完毕,将请求的合成服务转移到执行代理开始执行;执行代理的执行和出错处理。本发明可以提高服务合成执行的成功率以及缩短服务合成执行的时间,更好地适应自组织网络中节点的动态性以及不稳定性,提高服务合成在自组织网络中的实用性。
-
公开(公告)号:CN114911844B
公开(公告)日:2024-04-05
申请号:CN202210515794.X
申请日:2022-05-11
Applicant: 复旦大学
IPC: G06F16/2458 , G06F16/2453 , G06N3/0442
Abstract: 本发明属于数据分析技术领域,具体为一种基于机器学习的近似查询优化系统。本发明系统包括数据诱导谓词和抽样器参数优化两部分;前者将一张表上的谓词转换为连接表上的诱导谓词,将谓词信息横向传递到其它表上来实现数据跳过,即让各表的输入数据变为各自的分区子集,从而引导查询优化器在削减后的数据上找出更好的查询计划;后者在数据诱导谓词部分找出的含诱导谓词的查询计划上插入抽样器来获取一系列候选查询计划,并通过训练深度学习模型来预测候选查询计划中抽样器的抽样率取值,从而在查询优化过程中降低局部数据与全局数据分布不一致时的负面影响。本发明在为用户提供查询误差保障性的同时降低查询执行时延。
-
公开(公告)号:CN112380250B
公开(公告)日:2023-01-06
申请号:CN202011106056.7
申请日:2020-10-15
Applicant: 复旦大学
IPC: G06F16/2453 , G06F16/242
Abstract: 本发明属于数据分析技术领域,具体为一种近似查询处理中的样本调节系统。本发明系统包括查询分析器、查询执行器、样本生成器、样本调节器;查询分析器利用物化样本在线回答查询,根据物化样本的统计信息确定查询在物化样本上执行或者在原始数据集上执行;样本生成器和样本调节器负责离线构造、删除和调整更新物化样本,包括:根据用户查询,生成抽象样本;根据样本物化策略对一些抽象样本进行物化,并根据存储资源限制删除已有的物化样本;定期评估物化样本的效用,通过强化学习模型学习更新样本物化策略,并与系统中已经存在的物化样本集进行对比,以便生成更好的物化样本。本发明可帮助分析人员及时从大数据中获取查询结果,减少查询等待时间。
-
-
-
-
-
-
-
-
-