-
公开(公告)号:CN111309982A
公开(公告)日:2020-06-19
申请号:CN202010148015.8
申请日:2020-03-05
Applicant: 上海交通大学
IPC: G06F16/901 , G06F16/903 , G06F16/907 , G06F16/957 , G06K9/62 , G06N20/00
Abstract: 本发明提供了一种机器学习数据索引结构的自适应结构调整方法及系统,包括:选取节点步骤:按照预设的节点编号顺序逐个选取机器学习数据索引结构中的节点;分析节点步骤:分析选取得的节点,根据节点中缓存数据量和误差范围大小执行对应的结构调整操作:若节点中缓存数据量或节点内机器学习模型的预测误差过大,则执行节点分裂步骤;若节点与其相邻节点中的缓存数据量及误差范围都过小,则两节点执行节点合并步骤;否则,则结束流程。本发明提供细粒度的机器学习索引结构调整方法,相比对全部数据重新训练,能减少重新训练模型的个数,避免结构调整时对不相关模型和缓存的性能影响。
-
公开(公告)号:CN111651455A
公开(公告)日:2020-09-11
申请号:CN202010456178.2
申请日:2020-05-26
Applicant: 上海交通大学
IPC: G06F16/22 , G06F16/23 , G06F16/2455 , G06N20/00
Abstract: 本发明提供了一种基于机器学习的并发索引数据结构的索引方法,所述索引方法包括:组节点定位步骤:将请求中的键作为根节点的机器学习模型的输入,计算得出该键所在的组节点范围,继续在该组节点范围内将请求的键与根节点中保存的组节点的键的范围比较,找到目标键值对所在的组节点。本发明使用RCU技术和两层缓存数据结构,支持并发的缓存合并操作和索引操作,减少因索引操作被阻塞导致的性能波动,同时保障了索引数据的一致性。本发明使用两层索引结构,足够适应大数据索引请求,避免多层索引结构的节点跳转带来的性能开销。
-