-
公开(公告)号:CN108446340A
公开(公告)日:2018-08-24
申请号:CN201810174542.9
申请日:2018-03-02
Applicant: 哈尔滨工业大学(威海) , 威海翰宝网络科技有限公司
Abstract: 本发明公开了一种面向海量小文件的用户热点数据访问预测方法,从用户访问数据的特点入手,根据文件访问的关联性特点,使用用户相关的分布式海量小文件存储系统文件访问日志,训练Skip-Gram模型,对文件的上下文访问特征进行提取,使用K-means算法对文件特征聚类,对访问相似度高的文件进行集中分析,训练GRU模型,对文件间的关联性进行分析,并根据用户当前访问文件所属类别序列进行预测,将用户未来可能访问文件类别中的全部文件预取至缓存,减少了系统的I/O次数,整体上提升了分布式海量小文件存储系统读取效率。
-
公开(公告)号:CN108446340B
公开(公告)日:2019-11-05
申请号:CN201810174542.9
申请日:2018-03-02
Applicant: 哈尔滨工业大学(威海) , 威海翰宝网络科技有限公司
IPC: G06F16/172 , G06F16/182 , G06K9/62
Abstract: 本发明公开了一种面向海量小文件的用户热点数据访问预测方法,从用户访问数据的特点入手,根据文件访问的关联性特点,使用用户相关的分布式海量小文件存储系统文件访问日志,训练Skip‑Gram模型,对文件的上下文访问特征进行提取,使用K‑means算法对文件特征聚类,对访问相似度高的文件进行集中分析,训练GRU模型,对文件间的关联性进行分析,并根据用户当前访问文件所属类别序列进行预测,将用户未来可能访问文件类别中的全部文件预取至缓存,减少了系统的I/O次数,整体上提升了分布式海量小文件存储系统读取效率。
-