-
公开(公告)号:CN111522791A
公开(公告)日:2020-08-11
申请号:CN202010362251.X
申请日:2020-04-30
Applicant: 电子科技大学
IPC: G06F16/182 , G06F16/174
Abstract: 本发明公开了一种分布式文件重复数据删除系统及方法。系统包括元信息服务节点,元信息服务节点用于管理数据块的内容地址;元信息表,用于存储HDFS系统中所有数据块的内容地址;至少一个HDFS客户端,其包括元信息服务节点和元信息表,去重文件在HDFS客户端上写入,HDFS客户端将重文件切分为多个数据块,计算每个数据块的指纹值,并调用元信息服务节点查询元信息表,去除重复的数据块,将节点中剩余数据块重组后,之后将剩余数据块和索引数据重组后生成新的索引文件,并与NameNode节点交互将索引文件存储到HDFS上,同时将新产生的数据指纹存储在HDFS客户端数据库的元信息表中。通过本发明使得HDFS客户端快速完成文件的重复数据删除和分布式存储。
-
公开(公告)号:CN111522791B
公开(公告)日:2023-05-30
申请号:CN202010362251.X
申请日:2020-04-30
Applicant: 电子科技大学
IPC: G06F16/182 , G06F16/174
-