一种基于数据摘要去重数据的方法、装置及存储介质

    公开(公告)号:CN111444167A

    公开(公告)日:2020-07-24

    申请号:CN202010219652.X

    申请日:2020-03-25

    Abstract: 本发明提出了一种基于数据摘要去重数据的方法、装置及存储介质,该方法包括:摘要计算步骤,对要去重的数据进行摘要计算得到数据摘要;去重步骤,基于数据摘要在内存数据库和列存数据库的查找结果完成数据的去重。提高了用户体验。本发明在对海量数据和每条记录多字段的场景下,通过对去重字段做摘要,减少比对次数,通过内存数据库和列存数据库来提高比对效率,来达到海量数据下的根据多字段进行高速去重。本发明只需要配置去重字段的配置文件即达到可快速识别重复数据的目的,提高了去重效率,防止系统因数据去重占用资源过多而导致系统崩溃,提高了用户体验,适用于在数据体量巨大、数据字段多、定制化字段等去重场景下。

Patent Agency Ranking