一种数据清洗方法、装置及计算机可读存储介质

    公开(公告)号:CN111241079A

    公开(公告)日:2020-06-05

    申请号:CN202010016926.5

    申请日:2020-01-08

    Abstract: 本发明涉及一种数据清洗方法、装置及计算机可读存储介质;该方法包括获取结构化数据和时效约束,对所有元组建立时序图,并经传递规约后得到时效子图;基于时序子图计算每条元组的时效值;以时效性-一致性联合修复距离作为指标,计算错误元组和高质量元组之间的编辑距离,选择满足一致性规则约束,且与该错误元组时效值最为接近的修复模式对错误元组进行一致性修复;利用贝叶斯填充方法,将元组的时效值作为该元组的新增属性参与贝叶斯的训练过程,实现对缺失值的填充;得到清洗后的数据集。本发明能够对数据集中同时存在的时间戳不可用、不完整属性值、不一致属性值这三种数据质量问题进行有效地识别和修复。

    一种基于时效平衡树的数据处理方法及系统

    公开(公告)号:CN116561122A

    公开(公告)日:2023-08-08

    申请号:CN202310454483.1

    申请日:2023-04-25

    Abstract: 一种基于时效平衡树的数据处理方法及系统,具体涉及一种基于时效平衡树的数据处理方法及系统,为了解决计算机的平衡树类结构上存在的短期内被查询频率最高的节点通常消耗代价过高、单次查询消耗通常固定为对数级别时间,使平衡树缺乏对查询频率和近期查询的时效性的敏感性,导致每次查询时间过长的问题。它构建时效平衡树,将数据按照时效平衡树的结构存储,空树、单节点、时效平衡树的左子树和右子树均是时效平衡树,时效平衡树上的每个节点包括检索键值对、时效权值和记录查询轮次,时效权值由衰减法计算。定义时效平衡树的失衡度、平衡状态和旋转方式。依据定义、时效平衡树和时效权值完成计算机数据的处理。属于计算机数据处理领域。

Patent Agency Ranking