异源异构数据清洗方法及其系统

    公开(公告)号:CN105653587B

    公开(公告)日:2019-02-19

    申请号:CN201510967231.4

    申请日:2015-12-21

    Inventor: 倪文冠 江汉祥

    Abstract: 本发明公开了一种异源异构数据清洗方法及其系统,所述方法包括:预设标题行;载入标题特征库和文件数据,所述标题特征库存储包括所述预设标题行中的标题与所述文件数据中标题的映射关系;遍历所述文件数据的每一行数据,确定标题行;遍历所述标题行的每一列数据,确定所述每一列数据的标题;依据所述标题特征库,确定所述每一列数据的标题在所述预设标题行中对应的标题;将所述每一列数据添加至所述预设标题行中对应的标题下。通过采用标题特征库,自动识别标题,解析文件数据,自动匹配标题列,节约了人工成本,提高了数据清洗的准确性和便捷性,并且可适用于多种格式的文件和数据,适应性强,可以通用、全面地解决异源异构数据的清洗问题。

    异源异构数据清洗方法及其系统

    公开(公告)号:CN105653587A

    公开(公告)日:2016-06-08

    申请号:CN201510967231.4

    申请日:2015-12-21

    Inventor: 倪文冠 江汉祥

    CPC classification number: G06F17/30303

    Abstract: 本发明公开了一种异源异构数据清洗方法及其系统,所述方法包括:预设标题行;载入标题特征库和文件数据,所述标题特征库存储包括所述预设标题行中的标题与所述文件数据中标题的映射关系;遍历所述文件数据的每一行数据,确定标题行;遍历所述标题行的每一列数据,确定所述每一列数据的标题;依据所述标题特征库,确定所述每一列数据的标题在所述预设标题行中对应的标题;将所述每一列数据添加至所述预设标题行中对应的标题下。通过采用标题特征库,自动识别标题,解析文件数据,自动匹配标题列,节约了人工成本,提高了数据清洗的准确性和便捷性,并且可适用于多种格式的文件和数据,适应性强,可以通用、全面地解决异源异构数据的清洗问题。

Patent Agency Ranking