一种数据特征提取、匹配方法及装置

    公开(公告)号:CN112395292B

    公开(公告)日:2024-03-29

    申请号:CN202011335129.X

    申请日:2020-11-25

    Inventor: 吕凯辉

    Abstract: 本发明公开了一种数据特征提取、匹配方法及装置,涉及通信技术领域。该方法包括:利用图形化界面配置,将结构化数据写入原始数据库表中;利用大平台ETL能力对结构化数据进行清洗、去重、编码转换操作,得到规范数据,将规范数据加载目标库表;从非结构化数据中提取包括文件内容、摘要、图片的非结构数据,对提取的图片采用原始文件名加序号加时间戳的方式命名,形成图片库;将非结构化数据中的非结构文件的文件名、文件内容、摘要加载至第一库表中,所述第一库表包括非结构文件的文件名、文件内容和摘要;基于ID‑Mapping将目标库表中的规范数据与第一库表和图片库中的非结构化数据进行关联,将具有关联关系的匹配结果打包为zip文件。

    一种数据特征提取、匹配方法及装置

    公开(公告)号:CN112395292A

    公开(公告)日:2021-02-23

    申请号:CN202011335129.X

    申请日:2020-11-25

    Inventor: 吕凯辉

    Abstract: 本发明公开了一种数据特征提取、匹配方法及装置,涉及通信技术领域。该方法包括:利用图形化界面配置,将结构化数据写入原始数据库表中;利用大平台ETL能力对结构化数据进行清洗、去重、编码转换操作,得到规范数据,将规范数据加载目标库表;从非结构化数据中提取包括文件内容、摘要、图片的非结构数据,对提取的图片采用原始文件名加序号加时间戳的方式命名,形成图片库;将非结构化数据中的非结构文件的文件名、文件内容、摘要加载至第一库表中,所述第一库表包括非结构文件的文件名、文件内容和摘要;基于ID‑Mapping将目标库表中的规范数据与第一库表和图片库中的非结构化数据进行关联,将具有关联关系的匹配结果打包为zip文件。

Patent Agency Ranking