一种基于Spark框架的实体统一算法

    公开(公告)号:CN107391704A

    公开(公告)日:2017-11-24

    申请号:CN201710631190.0

    申请日:2017-07-28

    CPC classification number: G06F17/30424 G06F17/30303 G06F17/30958 G06K9/6215

    Abstract: 本发明涉及一种基于Spark框架的实体统一算法,属于大数据融合技术领域,该方法包含如下步骤S1:输入待统一的实体集数据;S2:利用标准分块算法初步将较为相似的实体集数据划分到同一个块中得到实体合集;S3:利用模式快速扫描算法PRSA和模式匹配算法PMABED计算任意实体对的相似度,对步骤S2经过分块后的实体合集进行模式匹配,利用模式抽取算法PEA,将匹配的实体对通过PMABED算法进行回溯合并,得到抽取的模式合集,利用PRSA、PMABED算法对模式合集进行模式匹配,利用PEA算法,将匹配的模式通过PMABED算法回溯进行合并,得到共同模式;S4:得到实体统一的结果。本发明提高了实体统一计算效率,能够从大规模数据中更快速地筛选出有价值的数据。

    一种基于消息热度保证kafka集群数据一致性的方法

    公开(公告)号:CN107666516A

    公开(公告)日:2018-02-06

    申请号:CN201710855173.5

    申请日:2017-09-20

    Abstract: 本发明涉及一种基于消息热度保证kafka集群数据一致性的方法,属于数据存储与消息中间件领域。该方法包括以下步骤:S1:建立计算机编程函数partition热度模型;S2:建立热度预估模型;S3:计算副本partition的更新频率;S4:建立副本自适应一致性策略。本发明结合了kafka消息队列可靠性和云存储系统中的自适应同步策略的各自优点,提出基于集群消息访问热度的kafka集群副本数据同步的自适应算法,并且在预测文件热度时结合了LRU算法和LFU算法,兼顾了访问时间和访问频率,使得预测结果更加符合实际值;保证了数据的可靠性,同时降低了集群内网络开销与内存、CPU等额外源开销,有效地平衡了系统的可用性和性能。

Patent Agency Ranking