基于OSGI的ETL处理装置及方法

    公开(公告)号:CN104679482A

    公开(公告)日:2015-06-03

    申请号:CN201310607368.X

    申请日:2013-11-27

    Inventor: 施水才 付成睿

    Abstract: 本发明提供的基于OSGI的ETL处理装置,包括:流程设计器和流程执行引擎。其中,流程设计器由节点中心、控制策略和触发器模块组成,流程执行引擎由处理中心、执行策略和流程管理模块组成。任意模块基于OSGI平台,并由其为模块创建独立的运行环境。节点中心负责所有节点及其属性的预定义,控制策略定义了节点间的关系及触发方式,触发器向引擎发送任务请求。处理中心负责任务的执行及执行时的调度,执行策略有单线程串行、多线程并行以及条件判断,实现时基于缓存机制利用数据分发与复制技术。此外,本发明还提供了基于OSGI的ETL处理方法。通过本发明的技术方案,可以有效提高子任务的重用性,提高数据吞吐量及处理效率。

    文档图像识别方法
    12.
    发明公开

    公开(公告)号:CN105590082A

    公开(公告)日:2016-05-18

    申请号:CN201410563687.X

    申请日:2014-10-22

    Inventor: 施水才 程涛

    Abstract: 文档图像识别方法,包括图像预处理、获取图像连通区域、连通区域特征抽取、文档图像判别,图像连通区域的获取借助了聚类的思想,应用8连通准则,对灰度值为0和255的像素点分别聚类,准确识别连通区域。连通区域特征包括形状特征、颜色特征,主要分三种方式抽取,依次为疑似字符识别、一致性字符发现、真实字符判断,特征抽取简洁、复杂度低。实现了文档图像的准确、高效的识别,解决了文档图像识别性能低下的问题。

    海量文档分布式检索排重系统和方法

    公开(公告)号:CN103577418A

    公开(公告)日:2014-02-12

    申请号:CN201210256159.0

    申请日:2012-07-24

    Abstract: 一种海量文档分布式检索排重系统,包括文档预处理模块、文档特征计算模块、分布式建库模块、存储模块、分布式检索模块、相似度计算模块。文档特征计算模块根据词对文档的重要程度计算文档特征向量。分布式建库模块根据文档特征向量将文档映射到不同的存储分区。分布式检索模块检索目标文档所属的若干个分区,相似度计算模块计算目标文档与这若干个分区中所有文档的相似度,从而实现海量文档分布式排重操作。所提供的海量文档分布式检索排重系统和方法,借助了分布式系统的思想,将海量文档集分散到若干个子集中,使得排重计算在1个或少数几个子集中进行,减少了相似度计算量,提高了文档排重效率。

Patent Agency Ranking