一种脏数据检测的方法和装置

    公开(公告)号:CN113837278A

    公开(公告)日:2021-12-24

    申请号:CN202111123840.3

    申请日:2021-09-24

    Abstract: 本发明给出了一种脏数据检测的方法和装置,包括对原始数据的属性类型进行归一化处理后再进行属性特征分析,从而区分出其中的已明确类型的原始数据项和未明确类型的原始数据项,根据区分出来的结果对原始数据匹配合适的脏数据检测方案。此外,基于不同的分类方式分别对原始数据进行分类,并利用匹配到的脏数据检测方案进行检测后统计各分类的脏数据比例,根据得到的脏数据比例调整所使用的脏数据检测方案,重新统计各分类的脏数据比例,最终对同一数据项选取脏数据比例为最高时所使用的脏数据检测方案为优先执行的脏数据检测方案。本发明能够快速准确地识别海量原始数据中的脏数据,大大提高了大数据的分析利用价值,减少大数据系统的建设成本。

    一种用于属性亲密度的分析方法和系统

    公开(公告)号:CN113761390A

    公开(公告)日:2021-12-07

    申请号:CN202110955230.3

    申请日:2021-08-19

    Abstract: 本发明给出了一种用于属性亲密度的分析方法和系统,包括提取原始数据包中所有相关联的属性信息并保存至关系数据库,并将属性关联记录的分析索引保存至索引库中,其中,分析索引包括起始属性、终止属性和关联边;遍历索引库,确定分析索引是否在索引库中存在记录,若否,执行未关联属性亲密度分析引擎,并将分析结果导入关联边;若是,则执行已关联属性亲密度调整引擎,更新属性亲密度分析结果至关联边;获取当前分析索引的所有关联属性关系,根据属性亲密度调整规则,若当前分析索引的起始属性与终止属性之间存在共有关联属性,更新属性亲密度分析结果至当前分析索引的关联边。该方法和系统可以快速分析出不同属性之间的亲密度并自动准确。

    一种对象的行进方式的分析方法和装置

    公开(公告)号:CN113626684A

    公开(公告)日:2021-11-09

    申请号:CN202110767558.2

    申请日:2021-07-07

    Abstract: 本发明给出了一种对象的行进方式的分析方法和装置,包括根据待分析对象的目标位置范围以及目标时间段,在待分析对象的轨迹信息库中选取一定量的轨迹数据;根据所述分析对象的位置的相近程度和停留时长的大小将其中的位置相近的轨迹数据聚合到同一个集合中,得到若干个时空分析子集合,计算每个时空分析子集合的平均偏离量,选取平均偏离量最大的时空分析子集合为取样时空集合;删除平均偏离量大于零且停留时长大于预设值的点后得到过滤的取样时空集合,再计算所述过滤的取样时空集合的平均偏离量;根据所述过滤的取样时空集合的平均偏离量判断出所述待分析对象的行进方式。本发明有效过滤了干扰数据,极大提高了对象行进方式的分析效率和准确性。

    一种基于自适应锁的缓存淘汰方法和系统

    公开(公告)号:CN113093999A

    公开(公告)日:2021-07-09

    申请号:CN202110495949.3

    申请日:2021-05-07

    Abstract: 本发明给出了一种基于自适应锁的缓存淘汰方法和系统,包括扫描缓存,获取缓存数据的信息;响应于缓存数据被访问,延长所述缓存数据的缓存过期时间,否则,缩减所述缓存过期时间;删除缓存过期时间小于预设缓存过期时间的缓存数据。该方法和系统可以运用于目前主流的缓存设备和缓存数据库的数据淘汰策略,甚至也可以用在一个内存的置换策略上,可以及时的释放缓存空间,提高系统的缓存的可用性,降低缓存雪崩和击穿现象的出现的概率,能够有效的避免错删和误续命的操作。

    基于规则算子动态编排的数据库分析方法、装置及介质

    公开(公告)号:CN110851428A

    公开(公告)日:2020-02-28

    申请号:CN201911137144.0

    申请日:2019-11-19

    Abstract: 本发明提供了一种基于规则算子动态编排的数据库分析方法、装置及介质,该方法通过从数据库中获取用户输入的数据集合,并对所述数据集合进行识别和解析,判断数据库中是否存在与所述数据集合匹配的业务类型,如果是,则使用数据处理规则推荐算法推荐多个规则算子,如果否,所述用户在数据库中添加多个规则算子,然后对所述多个规则算子的权重进行调整,将调整权重后的规则算子编排为数据分析模型,再使用所述数据分析模型对所述数据集合进行分析得到分析结果。本发明可以通过基于待分析数据库中的数据类型自动编排规则算子生成数据分析模型,提高数据库中的数据分析模型的运行效率,提高了数据库的性能。

    数据处理方法和装置
    76.
    发明公开

    公开(公告)号:CN110825920A

    公开(公告)日:2020-02-21

    申请号:CN201911008290.3

    申请日:2019-10-22

    Abstract: 本申请实施例公开了数据处理方法和装置。该方法的一具体实施方式包括:确定数据队列中的待处理数据的类型;基于类型,从处理规则库中确定处理规则集合;从处理规则集合中确定目标处理规则;利用目标处理规则,执行如下处理步骤:从数据队列接收待处理数据,并按照目标处理规则对待处理数据进行处理,得到处理结果数据;如果目标处理规则为结束处理规则,将处理结果数据存入数据库;如果目标处理规则不是结束处理规则且不符合预设条件,将处理结果数据作为待处理数据发送至数据队列;重新确定目标处理规则并继续执行处理步骤。该实施方式实现了根据不同数据的特性定义不同的处理环节,降低了计算资源消耗,提升原始数据入库的整体性能。

    一种利用复杂表达式进行数据比对的方法、装置及存储介质

    公开(公告)号:CN110188113A

    公开(公告)日:2019-08-30

    申请号:CN201910383393.1

    申请日:2019-05-09

    Abstract: 本发明公开了一种利用复杂表达式进行数据比对的方法,包括以下步骤:S1:获取包括结构化数据和非结构化数据的基础数据;S2:选择结构化数据和非结构化数据中的数据作为子表达式,并通过逻辑运算符构造成复杂表达式,其中子表达式包括取自结构化数据的第一子表达式以及取自非结构化数据的第二子表达式,第一子表达式被用于精确匹配,第二子表达式被用于关键词匹配;S3:将子表达式分别进行比对获得比对情况;以及S4:根据比对情况通过表达式引擎对复杂表达式进行计算,得到数据的比对结果。在数据种类繁多、格式多样化的情况下实现复杂表达式实时、快速比对。既可以做到精确匹配,也可以非结构化的关键词匹配,为将来应用提供更精确有效的信息。

    一种异构数据库之间数据同步的系统、方法、存储介质

    公开(公告)号:CN110162571A

    公开(公告)日:2019-08-23

    申请号:CN201910346104.0

    申请日:2019-04-26

    Abstract: 本发明提供了一种异构数据库之间数据同步的系统、方法、存储介质,应用于在异构数据库之间数据同步过程,所述系统包括采集插件单元、写入插件单元和数据处理中心,多个数据库通过采集插件单元和写入插件单元与所述数据处理中心以星型方式相连接,数据处理中心包括多个同步执行节点,多个同步执行节点以分布式执行的方式进行数据同步,采用适配器适配各种异构数据库的采集和写入,采用统一的中间数据格式传输,简化了不同源端和目标端的连接,提高了数据的采集效率,具有很强的扩展性,采用统一的同步任务控制器实现同步任务的接收、分配、接收以及负载均衡,通过多通道的方式并行执行数据同步的操作,以进一步提高执行效率。

    一种基于节点集合的多层管理系统

    公开(公告)号:CN106059798A

    公开(公告)日:2016-10-26

    申请号:CN201610328707.4

    申请日:2016-05-18

    Abstract: 本发明公开了一种基于节点集合的多层管理系统。该系统包括:形成树形结构的多个节点,其中,在树形结构中包括至少由一个节点构成的分组,一个分组中的节点隶属于同一个父亲节点且具有相同属性;以及设置于节点上的管理装置,其中,管理装置用于对一个或多个分组,或一个分组中的多个节点下发批量操作命令。通过本发明,在面临机器繁多、环境复杂的情况,能够提供一种灵活的但又定制化高的方式。

Patent Agency Ranking