时序数据库的有损压缩及解压缩方法、系统、存储介质、设备

    公开(公告)号:CN114640355A

    公开(公告)日:2022-06-17

    申请号:CN202210326314.5

    申请日:2022-03-30

    Abstract: 时序数据库的有损压缩及解压缩方法、系统、存储介质、设备,属于数据压缩技术领域。为了解决目前的压缩算法的ΔE选取可能难以适应整个时段的所有数据的问题,本发明所述压缩方法,首先进行离群点检测,然后将离群点单独存储为新的一个文件,记为离群点文件;将剔除离群点后的数据存储为一个文件,记为普通文件;将离群点文件和普通文件同时分别执行有损压缩;对第i段数据压缩后,计算该段压缩误差ei以及误差比动态调整旋转门压缩算法的压缩精度参数ΔEi+1=ΔE×A×Pi,从而实现数据压缩。解压缩的过程中,首先判别数据点是属于普通文件还是离群点文件,分别根据压缩模型进行线性插值。主要用于时序数据库的有损压缩及解压缩。

    一种面向时序数据库的查询时间预测方法

    公开(公告)号:CN114218287A

    公开(公告)日:2022-03-22

    申请号:CN202111662253.1

    申请日:2021-12-30

    Abstract: 一种面向时序数据库的查询时间预测方法,涉及计算机技术领域,针对现有技术中查询时间预测速度慢的问题,包括:步骤一:读取时序数据;步骤二:将时序数据写入CnosDB,CnosDB使用CnoSQL查询语句对时序数据进行查询检索,并记录查询时间;步骤三:将查询语句编码为向量化数据;步骤四:对向量化数据提取数据分布特征;步骤五:使用PCA对数据分布特征进行降维;步骤六:利用向量化数据和降维后的数据分布特征作为输入,查询时间作为输出,训练梯度提升回归树模型;步骤七:利用训练好的梯度提升回归树模型进行查询时间预测。本申请在预测时间上,在上述实验中本模型都能在几十毫秒内给出预测结果,具有非常可观的响应速度。

    质量驱动的公平数据市场平台、交易系统及方法

    公开(公告)号:CN110458452B

    公开(公告)日:2022-02-01

    申请号:CN201910739011.4

    申请日:2019-08-12

    Abstract: 本发明涉及数据服务技术领域,尤其涉及一种质量驱动的公平数据市场平台、交易系统及方法;其中,该数据市场平台包括:接收模块用于接收买方发送的查询请求,并将查询请求发送至查询模块;查询模块用于根据查询请求执行查询,并将查询数据结果返回至评估模块;评估模块用于根据多项预定的评估指标对查询数据结果进行质量评估,并将质量评估结果发送至定价模块;定价模块用于根据质量评估结果及查询价格计算数据最终价格,并将数据最终价格发送至加密模块;加密模块用于根据数据最终价格生成价格信息,并将价格信息发送至买方;其中价格信息包括价格范围与加密价格。本发明采用了基于质量的定价策略,并采用公平保证机制,避免潜在欺骗行为。

    面向多源异构数据融合的数据源选择方法

    公开(公告)号:CN111309755B

    公开(公告)日:2021-10-01

    申请号:CN202010091175.3

    申请日:2020-02-13

    Abstract: 面向多源异构数据融合的数据源选择方法,属于大数据分析技术领域。解决了现有大数据分析采用人工采集的方式,存在分析效率低且存在大量的资源浪费的问题。基于异构数据源集合实现,建立数据分析任务目标数据集的属性集在属性集A中随机抽取了一个目标属性作为搜索属性,在数据源中搜索获得数据源集合P;将数据源集合P中每个元素Pi均构建为一个集合{Pi},构成集合T;计算集合T中每个子集合的分数;获取分数最大的子集合Tmax;判断集合Tmax的属性是否包含所有目标属性,若是,再判断是否包含多余的属性,包含多余属性进行重新选择,若是不包含所有目标属性,继续搜索,利用计算目标数据源集合的判别函数值,若函数值变大则继续搜索,否则停止搜索获得目标数据源集合。

    一种基于历史任务分析的Apache Spark应用自动化调优方法

    公开(公告)号:CN108255689B

    公开(公告)日:2021-02-12

    申请号:CN201810026098.6

    申请日:2018-01-11

    Abstract: 本发明提出了一种基于历史任务分析的Apache Spark应用自动化调优方法,包括对Spark应用的任务提交接口进行封装,判断是否已有该Spark应用的分层灰盒时间预测模型,访问数据库,读取并更新所述分层灰盒时间预测模型,用户选择是否进行优化;如果进行优化则生成优化参数,如果不进行优化则按原参数执行,调用shell命令运行任务。本发明充分地利用了已知的集群硬件资源信息,选择并实现一了个能够在高维参数空间上对最优参数进行高效搜索方案,从而筛选出在建立的分层灰盒时间预测模型下,性能表现较优的配置参数,达到实现自动化Spark参数调优的目的。

    大规模知识图谱的错误连接关系诊断及修正方法

    公开(公告)号:CN109086356B

    公开(公告)日:2020-09-25

    申请号:CN201810787761.4

    申请日:2018-07-18

    Abstract: 本发明提供了一种大规模知识图谱的错误连接关系诊断及修正方法,其中诊断方法包括:构建知识图谱的层次结构,确定知识图谱中每个节点所处的层级;基于所述知识图谱的层次结构,提取节点的连接关系集合,所述连接关系集合中包含指向自己的所有IsA关系;判断同一层级上节点之间的关系;对于同一层级上被判定为相矛盾含义的节点对,诊断为其中包括错误连接关系,并继续对其上级进行搜索。本发明在不引入其它外源知识的情况下,利用知识图谱本身知识之间的关系,对具有IsA关系的图谱实现错误连接关系的检测并修正。

    机器学习模型超参数的调优方法

    公开(公告)号:CN111553482A

    公开(公告)日:2020-08-18

    申请号:CN202010276428.4

    申请日:2020-04-09

    Inventor: 王宏志 王春楠

    Abstract: 机器学习模型超参数的调优方法,本发明涉及超参数的调优方法。本发明的目的是为了解决现有超参数优化调优方法准确率低、效率慢,费用高的问题。过程为:一、构建已知经验信息;从ΛPN中随机选取N/2个超参数配置进行评估,并将评估信息存入ExpInfo中;二、将已知经验信息转化为分类数据集;三、从所有超参数中挑选出关键超参数;四、利用KeyPars推测出Num组最优超参数配置;五、评估ExpNew中的超参数配置并更新已知经验信息;六、重复执行二至五t次,最后输出已知经验信息中最佳的超参数配置推荐给用户。本发明用于超参数的调优领域。

    面向多源异构数据融合的数据源选择方法

    公开(公告)号:CN111309755A

    公开(公告)日:2020-06-19

    申请号:CN202010091175.3

    申请日:2020-02-13

    Abstract: 面向多源异构数据融合的数据源选择方法,属于大数据分析技术领域。解决了现有大数据分析采用人工采集的方式,存在分析效率低且存在大量的资源浪费的问题。基于异构数据源集合实现,建立数据分析任务目标数据集的属性集在属性集A中随机抽取了一个目标属性作为搜索属性,在数据源中搜索获得数据源集合P;将数据源集合P中每个元素Pi均构建为一个集合{Pi},构成集合T;计算集合T中每个子集合的分数;获取分数最大的子集合Tmax;判断集合Tmax的属性是否包含所有目标属性,若是,再判断是否包含多余的属性,包含多余属性进行重新选择,若是不包含所有目标属性,继续搜索,利用计算目标数据源集合的判别函数值,若函数值变大则继续搜索,否则停止搜索获得目标数据源集合。

    一种网络特征社区查找方法

    公开(公告)号:CN111274498A

    公开(公告)日:2020-06-12

    申请号:CN202010075210.2

    申请日:2020-01-22

    Abstract: 一种网络特征社区查找方法,属于网络社区构建技术领域。解决了现有升级版的社区搜索和特征社区查找存在的效率低且适应性差的问题。本发明根据真实的社区的内部结构特征和外部结构特征,建立社区节点的内部连结密度评估函数;建立社区节点的外部连结密度评估函数;对待搜索的网络社区的属性和给定属性之间的相关度进行量化,建立网络社区的属性相关性评估函数;对社区节点的内部连结密度评估函数、社区节点的外部连结密度评估函数和量化的待搜索的网络社区的属性和给定属性相关度的函数进行融合,获取函数RACSF;利用NSS节点选择策略和弹性ISC循环终止条件对函数RACSF进行优化,获取目标社区结构的最优解为最终查找的特征社区。本发明适用于网络特征的查找使用。

    一种基于层次聚类的过采样方法及系统

    公开(公告)号:CN109255380A

    公开(公告)日:2019-01-22

    申请号:CN201811011756.0

    申请日:2018-08-31

    Abstract: 本发明涉及数据处理技术领域,提供了一种基于层次聚类的过采样方法及系统,该方法包括:对少数类样本进行聚类;对聚类得到的类簇进行连接;为每个少数类的类簇及类簇的连接部分分配权重;根据分配的权重确定每个少数类的类簇及连接部分被选取的概率,并根据所述概率在类簇和类簇的连接部分根据种子数据生成新数据。本发明在聚类以及生成新样本时采取了多种措施使得生成的数据在一定忍耐限度内能够满足尽量不产生和扩大噪声的要求,并且在识别子概念的同时充分考虑了类内不平衡的处理,从而使得本发明的方法对于少数类中的子概念能够提供足够的关注,达到提升分类器学习效果的目的。

Patent Agency Ranking