一种数据清洗方法、装置及计算机可读存储介质

    公开(公告)号:CN111241079A

    公开(公告)日:2020-06-05

    申请号:CN202010016926.5

    申请日:2020-01-08

    Abstract: 本发明涉及一种数据清洗方法、装置及计算机可读存储介质;该方法包括获取结构化数据和时效约束,对所有元组建立时序图,并经传递规约后得到时效子图;基于时序子图计算每条元组的时效值;以时效性-一致性联合修复距离作为指标,计算错误元组和高质量元组之间的编辑距离,选择满足一致性规则约束,且与该错误元组时效值最为接近的修复模式对错误元组进行一致性修复;利用贝叶斯填充方法,将元组的时效值作为该元组的新增属性参与贝叶斯的训练过程,实现对缺失值的填充;得到清洗后的数据集。本发明能够对数据集中同时存在的时间戳不可用、不完整属性值、不一致属性值这三种数据质量问题进行有效地识别和修复。

    质量驱动的公平数据市场平台、交易系统及方法

    公开(公告)号:CN110458452A

    公开(公告)日:2019-11-15

    申请号:CN201910739011.4

    申请日:2019-08-12

    Abstract: 本发明涉及数据服务技术领域,尤其涉及一种质量驱动的公平数据市场平台、交易系统及方法;其中,该数据市场平台包括:接收模块用于接收买方发送的查询请求,并将查询请求发送至查询模块;查询模块用于根据查询请求执行查询,并将查询数据结果返回至评估模块;评估模块用于根据多项预定的评估指标对查询数据结果进行质量评估,并将质量评估结果发送至定价模块;定价模块用于根据质量评估结果及查询价格计算数据最终价格,并将数据最终价格发送至加密模块;加密模块用于根据数据最终价格生成价格信息,并将价格信息发送至买方;其中价格信息包括价格范围与加密价格。本发明采用了基于质量的定价策略,并采用公平保证机制,避免潜在欺骗行为。

    时序数据库中的自适应数据压缩系统、方法及设备

    公开(公告)号:CN114884515B

    公开(公告)日:2025-01-17

    申请号:CN202210372728.1

    申请日:2022-04-11

    Abstract: 时序数据库中的自适应数据压缩系统、方法及设备,属于计算机技术领域。为了解决目前针对时序数据库的压缩算法存在的不能对数据进行针对性选择处理及无法同时兼顾轻量化要求的问题。本发明系统包括时序数据库插件和基于配置信息通过接口调用不同的压缩算法进行压缩的数据压缩子系统;其中,时序数据库插件为分类决策模型,分类决策模型包括特征提取单元和利用神经网络模型进行压缩算法自动选择的分类决策单元;数据压缩子系统包括将选出数据压缩算法反馈给用户并将压缩策略写入配置中心的压缩策略配置单元,以及创建新活动来执行数据压缩任务,并定期被唤醒来执行数据整理压缩任务的自适应数据压缩单元。主要用于时序数据库中数据的自适应压缩。

    一种自动选择学生模型结构的图像识别知识蒸馏方法

    公开(公告)号:CN115035341B

    公开(公告)日:2024-09-06

    申请号:CN202210679569.X

    申请日:2022-06-15

    Abstract: 一种自动选择学生模型结构的图像识别知识蒸馏方法,涉及知识蒸馏领域。本发明是为了解决现有的图像识别知识蒸馏方法中学生模型结构固定且复杂以及灵活性差,导致了图像识别精度低的问题。本发明包括:将待预测图片数据集输入分类网络中获得图片类别;分类网络获得方式为:利用图片训练集训练深度卷积神经网络,获得训练好的深度卷积神经网络;建立包含多条可选路径的子模型空间:在深度卷积神经网络的每个阶段中,预设深度、卷积通道形式、卷积通道数都不同的“路径”;根据训练好的卷积神经网络与全局目标函数和分阶段目标函数对子模型空间自动选择获得分类网络。本发明用于深度学习模型的压缩。

    变压器油色谱数据的迭代式清洗方法

    公开(公告)号:CN117076436A

    公开(公告)日:2023-11-17

    申请号:CN202310964710.5

    申请日:2023-08-02

    Abstract: 一种变压器油色谱数据的迭代式清洗方法,属于数据清洗技术领域。本发明针对变压器油色谱数据中的劣质数据不能被有效识别并清洗的问题。包括:将原始数据集中的数据分为违反规则数据集和符合规则数据集;采用符合规则数据集对分类器进行预训练;采用分类器计算违反规则数据的违反分数,并选择待修复数据;将待修复数据进行修复后,采用修复后数据对分类器进行再训练并对分类器的模型参数进行再更新,迭代以上的“挑选‑修复‑更新”流程,提升分类器的效果;最后采用训练后的分类器对实际运行数据中的违反规则运行数据进行预测,得到清洗后数据。本发明用于油色谱数据的清洗。

    一种基于弱监督集成的多元时间序列异常检测方法及系统

    公开(公告)号:CN116522138A

    公开(公告)日:2023-08-01

    申请号:CN202310441636.9

    申请日:2023-04-23

    Abstract: 一种基于弱监督集成的多元时间序列异常检测方法及系统,具体涉及一种基于弱监督集成的多元时间序列异常检测方法及系统,为了解决时间序列异常检测方法导致异常检测效果差、准确率低,以及人力成本高,难以适应业务和产品特性变化的问题。它利用不同时间序列异常检测算法检测训练集,得到对应的异常分数,提取训练集中任意两条时间序列的相关性,得到相关性特征,合并每条多元时间序列的异常分数和对应的相关性特征,作为当前多元时间序列的新特征,利用XGBoost算法对每条多元时间序列的新特征进行异常检测,输出对应多元时间序列是否为异常时间序列,得到异常检测器,利用异常检测器直接对多元时间序列进行检测。属于序列异常检测领域。

    时序数据库的有损压缩及解压缩方法、系统、存储介质、设备

    公开(公告)号:CN114640355B

    公开(公告)日:2023-04-18

    申请号:CN202210326314.5

    申请日:2022-03-30

    Abstract: 时序数据库的有损压缩及解压缩方法、系统、存储介质、设备,属于数据压缩技术领域。为了解决目前的压缩算法的ΔE选取可能难以适应整个时段的所有数据的问题,本发明所述压缩方法,首先进行离群点检测,然后将离群点单独存储为新的一个文件,记为离群点文件;将剔除离群点后的数据存储为一个文件,记为普通文件;将离群点文件和普通文件同时分别执行有损压缩;对第i段数据压缩后,计算该段压缩误差ei以及误差比动态调整旋转门压缩算法的压缩精度参数ΔEi+1=ΔE×A×Pi,从而实现数据压缩。解压缩的过程中,首先判别数据点是属于普通文件还是离群点文件,分别根据压缩模型进行线性插值。主要用于时序数据库的有损压缩及解压缩。

    时态数据集上的实体识别方法

    公开(公告)号:CN109543712B

    公开(公告)日:2023-04-07

    申请号:CN201811200645.4

    申请日:2018-10-16

    Abstract: 本发明涉及计算机技术领域,提供一种时态数据集上的实体识别方法。该方法主要包括以下步骤:S1:基于规则对数据进行预处理;S2:框架聚类;S3:类融合。本发明首次针对无时间戳的时态数据集合上实体识别问题上提出了解决方法,定义了时态数据集上属性的不确定性,并相应地对记录之间的相似度计算采用了动态权重的计算方法,这种动态权重计算方法的效果是明显优于固定权重的。本发明有效地结合了否定匹配依赖规则和时序约束规则,减少了算法运行的时间并保证了算法输出的结果,对于实体识别中的聚类分析阶段,提出了新颖的时态聚类算法。

    一种基于模型通道剪裁的深度学习知识蒸馏方法

    公开(公告)号:CN114898165A

    公开(公告)日:2022-08-12

    申请号:CN202210697905.3

    申请日:2022-06-20

    Abstract: 一种基于模型通道剪裁的深度学习知识蒸馏方法,具体涉及一种用于图像分类的基于模型通道剪裁的深度学习知识蒸馏方法,本发明为解决现有图像分类在采用知识蒸馏压缩方法时,由于教师模型和学生模型参数量相差太大会使学生模型准确率降低,导致图像分类的准确率较低的问题。将待分类的图像输入教师模型中,利用教师模型每层卷积层中卷积通道的平均秩从大到小进行排序;计算教师模型和学生模型的参数量均值,并与教师模型参数量做变化比例作为通道剪裁总体压缩率;利用通道剪裁技术剪裁冗余卷积通道,得到中间模型;利用中间模型对学生模型进行知识蒸馏,得到新知识蒸馏目标函数并对学生模型进行训练,得到训练好的学生模型。属于知识蒸馏领域。

    时序数据库的有损压缩及解压缩方法、系统、存储介质、设备

    公开(公告)号:CN114640355A

    公开(公告)日:2022-06-17

    申请号:CN202210326314.5

    申请日:2022-03-30

    Abstract: 时序数据库的有损压缩及解压缩方法、系统、存储介质、设备,属于数据压缩技术领域。为了解决目前的压缩算法的ΔE选取可能难以适应整个时段的所有数据的问题,本发明所述压缩方法,首先进行离群点检测,然后将离群点单独存储为新的一个文件,记为离群点文件;将剔除离群点后的数据存储为一个文件,记为普通文件;将离群点文件和普通文件同时分别执行有损压缩;对第i段数据压缩后,计算该段压缩误差ei以及误差比动态调整旋转门压缩算法的压缩精度参数ΔEi+1=ΔE×A×Pi,从而实现数据压缩。解压缩的过程中,首先判别数据点是属于普通文件还是离群点文件,分别根据压缩模型进行线性插值。主要用于时序数据库的有损压缩及解压缩。

Patent Agency Ranking