一种针对时间序列的异常值修复方法及装置

    公开(公告)号:CN109063145A

    公开(公告)日:2018-12-21

    申请号:CN201810889862.2

    申请日:2018-08-07

    CPC classification number: G06F11/0793 G06F17/11

    Abstract: 本发明涉及数据处理技术领域,提供了一种针对时间序列的异常值修复方法及装置,该方法依次对时间序列的每个数据点进行修复,包括:基于方差规则的约束确定当前数据点的多个窗口对应的候选项;根据当前数据点的多个窗口对应的候选项求取加权平均值得到当前数据点的修复值。本发明通过采用方差的约束规则,限定了数据的变化范围,并且通过获取窗口对应的候选项,采用加权平均值的方式得到最终的修复值,其置信度更高,可以对来自于各种领域的时间序列进行较好的异常值修复。

    一种隐私数据保护方法及系统

    公开(公告)号:CN108768643A

    公开(公告)日:2018-11-06

    申请号:CN201810648332.9

    申请日:2018-06-22

    Abstract: 本发明涉及计算机技术领域,尤其涉及一种隐私数据保护方法及系统。该方法及系统,基于密码学的加密技术,对隐私数据进行加密,使其在提供者和可信计算环境之外的地方都保持密文状态,保证其在正常情况下不被泄漏;使用秘密分享技术,将登录口令分割后发送给可信计算环境管理者,并由服务器保留合并参数,只有同意登录请求并提供子密钥的可信计算环境管理者的数量达到或大于预设数量时,完整的登录口令才可以被恢复,否则无法打开计算环境,从而提高数据保存、传输和使用的安全性。

    一种基于随机抽样的数据图流中的三角形计数方法及装置

    公开(公告)号:CN108737185A

    公开(公告)日:2018-11-02

    申请号:CN201810499136.X

    申请日:2018-05-23

    Abstract: 本发明涉及数据处理技术领域,提供了一种基于随机抽样的数据图流中的三角形计数方法及装置,该方法包括:对接收的原始数据图流中的边进行抽样得到子图,并计算存留比;对抽样获得的子图中三角形的数量进行统计;根据统计得到的子图中三角形的数量及所述存留比计算接收的原始数据图流中三角形数量。本发明通过对原始数据图流进行抽样得到子图,并根据子图的三角形计数结果还原原图的三角形计数结果,从而减少了处理的数据量,缩短了算法的执行时间。

    一种基于聚类的自适应时间序列异常检测方法及装置

    公开(公告)号:CN108647737A

    公开(公告)日:2018-10-12

    申请号:CN201810471537.4

    申请日:2018-05-17

    Abstract: 本发明涉及数据处理技术领域,提供了一种基于聚类的自适应时间序列异常检测方法及装置,该方法包括:通过SAX方法对训练集中的时间序列进行降维和符号化,得到符号化的时间序列;根据符号化的时间序列构建前缀树;通过滑动窗口从测试集中提取测试子序列,并判断测试集中提取的测试子序列与前缀树中的一个路径匹配时,将该提取的测试子序列标记为正常。本发明通过降维来减少可能的时间和空间复杂度,并且其中的模型可在测试数据过程中自我修改并适应新的模式,适用于具有有一定规律或者周期性的数据集。

    数据分类方法、装置及存储介质

    公开(公告)号:CN108564137A

    公开(公告)日:2018-09-21

    申请号:CN201810413155.6

    申请日:2018-05-03

    Abstract: 本发明提供一种数据分类方法、装置及存储介质,以通过集成学习的方式,直接对有缺失值的数据集进行分析,尽可能得到高质量的分析结果。该方法包括:获取不完整数据集中待分类元组的缺失属性集,并根据所述缺失属性集确定所述待分类元组在MAT结构中的目标节点,其中,所述MAT结构的每一节点表示缺失某一属性集合的数据样本集合;将所述目标节点以及所述目标节点以下且属于所述目标节点所在支路的每一节点分别作为一个完整视图,并基于每一所述完整视图分别训练一基本分类器;通过对得到的每一所述基本分类器进行排序组合,得到目标分类器;利用所述目标分类器对所述待分类元组进行数据分类。

    基于半监督学习的疾病预测模型建立方法及装置

    公开(公告)号:CN107944479A

    公开(公告)日:2018-04-20

    申请号:CN201711135644.1

    申请日:2017-11-16

    Inventor: 王宏志 宋扬

    Abstract: 本发明涉及一种基于半监督学习的疾病预测模型建立方法及装置,包括以下步骤:将有标签数据进行分类,得到有标签数据的基础分类模型;选取部分无标签数据;将选取的部分无标签数据通过聚类方法进行分类,并且利用所述基础分类模型对选取的部分无标签数据进行标记,根据所述无标签数据的聚类结果和预测结果得到无标签数据的标记结果,再与有标签数据合并起来进行分类,得到更新的基础分类模型,从剩下的无标签数据中继续选取部分无标签数据重新建模,如此迭代直至所有无标签数据处理完毕,得到最终分类模型。本发明对无标签数据进行建模,具体结合了有标签的分类方法和无标签的聚类方法,并通过迭代方式提升预测精度,更好地提升模型预测精度。

    一种面向大数据的并行系统优化方法

    公开(公告)号:CN106814994A

    公开(公告)日:2017-06-09

    申请号:CN201710045825.9

    申请日:2017-01-20

    CPC classification number: G06F9/3001 G06F9/3893 G06F9/465

    Abstract: 一种面向大数据的并行系统优化方法,本发明涉及面向大数据的并行系统优化方法。本发明的目的是为了解决现有技术都是针对某一特定的算法,没有针对复杂算式,且计算耗时长的问题。具体过程为:步骤一:将数据密集型算式进行抽象化处理;步骤二:将步骤一抽象化处理后的数据密集型算式生成算式语义树;步骤三:将步骤二生成的语义树进行化简并生成算式依赖图;步骤四:将步骤三生成的算式依赖图进行分层并生成任务序列;步骤五:根据步骤四生成的任务序列在并行系统中生成任务依赖关系,执行后得到数据密集型算式的计算结果。本发明用于数据分析领域。

Patent Agency Ranking