-
公开(公告)号:CN108737185A
公开(公告)日:2018-11-02
申请号:CN201810499136.X
申请日:2018-05-23
Applicant: 哈尔滨工业大学
IPC: H04L12/24
Abstract: 本发明涉及数据处理技术领域,提供了一种基于随机抽样的数据图流中的三角形计数方法及装置,该方法包括:对接收的原始数据图流中的边进行抽样得到子图,并计算存留比;对抽样获得的子图中三角形的数量进行统计;根据统计得到的子图中三角形的数量及所述存留比计算接收的原始数据图流中三角形数量。本发明通过对原始数据图流进行抽样得到子图,并根据子图的三角形计数结果还原原图的三角形计数结果,从而减少了处理的数据量,缩短了算法的执行时间。
-
公开(公告)号:CN108647737A
公开(公告)日:2018-10-12
申请号:CN201810471537.4
申请日:2018-05-17
Applicant: 哈尔滨工业大学
IPC: G06K9/62
Abstract: 本发明涉及数据处理技术领域,提供了一种基于聚类的自适应时间序列异常检测方法及装置,该方法包括:通过SAX方法对训练集中的时间序列进行降维和符号化,得到符号化的时间序列;根据符号化的时间序列构建前缀树;通过滑动窗口从测试集中提取测试子序列,并判断测试集中提取的测试子序列与前缀树中的一个路径匹配时,将该提取的测试子序列标记为正常。本发明通过降维来减少可能的时间和空间复杂度,并且其中的模型可在测试数据过程中自我修改并适应新的模式,适用于具有有一定规律或者周期性的数据集。
-
公开(公告)号:CN118170827B
公开(公告)日:2024-08-09
申请号:CN202410605468.7
申请日:2024-05-16
Applicant: 哈尔滨工业大学(威海)
IPC: G06F16/2458 , G06F16/22
Abstract: 本发明属于数据处理技术领域,具体涉及一种基于等价类结构的数据间函数依赖关系挖掘方法。该方法包括:步骤1,遍历每列数据,获得等价类结构;对原始数据集进行重构,主要分为去除属性、属性重排序和压缩取值;步骤2,对元组对进行伪随机采样,比较样本,生成非函数依赖,并在满足停止条件时停止,然后在FD‑tree结构上对非函数依赖进行归纳操作,得到候选函数依赖项;步骤3,对FD‑tree结构中的候选函数依赖项进行验证,将候选项进行分组,每个分组对应一个属性的等价类结构,按属性排序的倒序,使用相应等价类结构对分组中的候选项进行验证。本发明的方法能够高效快速地求得给定数据实例的函数依赖关系。
-
公开(公告)号:CN118170827A
公开(公告)日:2024-06-11
申请号:CN202410605468.7
申请日:2024-05-16
Applicant: 哈尔滨工业大学(威海)
IPC: G06F16/2458 , G06F16/22
Abstract: 本发明属于数据处理技术领域,具体涉及一种基于等价类结构的数据间函数依赖关系挖掘方法。该方法包括:步骤1,遍历每列数据,获得等价类结构;对原始数据集进行重构,主要分为去除属性、属性重排序和压缩取值;步骤2,对元组对进行伪随机采样,比较样本,生成非函数依赖,并在满足停止条件时停止,然后在FD‑tree结构上对非函数依赖进行归纳操作,得到候选函数依赖项;步骤3,对FD‑tree结构中的候选函数依赖项进行验证,将候选项进行分组,每个分组对应一个属性的等价类结构,按属性排序的倒序,使用相应等价类结构对分组中的候选项进行验证。本发明的方法能够高效快速地求得给定数据实例的函数依赖关系。
-
公开(公告)号:CN116501738A
公开(公告)日:2023-07-28
申请号:CN202310470834.8
申请日:2023-04-27
Applicant: 哈尔滨工业大学(威海)
IPC: G06F16/22 , G06F16/245
Abstract: 本发明提供了一种海量数据Top‑kskyline组查询方法,包括阶段一、应用G‑Skyline的验证定理依次扫描预排序表中的数据点,直到扫描完所有数据点,得到包含全部的候选点及skyline点的孩子集的候选点集;阶段二、由候选点集枚举生成候选组,枚举轮次的判断由左部定理、右部定理以及近似定理完成;计算候选组得分,维护Top‑k得分阈值;生成Top‑k候选组的孩子G‑Skyline组,更新Top‑k候选组得到最终结果。利用预排续表作为索引结构,只需构建一次就可以应用于所有属性组合场景。利用预排序实现了早中止,减少了筛选候选点需要扫描的数据规模。基于左部定理、右部定理以及近似定理三个计算定理提出了高效的计算方法,降低了G‑Skyline组得分上界并极大地减少了G‑Skyline组的生成数量和计算量。
-
公开(公告)号:CN109063048B
公开(公告)日:2020-08-18
申请号:CN201810789814.6
申请日:2018-07-18
Applicant: 哈尔滨工业大学
IPC: G06F16/901 , G06F16/903
Abstract: 本发明涉及一种基于知识库图匹配的数据清洗方法,包括:根据待清洗的数据库生成查询语句;对查询语句进行数据转图并合并相似条目,生成搜索图;所述搜索图采用二级索引表示,包括两个标签;根据所有所述搜索图的标签对知识库进行筛选,筛选出满足所述搜索图中一组第一个标签和第二个标签所示信息的数据,转图并合并相似条目,转为知识库大图;将搜索图与知识库大图进行图匹配操作,返回查询结果;根据返回的查询结果,对待清洗的数据库进行清洗。本发明还提供了一种基于知识库图匹配的数据清洗装置。本发明通过图匹配快速查询知识库实现对数据库的清洗,能够减少数据存储所占空间,简化查询结果,减少查询时间,提升清洗的效率。
-
公开(公告)号:CN119557345A
公开(公告)日:2025-03-04
申请号:CN202510121405.9
申请日:2025-01-26
Applicant: 哈尔滨工业大学(威海)
IPC: G06F16/2457 , G06F16/215
Abstract: 本发明属于数据查询技术领域,涉及一种偏好性G‑Skyline查询方法。该方法包括三个步骤:(1)求初步的候选元组:扫描预排序表PT筛选得到全部的组成G‑Skyline组的候选元组;(2)求精简的候选元组:基于用户指定的偏好元组,剔除冗余候选元组得到精简的候选元组;(3)求偏好G‑Skyline组:基于偏好元组和精简的候选元组求得偏好G‑Skyline组。本发明在求候选元组时,基于G‑Skyline的性质筛选得到初步的候选元组,然后利用剪切定理剔除了冗余的候选元组,减少了候选元组数量;在求偏好G‑Skyline组时,充分利用了偏好元组,采用深度优先搜索思想,使得生成的候选组的数量大大减小。
-
公开(公告)号:CN118333147A
公开(公告)日:2024-07-12
申请号:CN202410774444.4
申请日:2024-06-17
Applicant: 哈尔滨工业大学(威海)
IPC: G06N5/01 , G06F18/2433 , G06F18/10
Abstract: 本发明属于数据处理技术领域,具体涉及一种海量数据离群点检测中相关子空间搜索方法。该方法主要包括:步骤1,对原始数据进行预处理,构建有序列表集合和哈希分片集合;依次利用预处理得到的所有哈希分片进行自适应相关属性判断,保留无重复的相关属性结果集;步骤2,根据步骤1的结果生成所有候选子空间,并利用预计算的有序列表集合和基于最频繁替换策略的FLA结构进行相关子空间判断;步骤3,对步骤2中结果进行冗余删除并返回所有相关子空间。本发明利用局部敏感哈希索引预先将数据集划分成内存可以容纳的哈希分片,避免了由于内存不足对处理海量数据集的限制;独立验证所有哈希分片进行无关属性剪切,大大减少了候选子空间的数量。
-
公开(公告)号:CN118013086B
公开(公告)日:2024-06-25
申请号:CN202410423950.9
申请日:2024-04-10
Applicant: 哈尔滨工业大学(威海)
IPC: G06F16/901 , G06F16/903
Abstract: 本发明属于数据查询技术领域,尤其涉及一种k代表G‑Skyline查询方法。一种k代表G‑Skyline查询方法,包括以下步骤:(1)数据预处理:构建预排序表;(2)求候选元组:扫描预排序表,筛选得到候选元组集;(3)求突出G‑Skyline组:对候选元组集中的候选元组进行运算,获得突出G‑Skyline组;(4)求k代表G‑Skyline组:从突出G‑Skyline组中筛选得到k代表G‑Skyline组。本发明基于预排序和层次剪枝策略,能够快速得到高质量的查询结果;并首次以遗憾率作为代表组评估标准,评估用户对查询结果的满意度,提高了用户友好性。
-
公开(公告)号:CN116484320A
公开(公告)日:2023-07-25
申请号:CN202310420433.1
申请日:2023-04-19
Applicant: 哈尔滨工业大学(威海)
Abstract: 本发明提供了一种大规模数据中非支配的频繁‑效用项集的高效挖掘方法,包括:根据前缀对数据集进行划分和网格存储;根据网格中存储的项的属性值,初始化多层索引链表结构,并按反对角线序读取网格;对于每个网格,将多层索引链表中存储的最大效用值作为条件约束,依次读取网格中满足约束的项所对应的前缀分片;在每个分片中,将满足条件约束的项加入到拓展集合中;依次拓展集合中的项,获得在支持度和效用值两个属性上具有支配能力的项集并将其加入到结果项集中。本发明提出了基于前缀划分策略、网格存储方式以及三组剪枝策略,能在大规模的海量数据上进行高效计算,有效剪枝掉大量无希望的项集,极大地节省了方法的空间开销和时间开销。
-
-
-
-
-
-
-
-
-