-
公开(公告)号:CN119557345B
公开(公告)日:2025-04-11
申请号:CN202510121405.9
申请日:2025-01-26
Applicant: 哈尔滨工业大学(威海)
IPC: G06F16/2457 , G06F16/215
Abstract: 本发明属于数据查询技术领域,涉及一种偏好性G‑Skyline查询方法。该方法包括三个步骤:(1)求初步的候选元组:扫描预排序表PT筛选得到全部的组成G‑Skyline组的候选元组;(2)求精简的候选元组:基于用户指定的偏好元组,剔除冗余候选元组得到精简的候选元组;(3)求偏好G‑Skyline组:基于偏好元组和精简的候选元组求得偏好G‑Skyline组。本发明在求候选元组时,基于G‑Skyline的性质筛选得到初步的候选元组,然后利用剪切定理剔除了冗余的候选元组,减少了候选元组数量;在求偏好G‑Skyline组时,充分利用了偏好元组,采用深度优先搜索思想,使得生成的候选组的数量大大减小。
-
公开(公告)号:CN119848155A
公开(公告)日:2025-04-18
申请号:CN202510322155.5
申请日:2025-03-19
Applicant: 哈尔滨工业大学(威海)
IPC: G06F16/28 , G06N3/0455 , G06N3/08 , G06F40/284 , G06F16/22
Abstract: 本发明属于数据库数据质量管理技术领域,具体涉及一种具有学习式属性模式的关系数据库错误检测方法。步骤:数据预处理,将输入数据序列用数据词元与模式词元交错构建的输入词元表示;错误识别,基于输入词元学习相应属性的属性域间独立和属性域内部共享的特征,并将学习内容存储在可学习模式模块和多头自注意力网络权重中以用于检测;可视化解释,提取多头自注意力网络内的注意力分数,以此构建输入词元和输出预测的关系,生成可视化注意力图。本发明的主要改进是属性模式感知的Transformer框架,学习关系表的数据值和其属性域结构的特征,用于检测给定数据集的数据错误,提高检测任务的准确性和效率,可视化错误检测的过程。
-
公开(公告)号:CN114528332B
公开(公告)日:2024-11-01
申请号:CN202210060831.2
申请日:2022-01-19
Applicant: 哈尔滨工业大学(威海)
IPC: G06F16/2458 , G06F16/22
Abstract: 本发明公开了海量数据中基于后缀划分的高效用高占用比项集挖掘算法,包括预处理阶段、项集挖掘阶段。预处理阶段包括后缀划分及垂直存储;项集挖掘阶段,依次将每个分区从磁盘读入内存,首先对1‑项集和2‑项集进行计算,判断其是否为高效用高占用比项集;对于长度大于2的项集,构建一个基于链表的双向栈结构存储分区中的拓展项集,再利用双向栈中的项构建一棵集合枚举树,在集合枚举树上按照深度优先搜索的顺序对项集进行遍历挖掘;同时根据支持度向下闭合属性、效用占用比向下闭合属性、3‑项集完全剪枝策略对项集进行剪枝,结合项集链接策略和剩余TID交叉计数策略进行挖掘。本发明有效解决了当前算法无法处理大规模数据集的问题。
-
公开(公告)号:CN118333147B
公开(公告)日:2024-08-13
申请号:CN202410774444.4
申请日:2024-06-17
Applicant: 哈尔滨工业大学(威海)
IPC: G06N5/01 , G06F18/2433 , G06F18/10
Abstract: 本发明属于数据处理技术领域,具体涉及一种海量数据离群点检测中相关子空间搜索方法。该方法主要包括:步骤1,对原始数据进行预处理,构建有序列表集合和哈希分片集合;依次利用预处理得到的所有哈希分片进行自适应相关属性判断,保留无重复的相关属性结果集;步骤2,根据步骤1的结果生成所有候选子空间,并利用预计算的有序列表集合和基于最频繁替换策略的FLA结构进行相关子空间判断;步骤3,对步骤2中结果进行冗余删除并返回所有相关子空间。本发明利用局部敏感哈希索引预先将数据集划分成内存可以容纳的哈希分片,避免了由于内存不足对处理海量数据集的限制;独立验证所有哈希分片进行无关属性剪切,大大减少了候选子空间的数量。
-
公开(公告)号:CN118013086A
公开(公告)日:2024-05-10
申请号:CN202410423950.9
申请日:2024-04-10
Applicant: 哈尔滨工业大学(威海)
IPC: G06F16/901 , G06F16/903
Abstract: 本发明属于数据查询技术领域,尤其涉及一种k代表G‑Skyline查询方法。一种k代表G‑Skyline查询方法,包括以下步骤:(1)数据预处理:构建预排序表;(2)求候选元组:扫描预排序表,筛选得到候选元组集;(3)求突出G‑Skyline组:对候选元组集中的候选元组进行运算,获得突出G‑Skyline组;(4)求k代表G‑Skyline组:从突出G‑Skyline组中筛选得到k代表G‑Skyline组。本发明基于预排序和层次剪枝策略,能够快速得到高质量的查询结果;并首次以遗憾率作为代表组评估标准,评估用户对查询结果的满意度,提高了用户友好性。
-
公开(公告)号:CN119557345A
公开(公告)日:2025-03-04
申请号:CN202510121405.9
申请日:2025-01-26
Applicant: 哈尔滨工业大学(威海)
IPC: G06F16/2457 , G06F16/215
Abstract: 本发明属于数据查询技术领域,涉及一种偏好性G‑Skyline查询方法。该方法包括三个步骤:(1)求初步的候选元组:扫描预排序表PT筛选得到全部的组成G‑Skyline组的候选元组;(2)求精简的候选元组:基于用户指定的偏好元组,剔除冗余候选元组得到精简的候选元组;(3)求偏好G‑Skyline组:基于偏好元组和精简的候选元组求得偏好G‑Skyline组。本发明在求候选元组时,基于G‑Skyline的性质筛选得到初步的候选元组,然后利用剪切定理剔除了冗余的候选元组,减少了候选元组数量;在求偏好G‑Skyline组时,充分利用了偏好元组,采用深度优先搜索思想,使得生成的候选组的数量大大减小。
-
公开(公告)号:CN118333147A
公开(公告)日:2024-07-12
申请号:CN202410774444.4
申请日:2024-06-17
Applicant: 哈尔滨工业大学(威海)
IPC: G06N5/01 , G06F18/2433 , G06F18/10
Abstract: 本发明属于数据处理技术领域,具体涉及一种海量数据离群点检测中相关子空间搜索方法。该方法主要包括:步骤1,对原始数据进行预处理,构建有序列表集合和哈希分片集合;依次利用预处理得到的所有哈希分片进行自适应相关属性判断,保留无重复的相关属性结果集;步骤2,根据步骤1的结果生成所有候选子空间,并利用预计算的有序列表集合和基于最频繁替换策略的FLA结构进行相关子空间判断;步骤3,对步骤2中结果进行冗余删除并返回所有相关子空间。本发明利用局部敏感哈希索引预先将数据集划分成内存可以容纳的哈希分片,避免了由于内存不足对处理海量数据集的限制;独立验证所有哈希分片进行无关属性剪切,大大减少了候选子空间的数量。
-
公开(公告)号:CN118013086B
公开(公告)日:2024-06-25
申请号:CN202410423950.9
申请日:2024-04-10
Applicant: 哈尔滨工业大学(威海)
IPC: G06F16/901 , G06F16/903
Abstract: 本发明属于数据查询技术领域,尤其涉及一种k代表G‑Skyline查询方法。一种k代表G‑Skyline查询方法,包括以下步骤:(1)数据预处理:构建预排序表;(2)求候选元组:扫描预排序表,筛选得到候选元组集;(3)求突出G‑Skyline组:对候选元组集中的候选元组进行运算,获得突出G‑Skyline组;(4)求k代表G‑Skyline组:从突出G‑Skyline组中筛选得到k代表G‑Skyline组。本发明基于预排序和层次剪枝策略,能够快速得到高质量的查询结果;并首次以遗憾率作为代表组评估标准,评估用户对查询结果的满意度,提高了用户友好性。
-
公开(公告)号:CN116484320A
公开(公告)日:2023-07-25
申请号:CN202310420433.1
申请日:2023-04-19
Applicant: 哈尔滨工业大学(威海)
Abstract: 本发明提供了一种大规模数据中非支配的频繁‑效用项集的高效挖掘方法,包括:根据前缀对数据集进行划分和网格存储;根据网格中存储的项的属性值,初始化多层索引链表结构,并按反对角线序读取网格;对于每个网格,将多层索引链表中存储的最大效用值作为条件约束,依次读取网格中满足约束的项所对应的前缀分片;在每个分片中,将满足条件约束的项加入到拓展集合中;依次拓展集合中的项,获得在支持度和效用值两个属性上具有支配能力的项集并将其加入到结果项集中。本发明提出了基于前缀划分策略、网格存储方式以及三组剪枝策略,能在大规模的海量数据上进行高效计算,有效剪枝掉大量无希望的项集,极大地节省了方法的空间开销和时间开销。
-
公开(公告)号:CN115237976A
公开(公告)日:2022-10-25
申请号:CN202210649569.5
申请日:2022-06-10
Applicant: 哈尔滨工业大学(威海)
IPC: G06F16/2458 , G06F16/2457
Abstract: 本发明属于大数据查询技术领域,具体涉及查询负载预测算法及模型。基于TCN‑A模型的查询负载预测算法,包括:对原始用户查询数据进行预处理,构建查询负载序列;利用训练好的时间序列预测模型预测查询负载;其中,所述的时间序列预测模型通过对查询负载序列进行时域注意力加权和时序预测获得查询负载的预测结果。本发明提出并实现了一种新型的时间序列预测模型及算法,以高效的时间卷积神经网络为核心,融入设计的时域注意力机制,捕获历史查询负载的变化信息及相关性特征,并充分利用查询间隔时间快速地实现查询负载的精确预测。
-
-
-
-
-
-
-
-
-