一种具有学习式属性模式的关系数据库错误检测方法

    公开(公告)号:CN119848155A

    公开(公告)日:2025-04-18

    申请号:CN202510322155.5

    申请日:2025-03-19

    Abstract: 本发明属于数据库数据质量管理技术领域,具体涉及一种具有学习式属性模式的关系数据库错误检测方法。步骤:数据预处理,将输入数据序列用数据词元与模式词元交错构建的输入词元表示;错误识别,基于输入词元学习相应属性的属性域间独立和属性域内部共享的特征,并将学习内容存储在可学习模式模块和多头自注意力网络权重中以用于检测;可视化解释,提取多头自注意力网络内的注意力分数,以此构建输入词元和输出预测的关系,生成可视化注意力图。本发明的主要改进是属性模式感知的Transformer框架,学习关系表的数据值和其属性域结构的特征,用于检测给定数据集的数据错误,提高检测任务的准确性和效率,可视化错误检测的过程。

    海量数据离群点检测中相关子空间搜索方法

    公开(公告)号:CN118333147B

    公开(公告)日:2024-08-13

    申请号:CN202410774444.4

    申请日:2024-06-17

    Abstract: 本发明属于数据处理技术领域,具体涉及一种海量数据离群点检测中相关子空间搜索方法。该方法主要包括:步骤1,对原始数据进行预处理,构建有序列表集合和哈希分片集合;依次利用预处理得到的所有哈希分片进行自适应相关属性判断,保留无重复的相关属性结果集;步骤2,根据步骤1的结果生成所有候选子空间,并利用预计算的有序列表集合和基于最频繁替换策略的FLA结构进行相关子空间判断;步骤3,对步骤2中结果进行冗余删除并返回所有相关子空间。本发明利用局部敏感哈希索引预先将数据集划分成内存可以容纳的哈希分片,避免了由于内存不足对处理海量数据集的限制;独立验证所有哈希分片进行无关属性剪切,大大减少了候选子空间的数量。

    一种基于知识库图匹配的数据清洗方法及装置

    公开(公告)号:CN109063048A

    公开(公告)日:2018-12-21

    申请号:CN201810789814.6

    申请日:2018-07-18

    Abstract: 本发明涉及一种基于知识库图匹配的数据清洗方法,包括:根据待清洗的数据库生成查询语句;对查询语句进行数据转图并合并相似条目,生成搜索图;所述搜索图采用二级索引表示,包括两个标签;根据所有所述搜索图的标签对知识库进行筛选,筛选出满足所述搜索图中一组第一个标签和第二个标签所示信息的数据,转图并合并相似条目,转为知识库大图;将搜索图与知识库大图进行图匹配操作,返回查询结果;根据返回的查询结果,对待清洗的数据库进行清洗。本发明还提供了一种基于知识库图匹配的数据清洗装置。本发明通过图匹配快速查询知识库实现对数据库的清洗,能够减少数据存储所占空间,简化查询结果,减少查询时间,提升清洗的效率。

    一种偏好性G-Skyline查询方法

    公开(公告)号:CN119557345B

    公开(公告)日:2025-04-11

    申请号:CN202510121405.9

    申请日:2025-01-26

    Abstract: 本发明属于数据查询技术领域,涉及一种偏好性G‑Skyline查询方法。该方法包括三个步骤:(1)求初步的候选元组:扫描预排序表PT筛选得到全部的组成G‑Skyline组的候选元组;(2)求精简的候选元组:基于用户指定的偏好元组,剔除冗余候选元组得到精简的候选元组;(3)求偏好G‑Skyline组:基于偏好元组和精简的候选元组求得偏好G‑Skyline组。本发明在求候选元组时,基于G‑Skyline的性质筛选得到初步的候选元组,然后利用剪切定理剔除了冗余的候选元组,减少了候选元组数量;在求偏好G‑Skyline组时,充分利用了偏好元组,采用深度优先搜索思想,使得生成的候选组的数量大大减小。

    内存受限情况下的大规模知识图谱的实时查询方法和系统

    公开(公告)号:CN109033314B

    公开(公告)日:2020-10-23

    申请号:CN201810787762.9

    申请日:2018-07-18

    Abstract: 本发明涉及数据处理技术领域,提供了一种内存受限情况下的大规模知识图谱的实时查询方法及系统,该方法包括:对原始知识图谱进行处理分析得到倒排文件哈希列表;基于原始知识图谱构建多级结构索引;对查询语句进行解析得到目标词汇,并根据所述倒排文件哈希列表和多级结构索引查找该目标词汇对应的三元组生成结果子图。本发明大大的提高了单机知识图谱查询能力,能够在内存极度受限的情况下给出既满足用户时间需求又满足用户精度需求的结果集。

    一种时间序列异常点检测方法及装置

    公开(公告)号:CN108776694A

    公开(公告)日:2018-11-09

    申请号:CN201810575076.5

    申请日:2018-06-05

    Abstract: 本发明涉及数据处理技术领域,提供了一种时间序列异常点检测方法及装置,该方法包括:通过训练集训练时间序列的回归模型;根据训练得到的回归模型及输入的当前时刻前一段的时间序列预测当前时刻序列值,并根据预测得到的当前时刻序列值对观测得到的当前时刻序列值进行异常检测;根据异常检测的结果,在观测得到当前时刻序列值被认为是异常时,使用预测得到的当前时刻序列值替换观测得到的当前时刻序列值,并继续对时间序列的下一时刻进行异常点检测。本发明在时间序列点异常的检测任务中,采用回归预测的方法,利用预测值替换异常值,尽可能地降低预测的偏差,提高检测的准确率。

    一种k代表G-Skyline查询方法

    公开(公告)号:CN118013086A

    公开(公告)日:2024-05-10

    申请号:CN202410423950.9

    申请日:2024-04-10

    Abstract: 本发明属于数据查询技术领域,尤其涉及一种k代表G‑Skyline查询方法。一种k代表G‑Skyline查询方法,包括以下步骤:(1)数据预处理:构建预排序表;(2)求候选元组:扫描预排序表,筛选得到候选元组集;(3)求突出G‑Skyline组:对候选元组集中的候选元组进行运算,获得突出G‑Skyline组;(4)求k代表G‑Skyline组:从突出G‑Skyline组中筛选得到k代表G‑Skyline组。本发明基于预排序和层次剪枝策略,能够快速得到高质量的查询结果;并首次以遗憾率作为代表组评估标准,评估用户对查询结果的满意度,提高了用户友好性。

    一种CPU高效的大规模图数据强连通分量获取方法

    公开(公告)号:CN115481296A

    公开(公告)日:2022-12-16

    申请号:CN202211138474.3

    申请日:2022-09-19

    Inventor: 王宏志 万晓珑

    Abstract: 一种CPU高效的大规模图数据强连通分量获取方法,涉及大数据处理的图计算技术领域。本发明是为了解决现有强连通分量获取方法需要消耗指数级运行时间,从而导致在单位时间内强连通分量获取效率低的问题。本发明包括:步骤一、获取磁盘存储的有向图,在有向图中加入一个虚拟节点r,并利用加入虚拟节点有向图G获取内存抽样图A和G中边的集合Ei;步骤二、利用步骤一获取的A、Ei获取磁盘存储的有向图G上所有的强连通分量。本发明用于获取大规模图数据的强连通分量。

    大规模知识图谱的错误连接关系诊断及修正方法

    公开(公告)号:CN109086356B

    公开(公告)日:2020-09-25

    申请号:CN201810787761.4

    申请日:2018-07-18

    Abstract: 本发明提供了一种大规模知识图谱的错误连接关系诊断及修正方法,其中诊断方法包括:构建知识图谱的层次结构,确定知识图谱中每个节点所处的层级;基于所述知识图谱的层次结构,提取节点的连接关系集合,所述连接关系集合中包含指向自己的所有IsA关系;判断同一层级上节点之间的关系;对于同一层级上被判定为相矛盾含义的节点对,诊断为其中包括错误连接关系,并继续对其上级进行搜索。本发明在不引入其它外源知识的情况下,利用知识图谱本身知识之间的关系,对具有IsA关系的图谱实现错误连接关系的检测并修正。

    一种隐私数据保护方法及系统

    公开(公告)号:CN108768643A

    公开(公告)日:2018-11-06

    申请号:CN201810648332.9

    申请日:2018-06-22

    Abstract: 本发明涉及计算机技术领域,尤其涉及一种隐私数据保护方法及系统。该方法及系统,基于密码学的加密技术,对隐私数据进行加密,使其在提供者和可信计算环境之外的地方都保持密文状态,保证其在正常情况下不被泄漏;使用秘密分享技术,将登录口令分割后发送给可信计算环境管理者,并由服务器保留合并参数,只有同意登录请求并提供子密钥的可信计算环境管理者的数量达到或大于预设数量时,完整的登录口令才可以被恢复,否则无法打开计算环境,从而提高数据保存、传输和使用的安全性。

Patent Agency Ranking