-
公开(公告)号:CN119848029A
公开(公告)日:2025-04-18
申请号:CN202311813147.8
申请日:2023-12-26
Applicant: 华为云计算技术有限公司
IPC: G06F16/215 , G06F16/22 , G06F16/28 , G06N20/00
Abstract: 本申请提供重复记录检测方法、装置及计算机可读存储介质,其中,方法步骤为获取记录对,然后将记录对输入第一重复记录检测模型,得到第一预测信息(包括第一重复记录检测模型预测记录对中的两个记录重复或者不重复的概率),在基于第一预测信息可确定记录对中的两个记录是否重复时输出确定结果,在基于第一预测信息不能确定记录对中的两个记录是否重复时,将记录对输入精度高于第一重复记录检测模型的第二重复记录检测模型,得到第二预测信息(包括第二重复记录检测模型预测记录对中的两个记录重复或者不重复的概率),基于第二预测信息确定记录对中的两个记录是否重复并输出确定结果。该方法可实现重复记录检测,并保证检测精度以及节省成本。
-
公开(公告)号:CN118035505A
公开(公告)日:2024-05-14
申请号:CN202211372127.7
申请日:2022-11-03
Applicant: 华为云计算技术有限公司 , 清华大学
IPC: G06F16/903 , G06F16/9035 , G06N20/00
Abstract: 本申请提供了一种数据采样方法,包括:获取数据集,确定该数据集中属性列的数量和属性值的数据类型,并根据属性列的数量以及属性值的数据类型,从数据集中采样获得样本集。该方法能够获取接近全局数据分布的样本数据,能够提升样本数据的代表性,同时使得样本数据更加适用于数据预览场景,便于用户根据样本数据进行后续的数据处理。
-
公开(公告)号:CN115599356A
公开(公告)日:2023-01-13
申请号:CN202110785674.7
申请日:2021-07-12
Applicant: 华为云计算技术有限公司(CN)
Abstract: 本申请提供了一种数据处理方法,具体的,数据处理装置获取用户定义的基于第一编程语言的原始算子,并根据该原始算子,确定基于第二编程语言的目标算子,该第二编程语言为数据处理装置所在的部署环境支持的编程语言,该目标算子的数据处理功能与原始算子的数据处理功能相匹配。然后,数据处理装置确定至少包括目标算子的目标执行计划,并根据该目标执行计划对原始数据进行处理,得到该原始数据对应的处理结果。如此,数据处理装置能够将用户基于任意编程语言自定义的原始算子转译成部署环境所能支持的编程语言的目标算子,从而可以降低用户的学习与使用成本、提高用户体验。此外,本申请还提供了相应的数据处理装置及相关设备。
-
公开(公告)号:CN117951121A
公开(公告)日:2024-04-30
申请号:CN202211297379.8
申请日:2022-10-21
Applicant: 华为云计算技术有限公司
IPC: G06F16/215 , G06F16/22 , G06F16/25 , G06F16/26
Abstract: 一种脏数据的检测方法、装置以及计算设备,该方法包括:获取待检测的业务数据,根据业务编码规则确定所述待检测的业务数据中的至少一个脏数据,所述业务编码规则为所述待检测的业务数据对应的业务的数据模式。该方法不仅可以提高脏数据的检测效率,该可以提高脏数据检测的准确率。
-
公开(公告)号:CN117312649A
公开(公告)日:2023-12-29
申请号:CN202210726503.1
申请日:2022-06-24
Applicant: 华为云计算技术有限公司
IPC: G06F16/9535
Abstract: 本申请提供了一种推荐操作的解释方法,包括:确定待解释的推荐操作,获取数据准备系统确定推荐操作的过程中产生的中间结果,根据该中间结果生成对推荐操作的解释,并向用户展示对推荐操作的解释。如此解决了对于推荐操作的解释仅针对操作定义和操作所能造成的影响,与推荐操作的确定过程无关的问题,使得用户对于推荐操作的过程和结果有了依据,便于用户进行后续操作的选择,提高了可用性。
-
公开(公告)号:CN116186000A
公开(公告)日:2023-05-30
申请号:CN202210179899.2
申请日:2022-02-25
Applicant: 华为云计算技术有限公司
IPC: G06F16/215 , G06F16/23 , G06F16/25 , G06F16/84
Abstract: 本申请公开了一种数据治理的方法、装置及存储介质,属于通信领域。所述方法包括:从数据库服务器中读取存储文件,所述存储文件用于存储属于至少一个业务的数据;获取第一数据集合的至少一个数据模式,所述第一数据集合包括所述存储文件保存的属于同一业务的数据,所述至少一个数据模式用于指示所述第一数据集合包括的各数据的结构;基于所述至少一个数据模式获取所述第一数据集合的至少一个数据特征;基于所述至少一个数据特征获取第一数据标准,所述第一数据标准用于约束所述第一数据集合包括的各数据的规范性。本申请能够提高获取数据标准的效率和精度。
-
公开(公告)号:CN120021230A
公开(公告)日:2025-05-20
申请号:CN202410088939.1
申请日:2024-01-22
Applicant: 华为云计算技术有限公司
IPC: H04L67/12 , H04L67/565 , H04L69/22 , H04L9/06
Abstract: 本申请提供主键确定方法、装置及计算机可读存储介质,其中,方法步骤为:主键生成系统获取同一流式数据或者不同流式数据中的多个数据记录(包括相同的多个字段),并对多个数据记录进行采样,将采样的数据记录中存在重复值的字段和/或字段组合确定为非候选键,之后确定多个可能候选键(指全集中除非候选键之外剩余的元素,全集包括多个字段和多个字段中至少两个字段的组合),并判断多个可能候选键是否均可作为候选键,在确定均可作为候选键的情况下,从多个可能候选键中选出目标候选键,最后基于每个数据记录中对应目标候选键的值生成每个数据记录的统一主键的值,从而使得后续可以基于统一主键集成多个数据记录,即集成流式数据。
-
公开(公告)号:CN117807058A
公开(公告)日:2024-04-02
申请号:CN202211468801.1
申请日:2022-11-22
Applicant: 华为云计算技术有限公司
IPC: G06F16/215
Abstract: 本申请公开了一种根源定位的方法、装置及存储介质,属于计算机领域。所述方法包括:第一设备获取多个数据存储文件之间的第一转换关系和第一数据存储文件,所述第一数据存储文件包括第一脏数据,所述多个数据存储文件包括所述第一数据存储文件;第一设备基于所述第一转换关系和所述第一数据存储文件,确定产生所述第一脏数据的根源。本申请能够提高定位产生脏数据根源的效率。
-
公开(公告)号:CN116932604A
公开(公告)日:2023-10-24
申请号:CN202210326077.2
申请日:2022-03-30
Applicant: 华为云计算技术有限公司
IPC: G06F16/2458
Abstract: 本申请提供一种多粒度数据模式挖掘方法及相关设备。其中,该方法包括:读取待处理数据并对所述待处理数据进行多粒度模式挖掘;根据所述多粒度模式挖掘结果,生成所述待处理数据对应的多粒度模式;输出并展示所述待处理数据对应的多粒度数据模式,其中,所述多粒度数据模式包括所述待处理数据对应的基础模式,所述基础模式包括第一层级数据模式和第二层级数据模式,每一层级数据模式包括数据模式样例和与所述数据模式样例匹配的数据的数量以及在所述待处理数据中所占的比例。上述方法能够丰富数据模式的挖掘粒度,帮助用户全面有效的识别数据的特征,能够多维度展示数据的数据特征和业务见解。
-
-
-
-
-
-
-
-