重复记录检测方法、装置及计算机可读存储介质

    公开(公告)号:CN119848029A

    公开(公告)日:2025-04-18

    申请号:CN202311813147.8

    申请日:2023-12-26

    Abstract: 本申请提供重复记录检测方法、装置及计算机可读存储介质,其中,方法步骤为获取记录对,然后将记录对输入第一重复记录检测模型,得到第一预测信息(包括第一重复记录检测模型预测记录对中的两个记录重复或者不重复的概率),在基于第一预测信息可确定记录对中的两个记录是否重复时输出确定结果,在基于第一预测信息不能确定记录对中的两个记录是否重复时,将记录对输入精度高于第一重复记录检测模型的第二重复记录检测模型,得到第二预测信息(包括第二重复记录检测模型预测记录对中的两个记录重复或者不重复的概率),基于第二预测信息确定记录对中的两个记录是否重复并输出确定结果。该方法可实现重复记录检测,并保证检测精度以及节省成本。

    一种流程管理方法及装置
    2.
    发明公开

    公开(公告)号:CN119831308A

    公开(公告)日:2025-04-15

    申请号:CN202411722902.6

    申请日:2024-11-27

    Abstract: 本申请实施例提供了一种流程管理方法及装置,业务处理方法包括:获取目标流程,并基于目标流程进行特征提取以获取流程特征;基于预设的流程拆分策略中确定对目标流程采取的目标拆分策略集;基于目标拆分策略集,对目标流程进行拆分和重组,以生成各个目标拆分策略对应的替换流程。本申请实施例可以自动完成对业务流程的优化,拆分并重组复杂的子流程,降低复杂流程的维护成本,增加流程可读性,提高业务处理的效率。

    数据质量管理方法、装置及计算机可读存储介质

    公开(公告)号:CN118798695A

    公开(公告)日:2024-10-18

    申请号:CN202310769133.4

    申请日:2023-06-27

    Inventor: 龙江 郝诗源

    Abstract: 本申请提供数据质量管理方法、装置及计算机可读存储介质,其中,方法包括:计算设备获取用户输入或选择的待进行质量管理的数据表,并将该数据表输入数据表语义提取模型,将数据表语义提取模型输出的语义作为该数据表的语义,之后计算设备获取用户输入或选择的对上述数据表进行质量管理的任务,并将上述数据表的语义和上述质量管理任务输入处理方案生成模型,将处理方案生成模型输出的处理方案作为上述质量管理任务的处理方案,然后执行该处理方案,得到任务执行结果后向用户反馈。该方法可以帮助企业进行数据质量管理,有效提高数据质量管理的效率。

    数据治理的方法、装置及存储介质

    公开(公告)号:CN116186000A

    公开(公告)日:2023-05-30

    申请号:CN202210179899.2

    申请日:2022-02-25

    Abstract: 本申请公开了一种数据治理的方法、装置及存储介质,属于通信领域。所述方法包括:从数据库服务器中读取存储文件,所述存储文件用于存储属于至少一个业务的数据;获取第一数据集合的至少一个数据模式,所述第一数据集合包括所述存储文件保存的属于同一业务的数据,所述至少一个数据模式用于指示所述第一数据集合包括的各数据的结构;基于所述至少一个数据模式获取所述第一数据集合的至少一个数据特征;基于所述至少一个数据特征获取第一数据标准,所述第一数据标准用于约束所述第一数据集合包括的各数据的规范性。本申请能够提高获取数据标准的效率和精度。

    一种数据资产的生成方法以及装置

    公开(公告)号:CN119515318A

    公开(公告)日:2025-02-25

    申请号:CN202510088608.2

    申请日:2025-01-21

    Abstract: 本申请实施例公开了一种数据资产的生成方法以及装置,用于提升数据资产。本申请实施例方法包括:计算设备基于数据资产特征从工作流抽取目标任务节点集合,目标任务节点集合包括工作流中的一个或多个任务节点,一个或多个任务节点用于识别数据资产。计算设备对目标任务节点集合中一个或多个任务节点的上下文信息进行命名实体识别,确定一个或多个数据资产片段,上下文信息包括任务节点中与数据资产片段相关联的数据。计算设备基于一个或多个数据资产片段生成数据资产。

    一种数据处理方法、装置及相关设备

    公开(公告)号:CN115599356A

    公开(公告)日:2023-01-13

    申请号:CN202110785674.7

    申请日:2021-07-12

    Abstract: 本申请提供了一种数据处理方法,具体的,数据处理装置获取用户定义的基于第一编程语言的原始算子,并根据该原始算子,确定基于第二编程语言的目标算子,该第二编程语言为数据处理装置所在的部署环境支持的编程语言,该目标算子的数据处理功能与原始算子的数据处理功能相匹配。然后,数据处理装置确定至少包括目标算子的目标执行计划,并根据该目标执行计划对原始数据进行处理,得到该原始数据对应的处理结果。如此,数据处理装置能够将用户基于任意编程语言自定义的原始算子转译成部署环境所能支持的编程语言的目标算子,从而可以降低用户的学习与使用成本、提高用户体验。此外,本申请还提供了相应的数据处理装置及相关设备。

    主键确定方法、装置及计算机可读存储介质

    公开(公告)号:CN120021230A

    公开(公告)日:2025-05-20

    申请号:CN202410088939.1

    申请日:2024-01-22

    Abstract: 本申请提供主键确定方法、装置及计算机可读存储介质,其中,方法步骤为:主键生成系统获取同一流式数据或者不同流式数据中的多个数据记录(包括相同的多个字段),并对多个数据记录进行采样,将采样的数据记录中存在重复值的字段和/或字段组合确定为非候选键,之后确定多个可能候选键(指全集中除非候选键之外剩余的元素,全集包括多个字段和多个字段中至少两个字段的组合),并判断多个可能候选键是否均可作为候选键,在确定均可作为候选键的情况下,从多个可能候选键中选出目标候选键,最后基于每个数据记录中对应目标候选键的值生成每个数据记录的统一主键的值,从而使得后续可以基于统一主键集成多个数据记录,即集成流式数据。

    根源定位的方法、装置及存储介质

    公开(公告)号:CN117807058A

    公开(公告)日:2024-04-02

    申请号:CN202211468801.1

    申请日:2022-11-22

    Inventor: 郝诗源 魏子恒

    Abstract: 本申请公开了一种根源定位的方法、装置及存储介质,属于计算机领域。所述方法包括:第一设备获取多个数据存储文件之间的第一转换关系和第一数据存储文件,所述第一数据存储文件包括第一脏数据,所述多个数据存储文件包括所述第一数据存储文件;第一设备基于所述第一转换关系和所述第一数据存储文件,确定产生所述第一脏数据的根源。本申请能够提高定位产生脏数据根源的效率。

    一种多粒度数据模式挖掘方法及相关设备

    公开(公告)号:CN116932604A

    公开(公告)日:2023-10-24

    申请号:CN202210326077.2

    申请日:2022-03-30

    Abstract: 本申请提供一种多粒度数据模式挖掘方法及相关设备。其中,该方法包括:读取待处理数据并对所述待处理数据进行多粒度模式挖掘;根据所述多粒度模式挖掘结果,生成所述待处理数据对应的多粒度模式;输出并展示所述待处理数据对应的多粒度数据模式,其中,所述多粒度数据模式包括所述待处理数据对应的基础模式,所述基础模式包括第一层级数据模式和第二层级数据模式,每一层级数据模式包括数据模式样例和与所述数据模式样例匹配的数据的数量以及在所述待处理数据中所占的比例。上述方法能够丰富数据模式的挖掘粒度,帮助用户全面有效的识别数据的特征,能够多维度展示数据的数据特征和业务见解。

Patent Agency Ranking