一种隐私数据识别和处理方法、装置、设备和可读介质

    公开(公告)号:CN111709052A

    公开(公告)日:2020-09-25

    申请号:CN202010485005.3

    申请日:2020-06-01

    Abstract: 本说明书实施例公开了隐私数据识别和处理方法、装置、设备及计算机可读介质。方案包括:采用预先训练的命名实体识别模型,确定目标字段的多条数据中的隐私序列的位置信息和序列隐私类型信息;从而得到所述多条数据的隐私结构类型,所述隐私结构类型包括非隐私结构类型、单序列隐私结构类型和复合序列隐私结构类型;进而确定所述目标字段的隐私结构类型;然后对所述目标字段添加用于表示所述目标字段的隐私结构类型的标签,所述标签可以用于指示采用与所述标签对应的数据脱敏方式对所述目标字段的数据进行脱敏处理。

    训练命名实体识别模型的方法和装置

    公开(公告)号:CN114091457A

    公开(公告)日:2022-02-25

    申请号:CN202111329188.0

    申请日:2021-11-10

    Abstract: 本说明书实施例提供一种训练命名实体识别模型的方法和装置,方法包括:获取第一文本集合和第二文本集合,第一文本集合中的文本具有标注信息,标注信息包括隐私类别及其位置,第二文本集合中的文本不具有标注信息;利用第一文本集合中包括的文本及其标注信息对命名实体识别模型进行初步训练;利用初步训练后的命名实体识别模型评估第二文本集合中的各文本,根据评估结果和预先设置的挑选策略,从第二文本集合中挑选补充文本;获取补充文本的标注信息;将补充文本及其标注信息添加到第一文本集合,以扩充第一文本集合;利用扩充后的第一文本集合对命名实体识别模型进行继续训练,得到继续训练后的命名实体识别模型。能够降低人工标注成本。

    针对数据库的数据质量管理方法和装置

    公开(公告)号:CN114090558A

    公开(公告)日:2022-02-25

    申请号:CN202111329182.3

    申请日:2021-11-10

    Abstract: 本说明书实施例提供一种针对数据库的数据质量管理方法和装置,方法包括:获取针对数据库的目标SQL语句;解析目标SQL语句,得到若干个数据对象,以及该若干个数据对象之间的目标关联关系,单个数据对象为字段或数据表;根据若干个数据对象和目标关联关系,更新预先建立的数据关系记录,数据关系记录中包含数据库中至少部分数据对象,以及其间的已有关联关系;对若干个数据对象进行数据质量监控,判断是否存在数据质量不满足要求的问题数据对象;当判断结果为存在问题数据对象时,从更新后的数据关系记录中,查询与问题数据对象具有预设关联关系的目标数据对象;针对问题数据对象和目标数据对象,进行数据质量管理。能够提高数据管理效率。

    隐私数据处理方法和装置

    公开(公告)号:CN113672977A

    公开(公告)日:2021-11-19

    申请号:CN202110932430.7

    申请日:2021-08-13

    Abstract: 本说明书实施例公开了一种隐私数据处理方法和装置。所述方法包括:获取对源数据库执行的涉及隐私数据的结构化查询SQL语句和与所述隐私数据相关的辅助信息;对获取的SQL语句进行语义解析,以得到源数据库中的隐私数据之间的血缘关系信息,所述血缘关系信息用于指示隐私数据所在的字段之间的关联关系、隐私数据所在的数据表之间的关联关系以及所述字段和所述数据表之间的关联关系;基于所述血缘关系信息,在目标图数据库中创建图谱数据模式,所述图谱数据模式包括多个节点和连接不同节点的边,所述节点表示字段或数据表,所述边表示相连接的节点之间的关联关系;基于所述图谱数据模式,将所述辅助信息存储至所述目标图数据库中。

    一种应用程序的信息检测方法、装置及设备

    公开(公告)号:CN112199506B

    公开(公告)日:2021-08-24

    申请号:CN202011247122.2

    申请日:2020-11-10

    Abstract: 本说明书实施例公开了一种应用程序的信息检测方法、装置及设备,该方法包括:获取待识别应用程序的隐私政策文本;将隐私政策文本输入训练完成的识别模型中,得到所述隐私政策文本中表示的待识别应用程序需获取的第一信息;确定待识别应用程序的源码中表示的待识别应用程序需获取的第二信息;获取待识别应用程序被允许获取的标准信息;检测所述第一信息是否与所述标准信息一致,得到第一检测结果;检测所述第二信息是否与所述标准信息一致,得到第二检测结果;根据所述第一检测结果与所述第二检测结果,生成合规检测信息。

    一种隐私数据识别方法、装置、设备和可读介质

    公开(公告)号:CN111783126B

    公开(公告)日:2022-04-29

    申请号:CN202010706285.6

    申请日:2020-07-21

    Abstract: 本说明书实施例公开了一种隐私数据识别方法、装置、设备和可读介质。方案包括:获取第一数据集的第一长度分布向量和第一字符分布统计信息,所述第一数据集为隐私数据样本的集合;获取第二数据集的第二长度分布向量和第二字符分布统计信息,所述第二数据集为待识别字段对应的至少部分数据样本的集合;计算所述第一数据集与所述第二数据集的长度分布相似度、字符分布相似度,并基于所述长度分布相似度和字符分布相似度确定所述待识别字段对应的数据是否为与所述第一数据集同类型的隐私数据。

    利用遗传编程的命名实体识别和提取

    公开(公告)号:CN113366511B

    公开(公告)日:2022-03-25

    申请号:CN202080000848.8

    申请日:2020-01-07

    Abstract: 本文公开了使用遗传算法生成模式程序的方法、系统和装置,包括编码在计算机存储介质上的计算机程序。遗传算法对表示将通过命名实体识别来识别或提取的数据类别的示例数据串进行运算。在初始化阶段,基于表示将通过命名实体识别来识别或提取的数据类别的示例数据串,生成初始模式程序。从初始模式程序开始,迭代地进行遗传运算以生成多代的后代模式程序。在每一轮遗传运算中,后代模式程序是通过交叉繁殖运算和变异运算生成的。

    一种隐私数据识别系统的构建方法及装置

    公开(公告)号:CN113220949A

    公开(公告)日:2021-08-06

    申请号:CN202110517500.2

    申请日:2021-05-12

    Abstract: 本说明书公开了一种隐私数据识别系统的构建方法及装置。该方法应用于隐私识别服务平台,隐私识别服务平台配置有多个隐私识别模块集合,不同的隐私识别模块集合具有不同的识别性能;各识别模块集合整体能够识别的隐私数据类型相同、任意识别模块集合内的不同模块分别用于识别不同类型的隐私数据;所述方法包括:接收目标需求方发送的识别系统构建请求;请求中包括:对隐私数据类型的识别需求、以及对识别性能的需求;从多个隐私识别模块集合中,选择与识别性能需求相匹配的模块集合;在所选择的模块集合中,选择与隐私数据类型的识别需求相匹配的一个或多个识别模块;基于所选择的模块,构建对应于目标需求方的隐私数据识别系统。

Patent Agency Ranking