-
公开(公告)号:CN114398681A
公开(公告)日:2022-04-26
申请号:CN202210065736.1
申请日:2022-01-20
Applicant: 支付宝(杭州)信息技术有限公司 , 蚂蚁区块链科技(上海)有限公司
Abstract: 本说明书实施例提供一种训练隐私信息分类模型、识别隐私信息的方法和装置,训练隐私信息分类模型的方法包括:获取预训练的编码器,所述编码器基于数据库中的无标签样本和预设训练目标训练得到,所述预设训练目标包括,使得所述无标签样本中同一字段内数据的表征相似度,大于不同字段间数据的表征相似度;获取具有目标隐私类别标签的训练样本集合;将所述训练样本集合输入所述编码器和其后连接的分类器,根据分类器的预测输出,调整所述编码器和所述分类器,得到训练后的分类模型。能够有效识别数据库中的隐私数据。
-
公开(公告)号:CN114398680A
公开(公告)日:2022-04-26
申请号:CN202210065719.8
申请日:2022-01-20
Applicant: 支付宝(杭州)信息技术有限公司 , 蚂蚁区块链科技(上海)有限公司
Abstract: 本说明书实施例提供一种训练分类模型、识别隐私数据的方法和装置,训练分类模型的方法包括:获取用户指定的目标隐私类别下的一组隐私数据作为正样本集合;通过数据增强的方式生成负样本集合;基于所述正样本集合中正样本的成对组合,形成正样本对集合;基于所述正样本集合中的正样本和所述负样本集合中的负样本的成对组合,形成负样本对集合;基于正样本对集合和负样本对集合,训练分类模型,用于预测输入样本对是否同属于所述目标隐私类别。能够有效识别数据库中的隐私数据。
-
公开(公告)号:CN113326536A
公开(公告)日:2021-08-31
申请号:CN202110612524.6
申请日:2021-06-02
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F21/62 , G06F40/289 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本说明书实施例提供一种应用程序的合规性判别方法和装置,方法包括:获取应用程序的代码分析结果,所述代码分析结果指示出所述应用程序实际采集的隐私信息类别构成的第一类别集合;获取所述应用程序的隐私声明文本声明采集的隐私信息类别构成的第二类别集合,所述第二类别集合基于所述隐私声明文本对应的词序列分类得到;当所述第一类别集合与所述第二类别集合一致,且包括的隐私信息类别均属于法律法规中允许所述应用程序采集的隐私信息类别时,确定所述应用程序合规。能够快速有效的判别出应用程序是否合规。
-
公开(公告)号:CN114091457A
公开(公告)日:2022-02-25
申请号:CN202111329188.0
申请日:2021-11-10
Applicant: 支付宝(杭州)信息技术有限公司 , 蚂蚁区块链科技(上海)有限公司
IPC: G06F40/295 , G06N20/00
Abstract: 本说明书实施例提供一种训练命名实体识别模型的方法和装置,方法包括:获取第一文本集合和第二文本集合,第一文本集合中的文本具有标注信息,标注信息包括隐私类别及其位置,第二文本集合中的文本不具有标注信息;利用第一文本集合中包括的文本及其标注信息对命名实体识别模型进行初步训练;利用初步训练后的命名实体识别模型评估第二文本集合中的各文本,根据评估结果和预先设置的挑选策略,从第二文本集合中挑选补充文本;获取补充文本的标注信息;将补充文本及其标注信息添加到第一文本集合,以扩充第一文本集合;利用扩充后的第一文本集合对命名实体识别模型进行继续训练,得到继续训练后的命名实体识别模型。能够降低人工标注成本。
-
公开(公告)号:CN114090558A
公开(公告)日:2022-02-25
申请号:CN202111329182.3
申请日:2021-11-10
Applicant: 支付宝(杭州)信息技术有限公司 , 蚂蚁区块链科技(上海)有限公司
IPC: G06F16/215 , G06F16/23 , G06F16/242 , G06F16/2455
Abstract: 本说明书实施例提供一种针对数据库的数据质量管理方法和装置,方法包括:获取针对数据库的目标SQL语句;解析目标SQL语句,得到若干个数据对象,以及该若干个数据对象之间的目标关联关系,单个数据对象为字段或数据表;根据若干个数据对象和目标关联关系,更新预先建立的数据关系记录,数据关系记录中包含数据库中至少部分数据对象,以及其间的已有关联关系;对若干个数据对象进行数据质量监控,判断是否存在数据质量不满足要求的问题数据对象;当判断结果为存在问题数据对象时,从更新后的数据关系记录中,查询与问题数据对象具有预设关联关系的目标数据对象;针对问题数据对象和目标数据对象,进行数据质量管理。能够提高数据管理效率。
-
公开(公告)号:CN113672977A
公开(公告)日:2021-11-19
申请号:CN202110932430.7
申请日:2021-08-13
Applicant: 支付宝(杭州)信息技术有限公司 , 蚂蚁区块链科技(上海)有限公司
IPC: G06F21/62 , G06F16/36 , G06F16/2455 , G06F16/242 , G06F8/41
Abstract: 本说明书实施例公开了一种隐私数据处理方法和装置。所述方法包括:获取对源数据库执行的涉及隐私数据的结构化查询SQL语句和与所述隐私数据相关的辅助信息;对获取的SQL语句进行语义解析,以得到源数据库中的隐私数据之间的血缘关系信息,所述血缘关系信息用于指示隐私数据所在的字段之间的关联关系、隐私数据所在的数据表之间的关联关系以及所述字段和所述数据表之间的关联关系;基于所述血缘关系信息,在目标图数据库中创建图谱数据模式,所述图谱数据模式包括多个节点和连接不同节点的边,所述节点表示字段或数据表,所述边表示相连接的节点之间的关联关系;基于所述图谱数据模式,将所述辅助信息存储至所述目标图数据库中。
-
公开(公告)号:CN113672653A
公开(公告)日:2021-11-19
申请号:CN202110909377.9
申请日:2021-08-09
Applicant: 支付宝(杭州)信息技术有限公司 , 蚂蚁区块链科技(上海)有限公司
IPC: G06F16/2457 , G06F16/242 , G06F16/28 , G06F21/62 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本说明书实施例提供一种识别数据库中的隐私数据的方法和装置,方法包括:将数据库包括的各个数据表中的各个字段,形成队列;按照队列中各个字段的排序,依次针对当前的第一字段进行处理操作,处理操作包括:在第一字段不具有识别结果标签的情况下,识别第一字段是否属于隐私数据,得到第一识别结果,将第一识别结果作为第一字段的识别结果标签;若第一识别结果指示第一字段属于隐私数据,则查找与第一字段具有预设关系的第二字段;利用与预设关系对应的方式,识别第二字段是否属于隐私数据,得到第二识别结果,并将第二识别结果作为第二字段的识别结果标签。能够提高识别数据库中的隐私数据的效率。
-
公开(公告)号:CN114090076A
公开(公告)日:2022-02-25
申请号:CN202111327731.3
申请日:2021-11-10
Applicant: 支付宝(杭州)信息技术有限公司 , 蚂蚁区块链科技(上海)有限公司
IPC: G06F8/77
Abstract: 本说明书实施例提供一种应用程序的合规性判别方法和装置,方法包括:获取知识图谱形式的合规知识库,其根据多部法律法规的解析结果构建,包含多个实体、实体之间的关系;实体对应于法律法规、法条或合规要点;获取目标应用程序的代码分析结果,其指示出目标应用程序实际采集的隐私信息类别构成的第一类别集合,以及使用情况信息;获取目标应用程序的隐私声明文本声明采集的隐私信息类别构成的第二类别集合,以及包含的声明信息类别;基于第一类别集合、使用情况信息、第二类别集合和声明信息类别,判断目标应用程序是否符合合规知识库中的各个合规要点,以确定目标应用程序的合规检测结果。能够高效的判别出应用程序是否合规。
-
公开(公告)号:CN113672457A
公开(公告)日:2021-11-19
申请号:CN202110910584.6
申请日:2021-08-09
Applicant: 支付宝(杭州)信息技术有限公司 , 蚂蚁区块链科技(上海)有限公司
IPC: G06F11/30 , G06F8/41 , G06F16/242 , G06F16/25 , G06F21/62
Abstract: 本说明书实施例提供一种识别数据库中的异常操作的方法和装置,方法包括:获取用于针对所述数据库执行目标行为操作的目标SQL语句;对目标SQL语句进行解析,得到目标行为操作涉及的若干个数据对象,以及之间的目标关联关系,其中单个数据对象为字段或数据表;根据若干个数据对象和目标关联关系,更新预先建立的数据关系记录,数据关系记录中包含数据库中至少部分数据对象,以及其间的已有关联关系;从更新后的数据关系记录中,查询满足预设条件的目标字段,预设条件与字段的标签、关联关系是否属于预设关系有关;在目标字段属于若干个数据对象的情况下,确定目标行为操作属于异常操作。能够高度的自动化,减少人力成本,同时能保持较高的准确率。
-
公开(公告)号:CN113283232A
公开(公告)日:2021-08-20
申请号:CN202110601345.2
申请日:2021-05-31
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F40/205 , G06F40/211 , G06F40/289 , G06F21/62 , G06N3/04 , G06K9/62 , G06N3/08
Abstract: 本说明书实施例提供一种自动解析文本中隐私信息的方法和装置,方法包括:获取待解析文本;对所述待解析文本进行分词处理,得到包含若干个词语的词序列;对所述词序列进行基于上下文的编码,得到所述若干个词语分别对应的词向量;根据所述词向量,确定其对应的词语分别属于多个隐私信息类别的各概率;将所述各概率中最大概率对应的隐私信息类别确定为相应词语的归属类别;根据词语的归属类别和该词语在所述词序列中的位置,确定所述待解析文本的解析结果。能够提升文本的解析效果。
-
-
-
-
-
-
-
-
-