训练样本生成方法及装置、敏感信息检测方法及装置

    公开(公告)号:CN111814192B

    公开(公告)日:2021-04-27

    申请号:CN202010888434.5

    申请日:2020-08-28

    Inventor: 林博

    Abstract: 本说明书实施例提供了用于敏感信息检测的训练样本生成方法及装置、敏感信息检测方法及装置。该训练样本生成方法包括:通过采样获得多条请求信息,请求信息具有对应的响应信息;利用预设的多个正则表达式,对各条响应信息进行疑似敏感信息检测,并提取出检测到的疑似敏感信息的上下文信息,其中,各正则表达式对应不同的敏感类别;对于提取出的至少部分上下文信息,根据其涉及的疑似敏感信息所属的敏感类别,确定对应的敏感类别标签;从而生成标记有敏感类别标签的训练样本,如此生成的训练样本用于敏感信息检测,从而防止用户隐私数据泄露,保护隐私数据的安全。

    用于匹配私有数据的匹配模式自动生成方法、装置及设备

    公开(公告)号:CN110929111A

    公开(公告)日:2020-03-27

    申请号:CN201911131750.1

    申请日:2019-11-19

    Inventor: 林博

    Abstract: 本说明书实施例提供一种用于匹配私有数据的匹配模式自动生成方法、装置及设备,在自动生成方法中,确定当前样本分组对应的匹配模式模板。将匹配模式模板中的当前占位符对应的数据位作为当前数据位。基于当前样本分组内的各个样本数据对应于当前数据位的多个字符各自出现的概率,计算当前数据位对应的信息熵。基于信息熵,判断是否需要对当前样本分组进行分裂。若否,则基于多个字符,生成对应于当前数据位的子匹配模式。将当前占位符替换为子匹配模式,得到更新的匹配模式模板。若更新的匹配模式模板不包括占位符,则将其作为第一数据类型对应的最终匹配模式添加到匹配模式列表中。本说明书实施例得到的匹配模式可以用于私有数据的分类模型构建。

    一种包含隐私数据的网络数据的处理、识别方法及装置

    公开(公告)号:CN111062490B

    公开(公告)日:2022-04-05

    申请号:CN201911285296.5

    申请日:2019-12-13

    Inventor: 林博

    Abstract: 本申请公开了一种包含隐私数据的网络数据的处理方法及装置,所述方法包括:对网络数据集中的网络数据进行结构化解析,生成指示所述网络数据的数据结构的树状结构图;其中,所述网络数据集包括多个数据子集;各数据子集中的网络数据包含的隐私数据的数据类型不同;确定各数据子集中的网络数据包含的隐私数据,在所述网络数据的树状结构图中的存储路径,并确定各数据子集中的网络数据包含的隐私数据在所述存储路径中的上下文字段;提取所述上下文字段的字段取值对应的语义信息;将提取出的所述语义信息作为样本特征构建训练样本,并基于所述训练样本训练用于识别网络数据集中的网络数据包含的隐私数据的类型的机器学习模型。

    数据识别方法和装置
    4.
    发明公开

    公开(公告)号:CN112948646A

    公开(公告)日:2021-06-11

    申请号:CN202110354012.4

    申请日:2021-04-01

    Inventor: 林博

    Abstract: 本说明书实施例提供了一种数据识别方法和装置。根据该实施例的方法,获取待识别数据集;然后从所述待识别数据集中提取各待识别数据的前缀数据;将所述前缀数据与预设类型数据的前缀分布进行匹配,确定所述待识别数据集针对所述预设类型数据的前缀匹配得分;再将所述前缀匹配得分与所述待识别数据集的统计特征输入所述预设类型数据的分类模型,得到所述待识别数据集是否属于所述预设类型数据的分类结果。

    训练样本生成方法及装置、敏感信息检测方法及装置

    公开(公告)号:CN111814192A

    公开(公告)日:2020-10-23

    申请号:CN202010888434.5

    申请日:2020-08-28

    Inventor: 林博

    Abstract: 本说明书实施例提供了用于敏感信息检测的训练样本生成方法及装置、敏感信息检测方法及装置。该训练样本生成方法包括:通过采样获得多条请求信息,请求信息具有对应的响应信息;利用预设的多个正则表达式,对各条响应信息进行疑似敏感信息检测,并提取出检测到的疑似敏感信息的上下文信息,其中,各正则表达式对应不同的敏感类别;对于提取出的至少部分上下文信息,根据其涉及的疑似敏感信息所属的敏感类别,确定对应的敏感类别标签;从而生成标记有敏感类别标签的训练样本,如此生成的训练样本用于敏感信息检测,从而防止用户隐私数据泄露,保护隐私数据的安全。

    一种密钥检测方法、装置及电子设备

    公开(公告)号:CN111159697A

    公开(公告)日:2020-05-15

    申请号:CN201911402288.4

    申请日:2019-12-27

    Inventor: 林博

    Abstract: 本说明书实施例提供一种密钥检测方法、装置及电子设备。所述方法包括:根据预定的提取规则从文本中提取出一个或多个目标字符串,所述预定的提取规则为根据预定的密钥类型所生成的规则;对所述目标字符串执行检测操作,以便从所述目标字符串中筛选出待确定密钥所对应的字符串;利用预定的搜索方式对文本进行搜索,得到待确定账户标识所对应的字符串;获取与所述待确定密钥以及待确定账户标识分别对应的一个或多个特征数据,并根据所述特征数据将所述待确定密钥与待确定账户标识进行匹配,得到所述待确定密钥的匹配分值,基于所述匹配分值确定与所述密钥类型相对应的密钥,从而实现了密钥的检测。

    机器学习、隐私代码确定方法、装置及电子设备

    公开(公告)号:CN111143203A

    公开(公告)日:2020-05-12

    申请号:CN201911305402.1

    申请日:2019-12-13

    Inventor: 林博

    Abstract: 本说明书实施例公开了一种机器学习、隐私代码确定方法、装置及电子设备,其中,所述机器学习方法可以获取批量包含正、负样本的样本数据,正样本数据中包含隐私代码文件,负样本数据中不包含隐私代码文件;基于代码文件的相似性度量参数,从所述样本数据中筛选出多个第一代码文件,并从代码文件的隐私标签已知的预设代码库中筛选出多个第二代码文件;基于所述多个第一代码文件和所述多个第二代码文件,确定所述样本数据对应的目标参数;将所述样本数据对应的目标参数及所述样本数据的标签作为输入,训练目标模型,所述目标模型用于确定待检测的一批代码文件与隐私代码文件的相似性度量参数。

    一种包含隐私数据的网络数据的处理方法及装置

    公开(公告)号:CN111062490A

    公开(公告)日:2020-04-24

    申请号:CN201911285296.5

    申请日:2019-12-13

    Inventor: 林博

    Abstract: 本申请公开了一种包含隐私数据的网络数据的处理方法及装置,所述方法包括:对网络数据集中的网络数据进行结构化解析,生成指示所述网络数据的数据结构的树状结构图;其中,所述网络数据集包括多个数据子集;各数据子集中的网络数据包含的隐私数据的数据类型不同;确定各数据子集中的网络数据包含的隐私数据,在所述网络数据的树状结构图中的存储路径,并确定各数据子集中的网络数据包含的隐私数据在所述存储路径中的上下文字段;提取所述上下文字段的字段取值对应的语义信息;将提取出的所述语义信息作为样本特征构建训练样本,并基于所述训练样本训练用于识别网络数据集中的网络数据包含的隐私数据的类型的机器学习模型。

Patent Agency Ranking