-
公开(公告)号:CN109299469A
公开(公告)日:2019-02-01
申请号:CN201811266619.1
申请日:2018-10-29
Applicant: 复旦大学
IPC: G06F17/27
Abstract: 本发明属于数据识别技术领域,具体为一种在长文本中识别复杂住址的方法。本发明包括:采用双数组Trie树构建全国小区名的词典;以基于感知机的中文分词和词性标注模型对长文本数据进行分词与标注;利用分词和词性标注结果,生成粗分词网;进行小区名匹配,更新词网,然后采用最长模式匹配,在长文本中匹配出最长的地址信息,并更新词网;通过维特比算法对词网进行最优路径求解,得到对长文本的最优分词与识别结果,其中包括需要进行上下文分析的完整复杂住址;通过对地址信息的上下文进行正面和负面特征词的分析,最终确定检测结果是否确实为家庭住址信息。本发明可以从大量冗长文本中识别出完整的复杂住址,在隐私检测的过程中减少公共地址数据的干扰,更准确地定位到隐私信息。
-
公开(公告)号:CN109299469B
公开(公告)日:2023-05-02
申请号:CN201811266619.1
申请日:2018-10-29
Applicant: 复旦大学
IPC: G06F40/295 , G06F40/242
Abstract: 本发明属于数据识别技术领域,具体为一种在长文本中识别复杂住址的方法。本发明包括:采用双数组Trie树构建全国小区名的词典;以基于感知机的中文分词和词性标注模型对长文本数据进行分词与标注;利用分词和词性标注结果,生成粗分词网;进行小区名匹配,更新词网,然后采用最长模式匹配,在长文本中匹配出最长的地址信息,并更新词网;通过维特比算法对词网进行最优路径求解,得到对长文本的最优分词与识别结果,其中包括需要进行上下文分析的完整复杂住址;通过对地址信息的上下文进行正面和负面特征词的分析,最终确定检测结果是否确实为家庭住址信息。本发明可以从大量冗长文本中识别出完整的复杂住址,在隐私检测的过程中减少公共地址数据的干扰,更准确地定位到隐私信息。
-
公开(公告)号:CN109582861A
公开(公告)日:2019-04-05
申请号:CN201811266894.3
申请日:2018-10-29
Applicant: 复旦大学
IPC: G06F16/9535 , G06F17/27 , G06F21/62
Abstract: 本发明属于数据识别技术领域,具体为一种数据隐私信息检测系统。本发明包括四个模块:数据预处理模块、隐私检测模块、文本分析模块和检测结果生成模块;本发明通过对数据集进行扫描和检测,并对检测结果进行文本分析,最终形成数据的隐私信息检测报告,帮助数据拥有者与数据使用者在满足法律约束的前提下更好地进行数据的共享与分析。本发明的优点在于能够自动识别多种法律法规定义的隐私数据,并基于上下文信息提高检测的准确性。同时本发明提供基于规则的隐私信息定义,帮助使用者在复杂的数据环境中准确自动定位隐私数据。
-
公开(公告)号:CN109582861B
公开(公告)日:2023-04-07
申请号:CN201811266894.3
申请日:2018-10-29
Applicant: 复旦大学
IPC: G06F16/9535 , G06F40/289 , G06F21/62
Abstract: 本发明属于数据识别技术领域,具体为一种数据隐私信息检测系统。本发明包括四个模块:数据预处理模块、隐私检测模块、文本分析模块和检测结果生成模块;本发明通过对数据集进行扫描和检测,并对检测结果进行文本分析,最终形成数据的隐私信息检测报告,帮助数据拥有者与数据使用者在满足法律约束的前提下更好地进行数据的共享与分析。本发明的优点在于能够自动识别多种法律法规定义的隐私数据,并基于上下文信息提高检测的准确性。同时本发明提供基于规则的隐私信息定义,帮助使用者在复杂的数据环境中准确自动定位隐私数据。
-
公开(公告)号:CN110175327A
公开(公告)日:2019-08-27
申请号:CN201910391042.5
申请日:2019-05-11
Applicant: 复旦大学
Abstract: 本发明属于数据安全技术领域,具体为一种基于隐私信息检测的数据隐私性量化评估方法。本发明包括四个步骤:确定隐私实体所属关系、构造隐私实体集、实体集敏感性及可识别性计算、以及数据集隐私性量化评估。本发明利用数据集中检测到的隐私实体基本信息,通过实体之间的文本距离构建隐私实体集,并根据预先定义的隐私实体敏感性与可识别性分值,计算出整个数据集的隐私性量化结果。本发明的优点在于:方法具有良好的普适性,可应用于不同领域的数据集隐私性量化评估;本方法给出的量化结果可以直观展示数据集隐私泄露的严重程度,对于使用同一评估标准的两个不同数据集,可以通过直接比较其量化结果高低从而比较隐私泄露的严重性。
-
-
-
-