-
公开(公告)号:CN116028591A
公开(公告)日:2023-04-28
申请号:CN202111243089.0
申请日:2021-10-25
Applicant: 中移信息技术有限公司 , 中国移动通信集团有限公司
IPC: G06F16/33 , G06F40/216 , G06F40/284
Abstract: 本申请提供文本的去重方法、装置、设备、及程序产品,涉及大数据处理技术领域。所述文本的去重方法包括:分别对若干待去重文本的关键词进行映射,得到若干待去重文本的关键词向量序列;基于待去重文本的关键词向量序列,利用旋转扭词距离下界算法筛选若干符合第一预设条件的待去重文本;基于符合第一预设条件的待去重文本的关键词向量序列,利用旋转扭词距离算法得到若干符合第一预设条件的待去重文本之间的相似度,根据相似度的高低实现符合第一预设条件的待去重文本的重合去重。本申请提供的文本的去重方法,结合粗略筛选和精确查重,可以先筛选出明显不相似的待去重文本,从源头降低处理成本,为后续步骤降低技术难度,有效提高去重效率。
-
公开(公告)号:CN115827870A
公开(公告)日:2023-03-21
申请号:CN202211676761.X
申请日:2022-12-26
Applicant: 中移信息技术有限公司 , 中国移动通信集团有限公司
Abstract: 本申请公开了一种数据处理方法、装置、设备及存储介质。该方法包括获取包括N种类型的资源的待识别资源和待识别资源的资源信息;将待识别资源和资源信息输入敏感数据识别模型,通过敏感数据识别模型对待识别资源进行特征抽取,得到N种类型的资源的隐藏特征;根据N种类型的资源的隐藏特征中任意两种类型的资源的隐藏特征,计算任意两种类型中每种类型的资源的注意力隐藏特征;基于N种类型的资源的注意力隐藏特征,从敏感数据识别模型中输出待识别资源的识别结果。如此,既可以识别到资源中的文本敏感数据,也可以识别到非文本敏感数据,在提高识别资源类型的同时,还可以提高敏感数据的识别效率。
-