一种基于大模型的敏感数据处理方法、装置及存储介质

    公开(公告)号:CN117272123B

    公开(公告)日:2024-02-27

    申请号:CN202311560860.6

    申请日:2023-11-22

    Abstract: 本申请揭示了一种基于大模型的敏感数据处理方法、装置及存储介质,包括数据采集、模型训练、语义向量映射、向量聚类、敏感等级标识、相似度计算和数据分类。该方法通过训练一个Transformer架构的孪生编码器,将原始数据映射为语义向量集合,并通过向量聚类形成多个语义簇。每个簇被识别并配置相应的敏感等级标识。随着新增数据的出现,这些数据被映射为新增语义向量,并计算与已有簇的相似度。相似度计算和统计用于计算比较特征数值,该特征数值决定了新增数据的敏感等级。这一方法结合了大型模型、向量聚类和半监督学习,以自动处理敏感数据,提高数据的安全性。

    基于大模型的小模型训练方法、装置、系统和存储介质

    公开(公告)号:CN117236409B

    公开(公告)日:2024-02-27

    申请号:CN202311529303.8

    申请日:2023-11-16

    Abstract: 本申请实施例公开了基于大模型的小模型训练方法、装置、系统和存储介质,用于在计算资源与存储空间有限的情况下,在具体的应用场景中提高大模型的应用潜力。本申请实施例小模型训练方法包括:采集目标应用场景的初始样本数据;初始化大模型;将采集到的初始样本数据输入到大模型中,通过generate函数将初始样本数据生成输入文本数据,并将输入文本数据转换为标记序列;使用大模型将标记序列转换为概率分布软标签;将概率分布软标签和对应的输入文本数据进行组合,生成数据集;根据概率分布软标签的维度创建一个循环神经网络模型和损失函数;使用数据集、小模型和损失函数进行训练,生(56)对比文件US 11450225 B1,2022.09.20US 2020387782 A1,2020.12.10US 2022237890 A1,2022.07.28孙璐等.基于自然语言理解的软件产业政策关联性分析技术.电子技术应用.2021,第47卷(第12期),第57-63页.刘文瑶.基于迁移学习的交通标志识别研究.中国优秀硕士学位论文全文数据库 工程科技II辑.2022,(第2期),第C035-171页.Weijiang Fan等.A Framework for MathWord Problem Solving Based on Pre-training Models and Spatial OptimizationStrategies.Computer Supported CooperativeWork and Social Computing.2023,第488-498页.Colin Cherry等.Natural LanguageGeneration for Effective KnowledgeDistillation.Proceedings of the 2ndWorkshop on Deep Learning Approaches forLow-Resource NLP.2019,第202-208页.Chengqiang Lu等.KnowledgeDistillation of Transformer-basedLanguage Models Revisited.arXiv.2022,第1-43页.舒真瀚等.基于知识蒸馏的中文自动语音识别的建模方法.现代计算机.2020,(第8期),第18-22页.

    一种基于大模型的敏感数据处理方法、装置及存储介质

    公开(公告)号:CN117272123A

    公开(公告)日:2023-12-22

    申请号:CN202311560860.6

    申请日:2023-11-22

    Abstract: 本申请揭示了一种基于大模型的敏感数据处理方法、装置及存储介质,包括数据采集、模型训练、语义向量映射、向量聚类、敏感等级标识、相似度计算和数据分类。该方法通过训练一个Transformer架构的孪生编码器,将原始数据映射为语义向量集合,并通过向量聚类形成多个语义簇。每个簇被识别并配置相应的敏感等级标识。随着新增数据的出现,这些数据被映射为新增语义向量,并计算与已有簇的相似度。相似度计算和统计用于计算比较特征数值,该特征数值决定了新增数据的敏感等级。这一方法结合了大型模型、向量聚类和半监督学习,以自动处理敏感数据,提高数据的安全性。

    人员睡觉行为检测方法及系统

    公开(公告)号:CN117115756A

    公开(公告)日:2023-11-24

    申请号:CN202311379545.3

    申请日:2023-10-24

    Abstract: 本发明公开了一种人员睡觉行为检测方法及系统该方法包括:获取待检测人员的视频帧;利用事物检测模型对所述视频帧进行检测,并利用目标关联决策模型对所述事物检测模型输出的检测结果进行决策,确定所述视频帧中是否有人体;在检测到有人体的情况下,利用事物检测模型确定对应所述人体的人体坐标信息,利用目标跟踪模型确定对应所述人体的唯一身份标识,并利用人脸识别模型确定对应所述人体的人脸坐标信息;根据连续多帧确定的人体坐标信息和人脸坐标信息,确定所述待检测人员的行为。利用本发明方案,可以准确识别工作人员的睡觉行为,提高人体睡觉行为的检测精度。

    基于分块加密的数据安全共享方法、装置及系统

    公开(公告)号:CN119210902A

    公开(公告)日:2024-12-27

    申请号:CN202411707270.6

    申请日:2024-11-27

    Abstract: 本发明提供一种基于分块加密的数据安全共享方法、装置及系统,该方法包括:数据中心对数据信息进行分块,对每个数据块进行加密得到数据块密文,将数据块密文上传至云服务器进行存储,并在本地保存分块信息以及目录信息;接收到数据使用方发布的数据需求信息后,根据本地保存的分块信息以及目录信息确定满足需求的待共享数据;对数据使用方进行身份验证、并判断数据使用方的私钥是否合法以及请求数据是否合规;在验证及判断通过后向监管中心发送共享数据请求,以使监管中心利用自己的私钥生成数据共享令牌及签名,并发送给数据使用方。利用本发明方案,可以使数据得到安全可靠的共享。

    一种基于多智能体协同的事件抽取方法、系统及装置

    公开(公告)号:CN119005195B

    公开(公告)日:2024-12-20

    申请号:CN202411481454.5

    申请日:2024-10-23

    Abstract: 本申请公开了一种基于多智能体协同的事件抽取方法、系统及装置。该方法包括:接收非结构化数据,第一智能体调用至少一个第二智能体识别实体及其类型,并将结果存储至信息池中;调用至少一个第三智能体识别触发词及对应的事件类型,并存储至信息池中;解析触发词和事件类型,生成论元角色集合;第四智能体对论元角色进行识别,并将结果存储至信息池中;将非结构化数据切分为句子、段落和篇章等不同粒度的文本单元,生成对应的上下文提示信息Prompt;调用智能体对各粒度文本进行事件识别,融合不同粒度的事件信息,生成最终的事件抽取结果。通过多智能体协同工作,实现了更精确的事件识别与信息整合,提高了事件抽取的准确性和效率。

    一种基于多智能体协同的事件抽取方法、系统及装置

    公开(公告)号:CN119005195A

    公开(公告)日:2024-11-22

    申请号:CN202411481454.5

    申请日:2024-10-23

    Abstract: 本申请公开了一种基于多智能体协同的事件抽取方法、系统及装置。该方法包括:接收非结构化数据,第一智能体调用至少一个第二智能体识别实体及其类型,并将结果存储至信息池中;调用至少一个第三智能体识别触发词及对应的事件类型,并存储至信息池中;解析触发词和事件类型,生成伦元角色集合;第四智能体对伦元角色进行识别,并将结果存储至信息池中;将非结构化数据切分为句子、段落和篇章等不同粒度的文本单元,生成对应的上下文提示信息Prompt;调用智能体对各粒度文本进行事件识别,融合不同粒度的事件信息,生成最终的事件抽取结果。通过多智能体协同工作,实现了更精确的事件识别与信息整合,提高了事件抽取的准确性和效率。

    算法推荐服务的数据管理方法及装置

    公开(公告)号:CN117370673B

    公开(公告)日:2024-02-06

    申请号:CN202311678732.1

    申请日:2023-12-08

    Abstract: 本发明提供一种算法推荐服务的数据管理方法及装置,属于数据处理技术领域,本发明的算法推荐服务的数据管理方法,通过哈希算法将不同的个人基本信息进行加密以实现对个人基本信息的脱敏处理,得到个人信息特征数据,进一步地将个人信息特征数据进行打乱顺序并加密传输至推荐算法应用平台,使用第二区块链来保存索引顺序表并生成目标公钥,可以保证只有推荐算法应用平台能安全地获取索引顺序表以及目标公钥对应的目标私钥来进行数据解密,防止数据在传输过程中被劫持利用,损伤用户利益,降低了数据泄露的风险,保证了数据的安全性。

Patent Agency Ranking