一种基于RLHF的大语言模型生成内容隐私保护的方法

    公开(公告)号:CN119830350A

    公开(公告)日:2025-04-15

    申请号:CN202510300832.3

    申请日:2025-03-14

    Abstract: 本发明公开了一种基于RLHF的大语言模型生成内容隐私保护的方法,包括以下步骤:基于有监督的指令微调训练基座模型作为指令微调模型;将原始的奖励模型拆解成效益模型和成本模型;扩展成本模型的偏好理解;基于包含多维评分和多维权重的数据集训练评分模型;基于加权分数与Bradley‑Terry偏好模型改进传统偏好概率计算公式;通过多维分数与后悔理论构建人类隐私偏好概率计算方法;训练效益模型和成本模型;基于效益模型和成本模型结合人类隐私偏好概率计算方法优化训练指令微调模型。本发明能够自适应、动态地识别并规避潜在的敏感信息,从而实现高效且精准的隐私保护,同时有效避免了传统隐私保护方法中常见的性能下降问题。

    一种基于词典的文本蕴含式生物医学命名实体识别方法

    公开(公告)号:CN117272997A

    公开(公告)日:2023-12-22

    申请号:CN202311018938.1

    申请日:2023-08-14

    Abstract: 本发明公开了一种基于词典的文本蕴含式生物医学命名实体识别方法,该法首先从词典中收集包含实体名称和实体类型的实体词典,作为真实标签。其次对输入的句子构建对应的文本蕴含对,并通过设定负样本例/正样本例的比率以控制负蕴含对的采样数量。然后构建蕴含编码器,对输入的蕴含对进行编码,并结合动态对比学习方法进行模型训练。最后预测输入的语句时,模型将所有正的蕴含对识别为实体,如果有子序列具有多个不同实体类型的正蕴含对,则把相似度最高的标签作为最终标签。本发明可以在没有完整标注的情况下缓解噪声标签问题,能从预训练的文本蕴含模型中迁移知识,并对命名实体进行精确的识别。

    一种基于CGAN的均匀样本生成的数据提取方法

    公开(公告)号:CN117195967A

    公开(公告)日:2023-12-08

    申请号:CN202311171485.6

    申请日:2023-09-12

    Abstract: 本发明公开了一种基于CGAN的均匀样本生成的数据提取方法,使用均匀采样生成类标签l,然后从高斯分布中采样向量z,将l和z组合输入到CGAN,使用CGAN生成图像x,然后将x输入到目标模型中得到目标模型的输出,接着使用(x,V(x))标签对来训练替代模型,得到替代模型的输出C,最后通过交叉熵损失函数比较目标模型和替代模型的(V(x),C(x))差异以及(l,V(x))差异,反向传播梯度更新生成器CGAN。待CGAN循环训练一定轮次后,即(l,V(x))的损失几乎不改变的时候,使用CGAN生成图像单独训练替代模型直到达到最优替代模型,本发明利用基于条件生成对抗网络(CGAN)的均衡样本生成器来生成类别平衡的伪造数据集,以减少类别不平衡现象并提高模型提取的效率。

    一种基于贡献感知的聚类联邦学习方法

    公开(公告)号:CN116796204A

    公开(公告)日:2023-09-22

    申请号:CN202310161629.3

    申请日:2023-02-24

    Abstract: 本发明公开了一种基于贡献感知的聚类联邦学习方法,包括如下步骤:步骤1.参数服务器初始化;步骤2.客户端更新本地模型的参数;步骤3.客户端根据更新参数在本地数据集上训练n轮次,本地的梯度上传至参数服务器;步骤4.判断是否需要贡献评估,若需要贡献评估,则进入步骤5,否则进入步骤6;步骤5.服务器对客户端上传的参数计算近似沙普利值,并将沙普利值作为每个客户端贡献的量化指标;步骤6.服务器判断联邦系统是否完成训练,若完成训练,则进入步骤7输出最终预测模型;步骤7.联邦训练结束,输出最终预测模型。该方法可以在不违背联邦学习数据安全范式下进行贡献评估和协作训练,提高联邦系统的准确率和激励优质客户端。

    一种基于图结构和特征的自适应防御方法

    公开(公告)号:CN114708479B

    公开(公告)日:2023-08-29

    申请号:CN202210342978.0

    申请日:2022-03-31

    Abstract: 本发明公开了一种基于图结构和特征的自适应防御方法。目前已经有很多对抗训练、注意力机制、去噪网络等方法来提高图神经网络模型的防御能力,但是当前GCN模型倾向于保持结构相似性而不是特征相似性的问题。本发明包含了三部分的内容:基于Attention机制进行原始图和特征图的训练,自适应平衡图结构和特征的信息;基于权重学习思想进行辅助模型的训练获取不同特征的权重进行消息聚合,考虑了不同特征的不同重要性;利用特征信息单独训练获取不依赖结构信息的结果,并采用对比学习和标签平滑方法提高模型性能。通过本发明提供的平衡图结构和特征的防御方法,可以有效的利用两方面信息提升图神经网络模型的防御能力。

    一种用于分布式工作流系统的任务分组调度方法

    公开(公告)号:CN114385337A

    公开(公告)日:2022-04-22

    申请号:CN202210020680.8

    申请日:2022-01-10

    Abstract: 本发明公开了一种用于分布式工作流系统的任务分组调度方法,以实现复杂工作流地有效预处理以及工作流任务地合理调度。本发明首先对记录工作流信息的工作流图进行分析,计算出每个任务的累计工作量;其次,找出累计工作量最大的关键任务组然后再对剩余任务节点进行分组;随后,根据分组数据对任务组进行分配;最后,对于运行任务产生偏差或是新增的运行资源采用一种基于任务复制的负载均衡策略,进一步加强了调度方法整体稳定性。

    一种基于知识边界的动态数据选择方法

    公开(公告)号:CN119849508A

    公开(公告)日:2025-04-18

    申请号:CN202510316782.8

    申请日:2025-03-18

    Abstract: 本发明公开了一种基于知识边界的动态数据选择方法,包括如下步骤:S1、基于基准大模型将初始数据划分为边界样本和典型样本;S2、基于基准大模型对所有的样本数据进行编码;S3、对编码后的数据进行贡献度降维;S4、设定选择两种样本数据的数量以及比例;S5、分别从典型样本和边界样本中抽取数据样本;S6、将两种数据样本进行合并得到种子数据;S7、使用种子数据对基准大模型进行微调,并验证微调后的模型对任务的表现;S8、更改S4中边界样本和典型样本的数量或者比例,重复执行S5至S7,得到的最好的表现结果即为高质量数据。本发明提高了高质量数据选择的效率和有效性,并减轻了高维空间带给数据度量的负面影响。

    一种基于三元时空众包高公平性的任务分配方法

    公开(公告)号:CN116976783A

    公开(公告)日:2023-10-31

    申请号:CN202310939332.5

    申请日:2023-07-28

    Abstract: 本发明一种基于三元时空众包高公平性的任务分配方法。本发明首先定义了公平性时空众包;其次由于本发明针对的是物品配送问题,工人可以一次性接收多个任务,采用路径规划算法为工人寻找一条花费路费最少的配送路线;接着确定报酬和利润的计算公式;然后预处理数据:利用约束条件,为任务筛选出候选工人集和地点集;为工人筛选出候选任务集;最后使用贪婪算法实现任务分配,得到局部最优解;用最佳阈值算法进一步增大整体利润;根据预处理得到的数据确定工人的策略集合,利用博弈算法,使得每个工人在不与其他工人发生策略冲突的情况下选择最优策略,本发明在整体利润和响应时间方面都优于其他方法,也提高了公平性,从而促进众包服务质量的提高。

    一种基于智能合约最大化系统获利的边缘节点分配方法

    公开(公告)号:CN115328650B

    公开(公告)日:2023-08-25

    申请号:CN202210963665.7

    申请日:2022-08-11

    Abstract: 本发明公开了一种基于智能合约最大化系统获利的边缘节点分配方法。本发明首先设计了一种基于智能合约的匹配机制,根据每一个ECN的计算频率、不同DSO对于ECN计算能力与信任度的相应偏好值,将ECN与DSO进行匹配。其次,本发明提出了一种基于智能合约的改进的双向拍卖机制,在系统中上传UT的竞价矩阵后,通过对已有的要价矩阵和竞价矩阵内元素进行序列化处理,在可信任的双向拍卖机制下,不断迭代更新序列中的利益最大值来完成DSO与UT的双向匹配。本发明依据智能合约可以实现网络实体之间的自动高效交易,以及大化系统获利。

Patent Agency Ranking