融合领域知识的预训练模型训练方法、数据处理方法

    公开(公告)号:CN116028821B

    公开(公告)日:2023-06-13

    申请号:CN202310314738.4

    申请日:2023-03-29

    Abstract: 本发明提供融合领域知识的预训练模型训练方法、数据处理方法,服务器在判断接收到模型处理请求和目标领域样本集后,调取数据库中与每个第一预训练模型所对应的第一领域样本集;得到多个第一领域样本集与目标领域样本集的样本集相似度系数,将相似度系数最高的或次高的第一领域样本集作为第二领域样本集;确定与第二训练样本不同的目标训练样本,基于所确定的目标训练样本生成差异样本集;将第二领域样本集所对应的第一预训练模型作为第二预训练模型,控制第二预训练模型对所述差异训练语句进行分词处理得到至少一个训练词语,将槽位与训练语句的对应关系以及相应的槽位模板对应存储,得到最终模型。

    融合领域知识的预训练模型训练方法、数据处理方法

    公开(公告)号:CN116028821A

    公开(公告)日:2023-04-28

    申请号:CN202310314738.4

    申请日:2023-03-29

    Abstract: 本发明提供融合领域知识的预训练模型训练方法、数据处理方法,服务器在判断接收到模型处理请求和目标领域样本集后,调取数据库中与每个第一预训练模型所对应的第一领域样本集;得到多个第一领域样本集与目标领域样本集的样本集相似度系数,将相似度系数最高的或次高的第一领域样本集作为第二领域样本集;确定与第二训练样本不同的目标训练样本,基于所确定的目标训练样本生成差异样本集;将第二领域样本集所对应的第一预训练模型作为第二预训练模型,控制第二预训练模型对所述差异训练语句进行分词处理得到至少一个训练词语,将槽位与训练语句的对应关系以及相应的槽位模板对应存储,得到最终模型。

    提升联邦学习隐私安全的方法及系统

    公开(公告)号:CN118468344A

    公开(公告)日:2024-08-09

    申请号:CN202410922143.1

    申请日:2024-07-10

    Abstract: 本发明提供一种提升联邦学习隐私安全的方法及系统,该方法包括:共识节点接收各医疗机构发送的基于本地医疗数据训练得到的梯度密文;对接收的各医疗机构的梯度密文进行验证聚合,生成更新模型;将更新模型上传至区块链网络。利用本发明方案,可以保证医疗数据的安全性,无需可信的中央服务器进行协调即可实现安全建模,避免了由于中央服务器遭受攻击或者瘫痪导致训练效率低下的问题。同时,可以实现对模型全生命周期保护。

    用户潜在偏好挖掘方法及装置

    公开(公告)号:CN119067099B

    公开(公告)日:2025-01-28

    申请号:CN202411562260.8

    申请日:2024-11-05

    Abstract: 本发明提供一种用户潜在偏好挖掘方法及装置,所述方法包括:对获取到的用户文本数据进行预处理,得到句子集合S和词语集合W;基于所述词语集合W中的高频词,生成多个词语关联图;基于所述多个词语关联图以及所述句子集合S,确定低频候选词;将所述低频候选词添加到所述多个词语关联图;基于所述低频候选词与每一高频词之间的共现率,确定潜在偏好事件。本发明提供的用户潜在偏好挖掘方法及装置,在用户意图中挖掘用户的潜在兴趣,寻找出与用户意图有所关联但距离较远的优秀资源,挖掘与用户兴趣关联较差、距离较远的经典精华资源,满足用户的潜在兴趣,并分析隐性关联,从而为用户制造多样性和新颖性,更进一步解决大数据资源中的长尾问题。

    用户潜在偏好挖掘方法及装置

    公开(公告)号:CN119067099A

    公开(公告)日:2024-12-03

    申请号:CN202411562260.8

    申请日:2024-11-05

    Abstract: 本发明提供一种用户潜在偏好挖掘方法及装置,所述方法包括:对获取到的用户文本数据进行预处理,得到句子集合S和词语集合W;基于所述词语集合W中的高频词,生成多个词语关联图;基于所述多个词语关联图以及所述句子集合S,确定低频候选词;将所述低频候选词添加到所述多个词语关联图;基于所述低频候选词与每一高频词之间的共现率,确定潜在偏好事件。本发明提供的用户潜在偏好挖掘方法及装置,在用户意图中挖掘用户的潜在兴趣,寻找出与用户意图有所关联但距离较远的优秀资源,挖掘与用户兴趣关联较差、距离较远的经典精华资源,满足用户的潜在兴趣,并分析隐性关联,从而为用户制造多样性和新颖性,更进一步解决大数据资源中的长尾问题。

    一种网页信息分类方法、装置及存储介质

    公开(公告)号:CN119003920A

    公开(公告)日:2024-11-22

    申请号:CN202411481452.6

    申请日:2024-10-23

    Abstract: 本申请公开了一种网页信息分类方法、装置及存储介质,用于信息分类领域。本申请方法包括:使用Python的Scrapy库从目标网页获取网页中的静态数据;使用Selenium自动化工具从目标网页获取网页的动态数据;基于所述静态数据和所述动态数据构建DOM树形结构;使用XLM‑RoBERTa预训练语言模型对已构建DOM树形结构的所述静态数据和所述动态数据进行向量化,转化为数值向量;将DOM树形结构转换为图结构,并将数值向量输入卷积图神经网络模型中,通过卷积图神经网络模型对图结构进行编码,生成特征向量;将所述特征向量输入预配置的分类模型中进行计算,通过预配置的分类模型对所述静态数据和所述动态数据进行分类。

Patent Agency Ranking