-
公开(公告)号:CN118211038A
公开(公告)日:2024-06-18
申请号:CN202410632459.7
申请日:2024-05-21
Applicant: 中电科大数据研究院有限公司
IPC: G06F18/20 , G06F18/213 , G06F18/26 , G06F16/31 , G06F16/35 , G06F40/216 , G06F40/289 , G06F40/284 , G06F18/2135 , G06F18/23213
Abstract: 本申请公开了一种多维数据处理分析方法、装置、系统及存储介质。本申请方法包括:通过预先配置的数据接口获取多源异构的业务数据;对非结构化业务数据中进行特征提取,形成文本数据集;遍历文本数据集,构建出TF‑IDF向量矩阵;构建球树索引空间;对所有的数据点执行基于密度的聚类,得到多个聚类簇;以一个聚类簇为一个项构建候选1‑项集;筛选出不小于第一支持度阈值的项,得到频繁1‑项集,频繁1‑项集中的每一项由一个聚类簇构成;基于上述方式,构建频繁n‑项集,直至无法构建出n+1的频繁项集;基于所生成的所有频繁项集,确定出符合预设置信度的项,并输出关联规则。
-
公开(公告)号:CN116028821B
公开(公告)日:2023-06-13
申请号:CN202310314738.4
申请日:2023-03-29
Applicant: 中电科大数据研究院有限公司
IPC: G06F18/214 , G06F18/22 , G06F40/284
Abstract: 本发明提供融合领域知识的预训练模型训练方法、数据处理方法,服务器在判断接收到模型处理请求和目标领域样本集后,调取数据库中与每个第一预训练模型所对应的第一领域样本集;得到多个第一领域样本集与目标领域样本集的样本集相似度系数,将相似度系数最高的或次高的第一领域样本集作为第二领域样本集;确定与第二训练样本不同的目标训练样本,基于所确定的目标训练样本生成差异样本集;将第二领域样本集所对应的第一预训练模型作为第二预训练模型,控制第二预训练模型对所述差异训练语句进行分词处理得到至少一个训练词语,将槽位与训练语句的对应关系以及相应的槽位模板对应存储,得到最终模型。
-
公开(公告)号:CN116028821A
公开(公告)日:2023-04-28
申请号:CN202310314738.4
申请日:2023-03-29
Applicant: 中电科大数据研究院有限公司
IPC: G06F18/214 , G06F18/22 , G06F40/284
Abstract: 本发明提供融合领域知识的预训练模型训练方法、数据处理方法,服务器在判断接收到模型处理请求和目标领域样本集后,调取数据库中与每个第一预训练模型所对应的第一领域样本集;得到多个第一领域样本集与目标领域样本集的样本集相似度系数,将相似度系数最高的或次高的第一领域样本集作为第二领域样本集;确定与第二训练样本不同的目标训练样本,基于所确定的目标训练样本生成差异样本集;将第二领域样本集所对应的第一预训练模型作为第二预训练模型,控制第二预训练模型对所述差异训练语句进行分词处理得到至少一个训练词语,将槽位与训练语句的对应关系以及相应的槽位模板对应存储,得到最终模型。
-
公开(公告)号:CN118468344A
公开(公告)日:2024-08-09
申请号:CN202410922143.1
申请日:2024-07-10
Applicant: 中电科大数据研究院有限公司
Abstract: 本发明提供一种提升联邦学习隐私安全的方法及系统,该方法包括:共识节点接收各医疗机构发送的基于本地医疗数据训练得到的梯度密文;对接收的各医疗机构的梯度密文进行验证聚合,生成更新模型;将更新模型上传至区块链网络。利用本发明方案,可以保证医疗数据的安全性,无需可信的中央服务器进行协调即可实现安全建模,避免了由于中央服务器遭受攻击或者瘫痪导致训练效率低下的问题。同时,可以实现对模型全生命周期保护。
-
公开(公告)号:CN117952983A
公开(公告)日:2024-04-30
申请号:CN202410354357.3
申请日:2024-03-27
Applicant: 中电科大数据研究院有限公司
Inventor: 余楷 , 严梦琪 , 申林 , 夏道勋 , 武晓 , 梁正华 , 潘文杰 , 冯夫健 , 余正涛 , 秦舒浩 , 郭红建 , 邹蕾 , 赵林畅 , 黄于欣 , 肖书芹 , 谢真强 , 董厚泽 , 代杨 , 苑建坤 , 孙丽娟 , 吴越 , 陶政坪 , 石睿 , 张燕 , 阳显斌 , 涂永高 , 韦克苏 , 郭宗余 , 李德仑 , 赵宇航 , 武圣江 , 郭宗智 , 王庄仆 , 林辉 , 李珂 , 龙兰艳 , 禹冰雪 , 陶政鹏
IPC: G06T7/00 , G06V10/40 , G06V10/80 , G06V10/82 , G06V10/764 , G06V10/74 , G06N3/0455 , G06N3/0464 , G06N3/082
Abstract: 本申请公开了一种基于人工智能的智能制造生产过程监控方法和系统,用于提高在产品制造生产过程的效率。本申请包括:获取产品加工实时图像和深度学习生产过程监控模型;将产品加工实时图像输入产品缺陷检测卷积模型,生成产品缺陷概率;当产品缺陷概率表示目标产品存在缺陷时,获取已使用的刀具对应的刀具实时图像、刀具初始图像和刀具缺陷图像;将刀具缺陷图像输入第一缺陷特征提取卷积模型,生成刀具缺陷特征集合;将刀具缺陷特征集合作为缺陷增强标签和刀具实时图像输入第一生成器进行缺陷特征融合,生成重构图像;将重构图像与刀具初始图像输入刀具缺陷检测卷积模型,生成刀具缺陷分布概率;根据刀具缺陷分布概率生成刀具状态结果。
-
公开(公告)号:CN116842099B
公开(公告)日:2024-03-19
申请号:CN202310517767.0
申请日:2023-05-09
Applicant: 中电科大数据研究院有限公司
IPC: G06F16/27 , G06F16/36 , G06F16/2455 , G06F16/2457 , G06N5/01 , G06N5/02 , G06F18/22 , G06F18/2433 , G06F18/25
Abstract: 本发明涉及信息处理领域,公开了一种多源异构数据处理方法和系统,通过配置服务器群包括元服务器,数据服务器,关系服务器及控制器;通过关系服务器根据历史知识图谱和词典数据的信息,将元数据归属于不同的主题下,通过构建主题之间的逻辑关联关系,对获取到的数据做清洗;借助于控制器和用户的反馈机制,通过触发验证机制,预先在数据服务器中对数据源做标引,执行数据信息的可信度评估并做约束控制,有效保障异构数据处理的效率和便捷。
-
公开(公告)号:CN116842099A
公开(公告)日:2023-10-03
申请号:CN202310517767.0
申请日:2023-05-09
Applicant: 中电科大数据研究院有限公司
IPC: G06F16/27 , G06F16/36 , G06F16/2455 , G06F16/2457 , G06N5/01 , G06N5/02 , G06F18/22 , G06F18/2433 , G06F18/25
Abstract: 本发明涉及信息处理领域,公开了一种多源异构数据处理方法和系统,通过配置服务器群包括元服务器,数据服务器,关系服务器及控制器;通过关系服务器根据历史知识图谱和词典数据的信息,将元数据归属于不同的主题下,通过构建主题之间的逻辑关联关系,对获取到的数据做清洗;借助于控制器和用户的反馈机制,通过触发验证机制,预先在数据服务器中对数据源做标引,执行数据信息的可信度评估并做约束控制,有效保障异构数据处理的效率和便捷。
-
公开(公告)号:CN119067099B
公开(公告)日:2025-01-28
申请号:CN202411562260.8
申请日:2024-11-05
Applicant: 中电科大数据研究院有限公司 , 中国电子科技集团公司第十五研究所
IPC: G06F40/216 , G06F40/279 , G06F40/247
Abstract: 本发明提供一种用户潜在偏好挖掘方法及装置,所述方法包括:对获取到的用户文本数据进行预处理,得到句子集合S和词语集合W;基于所述词语集合W中的高频词,生成多个词语关联图;基于所述多个词语关联图以及所述句子集合S,确定低频候选词;将所述低频候选词添加到所述多个词语关联图;基于所述低频候选词与每一高频词之间的共现率,确定潜在偏好事件。本发明提供的用户潜在偏好挖掘方法及装置,在用户意图中挖掘用户的潜在兴趣,寻找出与用户意图有所关联但距离较远的优秀资源,挖掘与用户兴趣关联较差、距离较远的经典精华资源,满足用户的潜在兴趣,并分析隐性关联,从而为用户制造多样性和新颖性,更进一步解决大数据资源中的长尾问题。
-
公开(公告)号:CN119067099A
公开(公告)日:2024-12-03
申请号:CN202411562260.8
申请日:2024-11-05
Applicant: 中电科大数据研究院有限公司 , 中国电子科技集团公司第十五研究所
IPC: G06F40/216 , G06F40/279 , G06F40/247
Abstract: 本发明提供一种用户潜在偏好挖掘方法及装置,所述方法包括:对获取到的用户文本数据进行预处理,得到句子集合S和词语集合W;基于所述词语集合W中的高频词,生成多个词语关联图;基于所述多个词语关联图以及所述句子集合S,确定低频候选词;将所述低频候选词添加到所述多个词语关联图;基于所述低频候选词与每一高频词之间的共现率,确定潜在偏好事件。本发明提供的用户潜在偏好挖掘方法及装置,在用户意图中挖掘用户的潜在兴趣,寻找出与用户意图有所关联但距离较远的优秀资源,挖掘与用户兴趣关联较差、距离较远的经典精华资源,满足用户的潜在兴趣,并分析隐性关联,从而为用户制造多样性和新颖性,更进一步解决大数据资源中的长尾问题。
-
公开(公告)号:CN119003920A
公开(公告)日:2024-11-22
申请号:CN202411481452.6
申请日:2024-10-23
Applicant: 中电科大数据研究院有限公司
IPC: G06F16/958 , G06F16/951 , G06N3/042 , G06N3/0464
Abstract: 本申请公开了一种网页信息分类方法、装置及存储介质,用于信息分类领域。本申请方法包括:使用Python的Scrapy库从目标网页获取网页中的静态数据;使用Selenium自动化工具从目标网页获取网页的动态数据;基于所述静态数据和所述动态数据构建DOM树形结构;使用XLM‑RoBERTa预训练语言模型对已构建DOM树形结构的所述静态数据和所述动态数据进行向量化,转化为数值向量;将DOM树形结构转换为图结构,并将数值向量输入卷积图神经网络模型中,通过卷积图神经网络模型对图结构进行编码,生成特征向量;将所述特征向量输入预配置的分类模型中进行计算,通过预配置的分类模型对所述静态数据和所述动态数据进行分类。
-
-
-
-
-
-
-
-
-