-
公开(公告)号:CN115599288A
公开(公告)日:2023-01-13
申请号:CN202110778061.0
申请日:2021-07-09
Applicant: 中国科学院信息工程研究所(CN)
IPC: G06F3/06
Abstract: 本发明公开一种全局优化的键值存储方法及装置,利用分为记录层和非记录层的数据存储结构GHLSM存储键值对;使用核心数据结构GHmap记录记录层中最新版本的键值对所在的层;核心数据结构GHmap通过在compaction时帮助键值对判断是否已过时需要自我毁灭、及在查询时帮助索引最新版键值对所在的层,从而避免无用数据继续参与后续compaction过程所带来的额外IO开销。本发明可在机械硬盘、固态硬盘等硬件环境下均取得良好效果,有效地提升读、写、范围查询等方面的性能。
-
公开(公告)号:CN117933367A
公开(公告)日:2024-04-26
申请号:CN202410077112.0
申请日:2024-01-19
Applicant: 中国科学院信息工程研究所
IPC: G06N3/098 , G06F18/214 , G06F18/24 , G06F18/27
Abstract: 本发明公开了一种基于注意力机制的联邦学习方法及系统,该系统包括:m个本地节点k和一全局节点。每一本地节点k用于:将本地数据不重叠地划分为训练数据集和验证数据集;在所述训练数据集上对全局模型f(t‑1)进行训练,得到本地模型#imgabs0#其中,t表示联邦训练的迭代轮次;将本地模型#imgabs1#划分为特征映射函数和线性学习器,并基于所述特征映射函数得到所述验证数据集对应的映射数据集后,将所述映射数据集和所述本地模型#imgabs2#对应的权重矩阵#imgabs3#发送至全局节点;全局节点用于基于各本地节点k的映射数据集和权重矩阵#imgabs4#生成全局模型f(t)后,将所述全局模型f(t)分发至每一本地节点k。本发明可以缓解数据异质性带来的性能损失问题。
-
公开(公告)号:CN117933360A
公开(公告)日:2024-04-26
申请号:CN202410077118.8
申请日:2024-01-19
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种基于知识蒸馏和提示工程的模型生成方法及系统,所述方法包括:根据垂域数据集,设计适用于下游任务的训练目标,并根据该训练目标优化基座大模型,得到垂域大模型;将垂域大模型视为教师模型,并根据所述下游任务生成一网络结构作为学生模型;其中,所述学生模型的网络结构规模小于所述垂域大模型;从下游任务数据集中抽取至少一个批量数据作为教师模型和学生模型的输入,并基于提示词工程逐层蒸馏中间特征,以使学生模型与教师模型的中间特征和输出结果对齐后,得到适用于下游任务的小规模模型。本发明能够实现与下游任务实现良好对齐的情况下尽可能地压缩模型规模,提升垂域模型的部署、推理效率。
-
-