-
公开(公告)号:CN119377662A
公开(公告)日:2025-01-28
申请号:CN202411285397.3
申请日:2024-09-13
Applicant: 中国科学院信息工程研究所
IPC: G06F18/214 , G06F18/24 , G06F18/213
Abstract: 本发明涉及一种多样性的语义分布匹配数据压缩方法和系统。该方法包括:在原始数据集上预训练一组模型,得到预训练模型;利用预训练模型提取的语义嵌入将原始数据集中的每个类别建模为高斯分布,其中类中心表示类别的固有特征,协方差矩阵表示类别中实例的语义变化;将合成数据集与原始数据集进行类中心对齐和协方差矩阵对齐;利用多个预训练模型对合成数据集进行优化,通过记忆库存储由先前预训练模型优化的合成数据集的历史类中心;将当前预训练模型优化的合成数据集的类中心与历史类中心进行对齐,得到语义多样化的合成数据集。本发明遵循基于分布匹配的框架,从语义信息的角度出发,充分考虑了语义信息,以增强压缩的合成实例的语义多样性。
-
公开(公告)号:CN118466842A
公开(公告)日:2024-08-09
申请号:CN202410647110.0
申请日:2024-05-23
Applicant: 中国科学院信息工程研究所
IPC: G06F3/06
Abstract: 本发明公开了基于多层布隆过滤器的存储系统及存储方法,属于数据存储技术领域。本发明在RocksDB的基础上增加多层布隆过滤器仓库、布隆过滤器缓冲区,设计根据文件之间的访问频率差异,给访问频率高的文件分配位数更多的布隆过滤器,给访问频率更低的文件分配位数更少的布隆过滤器,从而在不增加原有内存空间占用的情况下,降低布隆过滤器的误判率,提高系统整体的读性能。
-
公开(公告)号:CN118445443A
公开(公告)日:2024-08-06
申请号:CN202410434613.X
申请日:2024-04-11
Applicant: 中国科学院信息工程研究所
IPC: G06F16/532 , G06F16/535 , G06F16/51 , G06F16/55 , G06V10/764 , G06V10/40 , G06V10/774 , G06V10/82 , G06N3/0895 , G06N3/096 , G06N3/0499
Abstract: 本发明公开了一种基于多粒度关系的协同学习半监督哈希方法,其步骤包括:1)构建一骨干网络,包括两个分支:学生网络和教师网络;2)将训练样本输入到学生网络,得到每一训练样本的特征表示和哈希码并将其存储到动态记忆库;3)计算分类损失函数、成对哈希损失函数、实例对比损失、类级对比损失和邻域一致性损失函数,用于优化学生网络;4)根据优化后的学生网络参数更新教师网络的参数;然后将训练样本输入到更新后的教师网络,得到每一训练样本的特征表示和哈希码更新所述动态记忆库;5)重复步骤3)~4)直至学生模型收敛或达到设定条件;6)将一待编码数据输入到最终优化后的学生网络,得到其哈希编码。本发明提高了哈希码的区分度。
-
公开(公告)号:CN113963341B
公开(公告)日:2024-07-19
申请号:CN202111034219.X
申请日:2021-09-03
Applicant: 中国科学院信息工程研究所
IPC: G06V20/62 , G06V10/40 , G06V10/774 , G06V10/764 , G06V10/75 , G06V10/82
Abstract: 本发明公开一种基于多层感知机掩膜解码器的文字检测系统及方法,涉及图像文本检测领域,利用多层感知机掩膜解码器来有效区分不同实例,多层感知机的掩膜解码器取消了权重共享,减小了掩膜分支中的学习混淆问题,同时,由于其全局建模和更多上下文信息的引入,得到预测结果也更为紧致,可以有效区分密集文本。
-
公开(公告)号:CN113963340B
公开(公告)日:2024-07-19
申请号:CN202111026162.9
申请日:2021-09-02
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种基于并行迭代模仿解码的场景文字识别系统及方法,涉及场景图像文本检测识别领域,综合了自回归和非自回归解码的优点,采用一种并行迭代的生成方式,针对不同长度的文本采用固定的迭代次数,并将“简单优先”策略引入到文字识别任务中,并引入一个额外的自回归解码器作为教师网络,使用自回归解码器FFN的输出作为额外的监督信号对并行解码器进行监督学习,并使用模仿学习来辅助并行解码器隐藏层的学习。本发明在多个公开的数据集上达到了最优的准确率,同时与自回归方法相比,速度上有明显的提升。
-
公开(公告)号:CN118259830A
公开(公告)日:2024-06-28
申请号:CN202410292960.3
申请日:2024-03-14
Applicant: 中国科学院信息工程研究所
IPC: G06F3/06 , G06F16/901 , G06F9/50
Abstract: 本发明公开了一种基于非易失性内存的动态图存储方法及装置,涉及计算机领域,在DRAM中建立哈希表;在NVM中预分配顶点数组和每个顶点的后缀比特树的根节点,每个顶点的后缀比特树用来存储该顶点的邻接边,后缀比特树的根节点以数组形式预先统一分配内存,顶点数组中的每个顶点和根节点共享同一个索引;在每个邻接边插入之前,先检查该边的源顶点和目的顶点ID的映射关系是否已保存在哈希表中;如果没有,则采取顶点数组中下一个未使用的位置的索引作为顶点ID的哈希值,并将该顶点ID的映射关系保存到哈希表,同时将该顶点存到顶点数组对应的位置。本发明充分利用NVM可字节寻址、非易失性等特点,支持高性能的图更新及图分析能力。
-
公开(公告)号:CN113626723B
公开(公告)日:2024-06-14
申请号:CN202110777236.6
申请日:2021-07-09
Applicant: 中国科学院信息工程研究所
IPC: G06F16/9536 , G06Q50/00
Abstract: 本发明涉及一种基于表示学习的属性图社区搜索方法和系统。该方法以查询节点为随机游走的起点,使用节点的属性信息和结构信息引导随机游走的跳转,获取节点序列和属性关键词序列;分别对节点序列和属性关键词序列进行节点的表示学习,获得节点的拓扑表示和属性表示,将其结合作为节点表示信息;根据节点之间的相似度对原始图数据进行重构,得到重构图;基于重构图和节点表示信息建立社区模型;以建立的社区模型为指导寻找满足要求的目标社区。本发明降低了计算的规模,表示学习过程更加契合社区搜索关注局部特性的特点,并融入了节点在社区层面的信息,提高了节点特征挖掘的准确度,建立的社区模型兼顾了发现社区的可解释性、质量和效率。
-
公开(公告)号:CN117933360A
公开(公告)日:2024-04-26
申请号:CN202410077118.8
申请日:2024-01-19
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种基于知识蒸馏和提示工程的模型生成方法及系统,所述方法包括:根据垂域数据集,设计适用于下游任务的训练目标,并根据该训练目标优化基座大模型,得到垂域大模型;将垂域大模型视为教师模型,并根据所述下游任务生成一网络结构作为学生模型;其中,所述学生模型的网络结构规模小于所述垂域大模型;从下游任务数据集中抽取至少一个批量数据作为教师模型和学生模型的输入,并基于提示词工程逐层蒸馏中间特征,以使学生模型与教师模型的中间特征和输出结果对齐后,得到适用于下游任务的小规模模型。本发明能够实现与下游任务实现良好对齐的情况下尽可能地压缩模型规模,提升垂域模型的部署、推理效率。
-
公开(公告)号:CN117749641A
公开(公告)日:2024-03-22
申请号:CN202311508882.8
申请日:2023-11-13
Applicant: 中国科学院信息工程研究所
IPC: H04L41/142 , H04L41/147
Abstract: 本发明涉及一种基于子图的符号链路预测方法及系统。该方法包括:对图数据进行预处理操作得到符号图的邻接矩阵;构建基于重要性的子图提取模块,对全局邻居节点进行选取,针对网络中的每一个目标节点对提取子图;构建符号感知的节点标记模块,以目标节点为中心,采用相对距离编码对子图的图结构进行编码,得到表示结构的特征向量,实现邻居信息的知识嵌入;构建自平衡的符号分类模块,将编码的子图输入图神经网络,利用图卷积和图池化操作对子图信息进行特征提取,得到子图表示,通过焦点损失和自剪枝对比损失实现链路的平衡分类;对各模块进行训练以进行符号链路预测。本发明能够克服现有符号链路预测方法的不足,取得更好的符号链路预测效果。
-
公开(公告)号:CN112199717B
公开(公告)日:2024-03-22
申请号:CN202011065611.6
申请日:2020-09-30
Applicant: 中国科学院信息工程研究所
IPC: G06F21/62 , G06N3/0464 , G06N3/0442 , G06N3/045 , G06N3/0895 , G06N20/20
Abstract: 本发明提供一种基于少量公共数据的隐私模型训练方法及电子装置,包括:使用若干训练得到N个神经网络教师模型;将少量的公共数据xi分别输入N个神经网络教师模型,得到各公共数据xi对各标签k的统计投票结果;对各统计投票结果添加噪声,获取满足差分隐私原理的公共数据xi及相应标签;通过大量的随机噪声向量与一预训练判别神经网络,优化对抗生成网络,并生成大量无标注数据;通过满足差分隐私原理的公共数据xi及相应标签、大量无标注数据对预训练的自编码器联合训练学生模型,得到隐私学生模型。本发明只需少量公共数据即可训练一个隐私学生模型,实现对敏感数据的物理隔离和网络隔离,解决了隐私学生模型的精确度不高这一问题。
-
-
-
-
-
-
-
-
-