-
公开(公告)号:CN117313160A
公开(公告)日:2023-12-29
申请号:CN202311553385.X
申请日:2023-11-21
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
Abstract: 本发明提供了一种隐私增强的结构化数据仿真生成方法及系统,该方法包括:步骤一,数据转换阶段:对数据进行规范化预处理;步骤二,概率图模型构建阶段:基于贝叶斯形式对所述步骤一进行规范化预处理的数据构建变分推断的后验分布,利用斯坦因变分梯度下降方法得到描述结构化数据特征间的关联关系,在引入差分隐私噪声时,采用蒙特卡洛估计算法自动获得每步更新所需添加的噪声量;步骤三,数据生成阶段:将所述步骤二得到的关联关系作为度量集合,生成与真实数据更加精确的仿真数据。本发明的有益效果是:本发明方法避免了在应用DP‑SGD时对梯度进行剪裁,不仅避免了剪裁参数的选择,而且缓解了梯度剪裁对推断过程的不利影响。
-
公开(公告)号:CN117236420A
公开(公告)日:2023-12-15
申请号:CN202311509786.5
申请日:2023-11-14
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06N3/098 , G06F18/2113 , G06F18/214 , G06F18/2433 , G06F18/27 , G06F21/60 , G06F21/62 , G06Q40/03 , H04L9/08
Abstract: 本发明公开了一种基于数据子集的纵向联邦学习异常数据调试方法及系统,包括:发起方基于纵向联邦学习建模并进行联邦模型训练;利用训练后的联邦模型获取数据集中的问题数据子集,问题数据子集在联邦模型中的预测准确率低于其他数据子集在联邦模型中的预测准确率;对问题数据子集进行基于特征描述组合的筛选,获取带有异常描述的问题数据子集;发起方或参与方基于带有异常描述的问题数据子集进行数据溯源和纠正,并在纠正后重新训练联邦模型。本发明为隐私保护的联邦数据子集评估技术,在保证数据隐私下对联邦数据子集评估指标进行正确计算,形成基于数据子集的联邦学习调试方法,自动化定位异常数据,解决联邦学习模型表现异常的问题。
-
公开(公告)号:CN115600012B
公开(公告)日:2023-04-21
申请号:CN202211523157.3
申请日:2022-12-01
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06F16/9535 , G06F8/75 , G06F18/214 , G06N3/0464 , G06N3/08
Abstract: 本发明提供了一种基于知识增强和结构对比的API推荐方法,包括以下步骤:步骤1,代码预处理构图;解析源代码,提取方法、API和结构节点以及它们之间的关系,构成调用关系图和层次结构图;步骤2,知识增强的图嵌入学习;使用图卷积神经网络GCN在调用关系图上传播信息来细化方法和API的初始嵌入表示,同时用翻译模型TransH学习层次结构图中的实体和关系的嵌入表示;步骤3,多任务学习;包括主要的API推荐任务和辅助的对比学习任务。本发明的有益效果是:本发明提出了知识增强的图嵌入学习,使得方法和API的嵌入向量中不仅建模了调用交互还融合了代码中的层次结构信息,优化了方法和API的表示,达到更准确的推荐效果。
-
公开(公告)号:CN115270139B
公开(公告)日:2023-01-17
申请号:CN202211145369.2
申请日:2022-09-20
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
Abstract: 本发明提供了一种IoT设备网络服务自动化漏洞分析方法及系统,系统包括静态分析模块、模糊测试模块、固件运行模块,静态分析模块用于对固件进行静态分析,提取所有能进入后端处理的网络接口名称、各接口对应的参数名称以及参数的魔法值约束取值;模糊测试模块使用静态分析模块获得的网络接口、参数信息指导模糊测试种子及测试样例生成,并完成对目标IoT设备的模糊测试,生成漏洞报告;固件运行模块用于将目标固件运行起来,为模糊测试提供测试对象。本发明的有益效果是:生成的模糊测试种子能够有效触达后端处理程序逻辑,保障进入IoT设备最重要的途径的安全。对种子调度优化也能使整体测试效率得到提高。
-
公开(公告)号:CN115169252B
公开(公告)日:2022-12-13
申请号:CN202211086686.1
申请日:2022-09-07
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
Abstract: 本发明公开了一种结构化仿真数据生成系统及生成方法,所述系统包括数据预处理单元以及训练和生成单元,所述数据预处理单元用于将原始数据中的每个样本转换成向量表示,并且在转换的过程中建模贝叶斯网络用以描述特征间的关联关系;所述训练和生成单元利用原始数据转换后的向量表示进行训练,得到仿真数据生成模型,利用所述仿真数据生成模型生成仿真数据记录。本发明系统和方法能够同时生成含有连续型特征和离散型特征的仿真数据记录;针对生成仿真数据,既保持了与原始数据一致的数据分布,也保证了与原始数据一致的特征间关联关系;同时提出一种根据所需条件生成仿真数据的方法,能够根据不同的仿真数据应用场景生成分析所需的仿真数据记录。
-
公开(公告)号:CN115270139A
公开(公告)日:2022-11-01
申请号:CN202211145369.2
申请日:2022-09-20
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
Abstract: 本发明提供了一种IoT设备网络服务自动化漏洞分析方法及系统,系统包括静态分析模块、模糊测试模块、固件运行模块,静态分析模块用于对固件进行静态分析,提取所有能进入后端处理的网络接口名称、各接口对应的参数名称以及参数的魔法值约束取值;模糊测试模块使用静态分析模块获得的网络接口、参数信息指导模糊测试种子及测试样例生成,并完成对目标IoT设备的模糊测试,生成漏洞报告;固件运行模块用于将目标固件运行起来,为模糊测试提供测试对象。本发明的有益效果是:生成的模糊测试种子能够有效触达后端处理程序逻辑,保障进入IoT设备最重要的途径的安全。对种子调度优化也能使整体测试效率得到提高。
-
公开(公告)号:CN115017184A
公开(公告)日:2022-09-06
申请号:CN202210952830.9
申请日:2022-08-10
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06F16/242 , G06F16/2458 , G06F16/28 , G06F21/62
Abstract: 本发明实施例公开了一种数据查询方法。通过获取安全查询工作台输入的安全查询SQL语句;解析所述安全查询SQL语句,以获取数据参与方ID以及各个数据参与方的任务调度信息,并将各个数据参与方的任务调度信息分别分发至相应的数据参与方;接收各个数据参与方反馈的加密中间计算结果,并聚合为安全分析结果显示于所述安全查询工作台,不仅避免了多方数据持有方的原始数据泄露以及被二次分发的风险,还实现了对多方数据持有方的数据进行深度挖掘的效果。
-
公开(公告)号:CN113987522B
公开(公告)日:2022-05-03
申请号:CN202111637333.1
申请日:2021-12-30
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
Abstract: 本发明公开了一种用于源代码漏洞检测的代码属性图压缩方法及装置,所述方法包括如下步骤:根据代码属性图计算基于前K跳邻居的节点邻域信息增益;对节点邻域信息增益进行局部归一化处理;选择归一化处理后的节点邻域信息增益低的节点组成候选删除节点集合,判断候选删除节点集合中是否存在割点,并将割点从候选删除节点集合中移除,最终得到删除节点集合;从代码属性图中去掉删除节点集合中的节点以及与节点相连的边,得到代码属性压缩图。本发明通过计算节点的前K跳邻居增益信息,选择增益信息低的节点进行删除同时保证压缩图的连通性,在尽可能保持代码属性图的节点属性和结构特征的情况下降低其复杂度,从而提高后续模型训练的时空效率。
-
公开(公告)号:CN113918743B
公开(公告)日:2022-04-15
申请号:CN202111526779.7
申请日:2021-12-15
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06F16/51 , G06F16/54 , G06V10/774 , G06V10/764 , G06K9/62
Abstract: 本发明提供了一种面向长尾分布场景下图片分类的模型训练方法,包括:构建第一损失函数,用于加入原型归一化以及角域上与类别数量相关的带有边界的交叉熵分类损失;构建第二损失函数,使得各个类别的原型分散的更加均匀的,与类别数量相关最小角度最大化的正则项损失;构建第三损失函数,用于帮助模型有效训练的特征向量模长大小的正则化损失;将第一损失函数、第二损失函数、第三损失函数组合起来得到最终的损失函数Loss。本发明的有益效果是:本发明可以避免训练数据不均衡带来的模型先验偏差的问题以及进一步提升模型在测试集上的泛化性,从而在长尾分布场景下提升图片分类准确率。
-
公开(公告)号:CN119248289B
公开(公告)日:2025-05-16
申请号:CN202411775766.7
申请日:2024-12-05
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06F8/41
Abstract: 本发明公开了一种层次化自适应代码生成方法、系统及介质,该方法包括:基于代码token类型预测模块分析待生成代码的上下文,识别下一个待生成token的基本类型,所述基本类型包括基本结构、代码逻辑和高级语义内容;基于解码层自适应选择算法,自动选择适当的模型层进行输出预测;利用三种不同的分类解码策略分别生成属于基本结构、代码逻辑和高级语义内容的token。本发明提高了LLMs在代码生成任务中的可靠性,使模型能够更有效地利用其内在各层次的知识,减少了生成代码的结构性或语义性错误,能有效确保生成代码的逻辑性和可执行性。
-
-
-
-
-
-
-
-
-