-
公开(公告)号:CN118657173B
公开(公告)日:2025-01-14
申请号:CN202411136019.9
申请日:2024-08-19
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06N3/042 , G06N3/045 , G06N3/0495 , G06N3/096 , G06N3/084 , G06F18/241 , G06F40/284
Abstract: 本发明公开了一种知识蒸馏方法和系统,方法包括:获取教师模型在训练集样本上的输出作为软标记训练集;设计学生模型架构和学生模型与教师模型的层对应关系;将训练集或软标记训练集划分为超批次,进行基于主成分分析的第一轮白盒知识蒸馏;进行基于软标记训练集的第二轮黑盒知识蒸馏;测试学生模型性能。本发明利用主成分分析将隐含层大小和架构不同的教师模型和学生模型相互对应,以完成白盒知识蒸馏的方法,使白盒知识蒸馏能被应用在更多学生模型上,便于进一步提高压缩比。本发明蒸馏方法相对白盒知识蒸馏和黑盒知识蒸馏均具有更好的性能。
-
公开(公告)号:CN118626494B
公开(公告)日:2024-11-26
申请号:CN202411046420.3
申请日:2024-08-01
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06F16/22 , G06F40/18 , G06F40/186 , G06F40/117
Abstract: 本发明提供了一种结构化数据洞察生成方法、系统及介质,该方法包括以下步骤:使用对应的表格、问题和答案数据集对开源自然语言模型进行微调后,得到数据定位模型和洞察生成模型;数据定位模型从表格中识别出与问题相关的位置并标注;数据定位模型对表格使用预生成事实的方法从模板中生成相关推理事实;将标注后的表格、问题和生成的推理事实输入到洞察生成模型中,洞察生成模型给出最终的结构化数据洞察。相较现有技术,本发明减少了收集数据时人工标注的压力,提高了模型预测的可解释性和准确率,减少了语言模型在推理(尤其是数值推理)时的模型幻觉问题。
-
公开(公告)号:CN118798821A
公开(公告)日:2024-10-18
申请号:CN202411139998.3
申请日:2024-08-20
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06Q10/10 , G06Q10/0637 , G06Q10/04 , G06Q40/04
Abstract: 本申请涉及大数据大模型技术领域,提供了数据流通交易违规行为处理方法,该方法包括:基于数据流通交易的历史违规行为相关法律文书,构建历史违规行为所属类型对应的证据链;通过监控目标数据流通交易的过程,预测目标数据流通交易所属违规行为的类型;根据目标数据流通交易所属违规行为的类型和历史违规行为所属类型对应的证据链,确定目标数据流通交易的证据相关联的证据类型;根据目标数据流通交易的证据相关联的证据类型,构建目标数据流通交易的证据链;根据目标数据流通交易的证据链计算违规权重并与由具有相同违规行为类型的历史违规行为的证据链计算出的违规权重进行比较,确定目标数据流通交易是否违规。本申请的技术方案可以对数据流通交易过程中的违规行为进行有效判定和溯源。
-
公开(公告)号:CN118657173A
公开(公告)日:2024-09-17
申请号:CN202411136019.9
申请日:2024-08-19
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06N3/042 , G06N3/045 , G06N3/0495 , G06N3/096 , G06N3/084 , G06F18/241 , G06F40/284
Abstract: 本发明公开了一种知识蒸馏方法和系统,方法包括:获取教师模型在训练集样本上的输出作为软标记训练集;设计学生模型架构和学生模型与教师模型的层对应关系;将训练集或软标记训练集划分为超批次,进行基于主成分分析的第一轮白盒知识蒸馏;进行基于软标记训练集的第二轮黑盒知识蒸馏;测试学生模型性能。本发明利用主成分分析将隐含层大小和架构不同的教师模型和学生模型相互对应,以完成白盒知识蒸馏的方法,使白盒知识蒸馏能被应用在更多学生模型上,便于进一步提高压缩比。本发明蒸馏方法相对白盒知识蒸馏和黑盒知识蒸馏均具有更好的性能。
-
公开(公告)号:CN115600012A
公开(公告)日:2023-01-13
申请号:CN202211523157.3
申请日:2022-12-01
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)(CN)
IPC: G06F16/9535 , G06F8/75 , G06F18/214 , G06N3/0464 , G06N3/08
Abstract: 本发明提供了一种基于知识增强和结构对比的API推荐方法,包括以下步骤:步骤1,代码预处理构图;解析源代码,提取方法、API和结构节点以及它们之间的关系,构成调用关系图和层次结构图;步骤2,知识增强的图嵌入学习;使用图卷积神经网络GCN在调用关系图上传播信息来细化方法和API的初始嵌入表示,同时用翻译模型TransH学习层次结构图中的实体和关系的嵌入表示;步骤3,多任务学习;包括主要的API推荐任务和辅助的对比学习任务。本发明的有益效果是:本发明提出了知识增强的图嵌入学习,使得方法和API的嵌入向量中不仅建模了调用交互还融合了代码中的层次结构信息,优化了方法和API的表示,达到更准确的推荐效果。
-
公开(公告)号:CN119622822A
公开(公告)日:2025-03-14
申请号:CN202510161837.2
申请日:2025-02-14
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
Abstract: 本发明提供了一种隐私增强的关系型表格数据仿真生成方法,挖掘链接表L与具有外键关联的单表U、V中高度相关的属性,并将属性与链接表L进行合并,得到k个属性对相应的U、V表中的属性;根据链接表L的外键对应关系,将得到的属性与链接表L进行拼接,得到合并表#imgabs0#,根据链接表L的属性,将合并表#imgabs1#按列切分,得到仿真生成的链接表#imgabs2#;根据链接表#imgabs3#的合成结果,使用马尔科夫随机场模型仿真生成表#imgabs4#;根据链接表#imgabs5#的合成结果,使用马尔科夫随机场模型仿真生成表#imgabs6#。在仿真数据生成时提高仿真数据的效用,确保仿真数据在保护隐私的同时仍能保持其真实性和有效性。
-
公开(公告)号:CN115600765A
公开(公告)日:2023-01-13
申请号:CN202211464011.6
申请日:2022-11-17
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)(CN)
IPC: G06Q10/04 , G06Q50/18 , G06F16/215 , G06F16/29 , G06N3/0464 , G06N3/08 , G01S19/42
Abstract: 基于图神经网络的安全事件预测方法、电子设备及存储介质,属于安全事件风险预测技术领域。为解决个体人员安全事件风险预测的问题。本发明采集人员基本信息数据,GPS时空轨迹数据,进行数据清洗,提取融合图节点特征,得到人员节点特征数据,地点节点特征数据,构建多维人员信息轨迹融合图,构建基于图神经网络的个体安全事件预测模型,将构建的多维人员信息轨迹融合图输入基于图神经网络的个体安全事件预测模型中进行安全事件预测。本发明为分析个体人员安全事件风险提供了融合信息特征,全面立体的挖掘人员自身的特点以及人员活动规律的特点,判断人员近期可能发生安全事件行为的风险是高或者低。
-
公开(公告)号:CN115269939A
公开(公告)日:2022-11-01
申请号:CN202211191349.9
申请日:2022-09-28
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06F16/903
Abstract: 本发明公开了一种正则表达式生成方法、装置、智能终端及计算机存储介质,正则表达式生成方法包括:获取正样本数据和负样本数据;初始化正样本数据获得正则表达式种群;根据正样本数据和负样本数据评估正则表达式种群中正则表达式的适应度;根据适应度最高的正则表达式在正样本数据上进行样本匹配时的精确率,获得正则表达式集合;根据正则表达式集合获得最终正则表达式。本发明可以根据样本数据自动生成正则表达式,不需要人工编写大量的正则表达式,提高正则表达式的生成效率和准确性。
-
公开(公告)号:CN118331995A
公开(公告)日:2024-07-12
申请号:CN202410761162.0
申请日:2024-06-13
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06F16/242 , G06F16/332 , G06F16/31
Abstract: 本申请涉及计算机技术领域,提供了从文本到SQL语句的增强方法、设备和计算机存储介质,该方法包括:对自然语言问题进行优化,得到优化的自然语言问题;基于数据库内容信息和优化的自然语言问题,生成模型的上下文感知提示;将上下文感知提示输入模型,生成与自然语言问题相应的SQL语句;对SQL语句进行评估并将评估结果向模型反馈,直至模型生成的SQL语句合规或生成次数达到预设次数。本申请的技术方案可以使得模型能够生成更精确和合规的SQL语句。
-
公开(公告)号:CN115269939B
公开(公告)日:2023-02-17
申请号:CN202211191349.9
申请日:2022-09-28
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06F16/903
Abstract: 本发明公开了一种正则表达式生成方法、装置、智能终端及计算机存储介质,正则表达式生成方法包括:获取正样本数据和负样本数据;初始化正样本数据获得正则表达式种群;根据正样本数据和负样本数据评估正则表达式种群中正则表达式的适应度;根据适应度最高的正则表达式在正样本数据上进行样本匹配时的精确率,获得正则表达式集合;根据正则表达式集合获得最终正则表达式。本发明可以根据样本数据自动生成正则表达式,不需要人工编写大量的正则表达式,提高正则表达式的生成效率和准确性。
-
-
-
-
-
-
-
-
-