-
公开(公告)号:CN115035341B
公开(公告)日:2024-09-06
申请号:CN202210679569.X
申请日:2022-06-15
Applicant: 哈尔滨工业大学
IPC: G06V10/764 , G06V10/74 , G06V10/82 , G06N3/045 , G06N3/0464 , G06N3/096
Abstract: 一种自动选择学生模型结构的图像识别知识蒸馏方法,涉及知识蒸馏领域。本发明是为了解决现有的图像识别知识蒸馏方法中学生模型结构固定且复杂以及灵活性差,导致了图像识别精度低的问题。本发明包括:将待预测图片数据集输入分类网络中获得图片类别;分类网络获得方式为:利用图片训练集训练深度卷积神经网络,获得训练好的深度卷积神经网络;建立包含多条可选路径的子模型空间:在深度卷积神经网络的每个阶段中,预设深度、卷积通道形式、卷积通道数都不同的“路径”;根据训练好的卷积神经网络与全局目标函数和分阶段目标函数对子模型空间自动选择获得分类网络。本发明用于深度学习模型的压缩。
-
公开(公告)号:CN118069624A
公开(公告)日:2024-05-24
申请号:CN202410197573.1
申请日:2024-02-22
Applicant: 哈尔滨工业大学
Abstract: 一种多模态社交网络数据的管理方法,属于数据管理技术领域。本发明针对现有社交网络数据的存储选择以及索引推荐依赖人工经验,无法实现最优管理的问题。包括:采集用户基本信息数据、用户关联关系数据和用户发布推文数据作为管理数据建立多模态社交网络数据集;同时获取多模态社交网络数据集的工作负载集;采用特征提取模块进行特征提取,获得特征向量;采用预训练后的管理推荐模型对特征向量进行特征处理,根据特征处理结果判断每个管理数据类型;再基于每个管理数据类型进行存储和索引模式的映射,基于映射结果的概率分布,推荐每个管理数据的最优存储和索引模式,实现社交网络数据的管理。本发明用于多模态数据的存储及索引管理。
-
公开(公告)号:CN117076436A
公开(公告)日:2023-11-17
申请号:CN202310964710.5
申请日:2023-08-02
Applicant: 哈尔滨工业大学
IPC: G06F16/215 , G06F18/24 , G06F18/214
Abstract: 一种变压器油色谱数据的迭代式清洗方法,属于数据清洗技术领域。本发明针对变压器油色谱数据中的劣质数据不能被有效识别并清洗的问题。包括:将原始数据集中的数据分为违反规则数据集和符合规则数据集;采用符合规则数据集对分类器进行预训练;采用分类器计算违反规则数据的违反分数,并选择待修复数据;将待修复数据进行修复后,采用修复后数据对分类器进行再训练并对分类器的模型参数进行再更新,迭代以上的“挑选‑修复‑更新”流程,提升分类器的效果;最后采用训练后的分类器对实际运行数据中的违反规则运行数据进行预测,得到清洗后数据。本发明用于油色谱数据的清洗。
-
公开(公告)号:CN116976564A
公开(公告)日:2023-10-31
申请号:CN202311044601.8
申请日:2023-08-18
Applicant: 哈尔滨工业大学
IPC: G06Q10/063 , G06Q10/04 , G06Q10/0631 , G06Q10/0639 , G06Q10/087 , G06Q10/10 , G06Q10/20 , G06Q30/0201 , G06Q30/0202 , G06Q40/12 , G06Q50/20 , G06Q50/18 , G06N20/00 , G06N3/08 , G06N5/045
Abstract: 基于大模型的智能企业决策方法,属于大数据领域。解决了现有智能企业决策方法决策涉及解决的业务较少不全面、决策模型需要自行构建、运行和部署,导致构建过程复杂、耗时长、决策效率低的问题。本发明方法先收集各种业务需求问题所对应的数据集和决策模型,利用用于数据发现的大模型确定出业务最相关数据集及该业务最相关数据集的多个元特征;搜索与各元特征相关的决策模型,利用自动机器学习策略调优得到最优决策模型;利用最优决策模型对待预测的业务需求问题进行预测,输出与待预测的业务需求问题相关的各种类型的数据。本发明主要用于企业决策。
-
公开(公告)号:CN116522138A
公开(公告)日:2023-08-01
申请号:CN202310441636.9
申请日:2023-04-23
Applicant: 哈尔滨工业大学
IPC: G06F18/214 , G06F18/213 , G06N3/0895
Abstract: 一种基于弱监督集成的多元时间序列异常检测方法及系统,具体涉及一种基于弱监督集成的多元时间序列异常检测方法及系统,为了解决时间序列异常检测方法导致异常检测效果差、准确率低,以及人力成本高,难以适应业务和产品特性变化的问题。它利用不同时间序列异常检测算法检测训练集,得到对应的异常分数,提取训练集中任意两条时间序列的相关性,得到相关性特征,合并每条多元时间序列的异常分数和对应的相关性特征,作为当前多元时间序列的新特征,利用XGBoost算法对每条多元时间序列的新特征进行异常检测,输出对应多元时间序列是否为异常时间序列,得到异常检测器,利用异常检测器直接对多元时间序列进行检测。属于序列异常检测领域。
-
公开(公告)号:CN114640355B
公开(公告)日:2023-04-18
申请号:CN202210326314.5
申请日:2022-03-30
Applicant: 北京诺司时空科技有限公司 , 哈尔滨工业大学
IPC: H03M7/30 , G06F16/174 , G06F16/22 , G06F18/2433
Abstract: 时序数据库的有损压缩及解压缩方法、系统、存储介质、设备,属于数据压缩技术领域。为了解决目前的压缩算法的ΔE选取可能难以适应整个时段的所有数据的问题,本发明所述压缩方法,首先进行离群点检测,然后将离群点单独存储为新的一个文件,记为离群点文件;将剔除离群点后的数据存储为一个文件,记为普通文件;将离群点文件和普通文件同时分别执行有损压缩;对第i段数据压缩后,计算该段压缩误差ei以及误差比动态调整旋转门压缩算法的压缩精度参数ΔEi+1=ΔE×A×Pi,从而实现数据压缩。解压缩的过程中,首先判别数据点是属于普通文件还是离群点文件,分别根据压缩模型进行线性插值。主要用于时序数据库的有损压缩及解压缩。
-
公开(公告)号:CN109543712B
公开(公告)日:2023-04-07
申请号:CN201811200645.4
申请日:2018-10-16
Applicant: 哈尔滨工业大学
IPC: G06F18/231
Abstract: 本发明涉及计算机技术领域,提供一种时态数据集上的实体识别方法。该方法主要包括以下步骤:S1:基于规则对数据进行预处理;S2:框架聚类;S3:类融合。本发明首次针对无时间戳的时态数据集合上实体识别问题上提出了解决方法,定义了时态数据集上属性的不确定性,并相应地对记录之间的相似度计算采用了动态权重的计算方法,这种动态权重计算方法的效果是明显优于固定权重的。本发明有效地结合了否定匹配依赖规则和时序约束规则,减少了算法运行的时间并保证了算法输出的结果,对于实体识别中的聚类分析阶段,提出了新颖的时态聚类算法。
-
公开(公告)号:CN115809068A
公开(公告)日:2023-03-17
申请号:CN202211658521.7
申请日:2022-12-22
Applicant: 哈尔滨工业大学
IPC: G06F8/41
Abstract: 基于MapReduce的大数据处理方法及系统,解决了现有大数据处理框架对于迭代逻辑的实现效果差的问题,属于计算机领域。本发明包括:输入java代码,将java代码分成java代码段并转换为MapReduce代码,判断每个代码段是否为迭代逻辑,若是,利用全新API函数进行编译,全新API函数为:主节点申请缓存空间,用来存储用户定义的循环不变量及每次mapper和reducer的输入输出缓存,并建立索引,主节点新建一个job控制模块,用于不断的启用map‑reduce过程来实现MapReduce代码的迭代逻辑,并根据索引从缓存空间中取出需要的数据;若否,利用已有大数据框架的API进行编译MapReduce代码,两种情况编译后的额执行结果作为下一个代码段的输入。
-
公开(公告)号:CN115481296A
公开(公告)日:2022-12-16
申请号:CN202211138474.3
申请日:2022-09-19
Applicant: 哈尔滨工业大学
IPC: G06F16/901 , G06F16/903
Abstract: 一种CPU高效的大规模图数据强连通分量获取方法,涉及大数据处理的图计算技术领域。本发明是为了解决现有强连通分量获取方法需要消耗指数级运行时间,从而导致在单位时间内强连通分量获取效率低的问题。本发明包括:步骤一、获取磁盘存储的有向图,在有向图中加入一个虚拟节点r,并利用加入虚拟节点有向图G获取内存抽样图A和G中边的集合Ei;步骤二、利用步骤一获取的A、Ei获取磁盘存储的有向图G上所有的强连通分量。本发明用于获取大规模图数据的强连通分量。
-
公开(公告)号:CN114898165A
公开(公告)日:2022-08-12
申请号:CN202210697905.3
申请日:2022-06-20
Applicant: 哈尔滨工业大学
IPC: G06V10/764 , G06V10/82 , G06N3/04 , G06N3/08
Abstract: 一种基于模型通道剪裁的深度学习知识蒸馏方法,具体涉及一种用于图像分类的基于模型通道剪裁的深度学习知识蒸馏方法,本发明为解决现有图像分类在采用知识蒸馏压缩方法时,由于教师模型和学生模型参数量相差太大会使学生模型准确率降低,导致图像分类的准确率较低的问题。将待分类的图像输入教师模型中,利用教师模型每层卷积层中卷积通道的平均秩从大到小进行排序;计算教师模型和学生模型的参数量均值,并与教师模型参数量做变化比例作为通道剪裁总体压缩率;利用通道剪裁技术剪裁冗余卷积通道,得到中间模型;利用中间模型对学生模型进行知识蒸馏,得到新知识蒸馏目标函数并对学生模型进行训练,得到训练好的学生模型。属于知识蒸馏领域。
-
-
-
-
-
-
-
-
-