-
公开(公告)号:CN109284352B
公开(公告)日:2022-02-08
申请号:CN201811153438.8
申请日:2018-09-30
Applicant: 哈尔滨工业大学
IPC: G06F16/31 , G06F40/289 , G06F40/242
Abstract: 一种基于倒排索引的评估类文档不定长词句的查询方法,它涉及数据科学领域的索引方法以及NLP领域的分词方法,解决了评估类文档不定长词句的查询问题。本发明的步骤为:一、对待查询文档进行数据预处理,利用jieba分词方法进行分词处理,得到单词词典与词频信息;二、基于完全重建策略的倒排索引原理建立自适应倒排表;三、结合待查找不定长词句的信息,通过自适应倒排表索引词句中各个单词位置信息,识别不定长词句位置信息并索引其所在段落,来完成评估类文档不定长词句的查询功能。本发明的基本思想是对文本数据进行分词,建立倒排索引,进而实现快速搜索不定长词句,从而实现对评估类文档的查询功能。应用场景广泛,因而具有很高的社会经济价值。
-
公开(公告)号:CN109033314B
公开(公告)日:2020-10-23
申请号:CN201810787762.9
申请日:2018-07-18
Applicant: 哈尔滨工业大学
IPC: G06F16/36 , G06F16/332 , G06F16/33 , G06F40/284 , G06F16/31
Abstract: 本发明涉及数据处理技术领域,提供了一种内存受限情况下的大规模知识图谱的实时查询方法及系统,该方法包括:对原始知识图谱进行处理分析得到倒排文件哈希列表;基于原始知识图谱构建多级结构索引;对查询语句进行解析得到目标词汇,并根据所述倒排文件哈希列表和多级结构索引查找该目标词汇对应的三元组生成结果子图。本发明大大的提高了单机知识图谱查询能力,能够在内存极度受限的情况下给出既满足用户时间需求又满足用户精度需求的结果集。
-
公开(公告)号:CN108764568B
公开(公告)日:2020-10-23
申请号:CN201810520868.2
申请日:2018-05-28
Applicant: 哈尔滨工业大学
IPC: G06Q10/04
Abstract: 本发明涉及一种基于LSTM网络的数据预测模型调优方法,包括预处理:获取所述待预测变量前N小的周期值;提取相关系数之和大于系数阈值的前数个变量在数据集中的数据组成训练集;模型训练:按照周期值从小到大的顺序,共进行N轮训练,求得优化解模型;每轮训练均包括:将所述训练集由时间序列数据转化为监督学习序列;将监督学习序列输入LSTM网络,得到本轮训练模型;利用本轮训练模型得到均方根误差并与上轮训练的均方根误差进行比较,保留其中较小值对应的训练模型为优化解模型。本发明还涉及一种基于LSTM网络的数据预测模型调优装置。本发明提供的调优方法及装置在LSTM网络的基础上优化,可用于数据预测,计算速度快,且预测效果好。
-
公开(公告)号:CN108776673B
公开(公告)日:2020-08-18
申请号:CN201810498633.8
申请日:2018-05-23
Applicant: 哈尔滨工业大学
Abstract: 本发明公开了一种关系模式的自动转换方法、装置及存储介质,能够在关系模式转换过程中完成空值补全,提高数据质量。所述方法包括:基于预设的属性距离计算方法,确定源关系模式的每个属性与目标关系模式的每个属性之间的相似度,构建第一属性相似度矩阵;基于属性距离计算方法,为源关系模式包括的每个属性构建预测模型,预测模型用于通过与该属性关系密切的其他属性的值来预测该属性的值;扫描源关系模式对应的数据表中的缺失值;根据缺失值对应属性的预测模型,预测缺失值的取值,并通过预测的取值补全数据表;根据第一属性相似度矩阵,将源关系模式补全后的数据映射到目标关系模式。
-
公开(公告)号:CN111209710A
公开(公告)日:2020-05-29
申请号:CN202010015091.1
申请日:2020-01-07
Applicant: 中国电力科学研究院有限公司 , 国家电网有限公司 , 哈尔滨工业大学
IPC: G06F30/27
Abstract: 本发明公开了一种潮流计算收敛的自动调整方法,包括:设计用于潮流计算收敛的深度强化学习网络的状态、动作空间和奖赏;根据所述状态、动作空间和奖赏构建用于潮流计算收敛的深度强化学习网络;在所述深度强化学习网络中加入知识经验,并模拟人工调整潮流的过程,从而构建潮流调整策略,使用所述潮流调整策略对电网的潮流收敛进行调整,解决目前调整大电网的收敛工作效率低、不精准,人力成本消耗过大的问题。
-
公开(公告)号:CN108776694A
公开(公告)日:2018-11-09
申请号:CN201810575076.5
申请日:2018-06-05
Applicant: 哈尔滨工业大学
Abstract: 本发明涉及数据处理技术领域,提供了一种时间序列异常点检测方法及装置,该方法包括:通过训练集训练时间序列的回归模型;根据训练得到的回归模型及输入的当前时刻前一段的时间序列预测当前时刻序列值,并根据预测得到的当前时刻序列值对观测得到的当前时刻序列值进行异常检测;根据异常检测的结果,在观测得到当前时刻序列值被认为是异常时,使用预测得到的当前时刻序列值替换观测得到的当前时刻序列值,并继续对时间序列的下一时刻进行异常点检测。本发明在时间序列点异常的检测任务中,采用回归预测的方法,利用预测值替换异常值,尽可能地降低预测的偏差,提高检测的准确率。
-
公开(公告)号:CN108573059A
公开(公告)日:2018-09-25
申请号:CN201810384213.7
申请日:2018-04-26
Applicant: 哈尔滨工业大学
IPC: G06F17/30
Abstract: 本发明涉及数据处理技术领域,提供了一种基于特征采样的时间序列分类方法及装置,该方法包括:通过特征采样方法将训练用的时间序列数据集转化为具有等长特征的训练数据集,并将测试用的时间序列数据集转化为具有等长特征的测试数据集;采用集成学习分类方法,利用所述具有等长特征的训练数据集进行模型训练;使用训练后的模型对所述具有等长特征的测试数据集进行时间序列分类。本发明先通过特征采样方法将不同长度的时间序列数据集转化为具有等长特征的数据集,再采用集成学习分类方法进行分类,提高时间序列分类的准确率,能够对于大规模的时间序列数据进行准确的分类。
-
公开(公告)号:CN119781936A
公开(公告)日:2025-04-08
申请号:CN202411973777.6
申请日:2024-12-30
Applicant: 哈尔滨工业大学 , 中国移动通信集团黑龙江有限公司
Abstract: 一种Spark自动能效优化方法,涉及计算机技术领域,针对现有Spark应用的能效优化效率低的问题,本申请的技术方案可以显著提升Spark应用的能效优化效率。在本申请中,用户仅需提交命令,系统即可自动解析参数、应用需求,并调用优化方案进行参数调优,大大减轻了手动调优的工作负担,加速了Spark应用的部署和执行过程。本申请所提出的技术方案结合了启发式优化和机器学习方法的优势,能够在数据不足的情况下依赖硬件条件进行初步调优(“冷启动”),并且为后续的机器学习模型提供训练数据。这种方案增强了系统在不同场景下的适应性和鲁棒性。
-
公开(公告)号:CN118747145A
公开(公告)日:2024-10-08
申请号:CN202410885065.2
申请日:2024-07-03
Applicant: 哈尔滨工业大学
Abstract: 数据库旋钮性能评估模型建模方法及评估方法,涉及数据库旋钮评估领域。解决了现有需要大量的时间和计算资源进行数据库旋钮评估模型的训练,以及各个旋钮对数据库性能的影响没有量化的问题。本发明数据收集分两阶段对旋钮进行重要性排序,利用关键旋钮在小范围内进一步收集数据。基于自动机器学习的规则生成模型生成数据库旋钮相关规则。再进行规则拟合,形成规则到数据库系统性能的映射来,对数据库旋钮性能评估模型训练,并利用训练后的数据库旋钮性能评估模型进行旋钮性能评估。本发明主要用于对数据库旋钮性能进行评估。
-
公开(公告)号:CN114898165B
公开(公告)日:2024-08-02
申请号:CN202210697905.3
申请日:2022-06-20
Applicant: 哈尔滨工业大学
IPC: G06V10/764 , G06V10/82 , G06N3/045 , G06N3/0464 , G06N3/0495 , G06N3/082 , G06N3/096
Abstract: 一种基于模型通道剪裁的深度学习知识蒸馏方法,具体涉及一种用于图像分类的基于模型通道剪裁的深度学习知识蒸馏方法,本发明为解决现有图像分类在采用知识蒸馏压缩方法时,由于教师模型和学生模型参数量相差太大会使学生模型准确率降低,导致图像分类的准确率较低的问题。将待分类的图像输入教师模型中,利用教师模型每层卷积层中卷积通道的平均秩从大到小进行排序;计算教师模型和学生模型的参数量均值,并与教师模型参数量做变化比例作为通道剪裁总体压缩率;利用通道剪裁技术剪裁冗余卷积通道,得到中间模型;利用中间模型对学生模型进行知识蒸馏,得到新知识蒸馏目标函数并对学生模型进行训练,得到训练好的学生模型。属于知识蒸馏领域。
-
-
-
-
-
-
-
-
-