-
公开(公告)号:CN109284352A
公开(公告)日:2019-01-29
申请号:CN201811153438.8
申请日:2018-09-30
Applicant: 哈尔滨工业大学
Abstract: 一种基于倒排索引的评估类文档不定长词句的查询方法,它涉及数据科学领域的索引方法以及NLP领域的分词方法,解决了评估类文档不定长词句的查询问题。本发明的步骤为:一、对待查询文档进行数据预处理,利用jieba分词方法进行分词处理,得到单词词典与词频信息;二、基于完全重建策略的倒排索引原理建立自适应倒排表;三、结合待查找不定长词句的信息,通过自适应倒排表索引词句中各个单词位置信息,识别不定长词句位置信息并索引其所在段落,来完成评估类文档不定长词句的查询功能。本发明的基本思想是对文本数据进行分词,建立倒排索引,进而实现快速搜索不定长词句,从而实现对评估类文档的查询功能。应用场景广泛,因而具有很高的社会经济价值。
-
公开(公告)号:CN109117887A
公开(公告)日:2019-01-01
申请号:CN201810942190.7
申请日:2018-08-17
Applicant: 哈尔滨工业大学
Abstract: 本发明涉及数据处理技术领域,提供了一种针对低维数据样本筛选的支持向量机加速方法及装置,该方法包括:对原始样本的区域边界进行逐级的网格划分,并确定分类边界;根据分类边界选取边界样本,作为筛选后的训练样本;使用所述筛选后的训练样本进行支持向量机的训练。本发明针对低维数据的分类问题,对给定样本进行网格划分,找到分类边界处的样本,并把他们提取出来,得到有效的支持向量机训练样本,最大程度上减少参与下一步实际的支持向量机训练的无效样本,实现了对支持向量机训练计算过程的加速。
-
公开(公告)号:CN109086356A
公开(公告)日:2018-12-25
申请号:CN201810787761.4
申请日:2018-07-18
Applicant: 哈尔滨工业大学
IPC: G06F17/30
Abstract: 本发明提供了一种大规模知识图谱的错误连接关系诊断及修正方法,其中诊断方法包括:构建知识图谱的层次结构,确定知识图谱中每个节点所处的层级;基于所述知识图谱的层次结构,提取节点的连接关系集合,所述连接关系集合中包含指向自己的所有IsA关系;判断同一层级上节点之间的关系;对于同一层级上被判定为相矛盾含义的节点对,诊断为其中包括错误连接关系,并继续对其上级进行搜索。本发明在不引入其它外源知识的情况下,利用知识图谱本身知识之间的关系,对具有IsA关系的图谱实现错误连接关系的检测并修正。
-
公开(公告)号:CN109033314A
公开(公告)日:2018-12-18
申请号:CN201810787762.9
申请日:2018-07-18
Applicant: 哈尔滨工业大学
Abstract: 本发明涉及数据处理技术领域,提供了一种内存受限情况下的大规模知识图谱的实时查询方法及系统,该方法包括:对原始知识图谱进行处理分析得到倒排文件哈希列表;基于原始知识图谱构建多级结构索引;对查询语句进行解析得到目标词汇,并根据所述倒排文件哈希列表和多级结构索引查找该目标词汇对应的三元组生成结果子图。本发明大大的提高了单机知识图谱查询能力,能够在内存极度受限的情况下给出既满足用户时间需求又满足用户精度需求的结果集。
-
公开(公告)号:CN108959370A
公开(公告)日:2018-12-07
申请号:CN201810498426.2
申请日:2018-05-23
Applicant: 哈尔滨工业大学
CPC classification number: G06Q50/01
Abstract: 本发明涉及数据处理技术领域,提供了一种基于知识图谱中实体相似度的社区发现方法及装置,该方法包括:使用知识图谱存储社交网络数据,并计算杰卡德距离得到相似度矩阵;根据所述相似度矩阵计算所述知识图谱中的相似节点集合;根据所述相似节点集合进行迭代的标签传播,并根据迭代后的每个节点的标签列表来确定该节点最终的社区标签,以进行社区发现。我们利用知识图谱存储社区网络,避免了对缺失数据的结构的存储,同时以此为基础将杰卡德距离作为相似度的计算基准,使其准确度更高。
-
公开(公告)号:CN108764568A
公开(公告)日:2018-11-06
申请号:CN201810520868.2
申请日:2018-05-28
Applicant: 哈尔滨工业大学
IPC: G06Q10/04
CPC classification number: G06Q10/04
Abstract: 本发明涉及一种基于LSTM网络的数据预测模型调优方法,包括预处理:获取所述待预测变量前N小的周期值;提取相关系数之和大于系数阈值的前数个变量在数据集中的数据组成训练集;模型训练:按照周期值从小到大的顺序,共进行N轮训练,求得优化解模型;每轮训练均包括:将所述训练集由时间序列数据转化为监督学习序列;将监督学习序列输入LSTM网络,得到本轮训练模型;利用本轮训练模型得到均方根误差并与上轮训练的均方根误差进行比较,保留其中较小值对应的训练模型为优化解模型。本发明还涉及一种基于LSTM网络的数据预测模型调优装置。本发明提供的调优方法及装置在LSTM网络的基础上优化,可用于数据预测,计算速度快,且预测效果好。
-
公开(公告)号:CN108596398A
公开(公告)日:2018-09-28
申请号:CN201810413123.6
申请日:2018-05-03
Applicant: 哈尔滨工业大学
Abstract: 本公开实施例涉及一种基于条件随机场与Stacking算法的时间序列预测方法、装置、计算机存储介质和电子设备。该方法包括:获得多个基预测器中每个基预测器预测的不同维度的预测数据;将所述多个基预测器的一部分预测数据作为验证集,输入条件随机场模型;根据所述验证集中的预测数据,初始化所述条件随机场模型;在所述条件随机场模型未收敛期间,结合Stacking算法,进行多次迭代,直到所述条件随机场模型收敛为止,得到收敛的条件随机场模型;将所述收敛的条件随机场模型的输出确定为时间序列预测结果。
-
公开(公告)号:CN108170832A
公开(公告)日:2018-06-15
申请号:CN201810026313.2
申请日:2018-01-11
Applicant: 哈尔滨工业大学
IPC: G06F17/30
Abstract: 本发明提出了一种面向工业大数据的异构数据库的监控系统及监控方法,包括异构数据库系统、中间件服务器和Web监控平台;所述异构数据库系统与所述中间件服务器相互数据通信,所述中间件服务器通过数据库与所述Web监控平台相互数据通信。本发明使用可视化的交互模式结合学习成本较低的数据解析格式,可以让管理者自行快速地接入新的数据源,降低了系统二次开发的次数,提高了线上信息的实用性和稳定性。
-
公开(公告)号:CN114884515B
公开(公告)日:2025-01-17
申请号:CN202210372728.1
申请日:2022-04-11
Applicant: 北京诺司时空科技有限公司 , 哈尔滨工业大学
IPC: H03M7/30 , G06F18/24 , G06N3/0464 , G06N3/048
Abstract: 时序数据库中的自适应数据压缩系统、方法及设备,属于计算机技术领域。为了解决目前针对时序数据库的压缩算法存在的不能对数据进行针对性选择处理及无法同时兼顾轻量化要求的问题。本发明系统包括时序数据库插件和基于配置信息通过接口调用不同的压缩算法进行压缩的数据压缩子系统;其中,时序数据库插件为分类决策模型,分类决策模型包括特征提取单元和利用神经网络模型进行压缩算法自动选择的分类决策单元;数据压缩子系统包括将选出数据压缩算法反馈给用户并将压缩策略写入配置中心的压缩策略配置单元,以及创建新活动来执行数据压缩任务,并定期被唤醒来执行数据整理压缩任务的自适应数据压缩单元。主要用于时序数据库中数据的自适应压缩。
-
公开(公告)号:CN118732988A
公开(公告)日:2024-10-01
申请号:CN202410745313.3
申请日:2024-06-11
Applicant: 哈尔滨工业大学
IPC: G06F7/36
Abstract: 一种基于分位数草图的外存分布式并行排序方法,它属于计算机技术领域。本发明的目的是为解决现有的外存并行排序算法的可扩展性、适用性差,以及在处理高度偏斜的真实世界数据集时会出现严重的负载失衡的问题。本发明具体为:步骤一、利用p个处理器上的全部本地数据共同组成一组待排序的数据,给待排序的数据选择p‑1个分割点;步骤二、根据选择出的分割点,各个处理器将存储在外存上的每个本地数据分别发送到目标处理器,并接收到来自其它处理器的数据,分别得到每个处理器上的新本地数据;步骤三、每个处理器对自身的新本地数据进行本地排序。本发明方法可以应用于对数据的外存分布式并行排序。
-
-
-
-
-
-
-
-
-