一种基于倒排索引的评估类文档不定长词句的查询方法

    公开(公告)号:CN109284352B

    公开(公告)日:2022-02-08

    申请号:CN201811153438.8

    申请日:2018-09-30

    Abstract: 一种基于倒排索引的评估类文档不定长词句的查询方法,它涉及数据科学领域的索引方法以及NLP领域的分词方法,解决了评估类文档不定长词句的查询问题。本发明的步骤为:一、对待查询文档进行数据预处理,利用jieba分词方法进行分词处理,得到单词词典与词频信息;二、基于完全重建策略的倒排索引原理建立自适应倒排表;三、结合待查找不定长词句的信息,通过自适应倒排表索引词句中各个单词位置信息,识别不定长词句位置信息并索引其所在段落,来完成评估类文档不定长词句的查询功能。本发明的基本思想是对文本数据进行分词,建立倒排索引,进而实现快速搜索不定长词句,从而实现对评估类文档的查询功能。应用场景广泛,因而具有很高的社会经济价值。

    内存受限情况下的大规模知识图谱的实时查询方法和系统

    公开(公告)号:CN109033314B

    公开(公告)日:2020-10-23

    申请号:CN201810787762.9

    申请日:2018-07-18

    Abstract: 本发明涉及数据处理技术领域,提供了一种内存受限情况下的大规模知识图谱的实时查询方法及系统,该方法包括:对原始知识图谱进行处理分析得到倒排文件哈希列表;基于原始知识图谱构建多级结构索引;对查询语句进行解析得到目标词汇,并根据所述倒排文件哈希列表和多级结构索引查找该目标词汇对应的三元组生成结果子图。本发明大大的提高了单机知识图谱查询能力,能够在内存极度受限的情况下给出既满足用户时间需求又满足用户精度需求的结果集。

    一种基于LSTM网络的数据预测模型调优方法及装置

    公开(公告)号:CN108764568B

    公开(公告)日:2020-10-23

    申请号:CN201810520868.2

    申请日:2018-05-28

    Abstract: 本发明涉及一种基于LSTM网络的数据预测模型调优方法,包括预处理:获取所述待预测变量前N小的周期值;提取相关系数之和大于系数阈值的前数个变量在数据集中的数据组成训练集;模型训练:按照周期值从小到大的顺序,共进行N轮训练,求得优化解模型;每轮训练均包括:将所述训练集由时间序列数据转化为监督学习序列;将监督学习序列输入LSTM网络,得到本轮训练模型;利用本轮训练模型得到均方根误差并与上轮训练的均方根误差进行比较,保留其中较小值对应的训练模型为优化解模型。本发明还涉及一种基于LSTM网络的数据预测模型调优装置。本发明提供的调优方法及装置在LSTM网络的基础上优化,可用于数据预测,计算速度快,且预测效果好。

    关系模式的自动转换方法、装置及存储介质

    公开(公告)号:CN108776673B

    公开(公告)日:2020-08-18

    申请号:CN201810498633.8

    申请日:2018-05-23

    Abstract: 本发明公开了一种关系模式的自动转换方法、装置及存储介质,能够在关系模式转换过程中完成空值补全,提高数据质量。所述方法包括:基于预设的属性距离计算方法,确定源关系模式的每个属性与目标关系模式的每个属性之间的相似度,构建第一属性相似度矩阵;基于属性距离计算方法,为源关系模式包括的每个属性构建预测模型,预测模型用于通过与该属性关系密切的其他属性的值来预测该属性的值;扫描源关系模式对应的数据表中的缺失值;根据缺失值对应属性的预测模型,预测缺失值的取值,并通过预测的取值补全数据表;根据第一属性相似度矩阵,将源关系模式补全后的数据映射到目标关系模式。

    一种时间序列异常点检测方法及装置

    公开(公告)号:CN108776694A

    公开(公告)日:2018-11-09

    申请号:CN201810575076.5

    申请日:2018-06-05

    Abstract: 本发明涉及数据处理技术领域,提供了一种时间序列异常点检测方法及装置,该方法包括:通过训练集训练时间序列的回归模型;根据训练得到的回归模型及输入的当前时刻前一段的时间序列预测当前时刻序列值,并根据预测得到的当前时刻序列值对观测得到的当前时刻序列值进行异常检测;根据异常检测的结果,在观测得到当前时刻序列值被认为是异常时,使用预测得到的当前时刻序列值替换观测得到的当前时刻序列值,并继续对时间序列的下一时刻进行异常点检测。本发明在时间序列点异常的检测任务中,采用回归预测的方法,利用预测值替换异常值,尽可能地降低预测的偏差,提高检测的准确率。

    一种基于特征采样的时间序列分类方法及装置

    公开(公告)号:CN108573059A

    公开(公告)日:2018-09-25

    申请号:CN201810384213.7

    申请日:2018-04-26

    Abstract: 本发明涉及数据处理技术领域,提供了一种基于特征采样的时间序列分类方法及装置,该方法包括:通过特征采样方法将训练用的时间序列数据集转化为具有等长特征的训练数据集,并将测试用的时间序列数据集转化为具有等长特征的测试数据集;采用集成学习分类方法,利用所述具有等长特征的训练数据集进行模型训练;使用训练后的模型对所述具有等长特征的测试数据集进行时间序列分类。本发明先通过特征采样方法将不同长度的时间序列数据集转化为具有等长特征的数据集,再采用集成学习分类方法进行分类,提高时间序列分类的准确率,能够对于大规模的时间序列数据进行准确的分类。

    数据库旋钮性能评估模型建模方法及评估方法

    公开(公告)号:CN118747145A

    公开(公告)日:2024-10-08

    申请号:CN202410885065.2

    申请日:2024-07-03

    Abstract: 数据库旋钮性能评估模型建模方法及评估方法,涉及数据库旋钮评估领域。解决了现有需要大量的时间和计算资源进行数据库旋钮评估模型的训练,以及各个旋钮对数据库性能的影响没有量化的问题。本发明数据收集分两阶段对旋钮进行重要性排序,利用关键旋钮在小范围内进一步收集数据。基于自动机器学习的规则生成模型生成数据库旋钮相关规则。再进行规则拟合,形成规则到数据库系统性能的映射来,对数据库旋钮性能评估模型训练,并利用训练后的数据库旋钮性能评估模型进行旋钮性能评估。本发明主要用于对数据库旋钮性能进行评估。

    一种基于模型通道剪裁的深度学习知识蒸馏方法

    公开(公告)号:CN114898165B

    公开(公告)日:2024-08-02

    申请号:CN202210697905.3

    申请日:2022-06-20

    Abstract: 一种基于模型通道剪裁的深度学习知识蒸馏方法,具体涉及一种用于图像分类的基于模型通道剪裁的深度学习知识蒸馏方法,本发明为解决现有图像分类在采用知识蒸馏压缩方法时,由于教师模型和学生模型参数量相差太大会使学生模型准确率降低,导致图像分类的准确率较低的问题。将待分类的图像输入教师模型中,利用教师模型每层卷积层中卷积通道的平均秩从大到小进行排序;计算教师模型和学生模型的参数量均值,并与教师模型参数量做变化比例作为通道剪裁总体压缩率;利用通道剪裁技术剪裁冗余卷积通道,得到中间模型;利用中间模型对学生模型进行知识蒸馏,得到新知识蒸馏目标函数并对学生模型进行训练,得到训练好的学生模型。属于知识蒸馏领域。

Patent Agency Ranking