一种基于标准差和交互信息的慢性疾病特征选择方法

    公开(公告)号:CN114358989A

    公开(公告)日:2022-04-15

    申请号:CN202111485486.9

    申请日:2021-12-07

    Abstract: 本发明属于计算机科学技术领域,具体涉及一种基于标准差和交互信息的慢性疾病特征选择方法;该方法包括:实时获取用户的身体检查数据,对数据进行预处理,将预处理后的数据输入到基于标准差和交互信息的慢性疾病特征选择模型中,预测用户患有的慢性疾病类型;本发明可以有效地对高血压、糖尿病等慢性疾病的影响因素进行筛选并标记,通过对影响因素的分析统计来预防或预测慢性疾病,本发明为慢性疾病的预警提供帮助,克服了现有慢性疾病预测需要较多特征并且精确度不高的缺陷,具有良好的经济效益。

    一种基于聚类和关联规则的线上用户群体分类方法及装置

    公开(公告)号:CN110532429B

    公开(公告)日:2021-05-11

    申请号:CN201910832959.4

    申请日:2019-09-04

    Abstract: 本发明涉及计算机技术领域,特别涉及一种基于聚类和关联规则的线上用户群体分类方法及装置,所述方法包括确定作为聚类中心的用户,利用简单匹配的方法对用户信息数据集中单值离散特征进行相似度计算;将关联规则引入到杰卡德距离的计算过程中,并以此分别计算每个用户与聚类中心的用户之间兴趣特征的相似度;将单值离散特征与兴趣特征计算出的相似度进行加权相加,获得综合用户相似度;根据综合用户相似度对所有用户更新分簇,确定每个簇的中心,当前中心用户的各特征值与上一次更新的中心用户的特征相同,则输出分簇的用户群体,完成分类;本发明解决了簇中心的更新过程中无法对多值离散特征进行合理更新的问题,并提高了用户行为聚类的质量。

    一种基于文本点击率的搜索结果推荐方法及系统

    公开(公告)号:CN112487274A

    公开(公告)日:2021-03-12

    申请号:CN202011386336.8

    申请日:2020-12-02

    Abstract: 本发明公开了一种基于文本点击率的搜索结果推荐方法及系统,属于机器学习、和自然语言处理领域,所述方法包括:对搜索文本query和title进行预处理操作;对文本query和title构建特征工程;利用改进DRCN构建的RRSCN深度匹配模型进行特征提取;利用RRSCN深度匹配模型构建预训练模型;根据特征工程和RRSCN深度匹配模型构建三输入的全连接层网络;本发明根据文本query和title预测query下文本点击率,通过构建特征工程,特征选择工作,构建三输入深度学习文本匹配模型,从而可以更精确的预测文本预估点击率和相关性,准确的给用户推荐最有可能点击的搜索结果,提高用户的体验性。

    一种基于三支集成预测模型的工业加热炉钢温预测方法

    公开(公告)号:CN112418522A

    公开(公告)日:2021-02-26

    申请号:CN202011318973.1

    申请日:2020-11-23

    Abstract: 本发明涉及轧钢温度控制技术领域,具体涉及一种基于三支集成预测模型的工业加热炉钢温预测方法,包括:实时采集加热炉数据,并将实时采集的加热炉数据输入至三支集成预测模型中,三支集成预测模型判断实时采集的加热炉数据是否处于不确定区域范围,若处于不确定区域范围,则使用协同决策方法得到并输出预测结果。本发明利用三支聚类算法将实际工业加热炉运行中存在的固有波动性进行分析处理,更加充分的利用原始数据中的有效数据,有效解决实际工业加热炉运行中固有特性对预测问题带来的负面影响。

    一种基于Spark下并行超网络的分类方法

    公开(公告)号:CN106777006B

    公开(公告)日:2020-10-23

    申请号:CN201611115832.3

    申请日:2016-12-07

    Abstract: 本发明涉及一种基于Spark下并行超网络的分类算法,具体包括以下步骤:步骤S1.把文本数据部署到Spark平台上;步骤S2.在Spark平台上对文本数据进行并行化预处理;步骤S3.在Spark平台上,对超网络算法的演化学习进行并行化实现。本发明主要解决在大规模文本数据量的情况下,演化超网络分类算法的并行处理问题,通过分布式数据存储阶段,数据预处理阶段,并且通过改变超边结构以及超网络演化计算方式,修改目标函数,完成对超网络算法的并行化处理,提高传统超网络的分类算法性能和效率,解决在海量数据中,传统的超网络模型已经难以满足时间和空间的限制。

    一种基于Spark的高维稀疏文本数据聚类方法

    公开(公告)号:CN106570173B

    公开(公告)日:2020-09-29

    申请号:CN201610988558.4

    申请日:2016-11-09

    Abstract: 本发明请求保护一种基于Spark的高维稀疏文本数据聚类方法,包括步骤:用RDD读入数据集;并用RDD接口设计出分布式稀疏向量集;分布式稀疏向量集与其所在结点的完整数据集计算相似度,按编号抽象为相似矩阵。将存放的相似矩阵对称化,并求其归一化形式和Laplace矩阵形式。4、利用SVD分解步骤3中归一化Laplace矩阵,5、步骤4构建的新矩阵作为样本输入到K‑means模型进行训练。6、利用建立的模型对测试集进行聚类。本发明提高了传统谱聚类算法在大数据集下的运算性能。

    基于实体关系消歧的知识图谱问答方法、系统以及终端

    公开(公告)号:CN111259653A

    公开(公告)日:2020-06-09

    申请号:CN202010039884.7

    申请日:2020-01-15

    Abstract: 本发明涉及信息技术领域,涉及一种基于实体关系消歧的知识图谱问答方法、系统以及终端;所述方法包括获取用户终端输入的问句文本,识别出所述问句文本中的实体提及词、属性提及词和特定关系;将实体提及词和属性提及词链接到预先构建的知识图谱中,并根据所链接到的每个实体的二度关系子图建立出语义超图;利用从所述语义超图中包含出的每个实体的多粒度上下文特征,使用极端梯度提升算法进行二分类线性回归对实体和关系进行联合消歧;本发明通过一度关系子树和二度关系子树的评价得分,本发明避免的问句中隐式表达的信息被遗漏的问题。通过多粒度特征大大提升了实体和关系的消岐能力,大大提高了系统回答问题的准确率。

    一种基于大数据的网络流量异常实时监测系统

    公开(公告)号:CN107332848B

    公开(公告)日:2020-05-12

    申请号:CN201710542877.7

    申请日:2017-07-05

    Abstract: 本发明请求保护一种基于大数据的网络流量异常实时监测的系统,使用了一种解耦合的系统设计,数据采集,数据处理,数据分析与及时响应自成一体,系统高度模块化。其特征在于:用嗅探器进行了数据的分布式采集,实现全网监测,实时抓取网络数据包信息。根据URL结构设定了特定规则,构建数据处理模块,实现对URL的有效信息提取。大量URL数据输入到利用bagging集成的机器学习器中进行有监督式学习,得到能够识别URL类型的数据分析模块;Web端与移动客户端的结合以多角度,多层次呈现数据。安装在服务器上的防御插件实现了对服务器的及时防护,与此同时,实时更新系统分类器数据,提高系统实用性。

    一种spark下的机器学习快速大规模样本签名方法

    公开(公告)号:CN111079935A

    公开(公告)日:2020-04-28

    申请号:CN201910983158.8

    申请日:2019-10-16

    Abstract: 本发明请求保护一种spark下的机器学习快速大规模样本签名方法,涉及数据挖掘技术和计算机信息处理技术。本方法为:1)读入样本数据,将样本数据转换成独有的样本格式;2)对样本数据中的高频特征进行划分,得到FeatureMap;3)设置最大广播数量,根据最大广播数量计算FeatureMap的partition;4)根据partition数量进行循环迭代,分片广播大量特征;5)最后对样本进行格式转换,得到libsvm格式的数据。本发明可以解决模型训练过程中样本签名性能瓶颈的问题,特别适用于在spark集群下训练模型。本发明虽然解决的是样本签名问题,但是由于本方法定制数据结构和分片广播可以很好的避免shuffle从而同样适用于大数据工程中的数据倾斜问题。

Patent Agency Ranking