基于用户行为检测的新闻推荐方法、系统及计算机设备

    公开(公告)号:CN110489652A

    公开(公告)日:2019-11-22

    申请号:CN201910784984.X

    申请日:2019-08-23

    Abstract: 本发明涉及一种基于用户行为数据检测的新闻推荐方法、系统及计算机设备,所述方法包括:对用户新闻点击行为数据进行转换,生成可处理的用户行为数据集,过滤掉用户行为数据集中的非频繁行为,使用频繁项集串行挖掘算法获取相对频繁项集,构建由用户行为中的相对频繁项集形成的相对频繁项集树,找出最优频繁项集,计算用户行为中最优频繁项集的完整支持度,根据完整支持度,生成用户行为频繁项集相关的关联规则,根据关联规则向用户推荐新闻,本发明能够充分考虑真实生产环境,高效地处理海量用户行为数据集,属于数据分析技术领域。

    一种基于属性聚类的邻域粗糙集集成学习方法

    公开(公告)号:CN105760888B

    公开(公告)日:2019-03-08

    申请号:CN201610100024.3

    申请日:2016-02-23

    Abstract: 本发明请求保护一种基于属性聚类的邻域粗糙集集成学习方法,涉及数据挖掘技术。首先,通过属性聚类将决策系统中的条件属性分成多个聚类簇,使得属性聚类簇内的属性关联性较大,而不同属性聚类簇之间的关联性较小;其次,利用各个聚类簇的差异性来训练集成不同的基分类器,在训练集成基分类器的过程中,加入了邻域粗糙集的指导,根据基分类器对邻域粗糙集中边界域的样本不同的识别能力来分配基分类器的权重,从而得到最终的集成分类器;最后,利用得到的集成分类器对测试集分类。本发明结合了邻域粗糙集和集成学习理论,充分利用了决策表中条件属性的相关性和差异性,并使不同基分类器之间取长补短,能够从不同角度有效挖掘决策系统中的知识。

    一种基于大数据的商铺定位方法

    公开(公告)号:CN109242552A

    公开(公告)日:2019-01-18

    申请号:CN201810961118.9

    申请日:2018-08-22

    Abstract: 本发明公开了一种基于大数据的商铺定位方法,包括:101对数据进行预处理操作;102根据记录时间对数据进行划分操作;103根据一定规则构建每条样本的候选集;104对数据进行打标操作;105对数据进行特征工程构建操作;106建立多个机器学习模型,并进行模型融合操作;107通过已建立的模型,根据用户的经纬度、所连接的WiFi信息等数据定位用户所在商铺。本发明主要是通过对用户的经纬度、所连接的WiFi信息等数据进行预处理和分析提取特征,建立多个机器学习模型,从而定位用户当前所在商铺,使得商家能够在在正确的时间、正确的地点给用户最有效的服务。

    基于Spark平台采用两次评价的加权选择集成三支聚类方法

    公开(公告)号:CN107480694A

    公开(公告)日:2017-12-15

    申请号:CN201710548072.3

    申请日:2017-07-06

    CPC classification number: G06K9/6223

    Abstract: 本发明请求保护一种基于Spark平台采用两次评价的加权选择集成三支聚类方法,主要包括如下步骤:步骤1,对大数据集进行分区和管理并生成对应的弹性分布式数据集(RDD);步骤2,使用基于Spark的K-Means聚类算法对每个分区数据进行聚类,生成多个不同的聚类成员;步骤3,通过两次评价,构造新的评价函数以及加权选择策略,对聚类成员进行选择,删除聚类效果不佳的聚类结果,构成新的聚类成员;步骤4,将聚类成员进行集成,构造一个加权的投票矩阵,根据三支决策规则进行聚类划分,得到最终的三支聚类结果。本发明大幅减少了算法运行时间,提高了算法效率。

    基于历史商家记录及用户行为的电商消费客流量预测方法

    公开(公告)号:CN107067283A

    公开(公告)日:2017-08-18

    申请号:CN201710267098.0

    申请日:2017-04-21

    CPC classification number: G06Q30/0202

    Abstract: 本发明请求保护一种基于历史商家记录及用户行为的电商消费客流量预测方法,涉及计算机信息获取和机器学习技术。本发明通过读取商家的历史电商消费记录及用户的浏览消费记录,并进行数据预处理操作。然后对数据集进行提取添加新特征,通过建立一种时间序列的回归模型,最后进行预测未来每天通过电商消费客流量。本发明利用商家电商记录特性,对未来每天使用电商消费客流量进行预测,商家可以优化运营,降低成本,并改善用户体验。

    一种基于MPI的ML‑KNN多标签中文文本分类方法

    公开(公告)号:CN106886569A

    公开(公告)日:2017-06-23

    申请号:CN201710026254.4

    申请日:2017-01-13

    Abstract: 本发明请求保护一种基于MPI的ML‑KNN多标签中文文本分类方法,涉及文本分类和机器学习中的多标签分类算法。为解决ML‑KNN算法在具体实现中大规模文本分类问题和求解优化问题,控制计算的时间和空间的开销,本发明采用的技术方案是,采用MPI编程实现中文文本数据的预处理、特征提取、ML‑KNN算法及分类的并行化。相比传统的串行多标签中文文本分类方法,本发明极大的提高了多标签中文文本分类的效率。同时,在数据量一定的情况下,算法的效率一般会随着计算资源(进程数)的增加而增加。值得一提的是,在基于MPI并行化ML‑KNN步骤中,对数据集进行划分时既可以以样本为单位划分,又可以以特征为单位划分,这使得本发明在处理高维文本数据的时候,具有更大的优势。

    Spark平台下基于GPS数据的出租车调配方法

    公开(公告)号:CN106875670A

    公开(公告)日:2017-06-20

    申请号:CN201710131675.3

    申请日:2017-03-07

    Abstract: 本发明请求保护一种Spark平台下基于GPS数据的出租车调配方法,包括:101从调度中心获取出租车历史GPS数据部署到Spark平台上,对数据做并行地预处理操作;102在Spark平台下对出租车历史GPS数据进行分析,提取特征建立回归模型;103在Spark平台下对出租车的实时GPS数据进行提取并预测其未来的路径、终点位置以及到达时间;104根据预测结果对出租车的调配进行优化。本发明主要是在Spark平台下解决出租车调配问题,通过对出租车历史GPS数据的分析,提取特征建立回归模型,从而预测出租车未来的GPS路径、终点位置以及到达时间,继而对出租车的调配进行优化。

    基于Spark内存计算大数据平台的OPTICS点排序聚类方法

    公开(公告)号:CN106682116A

    公开(公告)日:2017-05-17

    申请号:CN201611120326.3

    申请日:2016-12-08

    Abstract: 本发明提供一种基于Spark大数据平台的OPTICS聚类算法,涉及计算机信息获取和处理技术。本发明通过对并行数据结构划分,得到最优数据集划分并生成对应的RDD,并行计算邻居样本数量和核心距离,对每个分区并行执行OPTICS算法得到每个分区的簇排序并持久化存储,通过簇排序给每个分区赋予簇后,通过合并分区,每个样本能够得到全局的簇号。利用Spark分布式并行技术,找到最优的划分结构,并行计算得到每个分区的簇排序。通过OPTICS的簇排序,用户可以从不同层次结构进行观察数据集的内在聚类结构。该方法可以处理串行算法不能处理的大规模的数据集,并大幅度提高得到聚类结果的时间。

    一种基于注意力的深度学习方法预测AD转换概率的方法

    公开(公告)号:CN119993535A

    公开(公告)日:2025-05-13

    申请号:CN202510086087.7

    申请日:2025-01-20

    Abstract: 本发明属于数据挖掘技术领域,具体涉及一种基于注意力的深度学习方法预测AD转换概率的方法,包括:获取待预测患者的各项检查数据,将数据按照随访特征和基线特征划分为随访数据和基线数据;对随访数据进行预处理后,输入到构建好的基模型,得到随访数据表示;将随访数据表示结合基线数据输入最终决策器,得到待预测患者下一次访问由MCI转换为AD的概率。本发明基于注意力机制的原理,针对现在的时间序列数据的预测场景,我们设计了一种注意力的变体形式,为不同的特征和时间点赋予权重,借此来捕获特征间以及时间点的关系,确定不同特征和时间点的重要性。

Patent Agency Ranking