-
公开(公告)号:CN113688934B
公开(公告)日:2024-06-07
申请号:CN202111026341.2
申请日:2021-09-02
Applicant: 济南大学
IPC: G06F18/23213 , G06F17/16 , G06F17/18 , G06N20/00
Abstract: 本发明公开了一种基于迁移学习分布式期望最大化金融数据聚类方法,用于细分金融领域分布式P2P网络环境下的客户数据。包括:获取待聚类客户金融数据的业务部门并将各部门数据进行集群分布式存储;各个节点分别进行聚类分析,得到初始聚类结果,并基于各个节点上的初始聚类结果进行统计分析,得到迁移学习的初始模型参数集合;根据设定的目标函数,基于当前模型参数集合计算当前模型目标函数值;在邻居节点之间进行模型参数迁移;对于各个节点上的每个数据点进行类别划分。本发明通过在分布式期望最大化算法中引入迁移学习项,能够显示揭示节点间的协作机制,加速算法收敛,同时,提高聚类精度,精准细分金融客户。
-
公开(公告)号:CN113688926A
公开(公告)日:2021-11-23
申请号:CN202111014054.X
申请日:2021-08-31
Applicant: 济南大学
IPC: G06K9/62 , G06F16/958
Abstract: 本发明属于网站行为分类领域,提供了一种网站行为分类方法、系统、存储介质及设备。其中,该方法包括获取网站行为数据集合;其中,集合中每个数据的一个属性为一个维度;对每个数据的邻居进行筛选来确定相应数据的滤波窗口;从网站行为数据集合中随机选出预设数量条数据分别作为类中心数据,计算网站行为数据集合中各个数据属于各个类中心数据的隶属度;基于每个数据的滤波窗口,再利用每个数据的每一维分别作为引导对隶属度滤波,将多维滤波后的隶属度加权求和作为最终滤波后的隶属度;利用最终滤波后的隶属度更新各个的类中心数据,进而更新各类各个维度的属性权重;迭代计算判断更新各个的类中心数据的步骤的终止情况,最后输出网站行为分类结果。
-
公开(公告)号:CN104346442B
公开(公告)日:2017-10-20
申请号:CN201410541881.8
申请日:2014-10-14
Applicant: 济南大学
IPC: G06F17/30
Abstract: 本发明涉及一种面向流程对象数据的规则提取方法,包括如下步骤:步骤S1:确定流程对象数据的最佳聚簇数量;步骤S2:采用K‑means算法对流程对象数据进行聚类,同时验证步骤S1中的最佳聚簇数量的合理性,如果步骤S1中的最佳聚簇数量合理则转到步骤S3,否则转到步骤S1;步骤S3:采用Apriori维间关联规则算法挖掘不同测点的聚类间的关联规则;步骤S4:确定流程对象数据的最强关联链;步骤S5:根据最强关联链上所有测点的状态值,得到记载各测点状态值的状态链,根据状态链对相关行业进行指导;提高数据规则提取的效率,以及从流程对象数据中提取知识的能力。
-
公开(公告)号:CN113656707B
公开(公告)日:2024-09-17
申请号:CN202111027573.X
申请日:2021-09-02
Applicant: 济南大学
IPC: G06F16/9535 , G06F16/958 , G06F18/214 , G06F18/2413 , G06F18/23213 , G06Q40/06 , G06N3/0455 , G06N3/084
Abstract: 本发明属于理财产品推荐领域,提供了一种理财产品推荐方法、系统、存储介质及设备。其中,该方法包括获取理财用户数据;基于理财用户数据和训练完成的自编码神经网络模型,得到推荐理财产品类型;其中,自编码神经网络模型的训练过程为:采用理财用户数据预训练自编码神经网络模型;将理财用户数据及其若干个最近邻数据拼接构成训练数据;以预训练的自编码神经网络模型中的参数为初始值,利用训练数据继续训练自编码神经网络模型,直至到达最大迭代次数或者损失误差小于停止阈值。
-
公开(公告)号:CN113656707A
公开(公告)日:2021-11-16
申请号:CN202111027573.X
申请日:2021-09-02
Applicant: 济南大学
IPC: G06F16/9535 , G06F16/958 , G06K9/62 , G06N3/04 , G06N3/08 , G06Q40/06
Abstract: 本发明属于理财产品推荐领域,提供了一种理财产品推荐方法、系统、存储介质及设备。其中,该方法包括获取理财用户数据;基于理财用户数据和训练完成的自编码神经网络模型,得到推荐理财产品类型;其中,自编码神经网络模型的训练过程为:采用理财用户数据预训练自编码神经网络模型;将理财用户数据及其若干个最近邻数据拼接构成训练数据;以预训练的自编码神经网络模型中的参数为初始值,利用训练数据继续训练自编码神经网络模型,直至到达最大迭代次数或者损失误差小于停止阈值。
-
公开(公告)号:CN107229751A
公开(公告)日:2017-10-03
申请号:CN201710507953.0
申请日:2017-06-28
Applicant: 济南大学
IPC: G06F17/30
CPC classification number: G06F17/30516 , G06F17/30445 , G06F17/30539 , G06F2216/03
Abstract: 本发明涉及一种面向流式数据的并行增量式关联规则挖掘方法,对传统静态的关联规则挖掘方法进行了改进,提出了面向动态数据流的并行增量式关联规则提取方法,其基本步骤如下:1、在原事务数据库中,根据数据对象的时序划分层次,将整个事务数据库随机划分成若干个非重叠区域;2、利用并行计算平台挖掘出局部频繁项集,生成全局候选项集,进而计算得到全局频繁项集;3、对新增数据流进行增量挖掘,使用局部剪枝的方法,减少扫描数据集次数,得到增量式全局规则。
-
公开(公告)号:CN104346442A
公开(公告)日:2015-02-11
申请号:CN201410541881.8
申请日:2014-10-14
Applicant: 济南大学
IPC: G06F17/30
CPC classification number: G06F16/35
Abstract: 本发明涉及一种面向流程对象数据的规则提取方法,包括如下步骤:步骤S1:确定流程对象数据的最佳聚簇数量;步骤S2:采用K-means算法对流程对象数据进行聚类,同时验证步骤S1中的最佳聚簇数量的合理性,如果步骤S1中的最佳聚簇数量合理则转到步骤S3,否则转到步骤S1;步骤S3:采用Apriori维间关联规则算法挖掘不同测点的聚类间的关联规则;步骤S4:确定流程对象数据的最强关联链;步骤S5:根据最强关联链上所有测点的状态值,得到记载各测点状态值的状态链,根据状态链对相关行业进行指导;提高数据规则提取的效率,以及从流程对象数据中提取知识的能力。
-
公开(公告)号:CN113688229A
公开(公告)日:2021-11-23
申请号:CN202111016193.6
申请日:2021-08-31
Applicant: 济南大学
IPC: G06F16/335 , G06F16/35 , G06F16/9535 , G06F16/958
Abstract: 本发明属于文本推荐领域,提供了一种文本推荐方法、系统、存储介质和设备。其中,该方法包括获取待推荐文本的关键词;基于所述待推荐文本与已知属性文本的关键词,聚类所有待推荐文本;根据所有待推荐文本的关键词与已知文本属性的关键词之间的距离,依次推荐文本;其中,在聚类所有候选文本的过程中,考虑所有待推荐文本与已知属性文本的关键词之间的亲和度信息,将得到的亲和度与属性的权重相结合来构造基于维度亲和度的属性权重套索正则项,同时利用最大熵正则化,以实现属性权重的优化分布。
-
公开(公告)号:CN109063769A
公开(公告)日:2018-12-21
申请号:CN201810864958.3
申请日:2018-08-01
Applicant: 济南大学
IPC: G06K9/62
CPC classification number: G06K9/6223
Abstract: 本发明公开了基于变异系数自动确认簇数量的聚类方法、系统及介质,计算数据集中每个数据点的密度值,根据密度值计算密度指数,选择密度指数最大的数据点作为第一个聚类中心;计算每个数据点与当前已有聚类中心之间的最短距离,然后根据最短距离计算每个数据点被选为聚类中心的概率,按照轮盘法预选聚类中心;直至选择出设定个聚类中心,根据选择出的初始聚类中心进行k‑means聚类从而产生相应个数的簇;计算平均簇内变异系数和最小簇间变异系数,然后,计算平均簇内变异系数和最小簇间变异系数的差值,将差值与设定值进行比较,如果差值小于设定值,则将两个簇间变异系数最小的两个簇进行合并;直至差值大于等于设定值,则输出聚类结果。
-
公开(公告)号:CN107273532A
公开(公告)日:2017-10-20
申请号:CN201710509733.1
申请日:2017-06-28
Applicant: 济南大学
CPC classification number: G06F17/30539 , G06K9/6223
Abstract: 本发明涉及一种基于密度和扩展网格的数据流聚类方法,利用Spark并行计算平台,对传统的数据流聚类算法进行了分析和改进,提出了基于密度和扩展网格的数据流聚类算法,改进了人工设置聚类参数的缺陷,可以得到任何形状的聚类,算法基本步骤如下:1、采用每个采样点的局部密度和与其他采样点的距离,确定了网格中的聚类中心数,自动确定聚类中心,避免了初始质心选取不当对聚类结果的影响;2、网格聚类以外的数据点,通过扩展网格,扩展了网格内的聚类,确保了聚类的准确性;3、引入相邻密度估计与网格边界实现网格的合并,节省内存消耗;4、采用衰减因子实时更新网格密度,反应空间数据流的演变过程。
-
-
-
-
-
-
-
-
-