-
-
公开(公告)号:CN107451267B
公开(公告)日:2020-02-21
申请号:CN201710647317.8
申请日:2017-08-01
Applicant: 东北大学
IPC: G06F16/9535 , G06Q30/02 , G06Q30/06
Abstract: 本发明涉及一种基于Spark平台的分布式推荐方法,当用户输入相关参数合法且用户点击历史行为数据不为空时,产生基于ItemBased协同过滤的推荐序列A;对基于以用户为顶点,用户与用户的共同点击数为边进行社团发现,产生基于UserBased协同过滤的推荐序列B;将A和B按照不同的权重进行合并,产生基于协同过滤的推荐序列C;在C的基础上,关注用户个人点击历史行为,利用因子分解机模型进行训练,产生训练模型进行预测,产生预测推荐序列结果P;按照合并规则对C和P进行合并,生成最终推荐序列F并排序,写入实时数据库。本发明能满足海量大数据的推荐需求,将集体智慧推荐与个人智慧推荐相结合,形成最终的推荐序列。
-
公开(公告)号:CN106484877A
公开(公告)日:2017-03-08
申请号:CN201610898403.1
申请日:2016-10-14
Applicant: 东北大学
IPC: G06F17/30
Abstract: 基于HDFS的文件检索系统,包括系统配置模块、文件管理模块、索引管理模块、检索门户模块、MongoDB数据库、HDFS集群、Spark集群和ElasticSearch集群;文件管理模块将文件存入HDFS集群;索引管理模块通过Spark集群创建索引,并存入ElasticSerch集群;检索门户模块将检索条件发送给ElasticSearch集群进行索引匹配,得到检索结果,MongoDB数据库用于存储文件检索过程中产生的记录;本发明的HDFS集群、Spark集群和ElasticSearch集群均采用分布式,减轻查询负载,提高查询效率;采用主从架构具有水平扩展性和稳定性,便于提升集群整体的处理能力,系统工作状态稳定;采用副本冗余策略,能够保证索引的可靠性与完整性。
-
-
公开(公告)号:CN106484877B
公开(公告)日:2019-04-26
申请号:CN201610898403.1
申请日:2016-10-14
Applicant: 东北大学
Abstract: 基于HDFS的文件检索系统,包括系统配置模块、文件管理模块、索引管理模块、检索门户模块、MongoDB数据库、HDFS集群、Spark集群和ElasticSearch集群;文件管理模块将文件存入HDFS集群;索引管理模块通过Spark集群创建索引,并存入ElasticSerch集群;检索门户模块将检索条件发送给ElasticSearch集群进行索引匹配,得到检索结果,MongoDB数据库用于存储文件检索过程中产生的记录;本发明的HDFS集群、Spark集群和ElasticSearch集群均采用分布式,减轻查询负载,提高查询效率;采用主从架构具有水平扩展性和稳定性,便于提升集群整体的处理能力,系统工作状态稳定;采用副本冗余策略,能够保证索引的可靠性与完整性。
-
公开(公告)号:CN107451267A
公开(公告)日:2017-12-08
申请号:CN201710647317.8
申请日:2017-08-01
Applicant: 东北大学
Abstract: 本发明涉及一种基于Spark平台的分布式推荐方法,当用户输入相关参数合法且用户点击历史行为数据不为空时,产生基于ItemBased协同过滤的推荐序列A;对基于以用户为顶点,用户与用户的共同点击数为边进行社团发现,产生基于UserBased协同过滤的推荐序列B;将A和B按照不同的权重进行合并,产生基于协同过滤的推荐序列C;在C的基础上,关注用户个人点击历史行为,利用因子分解机模型进行训练,产生训练模型进行预测,产生预测推荐序列结果P;按照合并规则对C和P进行合并,生成最终推荐序列F并排序,写入实时数据库。本发明能满足海量大数据的推荐需求,将集体智慧推荐与个人智慧推荐相结合,形成最终的推荐序列。
-
-
-
-
-