-
公开(公告)号:CN110891083B
公开(公告)日:2020-12-04
申请号:CN201911070906.X
申请日:2019-11-05
IPC: H04L29/08
Abstract: 本发明提供的一种Gaia中支持多作业并行执行的代理方法,在在群的每个节点中Gaia系统内均构建Netty客户端;在主节点上Gaia系统内基于Netty的代理框架构建一个代理端;可以实现在作业收集的过程中,多个客户端与代理端进行独立通信,解决了因物理机不同导致Gaia作业无法互通提交的问题;代理端在接收到作业之后,通过一定的执行多作业的Slot资源分配策略取待合并的作业,对作业合并后再进行执行,该方法使得当前Slot数量能够被最大程度地利用,执行最多的执行计划计划,增大一次作业执行的吞吐量。
-
公开(公告)号:CN107291935B
公开(公告)日:2020-09-29
申请号:CN201710536073.6
申请日:2017-07-04
Applicant: 东北大学
IPC: G06F16/22 , G06F16/2453 , G06F21/62
Abstract: 本发明公开了一种基于Spark与Huffman编码的CPIR‑V最近邻隐私保护查询方法,将最近邻矩阵的数据使用Huffman编码进行压缩减少每个网格中的数据Bit位数;然后将压缩的数据,字符的码长以及元素最大值存储到空数据库HBase中;接着服务器端读取读取HBase数据库中的数据并缓存到Spark并行框架的RDD中,并根据并行策略对RDD中的CPIR最近邻矩阵进行分组,分组后Spark服务端根据查询信息进行CPIR并行计算,将每个分组的计算结果聚合然后将查询结果和字符码长发送给客户端;客户端将查询结果解析获得查询位的值,将查询位的值解压,得到查询信息。本发明基于Spark并行化和Huffman编码的隐私保护查询算法,保证在大数据应用场景下,保护用户的查询隐私并在原有的查询效果下提高查询效率。
-
公开(公告)号:CN105677757B
公开(公告)日:2019-03-26
申请号:CN201511020637.8
申请日:2015-12-30
Applicant: 东北大学
IPC: G06F16/31 , G06F16/335
Abstract: 本发明提供一种基于双缀过滤的大数据相似性连接方法,包括:提取不同数据源的文本格式数据,得到待清洗的实体记录;对实体记录中的元素进行词频统计并对实体记录中的元素按词频升序排序;将实体记录前缀中的每一个元素作为该实体记录的索引,对实体记录建立倒排索引表;对同一个索引内的实体记录对进行双缀过滤相似性连接,得到相似度大于相似度阈值的实体记录对,实现分布式计算。本发明利用实体记录对中前后缀中元素位置信息实现过滤,极大地降低了候选集合的大小,针对不同大小的数据源以及不同阈值的情况,双缀过滤可以达到良好的时间效果。并且双缀过滤可以实现面向大数据的分布式计算,可以将其应用于分布式计算中,提高大数据清洗效率。
-
公开(公告)号:CN108170862A
公开(公告)日:2018-06-15
申请号:CN201810075845.5
申请日:2018-01-26
Applicant: 东北大学
Abstract: 本发明公开了一种面向大规模图数据集的统计显著子图挖掘方法及装置,该方法包括:对图数据集G进行挖掘,在族错误率阈值α下校正所述统计显著性阈值,基于改进的置换检验算法westfall‑younglight获得校正后的显著性阈值δ*,以及达到显著性阈值δ*时挖掘的子图所需满足的最小支持度阈值σ;利用蚁群优化算法,在图数据集G中挖掘所述统计显著性阈值p小于等于显著性阈值δ*的所有子图;挖掘的所有子图的支持度收敛到所述最小支持度阈值σ。上述方法在挖掘显著子图的过程中能够有效减少重复的计算量。
-
公开(公告)号:CN107291935A
公开(公告)日:2017-10-24
申请号:CN201710536073.6
申请日:2017-07-04
Applicant: 东北大学
Abstract: 本发明公开了一种基于Spark与Huffman编码的CPIR-V最近邻隐私保护查询方法,将最近邻矩阵的数据使用Huffman编码进行压缩减少每个网格中的数据Bit位数;然后将压缩的数据,字符的码长以及元素最大值存储到空数据库HBase中;接着服务器端读取读取HBase数据库中的数据并缓存到Spark并行框架的RDD中,并根据并行策略对RDD中的CPIR最近邻矩阵进行分组,分组后Spark服务端根据查询信息进行CPIR并行计算,将每个分组的计算结果聚合然后将查询结果和字符码长发送给客户端;客户端将查询结果解析获得查询位的值,将查询位的值解压,得到查询信息。本发明基于Spark并行化和Huffman编码的隐私保护查询算法,保证在大数据应用场景下,保护用户的查询隐私并在原有的查询效果下提高查询效率。
-
公开(公告)号:CN107153687A
公开(公告)日:2017-09-12
申请号:CN201710281671.3
申请日:2017-04-18
Applicant: 东北大学
Abstract: 本发明公开了一种社交网络文本数据的索引方法,包括获取需求用户的地理位置,根据需求用户输入的需求,对社交网络中的文本数据进行分词处理,获取与需求用户的需求相匹配的关键词组;根据所获取的关键词组,建立索引树DLIR‑Tree;根据需求用户的需求、地理位置及区域半径查询索引树DLIR‑Tree,得到相应的文本数据。考虑文本数据和地理位置的混合索引结构,简称DLIR‑Tree,以便于根据用户的需求快速搜索得到符合需求及在区域范围内与关键词组相关的文本信息,并且能够通过边界评分方式提供搜索空间的剪枝能力,通过利用地理位置已经查询的需求建立索引,增大了索引能力,减低了索引的数据处理量,提供了工作效率。
-
公开(公告)号:CN107145545A
公开(公告)日:2017-09-08
申请号:CN201710281672.8
申请日:2017-04-18
Applicant: 东北大学
Abstract: 本发明公开了一种基于位置的社交网络中Top‑k区域用户文本数据推荐方法,包括:获取需求用户的地理位置,根据需求用户输入的需求,对社交网络中的文本数据进行分词处理,获取与需求用户的需求相匹配的关键词组;根据所获取的关键词组,建立索引树DLIR‑Tree,所述索引树DLIR‑Tree的每个节点包含一系列的社交网络文本的发送用户;根据需求用户的需求、地理位置及区域半径查询索引树DLIR‑Tree,得到相匹配的文本数据;对所获取的文本数据与关键词组进行相似度计算处理,得到过滤后的文本数据;根据过滤后的文本数据,进行综合评分,并根据综合评分完成Top‑k区域用户文本数据推荐。通过信息的全面性和多样性来实现现实社会的真实情况,从而使得推荐信息准确率得到提高。
-
公开(公告)号:CN104408039B
公开(公告)日:2017-09-08
申请号:CN201410462268.7
申请日:2014-09-06
Applicant: 东北大学
IPC: G06F17/30
Abstract: 本发明公开了一种基于Hilbert曲线与R‑tree的HBase多维查询系统的构建及其查询方法,本发明一方面利用Hilbert曲线对多维数据从多维降到一维,另一方面针对HBase上的多维数据建立R树。映射的一维Hilbert曲线的标志符Hilbert ID能够将信息与原始的高维数据ID建立对应关系。通过R树,高维数据的查询可以高效地映射为一维的Hilbert ID集合。从而实现在HBase上多维数据的快捷查询。
-
公开(公告)号:CN103473248B
公开(公告)日:2017-06-23
申请号:CN201210544908.X
申请日:2012-12-17
Applicant: 东北大学
IPC: G06F17/30
Abstract: 本发明公开了一种路网环境下的连续移动K近邻查询方法,建立路网结点哈希表、路网边的哈希表等;录入路网的结点信息,初始化路网结点的哈希表;录入路网的边的信息;将移动对象插入到路网移动对象哈希表;根据移动对象在路网移动对象哈希表中的位置找到对应的边,更新完成后要判断该移动对象是否为查询对象;更新对应的查询结果。基于内存的哈希表表结构,充分利用了哈希表能够快速实现插入和快速查找操作的特性,提高了索引的建立、移动对象初始化、索引及查询的效率,节省了时间,网络的密集和稀疏对其影响比较小,对稀疏网络的效果也很明显,实用性强,具有较强的推广与应用价值。
-
公开(公告)号:CN103020712B
公开(公告)日:2015-10-28
申请号:CN201210583886.8
申请日:2012-12-28
Applicant: 东北大学
IPC: G06N5/00
Abstract: 一种海量微博数据的分布式分类装置及方法,属于数据挖掘技术领域。该装置采用分布式结构,根据ELM的处理方法,每个从控制机将自身处理的用于生成最终微博数据分类器的中间结果发送给主控制机,主控制机接收所有从控制机发送来的中间结果后,根据ELM的原理,得到最终的微博数据分类器,利用产生的微博数据分类器实现对微博数据的分类。克服了以往的利用极限学习机技术仅能应用于集中式环境,无法适应大规模训练样本集的ELM分类的缺陷,使得处理和分析海量微博数据成为可能,令应用中积累的海量微博数据的效用得到充分发挥,起到了更好的为应用服务的效果。
-
-
-
-
-
-
-
-
-