-
公开(公告)号:CN105677757A
公开(公告)日:2016-06-15
申请号:CN201511020637.8
申请日:2015-12-30
Applicant: 东北大学
IPC: G06F17/30
CPC classification number: G06F17/30619 , G06F17/30699
Abstract: 本发明提供一种基于双缀过滤的大数据相似性连接方法,包括:提取不同数据源的文本格式数据,得到待清洗的实体记录;对实体记录中的元素进行词频统计并对实体记录中的元素按词频升序排序;将实体记录前缀中的每一个元素作为该实体记录的索引,对实体记录建立倒排索引表;对同一个索引内的实体记录对进行双缀过滤相似性连接,得到相似度大于相似度阈值的实体记录对,实现分布式计算。本发明利用实体记录对中前后缀中元素位置信息实现过滤,极大地降低了候选集合的大小,针对不同大小的数据源以及不同阈值的情况,双缀过滤可以达到良好的时间效果。并且双缀过滤可以实现面向大数据的分布式计算,可以将其应用于分布式计算中,提高大数据清洗效率。
-
公开(公告)号:CN103020712A
公开(公告)日:2013-04-03
申请号:CN201210583886.8
申请日:2012-12-28
Applicant: 东北大学
IPC: G06N5/00
Abstract: 一种海量微博数据的分布式分类装置及方法,属于数据挖掘技术领域。该装置采用分布式结构,根据ELM的处理方法,每个从控制机将自身处理的用于生成最终微博数据分类器的中间结果发送给主控制机,主控制机接收所有从控制机发送来的中间结果后,根据ELM的原理,得到最终的微博数据分类器,利用产生的微博数据分类器实现对微博数据的分类。克服了以往的利用极限学习机技术仅能应用于集中式环境,无法适应大规模训练样本集的ELM分类的缺陷,使得处理和分析海量微博数据成为可能,令应用中积累的海量微博数据的效用得到充分发挥,起到了更好的为应用服务的效果。
-
公开(公告)号:CN102799674A
公开(公告)日:2012-11-28
申请号:CN201210248045.1
申请日:2012-07-17
Applicant: 东北大学
IPC: G06F17/30
Abstract: 一种面向大规模不确定物流网络的需求概率查询方法,采用不确定图G来描述不确定物流网络,计算配送量在不确定物流网络中从源节点到汇聚节点被成功配送的概率,具体是不确定图G的需求概率查询,得到物流网络数据的需求概率的查询结果,即配送量在不确定物流网络中从源节点到汇聚节点被成功配送的概率,不断更新需求概率,进行下一次查询;根据计算出的结果,制定物流配送线路进行物流配送。采用本方法来处理物流网络的不确定性,能够提高运输效率减少成本。
-
公开(公告)号:CN102043852A
公开(公告)日:2011-05-04
申请号:CN201010600979.8
申请日:2010-12-22
Applicant: 东北大学
IPC: G06F17/30
Abstract: 一种基于路径信息的可扩展标记语言祖先后代索引方法,包括以下步骤:步骤一:解析XML文档;步骤二:建立B+树索引;步骤三:使用B+树索引进行祖先后代关系查询。本发明是一个实用的索引,基于计算机数据库领域内的B+树结构,该结构保证了在绝大多数情况下,采用索引都会比不采用索引查询效率有很大的提高,该索引无论对于基于关系数据库的XML数据库管理系统还是基于Native存储的XML数据库管理系统,都易于实现;该结构实现简单,只需要进行一次节点扫描,对于文档的数据是否有数据倾斜状况,都有很好的性能;还可以很好的处理A1//A2//…//An这类复杂的路径查询,避免了把长路径分成若干个祖先后代对的做法,有效的实现了对索引节点一次扫描即可得到查询结果。
-
公开(公告)号:CN101408901A
公开(公告)日:2009-04-15
申请号:CN200810229043.1
申请日:2008-11-26
Applicant: 东北大学
IPC: G06F17/30
Abstract: 一种基于主题词条的跨类型数据的概率聚类方法,属于数据库领域,包括以下步骤:(1)定义主题词条的类型;将跨类型数据分为主题相关词条、主题半相关词条和主题不相关词条;(2)对每类词条分配概率;(3)用概率表示数据主题;(4)构建数据的主题词条概率相似性矩阵M;对步骤(3)中跨类型数据的任意两个数据dx和dy,计算dx和dy任意两种描述形式的相似度,将相似度大于某一阈值的相似性的概率相加,将任意两个数据的直接相关概率存储在矩阵M中;(5)基于矩阵M构建聚类模型Mc;(6)基于聚类模型Mc的聚类方法。本发明利用与主题相关的词条项的相似性来对跨类型数据进行聚类,提高了数据聚类的精度,减少了聚类时间。
-
公开(公告)号:CN101266607A
公开(公告)日:2008-09-17
申请号:CN200810011323.5
申请日:2008-05-09
Applicant: 东北大学
IPC: G06F17/30
Abstract: 一种基于最大间隙空间映射的高维数据索引方法,属于数据库领域,包括以下步骤:步骤1进行最大间隙空间映射计算给定数据空间的每个维间隙值,选择维间隙值较大的前K值,将给定空间的实际数据点投影到K个维空间;步骤2构造MS-treeMS-tree首先找到适当的插入节点M,如果该节点没有满,则该对象被直接插入到该节点中;如果该节点已满,则该节点将被分裂,然后检查插入对象是否在结点M的MBR中,如果不在,则更新M的MBR并将原始空间映射到一个低维空间;步骤3进行相似性查找本发明的有益效果是通过减少假活动子树的访问来提高查询性能,因此,减少对假活动子空间的访问次数来改善索引相似性查询的性能。
-
-
-
-
-