一种基于双缀过滤的大数据相似性连接方法

    公开(公告)号:CN105677757A

    公开(公告)日:2016-06-15

    申请号:CN201511020637.8

    申请日:2015-12-30

    Applicant: 东北大学

    CPC classification number: G06F17/30619 G06F17/30699

    Abstract: 本发明提供一种基于双缀过滤的大数据相似性连接方法,包括:提取不同数据源的文本格式数据,得到待清洗的实体记录;对实体记录中的元素进行词频统计并对实体记录中的元素按词频升序排序;将实体记录前缀中的每一个元素作为该实体记录的索引,对实体记录建立倒排索引表;对同一个索引内的实体记录对进行双缀过滤相似性连接,得到相似度大于相似度阈值的实体记录对,实现分布式计算。本发明利用实体记录对中前后缀中元素位置信息实现过滤,极大地降低了候选集合的大小,针对不同大小的数据源以及不同阈值的情况,双缀过滤可以达到良好的时间效果。并且双缀过滤可以实现面向大数据的分布式计算,可以将其应用于分布式计算中,提高大数据清洗效率。

    基于HBase分布式环境下移动对象并行网格索引同步方法

    公开(公告)号:CN105354263A

    公开(公告)日:2016-02-24

    申请号:CN201510697236.X

    申请日:2015-10-19

    Applicant: 东北大学

    CPC classification number: G06F16/27 G06F16/22

    Abstract: 本发明提供了基于HBase分布式环境下移动对象并行网格索引同步方法,包括几步:(1)针对每一个网格单元,创建一个ZooKeeper结点作为锁目录;(2)每个希望获得锁的索引用户进程在锁目录下创建一个结点,该结点类型为有序临时节点。(3)当前索引用户进程调用ZooKeeper的getChildren方法得到锁目录所有子节点,并判断序号最小的子结点是不是自己创建的结点,是,那么它就获得了这个锁;(4)不是,那么它就调用ZooKeeper的exists方法并监控ZooKeeper上目录节点列表中比自己序号小的最晚创建的有序临时节点状态;(5)监视的比自己序号小的最晚创建的节点状态发生变化,则跳转到步骤3,直到退出锁竞争。本发明优点是支持云计算环境中基于HBase的网格索引的高吞吐率的并发操作。

    一种利用历史GPS数据进行地图匹配的方法

    公开(公告)号:CN104330089A

    公开(公告)日:2015-02-04

    申请号:CN201410649530.9

    申请日:2014-11-17

    Applicant: 东北大学

    CPC classification number: G01C21/30

    Abstract: 本发明公开了一种利用历史GPS数据进行地图匹配的方法,将历史GPS点记录按车辆ID、记录时间、坐标区域组织成轨迹形式,并将轨迹转换成KML文件;将对应区域的路网数据裁剪出来并转换成KML格式文件;将得到的KML文件叠加在一起,利用标记方法为轨迹中的每一个GPS点标记其所在路段ID,此部分标记数据记为数据集A;只需为其补充方向角信息即可作为训练数据,所得标记数据记为数据集B;将得到的数据集A和第四步得到的数据集B合并作为ELM算法的训练数据集,选定部分与数据集A不相交的历史数据集作为测试数据,用寻参算法寻找ELM参数,直至预测精度最高,此时对应的ELM模型即为该区域内的地图匹配模型。

    一种基于VGR索引结构的K匿名隐私保护算法

    公开(公告)号:CN104199883A

    公开(公告)日:2014-12-10

    申请号:CN201410418141.5

    申请日:2014-08-19

    Applicant: 东北大学

    CPC classification number: G06F17/30327 G06F21/6254

    Abstract: 本发明实施例提供了一种基于VGR索引结构的K匿名隐私保护算法,涉及数据安全领域,可以降低冗余率,减少传输时的通信代价,降低后台服务器的开销,提高整体性能。所述算法包括:根据查询对象的坐标信息定位到所在网格,并由网格里面的指针定位到R*树叶子中的一个条目,判断该条目是否满足匿名要求,若满足则输出该条目的匿名区域;如果不满足,则向上找其父亲结点,如果父亲结点满足,则按照不同的扩展策略进行简化合并,直到满足要求的匿名区域,如果父亲结点仍然不满足,则继续递归向上,直到找到满足要求的匿名区域。

    一种海量微博数据的分布式分类装置及方法

    公开(公告)号:CN103020712A

    公开(公告)日:2013-04-03

    申请号:CN201210583886.8

    申请日:2012-12-28

    Applicant: 东北大学

    Abstract: 一种海量微博数据的分布式分类装置及方法,属于数据挖掘技术领域。该装置采用分布式结构,根据ELM的处理方法,每个从控制机将自身处理的用于生成最终微博数据分类器的中间结果发送给主控制机,主控制机接收所有从控制机发送来的中间结果后,根据ELM的原理,得到最终的微博数据分类器,利用产生的微博数据分类器实现对微博数据的分类。克服了以往的利用极限学习机技术仅能应用于集中式环境,无法适应大规模训练样本集的ELM分类的缺陷,使得处理和分析海量微博数据成为可能,令应用中积累的海量微博数据的效用得到充分发挥,起到了更好的为应用服务的效果。

    一种面向同构对称发布及订阅系统的Top-k查询方法

    公开(公告)号:CN103020234A

    公开(公告)日:2013-04-03

    申请号:CN201210544907.5

    申请日:2012-12-17

    Applicant: 东北大学

    Abstract: 本发明属于数据库管理技术领域,提供了一种面向同构对称发布及订阅系统的Top-k查询方法,针对结果是否可以打分进行排序,分别提出了基于高复杂度打分函数的面向匹配结果可以排序的Top-k查询算法和基于k-支配Skyline查询的面向匹配结果不可排序的Top-k查询算法,在订阅数量、打分函数复杂度、不同数据分布、选择度以及k值方面时间效率优势越明显,具有较高的学术价值及应用价值,解决了面向用户最优推荐的问题,对同构对称发布及订阅系统的环匹配海量候选结果进行了有效地处理,快速、高效地为用户推荐满意度最大化的匹配,实现了面向用户的最优推荐,具有较强的推广与应用价值。

    面向大规模不确定物流网络的需求概率查询方法

    公开(公告)号:CN102799674A

    公开(公告)日:2012-11-28

    申请号:CN201210248045.1

    申请日:2012-07-17

    Applicant: 东北大学

    Abstract: 一种面向大规模不确定物流网络的需求概率查询方法,采用不确定图G来描述不确定物流网络,计算配送量在不确定物流网络中从源节点到汇聚节点被成功配送的概率,具体是不确定图G的需求概率查询,得到物流网络数据的需求概率的查询结果,即配送量在不确定物流网络中从源节点到汇聚节点被成功配送的概率,不断更新需求概率,进行下一次查询;根据计算出的结果,制定物流配送线路进行物流配送。采用本方法来处理物流网络的不确定性,能够提高运输效率减少成本。

    面向大规模不确定图数据库的子图查询方法

    公开(公告)号:CN102073708A

    公开(公告)日:2011-05-25

    申请号:CN201010616603.6

    申请日:2010-12-30

    Applicant: 东北大学

    Abstract: 一种面向大规模不确定图数据库的子图查询方法,其特征在于对于一个不确定图数据库和一个查询图q,处理概率子图查询,主要包括以下步骤:步骤一:结构化过滤,步骤二:概率过滤,步骤三:验证候选集,本发明提供的不确定图数据库的子图查询方法能够高效地处理不确定图数据子图查询问题,对未知生物蛋白质结构的预测具有实际的应用价值。

    基于隐含分类信息的模式匹配方法

    公开(公告)号:CN102063489A

    公开(公告)日:2011-05-18

    申请号:CN201010613046.2

    申请日:2010-12-29

    Applicant: 东北大学

    Abstract: 一种基于隐含分类信息的模式匹配方法,属于数据库技术领域,包括发现源数据实例的可能分类、寻找分类属性和为属性匹配关联相应的过滤条件三个步骤。本发明限定了属性匹配的应用范围,提高数据交换的质量,相比于传统的Context-Based技术,本方法从数据实例中寻找真正的分类信息,来进行约束条件的构建,而不依赖于显示分类属性;不论源模式中是否存在显示分类属性,本发明中的方法都能从实例数据中提取约束信息,限制属性匹配,提高数据转换质量。

    一种面向多维数据管理的云计算平台查询处理方法

    公开(公告)号:CN102063486A

    公开(公告)日:2011-05-18

    申请号:CN201010611355.6

    申请日:2010-12-28

    Applicant: 东北大学

    Abstract: 一种面向多维数据管理的云计算平台查询处理方法,属于数据库领域,该方法包括以下步骤:步骤1构建一个云计算平台,该平台由主节点和若干从属节点组成,主节点用于发送查询,从属节点用于存储多维数据对象、接收查询并将查询结果返回给用户,主节点和从属节点由互联网连接;步骤2采用IDBC算法将所有从属节点划分成多个簇,使得在相同簇中的从属节点含有相似的数据对象;步骤3为每个从属节点簇构建基于四叉树的多维索引,并将其组织在一个CAN覆盖网络中;步骤4进行查询处理。

Patent Agency Ranking