Gaia集群中面向数据分布特征的维表缓存管理方法及系统

    公开(公告)号:CN113626434A

    公开(公告)日:2021-11-09

    申请号:CN202110890099.7

    申请日:2021-08-04

    Abstract: 本发明公开了Gaia集群中面向数据分布特征的维表缓存管理方法及系统,构建了一套从构建到查询再到增量更新的全周期分布式缓存管理机制。包括数据分布特征提取模块和缓存管理模块,缓存管理模块为缓存构建、缓存查询和缓存更新子模块。数据分布特征提取模块从维表数据中抽取数据样本,统计样本数据的p分位点作为全量数据的分布特征。缓存构建子模块,根据统计的p分位点完成路由数组的初始化;利用分段确定方法为每条维表数据确定所属分段;利用索引建立方法为每条维表数据建立索引。缓存查询子模块,采用缓存查询方法,根据流数据记录的关键字从多路平衡跳表中查询相应的维表数据。缓存更新子模块,定义了p个分段跳表之间的平衡调整方法。

    面向大规模高维序列数据的交互特征并行选择方法

    公开(公告)号:CN108897990B

    公开(公告)日:2021-10-29

    申请号:CN201810575946.9

    申请日:2018-06-06

    Applicant: 东北大学

    Abstract: 本发明提供一种面向大规模高维序列数据的交互特征并行选择方法,包括:对原始高维SNP数据进行编码;通过基于图论的块过滤,保留与目标类相关的编码后的SNP数据;将与目标类相关的SNP数据执行细粒度的特征过滤;以γ为粒度划分特征过滤后的序列数据集为若干块,并基于极大等位公共子序列MACS得到特征候选区域;对候选区域对应的数据集基于MapReduce进行特征区域的多样性选择,得到代表性特征区域;对代表性特征区域采用置换搜索的并行蚁群算法进行交互特征选择,得到显著性特征子集集合,即显著SNP位点集合。本发明为解决在大规模序列数据中进行交互特征选择提出一个全新的框架,使得特征选择更加高效、功能更为强大。

    一种Gaia系统中基于数据特征的动态优先级迭代器

    公开(公告)号:CN112527483A

    公开(公告)日:2021-03-19

    申请号:CN202011473342.7

    申请日:2020-12-15

    Abstract: 本发明提供一种Gaia系统中基于数据特征的动态优先级迭代器,涉及分布式大数据计算技术领域。该迭代器包括优先级调度模块、全量迭代计算模块和增量迭代计算模块;优先级调度模块读取数据源的数据作为迭代计算的初始工作集,并在每次迭代任务执行过程中维护一个用于查找和选择数据单元的跳表,以及一个用于保存数据单元对应的状态信息的状态表;并在每次迭代任务开始时按照优先级调整公式来更新状态表,当本次迭代任务所输入的数据单元全部更新完后,确定每个数据单元的优先级;Gaia系统则根据各个数据单元的优先级信息进行迭代计算;全量迭代模块由BulkIterate算子实现迭代计算,增量迭代模块由Delta Itreate算子实现迭代计算。

    一种Gaia系统中的多表连接优化方法

    公开(公告)号:CN112256705A

    公开(公告)日:2021-01-22

    申请号:CN202011267934.3

    申请日:2020-11-13

    Abstract: 本发明提供一种Gaia系统中的多表连接优化方法,为了尽可能减少全局中间连接表体积进而降低I/O代价,本发明设计了一个连接索引结构,结合动态规划算法在优化连接顺序的同时对每个连接表的等值连接关系进行优化,同时针对连接计算代价和I/O代价进行了优化,有效地减少了多连接任务的运算时间和中间数据的传输量;也就是说,本发明设计了一种描述连接表中列关系的索引结构,此索引结构可以快速找到两个表的连接关系及每一列是否冗余列。

    一种社交网络文本数据的索引方法

    公开(公告)号:CN107153687B

    公开(公告)日:2021-01-05

    申请号:CN201710281671.3

    申请日:2017-04-18

    Applicant: 东北大学

    Abstract: 本发明公开了一种社交网络文本数据的索引方法,包括获取需求用户的地理位置,根据需求用户输入的需求,对社交网络中的文本数据进行分词处理,获取与需求用户的需求相匹配的关键词组;根据所获取的关键词组,建立索引树DLIR‑Tree;根据需求用户的需求、地理位置及区域半径查询索引树DLIR‑Tree,得到相应的文本数据。考虑文本数据和地理位置的混合索引结构,简称DLIR‑Tree,以便于根据用户的需求快速搜索得到符合需求及在区域范围内与关键词组相关的文本信息,并且能够通过边界评分方式提供搜索空间的剪枝能力,通过利用地理位置已经查询的需求建立索引,增大了索引能力,减低了索引的数据处理量,提供了工作效率。

    一种Gaia中支持多作业并行执行的代理方法

    公开(公告)号:CN110891083A

    公开(公告)日:2020-03-17

    申请号:CN201911070906.X

    申请日:2019-11-05

    Abstract: 本发明提供的一种Gaia中支持多作业并行执行的代理方法,在在群的每个节点中Gaia系统内均构建Netty客户端;在主节点上Gaia系统内基于Netty的代理框架构建一个代理端;可以实现在作业收集的过程中,多个客户端与代理端进行独立通信,解决了因物理机不同导致Gaia作业无法互通提交的问题;代理端在接收到作业之后,通过一定的执行多作业的Slot资源分配策略取待合并的作业,对作业合并后再进行执行,该方法使得当前Slot数量能够被最大程度地利用,执行最多的执行计划计划,增大一次作业执行的吞吐量。

    一种基于乐观容错方法的迭代器

    公开(公告)号:CN110795265A

    公开(公告)日:2020-02-14

    申请号:CN201911021197.6

    申请日:2019-10-25

    Abstract: 本发明公开一种基于乐观容错方法的迭代器,属于大数据环境下的分布式迭代计算技术领域,该迭代器包括增量迭代器和批量迭代器,综合考虑了不同大小的迭代任务和不同故障率的迭代计算任务,引入一个补偿函数,系统使用该函数重新初始化丢失的分区。发生故障时,系统暂停当前迭代,忽略失败的任务,并将丢失的计算重新分配给新获取的节点,调用分区上的补偿函数以恢复一致状态并恢复执行。对于故障频率较低的情况,大大减少了计算的延迟,提高了迭代处理效率。对于故障频率较高的情况,该迭代器可以保证迭代处理效率不低于优化前的迭代器。该乐观容错迭代器不用添加任务额外的操作,有效降低了容错开销。

    一种优化网络多连接的系统和方法

    公开(公告)号:CN110750560A

    公开(公告)日:2020-02-04

    申请号:CN201911021143.X

    申请日:2019-10-25

    Abstract: 本发明公开一种优化网络多连接的系统和方法,属于大数据处理技术领域。该系统包括基于数据字典的连接预算模块和逻辑图重构模块,其中基于数据字典的连接预算模块包括等深直方图生成单元和统计信息管理单元,并基于数据字典设计连接预算模型来描述数据分布质量s,用于连接逻辑图重构模块;逻辑图重构模块又分为连接顺序重排单元和DAG重构单元,运用该系统进行网络多连接优化的方法采用了启发式MMAS算法,保证在相对低的时间复杂度内得到近似最优解,大幅降低了多数据集连接计算的时间,解决现有技术中无法自动优化多连接顺序的问题,能够有效地减少程序的执行时间和网络传输、IO吞吐。

    一种本体调试信息的度量与排序方法

    公开(公告)号:CN108804415A

    公开(公告)日:2018-11-13

    申请号:CN201810477586.9

    申请日:2018-05-18

    Applicant: 东北大学

    CPC classification number: G06F17/2785 G06F17/274 G06K9/6277

    Abstract: 本发明公开了一种本体调试信息的度量与排序方法,包括根据用户对辩解的认知,提取辩解的度量标准,所述度量标准包含复杂度、相关度及新颖度三方面;采用ListNet排序学习方法构造top k排序模型,根据该排序模型对特征化后的辩解进行排序,获取排序前k个易理解的辩解。从用户认知的角度提出一套度量OWL辩解的标准,该套标准综合考虑了复杂度、相关度和新颖度三方面,基于该套标准,构造一个top k排序模型,获取易理解的前k个辩解,帮助用户更好地进行本体不一致的解释工作,从而增强用户体验。

    一种限定性模体的发现方法

    公开(公告)号:CN105046107B

    公开(公告)日:2018-04-20

    申请号:CN201510555372.5

    申请日:2015-08-28

    Applicant: 东北大学

    Abstract: 本发明公开了一种限定性模体的发现方法,涉及生物信息领域,包括以下步骤:1)构建字典表,所构述字典表用于存储指定模式P的模式实例;2)在字典表中以字典顺序列出指定模式P的所有实例集合I={I1…IN},其中,Ii为模体实例;3)对每个模体实例Ii与待检测的核苷酸序列进行比较验证,若第i个实例满足只出现在待检测的核苷酸正例序列集合中,而不出现在反例序列集合中,则该实例作为最终满足条件的模体输出。本发明以简单的方法解决了限定性模体发现问题,最后的实验证明,在合理的时间内,倒排索引算法总是可以找到所有满足条件的模体,从而保证了算法的有效性。

Patent Agency Ranking