一种并行环境下的有向图可达性链表生成及查询方法

    公开(公告)号:CN103399902B

    公开(公告)日:2016-05-25

    申请号:CN201310317126.7

    申请日:2013-07-23

    Applicant: 东北大学

    Abstract: 一种并行环境下的有向图可达性链表生成及查询方法,属于大图数据处理领域。将一个有向图分发到各个处理机中,每个处理机存储图中的节点及节点所对应的子节点;将分割到各个处理机内的图数据压缩;计算主干图上主干节点可达性编码;构建链式索引;在链式索引上建立跳表;各处理机间进行数据通信:各处理机向其他处理机发送跳表信息;各处理机更新自身的跳表信息;建立全图可达性索引。本发明通并行环境下的图可达性压缩技术,极大降低图数据大小、降低系统计算负载,使得系统处理更大规模的图数据。本发明提高从磁盘上读取数据的速度,间接加快查询速度,保证查询结果准确性,极大降低并行计算系统在查询时的网路通信代价和查询时间。

    一种分布式计算图节点相似度的方法

    公开(公告)号:CN104158840A

    公开(公告)日:2014-11-19

    申请号:CN201410323742.8

    申请日:2014-07-09

    Applicant: 东北大学

    Abstract: 一种分布式计算图节点相似度的方法,属于计算机数据挖掘领域,包括:采用主从模式搭建分布式计算平台;主计算机读入对象数据,建立图模型并发送给各子计算机;主计算机进行任务划分,并将各子任务分配给各子计算机;各子计算机计算其各任务节点分别传递给图模型中节点对的相似度增量计算值;主计算机计算偏移系数并分别发送给对应的各子计算机;子计算机对本地各任务节点的相似度增量计算值进行修正,并将修正后的本地各任务节点的相似度增量进行求和后传送给主计算机;主计算机对图模型中各节点对的相似度进行整合,最终得到图模型中各个节点对的相似度;该方法相比于传统SimRank计算方法,传输代价低,计算时间短,效率明显提高。

    环形架构数据库上预连接表的生成方法

    公开(公告)号:CN102323947B

    公开(公告)日:2013-07-10

    申请号:CN201110260847.X

    申请日:2011-09-05

    Applicant: 东北大学

    Abstract: 一种环形架构数据库上预连接表的生成方法,属于分布式数据存储领域,方法为:建立Key-Value数据库;构建关键列的列值索引并将其存储到数据库中;生成预连接表;若原数据表进行更新,则对相应预连接表进行更新;进行数据查询,输出查询结果;采用本发明的预连接表生成方法,可以在环形架构的Key-Value数据库中高效的生成预连接表,提供快速的连接查询功能;通过优化计算过程,降低了生成连接表的时间空间代价,加快了计算速度;同时根据更新维护方法,降低了查询延迟,可以提供实时的连接查询结果。

    组合式大屏幕流媒体播放的计算机控制方法

    公开(公告)号:CN101901126A

    公开(公告)日:2010-12-01

    申请号:CN201010224036.X

    申请日:2010-07-12

    Applicant: 东北大学

    Abstract: 组合式大屏幕流媒体播放的计算机控制方法,属于组合式大屏幕的显示控制领域,采用屏幕比较传输的方式,即选取每一帧图像中的若干像素点作为采样点,将这些点分别与前一帧中的对应点比较:若不同,认为该点周围区域内的图像已发生改变,将该区域内的图像传至目的主机;若相同,认为该点周围区域图像没有变化,不进行传输;通过比较传输,当图像与上一帧相比变化不大时,可大大减少传输的数据量,本发明方法的另一个优点是价格低廉且通用性更强。

    一种面向幂律分布的GPU图计算加速方法及装置

    公开(公告)号:CN119168840A

    公开(公告)日:2024-12-20

    申请号:CN202411339123.8

    申请日:2024-09-25

    Applicant: 东北大学

    Abstract: 本申请提出一种面向幂律分布的GPU图计算加速方法及装置,属于图计算技术领域,其中,方法包括:根据图数据中活跃顶点的数量、大顶点的数量以及小顶点的数量确定对应顶点使用推操作或拉操作,根据对应顶点的推操作或拉操作更新对应的信箱中的信息以及下一轮的活跃顶点及其数量;采用更新后的信箱中的信息更新对应的顶点,得到更新后的图数据;在下一轮的活跃顶点的数量为零的情况下,以更新后的图数据作为算法的结果进行输出;本申请针对幂律分布图中超级顶点上的推拉问题,提出细粒度推拉策略,避免了超级顶点上的低效率拉操作,提高执行效率;本申请还采用k‑工作池策略平衡负载,在面对真实图的幂律分布现象时,能够更好地分配负载。

    一种基于多任务的用户长期活跃预测方法

    公开(公告)号:CN118411196A

    公开(公告)日:2024-07-30

    申请号:CN202410467396.4

    申请日:2024-04-18

    Applicant: 东北大学

    Abstract: 本发明提供一种基于多任务的用户长期活跃预测方法,涉及活跃度预测技术领域,本发明首先集成了可推断的周期时间信息(如周、日、月),以解决短期行为在确定用户长期周期趋势方面的局限性,并提出了一种周期感知的关注机制来推断用户未来的长期周期性行为。另外,本发明设计了一个行为周期趋势预测任务,以获得不同行为的个性化趋势。最后,本发明通过同时训练长期活动天数的预测和行为周期趋势的预测,有效解决了使用有限的短期行为进行长期预测的挑战。由于估计的用户行为和用户画像是导致用户之间行为差异的内在因素,因此我们在这里采用它们来预测用户每种行为的个性化周期性趋势。

    基于用户风格和时间感知的在线教育群组问答匹配方法

    公开(公告)号:CN118170876A

    公开(公告)日:2024-06-11

    申请号:CN202410172858.X

    申请日:2024-02-07

    Applicant: 东北大学

    Abstract: 本发明公开一种基于用户风格和时间感知的在线教育群组问答匹配方法,涉及深度学习自然语言处理技术问题答案匹配领域。构建BigData数据集;将BigData数据集划分为训练集、验证集和测试集;构建用户风格感知和时间感知问答匹配模型;利用训练集对模型进行训练,并利用验证集求得性能指标进而寻找最优的超参数;将测试集输入到最终的用户风格感知和时间感知问答匹配模型,得到匹配结果。本发明通过用户风格感知识别用户风格来增强问题提取,减少问题的数量和其他类型的对话之间的严重不平衡产生的噪声的影响,通过时间感知减少一个问题的大量潜在答案形成的噪声的影响,与其他的传统问答匹配模型相比,提高了模型的问答匹配效果,减少了数据噪声的影响。

    基于消息队列的数据流处理检查点文件存储的方法及装置

    公开(公告)号:CN112199334B

    公开(公告)日:2023-12-05

    申请号:CN202011146473.4

    申请日:2020-10-23

    Applicant: 东北大学

    Abstract: 本发明提供了一种基于消息队列的数据流处理检查点文件存储的方法及装置,其中该方法根据流式计算中产生的用于保存中间状态的检查点文件进行特征分析,将其存储结构与消息队列消息队列的存储模型进行逻辑适配,设计文件操作接口与消息操作接口的映射关系,使用Zookeeper保存映射关系元信息部分;自定义分布式文件系统协议,提供依赖库的无服务形式被上游流式处理应用所依赖,以一种对用户透明的运行方式,根据实现的映射规则将检查点数据路由到对应的消息队列存储结构中,当流式应用重启时,根据Zookeeper中的元信息获取到消息队列中相应的状态数据,进行任务恢复以实现数据流计算框架容错机制。

    一种基于强化学习的个性化习题推荐方法

    公开(公告)号:CN116680477A

    公开(公告)日:2023-09-01

    申请号:CN202310703313.2

    申请日:2023-06-14

    Applicant: 东北大学

    Abstract: 本发明提供一种基于强化学习的个性化习题推荐方法,涉及教育数据挖掘技术领域。本发明首先获得学习者学习记录,通过知识追踪模型判断出学习者潜在的知识水平,将其作为学习者特征的一部分,使得对学习者的特征建模更加准确。之后通过强化学习算法来删除习题记录中学习者误选到的不满意的习题,从而提升推荐的准确性。最后通过个性化推荐模型对学习者进行习题推荐。本发明将个性化推荐、知识追踪、强化学习算法相结合,在考虑学习者潜在知识水平的同时,还去掉了学习过程中误选习题带来的影响,具有重要的理论和实际运用价值。

Patent Agency Ranking