-
公开(公告)号:CN118014685A
公开(公告)日:2024-05-10
申请号:CN202410161790.5
申请日:2024-02-05
Applicant: 东北大学
IPC: G06Q30/0601 , G06F16/9536 , G06N5/022 , G06N3/045 , G06N3/09
Abstract: 本发明提供一种基于知识图谱增强图对比学习的推荐方法,涉及数据推荐技术领域。该方法首先获取所有需要推荐的用户以及需要推荐的物品,并获取物品的属性信息;然后构建四个图结构;再构建多图融合模型,对推荐物品和用户进行特征向量学习,得到混有知识图谱信息和协作图信息的用户特征向量和推荐物品特征向量;构建纯协作图模型,对用户特征向量以及推荐物品特征向量进行学习,得到只包含交互信息的用户向量表示和推荐物品向量表示;确定统一的优化目标,进行迭代学习,得到用户和物品的两组特征向量;基于得到的用户和物品的特征向量,以及需要被推荐的用户列表,遍历用户列表,依次为每一个用户进行推荐。
-
公开(公告)号:CN112765469B
公开(公告)日:2023-10-27
申请号:CN202110096836.6
申请日:2021-01-25
Applicant: 东北大学
IPC: G06F16/9535 , G06F16/957 , G06F16/901
Abstract: 本发明提供一种从Web点击流数据中挖掘代表序列模式的方法,涉及序列模式挖掘技术领域。该方法首先输入Web点击流序列数据集、最小支持度和最大覆盖度,并遍历一次数据集保留不小于最小支持度的所有频繁站点作为序列生成种子;对每一个序列生成种子采用缝隙扩展枚举树,结合缝隙扫描剪枝策略和闭合检查得到该种子的所有频繁闭合超序列;进一步采用局部代表序列筛选技术选出该种子的所有代表序列;遍历所有序列生成种子,输出每个种子的代表序列,得到Web点击流数据的所有代表序列模式。优点是:代表序列模式能有效解决频繁序列模式数量庞大而可用性低的矛盾,能增强结果的可用性;为Web点击流的在线用户行为分析、信息推荐、引擎优化等应用提供参考。
-
公开(公告)号:CN116501986A
公开(公告)日:2023-07-28
申请号:CN202310546779.6
申请日:2023-05-16
Applicant: 东北大学
IPC: G06F16/9536 , G06N3/045 , G06N3/08 , G06N3/0895 , G06Q50/00
Abstract: 本发明提供一种针对大图的基于对比学习的半监督社区搜索方法,首先调用图划分算法对原始图进行预处理,将原始图处理成一些彼此间相关性较小的图分区,然后从原始图中选择出训练节点,确定每个训练节点所对应的图分区并进行初始化,其次联合图神经网络、超图神经网络和多层感知机模型对初始的低阶编码和高阶编码进行变换,得到图分区中每个节点最终的低阶编码和高阶编码后,使用对比学习技术进行模型参数训练,最后使用训练好的模型输出查询结点对应图分区的低阶编码矩阵,并采用图搜索算法确定查询节点的社区结果;本发明方法不仅可以自动提取数据集的潜在特征,减少人工标注的成本,而且能有效内存消耗低,处理大规模图时效率较高。
-
公开(公告)号:CN116401361A
公开(公告)日:2023-07-07
申请号:CN202310038679.2
申请日:2023-01-13
Applicant: 东北大学
IPC: G06F16/35 , G06N3/042 , G06N3/0455 , G06N3/0895
Abstract: 本发明提供一种基于自监督双粒度多图学习的文本分类方法,涉及文本分类技术领域。该方法首先获得原始文本数据集与对应的标签集,并对原始文本数据集进行数据预处理,得到多图数据集;再利用增强编码器对图数据进行增强,并使用图编码器学习增强后的图表示;然后将多头自注意力机制作用于图表示,学习图包中各个图之间的上下文信息,生成包级图,并利用包编码器通过包级图学习包表示;再通过图‑图的学习机制同时学习图表示和包表示,并设计包级对比损失和图级对比损失作为损失函数,自监督地学习包表示和图表示;最后对待分类的文本分类任务利用学习到的包表示和图表示,在粗粒度和细粒度上对待分类的文本同时进行标签预测,实现文本分类。
-
公开(公告)号:CN110764912B
公开(公告)日:2022-09-09
申请号:CN201911021198.0
申请日:2019-10-25
Abstract: 本发明公开一种自适应任务调度器及方法,属于分布式流处理系统负载均衡调度技术领域,该调度器主要包括性能监控数据采集模块、平滑加权轮询任务调度模块以及基于蚁群算法的任务调度模块,采用本发明的自适应任务调度器进行任务调度的方法在任务运行初始阶段,采用平滑加权轮询任务调度算法,根据节点的权重分配任务,在保证选中次数不变的情况下,使得节点不被连续选中;当集群的负载超过设定阈值的时候,为避免拖延任务集合的整体完成时间,使用基于蚁群算法的负载均衡算法在一定的迭代次数内计算出最优的任务分配方案,待集群资源降低到设定阈值下时候,继续采用平滑加权轮询算法。
-
公开(公告)号:CN114782051A
公开(公告)日:2022-07-22
申请号:CN202210484477.6
申请日:2022-05-06
Applicant: 东北大学
Abstract: 本发明提供了基于多特征学习的以太坊钓鱼诈骗账户检测装置及方法,涉及以太坊交易网络的安全领域。该装置包括数据采集模块、以太坊钓鱼诈骗网络构建模块、以太坊钓鱼诈骗网络初始化模块、特征提取模块、账户类别平衡模块和分类模块。该方法包括采集以太坊钓鱼诈骗相关数据;构建以太坊钓鱼诈骗网络G并确定该网络的邻接矩阵A;初始化该网络的节点特征和边特征,获得初始节点特征矩阵F和初始边特征矩阵X;根据A、F和X提取每个节点的相关特征,并为各特征分配注意力系数;对该网络中的账户类别进行平衡处理后,使用图神经网络更新节点的节点特征,并基于交叉熵损失函数训练分类器,区分出钓鱼诈骗账户和正常账户。该装置及方法准确度和安全性均较高且节约资源。
-
公开(公告)号:CN114510506A
公开(公告)日:2022-05-17
申请号:CN202210149443.1
申请日:2022-02-18
Applicant: 东北大学
IPC: G06F16/2455 , G06F16/2458
Abstract: 本发明提供了一种基于查询点的流数据簇搜索方法,涉及流数据聚类技术领域。该方法包括利用QALSH算法确定到达流数据点的近邻的步骤和利用近邻以扩张的方式搜索出某查询点所属簇的全部数据点的步骤。该方法针对于流数据,能够基于查询点快速且准确地搜索该查询点所属的簇,即该查询点所属簇的所有数据点。实现的过程中,那些与该查询点不属于同一个簇的数据点不会参与到簇搜索过程中,所以既能实现应用需求,又能节省计算资源。另外,在进行簇搜索的过程中,利用数据点之间的近邻关系可以确定出簇中哪些数据点距离查询点更近,哪些数据点距离查询点稍远,这样对于那些距离更近的数据点可以做优先推荐,提高推荐的合理性和实用性。
-
公开(公告)号:CN113626166A
公开(公告)日:2021-11-09
申请号:CN202110890110.X
申请日:2021-08-04
Abstract: 本发明公开了Gaia系统中基于资源反馈的负载均衡任务调度方法及系统,能够提高集群资源利用率,同时减少系统任务的执行时间。该方法可以在集群出现负载不均时,重新分配每个资源节点的任务,提高集群资源利用率的同时减少系统任务的执行时间。该方法通过实现的实时监控系统Monitor来监控资源节点的负载情况,并根据区域划分算法把集群划分为过负载、轻负载、近饱和以及差饱和四个区域,由于过负载区域的机器负载过重而影响整个集群的执行效率,因此用基于人工萤火虫算法的调度策略,把过负载区域中资源节点的任务调度给差饱和区域的资源节点,提高了系统的集群利用率、执行效率以及吞吐量效率。
-
公开(公告)号:CN110908796A
公开(公告)日:2020-03-24
申请号:CN201911067587.7
申请日:2019-11-04
IPC: G06F9/50
Abstract: 本发明公开了一种Gaia系统中的多作业合并与优化系统及方法,属于大数据处理技术领域,解决了Gaia系统中用户作业和用户指定的资源大小方面的不匹配问题。本发明方案为:代理层通过集群交互层与集群进行数据交互。代理层,包括:作业信息采集模块,用于收集用户提交的作业,解析获得作业信息;作业分类模块,用于根据作业信息将作业分类为可合并型作业和不可合并型作业并送入作业缓冲池进行缓冲存储;作业合并模块,用于提取作业缓冲池中的可合并型作业进行合并,得到合并后的作业送入作业优化模块。作业优化模块,用于对合并后的作业进行优化,优化后的作业送入作业缓冲池进行缓冲存储。集群通过集群交互层从作业缓冲池中读取优化后的作业并执行。
-
公开(公告)号:CN110750385A
公开(公告)日:2020-02-04
申请号:CN201911021201.9
申请日:2019-10-25
IPC: G06F11/14 , G06F16/182
Abstract: 本发明公开一种基于受限恢复的图迭代器及方法,属于分布式迭代计算技术领域。该迭代器采用分布式图计算算法的join-GroupBy-Union-aggregation模式将图计算转换操作中的宽依赖转化为窄依赖,并对部分数据进行备份,从而使得只需恢复故障节点而不需要完全将整个计算回退到最近检查点保存的状态;在故障节点恢复时采用所有健康节点来并行恢复,进一步加快了故障恢复的速度;图迭代中在迭代尾部添加检查点的非阻塞检查点模型,加速了检查点的写入速度,并且在尾部检查点添加了迭代感知器,使得仅在当前迭代中的检查点完成后才启动下一个迭代,有助于在迭代图处理期间协调检查点的创建。
-
-
-
-
-
-
-
-
-