-
公开(公告)号:CN118035414A
公开(公告)日:2024-05-14
申请号:CN202410172686.6
申请日:2024-02-07
Applicant: 东北大学
IPC: G06F16/332 , G06F16/33 , G06F16/36 , G06N5/04 , G06N5/022
Abstract: 本发明提供一种基于金融事理知识图谱的推理问答方法,涉及计算机科学与技术的自然语言处理技术领域。该方法包括:获取句子级或篇章级的语料并进行预处理,构建语料数据集并随机划分训练集,采用课程学习的方法将训练集中的语料按照语料的难度等级分组;构建事件抽取模型并训练;获取未作标注的生语料并输入事件抽取模型中抽取事件与事件关系,构建候选事件的事理知识图谱;获取问题并提取目标事件;根据目标事件在候选事件的事理知识图谱中检索候选事件,将候选事件进行向量化表示并更新,再利用线性层对新的候选事件的事件表示进行事件预测;根据候选事件的预测结果确定问题中目标事件的预测回答,优化了传统知识图谱难以进行事件推理的缺陷。
-
公开(公告)号:CN110764912B
公开(公告)日:2022-09-09
申请号:CN201911021198.0
申请日:2019-10-25
Abstract: 本发明公开一种自适应任务调度器及方法,属于分布式流处理系统负载均衡调度技术领域,该调度器主要包括性能监控数据采集模块、平滑加权轮询任务调度模块以及基于蚁群算法的任务调度模块,采用本发明的自适应任务调度器进行任务调度的方法在任务运行初始阶段,采用平滑加权轮询任务调度算法,根据节点的权重分配任务,在保证选中次数不变的情况下,使得节点不被连续选中;当集群的负载超过设定阈值的时候,为避免拖延任务集合的整体完成时间,使用基于蚁群算法的负载均衡算法在一定的迭代次数内计算出最优的任务分配方案,待集群资源降低到设定阈值下时候,继续采用平滑加权轮询算法。
-
公开(公告)号:CN110750385A
公开(公告)日:2020-02-04
申请号:CN201911021201.9
申请日:2019-10-25
IPC: G06F11/14 , G06F16/182
Abstract: 本发明公开一种基于受限恢复的图迭代器及方法,属于分布式迭代计算技术领域。该迭代器采用分布式图计算算法的join-GroupBy-Union-aggregation模式将图计算转换操作中的宽依赖转化为窄依赖,并对部分数据进行备份,从而使得只需恢复故障节点而不需要完全将整个计算回退到最近检查点保存的状态;在故障节点恢复时采用所有健康节点来并行恢复,进一步加快了故障恢复的速度;图迭代中在迭代尾部添加检查点的非阻塞检查点模型,加速了检查点的写入速度,并且在尾部检查点添加了迭代感知器,使得仅在当前迭代中的检查点完成后才启动下一个迭代,有助于在迭代图处理期间协调检查点的创建。
-
公开(公告)号:CN104317801B
公开(公告)日:2017-07-18
申请号:CN201410483041.0
申请日:2014-09-19
Applicant: 东北大学
IPC: G06F17/30
Abstract: 一种面向大数据的数据清洗系统及方法,该系统应用层包括数据解析抽取模块、相似连接模块、相似子图聚集模块、实体采样模块、概率计算与实体查询模块,存储层利用Hadoop提供的分布式存储工具HDFS对数据清洗过程中产生的结构化数据记录、相似数据记录对、相似连通子图进行存储,利用Hadoop提供的分布式存储工具HBase对清洗后的结构化数据记录进行存储。该方法包括获取待清洗数据;相似连接;相似子图聚集;实体采样;概率计算与实体查询。本发明是一种面向大数据的数据清洗系统与不确定数据确定化方法,解决了以往的集中式的相似性连接无法适应大规模数据运算的问题,充分利用图以及相关知识创造性的完成大数据清洗,并为海量数据分析提供了数据准备。
-
公开(公告)号:CN119089935B
公开(公告)日:2025-01-07
申请号:CN202411575701.8
申请日:2024-11-06
Applicant: 东北大学
IPC: G06N3/042 , G06N3/08 , G06F18/22 , G06F18/214
Abstract: 本发明公开一种基于图异常检测的多渠道数据监控范围调整方法,涉及制造业数据监控技术领域。本发明使用深度学习技术识别多渠道数据当中出现的异常,充分利用了渠道数据间的管理关系,避免了人工筛选、简单统计导致的识别不准确问题,同时根据识别的异常自适应地调整数据监控的范围,使监控能自适应的聚焦到易发生异常的环节,提高对异常渠道数据的识别能力,高效、动态的监控制造业多渠道数据,维护产业链的循环畅通,适用于当今大规模产业链的监控应用,同时提高了监控的效率、聚焦能力,更好的维护产业链的稳定运行。
-
公开(公告)号:CN117094558A
公开(公告)日:2023-11-21
申请号:CN202311057854.9
申请日:2023-08-22
Applicant: 东北大学
IPC: G06Q10/0635 , G06F18/25 , G06F18/24 , G06F16/36 , G06N3/045 , G06N3/0442 , G06N3/08
Abstract: 本发明公开一种基于时序图的产业链风险识别方法及系统,涉及产业链风险识别领域。获取产业链数据并构建带有时间序列信息的风险因素图,得到风险因素时序图;获取产业链风险数据;获取产业链状态序列与产业链状态转移图,并根据产业链状态序列与产业链状态转移图对风险因素时序图进行抽取,得到风险因素时序序列数据;对产业链风险数据与风险因素时序序列数据分别进行静态嵌入和动态嵌入,分别得到静态嵌入向量和动态嵌入向量;将动态嵌入向量和风险因素时序图进行联合信息嵌入,得到联合信息嵌入的结果向量集合;对静态嵌入向量和联合信息嵌入的结果向量集合进行基于注意力机制的信息融合,得到融合结果;对产业链风险进行最终的识别与预测。
-
公开(公告)号:CN113609361B
公开(公告)日:2023-11-14
申请号:CN202110961564.1
申请日:2021-08-20
IPC: G06F16/906 , G06N3/0499 , G06N3/098
Abstract: 本发明提供一种基于Gaia系统的数据分类方法,所述方法基于超限学习机实现,Gaia系统由于其更新的底层流处理计算架构和多种全局优化与执行优化技术,相比于其他分布式计算系统具有更好的执行效率。在批处理模式下可实现海量吞吐,在流处理模式下可实现极速响应;另外,由于超限学习机是一种单隐层前馈神经网络,相比于其他的学习机具有更快的学习速度;将上述两种优势进行结合,可使得本发明实现更高效率的数据分类。再者通过构建的初始数据集UCollection自行判断判定启动批处理环境或流处理环境,用户在使用该学习机进行数据分类时可不用关心数据的类型与来源,只需关注对数据的处理过程即可,为用户的使用带来了极大的便利。
-
公开(公告)号:CN110750385B
公开(公告)日:2022-09-09
申请号:CN201911021201.9
申请日:2019-10-25
IPC: G06F11/14 , G06F16/182
Abstract: 本发明公开一种基于受限恢复的图迭代器及方法,属于分布式迭代计算技术领域。该迭代器采用分布式图计算算法的join‑GroupBy‑Union‑aggregation模式将图计算转换操作中的宽依赖转化为窄依赖,并对部分数据进行备份,从而使得只需恢复故障节点而不需要完全将整个计算回退到最近检查点保存的状态;在故障节点恢复时采用所有健康节点来并行恢复,进一步加快了故障恢复的速度;图迭代中在迭代尾部添加检查点的非阻塞检查点模型,加速了检查点的写入速度,并且在尾部检查点添加了迭代感知器,使得仅在当前迭代中的检查点完成后才启动下一个迭代,有助于在迭代图处理期间协调检查点的创建。
-
公开(公告)号:CN110764912A
公开(公告)日:2020-02-07
申请号:CN201911021198.0
申请日:2019-10-25
Abstract: 本发明公开一种自适应任务调度器及方法,属于分布式流处理系统负载均衡调度技术领域,该调度器主要包括性能监控数据采集模块、平滑加权轮询任务调度模块以及基于蚁群算法的任务调度模块,采用本发明的自适应任务调度器进行任务调度的方法在任务运行初始阶段,采用平滑加权轮询任务调度算法,根据节点的权重分配任务,在保证选中次数不变的情况下,使得节点不被连续选中;当集群的负载超过设定阈值的时候,为避免拖延任务集合的整体完成时间,使用基于蚁群算法的负载均衡算法在一定的迭代次数内计算出最优的任务分配方案,待集群资源降低到设定阈值下时候,继续采用平滑加权轮询算法。
-
公开(公告)号:CN104317801A
公开(公告)日:2015-01-28
申请号:CN201410483041.0
申请日:2014-09-19
Applicant: 东北大学
IPC: G06F17/30
CPC classification number: G06F17/30303
Abstract: 一种面向大数据的数据清洗系统及方法,该系统应用层包括数据解析抽取模块、相似连接模块、相似子图聚集模块、实体采样模块、概率计算与实体查询模块,存储层利用Hadoop提供的分布式存储工具HDFS对数据清洗过程中产生的结构化数据记录、相似数据记录对、相似连通子图进行存储,利用Hadoop提供的分布式存储工具HBase对清洗后的结构化数据记录进行存储。该方法包括获取待清洗数据;相似连接;相似子图聚集;实体采样;概率计算与实体查询。本发明是一种面向大数据的数据清洗系统与不确定数据确定化方法,解决了以往的集中式的相似性连接无法适应大规模数据运算的问题,充分利用图以及相关知识创造性的完成大数据清洗,并为海量数据分析提供了数据准备。
-
-
-
-
-
-
-
-
-