-
公开(公告)号:CN113391907B
公开(公告)日:2024-08-06
申请号:CN202110714071.8
申请日:2021-06-25
Applicant: 中债金科信息技术有限公司 , 清华大学
IPC: G06F9/48 , G06F9/50 , G06N3/042 , G06N3/0464 , G06N3/0455 , G06N3/092 , G06N3/048
Abstract: 本发明实施例公开了一种任务的放置方法、装置、设备和介质。该方法包括:根据流处理作业中各算子的并行度以及各个算子之间的连接方式,生成流处理作业对应的任务图;基于预设任务放置模型中的图神经网络,确定任务图中各个任务节点对应的任务embedding向量,并确定资源图中各slot节点对应的资源embedding向量;该资源图为全连接的无向图。基于预设任务放置模型中的循环神经网络,根据任务embedding向量和资源embedding向量,确定每个任务节点对应的slot节点。本发明实施例提供的任务放置模型适用于异构资源,通过采用该模型,在实际流处理作业的过程中可使得吞吐量属性和延迟属性均达到预设要求。
-
公开(公告)号:CN113391907A
公开(公告)日:2021-09-14
申请号:CN202110714071.8
申请日:2021-06-25
Applicant: 中债金科信息技术有限公司 , 清华大学
Abstract: 本发明实施例公开了一种任务的放置方法、装置、设备和介质。该方法包括:根据流处理作业中各算子的并行度以及各个算子之间的连接方式,生成流处理作业对应的任务图;基于预设任务放置模型中的图神经网络,确定任务图中各个任务节点对应的任务embedding向量,并确定资源图中各slot节点对应的资源embedding向量;该资源图为全连接的无向图。基于预设任务放置模型中的循环神经网络,根据任务embedding向量和资源embedding向量,确定每个任务节点对应的slot节点。本发明实施例提供的任务放置模型适用于异构资源,通过采用该模型,在实际流处理作业的过程中可使得吞吐量属性和延迟属性均达到预设要求。
-
公开(公告)号:CN111882063A
公开(公告)日:2020-11-03
申请号:CN202010767850.X
申请日:2020-08-03
Applicant: 清华大学
Abstract: 本说明书公开一种适应低预算的数据标注请求方法、装置、设备及存储介质,其中所述数据标注请求方法,将模型对样本预测的自信程度值与模型对该类样本的历史检测效果相结合,并将预算参数加入请求样本数据的真实标签的影响因素中,从而使模型在合理分配有限预算的条件下,更倾向于请求犯错较多类别样本的真实标签,解决了现有技术中请求向量的选取问题以及对预算影响的忽视,能够更好地应对数据不平衡分布造成的影响,通过监测环境预算的剩余情况来动态调整模型标签请求意愿的积极程度,提高模型的训练效果。
-
公开(公告)号:CN111881995A
公开(公告)日:2020-11-03
申请号:CN202010768030.2
申请日:2020-08-03
Applicant: 清华大学
Abstract: 本说明书公开一种数据流处理方法、装置、计算设备及存储介质,其中所述数据流处理方法包括:接收待处理数据;将待处理数据输入异常检测模型,得到预测标签,所述异常检测模型通过引入在线优化的代价向量训练得到;根据预测标签对待处理数据进行分类。所述异常检测模型的参数根据并行处理相同数据的另两个模型的参数进行调整,根据代价向量取值不同的模型对数据处理的效果来优化该模型的参数,实现根据数据处理的效果对参数取值进行反馈调整,从而减少了现有技术中单纯依靠先验知识取值的不确定性,可以实时在线优化代价向量,更合理地应对数据的不平衡分布。
-
公开(公告)号:CN115576662A
公开(公告)日:2023-01-06
申请号:CN202210623443.0
申请日:2022-06-01
Applicant: 中债金科信息技术有限公司 , 清华大学
Abstract: 本发明公开一种流处理任务的调度方法及装置,方法包括:接收用户发起的任务迁移请求,根据任务迁移请求确定任务迁移触发的时间和任务迁移策略;获取任务迁移涉及的各个计算资源节点,并控制负责任务迁移的协调器按照任务迁移时间与任务迁移策略调度各个计算资源节点,以执行任务迁移;在任务迁移过程中向流处理作业的数据流中注入特殊分隔符事件,使用特殊分隔符事件将被迁移任务与其所有上下游任务断开连接,同时将被迁移任务部署至任务需要被迁移至的计算资源节点上。通过上述方法可以实现流处理任务的调度,解决了现有技术使用基于重新启动作业所带来长时间暂停数据流处理,造成较大的性能抖动以及带来不稳定性的问题。
-
公开(公告)号:CN111882063B
公开(公告)日:2022-12-02
申请号:CN202010767850.X
申请日:2020-08-03
Applicant: 清华大学
Abstract: 本说明书公开一种适应低预算的数据标注请求方法、装置、设备及存储介质,其中所述数据标注请求方法,将模型对样本预测的自信程度值与模型对该类样本的历史检测效果相结合,并将预算参数加入请求样本数据的真实标签的影响因素中,从而使模型在合理分配有限预算的条件下,更倾向于请求犯错较多类别样本的真实标签,解决了现有技术中请求向量的选取问题以及对预算影响的忽视,能够更好地应对数据不平衡分布造成的影响,通过监测环境预算的剩余情况来动态调整模型标签请求意愿的积极程度,提高模型的训练效果。
-
-
-
-
-