多模式分布式集群GPU指标检测方法及系统

    公开(公告)号:CN111736989B

    公开(公告)日:2022-10-14

    申请号:CN202010506445.2

    申请日:2020-06-05

    Abstract: 本发明公开一种多模式分布式集群GPU指标检测方法及系统,包括GPU嗅探器读取工作节点环境变量中的模式值和计时器频率,读取工作节点的GPU数量和GPU信息参数,计算出自身不同工作模式下工作节点的GPU性能得分,进行信息上报;存储器比对上报信息和数据平面的数据库,使数据库对应数据内部的各个字段更新为上报信息内部的各个字段;校验器等待接收并校验上报信息。本发明通过工作节点设置GPU信息列表缓存和数据平面设置字段对比来实现GPU信息更新从而降低信息上报频率、减少信息传输成本;通过多模式评分策略凸显GPU资源的多样性,以适配更多复杂场景的GPU计算需求。

Patent Agency Ranking