行星规模计算机的透明抢占和迁移

    公开(公告)号:CN117120978A

    公开(公告)日:2023-11-24

    申请号:CN202280021860.6

    申请日:2022-03-03

    Abstract: 本文的公开内容描述了用于深度学习(DL)作业的平台级检查点化。检查点化是通过捕获以下两种状态数据来执行的:(i)GPU状态(设备状态)和(ii)CPU状态(主机状态)。GPU状态包括位于GPU和GPU上下文(例如,GPU中的默认流、由诸如DNN、Blas等的库创建的各种句柄)中的GPU数据(例如,模型参数、优化器状态等)。由于检查点化是以域感知方式完成的,因此仅复制GPU存储器的部分。“活动”存储器包含如模型参数的有用数据。为了能够捕获有用数据,控制存储器管理以识别存储器的哪些部分是活动的。此外,为了将目的地GPU恢复到相同的上下文/状态,一种机制被用于捕获原始GPU上的这种状态改变事件并在目的地GPU上重放。

    基于热补丁和冷补丁的混合的系统合规

    公开(公告)号:CN115836278A

    公开(公告)日:2023-03-21

    申请号:CN202180048680.2

    申请日:2021-04-26

    Abstract: 使用考虑冷补丁和热补丁的混合的评估来制定合规动作,包括基于软件组件的打补丁状态来识别定义合规条件的策略。确定软件组件的打补丁状态,包括识别适用于软件组件的(多个)冷补丁二进制文件和(多个)热补丁二进制文件的证据,以及使用该证据来确定(多个)热补丁二进制文件是否已被应用于软件组件的实例被加载到其中的存储器映像。基于策略并且基于软件组件的打补丁状态,针对合规条件制定合规动作。合规动作包括生成健康报告或健康证明、发起打补丁动作、发起执行控制动作,等等。

    IOT分区管理和负载平衡
    3.
    发明公开

    公开(公告)号:CN113646749A

    公开(公告)日:2021-11-12

    申请号:CN202080025918.5

    申请日:2020-03-26

    Abstract: 一种系统包括:多个服务器;控制平面,用于确定多个设备的第一分区,并且确定要分配的多个服务器的子集作为针对第一分区的候选服务器;以及公共数据存储库,包括第一流和第二流。控制平面用于在第一流中存储第一消息,第一消息指示第一分区、候选服务器、第二流和第一消息标签,候选服务器使用第一流从候选服务器中选择第一分区的初级服务器,并且所选的初级服务器将与第一分区的多个设备相关联的读写更新插入第二流中。

    IOT分区管理和负载平衡
    4.
    发明授权

    公开(公告)号:CN113646749B

    公开(公告)日:2024-07-19

    申请号:CN202080025918.5

    申请日:2020-03-26

    Abstract: 一种系统包括:多个服务器;控制平面,用于确定多个设备的第一分区,并且确定要分配的多个服务器的子集作为针对第一分区的候选服务器;以及公共数据存储库,包括第一流和第二流。控制平面用于在第一流中存储第一消息,第一消息指示第一分区、候选服务器、第二流和第一消息标签,候选服务器使用第一流从候选服务器中选择第一分区的主服务器,并且所选的主服务器将与第一分区的多个设备相关联的读写更新插入第二流中。

    基于更新的变更提要处理删除请求

    公开(公告)号:CN114930315A

    公开(公告)日:2022-08-19

    申请号:CN202080092810.8

    申请日:2020-11-24

    Abstract: 本文中的公开内容描述了利用变更提要来使用序列号处理删除请求。当源数据存储库上发生删除时,删除通知在源服务器上的变更提要中被创建。删除通知包括标识要被删除的记录集的删除记录ID集、标识删除通知集中的删除通知的序列的墓碑序列号(TSN)、和/或删除序列号(DSN)。每次新的删除通知被创建时,DSN递增1。删除通知可以表示单个记录或记录集的删除。每个删除通知被分配生存时间(TTL)值。删除通知在TTL到期时被删除。TSN和DSN条目用于确定任何删除更新是否已经错过以防止静默故障。

Patent Agency Ranking