支持高并发的大规模生成式语言模型快速推理方法及系统

    公开(公告)号:CN114385785B

    公开(公告)日:2024-12-17

    申请号:CN202111594472.0

    申请日:2021-12-23

    Abstract: 本发明公开了一种支持高并发的大规模生成式语言模型快速推理方法及系统,方法包括:获取第i步的前序文本的注意力中间值和第i步的预测文本,并保存第i步的前序文本的注意力中间值;获取第i步的预测文本对应的注意力中间值,根据第i步的预测文本对应的注意力中间值与第i步的前序文本对应的注意力中间值获取第i+1步的前序文本对应的注意力输出结果;根据第i+1步的前序文本对应的注意力输出结果生成第i+1步的预测文本。本发明能够加速大规模生成式语言模型的推理速度,缩短用户等待模型输出的时间。

    基于多计算平台的AI在线交互式开发方法及相关设备

    公开(公告)号:CN115495048A

    公开(公告)日:2022-12-20

    申请号:CN202210923679.6

    申请日:2022-08-02

    Abstract: 本发明公开了基于多计算平台的AI在线交互式开发方法及相关设备,所述方法包括:交互式开发平台接收开发任务请求后选择适配的智算中心资源;根据平台调度策略选择适配智算中心,并获取适配智算中心的智能计算平台的授权信息;以及根据适配智算中心的API接口要求将开发任务请求进行封装;智能计算平台根据分配资源环境请求分配开发任务请求所需的资源和环境,并发送访问资源链接至交互式开发平台;交互式开发平台将访问资源链接与开发任务请求进行关联,并将访问资源链接发送至注册用户。通过建立统一的交互式开发平台,接入多个智能计算平台并通过互联网面向用户提供AI交互式开发环境,提高了开发的便利性和降低了开发成本。

    支持高并发的大规模生成式语言模型快速推理方法及系统

    公开(公告)号:CN114385785A

    公开(公告)日:2022-04-22

    申请号:CN202111594472.0

    申请日:2021-12-23

    Abstract: 本发明公开了一种支持高并发的大规模生成式语言模型快速推理方法及系统,方法包括:获取第i步的前序文本的注意力中间值和第i步的预测文本,并保存第i步的前序文本的注意力中间值;获取第i步的预测文本对应的注意力中间值,根据第i步的预测文本对应的注意力中间值与第i步的前序文本对应的注意力中间值获取第i+1步的前序文本对应的注意力输出结果;根据第i+1步的前序文本对应的注意力输出结果生成第i+1步的预测文本。本发明能够加速大规模生成式语言模型的推理速度,缩短用户等待模型输出的时间。

Patent Agency Ranking