轻量化的Spark流水线预测模型的构建方法

    公开(公告)号:CN115809069A

    公开(公告)日:2023-03-17

    申请号:CN202211470269.7

    申请日:2022-11-23

    Abstract: 本发明公开了一种Spark流水线模型的轻量化预测方法,包括:步骤一、基于Spark Transformer的算法模型开发,实现模型参数的配置、模型的训练、保存及预测功能,同时开发基于MLeap Bundle的模型算子序列化方法,以实现Spark模型的轻量化输出。步骤二,基于实现的各算法模型,构建Spark流水线模型,同时记录各算法模型间的依赖关系,进而调用各模型算子Bundle序列化方法,生成轻量化后的Spark流水线模型。步骤三、基于MLeap Runtime依据Bundle中各算法模型的依赖关系,加载轻量化后的Spark流水线模型,提供高性能的模型预测服务。从而实现Spark模型不依赖Spark框架,在不损失准确度的情况下,提供高性能、实时预测功能,同时降低了存储及计算资源的消耗,解决了Spark模型在实时预测场景下耗时长、吞吐量低的问题。

    一种多语言Pipeline轻量模型构建方法

    公开(公告)号:CN117873461A

    公开(公告)日:2024-04-12

    申请号:CN202311633679.3

    申请日:2023-12-01

    Abstract: 本申请属于机器学习技术领域,尤其涉及一种多语言Pipeline轻量模型构建方法,步骤一、Python通用算法模型的开发:设计python和scala,java语言之间离线批量数据传输结构;基于Spark、Mleap框架开发python算子,实现spark Dataframe在scala和python语言之间数据传输;步骤二、ML Pipeline模型训练流程搭建:基于业务场景,选择算子搭建机器学习流水线模型,调用模型的序列化方法,生成最终的MLeap Bundle模型。步骤三、基于MLeap Runtime的实时预测服务搭建:搭建mleap runtime运行池环境,将Spark MLlib模型序列化成MLeap格式,部署一个预测服务,加载序列化的模型并处理实际的预测请求。该方法使用Python和Scala,Java三种不同的语言以及相关的机器学习库和框架混合建模,提出了端到端的多语言机器学习pipeline,从而充分发挥它们各自的优势。

    营销业务支持方法、系统、电子设备及存储介质

    公开(公告)号:CN118170955B

    公开(公告)日:2024-08-02

    申请号:CN202410582382.7

    申请日:2024-05-11

    Abstract: 本申请公开了一种营销业务支持方法、系统、电子设备及存储介质,该方法包括:解析每篇文档中的文本块,提取出文本块中的原始图片并存储;将文本块中的原始图片替换为图片编码;基于每篇文档解析后的解析结果,构建专业知识库;获取用户输入的第一提问信息;基于第一提问信息和专业知识库,确定第一预设数量的参考段落;将每个参考段落中的图片编码移除;基于已移除图片编码的第一预设数量的参考段落,生成与第一提问信息对应的文字结果;将文字结果中提到的图片名称替换为对应的原始图片。本申请实施例提供的方法能够针对用户的提问生成图文混合的输出结果,增强了信息的直观性和易理解性,为用户提供了更为丰富和友好的交互体验。

    营销业务支持方法、系统、电子设备及存储介质

    公开(公告)号:CN118170955A

    公开(公告)日:2024-06-11

    申请号:CN202410582382.7

    申请日:2024-05-11

    Abstract: 本申请公开了一种营销业务支持方法、系统、电子设备及存储介质,该方法包括:解析每篇文档中的文本块,提取出文本块中的原始图片并存储;将文本块中的原始图片替换为图片编码;基于每篇文档解析后的解析结果,构建专业知识库;获取用户输入的第一提问信息;基于第一提问信息和专业知识库,确定第一预设数量的参考段落;将每个参考段落中的图片编码移除;基于已移除图片编码的第一预设数量的参考段落,生成与第一提问信息对应的文字结果;将文字结果中提到的图片名称替换为对应的原始图片。本申请实施例提供的方法能够针对用户的提问生成图文混合的输出结果,增强了信息的直观性和易理解性,为用户提供了更为丰富和友好的交互体验。

Patent Agency Ranking