一种基于多智能体协同感知决策的app自动执行与测试系统

    公开(公告)号:CN119718929A

    公开(公告)日:2025-03-28

    申请号:CN202411807488.9

    申请日:2024-12-10

    Abstract: 本发明涉及一种基于多智能体协同感知决策的app自动执行与测试系统,测试系统包括三个智能体和一个用于采集信息、交互执行的上位机:执行决策智能体接收规划策略推荐智能体和感知智能体的输出,作为输入信息,产生指令控制上位机,与待测试系统产生交互,完成对待测试系统的执行任务。所述三个智能体为:执行决策智能体、规划策略推荐智能体和感知智能体,三个智能体共同构成app自动执行系统的决策系统。该系统在给定任务目标后,可以与待测试系统交互,通过感知智能体对所在UI页面进行文本识别、图标识别、键盘识别、布局识别和异常识别,同时规划策略推荐智能体在离线探索后,将系统信息保存在知识库中,执行决策智能体依据感知智能体和规划策略推荐智能体的信息输入,自主推理出执行动作,完成任务目标的执行。本申请在借助大模型推理能力的同时,联合了多个不同能力的智能体,协同工作,极大的提升了模型的准确性和稳定性。

    一种面向大语言模型的GUI页面标记语言及系统

    公开(公告)号:CN119645403A

    公开(公告)日:2025-03-18

    申请号:CN202411807487.4

    申请日:2024-12-10

    Inventor: 詹伶俐 周红卫

    Abstract: 本申请涉及一种面向大语言模型的GUI页面标记语言及系统,其特征在于,该系统包含:“页面内容概括”的文本描述模块单元、“是否为前景图层&前景种类”的文本描述模块单元,“模块/组件”的文本描述模块单元,以及模块/组件内“具体元素和元素间关系”的文本描述模块单元,共四个模块单元,四个模块单元的输出以自然语言形式拼接在一起,共同构成面向大语言模型的GUI页面标记语言;该技术方案通过对GUI页面信息进行计算,获取到了准确的元素位置信息,弥补了当前大模型/跨模态大模型无法准确获取页面元素位置的问题。

    一种面向大语言模型快速实现图像接地能力的系统和方法

    公开(公告)号:CN119762938A

    公开(公告)日:2025-04-04

    申请号:CN202411871500.2

    申请日:2024-12-18

    Inventor: 詹伶俐 周红卫

    Abstract: 本发明公开了一种面向大语言模型快速实现图像接地能力的系统和方法,涉及图像数据处理领域,所述系统包括该系统包含视觉编码层、文本编码层,第一投影层,transformers decoder模块、瓶颈隐藏层、第二投影层、文本输出头和接地输出头模块八个部分组成;其中第二投影层模块由自注意力网络、文本交叉注意力网络和图像交叉注意力网络和全连接网络四个子模块构成,其中第一投影层和接地输出头的引入,以及其训练方法的定义,实现跨模态大模型的多头输出,帮助跨模态的大语言模型在保证原有文本理解、推理的能力上,紧需要少量数据的训练,就可以实现yolo等目标检测模型同样的精度和稳定性的目标位置预测能力。

    一种复杂任务流程自动化系统和方法

    公开(公告)号:CN119759784A

    公开(公告)日:2025-04-04

    申请号:CN202411950763.2

    申请日:2024-12-27

    Abstract: 本发明公开了一种复杂任务流程自动化系统和方法,属于软件测试领域,系统包括任务记录与分发器、调度器、操作动作记录器、异常处理器、任务重写与子任务规划器、指令推理器、指令执行器、执行状态检测器以及路径记录器,调度器是整个流程的逻辑控制单元,路径记录器包含页面识别模型、页面id分配和路径记录三个组件;指令推理器,负责根据当前任务和调度器传入的历史操作记录和当前系统的GUI页面,采用被领域数据集训练后的跨模态大模型推理得到;执行状态检测器,用于对动作执行是否成功进行检测;指令执行器用于和系统进行交互,降低流程自动化执行的难度,保证了稳定性,将复杂的逻辑,转为了语义清晰的指令集,大大提升了系统动作空间和执行能力。

    基于多模态数据的文本处理反馈系统及方法

    公开(公告)号:CN119691155A

    公开(公告)日:2025-03-25

    申请号:CN202510196331.5

    申请日:2025-02-21

    Abstract: 本发明涉及多模态数据技术领域,且公开了基于多模态数据的文本处理反馈系统及方法,包括将用户输入的文本数据通过一个包含嵌入层的上下文编码器处理,得到多个文本的语义特征向量;将多个语义特征向量排列为一维特征向量;将用户提供的图像数据通过一个卷积神经网络处理,提取出图像中的关键特征向量;计算图像理解特征向量的转置与文本理解特征向量之间的乘积,得到一个多模态需求表达矩阵;基于多模态需求表达矩阵中各个位置的特征值,通过特征校正机制对矩阵中的每个特征值进行调整;将校正后的多模态需求表达矩阵输入到一个多标签分类器中进行处理。本发明具备提升文本生成综合能力的优点。

    一种AI模型编排方法、装置、电子设备及介质

    公开(公告)号:CN117519850A

    公开(公告)日:2024-02-06

    申请号:CN202311795934.4

    申请日:2023-12-22

    Abstract: 本申请公开了一种AI模型编排方法、装置、电子设备及介质,涉及人工智能技术领域,该方法包括:分别进行有限状态机和规则引擎的初始化;分别进行有限状态机和规则引擎的实例化;接收外部的输入数据;所述规则引擎根据初始化的配置进行规则执行,将执行结果发送到有限状态机;所述有限状态机根据初始化的配置执行相应的状态转换和动作,调用具体的AI模型;根据AI模型的处理结果,更新所述有限状态机的状态。本申请具有增强灵活性和可解释性、高度可控制和可管理性、能够实时决策和响应的效果。

    一种AI模型编排方法、装置、电子设备及介质

    公开(公告)号:CN117519850B

    公开(公告)日:2024-10-29

    申请号:CN202311795934.4

    申请日:2023-12-22

    Abstract: 本申请公开了一种AI模型编排方法、装置、电子设备及介质,涉及人工智能技术领域,该方法包括:分别进行有限状态机和规则引擎的初始化;分别进行有限状态机和规则引擎的实例化;接收外部的输入数据;所述规则引擎根据初始化的配置进行规则执行,将执行结果发送到有限状态机;所述有限状态机根据初始化的配置执行相应的状态转换和动作,调用具体的AI模型;根据AI模型的处理结果,更新所述有限状态机的状态。本申请具有增强灵活性和可解释性、高度可控制和可管理性、能够实时决策和响应的效果。

    一种基于AI软硬一体计算引擎的数字人优化的方法及系统

    公开(公告)号:CN118467197A

    公开(公告)日:2024-08-09

    申请号:CN202410550250.6

    申请日:2024-05-06

    Abstract: 本申请公开了一种基于AI软硬一体计算引擎的数字人优化的方法及系统,所述方法包括:采集数字人相关的原始数据;利用调度器适配器为原始数据分配硬件资源以完成原始数据的并行处理;利用操作系统对处理后的原始数据进行分布式存储;根据数字人的应用场景,利用深度学习框架设计对应场景下的深度学习模型,利用调度器适配器为深度学习模型分配硬件资源以完成分布式训练,获取训练后的深度学习模型;利用硬件对训练好的深度学习模型的推断引擎进行加速推断,生成数字人的外观、动作以及语音;利用调度器适配器为深度学习模型分配硬件资源以完成数字人的实时渲染,获得优化后的数字人;本申请能够实现数字人获取快速交互能力,灵活适应各种业务需求。

    一种多模态数据的处理方法、系统、电子设备及存储介质

    公开(公告)号:CN118363730A

    公开(公告)日:2024-07-19

    申请号:CN202410540961.5

    申请日:2024-04-30

    Abstract: 一种多模态数据的处理方法、系统、电子设备及存储介质,涉及数据处理领域。在该方法中,当接收到多模态数据时,确定所述多模态数据的数据类型和数据结构,根据所述数据类型从预先注册的数据处理适配器中选择目标数据处理适配器,并根据所述数据结构从预先注册的数据格式处理工厂中选择目标数据格式处理工厂;根据所述多模态数据构建多模态数据提取转换加载任务,并将所述多模态数据提取转换加载任务分解成多个子任务;使用所述目标数据处理适配器和所述目标数据格式处理工厂对多个所述子任务进行并行处理,并对多个所述子任务的处理结果进行聚合。实施本申请提供的技术方案,提高了对多模态数据的处理效率。

Patent Agency Ranking