-
公开(公告)号:CN115271090A
公开(公告)日:2022-11-01
申请号:CN202210700253.4
申请日:2022-06-20
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种基于因果关系驱动的分层强化学习框架,包括:因果关系发现模块,用于获取智能体的强化学习环境中各环境变量之间的因果关系,并构建为因果关系图;子目标分层结构构造模块,用于根据该环境变量的变化函数,构建分层强化学习的子目标集合,选取该环境变量中的可控变量,通过该因果关系图从该子目标集合中选出与该可控变量关联的子目标为可达子目标,以所有该可达子目标的逻辑关系为该分层强化学习的分层关系。还提出一种基于因果关系驱动的分层强化学习方法,以及一种数据处理装置。
-
公开(公告)号:CN104579605B
公开(公告)日:2018-04-10
申请号:CN201310505080.1
申请日:2013-10-23
Applicant: 华为技术有限公司 , 中国科学院计算技术研究所
CPC classification number: H04L1/22 , H04L1/0007 , H04L29/12575 , H04L45/245 , H04L45/28 , H04L47/10 , H04L69/324 , H04L69/326 , H04L2001/0094
Abstract: 本发明实施例公开了一种数据传输方法,用于当全带宽传输通道发生故障时,根据全带宽传输通道的情况适应性的调整数据单元的传输方式。本发明实施例方法包括:检测总线的全带宽传输通道;若所述全带宽传输通道发生故障,且发生故障的全带宽传输通道的数目小于或等于所述M,则在未发生故障的全带宽传输通道中选择N个全带宽传输通道进行数据单元的传输;若所述全带宽传输通道发生故障,且发生故障的全带宽传输通道的数目大于所述M,则根据未发生故障的全带宽传输通道的数目以及目标节拍数对数据单元的大小进行重配置。
-
公开(公告)号:CN118863008A
公开(公告)日:2024-10-29
申请号:CN202410958934.X
申请日:2024-07-17
Applicant: 中国科学院软件研究所 , 中国科学院计算技术研究所
Abstract: 本发明公开了一种子任务语义不变的多智能体策略模型迁移方法与系统。本发明通过可扩展子任务编码器将待执行的多智能体任务编码为可执行的子任务,并将该子任务分配给执行多智能体任务中的每个智能体,然后通过自适应动作解码器将分配好的子任务以及当前智能体的观测数据来计算出智能体与环境交互的具体动作;当待执行的多智能体任务发生变化时,可扩展子任务编码器和自适应动作解码器可确保分配的子任务在各个多智能体任务间具有一致且可扩展的语义,同时分解到的子任务赋予了任务独立性,进而实现多智能体策略模型在各个多智能体任务间的模型迁移。本发明可实现多智能体策略模型在各个多智能体任务间的模型迁移。
-
公开(公告)号:CN117689912A
公开(公告)日:2024-03-12
申请号:CN202211013747.1
申请日:2022-08-23
Applicant: 中国科学院计算技术研究所
IPC: G06V10/762 , B25J9/16 , G06N3/0464 , G06N3/08 , G06V10/82
Abstract: 本发明提出一种基于对象的强化学习方法和系统,包括:智能体采集在当前所处环境的观测图像,从该观测图像中识别出对象的位置,并对其进行无监督聚类,得到各对象的类别标签;以该对象的类别标签为监督,通过卷积神经网络对该观测数据进行对象抽取,得到该观测图像的对象表示;基于该观测图像的对象表示,构建该观测图像中对象间的关系,作为该观测图像的特征向量,基于该特征向量执行学习策略,得到目标动作,该智能体执行该目标动作与该环境产生交互。该发明可以提升强化学习中策略的推理能力,使其具备较高的泛化能力。
-
公开(公告)号:CN117332831A
公开(公告)日:2024-01-02
申请号:CN202311271771.X
申请日:2023-09-28
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种分布式神经网络加速器系统,主机节点配置为:向每一加速器节点进行远程认证,利用神经网络编译器对模型进行编译,生成数据流图,并确定各个加速器节点间子图的依赖关系;对编译后的模型进行切分,将各个子图分配到各加速器节点。每一子图的计算层包含:一接口层,以可转移张量表示,包含转移张量数据、第一辅助数据;转移张量数据保存在片外存储器,第一辅助数据保存在片上存储器;一内部层,以普通张量表示,包含普通张量数据、第二辅助数据;普通张量数据保存在片外存储器,第二辅助数据包含第二张量版本号、第二张量MAC,第二张量版本号保存在片上存储器,第二张量MAC保存在片外存储器。其减少了VN的内存访问开销和存储开销。
-
公开(公告)号:CN115422531A
公开(公告)日:2022-12-02
申请号:CN202210940140.1
申请日:2022-08-05
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种对抗补丁检测定位硬件架构,包括:深度神经网络加速器,用于输出视频帧的浅层特征图,以及输出对该视频帧和遮挡图像进行识别的识别结果;该遮挡图像为以掩膜窗口对该视频帧进行遮挡后的图像;掩膜窗口搜索单元,用于从该视频帧的浅层特征图中选取该掩膜窗口;投票逻辑单元,用于对所有该遮挡图像的识别结果进行投票,并根据投票结果确定该视频帧中对抗补丁的位置。以及一种基于该对抗补丁检测定位硬件架构的对抗补丁检测定位方法。
-
公开(公告)号:CN104579605A
公开(公告)日:2015-04-29
申请号:CN201310505080.1
申请日:2013-10-23
Applicant: 华为技术有限公司 , 中国科学院计算技术研究所
CPC classification number: H04L1/22 , H04L1/0007 , H04L29/12575 , H04L45/245 , H04L45/28 , H04L47/10 , H04L69/324 , H04L69/326 , H04L2001/0094 , H04L12/40176
Abstract: 本发明实施例公开了一种数据传输方法,用于当全带宽传输通道发生故障时,根据全带宽传输通道的情况适应性的调整数据单元的传输方式。本发明实施例方法包括:检测总线的全带宽传输通道;若所述全带宽传输通道发生故障,且发生故障的全带宽传输通道的数目小于或等于所述M,则在未发生故障的全带宽传输通道中选择N个全带宽传输通道进行数据单元的传输;若所述全带宽传输通道发生故障,且发生故障的全带宽传输通道的数目大于所述M,则根据未发生故障的全带宽传输通道的数目以及目标节拍数对数据单元的大小进行重配置。
-
公开(公告)号:CN119476487A
公开(公告)日:2025-02-18
申请号:CN202411551388.4
申请日:2024-11-01
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种基于芯粒和近存计算的边缘端大语言模型推理加速方法和装置,包括模型权重储存在Flash,整个推理过程包含的全部矩阵向量乘法的运算由Flash和NPU协同完成。在Flash中计算的部分:需要NPU把输入向量发送到Flash中,使用Flash内部存储的权重矩阵和该输入向量做矩阵向量乘法,得到结果后发送回NPU。在NPU中计算的部分:NPU中存储着输入向量,需要从Flash中逐块读取权重矩阵,并在NPU中完成运算。运算结果保存在NPU中。注意力运算由NPU独立完成。特殊函数计算由NPU独立完成。NPU与Flash各自承担的任务比例,使得二者能更好地协同完成大语言模型的推理任务。
-
公开(公告)号:CN117688983A
公开(公告)日:2024-03-12
申请号:CN202211014964.2
申请日:2022-08-23
Applicant: 中国科学院计算技术研究所
IPC: G06N3/0464 , G06N3/08 , G06T9/00
Abstract: 本发明提出一种捕捉环境中可控因素的表示学习方法和系统,包括:智能体采集在当前所处环境的观测图像,通过卷积神经网络对该观测图像进行编码,得到当前时刻t该观测图像的表示;统计该当前时刻t该观测图像的表示、t时刻到t+k‑1时刻策略所采取的动作序列和第t+k时刻该观测图像的表示,三者之间的互信息作为可控因素的度量;基于该度量构建损失函数,以最大化该度量,基于该度量最大时对应的时刻t该观测图像的表示,执行学习策略,得到目标动作,该智能体执行该目标动作与该环境产生交互。本发明通过捕捉环境中的可控因素,能有效过滤其他可预测的噪声,因此在复杂环境上具备更好的鲁棒性。
-
公开(公告)号:CN115329949A
公开(公告)日:2022-11-11
申请号:CN202211006130.7
申请日:2022-08-22
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种基于真值表的函数自动生成方法和系统,包括:基于真值表的问题中逻辑表达式各语法符号的关系与它们的在实际处理的序列中距离大小无关、逻辑表达式的生成语义规则与布尔向量函数示例采样的结果长度无关的科学规律,作为解决基于真值表函数自动化生成问题的科学依据。还设计了一种编码器‑解码器结构的神经网络模型用于解决基于真值表生成函数的问题,该模型用两个自注意力机制编码器分别对输入和输出进行编码,用1个自注意力机制解码器自回归地输出对应的逻辑表达式,在编码器和解码器之间使用注意力机制;为解决基于真值表函数自动化生成问题提供了技术方案,相比同期主流基准模型在指定数据集上取得了更好的效果。
-
-
-
-
-
-
-
-
-