-
公开(公告)号:CN115018017B
公开(公告)日:2022-10-28
申请号:CN202210924862.8
申请日:2022-08-03
Applicant: 中国科学院自动化研究所
IPC: G06K9/62 , G06N20/20 , G06N3/04 , A63F13/843
Abstract: 本发明属于强化学习、多智能体领域,具体涉及一种基于集成学习的多智能体信用分配方法、系统、设备,旨在解决解决现有技术只关注局部状态空间,对全局状态信息的利用不充分,从而导致智能体无法在博弈环境中取得最优动作,造成多智能体协调能力差的问题。本方法包括:分别获取博弈双方每一个智能体的动作信息和历史观测信息,作为输入信息;将输入信息分别输入各智能体对应的智能体网络,得到Q值;各智能体根据Q值,得到e‑greedy策略,进而在设定的博弈场景中进行探索。本发明通过平衡多样性和准确性来充分利用全局状态信息,实现有效的集成信用分配,进而实现了智能体在博弈环境中取得最优动作进行探索,提升多智能体协调能力。
-
公开(公告)号:CN104486624A
公开(公告)日:2015-04-01
申请号:CN201410796177.7
申请日:2014-12-18
Applicant: 中国科学院自动化研究所
IPC: H04N19/13 , H04N19/129 , H04N19/91
Abstract: 本发明公开了一种CAVLC熵解码器及熵解码方法。该解码器包括CAVLC控制器、解码模块和存储模块和数据拼接模块。解码器对码流中非零系数较少的情况做了专门优化;在CAVLC控制器和解码模块间加入旁路电路提前进行解码状态跳转的判断,以节约时钟周期;并将前游程解码与幅值前缀解码并在一个模块完成。本发明在提高熵解码效率的同时节约了面积开销。
-
公开(公告)号:CN104469366A
公开(公告)日:2015-03-25
申请号:CN201410799892.6
申请日:2014-12-18
Applicant: 中国科学院自动化研究所
IPC: H04N19/13 , H04N19/42 , H04N19/184
Abstract: 本发明公开了一种0阶指数哥伦布码解码器及解码方法。解码器包括比特流移位器、前导零计算器、解码值计算器和偏移量生成器。解码方法在计算前导零时,不进行查表,而是采用并行的位运算的方式进行处理。本发明提高解码速度的同时减少了面积开销,适合于硬件实现。本发明可应用于高清或超高清实时视频解码芯片等其他对解码速度要求较高的领域中。
-
公开(公告)号:CN117579358B
公开(公告)日:2024-09-06
申请号:CN202311586285.7
申请日:2023-11-24
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及一种多智能体通信方法、装置、存储介质和电子设备,包括:基于智能体之间的通信关系,构建分布式网络化多智能体学习系统,智能体作为任务执行节点,通信关系描述为边;智能体基于观察到的当前全局环境状态及自身神经网络,执行局部决策动作,获取状态‑动作的奖励值及更新的全局环境状态;基于拉普拉斯函数分布进行采样,获取随机噪声信息;将价值函数估计信息与随机噪声信息结合,生成隐私保护通信信息,与智能体的邻居智能体建立双向通信信道通信;依据当前状态‑动作价值函数估计信息、接收的隐私保护通信接收信息、环境反馈的奖励值及新的全局环境状态,对神经网络进行迭代更新,具有严格理论保证的通信安全性能提升。
-
公开(公告)号:CN117579358A
公开(公告)日:2024-02-20
申请号:CN202311586285.7
申请日:2023-11-24
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及一种多智能体通信方法、装置、存储介质和电子设备,包括:基于智能体之间的通信关系,构建分布式网络化多智能体学习系统,智能体作为任务执行节点,通信关系描述为边;智能体基于观察到的当前全局环境状态及自身神经网络,执行局部决策动作,获取状态‑动作的奖励值及更新的全局环境状态;基于拉普拉斯函数分布进行采样,获取随机噪声信息;将价值函数估计信息与随机噪声信息结合,生成隐私保护通信信息,与智能体的邻居智能体建立双向通信信道通信;依据当前状态‑动作价值函数估计信息、接收的隐私保护通信接收信息、环境反馈的奖励值及新的全局环境状态,对神经网络进行迭代更新,具有严格理论保证的通信安全性能提升。
-
公开(公告)号:CN115660110A
公开(公告)日:2023-01-31
申请号:CN202211672682.1
申请日:2022-12-26
Applicant: 中国科学院自动化研究所
IPC: G06N20/00
Abstract: 本发明提供了一种多智能体信用分配方法、装置、可读存储介质和智能体,涉及强化学习、多智能体技术领域。该方法包括:定义信用分配智能体在预设环境中的信用分配策略空间;使信用分配智能体学习一个信用分配策略,使信用分配智能体在训练时按照信用分配策略探索信用分配策略空间,并基于全局状态信息输出动作;从动作得到目标动作,并将目标动作作为多智能体协同的信用分配策略。该方法从形式上定义了信用分配策略空间,并基于值分解框架提出了随机化信用分配方法,在训练时基于可学习的策略分布,能够以一定概率采样出一个信用分配策略,最终实现了对信用分配策略空间的有效探索,得到更好的信用分配策略,增强算法在多智能体合作任务上的能力。
-
公开(公告)号:CN115018017A
公开(公告)日:2022-09-06
申请号:CN202210924862.8
申请日:2022-08-03
Applicant: 中国科学院自动化研究所
IPC: G06K9/62 , G06N20/20 , G06N3/04 , A63F13/843
Abstract: 本发明属于强化学习、多智能体领域,具体涉及一种基于集成学习的多智能体信用分配方法、系统、设备,旨在解决解决现有技术只关注局部状态空间,对全局状态信息的利用不充分,从而导致智能体无法在博弈环境中取得最优动作,造成多智能体协调能力差的问题。本方法包括:分别获取博弈双方每一个智能体的动作信息和历史观测信息,作为输入信息;将输入信息分别输入各智能体对应的智能体网络,得到Q值;各智能体根据Q值,得到e‑greedy策略,进而在设定的博弈场景中进行探索。本发明通过平衡多样性和准确性来充分利用全局状态信息,实现有效的集成信用分配,进而实现了智能体在博弈环境中取得最优动作进行探索,提升多智能体协调能力。
-
公开(公告)号:CN104469366B
公开(公告)日:2017-10-03
申请号:CN201410799892.6
申请日:2014-12-18
Applicant: 中国科学院自动化研究所
IPC: H04N19/13 , H04N19/42 , H04N19/184
Abstract: 本发明公开了一种0阶指数哥伦布码解码器及解码方法。解码器包括比特流移位器、前导零计算器、解码值计算器和偏移量生成器。解码方法在计算前导零时,不进行查表,而是采用并行的位运算的方式进行处理。本发明提高解码速度的同时减少了面积开销,适合于硬件实现。本发明可应用于高清或超高清实时视频解码芯片等其他对解码速度要求较高的领域中。
-
公开(公告)号:CN115660110B
公开(公告)日:2023-04-14
申请号:CN202211672682.1
申请日:2022-12-26
Applicant: 中国科学院自动化研究所
IPC: G06N20/00
Abstract: 本发明提供了一种多智能体信用分配方法、装置、可读存储介质和智能体,涉及强化学习、多智能体技术领域。该方法包括:定义信用分配智能体在预设环境中的信用分配策略空间;使信用分配智能体学习一个信用分配策略,使信用分配智能体在训练时按照信用分配策略探索信用分配策略空间,并基于全局状态信息输出动作;从动作得到目标动作,并将目标动作作为多智能体协同的信用分配策略。该方法从形式上定义了信用分配策略空间,并基于值分解框架提出了随机化信用分配方法,在训练时基于可学习的策略分布,能够以一定概率采样出一个信用分配策略,最终实现了对信用分配策略空间的有效探索,得到更好的信用分配策略,增强算法在多智能体合作任务上的能力。
-
-
-
-
-
-
-
-