Reinforcement learning system

Invention Grant

US08392346B2 Reinforcement learning system 有权

Title translation: 加强学习系统

Please log in to see more content

Patent Title: Reinforcement learning system
Patent Title (中): 加强学习系统
Application No.: US12610709

Application Date: 2009-11-02
Publication No.: US08392346B2

Publication Date: 2013-03-05
Inventor: Yugo Ueda , Tadaaki Hasegawa , Soshi Iba , Koji Akatsuka , Norikazu Sugimoto
Applicant: Yugo Ueda , Tadaaki Hasegawa , Soshi Iba , Koji Akatsuka , Norikazu Sugimoto
Applicant Address: JP Tokyo JP Kyoto
Assignee: Honda Motor Co., Ltd.,Advanced Telecommunications Research Institute International
Current Assignee: Honda Motor Co., Ltd.,Advanced Telecommunications Research Institute International
Current Assignee Address: JP Tokyo JP Kyoto
Agency: Rankin, Hill & Clark LLP
Priority: JP2008-283677 20081104; JP2009-174585 20090727
Main IPC: G06F15/18
IPC: G06F15/18 ; G06N3/08

Abstract:

A reinforcement learning system (1) of the present invention utilizes a value of a first value gradient function (dV1/dt) in the learning performed by a second learning device (122), namely in evaluating a second reward (r2(t)). The first value gradient function (dV1/dt) is a temporal differential of a first value function (V1) which is defined according to a first reward (r1(t)) obtained from an environment and is served as a learning result given by a first learning device (121). An action policy which should be taken by a robot (R) to execute a task is determined based on the second reward (r2(t)).

Abstract(Chinese):

本发明的强化学习系统（1）利用由第二学习装置（122）执行的学习中的第一值梯度函数（dV1 / dt）的值，即评估第二奖励（r2（t））。第一值梯度函数（dV1 / dt）是根据从环境获得的第一奖励（r1（t））定义的第一值函数（V1）的时间微分，并且被用作由第一学习装置（121）。基于第二奖励（r2（t））确定由机器人（R）执行任务应采取的动作策略。

Public/Granted literature

US20100114807A1 REINFORCEMENT LEARNING SYSTEM Public/Granted day:2010-05-06

Information query

Espacenet