DOI QR코드

DOI QR Code

Design and implementation of Robot Soccer Agent Based on Reinforcement Learning

강화 학습에 기초한 로봇 축구 에이전트의 설계 및 구현

  • Kim, In-Cheol (Dept.of Information Engineering, Kyounggi University)
  • 김인철 (경기대학교 정보공학부 전자계산학)
  • Published : 2002.04.01

Abstract

The robot soccer simulation game is a dynamic multi-agent environment. In this paper we suggest a new reinforcement learning approach to each agent's dynamic positioning in such dynamic environment. Reinforcement learning is the machine learning in which an agent learns from indirect, delayed reward an optimal policy to choose sequences of actions that produce the greatest cumulative reward. Therefore the reinforcement learning is different from supervised learning in the sense that there is no presentation of input-output pairs as training examples. Furthermore, model-free reinforcement learning algorithms like Q-learning do not require defining or learning any models of the surrounding environment. Nevertheless these algorithms can learn the optimal policy if the agent can visit every state-action pair infinitely. However, the biggest problem of monolithic reinforcement learning is that its straightforward applications do not successfully scale up to more complex environments due to the intractable large space of states. In order to address this problem, we suggest Adaptive Mediation-based Modular Q-Learning (AMMQL) as an improvement of the existing Modular Q-Learning (MQL). While simple modular Q-learning combines the results from each learning module in a fixed way, AMMQL combines them in a more flexible way by assigning different weight to each module according to its contribution to rewards. Therefore in addition to resolving the problem of large state space effectively, AMMQL can show higher adaptability to environmental changes than pure MQL. In this paper we use the AMMQL algorithn as a learning method for dynamic positioning of the robot soccer agent, and implement a robot soccer agent system called Cogitoniks.

로봇 축구 시뮬레이션 게임은 하나의 동적 다중 에이전트 환경이다. 본 논문에서는 그러한 환경 하에서 각 에이전트의 동적 위치 결정을 위한 새로운 강화학습 방법을 제안한다. 강화학습은 한 에이전트가 환경으로부터 받는 간접적 지연 보상을 기초로 누적 보상값을 최대화할 수 있는 최적의 행동 전략을 학습하는 기계학습 방법이다. 따라서 강화학습은 입력-출력 쌍들이 훈련 예로 직접 제공되지 않는 다는 점에서 교사학습과 크게 다르다. 더욱이 Q-학습과 같은 비-모델 기반의 강화학습 알고리즘들은 주변 환경에 대한 어떤 모델도 학습하거나 미리 정의하는 것을 요구하지 않는다. 그럼에도 불구하고 이 알고리즘들은 에이전트가 모든 상태-행동 쌍들을 충분히 반복 경험할 수 있다면 최적의 행동전략에 수렴할 수 있다. 하지만 단순한 강화학습 방법들의 가장 큰 문제점은 너무 큰 상태 공간 때문에 보다 복잡한 환경들에 그대로 적용하기 어렵다는 것이다. 이런 문제점을 해결하기 위해 본 연구에서는 기존의 모듈화 Q-학습방법(MQL)을 개선한 적응적 중재에 기초한 모듈화 Q-학습 방법(AMMQL)을 제안한다. 종래의 단순한 모듈화 Q-학습 방법에서는 각 학습 모듈들의 결과를 결합하는 방식이 매우 단순하고 고정적이었으나 AMMQL학습 방법에서는 보상에 끼친 각 모듈의 기여도에 따라 모듈들에 서로 다른 가중치를 부여함으로써 보다 유연한 방식으로 각 모듈의 학습결과를 결합한다. 따라서 AMMQL 학습 방법은 큰 상태공간의 문제를 해결할 수 있을 뿐 아니라 동적인 환경변화에 보다 높은 적응성을 제공할 수 있다. 본 논문에서는 로봇 축구 에이전트의 동적 위치 결정을 위한 학습 방법으로 AMMQL 학습 방법을 사용하였고 이를 기초로 Cogitoniks 축구 에이전트 시스템을 구현하였다.

Keywords

References

  1. Ehsan Foroughi, Fredrik Heintz, Spiros Kapetanakis, Kostas Kostiadis, Johan Kummeneje, Itsuki Noda, Oliver Obst, Pat Riley etc., 'RoboCup Soccer Server Manual 7.06,' 2001
  2. Junling Hu, Michael P. Wellman, 'Multi-agent Reinforcement Learning : Theoretical Framework and an Algorithm,' Proceedings of the Fifteenth International Conference on Machine Learning, pp.242-250, 1998
  3. Justin A. Boyan, Andrew W. Moore, 'Generalization in Reinforcement Learning Safely Approximating the Value Function, Advances in Neural Information Processing Systems,' Vol.6, pp.671-678, 1993
  4. Kui-Hong Park, Yong-Jae Kim, Jong-Hwan Kim, 'Modular Q-Learning based Multi-Agent Cooperation for Robot Soccer,' Robotics and Autonomous Systems Vol.35, pp.109-122, 2001 https://doi.org/10.1016/S0921-8890(01)00114-2
  5. Kostas Kostiadis, Huosheng Hu, 'Reinforcement Learning and Co-operation in a Simulatied Multi-agent System,' RoboCup-98 : Robot Soccer World Cup II, pp.366-377, Springer Verlag, Berlin, 1999
  6. Lesile Pack Kaebling, Michael L. Littman, Andrew W. Moore, 'Reinforcement Learning : A Survey,' Journal of AI Research Vol.4, pp.147-166, 1996
  7. Marco Wiering, Rafal Salustowicz, Jurgen Schminhuber, 'Reinforcement Learning Soccer Teams with Incomplete World Models,' Journal of Autonomous Robots, Vol.1, No.12, 1999 https://doi.org/10.1023/A:1008921914343
  8. Micael L. Littman, Anthony R. Cassandra, Lesile Pack Kaelbling, 'Efficient Dynamic-Programming Updates in Partially Observable Markov Decision Processes,' Brown University Technical Report CS-95-19, 1995
  9. M. Riedmiller, A. Merke, D. Meier, 'Karlsruhe Brainstormers A Reinforcement Learning Approach to Robotic Soccer,' Robocup-2000 : Robot World Cup IV, Springer Verlag, Berlin, 2001
  10. Michael L. Littman, Anthony R. Cassandra, Lesile Pack Kaebling, 'Learning Policies for Partially Observable Environments : Scaling up,' Proceedings of the Eleventh International Conference on Machine Learning, pp.157-163, San Francisco, CA, 1994
  11. Noda Itsuki, Matsubara Hitoshi, Hiraki Kazuo, 'Learning Cooperative Behavior in Multi-agent EnvironmentA Case Study of Choice of Play-Plans in Soccer,' Applied Artificial Intelligence, Vol.12, pp.233-250, 1998 https://doi.org/10.1080/088395198117848
  12. Norihiko Ono, Kenji Fukumoto, 'Multi-agent Reinforcement Learning : A Modular Approach,' Proceedings of the Second International Conference on Multi-Agent Systems, AAAI Press. pp.252-258, 1996
  13. Peter Stone, Richard S. Sutton, Satinder Singh, 'Reinforcement Learning for 3 vs. 2 Keepway,' RoboCup-2000 : Robot World Cup IV, Springer Verlag, Berlin, 2001
  14. Peter Stone, 'Layered Learning in Multiagent Systems,' MIT Press, 2000
  15. Tomohito Andou, 'A Robocup Team which Reinforces Positioning with Observation,' Robocup-97 : Robot World Cup I, pp.373-383, Springer Verlag, Berlin, 1998
  16. Takayuki Kohri. et al., 'An Adaptive Architecture for Modular Q-Learning,' Journal of AI Research, 1998
  17. Veloso M., Pagello E., and Kitano H., 'RoboCup-99 : Robot Soccer World Cup III,' Springer Verlag, Berlin, 2000
  18. Weiss G, 'Distributed Reinforcement Learning,' Journal of Robotics and Autonomous Systems, Vol.15, pp.135-142, 1995 https://doi.org/10.1016/0921-8890(95)00018-B
  19. Weiss G, 'Distributed Artificial Intelligence Meets Machine Learning,' Springer Verlag, Berlin, 1997