DOI QR코드

DOI QR Code

Function Approximation for accelerating learning speed in Reinforcement Learning

강화학습의 학습 가속을 위한 함수 근사 방법

  • 이영아 (경희대학교 컴퓨터공학과) ;
  • 정태충 (경희대학교 컴퓨터공학과)
  • Published : 2003.12.01

Abstract

Reinforcement learning got successful results in a lot of applications such as control and scheduling. Various function approximation methods have been studied in order to improve the learning speed and to solve the shortage of storage in the standard reinforcement learning algorithm of Q-Learning. Most function approximation methods remove some special quality of reinforcement learning and need prior knowledge and preprocessing. Fuzzy Q-Learning needs preprocessing to define fuzzy variables and Local Weighted Regression uses training examples. In this paper, we propose a function approximation method, Fuzzy Q-Map that is based on on-line fuzzy clustering. Fuzzy Q-Map classifies a query state and predicts a suitable action according to the membership degree. We applied the Fuzzy Q-Map, CMAC and LWR to the mountain car problem. Fuzzy Q-Map reached the optimal prediction rate faster than CMAC and the lower prediction rate was seen than LWR that uses training example.

강화학습은 제어, 스케쥴링 등 많은 응용분야에서 성공적인 학습 결과를 얻었다. 기본적인 강화학습 알고리즘인 Q-Learning, TD(λ), SARSA 등의 학습 속도의 개선과 기억장소 등의 문제를 해결하기 위해서 여러 함수 근사방법(function approximation methods)이 연구되었다. 대부분의 함수 근사 방법들은 가정을 통하여 강화학습의 일부 특성을 제거하고 사전지식과 사전처리가 필요하다. 예로 Fuzzy Q-Learning은 퍼지 변수를 정의하기 위한 사전 처리가 필요하고, 국소 최소 자승법은 훈련 예제집합을 이용한다. 본 논문에서는 온-라인 퍼지 클러스터링을 이용한 함수 근사 방법인 Fuzzy Q-Map을 제안하다. Fuzzy Q-Map은 사전 지식이 최소한으로 주어진 환경에서, 온라인으로 주어지는 상태를 거리에 따른 소속도(membership degree)를 이용하여 분류하고 행동을 예측한다. Fuzzy Q-Map과 다른 함수 근사 방법인 CMAC와 LWR을 마운틴 카 문제에 적용하여 실험 한 결과 Fuzzy Q-Map은 훈련예제를 사용하지 않는 CMAC보다는 빠르게 최고 예측율에 도달하였고, 훈련 예제를 사용한 LWR보다는 낮은 예측율을 보였다.

Keywords

References

  1. Stephan ten Hagen and Ben Krose, "Q learning for System with continuous state and action spaces", BENELEARN 2000, 10th Belgian-Dutch conference on Machine Learning.
  2. Chris Gaskett, David Wettergreen, and Alexander Zelinsky, "Q learning in continuous state and action spaces", Australian Joint Conference on Artificial Intelligence 1999.
  3. 전효병,이동욱,김대준,심귀보, "퍼지추론에 의한 리커런트 뉴럴 네트워크 강화학습", 한국퍼지 및 지능 시스템 학회 '97년도 춘계학술대회 논문집.
  4. Richard S. Sutton, Andrew G. Barto "Reinforcement Learning: An Introduction". The MIT Press, Cambridge, MA., 1998.
  5. Juan Carlos Santamaria, Richard S. Sutton, Ashwin Ram, "Experiments with Reinforcement Learning in Problems with Continuous State and Action Spaces", COINS Technical Report 96-88, December 1996.
  6. William Donald Smart, "Making Reinforcement Learning Work on Real Robots", Ph D Thesis, Department of Computer Science, Brown University, 2002.
  7. Jan Jantzen, "Neurofuzzy Modelling", Technical Report, Technical University of Denmark 1998.
  8. 정석일, 이연정, "분포 기여도를 이용한 퍼지 Q-learning", 퍼지 및 지능시스템학회 논문지 2001, Vol. 11, No.5 pp.388-394.
  9. Pierre Yves Glorennec, Lionel Jouffe, "Fuzzy Q-Iearning", Proceedings of Fuzz-Ieee'97, Sixth International Conference on Fuzzy Systems, P719-724, Barcelona, july,1997.
  10. Lionel Jouffe, "Fuzzy Inference System Learning by Reinforcement Methods", Ieee Transactions on System, Man and Cybernetics, vol.98, no 3, August,1998.
  11. Andrea Bonarini, "Delayed Reinforcement, Fuzzy Q-Iearning and Fuzzy Logic Controllers", In Herrera, F., Verdegay, J. L. (Eds.) Genetic Algorithms and Soft Computing, (Studies in Fuzziness, 8), Physica-Verlag, Berlin, D, 447-466.
  12. William D. Smart, Leslie Pack Kaelbling, "Practical Reinforcement Learning in Continuous Spaces", Proceedings of the sixteenth International Conference on Machine Learning, 2000.
  13. William D. Smart, Leslie Pack Kaelbling, "Reinforcement Learning for Robot Control", In "Mobile Robots XVI", 2001.
  14. Artistidis Likas, "A Reinforcement Learning: Approach to On-Line Clustering", Neural Computation, vol. 11, no. 8, pp. 1915-1932, 1999. https://doi.org/10.1162/089976699300016025