DOI QR코드

DOI QR Code

Combining Imitation Learning with Reinforcement Learning for Efficient Manipulation Policy Acquisition

물체 조작 정책의 효율적 습득을 위한 모방 학습과 강화 학습의 결합

  • Jung, EunJin (Department of Computer Science, Kyonggi University) ;
  • Lee, SangJoon (Department of Computer Science, Kyonggi University) ;
  • Kim, Incheol (Department of Computer Science, Kyonggi University)
  • 정은진 (경기대학교 컴퓨터과학과) ;
  • 이상준 (경기대학교 컴퓨터과학과) ;
  • 김인철 (경기대학교 컴퓨터과학과)
  • Published : 2018.10.31

Abstract

최근 들어 점차 지능형 서비스 로봇들이 인간의 실생활 속으로 들어옴에 따라, 로봇 스스로 다양한 물체들을 효과적으로 조작할 수 있는 지식을 습득하는 기계 학습 기술들이 매우 주목을 받고 있다. 전통적으로 로봇 행위 학습 분야에는 강화 학습 혹은 심층 강화 학습 기술들이 주로 많이 적용되어 왔으나, 이들은 대부분 물체 조작 작업과 같이 다차원 연속 상태 공간과 행동 공간에서 최적의 행동 정책을 학습하는데 여러가지 한계점을 가지고 있다. 따라서 본 논문에서는 전문가의 데모 데이터를 활용해 보다 효율적으로 물체 조작 행위들을 학습할 수 있는 모방 학습과 강화 학습의 통합 프레임워크를 제안한다. 이 통합 프레임워크는 학습의 효율성을 향상시키기 위해, 기존의 GAIL 학습 체계를 토대로 PPO 기반 강화 학습 단계의 도입, 보상 함수의 확장, 상태 유사도 기반 데모 선택 전략의 채용 등을 새롭게 시도한 것이다. 다양한 성능 비교 실험들을 통해, 본 논문에서 제안한 통합 학습 프레임워크인 PGAIL의 우수성을 확인할 수 있었다.

Keywords

Acknowledgement

Supported by : 산업기술평가관리원(KEIT)