강화학습 기반 사용자 프로파일 학습

Learning User Profile with Reinforcement Learning

  • 김영란 (한국외국어대학교 컴퓨터 및 정보통신공학과) ;
  • 한현구 (한국외국어대학교 컴퓨터 및 정보통신공학과)
  • 발행 : 2002.10.01

초록

정보검색 태스크에서 사용자 모델링의 목적은 관련정보 검색을 용이하게 해주기 위하여 사용자의 관심도 또는 필요정보의 모델을 학습하는 것으로 시간적인 속성(temporal characteristics)을 가지며 관심 이동을 적절하게 반영하여야 한다. 강화학습은 정답이 주어지지 않고 사용자의 평가만이 수치적으로 주어지는 환경에서 평가를 최대화 한다는 목표를 가지므로 사용자 프로파일 학습에 적용할 수 있다. 본 논문에서는 사용자가 문서에 대해 행하는 일련의 행위를 평가값으로 하여 사용자가 선호하는 용어를 추출한 후, 사용자 프로파일을 강화학습 알고리즘으로 학습하는 방법을 제안한다. 사용자의 선호도에 적응하는 능력을 유지하기 위하여 지역 최대값들을 피할 수 있고, 가장 좋은 장기간 최적정책에 수렴하는 R-Learning을 적용한다. R-learning은 할인된 보상값의 최적화보다 평균 보상값을 최적화하기 때문에 장기적인 사용자 모델링에 적합하다는 것을 제시한다.

키워드