• Title/Summary/Keyword: 강화학습

Search Result 388, Processing Time 0.105 seconds

Formal Model of Extended Reinforcement Learning (E-RL) System (확장된 강화학습 시스템의 정형모델)

  • Jeon, Do Yeong;Song, Myeong Ho;Kim, Soo Dong
    • Journal of Internet Computing and Services
    • /
    • v.22 no.4
    • /
    • pp.13-28
    • /
    • 2021
  • Reinforcement Learning (RL) is a machine learning algorithm that repeat the closed-loop process that agents perform actions specified by the policy, the action is evaluated with a reward function, and the policy gets updated accordingly. The key benefit of RL is the ability to optimze the policy with action evaluation. Hence, it can effectively be applied to developing advanced intelligent systems and autonomous systems. Conventional RL incoporates a single policy, a reward function, and relatively simple policy update, and hence its utilization was limited. In this paper, we propose an extended RL model that considers multiple instances of RL elements. We define a formal model of the key elements and their computing model of the extended RL. Then, we propose design methods for applying to system development. As a case stud of applying the proposed formal model and the design methods, we present the design and implementation of an advanced car navigator system that guides multiple cars to reaching their destinations efficiently.

RBFN-based Policy Model for Efficient Multiagent Reinforcement Learning (효율적인 멀티 에이전트 강화학습을 위한 RBFN 기반 정책 모델)

  • Gwon, Gi-Deok;Kim, In-Cheol
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • /
    • pp.294-302
    • /
    • 2007
  • 멀티 에이전트 강화학습에서 중요한 이슈 중의 하나는 자신의 성능에 영향을 미칠 수 있는 다른 에이전트들이 존재하는 동적 환경에서 어떻게 최적의 행동 정책을 학습하느냐 하는 것이다. 멀티 에이전트 강화 학습을 위한 기존 연구들은 대부분 단일 에이전트 강화 학습기법들을 큰 변화 없이 그대로 적용하거나 비록 다른 에이전트에 관한 별도의 모델을 이용하더라도 현실적이지 못한 가정들을 요구한다. 본 논문에서는 상대 에이전트에 대한RBFN기반의 행동 정책 모델을 소개한 뒤, 이것을 이용한 강화 학습 방법을 설명한다. 본 논문에서는 제안하는 멀티 에이전트 강화학습 방법은 기존의 멀티 에이전트 강화 학습 연구들과는 달리 상대 에이전트의 Q 평가 함수 모델이 아니라 RBFN 기반의 행동 정책 모델을 학습한다. 또한, 표현력은 풍부하나 학습에 시간과 노력이 많이 요구되는 유한 상태 오토마타나 마코프 체인과 같은 행동 정책 모델들에 비해 비교적 간단한 형태의 행동 정책 모델을 이용함으로써 학습의 효율성을 높였다. 본 논문에서는 대표적이 절대적 멀티 에이전트 환경인 고양이와 쥐 게임을 소개한 뒤, 이 게임을 테스트 베드 삼아 실험들을 전개함으로써 제안하는 RBFN 기반의 정책 모델의 효과를 분석해본다.

  • PDF

A study on Match 3 Playtesting based on reinforcement learning (강화학습 기반 매치 3 플레이테스팅 연구)

  • Shin, Yuchul
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • /
    • pp.611-612
    • /
    • 2021
  • 매치 3게임에서 플레이테스팅 방법은 전통적으로 사람들을 이용하는 방법으로 지속되어 왔으며, 최근에는 딥러닝을 이용하는 방법으로서 게임의 장르적인 특성들을 고려해서 각 레벨에 대한 플레이 데이터를 이용한 지도학습 방법과 환경과 상황 그리고 보상을 통한 강화학습 방법들이 연구되고 있다. 본 논문에서는 매치 3게임에서 강화학습을 이용한 플레이테스팅의 향후 연구 방향성에 대해서 기준을 제시한다.

  • PDF

Reinforcement learning packet scheduling using UCB (UCB를 이용한 강화학습 패킷 스케줄링)

  • Kim, Dong-Hyun;Kim, Min-Woo;Lee, Byung-Jun;Kim, Kyung-Tae;Youn, Hee-Yong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • /
    • pp.45-46
    • /
    • 2019
  • 본 논문에서는 Upper Confidence Bound (UCB)를 이용한 효율적인 패킷 스케줄링 기법을 제안한다. 기존 e-greedy 등 강화학습의 보상을 극대화 할 수 있는 행동을 선택하는 것과 다르게, 제안된 UCB를 이용한 강화학습 패킷 스케줄링 기법은 각 상태에서 행동을 선택한 횟수를 추가적으로 고려한다. 이는 보다 효율적인 강화학습의 탐구(Exploration)를 가능케 한다. 본 논문에서는 컴퓨터 시뮬레이션을 통하여 제안하는 UCB를 이용한 강화학습 패킷 스케줄링 기법이 기존의 e-greedy 및 softmax를 기반으로 한 패킷 스케줄링 기법에 비해 정확도 측면에서 향상된 정확도를 보인다.

  • PDF

Research Trends on Deep Reinforcement Learning (심층 강화학습 기술 동향)

  • Jang, S.Y.;Yoon, H.J.;Park, N.S.;Yun, J.K.;Son, Y.S.
    • Electronics and Telecommunications Trends
    • /
    • v.34 no.4
    • /
    • pp.1-14
    • /
    • 2019
  • Recent trends in deep reinforcement learning (DRL) have revealed the considerable improvements to DRL algorithms in terms of performance, learning stability, and computational efficiency. DRL also enables the scenarios that it covers (e.g., partial observability; cooperation, competition, coexistence, and communications among multiple agents; multi-task; decentralized intelligence) to be vastly expanded. These features have cultivated multi-agent reinforcement learning research. DRL is also expanding its applications from robotics to natural language processing and computer vision into a wide array of fields such as finance, healthcare, chemistry, and even art. In this report, we briefly summarize various DRL techniques and research directions.

Design of Rotary Inverted Pendulum System Using Reinforcement Learning (강화학습을 이용한 회전식 도립진자 시스템 설계)

  • Kim, Ju-Bong;Kwon, Do-Hyung;Hong, Yong-Geun;Kim, Min-Suk;Han, Youn-Hee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • /
    • pp.705-707
    • /
    • 2018
  • Rotary Inverted Pendulum 은 제어분야에서 비선형 제어 시스템을 설명하기 위해 자주 사용되어왔다. 본 논문은 강화학습 에이전트의 환경으로써 Rotary Inverted Pendulum 을 도입하였다. 이를 통해서 강화학습이 실제 세계에서의 복합적인 문제를 해결할 수 있음을 보인다. 강화학습 에이전트의 가상 환경과 실제 환경을 맵핑시키기 위해서 Ethernet 연결 위에 MQTT 프로토콜을 사용하였으며 이를 통해서 경량화된 IoT 분야에서의 강화학습의 활용도를 조명한다.

The Analysis of Reinforcement Learning Environment for Intelligent Ship Navigation Agents (지능형 선박 항해 에이전트 개발을 위한 강화학습 환경 분석)

  • Park, Se-Kil;Oh, Jae-Yong;Kim, Hye-Jin
    • Proceedings of the Korean Institute of Navigation and Port Research Conference
    • /
    • /
    • pp.3-4
    • /
    • 2019
  • 본 논문에서는 복잡한 해상교통 환경 하에서도 해양 안전을 도모할 수 있는 강화학습 기반 지능형 선박 항해 에이전트 개발의 사전단계로서 기존의 강화학습 환경을 분석하였다. 강화학습 기반 접근법은 선박 항해 에이전트 스스로가 복잡하고 동적인 해상교통 환경을 이해하고 주어진 목표를 달성할 수 있도록 도와주는데, 이를 위해서는 에이전트 자신을 제외한 모든 사항들이 정의되는 환경을 보다 정확하고 효과적으로 개발하는 것이 매우 중요하다. 실제 해상교통 환경은 학습 환경으로의 모델링 및 에이전트 학습의 난이도가 매우 높은 환경으로 학습환경이 가질 수 있는 여러 속성들을 적절히 설정하여 선박 항해 에이전트의 활용 목적에 맞는 가성비 높은 환경을 구축하는 것이 바람직하다.

  • PDF

Extended Q-larning under Multiple Tasks (복수의 부분 작업을 위한 확장된 Q-Learning)

  • 오도훈;윤소정;오경환
    • Proceedings of the Korean Information Science Society Conference
    • /
    • /
    • pp.229-231
    • /
    • 2000
  • 많은 학습 방법 중에서 비교적 최근에 제시된 강화학습은 동적인 환경에서 뛰어난 학습 능력을 보여주었다. 이런 장점을 바탕으로 강화학습은 학습을 기초로 하는 에이전트 연구에 많이 사용되고 있다. 하지만, 현재까지 연구 결과는 강화학습으로 구축된 에이전트로 해결 할 수 있는 작업의 난이도에 한계가 있음을 보이고 있다. 특히, 복수의 부분 작업으로 구성되어 있는 복합 작업을 처리할 경우에 기존의 강화학습 방법은 문제 해결에 한계를 보여주고 있다. 본 논문에서는 복수의 부분 작업으로 구성된 복합 작업이 왜 처리하기 힘든가를 분석하고, 이런 문제를 처리할 수 있는 방안을 제안한다. 본 논문에서 제안하고 있는 EQ-Learning은 강화학습 방법의 대표적인 Q-Learning을 개량하고 기존의 문제를 해결한다. 이 방법은 각각의 부분 작업 해결 방안을 학습시키고 그 학습 결과들의 적절한 적용 순서를 찾아내 복합 작업을 해결한다. EQ-Learning의 타당성을 검증하기 위해 격자 공간에서 복수의 부분작업으로 구성된 미로 문제를 통하여 실험하였다.

  • PDF

Efficient Reinforcement Learning System in Multi-Agent Environment (다중 에이전트 환경에서 효율적인 강화학습 시스템)

  • Hong, Jung-Hwan;Kang, Jin-Beom;Choi, Joong-Min
    • Proceedings of the Korean Information Science Society Conference
    • /
    • /
    • pp.393-396
    • /
    • 2006
  • 강화학습은 환경과 상호작용하는 과정을 통하여 목표를 이루기 위한 전략을 학습하는 방법으로써 에이전트의 학습방법으로 많이 사용한다. 독립적인 에이전트가 아닌 상호 의사소통이 가능한 다중 에이전트 환경에서 에이전트의 학습정보를 서로 검색 및 공유가 가능하다면 환경이 거대하더라도 기존의 강화학습 보다 빠르게 학습이 이루어질 것이다. 하지만 아직 다중 에이전트 환경에서 학습 방법에 대한 연구가 미흡하여 학습정보의 검색과 공유에 대해 다양한 방법들이 요구되고 있다. 본 논문에서는 대상 에이전트 학습 정보와 주변 에이전트들의 학습 정보 사이에 편집거리를 비교하여 유사한 에이전트를 찾고 그 에이전트 정보를 강화학습 사전정보로 사용함으로써 학습속도를 향상시킨 ED+Q-Learning 시스템을 제안한다.

  • PDF

Using Prior Domain Knowledge for Efficient Relational Reinforcement Learning (효율적인 관계형 강화학습을 위한 사전 영역 지식의 활용)

  • Kang, Minkyo;Kim, Incheol
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • /
    • pp.483-486
    • /
    • 2021
  • 기존의 심층 강화학습은 상태, 행동, 정책 등을 모두 벡터 형태로 표현하는 강화학습으로서, 학습된 정책의 일반성과 해석 가능성에 제한이 있고 영역 지식을 학습에 효과적으로 활용하기도 어렵다는 한계성이 있다. 이러한 문제점들을 해결하기 위해 제안된 새로운 관계형 강화학습 프레임워크인 dNL-RRL은 상태, 행동, 그리고 학습된 정책을 모두 논리 서술자와 규칙들로 표현할 수 있다. 본 논문에서는 dNL-RRL을 기초로 공장 내 운송용 모바일 로봇의 제어를 위한 행동 정책 학습을 수행하였으며, 학습의 효율성 향상을 위해 인간 전문가의 사전 영역 지식을 활용하는 방안들을 제안한다. 다양한 실험들을 통해, 본 논문에서 제안하는 영역 지식을 활용한 관계형 강화학습 방법의 학습 성능 개선 효과를 입증한다.