• Title/Summary/Keyword: 강화학습

Search Result 388, Processing Time 0.333 seconds

Improved the action recognition performance of hierarchical RNNs through reinforcement learning (강화학습을 통한 계층적 RNN의 행동 인식 성능강화)

  • Kim, Sang-Jo;Kuo, Shao-Heng;Cha, Eui-Young
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • /
    • pp.360-363
    • /
    • 2018
  • 본 논문에서는 계층적 RNN의 성능 향상을 위하여 강화학습을 통한 계층적 RNN 내 파라미터를 효율적으로 찾는 방법을 제안한다. 계층적 RNN 내 임의의 파라미터에서 학습을 진행하고 얻는 분류 정확도를 보상으로 하여 간소화된 강화학습 네트워크에서 보상을 최대화하도록 강화학습 내부 파라미터를 수정한다. 기존의 강화학습을 통한 내부 구조를 찾는 네트워크는 많은 자원과 시간을 소모하므로 이를 해결하기 위해 간소화된 강화학습 구조를 적용하였고 이를 통해 적은 컴퓨터 자원에서 학습속도를 증가시킬 수 있었다. 간소화된 강화학습을 통해 계층적 RNN의 파라미터를 수정하고 이를 행동 인식 데이터 세트에 적용한 결과 기존 알고리즘 대비 높은 성능을 얻을 수 있었다.

  • PDF

Evaluating a successor representation-based reinforcement learning algorithm in the 2-stage Markov decision task (2-stage 마르코프 의사결정 상황에서 Successor Representation 기반 강화학습 알고리즘 성능 평가)

  • Kim, So-Hyeon;Lee, Jee Hang
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • /
    • pp.910-913
    • /
    • 2021
  • Successor representation (SR) 은 두뇌 내 해마의 공간 세포가 인지맵을 구성하여 환경을 학습하고, 이를 활용하여 변화하는 환경에서 유연하게 최적 전략을 수립하는 기전을 모사한 강화학습 방법이다. 특히, 학습한 환경 정보를 활용, 환경 구조 안에서 목표가 변화할 때 강인하게 대응하여 일반 model-free 강화학습에 비해 빠르게 보상 변화에 적응하고 최적 전략을 찾는 것으로 알려져 있다. 본 논문에서는 SR 기반 강화학습 알고리즘이 보상의 변화와 더불어 환경 구조, 특히 환경의 상태 천이 확률이 변화하여 보상의 변화를 유발하는 상황에서 어떠한 성능을 보이는 지 확인하였다. 벤치마크 알고리즘으로 SR 의 특성을 목적 기반 강화학습으로 통합한 SR-Dyna 를 사용하였고, 환경 상태 천이 불확실성과 보상 변화가 동시에 나타나는 2-stage 마르코프 의사결정 과제를 실험 환경으로 사용하였다. 시뮬레이션 결과, SR-Dyna 는 환경 내 상태 천이 확률 변화에 따른 보상 변화에는 적절히 대응하지 못하는 결과를 보였다. 본 결과를 통해 두뇌의 강화학습과 알고리즘 강화학습의 차이를 이해하여, 환경 변화에 강인한 강화학습 알고리즘 설계를 기대할 수 있다.

Strategy of Reinforcement Learning in Artificial Life (인공생명의 연구에 있어서 강화학습의 전략)

  • 심귀보;박창현
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • /
    • pp.257-260
    • /
    • 2001
  • 일반적으로 기계학습은 교사신호의 유무에 따라 교사학습과 비교사학습, 그리고 간접교사에 의한 강화학습으로 분류할 수 있다. 강화학습이란 용어는 원래 실험 심리학에서 동물의 학습방법 연구에서 비롯되었으나, 최근에는 공학 특히 인공생명분야에서 뉴럴 네트워크의 학습 알고리즘으로 많은 관심을 끌고 있다. 강화학습은 제어기 또는 에이전트의 행동에 대한 보상을 최대화하는 상태-행동 규칙이나 행동발생 전략을 찾아내는 것이다. 본 논문에서는 최근 많이 연구되고 있는 강화학습의 방법과 연구동향을 소개하고, 특히 인공생명 연구에 있어서 강하학습의 중요성을 역설한다.

  • PDF

Optimal Route Finding Algorithms based Reinforcement Learning (강화학습을 이용한 주행경로 최적화 알고리즘 개발)

  • 정희석;이종수
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • /
    • pp.157-161
    • /
    • 2003
  • 본 논문에서는 차량의 주행경로 최적화를 위해 강화학습 개념을 적용하고자 한다. 강화학습의 특징은 관심 대상에 대한 구체적인 지배 규칙의 정보 없이도 최적화된 행동 방식을 학습시킬 수 있는 특징이 있어서, 실제 차량의 주행경로와 같이 여러 교통정보 및 시간에 따른 변화 등에 대한 복잡한 고려가 필요한 시스템에 적합하다. 또한 학습을 위한 강화(보상, 벌칙)의 정도 및 기준을 조절해 즘으로써 다양한 최적주행경로를 제공할 수 있다. 따라서, 본 논문에서는 강화학습 알고리즘을 이용하여 다양한 최적주행경로를 제공해 주는 시스템을 구현한다.

  • PDF

The Design and Practice of Disaster Response RL Environment Using Dimension Reduction Method for Training Performance Enhancement (학습 성능 향상을 위한 차원 축소 기법 기반 재난 시뮬레이션 강화학습 환경 구성 및 활용)

  • Yeo, Sangho;Lee, Seungjun;Oh, Sangyoon
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.10 no.7
    • /
    • pp.263-270
    • /
    • 2021
  • Reinforcement learning(RL) is the method to find an optimal policy through training. and it is one of popular methods for solving lifesaving and disaster response problems effectively. However, the conventional reinforcement learning method for disaster response utilizes either simple environment such as. grid and graph or a self-developed environment that are hard to verify the practical effectiveness. In this paper, we propose the design of a disaster response RL environment which utilizes the detailed property information of the disaster simulation in order to utilize the reinforcement learning method in the real world. For the RL environment, we design and build the reinforcement learning communication as well as the interface between the RL agent and the disaster simulation. Also, we apply the dimension reduction method for converting non-image feature vectors into image format which is effectively utilized with convolution layer to utilize the high-dimensional and detailed property of the disaster simulation. To verify the effectiveness of our proposed method, we conducted empirical evaluations and it shows that our proposed method outperformed conventional methods in the building fire damage.

상태 표현 방식에 따른 심층 강화 학습 기반 캐릭터 제어기의 학습 성능 비교

  • Son, Chae-Jun;Lee, Yun-Sang
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • /
    • pp.14-15
    • /
    • 2021
  • 물리 시뮬레이션 기반의 캐릭터 동작 제어 문제를 강화학습을 이용하여 해결해 나가는 연구들이 계속해서 진행되고 있다. 이에 따라 이 문제를 강화학습을 이용하여 풀 때, 영향을 미치는 요소에 대한 연구도 계속해서 진행되고 있다. 우리는 지금까지 이뤄지지 않았던 상태 표현 방식에 따른 강화학습에 미치는 영향을 분석하였다. 첫째로, root attached frame, root aligned frame, projected aligned frame 3 가지 좌표계를 정의하였고, 이에 대해 표현된 상태를 이용하여 강화학습에 미치는 영향을 분석하였다. 둘째로, 동역학적 상태를 나타내는 캐릭터 관절의 위치, 각도에 따라 학습에 어떠한 영향을 미치는지 분석하였다.

  • PDF

Topic directed Web Spidering using Reinforcement Learning (강화학습을 이용한 주제별 웹 탐색)

  • Lim, Soo-Yeon
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.15 no.4
    • /
    • pp.395-399
    • /
    • 2005
  • In this paper, we presents HIGH-Q learning algorithm with reinforcement learning for more fast and exact topic-directed web spidering. The purpose of reinforcement learning is to maximize rewards from environment, an reinforcement learning agents learn by interacting with external environment through trial and error. We performed experiments that compared the proposed method using reinforcement learning with breath first search method for searching the web pages. In result, reinforcement learning method using future discounted rewards searched a small number of pages to find result pages.

A Study on Machine Learning and Basic Algorithms (기계학습 및 기본 알고리즘 연구)

  • Kim, Dong-Hyun;Lee, Tae-ho;Lee, Byung-Jun;Kim, Kyung-Tae;Youn, Hee-Yong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • /
    • pp.35-36
    • /
    • 2018
  • 본 논문에서는 기계학습 및 기계학습 기법 중에서도 Markov Decision Process (MDP)를 기반으로 하는 강화학습에 대해 알아보고자 한다. 강화학습은 기계학습의 일종으로 주어진 환경 안에서 의사결정자(Agent)는 현재의 상태를 인식하고 가능한 행동 집합 중에서 보상을 극대화할 수 있는 행동을 선택하는 방법이다. 일반적인 기계학습과는 달리 강화학습은 학습에 필요한 사전 지식을 요구하지 않기 때문에 불명확한 환경 속에서도 반복 학습이 가능하다. 본 연구에서는 일반적인 강화학습 및 강화학습 중에서 가장 많이 사용되고 있는 Q-learning 에 대해 간략히 설명한다.

  • PDF

Extended Q-Learning under Multiple Subtasks (복수의 부분작업을 처리할 수 있는 확정된 Q-Learning)

  • 오도훈;이현숙;오경환
    • Korean Journal of Cognitive Science
    • /
    • v.12 no.1_2
    • /
    • pp.25-34
    • /
    • 2001
  • 지식을 관리하는 것에 주력했던 기존의 인공지능 연구 방향은 동적으로 움직이는 외부 환경에서 적응할 수 있는 시스템 구축으로 변화하고 있다. 이러한 시스템의 기본 능력을 이루는 많은 학습방법 중에서 비교적 최근에 제시된 강화학습은 일반적인 사례에 적용하기 쉽고 동적인 환경에서 뛰어난 적응 능력을 보여주었다. 이런 장점을 바탕으로 강화학습은 에이전트 연구에 많이 사용되고 있다. 하지만, 현재까지 연구결과는 강화학습으로 구축된 에이전트로 해결할 수 있는 작업의 난이도에 한계가 있음을 보이고 있다. 특히, 복수의 부분 작업으로 구성되어 있는 작업을 처리할 경우에 기본의 강화학습 방법은 문제 해결에 한계를 보여주고 있다. 본 논문에서는 복수의 부분 작업으로 구성된 작업이 왜 처리하기 힘든가를 분석하고, 이런 문제를 처리할 수 있는 방안을 제안한다. 본 논문에서 제안하고 있는 EQ-Learning의 강화학습 방법의 대표적인 Q-Learning을 확장시켜 문제를 해결한다. 이 방법은 각각의 부분 작업 해결 방안을 학습시키고 그 학습 결과들의 적절한 순서를 찾아내 전체 작업을 해결한다. EQ-Learning의 타당성을 검증하기 위해 격자 공간에서 복수의 부분작업으로 구성된 미로 문제를 통하여 실험하였다.

  • PDF

Adopting Reinforcement Learning for Efficient Fire Disaster Response in City Fire Simulation (도시 화재 시뮬레이션에서의 효과적인 화재 대응을 위한 강화학습 적용 솔루션의 설계 및 구현)

  • Yeo, Sangho;Oh, Sangyoon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • /
    • pp.104-106
    • /
    • 2021
  • 도시의 인구 밀집도가 증가함에 따라 도시의 단위 면적당 건물 밀집도 역시 증가하고 있으며, 이에 도시 화재는 대규모 화재로 발전할 가능성이 높다. 도시 내 대규모 화재로 인한 인명 및 경제적인 피해를 최소화하기 위해 시뮬레이션 기반의 화재 대응 방안들이 널리 연구되고 있으며, 최근에는 시뮬레이션에서 효과적인 화재 대응 방안을 탐색하기 위해 강화학습 기술을 활용하는 연구들이 소개되고 있다. 그러나, 시뮬레이션의 규모가 커지는 경우, 상태 정보 및 화재 대응을 위한 행위 공간의 크기가 증가함으로 인해 강화학습의 복잡도가 증가하며, 이에 따라 학습 확장성이 저하되는 문제가 발생한다. 본 논문에서는 시뮬레이션 규모 증가 시 강화학습의 학습 확장성을 유지하기 위해, 화재 상황 정보와 재난 대응을 위한 행위 공간을 변환하는 기법을 제안한다. 실험 결과를 통해 기존에 강화학습 모델의 학습이 어려웠던 대규모 도시 재난시뮬레이션에서 본 기법을 적용한 강화학습 모델은 학습 수행이 가능하였으며, 화재 피해가 없는 상황의 적합도를 100%로 하고, 이것 대비 99.2%의 화재 대응 적합도를 달성했다.