OpenAI
-
TRPO와 PPO 알고리즘의 개념최신 기술동향/인공지능 (AI) 2021. 9. 6. 21:31
앞선 글들에서 소개했듯이, 강화학습은 주어진 Environment에서 State을 기준으로, 최고의 Action을 학습해나가는 과정이다. State에서의 Action을 통한 결과를 반영하여 (State, Action) = (s,a)의 관계 Q function을 점수화하는 Value-Based 학습, Action을 결정하는 Policy 자체를 학습시켜 나가는 Policy-Based 학습이 있다. 각각의 장단점을 갖고 있으며, 그 카테고리 안에도 State와 Action이 Discrete or Continuous 여부 등에 따라 여러 모델들이 파생된다. 그 중, 이번 글에서 소개할 Proximal Policy Optimization Algorithm (PPO) [1]은 이름에서 알 수 있듯이 Policy-B..
-
Deep Q Network (DQN)최신 기술동향/인공지능 (AI) 2020. 10. 4. 10:05
이번 글에서 리뷰할 강화학습 알고리즘은 Deep Q-Network (DQN)이다. DQN은 AI의 최강자인 Google Deepmind에서 개발한 알고리즘으로, 강화학습에 Deep Learning을 적용하는 방식의 뼈대가되는 논문 [1] [2]이다. 많은 시나리오에서 자주 사용되고, 강화학습 알고리즘의 큰 축 중에 하나기 때문에, 이미 많은 리뷰들이 있다. 이 글에서도, 간단하게 리뷰를 하고, 이를 이용한 여러 논문들도 함께 소개해보고자 한다. DQN 알고리즘 Deep Q-Network (DQN)은 이름에서 알 수 있듯이, state-action value Q값을 Deep Learning을 통해서 Approximate하는 방식이다. DQN이 나오기 전에는, state-action에 따른 값들을 모두 Ta..
-
OpenAI Gym을 이용한 Environment 설계최신 기술동향/인공지능 (AI) 2020. 8. 30. 10:30
블로그를 보고 강화학습을 자신이 공부하는 분야에 적용해보고 싶은데, 어떻게 사용해야할 지 처음에 감이 안 오는 사람들도 있을 것이다. 많은 강화학습 알고리즘이나 코드를 찾아보면, 이미 있는 환경을 이용해서, main함수에 있는 20~30줄 정도만 돌려보면서 '이 알고리즘이 이렇게 좋은 성능을 보이는구나'정도만 알 수 있다. 하지만, 우리는 5G 환경이나 자신이 공부하는 분야에 맞게 환경을 만드는 것부터 시작하고 싶기 때문에, OpenAI Gym의 정해진 Template을 이용하는 것이 좋다. OpenAI Gym OpenAI Gym은 고전 게임을 기반으로 강화학습을 사용할 수 있는 기본적인 Environment (환경)과 기본적인 강화학습 알고리즘들이 패키지로 준비되어 있는 Toolkit이다. Open S..