TRPO
-
TRPO와 PPO 알고리즘의 개념최신 기술동향/인공지능 (AI) 2021. 9. 6. 21:31
앞선 글들에서 소개했듯이, 강화학습은 주어진 Environment에서 State을 기준으로, 최고의 Action을 학습해나가는 과정이다. State에서의 Action을 통한 결과를 반영하여 (State, Action) = (s,a)의 관계 Q function을 점수화하는 Value-Based 학습, Action을 결정하는 Policy 자체를 학습시켜 나가는 Policy-Based 학습이 있다. 각각의 장단점을 갖고 있으며, 그 카테고리 안에도 State와 Action이 Discrete or Continuous 여부 등에 따라 여러 모델들이 파생된다. 그 중, 이번 글에서 소개할 Proximal Policy Optimization Algorithm (PPO) [1]은 이름에서 알 수 있듯이 Policy-B..
-
Policy Gradient Algorithm최신 기술동향/인공지능 (AI) 2020. 8. 13. 10:51
대부분의 강화학습 알고리즘 구조는시행을 반복하며, Agent가 받을 Expected Reward를 최대화하는 방식으로 Training이 이루어진다. 대부분의 Model-Free 알고리즘들은 확실한 Model과 Reward를 알지 못하는 상태에서 Environment (환경)과의 상호작용을 하며 Episode를 여러 번 진행하면서, Reward를 받고, 이를 통해 자신의 Policy를 update시켜 나간다. 강화학습에는 크게 Value-Based RL과 Policy-Based RL이 있다. Value-Based RL은 가치함수인 Q-value를 계산하고, 이를 이용해 action을 선택하는 과정을 반복함으로써 Expected Reward를 최대화하는 방향으로 구현하는데, 대표적으로 Q 함수에 Neural..