rl
-
TRPO와 PPO 알고리즘의 개념최신 기술동향/인공지능 (AI) 2021. 9. 6. 21:31
앞선 글들에서 소개했듯이, 강화학습은 주어진 Environment에서 State을 기준으로, 최고의 Action을 학습해나가는 과정이다. State에서의 Action을 통한 결과를 반영하여 (State, Action) = (s,a)의 관계 Q function을 점수화하는 Value-Based 학습, Action을 결정하는 Policy 자체를 학습시켜 나가는 Policy-Based 학습이 있다. 각각의 장단점을 갖고 있으며, 그 카테고리 안에도 State와 Action이 Discrete or Continuous 여부 등에 따라 여러 모델들이 파생된다. 그 중, 이번 글에서 소개할 Proximal Policy Optimization Algorithm (PPO) [1]은 이름에서 알 수 있듯이 Policy-B..
-
Policy Gradient Algorithm최신 기술동향/인공지능 (AI) 2020. 8. 13. 10:51
대부분의 강화학습 알고리즘 구조는시행을 반복하며, Agent가 받을 Expected Reward를 최대화하는 방식으로 Training이 이루어진다. 대부분의 Model-Free 알고리즘들은 확실한 Model과 Reward를 알지 못하는 상태에서 Environment (환경)과의 상호작용을 하며 Episode를 여러 번 진행하면서, Reward를 받고, 이를 통해 자신의 Policy를 update시켜 나간다. 강화학습에는 크게 Value-Based RL과 Policy-Based RL이 있다. Value-Based RL은 가치함수인 Q-value를 계산하고, 이를 이용해 action을 선택하는 과정을 반복함으로써 Expected Reward를 최대화하는 방향으로 구현하는데, 대표적으로 Q 함수에 Neural..
-
Deep Reinforcement Learning for Multi-Agent systems 논문 리뷰최신 기술동향/인공지능 (AI) 2020. 8. 6. 11:02
이번에 리뷰할 논문 [1]에서는 최근에 핫한 Deep Reinforcement Learning (DRL) 시스템 중에서도 내가 최근 가장 관심있게 보고 있는 Multi-Agent system에 대해 다룬다. 최근 5G, 6G 논문 읽고 연구를 할 때, Multi-user나 V2V system을 고려한다. 이 때 많은 논문들이 BS는 모든 Channel state을 알고 있고, 이를 토대로 User들을 Control할 수 있다는 가정을 한거나 DRL을 사용하는데, 각 User들이 같은 Environment를 보고 있다는 가정을 한다. 하지만, User 및 Vehicle들은 각자가 Monitoring하는 Channel도 다르고, V2V pair마다 Channel은 매우 Dynamic하게 변한다. 이를 고려했..