ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Deep Reinforcement Learning for Multi-Agent systems 논문 리뷰
    최신 기술동향/인공지능 (AI) 2020. 8. 6. 11:02
    반응형

     이번에 리뷰할 논문 [1]에서는 최근에 핫한 Deep Reinforcement Learning (DRL) 시스템 중에서도 내가 최근 가장 관심있게 보고 있는 Multi-Agent system에 대해 다룬다. 최근 5G, 6G 논문 읽고 연구를 할 때, Multi-user나 V2V system을 고려한다. 이 때 많은 논문들이 BS는 모든 Channel state을 알고 있고, 이를 토대로 User들을 Control할 수 있다는 가정을 한거나 DRL을 사용하는데, 각 User들이 같은 Environment를 보고 있다는 가정을 한다. 하지만, User 및 Vehicle들은 각자가 Monitoring하는 Channel도 다르고, V2V pair마다 Channel은 매우 Dynamic하게 변한다. 이를 고려했을 때 조금 더 practical한 방식은 각자의 User 및 Vehicle이 각각 하나의 Agent로써 Environment를 Observe하고 Action하는 것이라고 생각한다. 이에 대해 조금 더 체계적으로 생각해보기 위해, 최근 Multi-Agent Deep Reinforcement Learning (MADRL)에 대한 논문들과 이를 활용한 5G 논문들을 읽고 있다. 이번에 리뷰할 논문에서는 MADRL을 적용할 때의 어려운 점 (Challenges), 이를 해결하기 위한 방안 (Solutions), MADRL을 활용할 수 있는 분야 (Applications)에 대해 다룬다. 

     


     

    제목: Deep Reinforcement Learnign for Multiagent Systems: A Review of Challenges, Solutions, and Applications

     

    저널명 : IEEE Transactions on Cybernetics

     

    출판년도 : March, 2020

     

    저자 : Nguyen, Thanh Thi, Ngoc Duy Nguyen, and Saeid Nahavandi


     

    1) Deep RL : Single Agent 

     DQN은 State가 많거나, Continuous한 상황에서, q 값을 table 형태로 만들 수 없기 때문에 사용한다. 즉, q table을 각 State별로 만드는 것이 아니라, State에 해당하는 input을 Deep learning 알고리즘에 넣어서, 이에 맞는 action을 학습하는 방식으로 이루어진다. 그냥 Deep learning만 사용했을 때는 Sample 간의 Correlation으로 인한 divergence문제, unstable한 algorithm이 만들어지는 두 가지 문제가 생긴다.

     이를 해결하기 위해, Training 시키는 Deep learning의 Network와 Targeting Network를 분리시키고, 일정 step마다 동기화시켜주는 방법을 사용하였다. 또한, (s, a, r, s') Sample들을 바로 학습에 투입하는 것이 아니라, Experience Replay Buffer에 넣고 Random하게 추출하여 Training시의 Sample간의 Correlation을 줄이는 방법을 사용해서 더 안정적인 강화학습의 Training이 가능하게 되었다.

     이 외에도, Q 값의 overestimate를 방지하기 위한 Double DQN (DDQN)이나 goal과 가까운 Sample에 더 비중을 두는 prioritized experience replay를 통해 더 stable하고 빠른 성능을 보이는 모델을 만드는 연구들이 이루어졌다. 또한, history information이 현재의 state에 영향을 미치는 케이스에 잘 적용되지 않는 DQN을 보완하기 위해, 마지막 Fully connected Layer를 LSTM으로 바꾸는 시계열 모델 [2]도 나왔다. 최근 LSTM같은 시계열 분석에서 많이 적용되는 '집중해서 봐야할 부분을 다시 본다'는 Attention 개념이 더해진  Deep Attention Recurrent Q-Network (DARQN) [3]이 나온다.

     

    2) Deep RL : Multi Agent

    Multi-Agent System (MAS)를 적용하면, 각 Agent를 고려하는 더 복잡한 시스템을 설계할수 있다. 하지만, 각 Agent마다의 Action이나 환경에 대해 고려해야 하기 때문에, 어떤 점을 추가로 생각해봐야할지 보자.

     

    A. Challenges and Soltuion

     가장 생각해볼 수 있는 Callenge는 'Nonstationarity'다. 이전까지의 Single Agent에서는 하나의 goal을 이루기 위해, 하나의 Agent가 하나의 Action을 고르는 형식이었다. 하지만, Multi-Agent 환경으로 오면서 각 Agent들의 goal도 다를 수 있고, 이를 이루기 위한 Agent 1의 Action이 Agent 2의 goal에 방해가 되는 방향으로 이루어질 수 있다. 따라서, 이전까지 Q-Learning 등의 Convergence가 Multi-Agent로 오면서 더 이상 Guarantee (보장)되지 않을 수 있다.

    이를 해결하기 위해 다양한 논문들이 나오고 있다. 어떤 Action을 선택하는 Likelihood와 반비례하게 Action value를 update하는 Repeated Update Q-Learning (RUQL) [4]이나 Agent가 다른 환경에 있는 Agent와 협력할지, 독립적으로 Action할지도 Train하는 Deep Loosely Coupled Q-Network (DLCON) [5] 등이 제안되었다. DQN에 Mulit-Agent를 적용하면서 Nonstationarity를 해결하기 위해 Sampling을 어떻게 할지 연구하는 논문들 [6] [7]도 있다. 

     최근에는 co-worker의 poor action을 눈감아주는 'Leniency (관대)' 개념을 적용한 Lenient-DQN (LDQN) [8]이라는 방식이 연구되고 있다. 쉽게 말하면, 다른 Agent가 실수해서 내가 낮은 보상을 받아도, 그 Agent는 능력이 없다고 판단해서 다음 Action에 그 Agent와의 협력을 배제하는 것이 아니라, 그 Agent가 더 좋은 성능을 보일 수 있도록 협력하는 방식이다. 이런 방식은 Coordinated multi-agent 시스템에 주로 적용된다.

     

     두 번째로 생각해 볼 Challenge는 'Partial Observability'다. State의 Complete information을 각 Agent가 observe할 수 없기 때문에 생기는 문제인데, practical하게 시스템을 바라보면, Multi-Agent에서는 이런 경우가 많기 때문에 반드시 다뤄야할 Issue 중 하나다. 이런 문제는 보통 Partially Observable MDP (POMDP)로 Modeling될 수 있다.

     이를 해결하기 위해, 하나의 Network에서 각 Agent들이 같은 종류의 Action 중에서 Action을 선택한다는 가정과, 마지막 Layer에 LSTM을 활용한 DRQN 등의 알고리즘을 사용하여 POMDP를 해결하는 연구가 이루어졌다. 이후에, Agent 들이 UAV나 Robots이 혼재하는 상황처럼 다른 Task를 부여받는 경우에 대한 연구도 있다. 더 나아가, Partially Observe한 정보들을 공유하는 것이 좋을지 말지에 대해 연구하는 논문들도 있다. 점점 Multi-Agent 알고리즘에 대한 연구가 인간의 판단 방식과 비슷해진다는 것을 이 논문에서도 언급하고 있다.

     

    세 번째로 생각해 볼 Challenge는 첫 번째에 설명한 내용과 비슷하게, Agent들을 각자 Train시키면, 너무 비효율적이고, Overfitting이 될 가능성이 높아진다는 점이다. 이를 해결하기 위한 방법으로 가장 많이 언급되는 방식이 Centralized Leraning and Decentralized Execution이 있다. 즉, 한 명이 observation을 다 모아서 Learning하고, Train된 Model을 뿌려주면 Agent들이 각자 Policy로 Execution하는 방식이다. 대표적으로 Multi-Agent Deep Deterministic Policy Gradient (MADDPG)가 있다. Centralized critic이 Q값을 정하면, 이를 기반으로 각 Agent들 별로 갖고 있는 Actor로 Policy를 정하여 Action과 observe하여 관련 데이터를 전체 Network의 Critic update를 위해 전송하는 방식으로 이루어진다.

     

     마지막으로 생각해 볼 Challenge는 Multi-Agent로 가면서 Computation Issue가 커지고, 특히 Continuous Action인 경우에는 이를 계산하는데 너무 많은 시간이 소모된다는 점이다. DQN이 Continuous State는 고려하지만, Continuous Action에는 취약한 약점이 Multi-Agent로 가면서 더 심해진 것이다. 따라서, 해결방법도 비슷하다. Continuous Action을 고려하는 Trust Region Policy Optimization (TRPO)나 DDPG를 사용하는 것이다. Training 단계의 Computation Issue를 줄이기 위해서 미리 Train된 Network의 일부를 갖고오는 Transfer Learning을 사용하는 방법도 있다.

     

    B. MADRL Applications

    이 논문에는 Energy Sharing, Traffic Light control 등 다양한 Application과 이를 연구한 논문들이 있다. 이 중에 가장 관심 있게 본 Application은 'Swarm System''Task and resource allocation'이다. Swarm System은 swarm robot의 limited sensory capability를 모아서 Policy를 학습시키는 방법이고, Resource allocation은 Communication Channel을 구축하고, 이를 기반으로 자원을 할당하는 방법에 대한 연구다. 내가 최근에 관심있는 분야가 V2V 등의 Multi-Agent 상황에서 어떻게 DRL을 적용할 수 있을지에 대한 내용이기 때문에, 이를 기반으로 논문을 더 찾아야겠다는 생각을 했다.

     

    Conclusion

    이 논문은 Multi-Agent DRL을 다룰 때 고려해야 하는 Challenges, 이를 위한 Solutions을 review했다. 가장 중요하게 고려한 Challenge는 Nonstationarity, partial Observability, 늘어난 차원으로 인한 computation Issue가 있다. 이를 해결하기 위해, 다양한 알고리즘들이 제안되었다. 간단하게 DQN 대신 DDPG나 TRPO를 적용하는 방법이나, Sampling을 다르게 하는 방식들이 있다. Complete Observation이 불가능하다는 점은 Centralized Leraning and Decentralized Execution으로 해결했다.

     이렇게 Multi-Agent 상황에서 DRL을 적용하는 방법에 대한 조사를 했으니, 이제는 이를 반영하여 5G나 6G의 Resource Allocation에 적용할 예정이다. 'LTE 통신' 카테고리에 Multi-Agent DRL을 사용해서 Resource allocation을 하는 논문 중 하나인 Vehicular Network RL 논문 리뷰(Multi-Agent)에 나와있는 모델을 5G NR FrameStructure를 반영하여 성능을 향상시킨다던지, 다른 LTE기반 V2V, UAV 논문을 5G NR기준으로 System Modeling을 하고 DRL을 적용해볼 예정이다.

     

    [Reference]

    [1] Nguyen, Thanh Thi, Ngoc Duy Nguyen, and Saeid Nahavandi. “Deep Reinforcement Learning for Multiagent Systems: A Review of Challenges, Solutions, and Applications.” IEEE Transactions on Cybernetics (2020): 1–14. Crossref. Web.

    [2] Hausknecht, M., and Stone, P. (2015). Deep recurrent Q-learning for partially observable MDPs. CoRR, abs/1507.06527, 7(1).

    [3] Sorokin, I., Seleznev, A., Pavlov, M., Fedorov, A., and Ignateva, A. (2015). Deep attention recurrent Q-network. arXiv preprint arXiv:1512.01693.

    [4] Abdallah, S., and Kaisers, M. (2016). Addressing environment non-stationarity by repeating Q-learning updates. The Journal of Machine Learning Research, 17(1), 1582-1612.

    [5] Yu, C., Zhang, M., Ren, F., and Tan, G. (2015). Multiagent learning of coordination in loosely coupled multiagent systems. IEEE Transactions on Cybernetics, 45(12), 2853-2867.

    [6] Diallo, E. A. O., Sugiyama, A., and Sugawara, T. (2017, December). Learning to coordinate with deep reinforcement learning in doubles Pong game. In Machine Learning and Applications (ICMLA), 2017 16th IEEE International Conference on (pp. 14-19). IEEE.

    [7] Foerster, J., Nardelli, N., Farquhar, G., Afouras, T., Torr, P. H., Kohli, P., and Whiteson, S. (2017, July). Stabilising experience replay for deep multi-agent reinforcement learning. In International Conference on Machine Learning (pp. 1146-1155).

    [8] Palmer, G., Tuyls, K., Bloembergen, D., and Savani, R. (2018, July). Lenient multi-agent deep reinforcement learning. In International Conference on Autonomous Agents and Multiagent Systems (pp. 443-451).

     

    반응형

    댓글

Designed by Tistory.