ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Vehicular Network RL 논문 리뷰(Multi-Agent)
    5G & 6G 통신 기반 기술/LTE Communication 2020. 7. 25. 11:11
    반응형

    이 논문은 Vehicular Network 상황에서 V2V와 V2I의 Global Network Performance를 최대화하기 위해 Reinforcement Learning을 사용한다. 강화학습을 적용하기 위해서는 '환경(Environment)'를 설계하는 것이 거의 전부라고 해도 과언이 아닐 정도로 환경 설정이 중요한 이슈다. Vehicular Network 환경만 제대로 정리되어 있으면, 그 안에 들어갈 다양한 강화학습 알고리즘들을 워낙 사용하기 쉬운 API들이 많기 때문에 가져다 쓰면 된다. 따라서, 이번 글에서는 어떻게 환경을 설정했는지에 조금 더 초점을 맞춰서 리뷰해보도록 한다.


     

    제목: Spectrum sharing in vehicular networks based on multi-agent reinforcement learning

     

    저널명 : IEEE Journal on Selected Area in Communications

     

    출판년도 : October, 2019

     

    저자 : Le Liang, Member IEEE, Hao Ye, Student Member, IEEE, and Geoffrey Ye Li, Fellow IEEE


     

    Abstarct & Introduction

     Vehicular Network의 Spectrum Sharing을 위해서 다양한 논문이 각자만의 Scheme을 제안하고 있다. 우선 간단하게 Vehicular Network 모델링을 정리하자면, 차량간의 통신 V2V (PC5, Sidelink)가 있고, 차량과 기지국 등 주변 인프라와의 통신 V2I (Uu)가 있다. 두 통신방식은 별도로 분리된 Bandwidth를 사용할 수도 있지만, 제한된 Spectrum을 적절하게 공유하기 위한 논문들이 제안되고 있다. 시스템 전체적인 입장 (주로 Base Station)에서 각 V2V pair와 V2I의 Channel 상태를 파악하고 어느 타이밍, 어느 정도의 Bandwidth, Power 용량을 각 Vehicle에게 주는 것이 좋을지 Scheduling한다. 하지만, 여기서 하나의 Major Issue가 있다.

     차량은 빠른 속도로 이동하기 때문에 Channel State Information (CSI) 또한 빠르게 바뀌고 있다. 더 나아가, V2I의 Channel 상황은 Reference Signal 등을 통해서 Reporting을 받을 수 있지만, V2V의 Channel 상황은 BS 입장에서 별도로 Reporting을 받기 전에는 알 수 없다. 따라서, BS가 CSI 상황을 모두 알고 있다는 가정은 Impractical한 가정이 될 수 있다. 이 논문에서는 각 V2V들이 주어진 Environment에서 다른 Observation을 보고, 다른 Action을 취하는 Multi-Agent Reinforcement Learning을 제안하고 있다.

     

     최근, Reporting 받은 CSI를 기반으로 Deep Learning이나 강화학습을 통해 가까운 미래의 'CSI를 Predict'하고 이를 기반으로 Resource Allocation 하는 논문이나, 현재의 Observation을 기반으로 V2V가 자체적으로 Spectrum Sharing까지 해버리는 논문들도 쏟아져나오고 있다. (개인적인 생각으로는) 심지어, 다소 억지스러운 가정 (e.g., 모든 Observation을 Vehicle들이 공유하고 있다, BS에 CSI를 Reporting하고 Feedback을 받는데 걸리는 시간은 무시할 수 있다)을 붙여도 AI를 통신에 적용한다는 것만으로도 좋은 Journal에 실리고 있다. 또한, 한 번 학습(Train)을 시켜놓은 AI은 Input이 들어왔을 때 빠른 속도로 Output을 낼 수 있다. Reinforcment Learning을 통신 및 네트워크에 적용하는 방식은 최적화가 힘든 모델에서 좋은 성능을 보여줄 것으로 기대한다.

     더 나아가 이 논문은 https://github.com/le-liang/MARLspectrumSharingV2X 에 코드를 공개했기 때문에, 어떤 방식으로 시스템을 구성했는지 코드와 함께 볼 수 있어서 좋았다.

     

    System Modeling

     M 대의 V2I Vehicle과 K개의 V2V pair가 있다는 가정으로 System Modeling을 시작한다. 또한, C-V2X Mode 4처럼 차량이 자체적으로 자원을 고를 수 있는 상황을 가정한다. 정해진 Bandwidth를 V2I link의 수 M으로 나눠서 Sub-Band를 구성하고, 각 V2I가 먼저 해당 Sub-Band에 일정한 Transmission Power를 보내고 있다.

     V2V pair와 V2I 입장에서 서로의 Transmit Power는 서로에게 Interference로 여겨지기 때문에, Interference를 반영하여 SINR 값을 구한다. 이렇게 구한 SINR을 기반으로 몹시 친숙한 Capacity와 이를 기반으로, 주어진 Payload B를 Time budget T동안 보내지 못할 확률도 구할 수 있다. 여기까지는 다른 논문들과 다른 점이 거의 없다. 하지만, 이어지는 Multi-Agent RL Based Resource Allocation에서 해당 논문의 Novelty가 나온다.

     

    Multi-Agent RL Based Resource Allocation

     앞서 말한 것처럼, 각 V2V link들이 Multi-Agent로 서로 상호작용하면서 Unknown environment에 영향을 미친다. 한 가지 주목해야 할 점은 'Resource sharing은 보통 Competitive Game이지만, 여기서는 Global Network Performance를 위해 Cooperative 시스템으로 가정한다'는 점이다. Competitive Game을 위해서 Game Theory에 기반을 두는 논문들도 V2V에 많이 있다. 보통 Nash Equilibrium을 찾는 문제가 되는데, 여기서는 Cooperative를 하는 상황을 가정한다. 이를 위해 'Cetralized Learning and Distributed Implementation'이 사용된다. 즉, Train 단계에서 시스템 Performance를 극대화하는 방향으로 각 V2V에 Reward를 주고, DQN을 Update시키는 방식으로 시스템을 만든다. 이를 Implement할 때는 Update된 Policy들을 각 V2V에 할당하고, V2V link인 Agent들은 그들만의 Observation을 통해 Action을 선택하는 방식으로 시스템이 이루어진다. 조금 더 구체적으로 강화학습의 환경에 대해서 알아보자.

     각 V2V link agent인 k가 Observation하는 것은 현재 자신한테 남아있는 Payload B_k, 남은 Time Budget T_k, 각 Sub channel의 Interference인 I_k, 다른 V2V link나 V2I 등과의 Channel Gain인 g_k 4가지를 받는다. 즉, O(S,k)는 B_k, T_k, I_k, G_k 4종류로 이루어져 있다.

     이를 Observe한 후에 Agent k 가 선택하는 Action에는 M개의 Sub-band 중 어디를 선택할지, 얼마나 강한 Power로 선택할지를 고른다. 여기서 Power는 4가지 Discrete한 Power 중에 선택할 수 있다.

    Action을 통해 얻는 Reward에는 V2V의 Transmission Rate와 V2I의 Transmission Rate를 일정한 비율로 합한 형태로 이루어져있다.

    Simulation에 들어가는 Channel Model들은 TR 36.885에 있는 parameter와 Model들을 가지고 왔다. 이런 Model과 DQN을 사용했다는 내용을 알고 위에 첨부한 Github를 보면, 어렵지 않게 논문을 이해할 수 있을 것이다.

     

    Conclusion

     솔직히 말하면, 논문 자체가 어렵지는 않아보인다. 다른 논문들과 비교했을 때의 Novelty는 Multi-Agent의 개념을 썼다는 것으로 보인다. Channel Model은 LTE-V2X의 Mode 4에서 M개의 Sub-band로 전체 Channel을 나눈 형태다. 여기서는 Vehicle들이 자체적으로 Resource allocation을 하기 때문에 Mode 4라고 하지만, 엄밀하게 말하면, BS에서 Train을 시킨 내용을 Cooperative하게 V2V로 할당하는데, 이것이 표준에 맞는 진정한 의미의 Mode 4인지는 살짝 의문이 든다.

     이 글에서는 LTE 기반으로 Multi-Agent V2V Resource Allocation을 어떻게 설계했는지에 초점을 맞춰서 보았다. 이 논문을 업그레이드 하기 위해 앞에 말했던 NR-V2X 기반의 Model이나 delay-free feedback 상황을 조금 더 Practical하게 Sidelink Control Information (SCI) 설계와 연계해서 연구하는 것도 좋아보인다. 또는, Capacity를 최대화하는 것과는 다른 Evaluate Metrics를 만드는 것도 좋지 않을까라는 생각을 해본다.

     

    [Reference]

    [1] Le Liang, Hao Ye, and Geoffrey Ye Li, Spectrum sharing in vehicular networks based on multi-agent reinforcement learning, IEEE JSAC, October, 2019.

     

    반응형

    '5G & 6G 통신 기반 기술 > LTE Communication' 카테고리의 다른 글

    Vehicle to Everything (V2X)  (0) 2020.07.07
    LTE Network의 Initial Access 절차  (0) 2020.07.06

    댓글

Designed by Tistory.