ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • DRL Resource Scheduling in 5G MAC (논문 리뷰)
    5G & 6G 통신 기반 기술 2020. 9. 13. 16:38
    반응형

     이 논문은 5G MAC Layer의 Resource Scheduling에 DRL을 적용하는 방법에 대해 다루고 있다. 최근 Network System이 복잡해지면서 기존의 최적화 방식이나 스케쥴링 기법으로는 이를 감당하기 힘들다. 이 논문의 Learn to Schedule (LEASCH) 알고리즘은 주어진 Resource Block Group (RBG) 하나를 할당해줄 UE를 고른다. 


    제목: Learn to Schedule (LEASCH): A Deep reinforcement learning approach for radio resource scheduling in the 5G MAC layer. [1]

     

    저널명 : IEEE ACCESS

     

    출판년도 : June, 2020

     

    저자 : F. AL-Tam, N. Correia, J. Rodriguez


    Introduction

     최근 네트워크를 구성하는 protocol에 다양한 parameter들이 추가됨에 따라, 기존의 방법으로는 Flexibility가 많이 떨어지고, 복잡도도 올라간다. 따라서, 최근 AI를 Radio Resource Scheduling (RRS)에 적용하는 논문들이 많이 나오고 있다. 그 중 많은 논문들이 gNB의 Scheduler에서 매 Slot마다 Active UE에게 Resource Block Group (RBG)를 준다고 가정한다.

     이 논문의 LEASCH 알고리즘은 Scheduling을 위해, gNB는 UE의 Buffer Status, HARQ process 등을 받아서 해당 UE가 Eligible (Active)한지 확인한다. Eligibile한 UE를 대상으로 Allocation log, CQI, MCS 등을 Input으로 받아 Agent가 Resource Block Group을 어떤 User에게 줄지 Scheduling을 진행하게 된다. 기존의 Scheduling 방법인 Proportional Fairness (PF), Round Robin (RR), BestCQI 등은 아직까지도 사용되고 있지만, 앞으로는 조금씩 AI의 방법으로 대체될 예정이다. 그 중에 저자는 DRL이 AI의 주류로 떠오를 것으로 예상한다.

     

    DRL이 Radio Resource Management (RRM)에 적합한 이유

     최근에는 Network Management Solution을 손으로 최적화시키기 보다는 Learn (학습)시키는 것이 대세로 떠오르고 있다. 그 중에 Supervised Learning은 데이터를 모으는 것에 대한 비용, Non-Stationary 등의 이유로, Control에 적합하지 않다. 그에 비해, DRL은 gNB나 UE가 받아들이는 Input을 기반으로 좋은 성능을 내는 Policy를 찾을 수 있으며, Network가 작동되고 있는 중에도 지속적으로 학습과 성능향상이 가능하다.

     논문 [2]에서는 Multi-User 상황에서 DRL (RQN + Dueling)을 이용하여, Channel 할당을 하는 방법에 대해 다루고 있다. 지난 Action에 대한 History와 Observation을 시계열 Input으로 받고, Data Rate을 Reward로 삼아서 어느 Channel을 선택할지를 Action으로 다루고 있다.

     논문 [3]에서는 LTE와 Wi-Fi User간의 자원할당 스케쥴링에 대해 다루고 있다. Channel State와 성공한 Transmission 등을 State로 받고, 주어진 Time Frame을 어떻게 나눌지를 Action으로 생각한다. 이 때의 Reward는 Wi-Fi User에게 최소한의 Data Rate을 보장해주는 선에서 LTE User가 할당받은 Transmission time이다.

     이와 같이, Supervised Learning처럼 주어진 Data가 없어도 어떤 State를 받아서, 어떤 Action을 다룰지에 대한 내용만 잘 설계하면, 상당히 좋은 Performance를 내는 시스템을 구성할 수 있다.

     

    LEASCH Design

     Agent는 주어진 RBG를 어떤 Eligible UE에게 Scheduling할지 선택해야 한다. Objective는 Throughput과 Fairness를 모두 만족시키는 것이기 때문에, 처음에는 State를 Eligibility, Data Rate, Fairness 3가지로 나눈다. 

    1) Agent는 UE들이 Buffer에 보낼 데이터가 있고, HARQ process가 재전송을 시도하지 않을 때, 해당 UE가 Eligible하다고 판단한다. 실제 Feedback을 통해, UE가 해당 정보를 상세히 알려주지만, Agent가 Eligibility를 계산해서 0과 1로 나눈다고 Simplified 되었다. (d)

    2) Agent는 TS 38.214의 MCS 표를 보고, Maximum Data Rate을 계산하게 된다. (g)

    3) Fairness는 각 UE가 보낼 데이터가 있을 때, 얼마나 Channel을 점유하고 있었는지를 f라는 parameter로 측정한다. Best case에서는 각 User의 f값이 같아야한다. (f)

     이렇게 3개로 나온 State 값을 d와 g를 Hadamard product하고 그 값과 f를 Concatenate를 한다. 이렇게 하나의 State vector로 뭉치게 된다. Action은 어떤 UE를 고를지이기 때문에, One-Hot Encoding으로 한 User를 뽑게 된다.

     가장 중요한 Reward는 Eligible하지 않은 User를 뽑으면 -K만큼, Eligible한 User를 뽑았을 때는 MCS를 고려했을 때의 Max Data Rate과 fairness 비율을 곱한 형태다.

     LEASCH는 DDQN을 토대로, Q 값에 Nerual Network를 적용하기 위해서 DNN을 사용했으며, 이렇게 Train된 LEASCH는 Test를 위해 5G Simulator에서 성능평가를 하게된다.

     

    Conclusion

     Performance Evaluation으로 Proportional Fairness (PF), Round Robin (RR)과의 성능비교를 진행하였다. Numerology과 Channel Bandwidth를 바꿔가며 성능평가를 진행하였으며, 두 Scheduler에 비해 더 향상된 Throughput을 보였다. 또한, Fairness와 Throughput이라는 2가지 Objective를 모두 고려하고 있음에도 불구하고, Stable하게 Converge하는 것을 볼 수 있다.

     하지만, 몇 가지 추가 연구도 있을 수 있을것으로 생각한다.  우선, Agent에게 주어진 RBG 1개에 할당될 UE 1개를 고르는 것이 아니라, 전체 Resource Grid에 여러 UE의 CSI까지 함께 고려하여, 동시에 Scheduling하는 방법이 필요할 것으로 보인다. 또한, 이 경우, Flexible Numerology도 함께 고려하는 방식도 추가될 수 있을 것으로 보인다.

     

    Reference

    [1] F. Al-Tam, N. Correia and J. Rodriguez, "Learn to Schedule (LEASCH): A Deep Reinforcement Learning Approach for Radio Resource Scheduling in the 5G MAC Layer," in IEEE Access, vol. 8, pp. 108088-108101, 2020, doi: 10.1109/ACCESS.2020.3000893.

    [2] O. Naparstek and K. Cohen. Deep multi-user reinforcement learning for distributed dynamic spectrum access. IEEE Transactions on Wireless Communications, 18(1):310–323, Jan 2019.

    [3] J. Tan, L. Zhang, Y. Liang, and D. Niyato. Deep reinforcement learning for the coexistence of LAA-LTE and wifi systems. In ICC 2019 - 2019 IEEE International Conference on Communications (ICC), pages 1–6, May 2019.

    반응형

    댓글

Designed by Tistory.