강화학습
-
TRPO와 PPO 알고리즘의 개념최신 기술동향/인공지능 (AI) 2021. 9. 6. 21:31
앞선 글들에서 소개했듯이, 강화학습은 주어진 Environment에서 State을 기준으로, 최고의 Action을 학습해나가는 과정이다. State에서의 Action을 통한 결과를 반영하여 (State, Action) = (s,a)의 관계 Q function을 점수화하는 Value-Based 학습, Action을 결정하는 Policy 자체를 학습시켜 나가는 Policy-Based 학습이 있다. 각각의 장단점을 갖고 있으며, 그 카테고리 안에도 State와 Action이 Discrete or Continuous 여부 등에 따라 여러 모델들이 파생된다. 그 중, 이번 글에서 소개할 Proximal Policy Optimization Algorithm (PPO) [1]은 이름에서 알 수 있듯이 Policy-B..
-
Deep Q Network (DQN)최신 기술동향/인공지능 (AI) 2020. 10. 4. 10:05
이번 글에서 리뷰할 강화학습 알고리즘은 Deep Q-Network (DQN)이다. DQN은 AI의 최강자인 Google Deepmind에서 개발한 알고리즘으로, 강화학습에 Deep Learning을 적용하는 방식의 뼈대가되는 논문 [1] [2]이다. 많은 시나리오에서 자주 사용되고, 강화학습 알고리즘의 큰 축 중에 하나기 때문에, 이미 많은 리뷰들이 있다. 이 글에서도, 간단하게 리뷰를 하고, 이를 이용한 여러 논문들도 함께 소개해보고자 한다. DQN 알고리즘 Deep Q-Network (DQN)은 이름에서 알 수 있듯이, state-action value Q값을 Deep Learning을 통해서 Approximate하는 방식이다. DQN이 나오기 전에는, state-action에 따른 값들을 모두 Ta..
-
OpenAI Gym을 이용한 Environment 설계최신 기술동향/인공지능 (AI) 2020. 8. 30. 10:30
블로그를 보고 강화학습을 자신이 공부하는 분야에 적용해보고 싶은데, 어떻게 사용해야할 지 처음에 감이 안 오는 사람들도 있을 것이다. 많은 강화학습 알고리즘이나 코드를 찾아보면, 이미 있는 환경을 이용해서, main함수에 있는 20~30줄 정도만 돌려보면서 '이 알고리즘이 이렇게 좋은 성능을 보이는구나'정도만 알 수 있다. 하지만, 우리는 5G 환경이나 자신이 공부하는 분야에 맞게 환경을 만드는 것부터 시작하고 싶기 때문에, OpenAI Gym의 정해진 Template을 이용하는 것이 좋다. OpenAI Gym OpenAI Gym은 고전 게임을 기반으로 강화학습을 사용할 수 있는 기본적인 Environment (환경)과 기본적인 강화학습 알고리즘들이 패키지로 준비되어 있는 Toolkit이다. Open S..
-
5G 시장 및 career에 대한 생각과 6G 연구5G & 6G 통신 기반 기술 2020. 8. 22. 17:30
시장조사 기관인 Allied Market Research의 자료에 따르면, 5G의 HW/SW/Service 전체 시장규모가 2020년 55억 달러에서 2026년 6,679억 달러로 성장할 것으로 보인다. 전체 시장 중 48%는 서비스가, 41%는 HW가, 나머지 11%는 SW가 차지할 것으로 예상했다. 6,679억 달러(약 810조원)가 너무 큰 수치라 감이 안 오지만, 2020년 기준의 반도체 시장이 400조 원인 것과 비교해 봤을 때 거의 2배에 달한다. 그러면 810조원을 벌어들이기 위해서 5G 스마트 폰을 열심히 팔아야하는 것일까? 사실, 5G의 진정한 가치는 우리가 들고다니는 스마트 폰을 사용하는 일반 소비자를 대상으로 하는 B2C보다 다른 기업을 대상으로 하는 B2B에서 나온다. 여러 5G 표..
-
Deep Reinforcement Learning for Multi-Agent systems 논문 리뷰최신 기술동향/인공지능 (AI) 2020. 8. 6. 11:02
이번에 리뷰할 논문 [1]에서는 최근에 핫한 Deep Reinforcement Learning (DRL) 시스템 중에서도 내가 최근 가장 관심있게 보고 있는 Multi-Agent system에 대해 다룬다. 최근 5G, 6G 논문 읽고 연구를 할 때, Multi-user나 V2V system을 고려한다. 이 때 많은 논문들이 BS는 모든 Channel state을 알고 있고, 이를 토대로 User들을 Control할 수 있다는 가정을 한거나 DRL을 사용하는데, 각 User들이 같은 Environment를 보고 있다는 가정을 한다. 하지만, User 및 Vehicle들은 각자가 Monitoring하는 Channel도 다르고, V2V pair마다 Channel은 매우 Dynamic하게 변한다. 이를 고려했..
-
Artificial Intelligence (AI)의 시작최신 기술동향/인공지능 (AI) 2020. 7. 7. 10:10
2016년 3월 9일, 무한대에 가까운 경우의 수를 가진다고 알려진 바둑에서 알파고가 이세돌을 이기는 장면이 전 세계로 생중계되었다. 많은 사람들이 이 사실에 경악했으며, 이 사건을 기해, 인공지능의 새로운 전성기가 시작되었다. 컴퓨터과학이나 통계의 전공자들 뿐 아니라, 일반인들이 이해하기 쉬운 기술을 정리해놓은 글과 책들이 수 천편씩 쏟아져나왔고, 이들이 사용하기 쉬운 여러 플랫폼, Tool들도 공개되고 있다. 삼성에서는 AI를 전공하는 석,박사급 인력을 1년에 몇 백명씩 채용하는 등, AI를 아는 것만으로도 큰 Advantage를 갖게된다. 내가 속해있는 전기전자공학과는 관련 과목을 조금씩 열기는 하지만, 이를 이론적으로 이해하는 것만으로는 부족하다는 생각이 들어서, Coursera나 여러 책들을 찾..