OpenAI
-
퍼플렉시티 (Perplexity)와 국내외 AI 스타트업투자 및 기업분석 2024. 10. 29. 22:53
"우리는 질문하는 사람들에게 10개의 파란색 링크가 아닌 '답'을 준다.' 드미트리 쉬벨렌코 퍼플렉시티 (Perplexity) CBO가 인터뷰에 나와 퍼플렉시티를 한 줄로 소개했다. [1] 퍼플렉시티는 기존의 검색 엔진 절대강자였던 구글, AI기반 대화형 검색엔진 ChatGPT를 출시한 OpenAI로 이어지는 검색 엔진 족보의 차세대 기업으로 자주 언급되는 스타트업이다. 퍼플레시티는 아마존 창업자 제프 베이조스, 엔비디아, 소프트뱅크와 같은 유명 투자자에게 투자를 받고, 삼성의 CVC인 삼성 넥스트, SK텔레콤 등 국내 대기업에서도 투자를 유치했다. 기업가치도 '24년 1월엔 약 5억 달러, 여름엔 30억 달러, 최근 투자 논의 중인 Value는 80억 달러로 급격하게 증가하고 있다. 이번 글에서는 빠르..
-
TRPO와 PPO 알고리즘의 개념최신 기술동향/인공지능 (AI) 2021. 9. 6. 21:31
앞선 글들에서 소개했듯이, 강화학습은 주어진 Environment에서 State을 기준으로, 최고의 Action을 학습해나가는 과정이다. State에서의 Action을 통한 결과를 반영하여 (State, Action) = (s,a)의 관계 Q function을 점수화하는 Value-Based 학습, Action을 결정하는 Policy 자체를 학습시켜 나가는 Policy-Based 학습이 있다. 각각의 장단점을 갖고 있으며, 그 카테고리 안에도 State와 Action이 Discrete or Continuous 여부 등에 따라 여러 모델들이 파생된다. 그 중, 이번 글에서 소개할 Proximal Policy Optimization Algorithm (PPO) [1]은 이름에서 알 수 있듯이 Policy-B..
-
Deep Q Network (DQN)최신 기술동향/인공지능 (AI) 2020. 10. 4. 10:05
이번 글에서 리뷰할 강화학습 알고리즘은 Deep Q-Network (DQN)이다. DQN은 AI의 최강자인 Google Deepmind에서 개발한 알고리즘으로, 강화학습에 Deep Learning을 적용하는 방식의 뼈대가되는 논문 [1] [2]이다. 많은 시나리오에서 자주 사용되고, 강화학습 알고리즘의 큰 축 중에 하나기 때문에, 이미 많은 리뷰들이 있다. 이 글에서도, 간단하게 리뷰를 하고, 이를 이용한 여러 논문들도 함께 소개해보고자 한다. DQN 알고리즘 Deep Q-Network (DQN)은 이름에서 알 수 있듯이, state-action value Q값을 Deep Learning을 통해서 Approximate하는 방식이다. DQN이 나오기 전에는, state-action에 따른 값들을 모두 Ta..
-
OpenAI Gym을 이용한 Environment 설계최신 기술동향/인공지능 (AI) 2020. 8. 30. 10:30
블로그를 보고 강화학습을 자신이 공부하는 분야에 적용해보고 싶은데, 어떻게 사용해야할 지 처음에 감이 안 오는 사람들도 있을 것이다. 많은 강화학습 알고리즘이나 코드를 찾아보면, 이미 있는 환경을 이용해서, main함수에 있는 20~30줄 정도만 돌려보면서 '이 알고리즘이 이렇게 좋은 성능을 보이는구나'정도만 알 수 있다. 하지만, 우리는 5G 환경이나 자신이 공부하는 분야에 맞게 환경을 만드는 것부터 시작하고 싶기 때문에, OpenAI Gym의 정해진 Template을 이용하는 것이 좋다. OpenAI Gym OpenAI Gym은 고전 게임을 기반으로 강화학습을 사용할 수 있는 기본적인 Environment (환경)과 기본적인 강화학습 알고리즘들이 패키지로 준비되어 있는 Toolkit이다. Open S..