-
GPT-4 소개 및 간단 요약최신 기술동향 2023. 3. 15. 21:54반응형
GPT-3.5라 불리는 ChatGPT가 세상을 떠들썩하게 만든 지 몇 달 되지 않아, GPT-4가 샌프란시스코 현지 기준 3월 14일에 출시되었다. 이번 글에서는 OpenAI의 설명 [1] 및 공개한 Technical Report [2]를 기반으로 기존 ChatGPT와 비교해서, 어떤 기술적인 차이가 있는지, 앞으로 어떤 기술들이 필요하게 될지, '간단하게' 소개해보고자 한다.
1. Multi-Modal System
기존의 시스템과의 가장 큰 차이점은 예상대로 멀티모달 (Multi-Modal) 기반의 AI 서비스가 추가되었다는 점이다. Multi-Modal을 간단하게 소개하자면, 대부분의 최근 Application은 User와 Computer 간의 Interaction으로 구현되는데, Interaction에 사용되는 데이터의 종류가 다양해지는 것이다. 이를 AI-based application에 대입해 보자면, 'AI 모델에 들어가는 Input의 종류가 다양해진다'라고 이해하면 될 것 같다. 기존의 ChatGPT는 사용자들의 질문 Text가 input으로 들어가서 어떤 대답을 내놓는다. GPT-4는 Image와 Text 모두를 Input으로 받는 방식으로 동작할 수 있게 되었다. (2023.3.15 현재, 아직 최종 서비스 전의 점검 단계라고 한다.)
예를 들면, ChatGPT에서는 '계란 4개, 밀가루로 어떤 음식을 만들 수 있어?'라고 질문을 했다면, GPT-4에서는 '계란 4개와 밀가루 사진'을 보여주면서, '이거로 어떤 음식을 만들 수 있어?'라고 질문하는 방식이다. 'Vision 정보'를 글로 잘 표현하면, 결국 비슷한 성능이 나오는 것 아닌가?라고 생각할 수 있다. 이미 'Image를 보고 글로 표현하는' Image Caption 기술도 있고, GPT-4가 어떻게 Vision 정보를 처리하는지는 확인할 수 없다. 하지만, OpenAI는 최대한 효율적 (Parameter 수 및 성능)으로 Vision 및 Text를 처리하는 모델을 구성하였을 것이다. 따라서, User는 전체 복잡한 프로세스를 알 필요 없이, 간단하게 이미지와 약간의 추가 텍스트만 넣으면 자신의 궁금증을 해결할 수 있다.
더 나아가, 사람의 지식으로는 설명하기 힘들거나, Text로 표현하기 힘든 이미지를 보더라도, Vision 기반의 분석 시스템이 있기 때문에, 이미지가 Input으로 들어온다면, 더 좋은 분석을 보일 수 있을 것으로 보인다. 복잡한 그림을 사람이 직접 Vision을 분석한 후에 Text를 추가로 가공할 필요 없이, Computer와의 문답이 가능해진 것이다. 이처럼 다양한 Input이 가능해진 만큼 실시간 Video Analytic 시스템이나 수많은 Image 데이터셋을 이용한 Interactive Application 설계가 가능할 것으로 보인다.
이다음으로 사용할 정보는 어떤 것들이 있을까? 사람간의 의사소통이 대부분 시각과 청각으로 이루어지는 점을 감안할 때, Audio Input이 활용될 수도 있을 것이다. AR Glass를 포함한 여러 Mobile device에 이런 시스템이 연동되기 위해서는 Writing이 아닌, Speaking을 이용한 Input이 더 효율적일 것이다. 특히, Smart Factory 등 Digital Transformation 시스템이나 AR Glass 및 스마트 비서 등의 시스템에 적극활용될 수 있을 것으로 보인다. 앞으로 출시될 GPT 시리즈가 어떤 식으로 확장되어서 실제 모바일 장비에 올라갈지 기대가 된다.
2. Reliable and Creative System
GPT-4에서 특히 신경을 썼다고 하는 부분이 있는데 '대답의 신뢰성'에 대한 이슈다. 즉, GPT-4에서는 ChatGPT의 문제점으로 지적되던 '모르는 것도 진짜처럼 엉뚱하게 대답하는' Hallucination (환각) 현상을 극복하기 위해 노력했다. ChatGPT가 기존 데이터 셋을 기반으로 가장 그럴듯한 대답을 만들어내는 구조이기 때문에 Hallicination현상이 생기는데, 이런 문제는 GPT-4에서도 완벽히 극복되지는 않았다는 점을 Technical Report 중간중간마다 계속 강조한다. 하지만, 이전 모델보다는 훨씬 더 정확한 대답을 내는데, 이를 미국 변호사 모의시험이나 SAT 시험등에서 상위 10%에 달하는 성능을 보였다. 시나 노래 같은 예술 창작에서도 억지로 문장을 끝맺음하려 하지 않고, 조금 더 시 느낌이 나는 어휘와 문장 구성들을 사용하는 것을 볼 수 있다.
또 하나의 중요한 점은 '대답하지 말아야 할 정보를 판별하는 능력이 증가했다'라는 점이다. 오픈 AI에 따르면, 비윤리적인 질문에 대답할 확률이 84% 감소했다. 예를 들어, 위험한 화학 물질 합성하는 법 등을 물어보는 질문에 대해서는 대답을 하지 않을 확률이 높다. 이는 AI 윤리와 관련된 문제를 다루는데 몹시 중요한 요소로, AI를 실제 서비스에 Deploy 하기 전, 최소한의 안전장치로 작용할 수 있을 것으로 보인다.
3. Longer Context
한번에 처리할 수 있는 Input의 길이도 단어 25,000개로 늘어났다. 기술적으로 Input이 늘어나면, 그만큼 예전에 있는 정보 (Context)를 잊을 가능성이 늘어나고, 시스템의 정확도도 낮아진다. 하지만, GPT-4에서는 상당히 긴 Context를 Input으로 넣어도 전체적인 맥락을 잘 판단하고 대답을 할 수 있게 되었다.
이렇게 더 정교한 시스템을 디자인하기 위해서는 모델의 크기가 증가했을 것으로 예상한다. 매 업데이트마다 Parameter 수가 거의 100배씩 늘어났던 것을 볼 때 (e.g., GPT-2: 1.5 billions, GPT-3: 175 billions), GPT-4는 100조 개에 달하는 Parameter가 있을 것이라는 전망도 있었다. 하지만, 파라미터 개수는 공개되지 않았으며, 오픈 AI의 CEO인 샘 알트먼은 100조에 달할 것이라는 예상이 '엉터리'라고 얘기했다. 단, 최근 모델은 기존 ChatGPT보다 서비스 응답이 느리다는 점을 볼 때, 모델의 사이즈가 상당히 커졌거나, Inference Speed에 영향이 가는 모델이 사용되지 않았을까 생각해 본다.
Conclusion
최근, 우리는 인간과 유사한, 아니 그 이상의 대답을 내놓는 AI의 성능에 경악하고 있다. 많은 영역에서 인간보다 더 똑똑한 답변을 완성된 포맷으로 내놓기도 하고, 나중에나 도달할 것이라 생각했던 '창의력' 영역에서도 인간보다 더 좋은 작품을 만들어내기도 한다. 그렇다면, 이런 AI를 연구나 업무에 잘 활용하고, 앞으로 공생하기 위한 방법은 무엇이 있을까?
모든 것을 아는 AI라는 존재가 있을 때, 인간이 할 수 있는 가장 효율적인 방법은 '소통하는 방법을 늘리고, 질문하는 법을 배우는 것'이라고 생각한다. OpenAI에서는 AI와 효율적이고 다양한 방식으로 소통하기 위해 Multi-modal 시스템을 만들기 시작했고, GPT-4로 '이미지'와 'Text'를 혼합해서 질문하는 방법을 보여주었다. OpenAI의 또 하나의 주요 서비스인 DALL-E나 Midjourney 같은 이미지 생성 서비스를 잘 사용하기 위해서는 단어를 잘 구성해서 Input으로 넣어주어야 한다. 이를 위해서, 어떤 단어를 써야 하는지를 연구하는 Prompt Engineering이 주목받고 있고, 더 나아가 Prompt 자체를 거래하기도 한다.
정해진 지식을 압축하는 과정만으로는 이미 어느 정도 성능 향상의 한계에 도달하고 있는 것으로 보인다. 다음 GPT 버전에서는 Audio를 기반으로 하는 Multi-Modal이 추가될 수도 있고, 더 나아가 Output의 형태가 바뀔 수도 있을 것이다. 이처럼, AI와 인간 사이의 Interface (Input/Output)가 다양해질 때, 우리가 원하는 '사람 같은 AI'가 일상 속으로 들어올 수 있지 않을까 기대해 본다.
Reference
[1] https://openai.com/product/gpt-4
[2] https://cdn.openai.com/papers/gpt-4.pdf
반응형'최신 기술동향' 카테고리의 다른 글
Microsoft 365 Copilot 정리 (0) 2023.03.18 AR 디바이스 (스마트렌즈) 기술 및 투자 동향 (0) 2023.02.20 메타버스를 위한 XR 비디오 표준 (MPEG-I/MIV) (0) 2021.11.13 NFT와 메타버스의 연결 및 IT 기업 동향 (0) 2021.11.07 Non-Fungible Token (NFT)의 개념과 견해 (0) 2021.11.06