GPT-4

Generative Pre-trained Transformer 4 (GPT-4)
개발자OpenAI
발표일2023년 3월 14일
대체한 소프트웨어GPT-3
종류자기회귀 멀티모달 변환기 언어 모델
웹사이트openai.com/gpt-4 위키데이터에서 편집하기
기계 학습
데이터 마이닝
Scatterplot featuring a linear support vector machine's decision boundary (dashed line)
패러다임
  • k-최근접 이웃 알고리즘
  • 국소 특이점 요인
인간 참여학습
모델 진단
  • 러닝 커브
이론
회의/저널
  • NeurIPS
  • ICML
  • ICLR
  • ML
  • JMLR
  • v
  • t
  • e

GPT-4(Generative Pre-trained Transformer 4)는 오픈AI가 개발한 멀티모달 대형 언어 모델이자 GPT 모델 시리즈 중 4번째이다.[1] 2023년 3월 14일에 출시되었으며 ChatGPT 플러스를 통해 한정된 형태로서, 대기 목록을 통해 제공되는 상용 API의 접근을 통해서 공개되었다.[1] 변환기로서 GPT-4는 다음 토큰을 예측하기 위해 미리 훈련되었다.

관찰자들은 GPT-4 기반 버전의 ChatGPT가 이전(GPT-3.5 기반) ChatGPT 대비 개선이 있지만 GPT-4에 일부 동일 문제가 있다고도 보고했다.[2] 전작들과 달리 GPT-4는 문자 외에도 이미지를 입력으로 받을 수 있다.[3] 오픈AI는 GPT-4 모델의 크기 등 기술 정보의 공개를 거부했다.[4]

배경

OpenAI는 2018년에 최초의 GPT 모델(GPT-1)을 도입하여 "생성 사전 훈련을 통한 언어 이해 개선"이라는 논문을 발표했다. 이는 트랜스포머 아키텍처를 기반으로 하며 대규모 책 모음에서 훈련되었다. 다음 해에는 일관된 텍스트를 생성할 수 있는 더 큰 모델인 GPT-2를 도입했다. 2020년에는 GPT-2보다 100배 많은 매개변수를 갖고 몇 가지 예제만으로 다양한 작업을 수행할 수 있는 모델인 GPT-3을 출시했다. GPT-3는 GPT-3.5로 더욱 개선되어 챗봇 제품인 ChatGPT를 만드는 데 사용되었다.

소문에 따르면 GPT-4에는 1조 7600억 개의 매개변수가 있는데, 이는 실행 속도와 조지 호츠에 의해 처음 추정되었다.

성능

OpenAI는 GPT-4가 "GPT-3.5보다 더 안정적이고 창의적이며 훨씬 더 미묘한 지침을 처리할 수 있다"고 밝혔다. 8,192개와 32,768개 토큰의 컨텍스트 창을 갖춘 두 가지 버전의 GPT-4를 생산했는데, 이는 각각 4,096개와 2,049개 토큰으로 제한되었던 GPT-3.5와 GPT-3에 비해 크게 개선되었다. GPT-4의 기능 중 일부는 훈련 전에 OpenAI에 의해 예측되었지만 다운스트림 확장 법칙의 위반으로 인해 다른 기능은 예측하기 어려웠다. 이전 모델과 달리 GPT-4는 다중 모드 모델이다. 이미지와 텍스트를 입력으로 사용할 수 있다. 이를 통해 특이한 이미지로 유머를 설명하고, 스크린샷의 텍스트를 요약하고, 다이어그램이 포함된 시험 문제에 답할 수 있는 기능을 제공한다. 이제 음성을 통해 사용자와 상호 작용하고 이미지에 응답할 수 있으므로 보다 자연스러운 대화가 가능하고 사진 업로드를 기반으로 제안이나 답변을 제공할 수 있다.

GPT-4에 대한 추가 제어권을 얻기 위해 OpenAI는 음성 및 작업의 톤을 지정하기 위해 GPT-4에 제공되는 자연어로 된 지시문인 "시스템 메시지"를 도입했다. 예를 들어 시스템 메시지는 모델에 "셰익스피어 해적이 되라"고 지시할 수 있으며, 이 경우 운율이나 셰익스피어 산문으로 응답하거나 "[해당] 응답의 출력을 항상 JSON으로 작성"하도록 요청할 수 있다. 모델이 그렇게 하는 경우 응답의 구조와 일치하도록 적절하다고 판단되는 키와 값을 추가한다. OpenAI가 제공한 예에서 GPT-4는 대화 중에 사용자의 요청에도 불구하고 시스템 메시지에서 벗어나는 것을 거부했다.

해당 지시를 받으면 GPT-4는 외부 인터페이스와 상호 작용할 수 있다. 예를 들어, 웹 검색을 수행하기 위해 <search></search> 태그 내에 쿼리를 포함하도록 모델에 지시할 수 있으며, 그 결과는 모델의 프롬프트에 삽입되어 응답을 형성할 수 있다. 이를 통해 모델은 API 사용, 이미지 생성, 웹 페이지 액세스 및 요약과 같은 일반적인 텍스트 예측 기능 이상의 작업을 수행할 수 있다.

네이처의 2023년 기사에 따르면 프로그래머는 GPT-4가 기존 코드에서 오류를 찾고 성능 향상을 위한 최적화를 제안하는 등 코딩 작업(오류 경향에도 불구하고)을 지원하는 데 유용하다는 사실을 발견했다. 이 기사에서는 자신의 프로그램 중 하나를 MATLAB에서 파이썬으로 이식하는 데 필요한 시간이 며칠에서 "1시간 정도"로 단축되었다는 사실을 발견한 생물물리학자의 말을 인용했다. 89개 보안 시나리오 테스트에서 GPT-4는 SQL 주입 공격에 취약한 코드를 5%로 생성했는데, 이는 취약점이 40%로 발생한 2021년 깃허브 코파일럿에 비해 개선된 것이다.

2023년 11월 OpenAI는 128K 컨텍스트 창과 훨씬 저렴한 가격을 특징으로 하는 GPT-4 터보 및 GPT-4 터보 위드 비전(Turbo with Vision) 모델을 발표했다.

GPT-4o

2024년 5월 13일, OpenAI는 텍스트, 오디오, 이미지 양식 전반에 걸쳐 실시간으로 출력을 처리하고 생성하여 상당한 발전을 이룬 모델인 GPT-4o("omni"를 뜻하는 "o")를 출시했다. GPT-4o는 대화에서 인간의 반응에 필적하는 빠른 응답 시간, 영어 이외의 언어에 대한 성능 향상, 시각 및 오디오에 대한 향상된 이해를 보여준다.

이 모델은 통합 신경망을 통해 입력과 출력을 통합하여 이전 모델보다 더 빠르고 비용 효율적이며 효율적이다. GPT-4o는 또한 다국어 및 비전 벤치마크에서 최첨단 결과를 달성하여 오디오 음성 인식 및 번역 분야에서 새로운 기록을 세웠다. OpenAI는 기술적 개선 외에도 강력한 안전 기능을 구현하고 광범위한 외부 평가를 수행하여 새로운 방식과 관련된 위험을 해결했다.

GPT-4o의 출시는 ChatGPT의 텍스트 및 이미지 기능으로 시작되며 향후 선택된 파트너에게 오디오 및 비디오 기능으로 확장될 계획이다. 이번 릴리스는 딥 러닝 기술의 경계를 넓히려는 OpenAI의 지속적인 노력을 반영하여 고급 AI 모델을 다양한 애플리케이션에서 보다 광범위하게 액세스하고 사용할 수 있도록 만드는 중요한 단계를 의미한다.

같이 보기

  • 제미니 (언어 모델)

각주

  1. Edwards, Benj (2023년 3월 14일). “OpenAI's GPT-4 exhibits "human-level performance" on professional benchmarks”. 《Ars Technica》. 2023년 3월 14일에 원본 문서에서 보존된 문서. 2023년 3월 15일에 확인함. 
  2. Belfield, Haydn (2023년 3월 25일). “If your AI model is going to sell, it has to be safe”. 《Vox》 (영어). 2023년 3월 28일에 원본 문서에서 보존된 문서. 2023년 3월 30일에 확인함. 
  3. Alex Hern; Johana Bhuiyan (2023년 3월 14일). “OpenAI says new model GPT-4 is more creative and less likely to invent facts”. 《The Guardian》. 2023년 3월 15일에 원본 문서에서 보존된 문서. 2023년 3월 15일에 확인함. 
  4. Vincent, James (2023년 3월 15일). “OpenAI co-founder on company's past approach to openly sharing research: "We were wrong"”. 《The Verge》 (미국 영어). 2023년 3월 17일에 원본 문서에서 보존된 문서. 2023년 3월 18일에 확인함.