GPT-4 : OpenAI의 ‘가장 고급 AI 시스템’ 공개

  • by

지난 3월 14일, OpenAI가 모델의 스케일링에 관한 최첨단 연구의 결과물인 GPT-4를 발표했다.

GPT-4는 이미지와 텍스트를 받고 입력에 따라 텍스트를 출력할 수 있습니다.

대규모 멀티모달 모델이다.

공개된 영상에 따르면 GPT-4의 학습은 지난 8월에 끝나지만 모델을 발표하기까지 6개월간 모델을 보다 안전하고 유용하며 인간의 가치에 상응하도록 하는 작업을 거쳤다.

라고 한다.

이 과정을 통해 내부적으로 ▲모델의 오용(adversarial usage) ▲불필요한 내용(unwanted content) ▲ 개인정보 문제(privacy concern) 등에 대한 내부 가이드라인을 세웠다고 한다.

GPT-4는 인류의 삶에 유용하며 실용적인 어시스턴트 역할을 할 것으로 기대합니다.

이것은 우리의 일상에 가능한 한 많은 가치를 추가하는 것입니다.

OpenAI 일을 그만두고 …..


목차

1. ChatGPT란 무엇이 바뀌었는지

2. 주요 특징

a. 창의성
b.이미지 이해
c.긴 맥락 이해

3. ChatGPT와의 정성적/정량적 비교

a. 추론 능력에서 ChatGPT보다 우수한 능력을 보여준다

b. GPT-4는 ChatGPT보다 더 나은 테스트 성적을 거두었습니다.

c.모델 벤치마크로 우수한 성능
d.향상된 다국어 성능
e. 안전성 강화

4. 무엇이 GPT-4를 강력하게 했는지

a. 알려진 것
b.알 수 없는 것

5. GPT-4 비즈니스 사용 사례

-- square -->


ChatGPT란 무엇이 바뀌었는지

ChatGPT GPT-4
단어 수 3,000 25,000(x8배)
멀티모달 능력
(멀티 모드)
X 이미지 이해 가능
– 사진을 이해하고 그에 대한 추론이 가능
가격 정책 $0.002 / 1K tokens 8K 컨텍스트 모델:
– prompt $0.03 / 1K 토큰
– completion $0.06 / 1K 토큰
32K 컨텍스트 모델:
– prompt $0.06 / 1K 토큰
– completion $0.12 / 1K 토큰

👉 ChatGPT에 비해 10배 이상 비싼 가격
👉 프롬프트 및 모델링에 다른 가격 정책 적용
(프롬프트에 더 많은 정보를 넣을 수 있다고 생각합니다)


주요 특징


Creativity: 독창성

GPT-4는 이전보다 창의적이고 협력 가능한 능력을 보여줍니다.

그 모델은, 작곡이나 각본의 작성 등 창의성과 기술을 요구하는 작문 활동할 수 있고, 사용자와 대화하여 서서히 작성한 내용을 수정해 나갈 수 있다.

또한 사용자의 작문 스타일을 배울 수 있습니다.

Visual Input: 이미지 이해


GPT-4는 이미지 입력로 받아, 캡션을 생성하거나, 분류, 분석 작업을 실시할 수 있다.

(예) 오른쪽 질문에 대해 GPT-4는 다음과 같이 대답했다.

이 자료로 당신이 만들 수있는 것은 매우 많습니다!
예를 들면 다음과 같습니다.

– 팬케이크와 와플

– 크레페

– 프렌치 토스트

– 오믈렛과 프리타타

– 키쉬(Quiche)

– 커스터드 또는 푸딩

– 케이크와 컵 케이크

– 머핀, 빵 쿠키 또는 비스킷

이것들은 몇 가지 예이지만 만들 수있는 요리는 무관심합니다!

Longer Context: 긴 컨텍스트 이해


GPT-4는 25,000개 이상의 단어를 다룰 수 있기 때문에, 긴 문서의 작성이 가능해, 보다 오랫동안 대화가 가능하고, 문서 검색이나 분석이 가능하다.

언어 모델의 지식은 사전 학습 코퍼스를 수집한 시점에 그치고 있지만, 이와 같이 질문에 관련 문서를 검색한 후 함께 프롬프트로 활용하면 Bing Search와 마찬가지로 최신 지식에 대답해도 대답이 가능하다.


ChatGPT와의 정성적/정량적 비교

추론 능력

에서 ChatGPT보다 더 나은 능력을 보여주는

(예) Input (한국어 번역) 앤드류

오전 11시부터 오후 3시까지 조안은 정오부터 오후 2시까지, 그리고 오후 3시 30분부터 5시까지의 시간이 있습니다.

한나는 정오에 30분, 오후 4시부터 6시까지 시간이 있습니다.

앤드류, 한나, 조안이 30분 동안 컨퍼런스를 하고 싶다면, 컨퍼런스 시작 시간에 어떤 옵션이 있습니까?

ChatGPT

GPT-4
Here
is a list of their availability:
– Andrew: 11 am to 3 pm
– Joanne: noon to 2 pm, and 3:30 pm to 5 pm

– Hannah: noon to 12:30 pm, and 4 pm to 6 pm

Based on their availability, there is a 30-minute window where all three of them are available, which is from 4 pm to 4:30 pm. So, the meeting can be scheduled at 4 pm.
Andrew: 11 am – 3 pm
Joanne: 12 pm – 2 pm, 3:30 pm – 5 pm

Hannah: 12 pm – 12:30 pm, 4 pm – 6 pm


Common availability for a 30-minute meeting: 12 pm – 12:30 pm
다음과 같은 빈 시간이 있습니다.


– 앤드류: 11 am – 3 pm
– 조안 : 정오 – 2 pm 그리고 3:30 pm – 5 pm

– 한나 : 정오 – 12:30 pm 그리고 4pm – 6pm

이러한 빈 시간에 따르면, 4pm에서 4:30pm까지의 3명이 모두 사용할 수 있는 공백이 있다.

따라서 회의는 오후 4시에 잡을 수 있습니다.


– 앤드류: 11 am – 3 pm
– 조안: 12 pm – 2 pm, 3:30 pm – 5 pm

– 한나: 12 pm – 12:30 pm, 4pm – 6pm

30분 회의가 가능한 공통 시간: 12 pm- 12:30 pm

GPT-4는 ChatGPT보다좋은 테스트 성적

담은

ChatGPT도 미국의 변호사 시험이나 MBA 시험에 합격한 것으로 알려져 있지만, 사실상 기준을 가까워진 수준이었다.

그러나 GPT-4의 경우 변호사 시험의 경우 상위 10% 수준에서 우수한 성적을 통과했고, 바이올림피아드의 경우 이미지를 함께 인식할 수 있는 모델로 상위 1%의 성적을 거두었다.

Uniform Bar Exam : 전국 변호사 시험위원회(NCBE)가 만든표준화된 변호사 시험
.

변호사 자격을 취득하기 전에 모든 변호사가 준비해야 하는 지식과 기술을 테스트하기 위한 시험이다.

Biology Olympiad

: 생물학 올림피아드
ChatGPT: 10th percentile GPT-4:
90th percentile
ChatGPT: 31th percentile GPT-4(with vision):

99th percentile

이 밖에도 최근 시행된 올림피아드나 AP, SAT 시험에 대해서도 시험에 대한 특별한 모델 학습이 없어도 좋은 성적을 거두었다.

특히 미국 대학 입학 자격 시험인 SAT에서 독서의 경우 상위 7%, 수학은 상위 11%에 이르는 수준으로 높은 성적을 거뒀다.


모델 벤치마크

뛰어난 성능

GPT-4는 기계 학습 모델의 전통적인 벤치마크에 대해서도 다른 언어 모델에 비해 뛰어난 성적을 거두었으며, MMLU, HellaSwag, ARC, WinoGrande, HumanEval 등의 태스크로 기존 SOTA를 능가하는 성적을 거두었다 .


GPT-4가 우수한 성적을 거둔 태스크는, 전문/학술 테마에 대한 다방면에 걸친 문제나 일반 상식으로부터 시작해 Python 코딩 영역까지, 그 활용 분야가 다양하고 폭넓다.

개선된 다국어

공연 뿐만 아니라 MMLU(57 주제에 대한 다목적 작업) 데이터를 Azure 번역기를 사용하여 다양한 언어로 번역했으며, 해당 언어를 사용하여 시험을 치르게 되었습니다.

26개 언어 중 24개 언어 GPT-3.5 및 기타 대규모 언어 모델(Chinchilla, Palm)영어권 성적을 웃도는 성적

보였다.

이러한 결과에는 라트비아어, 웨일스어, 스와힐리어 등의 언어가 “낮은 자원” 언어로 알려져 있습니다.

아래의 도표를 보면, 한국어에 대해서도 GPT-4의 MMLU 성적은 77.0%정도로, GPT-3.5(Instruct-GPT)가 영어로 MMLU를 추론했을 때의 성적 70.1점보다 높은 성적인 것 확인할 수 있습니다.


안전성

강화

GPT-4의 얼라인먼트와 안전성의 관점에서 OpenAI는 6개월간의 연구 기간을 가지고 있었다고 한다.

  • 그 결과 내부적으로 평가해 보면 GPT-4는 ChatGPT에 비해
  • 승인되지 않은 콘텐츠에 대한 요청에 응답할 가능성이 82% 낮고,

현실적인 응답을 생성할 가능성이 40% 높음


무엇이 GPT-4를 강력하게 만들었습니까?

  1. 알려진 것사람 피드백으로 학습 : OpenAI는
  2. GPT-4를 개선하기 위해 ChatGPT 사용자가 제출한 피드백을 포함하여 더 많은 사람의 피드백을 통합하고 활용했습니다.

    또한 50명 이상의 전문가와 협력해 AI 안전과 보안을 포함한 영역에서 초기 피드백을 수집해 모델을 강화했다.

    실세계에서의 활용으로부터 지속적인 개선
  3. : ChatGPT가 주목을 받고 전세계 사용자의 사용 패턴에서 OpenAI는 다양한 수업을 모은 것으로 생각됩니다.

    OpenAI는 이러한 실용에서 얻은 lesslearned를 적용하고 GPT-4의 safety 연구와 모니터링 시스템에 반영했다고 한다.

    그리고 GPT-4가 사용됨에 따라 시스템을 정기적으로 갱신해 개선할 예정이라고 한다.

    GPT-4를 활용한 안전성 연구 :

GPT-4의 선진적인 추론 능력과 지시에 따라 행동하는 능력을 활용함으로써 안전성 확보에 관한 연구를 가속화할 수 있었다.

GPT-4를 사용하여 모델 파인 튜닝을 위한 학습 데이터를 생성하고 이를 이용하여 모델을 학습, 평가, 모니터링하는 분류기를 작성하는 과정을 반복하였다.

  1. 알 수 없는 것모델 파라미터 수
    : GPT-4에서 사용한 모델의 파라미터 수는 공개되지 않습니다.

    100조개의 파라미터를 사용한 GPT-4가 발표된다는 소문이 있었지만, OpenAI는 파라미터 수에 대한 공식 입장을 발표하지 않았다.

  2. (ChatGPT가 1750 매개변수인 GPT-3.5를 기반으로 구축된 모델임을 감안할 때, GPT-4는 비슷한 매개변수 규모에서 피드백에 의한 강화 학습을 엄청나게 진행했습니다.

    )
    멀티 모달 입력의 모델 구조

-- square -->


GPT-4가 이미지를 어떻게 입력해 처리할지, 모델 구조에 대해서도 현시점에서는 블랙박스인 상황이다.

다른 언어에서 ‘렌탈된 단어’를 채택하는 대신 아이슬란드어 고유의 용어를 만들려는 언어 계획 부서를 운영하고 있다.

예를 들어,<コンピュータ>는 아이슬란드어로 ‘숫자 선지자’라는 의미를 가진 ‘튜바’라고 부르는 식이다.

이러한 노력에 의해 아이슬란드 고유의 특성이나 고대 노르드어 어원을 보존할 수 있지만, 여기에 OpenAI와 협력해 GPT-4를 아이슬란드어 보존에의 노력에 사용하려고 하고 있다.




https://arxiv.org/pdf/2303.08774.pdf