GPT‑4o("o"는 "옴니(omni)"를 의미)는 훨씬 더 자연스러운 인간-컴퓨터 상호작용을 향한 한 걸음입니다. 텍스트, 오디오, 이미지, 비디오의 모든 조합을 입력으로 받아들이고, 텍스트, 오디오, 이미지의 모든 조합을 출력으로 생성합니다. 오디오 입력에 최소 232밀리초, 평균 320밀리초 만에 응답할 수 있으며, 이는 인간의 반응 속도 와 유사합니다 .(새 창에서 열립니다)대화에서. 영어 텍스트와 코드에서 GPT‑4 Turbo 성능과 동일하며, 영어가 아닌 언어의 텍스트 처리 성능도 크게 향상되었습니다. 동시에 API 속도는 훨씬 빠르고 비용도 50% 저렴합니다. 특히 GPT‑4o는 기존 모델보다 시각 및 청각 이해 능력이 더욱 뛰어납니다.
GPT‑4o 이전에는 음성 모드를 사용 하여 ChatGPT와 평균 2.8초(GPT‑3.5) 및 5.4초(GPT‑4)의 지연 시간으로 대화할 수 있었습니다. 이를 위해 음성 모드는 세 가지 개별 모델로 구성된 파이프라인입니다. 첫 번째 모델은 오디오를 텍스트로 변환하고, GPT‑3.5 또는 GPT‑4는 텍스트를 입력받아 출력하며, 세 번째 모델은 해당 텍스트를 다시 오디오로 변환합니다. 이 과정에서 주요 지능 원천인 GPT‑4는 많은 정보를 잃게 됩니다. 즉, 음성 톤, 여러 화자, 배경 소음을 직접 관찰할 수 없고, 웃음, 노래, 감정 표현을 출력할 수 없습니다.
GPT‑4o를 사용하여 텍스트, 비전, 오디오 전반에 걸쳐 단일 모델을 엔드 투 엔드로 학습했습니다. 즉, 모든 입력과 출력이 동일한 신경망에서 처리됩니다. GPT‑4o는 이러한 모든 방식을 결합한 최초의 모델이기 때문에, 이 모델의 기능과 한계를 탐구하는 과정은 아직 시작 단계에 불과합니다.
모델 평가
기존 벤치마크를 기준으로 측정했을 때, GPT‑4o는 텍스트, 추론 및 코딩 인텔리전스 측면에서 GPT‑4 Turbo 수준의 성능을 달성하는 동시에 다국어, 오디오 및 비전 기능 측면에서 새로운 최고 수준을 달성했습니다.
모델 안전 및 제한 사항
GPT‑4o는 훈련 데이터 필터링 및 사후 훈련을 통한 모델 동작 개선 등의 기술을 통해 모든 모달리티에 걸쳐 설계부터 안전성을 내장하고 있습니다. 또한 음성 출력에 대한 가드레일을 제공하기 위한 새로운 안전 시스템도 구축했습니다. GPT‑4o는 당사의
준비 프레임워크(Preparedness Framework ) 와 자발적 약속 에 따라 평가되었습니다 . 사이버 보안, CBRN, 설득력, 모델 자율성 평가 결과, GPT‑4o는 이러한 모든 범주에서 중간 위험 등급을 초과하지 않는 것으로 나타났습니다. 이 평가에는 모델 훈련 프로세스 전반에 걸쳐 자동화 및 인적 평가가 포함되었습니다. 맞춤형 미세 조정 및 프롬프트를 사용하여 모델의 안전성 완화 이전 버전과 안전성 완화 이후 버전을 모두 테스트하여 모델 기능을 더욱 효과적으로 도출했습니다. GPT‑4o는 사회 심리학, 편견 및 공정성, 허위 정보 등 다양한 분야의 70 명 이상의 외부 전문가 와 광범위한 외부 레드팀 구성을 통해 새롭게 추가된 모달리티로 인해 발생하거나 증폭되는 위험을 파악했습니다. 이러한 학습 내용을 바탕으로 GPT‑4o와의 상호 작용 안전성을 향상시키기 위한 안전 조치를 구축했습니다. 새로운 위험이 발견될 때마다 이를 지속적으로 완화해 나갈 것입니다. GPT‑4o의 오디오 모달리티가 다양하고 새로운 위험을 야기한다는 점을 인지하고 있습니다. 오늘 텍스트 및 이미지 입력과 텍스트 출력을 공개합니다. 앞으로 몇 주, 몇 달 동안 다른 모달리티 출시에 필요한 기술 인프라, 사후 교육을 통한 사용성 개선, 그리고 안전성 확보에 집중할 것입니다. 예를 들어, 출시 시점에는 오디오 출력이 사전 설정된 음성으로 제한되며 기존 안전 정책을 준수할 것입니다. 향후 시스템 카드에서 GPT‑4o의 다양한 모달리티에 대한 자세한 내용을 공유할 예정입니다. 모델을 테스트하고 반복하면서 우리는 모델의 모든 모달리티에 존재하는 몇 가지 한계를 발견했습니다. 그 중 몇 가지는 아래에 설명되어 있습니다.
GPT‑4 Turbo가 GPT‑4o보다 여전히 더 나은 성능을 보이는 작업을 파악하는 데 도움이 되는 피드백을 받고 싶습니다. 이를 통해 모델을 지속적으로 개선할 수 있습니다.
ChatGPT-4o 위험 점수표
2024년 5월 8일 업데이트
모델 가용성
GPT‑4o는 딥 러닝의 경계를 넓혀가는 저희의 최신 단계로, 이번에는 실용적인 사용성을 지향합니다. 지난 2년 동안 스택의 모든 계층에서 효율성 향상을 위해 많은 노력을 기울였습니다. 이러한 연구의 첫 결실로, GPT‑4 레벨 모델을 훨씬 더 광범위하게 사용할 수 있게 되었습니다. GPT‑4o의 기능은 점진적으로 출시될 예정이며, 오늘부터 레드팀 접근 권한도 확대될 예정입니다.
GPT‑4o의 텍스트 및 이미지 기능이 오늘 ChatGPT에 출시됩니다. GPT‑4o는 무료 버전과 Plus 사용자에게 최대 5배 더 많은 메시지 전송 용량을 제공합니다. 향후 몇 주 안에 ChatGPT Plus에서 GPT‑4o를 활용한 새로운 음성 모드 알파 버전을 출시할 예정입니다.
개발자는 이제 API에서 텍스트 및 비전 모델로 GPT‑4o에 액세스할 수 있습니다. GPT‑4o는 GPT‑4 Turbo보다 2배 더 빠르고, 절반의 가격이며, 속도 제한이 5배 더 높습니다. 향후 몇 주 안에 API 내 소수의 신뢰할 수 있는 파트너를 대상으로 GPT‑4o의 새로운 오디오 및 비디오 기능 지원을 시작할 계획입니다.
Free
$
USD/
월
매일 해야 하는 일에 AI를 활용해 보세요
Plus인기
$
USD/
월
더 넉넉한 액세스로 생산성과 창의성을 끌어올리세요
Pro
$
USD/
월
최고 수준 액세스, 최고의 OpenAI 경험
월
-
ChatGPT Plus Subscription월간 청구US$20.00
Stripe Checkout
pay.openai.com
'AI Fusion Technology (동.서양)' 카테고리의 다른 글
#7 운세추적술(천기예보) ChatGPT 4.1 mini #글꼬라지# (2) | 2025.05.21 |
---|---|
#6 운세추적술(천기예보) ChatGPT o4 mini #글꼬라지# (2) | 2025.05.21 |
#5 운세추적술(천기예보) ChatGPT 4.0 ####글꼬라지# (1) | 2025.05.21 |
Google AI Gemini 2.0, 2.5 Pro 요금제*****202505# (3) | 2025.05.21 |
#4 운세추적술(천기예보) Gemini 2.5 personalization# (3) | 2025.05.21 |