Photo by Dominik Kempf on Unsplash AI가 듣고, 말하고, 번역까지 — 한 번에 풀렸습니다. OpenAI가 음성 인텔리전스 모델 3종을 동시에 공개했습니다. 70개 언어를 13개 언어로 실시간 번역하는 모델이 그중에 있습니다. 콜센터·회의·통화의 모양이 바뀌는 시작점입니다. [AdSense 상단] 무엇이 출시됐나 2026년 5월, OpenAI는 음성 인텔리전스 분야 신모델 3종을 API로 한꺼번에 풀었습니다. GPT-Realtime-2 는 자연스러운 음성 대화를 위한 모델입니다. GPT-5급 추론 능력을 기반으로 사용자의 복잡한 요청을 처리합니다. 단순 응답이 아니라, 실제 대화처럼 흐름을 잡는 것이 핵심입니다. GPT-Realtime-Translate 는 실시간 번역 모델입니다. 70개 이상 언어로 들어온 음성을 13개 언어로 화자의 속도에 맞춰 번역합니다. 회의 중간에 끊어 들을 필요 없이, 말하는 동시에 다른 언어로 흘러나옵니다. GPT-Realtime-Whisper 는 음성을 텍스트로 바꾸는 모델입니다. 초저지연이 핵심입니다. 라이브 자막·회의록·실시간 받아쓰기가 자연스럽게 느껴지는 수준입니다. 왜 이게 큰 변화일까요 지금까지 음성 AI는 두 가지 한계가 있었습니다. 첫째, 부자연스러운 응답 톤. 둘째, 실시간성 부족. 1~2초 늦게 반응하는 AI는 통화에서 답답합니다. 이번 3종은 두 한계를 모두 짚었습니다. GPT-Realtime-2는 자연스러움을, Whisper는 지연 시간을, Translate는 둘을 다국어로 확장했습니다. 특히 "70개 언어 → 13개 언어 실시간 번역"은 그동안 사람 통역사가 메우던 영역을 AI가 대체할 수 있다는 신호입니다. 실제 적용도 시작됐습니다. 미국 부동산 플랫폼 Zillow는 GPT-Realtime-2로 복잡한 음성 상담을 처리하고 있고, 통화 성공률과 규제 준수 측면에서 의미 있는 개선을 보고했습니다....
비개발자가 공유하는 실전 AI 인사이트