OpenAI 7 maja 2026 oficjalnie wypuściło trzy nowe modele audio w Realtime API: GPT-Realtime-2, GPT-Realtime-Translate i GPT-Realtime-Whisper. Flagowiec, GPT-Realtime-2, to według samej firmy pierwszy model głosowy z rozumowaniem klasy GPT-5 – a niezależne testy zdają się to potwierdzać. Nowa architektura radzi sobie z przerwaniami w połowie zdania, woła zewnętrzne narzędzia w trakcie rozmowy i nie traci wątku przy zawiłych instrukcjach.
Co dokładnie ogłosiło OpenAI?
Główna nowość to GPT-Realtime-2 – model speech-to-speech, który zastępuje wcześniejszą wersję 1.5. Najważniejsza techniczna różnica to okno kontekstu skoczyło z 32 tys. do 128 tys. tokenów, co wreszcie pozwala prowadzić długie rozmowy bez zewnętrznego sklejania stanu sesji. Drugi smaczek to suwak wysiłku przy rozumowaniu w pięciu poziomach: minimal, low, medium, high, xhigh. Domyślnie startuje z low, żeby trzymać niskie opóźnienia, ale przy trudniejszym zadaniu można podkręcić do high lub xhigh – wtedy model myśli dłużej i drożej, ale jakość rośnie wyraźnie.
Razem z głównym modelem OpenAI wypuściło dwa wyspecjalizowane narzędzia: GPT-Realtime-Translate do tłumaczeń symultanicznych oraz GPT-Realtime-Whisper do streamingowej transkrypcji.
Benchmarki: skok widać gołym okiem
OpenAI raportuje, że GPT-Realtime-2 w trybie high zdobył wynik o 15,2% lepszy w benchmarku Big Bench Audio od poprzednika 1.5, a w Audio MultiChallenge – mierzącym wykonywanie instrukcji w wielokrotnych turach – wersja xhigh wypadła o 13,8% lepiej.
Niezależne pomiary idą jeszcze dalej. Artificial Analysis dało modelowi 96,6% w Big Bench Audio i 96,1% w teście Conversational Dynamics, mierząc średni czas do pierwszego dźwięku na 2,33 s przy high i 1,12 s przy minimal. Z kolei Scale AI raportuje, że na ich tablicy Audio MultiChallenge S2S retencja instrukcji w wielokrotnych turach wzrosła z 36,7% (Realtime-1.5) do 70,8% (Realtime-2). To liczby, których trudno nie zauważyć – instrukcja, którą stary model zapominał w siedmiu przypadkach na dziesięć, nowy trzyma w głowie w siedmiu na dziesięć.
Wczesne wdrożenia też brzmią konkretnie: Genspark po przesiadce na nowy model zanotował 26-procentowy wzrost skuteczności rozmów, a OpenAI w swoich materiałach pokazuje 26-punktowy skok w wewnętrznym benchmarku – z 69% do 95% sukcesu. Trzeba pamiętać, że są to dane samego dostawcy i jego klientów, a nie niezależnego audytu.
Cennik, który ustawia całą branżę
Tu robi się nieprzyjemnie dla konkurencji. GPT-Realtime-2 kosztuje 32 USD za milion tokenów audio na wejściu (i 0,40 USD przy wejściu cache’owanym) oraz 64 USD za milion na wyjściu. Artificial Analysis przelicza to na stabilne 1,15 USD za godzinę audio na wejściu i 4,61 USD za godzinę na wyjściu – ceny audio nie zmieniły się względem poprzedniego modelu, mimo że jakość poszła ostro w górę.
Tłumaczenia są jeszcze bardziej agresywne cenowo – około jednej trzeciej centa za minutę, co podcina wieloletnie pipeline’y enterprise. Whisper streaming siedzi przy 0,017 USD za minutę. ElevenLabs i Deepgram, którzy do tej pory żyli ze sklejania trzech komponentów (transkrypcja, rozumowanie, synteza), nagle muszą się tłumaczyć, dlaczego ich rozwiązanie ma być droższe od jednego modelu robiącego wszystko naraz.
Co z tego ma polski deweloper?
Realtime API jest dostępny od dnia premiery, więc każdy programista z kontem OpenAI może zacząć dziś. Sytuacja z polskim wymaga jednak uczciwego doprecyzowania, bo internet pełen jest na ten temat optymistycznych bzdur.
GPT-Realtime-2 to model bazujący na rozumowaniu GPT-5, więc rozmawia po polsku tak, jak GPT-5 – czyli całkiem nieźle, ale OpenAI nie publikuje dla polskiego żadnych dedykowanych benchmarków. GPT-Realtime-Whisper oficjalnie wspiera polski w transkrypcji (w grupie języków, gdzie błąd słów nie przekracza 50%). Najgorzej wypada Translate: polski jest na liście 70+ języków wejściowych, ale nie ma go wśród 13 wyjściowych. To znaczy, że można gadać po polsku do modelu, a on przetłumaczy mowę na hiszpański, niemiecki, francuski, japoński czy angielski – ale nie odwrotnie. Tłumaczenie z angielskiego na polski w czasie rzeczywistym tym narzędziem nie wyjdzie.
W praktyce: infolinia w Polsce na bazie Realtime-2 jest realna, asystent zakupowy też – pod warunkiem, że ktoś przetestuje jakość w polskich frazach branżowych, bo OpenAI tego za nas nie zrobi. Symultaniczne tłumaczenie konferencji z polskim na wyjściu trzeba na razie odpuścić albo posiłkować się starszym pipeline’em.
Źródła
OpenAI blog (Advancing voice intelligence with new models in the API), OpenAI Cookbook (Realtime translation guide), Artificial Analysis, Scale AI, The Next Web, Interesting Engineering, Latent Space (AI News)
