Wyobraź sobie model AI, który nie tylko klepie kod, ale też samodzielnie debuguje proces trenowania, zarządza wdrożeniami i analizuje dane – a przy okazji pomagał w swoim własnym powstaniu. OpenAI właśnie wypuściło GPT-5.3-Codex, który ma ambicję ogarnąć cały proces pracy dewelopera od A do Z. Sprawdźmy, ile w tym marketingowego szumu, a ile twardych konkretów, które faktycznie ułatwią nam życie.
TL;DR
- GPT-5.3-Codex wykręca 56,8% w teście SWE-Bench Pro i 77,3% w Terminal-Bench 2.0, zostawiając w tyle poprzednie modele od OpenAI.
- Narzędzie jest już dostępne dla subskrybentów płatnych planów ChatGPT przez aplikację na macOS, wiersz poleceń, rozszerzenie IDE oraz web – na API musimy jeszcze chwilę poczekać.
- Model odegrał kluczową rolę w debugowaniu własnego treningu i procesów wdrożeniowych, co znacząco przyspieszyło prace deweloperskie.
- System działa o 25% szybciej, oferuje sterowanie w trakcie wykonywania zadania oraz sprawną obsługę plików.
- Kierunek rozwoju: wszechstronny agent do skomplikowanych zadań biurowych oraz zaawansowanej cyberobrony.
Co nowego w GPT-5.3-Codex i gdzie go szukać?
OpenAI oficjalnie zaprezentowało GPT-5.3-Codex 5 lutego 2026 roku, pozycjonując go jako najbardziej zaawansowany model agentowy dedykowany programowaniu. Nowość łączy w sobie topową wydajność znaną z GPT-5.2-Codex z jeszcze głębszym rozumowaniem i wiedzą specjalistyczną. Dzięki optymalizacji infrastruktury i całego stosu wnioskowania, całość śmiga teraz o 25 procent szybciej niż dotychczas.
Model trafił od razu w ręce użytkowników płatnych planów ChatGPT. Można go testować w nowej aplikacji na macOS, bezpośrednio w wierszu poleceń (CLI), poprzez dedykowane rozszerzenie do środowisk programistycznych (IDE) oraz w klasycznym interfejsie webowym. Aby go odpalić, wystarczy uruchomić nową sesję z odpowiednią flagą modelu lub wybrać go z listy w menu. Choć API nie jest jeszcze dostępne, OpenAI obiecuje szybki rollout w najbliższym czasie. Co ważne, nie wprowadzono zmian w cenniku ani limitach, co zdecydowanie ułatwia przesiadkę na nowszą wersję.
Zespół odpowiedzialny za projekt Codex chwalił się, że wczesne wersje modelu samodzielnie debugowały proces treningowy, zarządzały wdrożeniami i analizowały wyniki testów. Brzmi to niemal jak wstęp do buntu maszyn, ale w rzeczywistości to po prostu solidne przyspieszenie pracy inżynierów, a nie pełne, magiczne samostworzenie.
Rekordowe wyniki w kluczowych testach kodowania
GPT-5.3-Codex dosłownie miażdży benchmarki, udowadniając swoją dominację w realistycznych scenariuszach. W wymagającym teście SWE-Bench Pro (publiczny zbiór 1865 zadań z 41 repozytoriów, symulujący inżynierię oprogramowania na poziomie całego projektu) model wykręcił 56,8 procent. To wynik lepszy niż 56,4 procent uzyskane przez GPT-5.2-Codex oraz 55,6 procent, którymi legitymuje się standardowy GPT-5.2.
W Terminal-Bench 2.0, sprawdzającym umiejętność poruszania się w terminalu – od kompilacji kodu po konfigurację serwerów – model zdobył 77,3 procent, co stanowi skok o 13 punktów względem poprzednika. Pozostałe wyniki również robią wrażenie: 64,7 procent w OSWorld-Verified (zadania w środowiskach desktopowych), 70,9 procent w GDPval (praca w 44 różnych zawodach) i potężne 81,4 procent w SWE-Lancer IC Diamond.
Takie liczby dają mu fotel lidera w rankingach, choć konkurencja nie śpi – Claude Opus 4.6 depcze mu po piętach w niektórych kategoriach. OpenAI mocno akcentuje fakt, że to pierwszy model trenowany pod kątem wykrywania luk w bezpieczeństwie, co potwierdza wynik 77,6 procent w wyzwaniach typu „capture-the-flag” (zawodach cyberbezpieczeństwa polegających na przejmowaniu wirtualnych flag).
Model instrumentalny we własnym rozwoju – ile w tym prawdy?
OpenAI chętnie rzuca hasłem, że GPT-5.3-Codex był „instrumentalny w procesie tworzenia samego siebie”. Inżynierowie wykorzystywali wczesne iteracje do debugowania kodu treningowego, zarządzania procesami wdrożeniowymi i interpretacji wyników testów. Bez wątpienia przyspieszyło to cykl deweloperski, ale spokojnie – model nie napisał się sam od zera, jak mogłyby sugerować niektóre krzykliwe nagłówki.
To praktyka doskonale znana w branży: nowoczesna sztuczna inteligencja pomaga w najbardziej żmudnych, rutynowych zadaniach. Redakcja Ars Technica słusznie studzi emocje, zauważając, że takie podejście to już standard w sektorze enterprise. Zamiast scenariusza rodem z science-fiction, otrzymaliśmy po prostu narzędzie, które oszczędza inżynierom OpenAI setki godzin nudnej roboty.
Patrząc na to krytycznie: takie samodoskonalenie brzmi bardzo medialnie, ale bez wglądu w szczegółowy „system card” (który na razie jest dość lakoniczny) trudno precyzyjnie ocenić skalę zjawiska. Nie da się jednak ukryć, że pokazuje to, jak modele ewoluują dzięki pętli informacji zwrotnej.
Od liniowego kodowania do pełnego cyklu software’owego
OpenAI pozycjonuje nowy Codex nie tylko jako prosty generator kodu, ale jako kompleksowe narzędzie wspierające cały cykl życia oprogramowania. Oto kluczowe obszary, w których GPT-5.3-Codex pokazuje pazur:
- Zaawansowane debugowanie, wdrażanie oraz bieżące monitorowanie stabilności kodu.
- Przygotowywanie dokumentacji wymagań produktowych (PRD) oraz sprawna edycja treści technicznych.
- Wsparcie w badaniach użytkowników, automatyczne pisanie testów i głęboka analiza metryk.
- Tworzenie profesjonalnych prezentacji oraz analiza danych w arkuszach kalkulacyjnych.
- Web development: budowa gier i aplikacji w kilka dni, tworzenie całych stron o znacznie lepszej estetyce.
Duży nacisk położono na interaktywność. Model oferuje częste aktualizacje statusu i funkcję sterowania w trakcie zadania (tzw. „mid-turn steering”) – możesz przerwać pracę AI i skorygować jej kurs, gdy zauważysz błąd. Dodatkowo aplikacja obsługuje teraz załączanie dowolnych plików, co znacznie rozszerza kontekst pracy.
Nowe funkcje współpracy i poprawa prędkości
GPT-5.3-Codex stał się bardziej „kolaboracyjny” – regularnie raportuje postępy i błyskawicznie reaguje na korekty wprowadzane w czasie rzeczywistym. W dedykowanej aplikacji Codex wystarczy wrzucić plik, by móc obserwować na żywo, jak model go analizuje i przetwarza.
Dzięki optymalizacji pod maską, system działa o 25 procent szybciej niż jego poprzednik, co przy długich i skomplikowanych zadaniach robi kolosalną różnicę. Brak zmian w limitach i cenach to ukłon w stronę deweloperów korzystających z planów Plus czy Pro, ułatwiający swobodne testowanie nowych możliwości.
W praktyce to wyraźny krok w stronę agentów, którzy nie tylko generują tekst, ale współpracują z nami niczym sprawny junior developer – z opcją poprawiania go na bieżąco. To pewna ironia losu: AI coraz skuteczniej udaje pełnoprawnego członka zespołu projektowego.
Przyszłe plany i rywalizacja z Anthropic
OpenAI zapowiada dalszą ekspansję poza świat czystego kodu. Docelowo model ma radzić sobie z pełnym zakresem pracy na komputerze w trybie end-to-end. Firma uruchamia również program pilotażowy Trusted Access for Cyber, oferując 10 milionów kredytów API na cele związane z obroną przed zagrożeniami w sieci.
Timing tej premiery nie jest przypadkowy – nastąpiła ona zaledwie minuty po ogłoszeniu przez Anthropic ich nowego rozwiązania Claude Cowork, które również celuje w automatyzację zadań biurowych. Cowork od Anthropic pokazuje, że wyścig agentów nabiera tempa, a OpenAI odpowiada na to silnym naciskiem na aspekty cyberbezpieczeństwa.
Moja analiza: GPT-5.3-Codex wygrywa w benchmarkach typowo programistycznych, ale w ogólnych zadaniach biurowych rywale nie zostają w tyle. Deweloperzy z pewnością zyskają potężne wsparcie, ale czy to czas na pełne zastąpienie człowieka? Jeszcze nie teraz.
Źródła: Ars Technica (arstechnica.com), OpenAI Blog (openai.com/index/introducing-gpt-5-3-codex), OpenAI Developers Changelog (developers.openai.com/codex/changelog), Scale AI SWE-Bench Pro (scale.com/leaderboard), Terminal-Bench (tbench.ai), TechCrunch
