OpenAI nie zamierza zwalniać tempa – zaledwie kilka dni po kontrowersjach związanych z Pentagonem i masowym odpływie użytkowników do Anthropic, firma Sama Altmana wytoczyła ciężkie działa w postaci GPT-5.4. Ten model to pierwszy projekt otwarcie skrojony pod codzienne zadania biurowe, potrafiący obsługiwać pulpit systemu na podstawie zrzutów ekranu. Brzmi to jak milowy krok w stronę w pełni autonomicznych asystentów, ale sprawdźmy, co tak naprawdę kryje się pod maską tej nowości.
TL;DR
- GPT-5.4 potrafi realizować zadania na komputerze, używając wirtualnej klawiatury i myszy.
- Okno kontekstowe w API zostało rozszerzone do imponującego poziomu 1 miliona tokenów.
- Model generuje o 18% mniej błędów faktograficznych w porównaniu do swoich poprzedników.
- Nowość jest już dostępna w ChatGPT, interfejsie API oraz środowisku Codex.
- Funkcja GPT-5.4 Thinking pozwala użytkownikowi przerywać i korygować proces myślowy AI.
Co nowego wnosi GPT-5.4?
OpenAI wyraźnie podkręciło tempo premier, serwując nam model GPT-5.4 w wariantach Thinking oraz Pro. To nie jest zwykły lifting wizualny – model ten spaja w jedną całość najnowsze osiągnięcia w dziedzinie rozumowania, programowania i procesów agentowych. Samuel Axon z redakcji Ars Technica zauważa trafnie, że to bezpośrednia odpowiedź na rynkowy głód agentów AI, którzy zamiast tylko „produkować tekst”, zaczną realnie działać w naszym imieniu.
To pierwszy model stworzony z myślą o zadaniach komputerowych – takimi słowami OpenAI promuje tę premierę. Wewnątrz ChatGPT wersja GPT-5.4 Thinking wyświetla proces rozumowania w czasie rzeczywistym, zamiast chować go w końcowym podsumowaniu. Co więcej, możesz teraz brutalnie przerwać ciąg myślowy maszyny i skorygować jej kurs, co okazuje się zbawienne przy skomplikowanych, wieloetapowych projektach. Dodatkowo inżynierowie poprawili zdolność do utrzymywania wątku podczas tych długodystansowych maratonów logicznych.
GPT-5.4 is launching, available now in the API and Codex and rolling out over the course of the day in ChatGPT.
It’s much better at knowledge work and web search, and it has native computer use capabilities.
You can steer it mid-response, and it supports 1m tokens of context. pic.twitter.com/DUrHIhXhzc
— Sam Altman (@sama) March 5, 2026
Wszystkie te usprawnienia sprawiają, że model staje się znacznie potężniejszym narzędziem do głębokiego researchu w sieci czy planowania złożonych operacji.
Skupienie na pracy biurowej i zadaniach agentowych
GPT-5.4 uderza precyzyjnie w sektor pracy umysłowej, czyli we wszystko to, co kojarzy nam się z biurowym znojem: od analizy grubych plików dokumentów po tworzenie prezentacji. OpenAI deklaruje, że model potrafi wydawać komendy klawiaturze i myszy, analizując okresowe zrzuty ekranu pulpitu – to funkcjonalność, nad którą intensywnie pracują też Google i Anthropic. W specjalistycznym benchmarku GDPval, który sprawdza sprawność agentów w 44 różnych zawodach biurowych, GPT-5.4 wykręcił 83 procent skuteczności.
To pierwszy model tak wyraźnie sprofilowany pod konkretne potrzeby biznesowe, co ma stanowić jego główną kartę przetargową w starciu ze starszymi wersjami. Wersje API i Codex obsługują teraz do 1 miliona tokenów kontekstu, co pozwala na tytaniczną pracę bez obaw o limity pamięci krótkotrwałej. Poprawiono też efektywność przetwarzania, więc w praktyce dostajemy więcej „mocy przerobowej” w tej samej cenie.
Sam Altman na platformie X nie szczędził pochwał dla natywnych zdolności modelu do interakcji z systemem operacyjnym i ulepszonego wyszukiwania w sieci – to kluczowe, by agenci nie „zawieszali się” po wykonaniu dwóch pierwszych kroków instrukcji.
Poprawy w rozumowaniu, wizji i faktach
Wariant GPT-5.4 Thinking stawia na transparentność i znacznie lepiej radzi sobie z utrzymaniem logiki w długich procesach myślowych. OpenAI obiecuje, że generowane odpowiedzi są o 18 procent mniej podatne na błędy faktograficzne niż dotychczas. Skok jakościowy widać też w warstwie wizualnej – model bez trudu analizuje obrazy o rozdzielczości do 10,24 miliona pikseli lub o boku sięgającym 6000 pikseli.
W wymagających testach MMMU-Pro, badających rozumowanie wizualne, model osiąga wynik na poziomie 81,2 procent. Dzięki optymalizacji zużycia tokenów, użytkownik może zlecić AI znacznie więcej akcji, zanim dobije do narzuconych limitów. Z kolei w środowisku Codex tryb szybki działa teraz błyskawicznie, co z pewnością docenią deweloperzy budujący własne narzędzia.
Warto też wspomnieć o publikacji badań dotyczących kontroli łańcucha myśli (chain-of-thought controllability). Wynika z nich, że model jest wyjątkowo odporny na próby manipulacji mające na celu ukrycie jego toku rozumowania, co stanowi istotny argument w dyskusji o bezpieczeństwie sztucznej inteligencji.
Tabela porównawcza z konkurentami
Aby rzetelnie ocenić, gdzie znajduje się GPT-5.4 na tle takich gigantów jak Claude Opus 4.6 czy Gemini 3.1 Pro, warto zerknąć na twarde dane z benchmarków. Niezależne testy potwierdzają dominację nowego dziecka OpenAI w obszarach związanych z automatyzacją biurową i zadaniami agentowymi.
| Benchmark | GPT-5.4 | Claude Opus 4.6 | Gemini 3.1 Pro |
|---|---|---|---|
| GDPval (knowledge work) | 83.0% | ~73% | ~77% |
| Terminal-Bench 2.0 | 75.1% | 65.4% | 68.5% |
| MMMU-Pro (wizualne) | 81.2% | 78.5% | 79.0% |
| Context window (API) | 1M tokenów | 1M tokenów | 1M tokenów |
Porównanie GPT-5.4 z głównymi konkurentami w kluczowych benchmarkach agentowych i biurowych.
Jak widać na powyższym zestawieniu, OpenAI utrzymuje fotel lidera w kategoriach pracy umysłowej i zadań terminalowych, choć Claude depcze mu po piętach w testach wymagających większej dozy kreatywności.
Konkurencja i kontekst rynkowy
Moment premiery nie jest dziełem przypadku – ChatGPT zaczął tracić użytkowników po głośnej umowie OpenAI z Pentagonem oraz politycznym sporze wokół limitów militarnych dla Anthropic. Konkurencja nie śpi: Anthropic zareagowało wprowadzeniem darmowej pamięci i łatwego importu danych, co 2 marca zaowocowało rekordową liczbą nowych rejestracji. Choć ich baza przekracza 900 milionów, każdy odpływ lojalnych użytkowników jest dla OpenAI bolesny.
Firma musi więc walczyć nie tylko ceną, ale przede wszystkim unikalnymi zdolnościami i wydajnością. GPT-5.4 Pro pozycjonowany jest jako produkt premium, jednak funkcja Thinking trafia do szerszego grona odbiorców w planach Plus, Team i Pro. W naszym wcześniejszym tekście o GPT-5.3-Codex wspominaliśmy o agentach dla programistów – teraz dostajemy kompletny pakiet dla każdego.
To swoista ironia losu: podczas gdy część opinii publicznej drży przed współpracą AI z wojskiem, OpenAI promuje swój najnowszy model jako idealnego pomocnika do codziennej, biurowej harówki.
Dostępność i co dalej?
Od dzisiaj GPT-5.4 jest dostępny w przeglądarkowej wersji ChatGPT, aplikacjach mobilnych, a także przez API i w środowisku Codex. Subskrybenci planów Plus, Team oraz Pro mogą już testować funkcję Thinking, natomiast wersja Pro trafia do rąk użytkowników API, Edu oraz Enterprise. Proces wdrażania jest stopniowy – sterowanie modelem (steering) działa już na Androidzie i w sieci, a użytkownicy iOS muszą uzbroić się w jeszcze chwilę cierpliwości.
Wprowadzenie 1 miliona tokenów w API to rzucenie rękawicy Google i Anthropic. Jeśli chodzi o koszty, wersja Pro jest nieco droższa, ale dla profesjonalistów ta inwestycja może się szybko zwrócić. Programiści budujący autonomiczne agenty z pewnością ucieszą się z natychmiastowej dostępności modelu w Codex.
OpenAI zapowiada, że to dopiero początek możliwości ich flagowego modelu, ale rynek AI pędzi do przodu bez wytchnienia. Czy te nowości wystarczą, by powstrzymać migrację użytkowników do Claude? Czas pokaże, kto wyjdzie z tej bitwy obronną ręką.
Źródła: Ars Technica, OpenAI.com (introducing-gpt-5-4), TechCrunch, The Verge, X.com (@sama, @OpenAI)
