Wyobraź sobie, że dostajesz do rąk najpotężniejszy silnik świata, ale nikt nie pomyślał o testach zderzeniowych. Dokładnie taką strategię przyjęło OpenAI, wypuszczając 5 marca model GPT-5.4 Pro bez jakichkolwiek publicznych ocen bezpieczeństwa. Co ciekawe, to nie pierwszy taki wybryk giganta z San Francisco – wcześniej podobny manewr zastosowano przy okazji premiery GPT-5.2 Pro, co przeszło niemal bez echa.
TL;DR
- GPT-5.4 Pro dominuje w benchmarkach, osiągając 94,4% w GPQA Diamond oraz 83,3% w ARC-AGI-2.
- Model zadebiutował bez oficjalnej karty modelu (system card) i publicznych testów bezpieczeństwa.
- To powtórka z grudnia 2025 roku, gdy GPT-5.2 Pro również trafił na rynek bez ocen ryzyka.
- Eksperci proponują stworzenie niezależnego zespołu do błyskawicznych testów po premierach AI.
- Wersja Pro to zaawansowany scaffold wykorzystujący test-time compute, co czyni go potężnym, ale wolnym.
Czym jest GPT-5.4 Pro i dlaczego bije konkurencję
OpenAI 5 marca wprowadziło do gry dwie wersje swojego flagowca: GPT-5.4 Thinking, dostępną w ChatGPT, oraz wariant Pro dla użytkowników wymagających absolutnego maksimum mocy w złożonych operacjach. Wersja Pro jest piekielnie droga i powolna, co wynika z zastosowania dodatkowych obliczeń w fazie inferencji – to w praktyce zaawansowana struktura typu scaffold oparta na Thinking, ale wzmocniona przez „test-time compute”. Sam Altman i spółka chwalą się, że to ich najbardziej zaawansowany model typu frontier, który bez wysiłku łączy logiczne rozumowanie, pisanie kodu i skomplikowane procesy agentyczne.
W oficjalnym komunikacie zaprezentowano wyniki, w których Pro bezlitośnie ogrywa Gemini 3.1 Pro od Google oraz Opus 4.6 od Anthropic. Mowa tu głównie o testach akademickiego rozumowania czy autonomicznej obsługi przeglądarki. Jak już wspominaliśmy w artykule o GPT-5.4, ten model potrafi przejąć kontrolę nad pulpitem użytkownika, wchodząc w rolę cyfrowego asystenta, który sam ogarnie nudną robotę biurową.
Jest jednak pewien haczyk – te imponujące rezultaty to tylko starannie dobrany wycinek rzeczywistości, a wariant Pro, w przeciwieństwie do Thinking, nie doczekał się pełnej karty modelu.
Brak publicznych ocen bezpieczeństwa budzi niepokój
Karta modelu (system card) dla GPT-5.4 Thinking wisi na stronie OpenAI i szczegółowo opisuje procedury bezpieczeństwa, w tym analizę ryzyk cybernetycznych czy biologicznych. A co z wersją Pro? Tutaj zapadła wymowna cisza. Nie uświadczymy żadnych publicznych danych na temat „safety evals”, czyli testów sprawdzających odporność na symulowane ataki czy próby wykorzystania AI do celów militarnych, takich jak projektowanie broni biologicznej czy prowadzenie operacji hakerskich.
Badacze z forum LessWrong sugerują, że OpenAI mogło pominąć nawet wewnętrzne testy na poziomie tych, które przeszedł model Thinking. To niebezpieczny precedens, który serwuje nam iluzję kontroli. Choć zamknięte modele posiadają filtry CBRNE (chroniące przed wiedzą o broni chemicznej czy nuklearnej), to bez twardych danych nie mamy pewności, czy potężniejszy GPT-5.4 Pro nie przeskoczył tych zabezpieczeń w obszarach takich jak LAB-Bench czy EVM-Bench.
Szczytem ironii jest fakt, że model, który prawdopodobnie najlepiej na świecie radzi sobie z koordynacją cyberataków, trafia do użytkowników bez żadnego publicznego certyfikatu bezpieczeństwa.
Benchmarki pokazują dominację Pro
OpenAI podzieliło się wynikami Pro w kluczowych sprawdzianach, stawiając go obok rynkowych liderów. Poniżej zestawienie danych z oficjalnego ogłoszenia, obejmujące wyłącznie benchmarki wspólne dla wszystkich kart modeli:
| Benchmark | Gemini 3.1 Pro | GPT-5.4 Pro | Opus 4.6 |
|---|---|---|---|
| GPQA Diamond | 94.3% | 94.4% | 91.3% |
| HLE (bez narzędzi) | 44.4% | 42.7% | 40.0% |
| HLE (z narzędziami) | 51.4% | 58.7% | 53.1% |
| ARC-AGI-2 (zweryfikowany) | 77.1% | 83.3% | 68.8% |
| BrowseComp | 85.9% | 89.3% | 84.0% |
Porównanie benchmarków GPT-5.4 Pro z rywalami (dane z ogłoszenia OpenAI).
Te liczby jasno dają do zrozumienia, że Pro to obecnie król testów wirusologicznych, biologicznych procesów agentycznych oraz matematycznego wyzwania FrontierMath. Wyniki w BrowseComp (89,3%) oraz FinanceAgent v1.1 (61,5%) pokazują, że automatyzacja finansów i biura wchodzi na nowy poziom. Nawet w agentycznym kodowaniu, dzięki dodatkowym zasobom obliczeniowym, model ten prawdopodobnie zostawia konkurencję w tyle.
Jednak ta ogromna luka informacyjna w postaci braku pełnych testów bezpieczeństwa sprawia, że nie jesteśmy w stanie rzetelnie ocenić ryzyka związanego z potencjalnym katastrofalnym użyciem tej technologii.
Nie pierwszy raz – przypadek GPT-5.2 Pro
Mamy tu do czynienia z klasycznym déjà vu. W grudniu 2025 roku OpenAI wypuściło model GPT-5.2 Pro, również „zapominając” o dołączeniu karty modelu. Niezależni badacze postanowili sprawdzić go na własną rękę w teście LAB-Bench i przecierali oczy ze zdumienia – model bez żadnych dodatkowych narzędzi dorównywał potężnemu Opus 4.6 (wyposażonemu w narzędzia) w teście Fig-QA, osiągając 78,3%.
Przez co najmniej dwa miesiące, aż do lutego 2026 roku, model ten był najlepszy na świecie w biologii podwójnego zastosowania (dual-use), zanim został zdetronizowany przez Opus 4.6. Co gorsza, społeczność zajmująca się bezpieczeństwem AI kompletnie to przeoczyła, naiwnie zakładając, że czołowe laboratoria zawsze grają w otwarte karty i publikują kompletne dane.
Efekt? Całkowicie błędna ocena tego, jak szybko zbliżamy się do granicy realnego zagrożenia.
Co dalej? Potrzeba niezależnych testów
Najwyższy czas zrozumieć, że nie możemy bezkrytycznie ufać gigantom takim jak OpenAI, Anthropic czy Google. Autorzy analizy postulują powołanie małych, zwinnych zespołów (1-3 osoby), które byłyby w stanie błyskawicznie uruchomić gotowe struktury testowe, takie jak ABC-Bench, VCT (Virology Capabilities Test), Petri czy EVM-Bench, natychmiast po premierze modelu pozbawionego karty bezpieczeństwa.
Takie działanie pozwoliłoby na szybkie przygotowanie raportów dotyczących ryzyka nadużyć, autonomicznego planowania (scheming) czy braku spójności z ludzkimi wartościami (misalignment). Bardziej ambitne plany zakładają tworzenie nowych metod testowania i ścisłą współpracę z regulatorami. Narzędzia są gotowe – wystarczy tylko zacząć z nich korzystać.
Redakcja DigiCat.pl uważa, że to jedyna sensowna droga. Bo jeśli nie my, to kto sprawdzi, co te cyfrowe bestie potrafią zrobić, gdy nikt nie patrzy im na ręce?
Źródła: LessWrong (https://www.lesswrong.com/posts/9woCWqiDbSFPXpxvn/the-current-sota-model-was-released-without-safety-evals), OpenAI (https://openai.com/index/introducing-gpt-5-4, https://deploymentsafety.openai.com/gpt-5-4-thinking), TechCrunch, X.com/@OpenAI
