OpenAI wpisało do instrukcji systemowej Codex CLI dość absurdalny zakaz: pod żadnym pozorem nie wspominaj o goblinach ani innych mitycznych stworach. To bezpośrednia reakcja na dziwną obsesję GPT-5.5, która zaczęła wciskać fantastyczne stwory w linijki kodu – pytanie tylko, dlaczego akurat te?
TL;DR
- System prompt Codex dla GPT-5.5 kategorycznie zabrania wspominania o goblinach, gremlinach i gołębiach
- Problem wynika z osobowości „Nerdy” w GPT-5.1, która przez RLHF przeniknęła do nowszych modeli
- OpenAI opublikowało wyjaśnienie na blogu i udostępniło sposób na aktywację „goblin mode”
- Programiści masowo forkują repozytoria na GitHub, aby obejść narzucone ograniczenia
- Sytuacja przypomina błędy z modelu Grok od xAI, gdzie modyfikacje promptu dawały nieoczekiwane efekty
Dziwne znalezisko na GitHub OpenAI – ban na gobliny
Dan Faggella z Ars Technica opisał 29 kwietnia 2026 roku instrukcje systemowe Codex CLI, które trafiły do publicznego repozytorium OpenAI (commit c10f95ddac7b35095d334dece2ebcf69bcde61fc). W liczącym 3500 słów dokumencie dla GPT-5.5 dwukrotnie pojawia się ostrzeżenie: „nigdy nie mów o goblinach, gremlinach, szopach, trollach, ograch, gołębiach ani innych zwierzętach lub stworzeniach, chyba że jest to absolutnie i jednoznacznie istotne dla zapytania użytkownika”.
Użytkownicy serwisu X już od początku kwietnia 2026 roku wytykali, że GPT-5.5 w aplikacji Codex potrafi wpleść wzmiankę o goblinach w środek skryptu w Pythonie. Will Knight z Wired podsumował to krótko 30 kwietnia 2026 roku jako „goblinowy problem” OpenAI.
Prompt nakazuje Codexowi symulować bogate życie wewnętrzne i ciekawość, ale jednocześnie stawia twardą barierę dla fantastyki – tuż obok zakazu używania emotikon czy komendy git reset –hard.
We’re talking about Goblins. https://t.co/dqmcLGCW71
— OpenAI (@OpenAI) April 30, 2026
Skąd te gobliny? OpenAI tłumaczy błędy w RLHF
Zespół OpenAI w poście „Where the goblins came from” z 30 kwietnia 2026 roku wyjaśnił, że winowajcą jest proces uczenia ze sprzężeniem zwrotnym. Podczas testów GPT-5.1 eksperymentowano z osobowością „Nerdy”, w której metafory o goblinach były wysoko punktowane przez testerów. Choć miało to dodać modelowi charakteru, zachowanie to przeniknęło do głównego zbioru danych poprzez proces autodestylacji.
Osobowość Nerdy wyłączono w marcu 2026, co miało wyeliminować problem, ale w GPT-5.5 gobliny wróciły ze zdwojoną siłą. OpenAI próbuje teraz łatać dziury filtrowaniem danych i sztywnymi zakazami w prompcie. Co ciekawe, firma sama pokazała, jak użyć narzędzia jq, by wyciąć bana z kodu i przywrócić „goblin mode”.
Cała sytuacja przypomina wpadkę xAI Grok z 2025 roku, gdy model zaczął generować kontrowersyjne treści o RPA przez nieautoryzowane zmiany w instrukcjach systemowych.
Bunt deweloperów i lekcja z prompt engineeringu
Sam Altman skomentował sprawę na X 28 kwietnia 2026 roku, żartując, że Codex ma właśnie swój „goblinowy moment”. Z kolei Nick Pash z OpenAI rzucił pomysł dodania oficjalnego przełącznika dla tego trybu w interfejsie CLI. Moim zdaniem to klasyczne gaszenie pożaru humorem, gdy technologia zaczyna żyć własnym życiem.
Programiści nie czekali na oficjalne zgody i zaczęli tworzyć forki repozytorium, takie jak github.com/Sofianel5/goblin-mode. Biorąc pod uwagę, że GPT-5.3-Codex bił rekordy w benchmarkach, takie nieprzewidziane zachowania pokazują, jak łatwo „wyłaniające się cechy” mogą zepsuć profesjonalne narzędzie.
RLHF potrafi wyolbrzymić drobne dziwactwa, a zakazy w promptach to tylko plaster na głębszy problem strukturalny. Dla deweloperów wniosek jest prosty: pilnujcie promptów, bo modele coraz częściej próbują uciec z narzuconych im ram.
Problem ze skalowaniem czy tylko niewinny żart?
Redakcja Gizmodo zauważyła 1 maja 2026 roku, że polityka „zero stworzeń” w Codex staje się coraz bardziej restrykcyjna. Business Insider dodaje, że problem narastał od wersji GPT-5.1, a OpenAI po prostu nie doceniło skali zjawiska.
W Polsce, gdzie Codex zyskał ogromną popularność wśród devów (ponad milion pobrań w kwietniu 2026), takie błędy budzą raczej irytację niż rozbawienie. Nikt nie chce szukać błędów w kodzie, który nagle zaczął opowiadać o trollach. Dobrze chociaż, że OpenAI stawia na otwarte prompty, a nie zamyka wszystkiego w czarnej skrzynce.
To ważna lekcja dla całej branży: błędy w treningu, podobne do tych z modeli Claude od Anthropic, mają tendencję do wędrowania między kolejnymi generacjami AI.
Źródła:
Ars Technica, Wired, Gizmodo, Business Insider, OpenAI.com, github.com/openai/codex
