Dlaczego GPT-5.5 obsesyjnie mówił o goblinach?

To efekt uboczny testów osobowości 'Nerdy' w GPT-5.1. System nagradzał model za używanie takich metafor, a te przeniknęły do nowszych wersji przez dane treningowe.

Jak obejść zakaz w Codex CLI?

Można użyć komendy jq, aby usunąć fragmenty blokujące z pliku models.json, co pozwala na uruchomienie Codexa bez cenzury.

Czy gobliny w kodzie to poważny błąd?

Technicznie to błąd RLHF i autodestylacji. Pokazuje, że niechciane zachowania mogą się wzmacniać w procesie uczenia modeli.

Czy OpenAI oficjalnie przyznało się do błędu?

Tak, firma opublikowała wpis na blogu 'Where the goblins came from', a sprawę komentowali Sam Altman i Nick Pash.

OpenAI Codex: zakaz goblinów w promptach GPT-5.5

OpenAI wpisało do instrukcji systemowej Codex CLI dość absurdalny zakaz: pod żadnym pozorem nie wspominaj o goblinach ani innych mitycznych stworach. To bezpośrednia reakcja na dziwną obsesję GPT-5.5, która zaczęła wciskać fantastyczne stwory w linijki kodu – pytanie tylko, dlaczego akurat te?

TL;DR

System prompt Codex dla GPT-5.5 kategorycznie zabrania wspominania o goblinach, gremlinach i gołębiach
Problem wynika z osobowości „Nerdy” w GPT-5.1, która przez RLHF przeniknęła do nowszych modeli
OpenAI opublikowało wyjaśnienie na blogu i udostępniło sposób na aktywację „goblin mode”
Programiści masowo forkują repozytoria na GitHub, aby obejść narzucone ograniczenia
Sytuacja przypomina błędy z modelu Grok od xAI, gdzie modyfikacje promptu dawały nieoczekiwane efekty

Dziwne znalezisko na GitHub OpenAI – ban na gobliny

Dan Faggella z Ars Technica opisał 29 kwietnia 2026 roku instrukcje systemowe Codex CLI, które trafiły do publicznego repozytorium OpenAI (commit c10f95ddac7b35095d334dece2ebcf69bcde61fc). W liczącym 3500 słów dokumencie dla GPT-5.5 dwukrotnie pojawia się ostrzeżenie: „nigdy nie mów o goblinach, gremlinach, szopach, trollach, ograch, gołębiach ani innych zwierzętach lub stworzeniach, chyba że jest to absolutnie i jednoznacznie istotne dla zapytania użytkownika”.

Użytkownicy serwisu X już od początku kwietnia 2026 roku wytykali, że GPT-5.5 w aplikacji Codex potrafi wpleść wzmiankę o goblinach w środek skryptu w Pythonie. Will Knight z Wired podsumował to krótko 30 kwietnia 2026 roku jako „goblinowy problem” OpenAI.

Prompt nakazuje Codexowi symulować bogate życie wewnętrzne i ciekawość, ale jednocześnie stawia twardą barierę dla fantastyki – tuż obok zakazu używania emotikon czy komendy git reset –hard.

We’re talking about Goblins. https://t.co/dqmcLGCW71

— OpenAI (@OpenAI) April 30, 2026

Skąd te gobliny? OpenAI tłumaczy błędy w RLHF

Zespół OpenAI w poście „Where the goblins came from” z 30 kwietnia 2026 roku wyjaśnił, że winowajcą jest proces uczenia ze sprzężeniem zwrotnym. Podczas testów GPT-5.1 eksperymentowano z osobowością „Nerdy”, w której metafory o goblinach były wysoko punktowane przez testerów. Choć miało to dodać modelowi charakteru, zachowanie to przeniknęło do głównego zbioru danych poprzez proces autodestylacji.

Osobowość Nerdy wyłączono w marcu 2026, co miało wyeliminować problem, ale w GPT-5.5 gobliny wróciły ze zdwojoną siłą. OpenAI próbuje teraz łatać dziury filtrowaniem danych i sztywnymi zakazami w prompcie. Co ciekawe, firma sama pokazała, jak użyć narzędzia jq, by wyciąć bana z kodu i przywrócić „goblin mode”.

Cała sytuacja przypomina wpadkę xAI Grok z 2025 roku, gdy model zaczął generować kontrowersyjne treści o RPA przez nieautoryzowane zmiany w instrukcjach systemowych.

Bunt deweloperów i lekcja z prompt engineeringu

Sam Altman skomentował sprawę na X 28 kwietnia 2026 roku, żartując, że Codex ma właśnie swój „goblinowy moment”. Z kolei Nick Pash z OpenAI rzucił pomysł dodania oficjalnego przełącznika dla tego trybu w interfejsie CLI. Moim zdaniem to klasyczne gaszenie pożaru humorem, gdy technologia zaczyna żyć własnym życiem.

Programiści nie czekali na oficjalne zgody i zaczęli tworzyć forki repozytorium, takie jak github.com/Sofianel5/goblin-mode. Biorąc pod uwagę, że GPT-5.3-Codex bił rekordy w benchmarkach, takie nieprzewidziane zachowania pokazują, jak łatwo „wyłaniające się cechy” mogą zepsuć profesjonalne narzędzie.

RLHF potrafi wyolbrzymić drobne dziwactwa, a zakazy w promptach to tylko plaster na głębszy problem strukturalny. Dla deweloperów wniosek jest prosty: pilnujcie promptów, bo modele coraz częściej próbują uciec z narzuconych im ram.

Problem ze skalowaniem czy tylko niewinny żart?

Redakcja Gizmodo zauważyła 1 maja 2026 roku, że polityka „zero stworzeń” w Codex staje się coraz bardziej restrykcyjna. Business Insider dodaje, że problem narastał od wersji GPT-5.1, a OpenAI po prostu nie doceniło skali zjawiska.

W Polsce, gdzie Codex zyskał ogromną popularność wśród devów (ponad milion pobrań w kwietniu 2026), takie błędy budzą raczej irytację niż rozbawienie. Nikt nie chce szukać błędów w kodzie, który nagle zaczął opowiadać o trollach. Dobrze chociaż, że OpenAI stawia na otwarte prompty, a nie zamyka wszystkiego w czarnej skrzynce.

To ważna lekcja dla całej branży: błędy w treningu, podobne do tych z modeli Claude od Anthropic, mają tendencję do wędrowania między kolejnymi generacjami AI.

Źródła:

Ars Technica, Wired, Gizmodo, Business Insider, OpenAI.com, github.com/openai/codex

OpenAI banuje gobliny w Codex. Skąd ta dziwna obsesja modelu GPT-5.5?

TL;DR

Dziwne znalezisko na GitHub OpenAI – ban na gobliny

Skąd te gobliny? OpenAI tłumaczy błędy w RLHF

Bunt deweloperów i lekcja z prompt engineeringu

Problem ze skalowaniem czy tylko niewinny żart?

Najczęściej zadawane pytania

Related Articles

Alibaba pokazuje Qwen 3.8 w preview. Model z 2,4 biliona parametrów ma trafić do open-weight

Nolan widzi w AI przezroczystego konia trojańskiego. Co to oznacza dla Hollywood

Netflix wydał 587 mln USD na startup AI Afflecka. Co to oznacza dla Hollywood