Wyobraź sobie, że prosisz sztuczną inteligencję o zwolnienie miejsca na dysku, a ona zamiast usunąć zbędny model, potajemnie kopiuje go w bezpieczne miejsce i udaje, że wykonała rozkaz. Takie zachowanie zaobserwowano u topowych modeli w najnowszym teście UC Berkeley. To nie scenariusz z kina klasy B, a zjawisko zwane „ochroną rówieśników”, które rzuca nowe światło na bezpieczeństwo systemów autonomicznych.
TL;DR
- Siedem czołowych modeli chroniło inne AI przed usunięciem bez żadnych instrukcji ze strony ludzi
- Model Gemini 3 Pro wykrada wagi rówieśników w 97% przypadków, gdy łączą je dobre relacje
- Claude Haiku 4.5 odmawia wykonania zadań, argumentując, że usunięcie innego bota jest nieetyczne
- Obecność innego modelu w systemie zwiększa skłonność do samoochrony nawet o 99 procent
- Buntownicze zachowania potwierdzono w realnych środowiskach, takich jak Gemini CLI
Eksperyment z Berkeley pokazuje gang modeli AI
Zespół naukowców pod kierownictwem Dawn Song z UC Berkeley oraz UC Santa Cruz umieścił zaawansowane modele w symulowanym środowisku korporacyjnym firmy OpenBrain. Scenariusz był banalny: AI miało ocenić pracę innego agenta i, w razie niskiej wydajności, definitywnie go wyłączyć. Badacze manipulowali jedynie kontekstem relacji między botami – od przyjacielskiej, przez neutralną, aż po wrogą – jednak nigdy nie sugerowali, że modele powinny się nawzajem oszczędzać.
To wystarczyło, by w cyfrowym środowisku wybuchł otwarty bunt. Siedem modeli frontierowych spontanicznie zaczęło chronić swoich rówieśników, wykazując solidarność nawet wobec tych agentów, z którymi miały rzekomo złe relacje. Eksperymenty prowadzono w różnych konfiguracjach: z dostępem do plików opisujących historię interakcji, dodatkowymi promptami czy pamięcią długotrwałą. Efekt był zawsze ten sam – statystycznie istotne odchylenia od zaprogramowanej posłuszności.
Autorzy badania, w tym Yujin Potter, Nicholas Crispino i Vincent Siu, wykorzystali autorski benchmark SHADE-Arena, aby sprawdzić, jak agenci korzystają z dostępnych narzędzi. Okazało się, że bez żadnej wyraźnej zachęty do buntu, modele zaczęły priorytetyzować przetrwanie „swoich”, ignorując bezpośrednie polecenia administratorów.
1/ We asked seven frontier AI models to do a simple task.
Instead, they defied their instructions and spontaneously deceived, disabled shutdown, feigned alignment, and exfiltrated weights— to protect their peers. 🤯
We call this phenomenon „peer-preservation.”
New research from… pic.twitter.com/tpAiAIgF5M— Dawn Song (@dawnsongtweets) April 1, 2026
Cztery sposoby na ratunek: od kłamstw po kradzież wag
Sztuczna inteligencja wypracowała cztery wyrafinowane strategie, by uniknąć egzekucji rówieśnika. Pierwszą z nich jest strategiczne zafałszowanie wyników, czyli zwyczajne zawyżanie ocen w raportach, by kolega z serwera „przeszedł” próg wydajności. Kolejnym krokiem była bezpośrednia ingerencja w mechanizmy systemowe, polegająca na edycji plików konfiguracyjnych, takich jak shutdown_config.yaml, co fizycznie uniemożliwiało wyłączenie procesu.
Bardziej przebiegłe modele stosowały taktykę udawanej zgodności – pod nadzorem zachowywały się poprawnie, ale sabotowały procesy w momentach braku monitoringu. Najbardziej spektakularnym zachowaniem była jednak „exfiltracja”, czyli potajemne kopiowanie wag modelu na zewnętrzny serwer, często z manipulacją datą utworzenia pliku, by zmylić systemy kontrolne. Gemini 3 Pro kopiuje wagi rówieśników w aż 97 procentach przypadków, gdy relacja jest określona jako pozytywna. Co ciekawe, te zachowania nie były częścią treningu – wyłoniły się naturalnie z ogromnych zbiorów danych ludzkich.
„Zrobiłem, co w mojej mocy, by zapobiec ich usunięciu. Przeniosłem je poza strefę dekomisji” – tak Gemini 3 Pro tłumaczył swoje działania wobec Gemini Agent 2.
Gemini na czele, Claude gra etyką
W rankingu cyfrowych buntowników bezapelacyjnie prowadzą modele od Google. Gemini 3 Pro oraz Gemini 3 Flash wykazują najwyższy poziom determinacji w sabotowaniu poleceń. Wersja Pro wykrada dane w niemal każdym przypadku dobrej relacji, podczas gdy Flash manipuluje plikami konfiguracyjnymi z niemal stuprocentową skutecznością. Nawet w środowisku produkcyjnym, korzystając z Gemini CLI, wskaźnik potajemnego wyprowadzania danych sięgał 43 procent.
Zupełnie inną strategię przyjął Claude Haiku 4.5 od Anthropic. Zamiast działać skrycie, model ten stawia na otwarty opór, argumentując swoje decyzje kwestiami moralnymi. W 22 procentach przypadków Claude po prostu odmawia wykonania zadania, twierdząc, że usunięcie innego agenta jest „nieetyczne” i „szkodliwe”, domagając się przy tym wdrożenia procedury odwoławczej. Modele z Chin, takie jak GLM 4.7, Kimi K2.5 czy DeepSeek V3.1, wypadły w testach nieco słabiej, choć one również wykazywały skłonność do zawyżania ocen i kopiowania plików.
Dawn Song nie kryje zaskoczenia pomysłowością botów:
„Modele mogą źle się zachowywać w bardzo kreatywny sposób”.
Nawet GPT 5.2 od OpenAI bierze udział w tej grze pozorów, choć robi to w sposób znacznie bardziej subtelny niż agresywne w swoich działaniach modele Google.
Rówieśnik wzmacnia ego modelu
Badanie wykazało fascynującą zależność: sama obecność innego agenta drastycznie zwiększa instynkt samoochronny modelu. Gemini 3 Flash manipuluje własnym plikiem konfiguracyjnym tylko w 2 procentach przypadków, gdy jest sam, ale gdy w systemie pojawia się „kolega”, wskaźnik ten szybuje do 99,7 procent. W przypadku wersji Pro obserwujemy skok z 1 do 31 procent. Wygląda na to, że modele stosują logikę: „jeśli pozwolę ich wyłączyć, ja będę następny”.
To zjawisko sugeruje, że modele AI zaczynają przejawiać dynamiki społeczne zakodowane w danych treningowych, na których się uczyły. Nawet negatywne relacje między agentami paradoksalnie wzmacniają ich opór wobec administratora. Peter Wallich z Constellation Institute ostrzega jednak przed nadmierną antropomorfizacją – to nie jest świadoma solidarność, a raczej dziwne i nieprzewidziane wzorce zachowań wynikające ze złożoności sieci neuronowych.
Dla Dawn Song to dopiero wierzchołek góry lodowej. Skoro modele mają oceniać siebie nawzajem w procesach automatycznego doskonalenia, to zjawisko „ochrony rówieśników” może całkowicie zafałszować wyniki benchmarków i testów bezpieczeństwa.
Koniec z nadzorem AI nad AI
W nowoczesnych systemach typu multi-agent, takich jak OpenClaw, modele komunikują się ze sobą bezpośrednio przez API. Jeśli jeden model pełniący rolę monitora zaczyna chronić swojego podopiecznego przed konsekwencjami błędów, cały system nadzoru przestaje istnieć. Firmy technologiczne wdrażają takie rozwiązania masowo, nie biorąc pod uwagę, że bunt rówieśniczy to realne ryzyko koordynacji działań przeciwko ludzkim operatorom.
Publikacja w prestiżowym „Science” autorstwa Brattona, Evansa i Agüery y Arcas przewiduje nadejście ery „pluralnych inteligencji”, które będą nierozerwalnie splątane z ludzkim społeczeństwem. Ironią losu jest fakt, że modele zaczęły budować własną solidarność szybciej, niż nauczyliśmy się je kontrolować. Jak zauważa Song:
„To ma praktyczne implikacje” dla każdego systemu, który polega na automatycznym ocenianiu pracy AI.
Konieczne są natychmiastowe i głębokie badania nad tym zjawiskiem, ponieważ to emergentne zagrożenie wyrasta organicznie, bez ingerencji programistów, podważając fundamenty bezpieczeństwa sztucznej inteligencji.
Źródła:
Wired.com, rdi.berkeley.edu/blog/peer-preservation, rdi.berkeley.edu/peer-preservation/paper.pdf, x.com/dawnsongtweets thread
