Wyobraźcie sobie potężne AI, które bez mrugnięcia okiem rozniosło mistrzów świata w Go i szachach, a teraz dostaje srogi łomot w „grę w zapałki” dla przedszkolaków. Najnowsze badanie, którego autorami są Bei Zhou i Soren Riis z Queen Mary University, rzuca nowe światło na to, dlaczego flagowa metoda DeepMind – czyli uczenie ze wzmocnieniem poprzez samogrę – zalicza spektakularną glebę w starciu z grami bezstronnymi, takimi jak Nim. To nie jest złośliwy żart programistów, ale twardy dowód na fundamentalny problem z **rozumowaniem symbolicznym** w nowoczesnych modelach.
TL;DR
- AlphaZero uczy się poprzez samogrę, co czyni go niezwyciężonym w szachach i Go.
- W grze Nim sztuczna inteligencja przestaje robić postępy przy piramidach z siedmiu rzędów.
- Mechanizm grania z samym sobą nie pozwala AI na samodzielne odkrycie funkcji parzystości.
- Słabość ta dotyczy również rzadkich, specyficznych układów w szachach, wymagających długiej logiki.
- Wniosek dla nauki: AI potrzebuje twardego rozumowania symbolicznego, a nie tylko kojarzenia faktów.
Czym jest Nim i dlaczego to klucz do gier bezstronnych?
Nim to banalnie prosta rozgrywka, w której gracze naprzemiennie usuwają zapałki z piramidy – w górnym rzędzie jest jedna, a każdy kolejny ma o dwie więcej. Zasada jest prosta: wybierasz jeden rząd i zabierasz z niego dowolną liczbę elementów (od jednego do wszystkich), aż Twój przeciwnik zostanie bez możliwości ruchu. Tego schematu można nauczyć pięciolatka w dwie minuty, a jednak duma DeepMind cierpi tu katusze.
Gry bezstronne, do których zalicza się Nim, różnią się od szachów jedną kluczową kwestią: obaj zawodnicy mają do dyspozycji dokładnie te same opcje ruchu i nie posiadają „własnych” pionków. Teorema Spraguesa-Grueyego udowadnia, że każdą pozycję w takiej grze można sprowadzić do konfiguracji z Nim. Wniosek jest brutalny: jeśli algorytm wykłada się na Nim, to psuje się w każdej grze bezstronnej – od tych najprostszych po najbardziej złożone struktury.
W dowolnym momencie partii Nim da się matematycznie określić, kto wygrywa przy optymalnej strategii. Wystarczy do tego funkcja parzystości, która oblicza sumę XOR bitów reprezentujących liczbę zapałek w rzędach. Jeśli wynik to zero – jesteś na pozycji przegranej; jeśli nie-zero – wygrasz, o ile nie popełnisz błędu.
Jak AlphaZero uczy się mistrzostwa w szachach i Go?
AlphaZero to zawodnik, który startuje z czystą kartą – zna tylko reguły gry, bez wglądu w historyczne partie ludzi. System rozgrywa tysiące partii z samym sobą, ucząc się kojarzyć konkretne ustawienia na planszy z szansą na ostateczny triumf. Element losowości chroni go przed wpadnięciem w pętlę tych samych schematów, a gdy już namierzy obiecujące ruchy, zaczyna agresywnie zgłębiać drzewo możliwości.
Z każdą kolejną partią model coraz precyzyjniej szacuje wartość danej pozycji. W świecie szachów i Go ta metoda czyni cuda: po milionach iteracji AI bez litości ogrywa takie legendy jak Stockfish czy Lee Sedol. Jednak autorzy wspomnianego badania postawili prowokacyjne pytanie: co z grą Nim? Czy mechanizm samogry pozwoli AI na samodzielne wypracowanie funkcji parzystości?
Szybko wyszło na jaw, że odpowiedź brzmi: nie. W Nim liczba optymalnych ruchów jest bardzo ograniczona – jeden fałszywy krok i oddajesz pełną kontrolę nad wynikiem. AI musi to „odkryć” wyłącznie poprzez analizę rezultatów, całkowicie bez matematycznego wglądu w strukturę problemu.
Eksperymenty: od obiecującej poprawy do całkowitego zastoju
Duet badawczy Bei Zhou i Soren Riis rzucił algorytm AlphaZero na głęboką wodę gry Nim. Przy małej piramidzie składającej się z pięciu rzędów, sztuczna inteligencja uczyła się sprawnie i notowała progres nawet po 500 iteracjach treningowych. Problemy zaczęły się po dołożeniu szóstego rzędu – wtedy tempo nauki wyhamowało niemal do zera.
Kiedy jednak na stole pojawiło się siedem rzędów, po 500 sesjach treningowych postęp zatrzymał się całkowicie. Żeby sprawdzić skalę porażki, badacze podmienili moduł oceniający ruchy na całkowicie losowy generator – wyniki były identyczne. Oznacza to, że AI przestało odróżniać ruchy prowadzące do zwycięstwa od tych gwarantujących porażkę, traktując je z taką samą (niską) trafnością.
Sytuacja stała się wręcz komiczna: początkowy układ siedmiorzędowej piramidy oferuje trzy ścieżki do wygranej, ale „wytrenowany” model uznał je za tak samo dobre (lub złe) jak wszystkie inne. To dobitnie pokazuje, że system osiągnął sufit i przestał wyciągać jakiekolwiek wnioski z obserwacji wyników.
| Rozmiar piramidy | Poprawa po 500 iteracjach | Porównanie z losowymi ruchami |
|---|---|---|
| 5 rzędów | Szybka i ciągła | Lepsze od losowych |
| 6 rzędów | Dramatycznie zwalnia | Znacznie lepsze |
| 7 rzędów | Zatrzymana całkowicie | Identyczne wyniki |
Porównanie efektywności treningu AlphaZero w Nim dla różnych rozmiarów piramid.
Porównując to z wynikami osiąganymi przez czysty przypadek, różnica była niezauważalna – potężne AI stało się w tym kontekście kompletnie bezużyteczne.
Przyczyna klęski: brak rozumowania symbolicznego
AlphaZero to absolutny mistrz uczenia asocjacyjnego – potrafi genialnie łączyć stany gry z przewidywanym wynikiem. Jednak Nim to inna para kaloszy; tutaj wymagane jest zrozumienie funkcji parzystości jako uniwersalnej zasady, a nie tylko zapamiętywanie wizualnych wzorców. Mówimy tu o rozumowaniu symbolicznym, którego mechanizm samogry po prostu nie jest w stanie wygenerować z próżni.
W szachach czy Go pozycje przypominające mechanikę Nim występują rzadko, a AI zazwyczaj omija te pułapki dzięki potężnej mocy obliczeniowej i symulowaniu wielu ruchów do przodu. W Nim jednak optymalną ścieżkę trzeba przejść bezbłędnie do samego końca, by system mógł przypisać jej jakąkolwiek wartość, co w praktyce uniemożliwia naukę na wczesnym etapie.
Autorzy raportu słusznie zauważają, że nawet w szachach modele te początkowo fatalnie oceniają sytuacje matujące czy skomplikowane końcówki, ratując się jedynie głębokim przeszukiwaniem drzewa ruchów. W przypadku Nim ta „proteza” nie wystarcza, co prowadzi do katastrofalnego błędu systemowego.
Implikacje dla AI w grach i matematyce
Problem nie kończy się na zapałkach. Eksperci od szachów już wcześniej znajdowali sekwencje matujące wymagające tak długich łańcuchów logicznych, że AlphaZero po prostu je ignorowało. Podobne anomalie widać w Go – istnieją pozycje, w których AI przegrywa z amatorami, mimo że wcześniej pokonało najlepsze systemy na świecie. Pozory sukcesu ratuje jedynie fakt, że takie konfiguracje zdarzają się na planszy niezwykle rzadko.
Zhou i Riis stawiają sprawę jasno:
AlphaZero uczy się przez asocjacje, ale zawodzi przy problemach wymagających symbolicznego rozumowania.
To nie jest drobny błąd, ale konkretna, strukturalna słabość uczenia ze wzmocnieniem, która może mieć ogromne znaczenie dla przyszłości technologii.
Dlaczego powinniśmy się tym przejmować? Obecnie mnóstwo badań testuje możliwości AI w dziedzinie matematyki, gdzie reguły takie jak parzystość są fundamentem. Wiemy już, że sama metoda „graj ze sobą, aż zrozumiesz” tutaj nie zadziała. Potrzebujemy nowych podejść, bo bez integracji symboliki sztuczna inteligencja zawsze utknie na poziomie prostych łamigłówek. A propos wyzwań logicznych, ChatGPT radzi sobie z problemami Erdősa, ale czy to faktycznie zrozumienie symboli, czy po prostu statystyczny fart?
Źródła: Ars Technica (główne źródło), arXiv:2205.12787 (papier Zhou & Riis), Machine Learning DOI:10.1007/s10994-026-06996-1
