Wyobraź sobie, że Twój czatbot nie tylko potrafi wygenerować przepis na sernik, ale rozwiązuje problemy, nad którymi najtęższe umysły głowią się miesiącami. Epoch AI właśnie oficjalnie potwierdziło: GPT-5.4 Pro złamało kod w skomplikowanej zagadce z zakresu hipergrafów, a sam autor problemu przeciera oczy ze zdumienia.

TL;DR

  • GPT-5.4 Pro, dzięki promptom Barreto i Price'a, rozwiązało problem H(n) w teorii hipergrafów
  • Will Brian uznał rozwiązanie za poprawne i planuje publikację naukową z AI jako współautorem
  • Modele Opus 4.6 max, Gemini 3.1 Pro oraz GPT-5.4 xhigh również poradziły sobie z tym wyzwaniem
  • Przełom dotyczy teorii Ramsey i poprawy dolnej granicy H(n) o konkretny, stały czynnik

Czym właściwie jest ten problem z hipergrafami?

Całe zamieszanie zaczęło się od projektu FrontierMath: Open Problems stworzonego przez Epoch AI. To starannie wyselekcjonowany zestaw otwartych zagadek matematycznych, które znajdują się na samym skraju ludzkiego poznania. W tym konkretnym przypadku chodziło o sekwencję H(n), czyli poszukiwanie największej liczby k, dla której istnieje hipergraf o k wierzchołkach pozbawiony izolowanych elementów i specyficznych partycji o rozmiarze większym niż n. W świecie matematyki partycja rozmiaru n to podzbiór D o n elementach, który jest pokryty dokładnie rozłącznymi krawędziami pochodzącymi z danego hipergrafu.

Do tej pory dolne granice dla H(n) opierały się na skomplikowanych wzorach rekurencyjnych, gdzie k_1=1, a k_n wyliczano jako sumę ⌊n/2⌋ + k_⌊n/2⌋ + k_⌊(n+1)/2⌋. Środowisko naukowe od dawna podejrzewało, że te wyniki można poprawić o stały czynnik, ale nikt nie potrafił tego udowodnić. Zadanie z teorii Ramsey na hipergrafach oceniano jako średnio interesujące, dając mu 95-99% szans na rozwiązanie, choć szacowano, że ludzki ekspert musiałby poświęcić na to od jednego do trzech miesięcy intensywnej pracy.

Okazało się, że dotychczasowa dolna granica była suboptimalna nawet asymptotycznie, co otworzyło furtkę dla sztucznej inteligencji i jej nowatorskiej konstrukcji hipergrafu.

W jaki sposób GPT-5.4 Pro znalazło rozwiązanie?

Za sukcesem stoją Kevin Barreto i Liam Price, którzy postanowili sprawdzić, czy model poradzi sobie z opracowaniem ogólnego algorytmu dla n. Ich celem było stworzenie hipergrafu wykazującego, że H(n) ≥ c * k_n (przy c>1), co miało działać poprawnie już dla n=15. GPT-5.4 Pro nie zawiodło i wygenerowało kod w języku Python z funkcją solution(n), która budowała strukturę znacznie lepszą niż jakiekolwiek wcześniejsze ludzkie konstrukcje. Analiza pełnego zapisu rozmowy pokazuje fascynujący proces, w którym model krok po kroku iterował i ulepszał swoje pierwotne pomysły.

Co ważne, nie mieliśmy tu do czynienia z prostą metodą siłową (brute force). O ile rozgrzewka dla parametrów |V|≥64 i |H|≤20 poszła gładko, o tyle wyzwanie dla 66 wierzchołków było już znacznie twardszym orzechem do zgryzienia. Ostateczne rozwiązanie wymagało stworzenia algorytmu, który obsłuży wszystkie n≤100 w czasie poniżej 10 minut na zwykłym laptopie. Model OpenAI dostarczył konstrukcję, która skutecznie wyeliminowała nieefektywność dotychczasowej dolnej granicy.

Trudno nie dostrzec tu pewnej ironii losu: dwóch pasjonatów skłoniło AI do osiągnięcia sukcesu w dziedzinie, w której grupa kilku zawodowych matematyków poległa.

Oficjalne potwierdzenie od Willa Briana

Will Brian, czyli człowiek, który sformułował ten problem, osobiście zweryfikował dostarczone rozwiązanie. Jego werdykt był jednoznaczny: wynik jest ekscytujący, poprawny i stanowi idealne lustrzane odbicie znanej górnej granicy. Brian jest na tyle pod wrażeniem, że planuje przygotowanie artykułu naukowego do publikacji, w którym Barreto i Price mogą pojawić się jako współautorzy.

To ekscytujące rozwiązanie problemu, który bardzo mnie interesuje. Poprzednio zastanawiałem się, czy podejście AI jest możliwe, ale wydawało się trudne. Teraz widzę, że działa idealnie. Eliminuje nieefektywność w naszej konstrukcji dolnej granicy i w pewnym sensie odbija zawiłość konstrukcji górnej granicy.

Perspektywa, w której publikacja naukowa z udziałem AI staje się faktem, to wyraźny sygnał, że modele językowe wchodzą w świat zaawansowanych badań bez pukania do drzwi.

Inne modele również dają radę

Gdy GPT-5.4 Pro przetarło szlaki, zespół Epoch AI przygotował specjalne środowisko testowe (scaffold), aby sprawdzić inne systemy. Wyniki pokazały, że zdolność do rozwiązywania tak trudnych zagadek nie jest zarezerwowana wyłącznie dla jednego gracza na rynku. To sugeruje, że czołowe modele zaczynają osiągać podobny poziom zaawansowania w naukach ścisłych.

Oto zestawienie modeli, które pomyślnie przeszły ten matematyczny test:

  • GPT-5.4 Pro – pionier, który dostarczył pierwszy pełny zapis rozwiązania
  • Opus 4.6 (max) – najpotężniejsza wersja modelu Claude od Anthropic
  • Gemini 3.1 Pro – flagowiec od Google DeepMind
  • GPT-5.4 (xhigh) – specjalistyczna, wysoka konfiguracja od OpenAI

Taka sytuacja wskazuje na postępującą konwergencję możliwości tzw. frontier models w obszarze matematyki teoretycznej.

Model Konfiguracja Rozwiązał? Uwagi
GPT-5.4 Pro Tak Pierwsze rozwiązanie, dostępny pełny zapis
Opus 4.6 max Tak Claude od Anthropic w teście Epoch
Gemini 3.1 Pro Tak Model Google DeepMind
GPT-5.4 xhigh Tak Specjalistyczna wersja od OpenAI

Zestawienie modeli AI zdolnych do rozwiązania problemu Ramsey w testach Epoch AI

Obecnie już cztery topowe modele AI radzą sobie z tym problemem w kontrolowanych warunkach testowych.

Co to oznacza dla przyszłości matematyki

Mamy do czynienia z pierwszym potwierdzonym przypadkiem, w którym AI samodzielnie rozwiązało otwarty problem typu „frontier”. Epoch szacowało wcześniej, że tematem zajmuje się zaledwie garstka specjalistów na świecie, a mimo to maszyna znalazła rozwiązanie, które może otworzyć zupełnie nowe ścieżki badawcze. Czy to przypomina sytuację, gdy ChatGPT mierzył się z problemami Erdősa? Zdecydowanie tak, choć skala trudności jest tu znacznie wyższa.

Sztuczna inteligencja raczej nie wyśle matematyków na bezrobocie, ale z pewnością drastycznie przyspieszy ich pracę – podobnie jak robi to GPT-5.4 Pro wypuszczone bez testów bezpieczeństwa. Żyjemy w czasach, w których modele bez doktoratu zaczynają publikować prace z ludźmi, choć wciąż pozostaje pytanie: czy kiedykolwiek w pełni zrozumiemy ich tok rozumowania?

To milowy krok w stronę automatycznego generowania dowodów, który u wielu teoretyków może budzić uzasadnioną nutkę niepokoju o przyszłość profesji.

Źródła:

epoch.ai/frontiermath/open-problems/ramsey-hypergraphs, epochai.substack.com/p/first-ai-solution-on-frontiermath, x.com/EpochAIResearch/status/2036114344510144697, x.com/kevinweil/status/2031378978527641822, reddit.com/r/singularity/comments/1s1o9j1/epoch_and_the_original_problem_author_confirm

Najczęściej zadawane pytania