Wyobraź sobie, że model językowy od OpenAI radzi sobie z przepisami lepiej niż doświadczeni sędziowie federalni w USA. Nowa publikacja badawcza rzuca światło na to, jak GPT-5 wykręcił perfekcyjne wyniki w teście rozumowania prawnego, podczas gdy ludzie w togach mylili się niemal w połowie przypadków. Czy to jasny sygnał, że era nieomylnych ludzkich sędziów powoli dobiega końca, a sprawiedliwość przejmie algorytm?

TL;DR

  • GPT-5 osiągnął 100% zgodności z „prawidłowym” wynikiem prawnym w eksperymencie zreplikowanym na 61 sędziach federalnych.
  • Sędziowie federalni trafili poprawnie tylko w 52% przypadków, wykładając się głównie na technicznych kwestiach jurysdykcji.
  • Badanie skupiało się na chłodnych, formalnych decyzjach (np. wypadki drogowe), pomijając empatię czy uznaniowość.
  • Sceptycy podkreślają, że sztucznej inteligencji brakuje ludzkiego wyczucia sprawiedliwości wykraczającego poza sztywne paragrafy.
  • Gorąca debata na Hacker News uwypukla starcie „krzemowego formalizmu” z elastycznością ludzkiego orzecznictwa.

Co dokładnie przetestowano w eksperymencie?

Badacze postanowili zreplikować klasyczny eksperyment, który dekadę temu przeprowadzono na grupie 61 sędziów federalnych w USA. Oryginalny test sprawdzał, jak decydenci radzą sobie z dość prostymi, technicznymi zagadnieniami prawnymi, takimi jak ustalenie właściwej jurysdykcji czy wybór odpowiedniego prawa w sporach dotyczących wypadków samochodowych. Tym razem w roli sędziego obsadzono GPT-5, który musiał przeanalizować dokładnie te same scenariusze.

Model od OpenAI nie tylko poradził sobie z zadaniem, ale zrobił to w sposób absolutnie bezbłędny – w 100% przypadków wydał werdykt zgodny z literą prawa. Dla porównania, prawdziwi sędziowie federalni w pierwotnym badaniu trafili w sedno tylko w 52% sytuacji. To dobitnie pokazuje, jak sztuczna inteligencja potrafi konsekwentnie stosować narzucone reguły, bez wahania, uprzedzeń czy zwykłego ludzkiego zmęczenia materiału.

Warto jednak zaznaczyć, że eksperyment nie obejmował wielowątkowych spraw wymagających oceny wiarygodności świadków czy rozstrzygania dylematów etycznych. Skupiono się na czystym formalizmie prawnym, gdzie liczy się wyłącznie ścisła i logiczna interpretacja obowiązujących przepisów.

Dlaczego sędziowie federalni zawiedli w 48% przypadków?

Sędziowie, mimo lat doświadczenia na karku, często porzucali sztywne ramy przepisów na rzecz tzw. dyskrecji sędziowskiej. W zadaniach dotyczących wyboru prawa („choice-of-law”) czy jurysdykcji, ludzie podświadomie wprowadzali dodatkowe zmienne, takie jak subiektywne poczucie sprawiedliwości czy szerszy kontekst społeczny. Niestety, w tym konkretnym teście prowadziło to do błędów w starciu z „idealnym” formalizmem.

Z punktu widzenia prawa anglosaskiego, gdzie orzecznictwo buduje się oddolnie, taka elastyczność ma głęboki sens – sędziowie mogą korygować absurdalne przepisy lub wykazać się empatią. Jednak w suchych testach wychodzi to na ich niekorzyść: aż 48% decyzji nie wpasowało się w sztywny klucz odpowiedzi. Tymczasem GPT-5, nie mając „gorszego dnia” ani emocji, po prostu chłodno kalkulował reguły, nie dopuszczając żadnych odstępstw od normy.

Ironia całej sytuacji polega na tym, że ci sami sędziowie, którzy decydują o ludzkiej wolności, potrafią pogubić się w proceduralnych podstawach, podczas gdy maszyna wykazuje się niemal nieludzką nieomylnością w rutynowych zadaniach.

Mocne strony GPT-5 w rozumowaniu prawnym

GPT-5 wyróżnia się przede wszystkim żelazną konsekwencją – model zawsze trzyma się litery prawa, będąc odpornym na osobiste uprzedzenia czy ryzyko korupcji. W dyskusjach na portalu Hacker News zjawisko to ochrzczono mianem „krzemowego formalizmu”, który wydaje się idealny do automatyzacji powtarzalnych decyzji administracyjnych. Model genialnie radzi sobie z dopasowywaniem wzorców w gąszczu precedensów i przepisów, co znacznie przewyższa możliwości ludzkiej pamięci.

W zestawieniu z innymi sprawdzianami prawnymi, takimi jak benchmark APEX-Agents, gdzie agenci AI często gubią się w złożonych zadaniach profesjonalistów, GPT-5 wypada wręcz rewelacyjnie. Podobne testy dowodzą, że w prostych scenariuszach sztuczna inteligencja już teraz dominuje nad człowiekiem, choć przy bardziej wielowymiarowych problemach wciąż miewa problemy z logiką.

Takie wyniki otwierają szeroko drzwi dla narzędzi wspomagających pracę sądów. AI mogłoby służyć jako system weryfikujący błędy poznawcze sędziów lub narzędzie do błyskawicznej analizy tysięcy stron akt.

Słabości AI i dlaczego sędziowie wciąż wygrywają

Krytycy na forach technologicznych słusznie zauważają, że te 100% skuteczności GPT-5 to w pewnym sensie iluzja – test badał jedynie powierzchowny formalizm, a nie istotę prawdziwego sądownictwa. Sztuczna inteligencja wciąż nie radzi sobie z niuansami, takimi jak konflikty norm czy dylematy moralne – przykładem może być chęć przyznania pełnego odszkodowania ofierze mimo sztywnych limitów prawnych. Maszynie brakuje empatii – sędzia bierze na siebie ciężar odpowiedzialności za wyrok, model zaś nie ponosi żadnych konsekwencji.

W komentarzach często pojawia się argument, że sędziowie celowo naginają reguły w imię wyższej sprawiedliwości, np. w kontrowersyjnych sprawach dotyczących sextingu nastolatków, które prawo mogłoby z automatu zakwalifikować jako pedofilię. Istnieje też ryzyko, że GPT-5, trenowany na ogromnych zbiorach danych, po prostu „zapamiętał” poprawne odpowiedzi z oryginalnego badania, nie rozumiejąc ich sensu. Widmo halucynacji czy ukrytych uprzedzeń w danych treningowych wciąż pozostaje realnym zagrożeniem.

Podsumowując: AI jest genialne w rutynie, ale bez ludzkiego wyczucia i kompasu moralnego pozostaje jedynie zaawansowaną maszyną do mielenia paragrafów.

Co to oznacza dla sądów i przyszłości prawa?

Ten eksperyment na nowo rozpala debatę: czy warto zastąpić sędziów systemami AI w imię wyższej efektywności? Entuzjaści widzą w GPT-5 idealne narzędzie do wykonywania „czarnej roboty” i przygotowywania projektów wyroków, od których człowiek mógłby się odwołać. Przeciwnicy z kolei drżą przed wizją dehumanizacji wymiaru sprawiedliwości i utraty jego społecznej legitymizacji – bo jak zaufać algorytmowi, który nie zna pojęcia litości?

W USA już teraz stosuje się systemy takie jak COMPAS do szacowania ryzyka recydywy, co budzi ogromne kontrowersje przez wzgląd na stronniczość algorytmów. GPT-5 mógłby stać się „bezpiecznikiem” sprawdzającym pracę sędziów, ale pełna automatyzacja to wciąż pieśń przyszłości z nutką ironii – sytuacja, w której prawnicy bez serca przegrywają z maszynami bez sumienia, wydaje się aż nazbyt realna.

Ostatecznie zmierzamy w stronę sądów hybrydowych. W takim modelu sztuczna inteligencja zajmie się filtrowaniem faktów i procedurami, a ostateczna decyzja o tym, co jest sprawiedliwe, pozostanie w rękach człowieka.

Źródła: https://papers.ssrn.com/sol3/papers.cfm?abstract_id=6155012 (Silicon Formalism: Rules, Standards, and Judge AI); dyskusja: https://news.ycombinator.com/item?id=46982792

Najczęściej zadawane pytania