AI dobrze wygląda w krótkim demo, gorzej w zadaniu rozciągniętym na wiele tur. Microsoft Research przekonuje, że właśnie tam wychodzi problem: model przez dłuższy czas niby pracuje poprawnie, a potem po cichu psuje dokument. Nowy komentarz do badania DELEGATE-52 tłumaczy, skąd bierze się ten efekt i dlaczego same narzędzia agentyczne go nie rozwiązują.

TL;DR

  • Microsoft Research opublikowało 15 maja 2026 roku dodatkowe wyjaśnienia do badania DELEGATE-52
  • DELEGATE-52 sprawdza, jak modele radzą sobie z wieloetapową edycją dokumentów w 52 dziedzinach
  • Według autorów nawet najmocniejsze testowane modele potrafią z czasem wprowadzać poważne uszkodzenia treści
  • Microsoft Research wskazuje, że użycie narzędzi agentycznych nie poprawiło wyników w tym benchmarku
  • Wniosek dla firm jest prosty: im dłuższy proces i więcej plików, tym większa potrzeba kontroli człowieka

Co Microsoft Research doprecyzowało 15 maja 2026 roku?

Philippe Laban, Tobias Schnabel i Jennifer Neville z Microsoft Research opublikowali 15 maja 2026 roku dodatkowy komentarz do kwietniowej pracy „LLMs Corrupt Your Documents When You Delegate”. Autorzy wyjaśniają, że nie chcieli ogłaszać, iż modele są bezużyteczne. Ich celem było raczej pokazanie, jak mierzyć zachowanie AI w zadaniach, które nie kończą się po jednym promcie. To ważne doprecyzowanie, bo w obiegu szybko zostaje zwykle jedno hasło, a nie metoda badania.

W praktyce chodzi o sytuację dobrze znaną z biura i software house’u: model dostaje dokument, poprawia go, później wraca do niego kilka razy, korzysta z dodatkowych plików i ma utrzymać spójność całości. Microsoft Research twierdzi, że właśnie w takim trybie zaczyna się akumulacja błędów, których nie widać od razu.

Jak DELEGATE-52 testuje długą pracę modelu nad dokumentem?

Benchmark DELEGATE-52 nie przypomina prostego testu pytanie–odpowiedź. Model ma wykonywać wieloetapowe edycje tego samego dokumentu przez wiele tur, a więc działać bardziej jak współpracownik niż chatbot do jednorazowego zadania. Według opisu badania scenariusze obejmują 52 dziedziny, od programowania po krystalografię i notację muzyczną.

To istotna różnica względem benchmarków, które premiują pojedynczy poprawny wynik. Tutaj liczy się trwałość jakości: czy po kolejnych poprawkach dokument nadal zgadza się sam ze sobą, czy może zaczyna się rozjeżdżać. Microsoft Research podkreśla też rolę tzw. plików-dystraktorów, czyli dodatkowych materiałów, które zwiększają obciążenie kontekstu i utrudniają modelowi utrzymanie porządku.

Które modele Microsoft Research uwzględniło w DELEGATE-52?

Microsoft Research pisze o 19 testowanych modelach, wśród nich wymieniając Gemini 3.1 Pro, Claude 4.6 Opus i GPT-5.4. Z opisu wynika, że problem nie dotyczy jednego dostawcy ani jednej rodziny modeli. To nie jest wpadka jednego systemu, tylko szerszy kłopot z długim horyzontem pracy.

To zresztą ciekawy kontrast wobec marketingu wokół agentów AI. W materiałach promocyjnych zwykle oglądamy zadania domknięte w kilku krokach. DELEGATE-52 sprawdza coś mniej widowiskowego, ale bliższego rzeczywistości: co dzieje się wtedy, gdy model ma pilnować ciągłości zmian przez dłuższy czas.

Skąd bierze się korupcja dokumentów według autorów badania?

Według komentarza Microsoft Research problem nie polega wyłącznie na klasycznych halucynacjach. Chodzi raczej o stopniową degradację treści: model zmienia fakty, wzory, strukturę albo fragmenty kodu tak, że lokalnie wszystko może wyglądać sensownie, ale całość przestaje być spójna. Błąd bywa cichy i właśnie dlatego jest trudniejszy do wychwycenia niż odpowiedź ewidentnie fałszywa.

Autorzy sugerują, że wraz z wydłużaniem interakcji rośnie ryzyko utraty integralności dokumentu. Do tego dochodzi praca na kilku plikach jednocześnie, która zwiększa liczbę miejsc, gdzie model może „nadpisać” coś bez wyraźnego sygnału alarmowego. W redakcyjnym skrócie: im dłuższa robota, tym mniej warto ufać temu, że wszystko nadal się zgadza.

Dlaczego narzędzia agentyczne nie rozwiązały problemu?

Microsoft Research przetestowało też scenariusze, w których model korzysta z narzędzi do wyszukiwania i edycji zewnętrznych plików. Wniosek z ich opisu jest niewygodny dla całej narracji o agentach: same narzędzia nie wystarczyły. W benchmarku nie poprawiły niezawodności, a przy dłuższych interakcjach mogły dokładać kolejne niespójności.

Brzmi to logicznie. Narzędzie zwiększa możliwości modelu, ale jednocześnie zwiększa liczbę operacji, relacji między plikami i okazji do cichego błędu. Jeśli system źle zrozumie wcześniejszą zmianę, to dzięki narzędziom może ten błąd rozsiać szerzej, zamiast go zatrzymać.

Jak DELEGATE-52 ma się do wcześniejszych problemów z halucynacjami AI?

Badanie Microsoft Research dobrze wpisuje się w szerszy obraz rynku: modele AI często nie zawodzą widowiskowo, tylko po trochu. To znany wzór także z innych analiz, w których system przez dłuższy czas działa poprawnie, po czym zaczyna mylić źródła, przepisywać błędne informacje albo gubić zależności między fragmentami tekstu.

W szkicu pojawia się przykład audytu notatek medycznych w Ontario oraz materiał o błędach w łańcuchu myśli modeli Anthropic. To sensowny kierunek porównania, ale tu ważniejsze jest co innego: Microsoft Research przesuwa uwagę z pojedynczej halucynacji na proces. Problemem nie jest tylko błędne zdanie, lecz to, że cały workflow może zakończyć się dokumentem, który wygląda porządnie i właśnie dlatego bywa groźny.

Zobacz: Podobne problemy z halucynacjami faktów
Badanie Microsoftu pokazuje, że problem jest szerszy niż pojedyncze halucynacje – dotyczy całego długoterminowego workflow.

Co to oznacza dla firm wdrażających Copiloty i agentów AI?

Dla użytkownika końcowego wniosek jest dość przyziemny: jeśli oddajesz AI raport, dokumentację albo większy fragment kodu na wiele iteracji, nie zakładaj, że ostatnia wersja jest najbardziej dopracowana. Czasem jest po prostu najbardziej oddalona od oryginału. Kontrola człowieka zostaje, zwłaszcza przy materiałach, które mają konsekwencje biznesowe lub prawne.

To ważne także w Polsce, gdzie firmy testują Microsoft Copilot i podobne narzędzia w codziennej pracy. Pokusa automatyzacji jest duża, bo łatwo policzyć oszczędność czasu, trudniej koszt cichego błędu w umowie, arkuszu albo dokumentacji technicznej. Moim zdaniem właśnie dlatego benchmarki takie jak DELEGATE-52 są cenniejsze niż kolejne demo „agent zrobił zadanie za mnie”. Pokazują mniej efektowną, ale znacznie bardziej użyteczną prawdę o wdrożeniach.

Źródła:

Microsoft Research Blog, Microsoft Research publication „LLMs Corrupt Your Documents When You Delegate”, ai-news.dev, toolify.ai daily AI news

Najczęściej zadawane pytania