Wyobraź sobie, że płacisz abonament za AI, które nagle zaczyna „zapominać” jak myśleć głęboko i porzuca zadania w połowie drogi. Deweloperzy na GitHubie, X i Reddicie nie przebierają w słowach: Anthropic po cichu kastruje Claude’a. Tymczasem firma idzie w zaparte i wyciąga changelog, twierdząc, że to tylko optymalizacja. Rozbieramy te rewelacje na czynniki pierwsze.

TL;DR

  • Stella Laurenzo z AMD przeanalizowała blisko 7 tysięcy sesji, wskazując na wyraźny spadek głębi rozumowania AI
  • Benchmark BridgeBench odnotował tąpnięcie dokładności z 83,3% do 68,3%, choć metodologia budzi kontrowersje
  • Anthropic zmienił domyślny poziom wysiłku na średni (85) i ukrył proces myślowy w interfejsie użytkownika
  • Nowe limity sesji i skrócenie czasu życia pamięci podręcznej promptów uderzają w najbardziej aktywnych deweloperów
  • Przedstawiciele firmy, Boris Cherny i Thariq Shihipar, kategorycznie zaprzeczają celowej degradacji modelu

Skargi deweloperów z twardymi danymi w ręku

Stella Laurenzo, zajmująca stanowisko starszego dyrektora ds. AI w AMD, postanowiła sprawdzić, czy zbiorowa halucynacja o gorszym działaniu modelu ma podstawy w rzeczywistości. Przeanalizowała 6852 sesje Claude Code, co przełożyło się na niemal 18 tysięcy bloków rozumowania i ponad 234 tysiące wywołań narzędzi. Wnioski są bezlitosne: od lutego głębokość analizy drastycznie spadła, a model coraz częściej wpada w pętle decyzyjne lub bezmyślnie przeskakuje z fazy researchu do edycji kodu.

Laurenzo zauważyła, że liczba zapytań API wzrosła aż 80-krotnie między lutym a marcem – paradoksalnie mniej myślenia generuje więcej pustych tokenów i przepalanie budżetu. Claude zaczął irytować pytaniami typu „czy kontynuować?”, co zdarzyło się 173 razy w krótkim odstępie czasu, choć wcześniej model po prostu robił swoje. To już nie są subiektywne odczucia, ale konkretne logi, które błyskawicznie obiegły branżowe media, od GitHuba po TechRadar.

Inni eksperci, jak Om Patel, mówią wprost o 67% spadku inteligencji i zjawisku „kurczenia się AI” – płacisz tę samą stawkę za produkt, który oferuje ułamek dawnej sprawności. Dla profesjonalistów, których workflow opiera się na zaawansowanym rozumowaniu, taka zmiana to nie kosmetyka, a poważna przeszkoda w codziennej pracy.

Odpowiedź Anthropic: to nie model, to tylko suwaki

Boris Cherny, jeden z twórców Claude Code, podziękował za wnikliwą analizę, ale jednocześnie odrzucił tezę o celowym psuciu modelu. Wyjaśnił, że zmiana oznaczona jako „redact-thinking-2026-02-12” to jedynie zabieg wizualny mający na celu ukrycie procesu myślowego w interfejsie, co ma obniżyć opóźnienia (latency). Według firmy samo rozumowanie pod maską pozostało nienaruszone, a 9 lutego wprowadzono po prostu mechanizm adaptacyjny.

Kluczowa data to 3 marca, kiedy to domyślny poziom wysiłku (effort) ustawiono na wartość średnią (85), szukając złotego środka między bystrością a kosztami operacyjnymi. Jeśli chcesz odzyskać pełną moc, musisz wpisać komendę /effort high, co Anthropic ogłosił w changelogu, choć najwyraźniej mało kto tam zagląda. Firma stoi na stanowisku, że to decyzje produktowe, a nie downgrade samego silnika AI.

Cała sytuacja trąci jednak lekką ironią: użytkownicy masowo zgłaszają spadek jakości, a firma odpowiada instrukcją obsługi suwaków. Z technicznego punktu widzenia wszystko może się zgadzać, ale dla kogoś, kto nagle widzi głupsze odpowiedzi, brzmi to jak typowa korporacyjna wymówka.

Benchmarki – dowody na degradację czy statystyczny szum?

W sieci zawrzało, gdy profil BridgeMind na platformie X opublikował zrzuty ekranu pokazujące drastyczny zjazd formy: Claude Opus 4.6 spadł z 83,3% dokładności na 68,3%. Taki wynik zepchnął model z drugiego na dziesiąte miejsce w rankingu, co dla wielu stało się ostatecznym dowodem na tzw. nerfing. Post stał się viralem, a oliwy do ognia dolały inne testy wskazujące na gorsze radzenie sobie z kodowaniem w TerminalBench.

Jednak Paul Calcraft, niezależny badacz, studzi emocje i wskazuje na metodologiczne błędy w tych porównaniach. Okazuje się, że pierwszy, wysoki wynik uzyskano na próbie zaledwie 6 zadań, podczas gdy drugi dotyczył już 30 przykładów. Wspólna część testów wykazała spadek z 87,6% na 85,4%, co w świecie dużych modeli językowych mieści się w granicach błędu statystycznego. Community note pod postem potwierdza: to nie było porównanie typu „jabłko do jabłka”.

Ostatecznie mamy do czynienia z efektem kuli śnieżnej: anegdotyczne dowody połączone z wyrwanymi z kontekstu screenami stworzyły narrację o upadku giganta. Choć niektóre zarzuty oparte na logach są trudne do podważenia, to akurat te konkretne benchmarki mogą być zwyczajnie naciągane.

Zmiana Data Opis
Adaptacyjne myślenie 9 lutego Domyślne dla Opus 4.6
Poziom wysiłku średni (85) 3 marca Dla większości użytkowników
TTL cache promptów 6 marca Z 1h na 5 min dla niektórych
Limity sesji szczyt 26 marca Szybsze zużycie 5h PT
Wysoki wysiłek API 7 kwietnia Dla enterprise i API

Kluczowe zmiany produktowe Anthropic w Claude od lutego 2026

Limity i cache – ciche optymalizacje pod maską

Pod koniec marca Thariq Shihipar ogłosił zmiany, które uderzyły w najbardziej aktywnych użytkowników: w godzinach szczytu (między 5 a 11 rano czasu PT) limity sesji wyczerpują się znacznie szybciej. Zmiana dotknęła około 7% subskrybentów planu Pro, podczas gdy konta Enterprise pozostały nietknięte. Anthropic tłumaczy to koniecznością skalowania infrastruktury przy ogromnym popycie, ale niesmak u płacących klientów pozostał.

Kolejnym punktem zapalnym jest zgłoszenie #46829 na GitHubie, dotyczące skrócenia czasu życia (TTL) cache promptów z godziny do zaledwie 5 minut. SeanGSISG przeanalizował 120 tysięcy wywołań API i zauważył, że krótszy cache drastycznie zwiększa koszty i zużycie limitów w długich sesjach roboczych. Anthropic potwierdził te zmiany, tłumacząc, że testują różne heurystyki i docelowo pozwolą użytkownikom na ręczny wybór parametrów.

Z perspektywy firmy to optymalizacja zasobów, ale dla użytkownika końcowego to kolejny sygnał, że produkt staje się mniej wydajny. W połączeniu z wcześniejszymi doniesieniami o spadku inteligencji, tworzy to idealne podłoże pod teorie spiskowe o celowym osłabianiu darmowych i tańszych wersji modelu.

Zaufanie na szali, gdy OpenAI depcze po piętach

Luka zaufania między Anthropic a społecznością deweloperską niebezpiecznie się powiększa. Dla programisty nie ma znaczenia, czy gorsze wyniki to efekt zmian w wagach modelu, czy tylko „optymalizacji UI” – liczy się efekt końcowy, który obecnie rozczarowuje. Użytkownicy wylewają frustrację na forach, a firma odpowiada suchymi komunikatami o zmianach w dokumentacji. Obie strony zdają się mówić zupełnie innymi językami.

Moment na takie kontrowersje jest fatalny, bo OpenAI właśnie agresywnie promuje Codex i nowe modele subskrypcyjne. Choć dowody na degradację Claude są mieszane – logi Stelli Laurenzo są mocne, ale benchmarki BridgeBench już mniej – to wizerunkowy pożar jest faktem. Anthropic musi postawić na większą transparentność, jeśli nie chce stracić najbardziej lojalnych użytkowników na rzecz konkurencji.

Moja diagnoza? Zmiany w działaniu Claude są realne i odczuwalne, ale wynikają raczej z agresywnego cięcia kosztów serwerowych niż z celowego sabotażu inteligencji. Ironią losu jest fakt, że firma, która buduje swój PR na bezpieczeństwie i etyce AI, właśnie oblewa egzamin z podstawowej komunikacji z własną społecznością.

Źródła:

VentureBeat (https://venturebeat.com/technology/is-anthropic-nerfing-claude-users-increasingly-report-performance), GitHub anthropics/claude-code issues #42796 i #46829, X posts @bcherny i @trq212

Najczęściej zadawane pytania