Czy Anthropic naprawdę celowo osłabia model Claude?

Firma kategorycznie zaprzecza i tłumaczy zmiany optymalizacją kosztów oraz opóźnień (latency). Wskazują na jawne zmiany, takie jak domyślny średni poziom wysiłku czy ukrywanie procesu myślenia w interfejsie.

Dlaczego wyniki w benchmarkach Claude Opus 4.6 spadły?

W przypadku BridgeBench spadek wynikał z porównania różnych zestawów danych (6 zadań vs 30). Przy analizie tych samych przykładów różnica była minimalna i mieściła się w granicach błędu statystycznego.

Jak przywrócić pełną moc obliczeniową w Claude Code?

Aby wymusić głębsze rozumowanie, należy użyć komendy /effort high w terminalu. Warto też śledzić zapowiedzi dotyczące nowych zmiennych środowiskowych dla pamięci podręcznej (cache).

O co chodzi w analizie Stelli Laurenzo z AMD?

Laurenzo wykazała w logach spadek głębi rozumowania i częstsze pętle myślowe modelu od lutego. Anthropic twierdzi jednak, że to efekt zmian w produkcie, a nie degradacja samego modelu bazowego.

Anthropic zmienia Claude po cichu. Użytkownicy widzą spadek formy

Wyobraź sobie, że płacisz abonament za AI, które nagle zaczyna „zapominać” jak myśleć głęboko i porzuca zadania w połowie drogi. Deweloperzy na GitHubie, X i Reddicie nie przebierają w słowach: Anthropic po cichu kastruje Claude’a. Tymczasem firma idzie w zaparte i wyciąga changelog, twierdząc, że to tylko optymalizacja. Rozbieramy te rewelacje na czynniki pierwsze.

TL;DR

Stella Laurenzo z AMD przeanalizowała blisko 7 tysięcy sesji, wskazując na wyraźny spadek głębi rozumowania AI
Benchmark BridgeBench odnotował tąpnięcie dokładności z 83,3% do 68,3%, choć metodologia budzi kontrowersje
Anthropic zmienił domyślny poziom wysiłku na średni (85) i ukrył proces myślowy w interfejsie użytkownika
Nowe limity sesji i skrócenie czasu życia pamięci podręcznej promptów uderzają w najbardziej aktywnych deweloperów
Przedstawiciele firmy, Boris Cherny i Thariq Shihipar, kategorycznie zaprzeczają celowej degradacji modelu

Skargi deweloperów z twardymi danymi w ręku

Stella Laurenzo, zajmująca stanowisko starszego dyrektora ds. AI w AMD, postanowiła sprawdzić, czy zbiorowa halucynacja o gorszym działaniu modelu ma podstawy w rzeczywistości. Przeanalizowała 6852 sesje Claude Code, co przełożyło się na niemal 18 tysięcy bloków rozumowania i ponad 234 tysiące wywołań narzędzi. Wnioski są bezlitosne: od lutego głębokość analizy drastycznie spadła, a model coraz częściej wpada w pętle decyzyjne lub bezmyślnie przeskakuje z fazy researchu do edycji kodu.

Laurenzo zauważyła, że liczba zapytań API wzrosła aż 80-krotnie między lutym a marcem – paradoksalnie mniej myślenia generuje więcej pustych tokenów i przepalanie budżetu. Claude zaczął irytować pytaniami typu „czy kontynuować?”, co zdarzyło się 173 razy w krótkim odstępie czasu, choć wcześniej model po prostu robił swoje. To już nie są subiektywne odczucia, ale konkretne logi, które błyskawicznie obiegły branżowe media, od GitHuba po TechRadar.

Inni eksperci, jak Om Patel, mówią wprost o 67% spadku inteligencji i zjawisku „kurczenia się AI” – płacisz tę samą stawkę za produkt, który oferuje ułamek dawnej sprawności. Dla profesjonalistów, których workflow opiera się na zaawansowanym rozumowaniu, taka zmiana to nie kosmetyka, a poważna przeszkoda w codziennej pracy.

we weren’t wrong about Opus getting weaker

Opus 4.6 is ranked #2 on this hallucination benchmark with 87.6 and 83.3% accuracy.

the April 12 version of the same model is #10.

score dropped to 73.3 and accuracy dropped to 68.3% with the fabrication rate nearly doubling from… pic.twitter.com/lEYIYzedSR

— Om Patel (@om_patel5) April 14, 2026

Odpowiedź Anthropic: to nie model, to tylko suwaki

Boris Cherny, jeden z twórców Claude Code, podziękował za wnikliwą analizę, ale jednocześnie odrzucił tezę o celowym psuciu modelu. Wyjaśnił, że zmiana oznaczona jako „redact-thinking-2026-02-12” to jedynie zabieg wizualny mający na celu ukrycie procesu myślowego w interfejsie, co ma obniżyć opóźnienia (latency). Według firmy samo rozumowanie pod maską pozostało nienaruszone, a 9 lutego wprowadzono po prostu mechanizm adaptacyjny.

Kluczowa data to 3 marca, kiedy to domyślny poziom wysiłku (effort) ustawiono na wartość średnią (85), szukając złotego środka między bystrością a kosztami operacyjnymi. Jeśli chcesz odzyskać pełną moc, musisz wpisać komendę /effort high, co Anthropic ogłosił w changelogu, choć najwyraźniej mało kto tam zagląda. Firma stoi na stanowisku, że to decyzje produktowe, a nie downgrade samego silnika AI.

Cała sytuacja trąci jednak lekką ironią: użytkownicy masowo zgłaszają spadek jakości, a firma odpowiada instrukcją obsługi suwaków. Z technicznego punktu widzenia wszystko może się zgadzać, ale dla kogoś, kto nagle widzi głupsze odpowiedzi, brzmi to jak typowa korporacyjna wymówka.

Benchmarki – dowody na degradację czy statystyczny szum?

W sieci zawrzało, gdy profil BridgeMind na platformie X opublikował zrzuty ekranu pokazujące drastyczny zjazd formy: Claude Opus 4.6 spadł z 83,3% dokładności na 68,3%. Taki wynik zepchnął model z drugiego na dziesiąte miejsce w rankingu, co dla wielu stało się ostatecznym dowodem na tzw. nerfing. Post stał się viralem, a oliwy do ognia dolały inne testy wskazujące na gorsze radzenie sobie z kodowaniem w TerminalBench.

Jednak Paul Calcraft, niezależny badacz, studzi emocje i wskazuje na metodologiczne błędy w tych porównaniach. Okazuje się, że pierwszy, wysoki wynik uzyskano na próbie zaledwie 6 zadań, podczas gdy drugi dotyczył już 30 przykładów. Wspólna część testów wykazała spadek z 87,6% na 85,4%, co w świecie dużych modeli językowych mieści się w granicach błędu statystycznego. Community note pod postem potwierdza: to nie było porównanie typu „jabłko do jabłka”.

Ostatecznie mamy do czynienia z efektem kuli śnieżnej: anegdotyczne dowody połączone z wyrwanymi z kontekstu screenami stworzyły narrację o upadku giganta. Choć niektóre zarzuty oparte na logach są trudne do podważenia, to akurat te konkretne benchmarki mogą być zwyczajnie naciągane.

Zmiana	Data	Opis
Adaptacyjne myślenie	9 lutego	Domyślne dla Opus 4.6
Poziom wysiłku średni (85)	3 marca	Dla większości użytkowników
TTL cache promptów	6 marca	Z 1h na 5 min dla niektórych
Limity sesji szczyt	26 marca	Szybsze zużycie 5h PT
Wysoki wysiłek API	7 kwietnia	Dla enterprise i API

Kluczowe zmiany produktowe Anthropic w Claude od lutego 2026

Limity i cache – ciche optymalizacje pod maską

Pod koniec marca Thariq Shihipar ogłosił zmiany, które uderzyły w najbardziej aktywnych użytkowników: w godzinach szczytu (między 5 a 11 rano czasu PT) limity sesji wyczerpują się znacznie szybciej. Zmiana dotknęła około 7% subskrybentów planu Pro, podczas gdy konta Enterprise pozostały nietknięte. Anthropic tłumaczy to koniecznością skalowania infrastruktury przy ogromnym popycie, ale niesmak u płacących klientów pozostał.

Kolejnym punktem zapalnym jest zgłoszenie #46829 na GitHubie, dotyczące skrócenia czasu życia (TTL) cache promptów z godziny do zaledwie 5 minut. SeanGSISG przeanalizował 120 tysięcy wywołań API i zauważył, że krótszy cache drastycznie zwiększa koszty i zużycie limitów w długich sesjach roboczych. Anthropic potwierdził te zmiany, tłumacząc, że testują różne heurystyki i docelowo pozwolą użytkownikom na ręczny wybór parametrów.

Z perspektywy firmy to optymalizacja zasobów, ale dla użytkownika końcowego to kolejny sygnał, że produkt staje się mniej wydajny. W połączeniu z wcześniejszymi doniesieniami o spadku inteligencji, tworzy to idealne podłoże pod teorie spiskowe o celowym osłabianiu darmowych i tańszych wersji modelu.

Zaufanie na szali, gdy OpenAI depcze po piętach

Luka zaufania między Anthropic a społecznością deweloperską niebezpiecznie się powiększa. Dla programisty nie ma znaczenia, czy gorsze wyniki to efekt zmian w wagach modelu, czy tylko „optymalizacji UI” – liczy się efekt końcowy, który obecnie rozczarowuje. Użytkownicy wylewają frustrację na forach, a firma odpowiada suchymi komunikatami o zmianach w dokumentacji. Obie strony zdają się mówić zupełnie innymi językami.

Moment na takie kontrowersje jest fatalny, bo OpenAI właśnie agresywnie promuje Codex i nowe modele subskrypcyjne. Choć dowody na degradację Claude są mieszane – logi Stelli Laurenzo są mocne, ale benchmarki BridgeBench już mniej – to wizerunkowy pożar jest faktem. Anthropic musi postawić na większą transparentność, jeśli nie chce stracić najbardziej lojalnych użytkowników na rzecz konkurencji.

Moja diagnoza? Zmiany w działaniu Claude są realne i odczuwalne, ale wynikają raczej z agresywnego cięcia kosztów serwerowych niż z celowego sabotażu inteligencji. Ironią losu jest fakt, że firma, która buduje swój PR na bezpieczeństwie i etyce AI, właśnie oblewa egzamin z podstawowej komunikacji z własną społecznością.

Źródła:

VentureBeat (https://venturebeat.com/technology/is-anthropic-nerfing-claude-users-increasingly-report-performance), GitHub anthropics/claude-code issues #42796 i #46829, X posts @bcherny i @trq212

Claude nagle stracił rozum? Anthropic odpiera zarzuty o nerfing

TL;DR

Skargi deweloperów z twardymi danymi w ręku

Odpowiedź Anthropic: to nie model, to tylko suwaki

Benchmarki – dowody na degradację czy statystyczny szum?

Limity i cache – ciche optymalizacje pod maską

Zaufanie na szali, gdy OpenAI depcze po piętach

Najczęściej zadawane pytania

Related Articles

Microsoft przyznaje błędy w Windows 11. Plan K2 ma naprawić system

DeepSeek V4 Pro uderza w GPT-5.5 i Claude Opus 4.7. Open source za grosze

Masz dość toksycznego X? Noscroll AI przejmuje Twój feed