Wyobraź sobie, że Twój darmowy asystent AI samodzielnie wypełnia formularze w przeglądarce, sprawnie przełącza karty i analizuje skomplikowane arkusze kalkulacyjne bez żadnych zewnętrznych wtyczek. Anthropic właśnie urzeczywistniło tę wizję wraz z premierą Claude Sonnet 4.6, który w benchmarku OSWorld zbliżył się do bazowego poziomu ludzkich umiejętności. A to dopiero wierzchołek góry lodowej ulepszeń, jakie przygotowali inżynierowie.
TL;DR
- Anthropic oficjalnie ogłosiło wydanie Claude Sonnet 4.6 w dniu 17 lutego 2026 roku
- Claude Sonnet 4.6 zdobył 72.5% w OSWorld-Verified – to poziom niemal ludzki
- Wynik 79.6% w SWE-bench Verified stawia go tuż za modelem Opus 4.6 (80.8%)
- Drastyczny wzrost odporności na wstrzykiwanie promptów względem wersji Sonnet 4.5
- Okno kontekstowe o rozmiarze 1 mln tokenów dostępne w wersji beta przez API
- Model stał się domyślną, bezpłatną opcją w serwisie Claude.ai oraz planie Pro
Co nowego wnosi Claude Sonnet 4.6?
Anthropic oficjalnie ogłosiło wydanie Claude Sonnet 4.6 w dniu 17 lutego 2026 roku. Mamy do czynienia z gruntowną aktualizacją modelu ze średniej półki, który teraz z niespotykaną lekkością radzi sobie z programowaniem, bezpośrednią obsługą komputera, wyciąganiem wniosków z gigantycznych zbiorów danych oraz planowaniem działań agentowych. Firma Sundara Pichai może czuć oddech konkurencji na plecach, bo deweloperzy w 70 procentach testów Claude Code wybierają nowość od Anthropic zamiast Sonnet 4.5. Powód? Znacznie rzadsze halucynacje i wręcz chorobliwe trzymanie się instrukcji.
Model stał się już domyślnym wyborem dla użytkowników darmowych oraz subskrybentów Pro na platformie claude.ai, oferując przy tym atrakcyjne stawki $3/$15 za milion tokenów w dostępie przez API. To sprawia, że technologie, które jeszcze wczoraj wydawały się futurystyczne, trafiają pod strzechy bez konieczności opłacania najdroższego wariantu Opus. Ironia losu – rzekomy „średniak” staje się realną alternatywą dla flagowca, dbając o stan portfela użytkowników.
Obsługa komputera na ludzkim poziomie
Jedną z najjaśniejszych gwiazd w arsenale Sonnet 4.6 jest jego unikalna zdolność do interakcji z systemem operacyjnym w sposób, w jaki robi to żywy człowiek. Model potrafi klikać, wpisywać tekst i sprawnie nawigować między aplikacjami w środowisku symulowanym, korzystając z realnego oprogramowania typu Chrome czy LibreOffice. Co istotne, robi to natywnie, bez potrzeby stosowania dedykowanych interfejsów API czy zewnętrznych konektorów.
W rygorystycznym benchmarku OSWorld-Verified, sprawdzającym realizację otwartych zadań biurowych, Sonnet 4.6 wykręcił imponujące 72.5 procent, co niemal zrównuje go z ludzkim punktem odniesienia. W praktyce oznacza to bezbłędne wypełnianie wieloetapowych formularzy w sieci czy analizę danych w arkuszach rozpiętych na wiele zakładek. Poprzednia wersja, Sonnet 4.5, osiągała w tym teście zaledwie 61.4 procent, więc mamy do czynienia z gigantycznym skokiem jakościowym – i to bez żadnych programistycznych sztuczek.
Kodowanie lepsze niż kiedykolwiek
Sonnet 4.6 pokazuje pazur w programowaniu, gdzie z dużą swobodą operuje na skomplikowanych instrukcjach i potężnych repozytoriach. W testach SWE-bench Verified, które symulują realne wyzwania inżynierii oprogramowania, model uzyskał 79.6 procent – tracąc zaledwie 1.2 punktu do potężnego Opus 4.6. Takie parametry czynią go idealnym kompanem do refaktoryzacji, żmudnego debugowania czy utrzymywania kodu w ogromnych projektach klasy enterprise.
Anthropic chwali swój nowy twór za brak skłonności do „lenistwa” czy niepotrzebnego komplikowania prostych struktur. Przykładowo, w środowisku Claude Code programiści doceniają go za wysoką spójność i drastyczne ograniczenie liczby fałszywych raportów o sukcesie. Jeśli budujesz własne aplikacje, ten darmowy asystent może z powodzeniem zastąpić płatne rozwiązania. To zabawne, że model ze środka stawki potrafi dziś zawstydzić niedawnych liderów rankingów wydajności.
Odporność na wstrzykiwanie promptów
Większa autonomia sztucznej inteligencji to nie tylko wygoda, ale i nowe zagrożenia, takie jak „prompt injection” – czyli ukryte komendy zaszyte w treściach, które AI mogłoby wykonać wbrew woli właściciela. Sonnet 4.6 demonstruje tutaj kolosalny progres względem Sonnet 4.5, osiągając poziom bezpieczeństwa godny modelu Opus 4.6. W testach z aktywnymi zabezpieczeniami skuteczność ataków spadła do zera w zadaniach programistycznych oraz do marginalnych 0.51 procenta podczas pracy w przeglądarce.
Zespół Anthropic przeprowadził rygorystyczne ewaluacje pod kątem bezpieczeństwa, z których wynika, że model jest wyjątkowo odporny na manipulacje zewnętrzne. Ma to krytyczne znaczenie dla agentów operujących w świecie rzeczywistym, na przykład przy automatyzacji procesów biurowych. Bez tak silnej tarczy nawet najzdolniejszy bot do kodowania mógłby stać się narzędziem w rękach cyberprzestępców – na szczęście tutaj producent nie poszedł na żadne kompromisy.
Milion tokenów i agentowe supermoce
W fazie beta dostępnej przez API, Sonnet 4.6 oferuje okno kontekstowe o pojemności aż 1 miliona tokenów. Pozwala to na „nakarmienie” modelu całą bazą kodu, opasłymi tomami kontraktów czy dziesiątkami publikacji naukowych w ramach jednego zapytania. To prawdziwy przełom w pracy z długimi dokumentami, gdzie AI musi zachować logiczną spójność i rozumieć kontekst całości.
Model radzi sobie wybitnie w strukturach agentowych – samodzielnie planuje wieloetapowe operacje, dobiera narzędzia i koryguje własne potknięcia. Analizy dotyczące Claude Opus 4.6 pokazały już, jak sprawnie AI buduje zespoły agentów, a Sonnet podąża tą samą ścieżką, będąc opcją znacznie tańszą. Dzięki trybowi rozszerzonego myślenia otrzymujemy szczegółowe analizy krok po kroku, co jest zbawienne przy researchu. Rywalizacja z modelem GPT-5.3-Codex od OpenAI nabiera właśnie rumieńców na najwyższym poziomie.
Źródła: Anthropic.com/news/claude-sonnet-4-6, anthropic.com/claude-sonnet-4-6-system-card, cnet.com/tech/services-and-software/anthropic-says-its-newest-ai-model…, VentureBeat, Mashable, The Register
