Ekipa z Anthropic właśnie rzuciła rękawicę konkurencji, prezentując model Claude Opus 4.7. To narzędzie, które obiecuje dostarczanie kodu gotowego do wdrożenia bez nieustannego patrzenia mu na ręce oraz tworzenie agentów AI radzących sobie z wieloetapowymi wyzwaniami. Firma chwali się potężnym skokiem w benchmarkach, a pierwsi użytkownicy już zacierają ręce. Czy Sam Altman i OpenAI mają powody, by zacząć się pocić?
TL;DR
- Wynik 64,3% w benchmarku SWE-bench Pro – to o 11 punktów procentowych lepiej niż w wersji Opus 4.6
- Gigantyczne okno kontekstowe o pojemności 1 mln tokenów do obsługi najbardziej rozbudowanych projektów
- Przejrzysty cennik: 5 USD za milion tokenów wejściowych oraz 25 USD za wyjściowe
- System adaptacyjnego myślenia, który inteligentnie dobiera moc obliczeniową do stopnia trudności zadania
- Model dostępny natychmiast dla subskrybentów planów Pro, Team oraz przez interfejs API
Co nowego w Claude Opus 4.7
Anthropic oficjalnie zaprezentowało Claude Opus 4.7 16 kwietnia 2026 roku, pozycjonując go jako hybrydowy model rozumowania. Inżynierowie skupili się na programowaniu, analizie wizualnej i obsłudze złożonych procesów wieloetapowych, oferując przy tym potężne okno kontekstowe o rozmiarze 1 mln tokenów. To naturalna ewolucja po modelu Opus 4.6 z lutego, mająca na celu drastyczną poprawę niezawodności w profesjonalnych środowiskach pracy.
Nowością jest funkcja adaptacyjnego myślenia, która pozwala modelowi na automatyczne dopasowanie intensywności analizy do skomplikowania problemu. W praktyce oznacza to głębsze „rozkminy” przy trudnych zagadnieniach i błyskawiczne reakcje na proste zapytania. Anthropic kładzie duży nacisk na dokładność i spójność w wymagających projektach, co ma ułatwić delegowanie zadań bez paranoi o błędy. W zestawieniu z modelem Claude Opus 4.6, który zasłynął budowaniem zespołów agentów, nowa wersja wydaje się po prostu znacznie solidniejszym narzędziem do codziennej, ciężkiej pracy.
Ironia losu polega na tym, że gdy reszta branży ściga się na liczbę parametrów, Anthropic stawia na czystą praktyczność. Model bez problemu radzi sobie z warstwą wizualną, sprawnie interpretując struktury chemiczne czy skomplikowane diagramy techniczne, co z pewnością doceni sektor life sciences.
Introducing Claude Opus 4.7, our most capable Opus model yet.
It handles long-running tasks with more rigor, follows instructions more precisely, and verifies its own outputs before reporting back.
You can hand off your hardest work with less supervision. pic.twitter.com/PtlRdpQcG5
— Claude (@claudeai) April 16, 2026
Benchmarki pokazują skok w kodowaniu
W testach SWE-bench Pro, które sprawdzają umiejętność autonomicznego naprawiania błędów w realnych zgłoszeniach z serwisu GitHub, Opus 4.7 wykręcił wynik 64,3 procent. To znaczący progres względem 53,4 procent u poprzednika i wynik lepszy niż 57,7 procent uzyskane przez GPT-5.4. W wielojęzycznym teście SWE-bench Multilingual model osiągnął 80,5 procent, a w sprawdzianie rozumowania na dokumentach OfficeQA Pro zdobył aż 80,6 procent, deklasując wcześniejsze 57,1 procent.
Pozostałe benchmarki tylko potwierdzają tę dominację: w GDPVal-AA, badającym wiedzę z zakresu finansów i prawa, model uzyskał 1753 punkty Elo, wyprzedzając GPT-5.4 o równe 79 punktów. Z kolei w symulacji długofalowego zarządzania Vending-Bench 2, Claude wygenerował 10 937 dolarów wirtualnego zysku – to o 37 procent więcej niż potrafił Opus 4.6. Choć liczby wyglądają imponująco, zawsze warto zweryfikować te obietnice na własnym kodzie.
Anthropic chwali się również postępami w dziedzinie rozumowania biomolekularnego oraz nawigacji wizualnej. Wynik 64,3% SWE-bench Pro to jasny sygnał, że doświadczeni programiści mogą zacząć oddelegowywać najbardziej żmudne fragmenty kodu do sztucznej inteligencji.
Agenci AI i enterprise workflowy w natarciu
Opus 4.7 stanowi serce nowoczesnych agentów sztucznej inteligencji, radząc sobie w złożonych scenariuszach wymagających użycia wielu narzędzi jednocześnie. Model potrafi planować działania krok po kroku, korzystać z pamięci między sesjami i realizować długofalowe projekty bez ciągłego nadzoru człowieka. To idealne rozwiązanie dla profesjonalnych ścieżek procesowych, gdzie starsze modele miewały tendencję do gubienia wątku w połowie zadania.
W segmencie korporacyjnym kluczowe jest zachowanie kontekstu między sesjami – model sprawnie operuje na arkuszach kalkulacyjnych, prezentacjach i dokumentach przez wiele dni pracy. Do najczęstszych zastosowań należy analiza logów systemowych, tropienie bugów czy precyzyjna edycja pism prawnych. Klienci tacy jak firma Harvey raportują już 90,9 procent dokładności w testach BigLaw Bench przy zadaniach typowo prawniczych.
Zanim przejdziemy do listy kluczowych korzyści dla systemów agentowych, warto wspomnieć: model działa autonomicznie, wykorzystując adaptacyjne myślenie, co pozwala realnie oszczędzać tokeny przy mniej wymagających operacjach. Oto jego główne atuty:
- Bezbłędna orkiestracja wielu narzędzi zewnętrznych
- Pamięć sesyjna umożliwiająca prowadzenie wielodniowych projektów
- Wysoka precyzja w pracy z arkuszami i slajdami
Dostępność i ceny bez niespodzianek
Nowy model jest dostępny od ręki dla użytkowników planów Pro, Max, Team oraz Enterprise wewnątrz ekosystemu Claude. Programiści mogą z niego korzystać poprzez Claude API, a także za pośrednictwem platform Amazon Bedrock, Google Vertex AI czy Microsoft Foundry – szukajcie oznaczenia claude-opus-4-7.
Stawki cenowe zaczynają się od 5 dolarów za milion tokenów wejściowych i 25 dolarów za milion tokenów wyjściowych. Dzięki funkcji buforowania zapytań (prompt caching) można ugrać nawet do 90 procent oszczędności, a przetwarzanie wsadowe (batch processing) obniża koszty o połowę. Warto jednak pamiętać, że zadania realizowane wyłącznie na terenie USA są o 1,1 raza droższe.
Trzeba przyznać, że to uczciwe warunki jak na model tej klasy. Cena 5 USD/milion input stawia Anthropic w bardzo dobrej pozycji względem konkurencji, zwłaszcza po uwzględnieniu dostępnych rabatów. Nie ma tu mowy o ukrytych kosztach, co można zweryfikować na oficjalnej podstronie z cennikiem.
Klienci chwalą, ale z ironią
Firmy, które miały okazję testować Opus 4.7, nie szczędzą pochwał. Przedstawiciele Hex twierdzą, że to obecnie najpotężniejszy model, który zamiast halucynować, potrafi uczciwie zaraportować braki w danych. Replit dostrzega tę samą wysoką jakość przy niższych kosztach, chwaląc sprawniejszą analizę logów i naprawę błędów – model zachowuje się jak ogarnięty współpracownik, który potrafi zakwestionować błędne decyzje.
Narzędzie Cursor odnotowało wynik 70 procent w teście CursorBench (w porównaniu do 58 procent w wersji 4.6), a Solve Intelligence docenia multimodalne rozumienie schematów. Harvey podkreśla skuteczność na poziomie 90,9 procent w benchmarkach prawniczych, wskazując na lepszą zdolność rozróżniania niuansów w klauzulach umownych.
Co ciekawe, Anthropic świadomie ograniczyło niektóre zdolności ofensywne w sieci – Opus 4.7 wykazuje się większą powściągliwością w obszarze cyberbezpieczeństwa. Giganci finansowi widzą w nim jednak prawdziwy przełom pod kątem szybkości i precyzji. 13% wzrost rozdzielczości w specjalistycznym, 93-zadaniowym benchmarku kodowania to wynik, obok którego trudno przejść obojętnie.
Bezpieczeństwo na pierwszym planie
Zanim Opus 4.7 trafił do szerokiego grona odbiorców, Anthropic poddało go rygorystycznym testom. Karta modelu szczegółowo dokumentuje wyniki w zakresie bezpieczeństwa, które są w pełni zgodne z wewnętrznymi standardami firmy. Główny nacisk położono na niezawodność w długofalowych procesach oraz eliminację krytycznych błędów.
Na szczęście tym razem obyło się bez wizerunkowych wpadek i sensacji, takich jak pamiętny wyciek kodu Claude Code. Zamiast tego otrzymujemy solidne mechanizmy zabezpieczające. Model rzadziej ulega halucynacjom i wykazuje znacznie lepszą kalibrację procesów myślowych.
Dla sektora enterprise to ogromna zaleta – wdrożenie AI w zadaniach o wysokiej odpowiedzialności wiąże się teraz z mniejszym ryzykiem operacyjnym.
Źródła: https://www.anthropic.com/claude/opus, https://www.anthropic.com/news/claude-opus-4-7, https://the-decoder.com/anthropics-claude-opus-4-7-makes-a-big-leap-in-coding-while-deliberately-scaling-back-cyber-capabilities, https://decrypt.co/364621/claude-opus-47-review-benchmarks-coding-test, https://www.theverge.com/ai-artificial-intelligence/913184/anthropic-claude-opus-4-7-cybersecurity
