Wyobraź sobie edytor kodu, w którym sztuczna inteligencja bez zająknięcia realizuje setki operacji pod rząd. Startup Anysphere właśnie urzeczywistnił tę wizję, wypuszczając Composer 2 – autorski model, który w najnowszych benchmarkach wyprzedza Claude Opus 4.6. Pytanie brzmi: czy to wystarczy, by strącić z tronu potężnego GPT-5.4?
TL;DR
- Composer 2 zdobył 61,7 pkt w Terminal-Bench 2.0, wyprzedzając Claude Opus 4.6 (58,0)
- Koszty użytkowania spadły o 86 proc. – wersja Standard kosztuje tylko 0,50 USD za mln tokenów
- Model zoptymalizowano pod zadania agentowe z oknem kontekstowym rzędu 200 tys. tokenów
- Narzędzie jest dostępne wyłącznie w edytorze Cursor z pełną integracją terminala i plików
- Wycena Anysphere poszybowała do 29,3 mld USD po gigantycznym finansowaniu 2,3 mld USD
Cursor buduje własnego potwora kodującego
Startup Anysphere z San Francisco, stojący za sukcesem edytora Cursor, najwyraźniej znudził się byciem tylko „nakładką” na rozwiązania od OpenAI czy Anthropic. Wypuszczenie Composer 2 to jasny sygnał: firma tworzy własny ekosystem zoptymalizowany pod workflow programistyczny. Przy wycenie na poziomie 29,3 mld USD, osiągniętej po potężnej rundzie finansowania rzędu 2,3 mld USD, ambicje zespołu są czytelne – chcą dostarczać narzędzie, które realnie odciąży dewelopera w codziennej orce.
Nowy model występuje w dwóch wariantach: Standard oraz Fast. Choć ta druga opcja jest droższa, Cursor ustawia ją jako domyślną, stawiając szybkość reakcji nad oszczędności. Co ciekawe, wprowadzono mechanizm zniżek za powtarzające się tokeny w promptach, co jest zbawienne przy długich sesjach debugowania. Warto jednak pamiętać o haczyku: Composer 2 to nie jest otwarte API, które podepniecie pod dowolne IDE – to integralna, zamknięta część platformy Cursor.
Można tu dostrzec pewną ironię: podczas gdy technologiczni giganci ścigają się na ogólne możliwości swoich flagowców, Anysphere po cichu dowozi rozwiązanie skrojone pod konkretne potrzeby koderów. Bez zbędnych wodotrysków, za to z chirurgiczną precyzją wewnątrz edytora.
Benchmarki pokazują skok, ale nie szczyt góry
Twórcy Cursora nie rzucają słów na wiatr i podpierają premierę twardymi danymi. W autorskim teście CursorBench model wykręcił 61,3 punktu, w Terminal-Bench 2.0 osiągnął 61,7, a w SWE-bench Multilingual solidne 73,7. To gigantyczny progres w porównaniu do wersji Composer 1.5, która w tych samych kategoriach notowała odpowiednio 44,2, 47,9 oraz 65,9 punktu.
| Model | CursorBench | Terminal-Bench 2.0 | SWE-bench Multilingual |
|---|---|---|---|
| Composer 2 | 61.3 | 61.7 | 73.7 |
| Composer 1.5 | 44.2 | 47.9 | 65.9 |
| Claude Opus 4.6 | – | 58.0 | – |
| GPT-5.4 | – | 75.1 | – |
Porównanie kluczowych benchmarków kodowania dla Composer 2 i rywali
Jeśli spojrzymy na starcie z konkurencją, robi się jeszcze ciekawiej. W zadaniach terminalowych Composer 2 przeskakuje Claude Opus 4.6 (58,0), choć wciąż musi uznać wyższość GPT-5.4, który dominuje z wynikiem 75,1. Anysphere nie próbuje jednak zaklinać rzeczywistości i otwarcie stawia na najlepszy stosunek ceny do jakości na rynku, co potwierdzają ich wykresy efektywności Pareto. To pragmatyzm w czystej postaci, bez marketingowego pompowania balonu.
Dla społeczności skupionej wokół Cursora te liczby oznaczają jedno: koniec użerania się z modelem, który gubi wątek. Nowa architektura znacznie lepiej radzi sobie z wieloetapowymi akcjami, takimi jak głęboka analiza repozytorium czy iteracyjne wprowadzanie poprawek w wielu plikach jednocześnie.
Ceny śmiesznie niskie jak na możliwości
Finansowa strona przedsięwzięcia wygląda wręcz nieprawdopodobnie. Poprzednia generacja, Composer 1.5, kosztowała 3,50 USD za milion tokenów wejściowych i aż 17,50 USD za wyjściowe. W przypadku Composer 2 Standard stawki spadły do poziomu 0,50 USD za wejście i 2,50 USD za wyjście. Matematyka jest nieubłagana: mamy do czynienia z obniżką kosztów o 86 proc., co czyni to rozwiązanie ekstremalnie konkurencyjnym.
Dodatkowym atutem jest system cache-read, gdzie za powtarzane dane zapłacimy zaledwie 0,20 USD w wersji Standard i 0,35 USD w wariancie Fast. Jeśli chodzi o same subskrypcje, Cursor utrzymuje znany model: Pro za 20 USD miesięcznie, Pro+ za 60 USD oraz Ultra dla najbardziej wymagających za 200 USD. Dla firm przygotowano plan Teams (40 USD za użytkownika) oraz opcję Enterprise z audytami bezpieczeństwa i logowaniem SSO.
To ewidentna próba zachęcenia programistów do masowego korzystania z AI bez ciągłego zerkania na licznik tokenów. Niskie ceny w połączeniu z błyskawicznym działaniem trybu Fast sprawiają, że deweloperzy mogą wreszcie skupić się na architekturze, a nie na optymalizacji zapytań do modelu.
Agentowe kodowanie na długą metę
Cursor przestał być narzędziem do generowania prostych fragmentów kodu. Composer 2 został poddany rygorystycznemu procesowi douczania (fine-tuning) oraz uczeniu ze wzmocnieniem (RL), aby radzić sobie z złożonymi zadaniami agentowymi. Mowa tu o scenariuszach obejmujących setki akcji – od przeszukiwania całego repozytorium, przez edycję plików, aż po uruchamianie testów i poprawianie błędów w locie.
Model dysponuje oknem kontekstowym o rozmiarze 200 tys. tokenów i posiada funkcję autopodsumowania, co pozwala mu zachować spójność nawet podczas bardzo długich sesji pracy. Całość jest ciasno zintegrowana z narzędziami edytora: wyszukiwaniem semantycznym, terminalem oraz wbudowaną przeglądarką. Dzięki temu AI w Cursorze zachowuje się jak kompetentny asystent, który doskonale zna strukturę Twojego projektu.
W porównaniu do rozwiązań takich jak Claude Code czy GPT-Codex, widać tu przewagę wynikającą z optymalizacji pod konkretny stosunek narzędzi. Co prawda Claude Opus 4.6 buduje własne zespoły agentów, ale Cursor woli stawiać na jednego, niezwykle sprawnego „solistę”, który operuje bezpośrednio w Twoim środowisku pracy.
Wyzwania w cieniu gigantów
Zamknięcie modelu wyłącznie wewnątrz ekosystemu Cursor to miecz obosieczny. Z jednej strony gwarantuje to płynność pracy, z drugiej – irytuje tych, którzy chcieliby wykorzystać ten potencjał poprzez zewnętrzne API. Konkurencja nie śpi: Anthropic promuje Claude Code z obsługą głosową, a OpenAI kusi modelem GPT-5.3-Codex. Na platformie X nie brakuje głosów krytycznych dotyczących cen subskrypcji czy sporadycznych problemów z gubieniem kontekstu.
Anysphere odpowiada na te zarzuty modelem, który jest po prostu tańszy i lepiej zintegrowany z codziennym workflow. To silny argument operacyjny, pokazujący, że firma nie chce być tylko pośrednikiem sprzedającym cudzą technologię, ale buduje realną wartość dodaną poprzez własne modele i zaawansowane funkcje zespołowe.
Pozostaje pytanie: czy programiści zostaną przy Cursorze, gdy giganci tacy jak Google czy Microsoft w pełni zintegrują swoje najpotężniejsze modele z własnymi edytorami? Na ten moment specjalizacja i agresywna polityka cenowa dają Anysphere solidną przewagę, której nie sposób zignorować.
Źródła: VentureBeat, cursor.com/blog/composer-2, cursor.com/blog/series-d, @cursor_ai na X
