Nowy benchmark Datacurve nie miesza w tabelce dla sportu. DeepSWE sugeruje, że część branży mogła porównywać modele kodujące na teście, który zbyt często mylił dobre rozwiązania ze złymi. Na tym tle GPT-5.5 od OpenAI wypada wyraźnie lepiej od reszty stawki.

TL;DR

  • DeepSWE to 113 zadań z 91 repozytoriów i pięciu języków programowania
  • GPT-5.5 osiąga 70% – o 16 punktów procentowych więcej niż Claude Opus 4.7
  • Według Datacurve weryfikatory SWE-Bench Pro popełniały 8,5% fałszywych pozytywów i 24% fałszywych negatywów
  • Zadania DeepSWE wymagają średnio 668 linii kodu wobec 120 w SWE-Bench Pro
  • Datacurve pozycjonuje się jako dostawca danych i ewaluacji dla laboratoriów AI

DeepSWE od Datacurve ma pokazać to, czego nie widać w starych rankingach

Przez ostatnie miesiące wyniki na SWE-Bench Pro sugerowały, że czołowe modele OpenAI, Anthropic i Google są do siebie bardzo zbliżone. Datacurve postanowiło sprawdzić, czy to rzeczywiście obraz rynku, czy raczej efekt zbyt łatwego testu. DeepSWE pokazuje większy rozjazd między modelami niż leaderboardy, do których branża zdążyła się przyzwyczaić.

Według Datacurve nowy benchmark składa się ze 113 zadań z 91 repozytoriów open source i obejmuje pięć języków programowania. Zadania są dłuższe i bardziej przypominają realną pracę inżynierską: referencyjne rozwiązanie ma średnio 668 linii kodu w siedmiu plikach, podczas gdy w SWE-Bench Pro jest to 120 linii w pięciu plikach. Prompt ma być przy tym krótszy, czyli bliższy sytuacji, w której programista deleguje agentowi AI konkretny problem, a nie prowadzi go za rękę.

GPT-5.5 od OpenAI prowadzi w DeepSWE

Na opublikowanej przez Datacurve tabeli wyników OpenAI GPT-5.5 osiąga 70% skuteczności. Za nim są GPT-5.4 z wynikiem 56% i Claude Opus 4.7 z 54%. Dalej zaczyna się już wyraźny zjazd: Claude Sonnet 4.6 ma 32%, a Gemini 3.5 Flash 28%.

Model DeepSWE Różnica do lidera
GPT-5.5 (OpenAI) 70%
GPT-5.4 (OpenAI) 56% -14 pp
Claude Opus 4.7 (Anthropic) 54% -16 pp
Claude Sonnet 4.6 32% -38 pp
Gemini 3.5 Flash 28% -42 pp
Wyniki na DeepSWE według Datacurve (dane z 26 maja 2026)

To ważne z jednego powodu: jeśli przyjąć metodologię Datacurve, mówimy nie o kosmetycznej przewadze, ale o luce, którą da się odczuć w codziennym użyciu. Dla firm kupujących narzędzia do wsparcia zespołów programistycznych taka różnica może przełożyć się na mniej poprawek, mniej ręcznego debugowania i po prostu mniej straconych godzin. W polskich realiach też ma to znaczenie, bo software house albo zespół produktowy nie kupuje „lidera benchmarku”, tylko model, który ma dowieźć robotę bez mnożenia kosztów.

 

 

Ile kosztuje próba w DeepSWE i czy cena idzie tu w parze z wynikiem?

Datacurve podaje też dane o koszcie i czasie wykonania. W przypadku GPT-5.5 mediana kosztu jednej próby to 5,80 USD, a mediana czasu wykonania wynosi 20 minut. GPT-5.4 ma wypadać lepiej pod względem relacji ceny do wyniku, choć sam wynik końcowy jest niższy.

To akurat ciekawy szczegół, bo pokazuje coś, o czym benchmarki często milczą: najwyższy wynik nie zawsze oznacza najlepszy wybór dla zespołu. Jeśli model jest trochę słabszy, ale wyraźnie tańszy, w części scenariuszy biznesowych może wygrać. Datacurve zaznacza jednocześnie, że liczba tokenów wyjściowych i czas wykonania nie korelują wprost z końcowym rezultatem, więc prosta zasada „dłużej myśli, więc lepiej działa” znowu się nie broni.

Datacurve twierdzi, że SWE-Bench Pro zbyt często źle ocenia odpowiedzi

Najmocniejsza część tej publikacji nie dotyczy nawet samego rankingu, tylko wiarygodności starszych testów. Datacurve opisało audyt 30 losowo wybranych zadań z obu benchmarków. Według firmy w SWE-Bench Pro weryfikatory akceptowały błędne rozwiązania w 8,5% przypadków i odrzucały poprawne w 24%. W DeepSWE te odsetki miały wynieść odpowiednio 0,3% i 1,1%.

Problemem są fałszywe negatywy. Jeśli agent rozwiązuje zadanie inaczej niż „złoty commit”, automatyczny grader może uznać poprawną odpowiedź za błąd tylko dlatego, że nie wygląda jak wzorzec. To nie jest drobna wada techniczna. Jeśli taki benchmark staje się punktem odniesienia dla zakupów enterprise, wycen startupów czy wewnętrznych decyzji produktowych, błędny werdykt zaczyna kosztować całkiem realne pieniądze.

Dlaczego SWE-Bench Pro może premiować modele, które widziały już rozwiązania?

Datacurve krytykuje też sam dobór zadań w SWE-Bench Pro. Chodzi o wykorzystanie publicznych commitów z GitHuba, które mogły trafić do danych treningowych modeli. Jeśli model widział wcześniej bardzo podobne rozwiązanie, benchmark przestaje mierzyć zdolność rozwiązywania problemu, a zaczyna testować pamięć albo umiejętność odtworzenia znanego wzorca.

To problem kontaminacji danych, stary jak same benchmarki AI. DeepSWE ma temu przeciwdziałać przez użycie dłuższych i oryginalnych zadań, które nie były wcześniej publicznie dostępne w tej samej formie. Serena Ge z Datacurve mówi, że taki format lepiej oddaje rzeczywiste doświadczenie programistów. I szczerze: brzmi to rozsądnie, choć nadal mówimy o benchmarku przygotowanym przez jedną firmę, więc branża pewnie będzie chciała niezależnego potwierdzenia.

Co DeepSWE zmienia dla OpenAI, Anthropic i kupujących modele?

Jeśli dane Datacurve się obronią, OpenAI dostaje bardzo wygodny argument sprzedażowy dla GPT-5.5 w zadaniach agentycznego kodowania. OpenAI ma nowy atut, bo przewaga nad Claude Opus 4.7 i GPT-5.4 nie wygląda tu na błąd statystyczny, tylko na wyraźną różnicę jakości.

Dla Anthropic to mniej komfortowa historia. Claude Opus 4.7 nadal jest wysoko, ale nie wygrywa tam, gdzie część obserwatorów mogła się tego spodziewać. Z kolei dla firm kupujących modele wniosek jest prosty: sam leaderboard już nie wystarczy. Trzeba patrzeć na to, jak benchmark został zbudowany, co mierzy i czy jego weryfikator rzeczywiście rozpoznaje poprawne rozwiązanie.

Jak DeepSWE wpisuje się w szerszą dyskusję o benchmarkach kodowania?

DeepSWE dobrze trafia w moment, w którym branża zaczyna mieć dość benchmarków robionych „pod slajd”. Sam ranking to za mało, jeśli nie wiadomo, czy test nie jest skażony danymi treningowymi albo źle oceniany przez automat. Dlatego ta publikacja jest ciekawsza jako krytyka metodologii niż jako kolejna tabelka z modelami.

Na digicat.pl pisaliśmy już o mocnych wynikach GPT-5.5 od OpenAI w zadaniach agentycznych. Z drugiej strony pojawiają się też historie o otwartych modelach, takich jak IQuest-Coder, które potrafią dobrze wypaść tam, gdzie test lepiej przypomina realną pracę. To chyba najuczciwszy wniosek z całej sprawy: mniej wiary w jeden wskaźnik, więcej patrzenia na to, jak model zachowuje się w praktyce.

Źródła:

VentureBeat, deepswe.datacurve.ai, Datacurve.ai, vals.ai, swebench.com

Najczęściej zadawane pytania