Wyobraź sobie, że topowy model AI do kodowania i budowy agentów kosztuje tyle, co marna kawa z automatu. Chiński startup MiniMax właśnie wypuścił M2.5 oraz wersję Lightning, które w benchmarkach SWE-Bench dorównują potężnemu Claude Opus 4.6, podczas gdy rachunek za ich użytkowanie spada o 95 procent. Czas deweloperów, którzy liczyli każdy token jak ostatnie grosze przed wypłatą, właśnie przeszedł do historii.

TL;DR

  • M2.5 osiąga 80,2 proc. na SWE-Bench Verified – to wynik identyczny jak w przypadku Claude Opus 4.6, ale przy prędkości o 37 proc. wyższej niż u poprzednika.
  • Ceny API szokują: standardowa wersja kosztuje 0,15 dolara za milion tokenów wejściowych; Lightning jest dwa razy droższa, ale oferuje dwukrotną prędkość.
  • Wewnętrzne testy MiniMax wykazały, że model samodzielnie wykonuje 30 proc. zadań i generuje aż 80 proc. nowego kodu w firmie.
  • Zastosowano architekturę mieszanki ekspertów (MoE) z autorskim systemem uczenia ze wzmocnieniem Forge oraz algorytmem CISPO.
  • Model nie jest jeszcze dostępny jako pełny open source – wagi i licencja zostaną udostępnione w późniejszym terminie.

Architektura i trening M2.5 – mieszanka ekspertów z twistem

MiniMax postawił na architekturę mieszanki ekspertów, w której model posiada łącznie około 230 miliardów parametrów, ale przy każdym konkretnym tokenie aktywuje jedynie 10 miliardów z nich. Dzięki takiemu podejściu system łączy głębię rozumowania rynkowych olbrzymów ze zwinnością mniejszych modeli – to koniec marnowania mocy obliczeniowej na banalne zadania. Inżynierka Olive Song z MiniMax podkreślała w podcaście ThursdAI, że taka „rzadka moc” pozwala skalować wydajność bez konieczności posiadania gigantycznych zasobów sprzętowych.

Proces treningowy trwał dwa miesiące i opierał się na autorskiej strukturze uczenia ze wzmocnieniem o nazwie Forge. To zaawansowany system służący do symulacji setek tysięcy środowisk rzeczywistych, w których model szlifował kodowanie, obsługę narzędzi i pełne cykle deweloperskie – od wstępnego projektu po finalne testy. Stabilność całego procesu zapewniał algorytm CISPO (Clipping Importance Sampling Policy Optimization), który skutecznie zapobiega nadmiernej korekcie podczas nauki. Dzięki temu model uczy się myśleć jak rasowy architekt: najpierw tworzy plan struktur, funkcji i interfejsów, a dopiero potem przechodzi do pisania kodu.

W efekcie model potrafi generalizować wiedzę na nowe narzędzia i środowiska bez potrzeby żmudnego dostrajania pod konkretne ramy pomocnicze. Chińczycy udowadniają całemu światu, że nie trzeba posiadać milionów kart graficznych od Nvidii, by dogonić liderów ze Stanów Zjednoczonych – w tej grze liczy się przede wszystkim sprytny trening.

Benchmarki – M2.5 depcze po piętach liderom

W rankingach wydajności M2.5 błyskawicznie wskakuje do ścisłej czołówki w kategoriach kodowania i systemów agentowych. Oto kluczowe wyniki, które potwierdzają ambitne roszczenia MiniMax – wszystkie testy przeprowadzono w warunkach zbliżonych do tych, w których operuje Claude Opus 4.6.

Aby ułatwić porównanie, spójrzmy na najważniejsze benchmarki. Model błyszczy szczególnie w realistycznych zadaniach z zakresu inżynierii oprogramowania oraz w wyszukiwaniu informacji przy użyciu zewnętrznych narzędzi:

  • SWE-Bench Verified: 80,2 proc. – model dorównuje prędkości Claude Opus 4.6 (22,8 min vs 22,9 min na zadanie).
  • BrowseComp: 76,3 proc. – pozycja lidera w wyszukiwaniu i obsłudze narzędzi przy sprawnym zarządzaniu kontekstem.
  • Multi-SWE-Bench: 51,3 proc. – obecny stan techniki (ang. state of the art) w kodowaniu wielojęzycznym.
  • BFCL (wywoływanie funkcji): 76,8 proc. – chirurgiczna precyzja w złożonych procesach agentowych.

Te imponujące wyniki pochodzą z testów wykorzystujących takie struktury jak WebExplorer czy Droid, gdzie M2.5 zużywa znacznie mniej tokenów i rund wyszukiwania niż jego poprzednik.

To swoista ironia losu: podczas gdy amerykańskie laboratoria pompują miliardy dolarów w infrastrukturę GPU, MiniMax z Szanghaju skaluje uczenie ze wzmocnieniem w symulacjach i wyprzedza harmonogramy gigantów – seria M2 poprawiła wyniki w SWE-Bench szybciej niż Claude czy GPT w analogicznym okresie 3,5 miesiąca.

Ceny API – koniec ery drogich konsultantów AI

MiniMax oferuje dwa warianty dostępu przez API, które skrojono pod masową produkcję. Standardowa wersja M2.5 jest zoptymalizowana pod kątem kosztów (generuje 50 tokenów na sekundę), natomiast edycja Lightning stawia na ekstremalną prędkość (100 tokenów/s). Oto szczegółowe zestawienie – ceny podano za milion tokenów:

  • M2.5-Lightning: wejście 0,30 dol., wyjście 2,40 dol. – przy wykorzystaniu pamięci podręcznej (cache).
  • M2.5 standard: wejście 0,15 dol., wyjście 1,20 dol. – czyli dokładnie połowa ceny wersji Lightning.

W praktyce oznacza to koszty na poziomie 1/10 lub nawet 1/20 tego, co trzeba zapłacić za Claude Opus 4.6 (5/25 dol.) czy zapowiadany GPT-5.2 Pro (21/168 dol.). Alex Volkov z ThursdAI szybko wyliczył: to samo zadanie kosztuje teraz 0,15 dol. zamiast 3 dol.

Dla biznesu to prawdziwy przełom – agenci mogą wykonywać rutynowe zadania bez obsesyjnej optymalizacji promptów. Presja na oszczędności znika, a dane pozostają bezpieczne, bo nie muszą wędrować do chmur w USA.

Zastosowania – od kodowania po Excela w firmie

MiniMax nie rzuca słów na wiatr – podczas prac nad modelem firma współpracowała z ekspertami z dziedziny finansów, prawa i nauk społecznych, aby system przyswoił tzw. wiedzę cichą specyficzną dla tych branż. Dzięki temu M2.5 sprawnie tworzy pliki Word, arkusze Excel, prezentacje PowerPoint, a nawet skomplikowane modele finansowe (wynik 74,4 proc. na MEWC) i raporty.

Wewnątrz struktur MiniMax model M2.5 już teraz przejął stery: 30 proc. zadań w działach R&D, sprzedaży, HR i finansach wykonuje w pełni autonomicznie, a aż 80 proc. nowego kodu to jego bezpośrednia zasługa. Użytkownicy zbudowali już ponad 10 tysięcy wyspecjalizowanych ekspertów na platformie Agent.

Agentowe ścieżki pracy zyskały dzięki nowemu modelowi 37 proc. na prędkości w całym procesie. System planuje działania niczym doświadczony architekt, potrafi korzystać z wielu narzędzi równolegle i świetnie radzi sobie z nowymi językami programowania – od popularnego Pythona po wymagający Rust. To nie jest kolejny gadatliwy chatbot, to cyfrowy pracownik, który nie doprowadzi Twojej firmy do bankructwa.

Co dalej z M2.5 – open source i implikacje

MiniMax określa swój model mianem „open source”, choć wagi, kod źródłowy i licencja nie zostały jeszcze publicznie udostępnione – na ten moment korzystać można z API oraz platformy Agent. Zespół deweloperski obiecuje jednak publikację bloga o skalowaniu uczenia ze wzmocnieniem, sesję AMA na Reddicie oraz integracje z narzędziami takimi jak OpenClaw.

Dla przedsiębiorstw oznacza to fundamentalną zmianę paradygmatu: przejście od prostych sesji pytań i odpowiedzi do autonomicznych agentów pracujących całymi godzinami bez limitów kosztowych. Wysokie wyniki w modelowaniu finansowym i zadaniach biurowych sugerują, że model będzie wymagał minimalnego nadzoru w specjalistycznych branżach. Do tego dochodzi pełna kontrola nad prywatnością danych i możliwość skalowania audytów kodu.

Strategicznie ten ruch pokazuje, że nową granicą rozwoju AI nie jest stworzenie „największego mózgu”, ale najbardziej użytecznego i taniego pracownika. Chińczycy, dysponując skromniejszymi zasobami GPU, depczą gigantom po piętach – pozostaje pytanie, jak długo laboratoria z Doliny Krzemowej wytrzymają tę presję, zanim same zaczną kopiować rozwiązania takie jak Forge czy CISPO.

Źródło: VentureBeat (https://venturebeat.com/technology/minimaxs-new-open-m2-5-and-m2-5-lightning-near-state-of-the-art-while), oficjalny blog MiniMax (https://www.minimax.io/news/minimax-m25), platform.minimax.io/docs, artificialanalysis.ai/models/minimax-m2-5, ThursdAI podcast via X.

Najczęściej zadawane pytania