Wyobraź sobie model AI, który nie czeka potulnie na instrukcje programistów, lecz sam konstruuje narzędzia do własnego treningu. Chiński startup MiniMax właśnie pokazał światu M2.7 – model, który wziął na warsztat aż połowę workflow związanego z badaniami nad uczeniem ze wzmocnieniem. Przy okazji, niemal od niechcenia, wykręca rekordowe wyniki w kodowaniu i pracy z dokumentami.
TL;DR
- M2.7 autonomicznie zarządzał 30-50% procesu uczenia ze wzmocnieniem (RL)
- Wyniki SWE-Pro: 56,22% oraz Terminal Bench 2: 57,0% stawiają go obok GPT-5 i Claude
- Cena to zaledwie 0,30 USD za mln tokenów wejściowych – agresywna walka o rynek
- Model wykazuje 97% zgodności w 40 złożonych zadaniach dla agentów AI
- Pełna integracja z API i platformami takimi jak OpenClaw czy Cursor
Jak M2.7 sam się budował?
Chiński startup MiniMax zdążył nas już przyzwyczaić do efektownych pokazów siły – wystarczy wspomnieć ich generator wideo Hailuo. Tym razem jednak uderzają w fundamenty technologii. Model M2.7 to autorskie rozwiązanie, które aktywnie uczestniczyło we własnym procesie powstawania. Inżynierowie z Szanghaju wykorzystali wcześniejsze iteracje algorytmu do stworzenia zaawansowanego systemu agentów badawczych, które przejęły kontrolę nad ścieżkami danych, środowiskiem treningowym oraz całą infrastrukturą służącą do ewaluacji.
To nie jest zwykły skrypt do automatyzacji nudnych zadań. M2.7 samodzielnie analizował logi, wyłapywał błędy w kodzie i interpretował metryki, co pozwoliło mu przejąć od 30 do 50% całego procesu uczenia ze wzmocnieniem. Model optymalizował swój kod w ponad 100 rundach, wyciągając wnioski z porażek i planując kolejne kroki. W teście MLE Bench Lite, symulującym pracę inżyniera machine learning na pojedynczym układzie GPU A30, model zdobył 66,6% medali, co stawia go w jednym rzędzie z Gemini 3.1.
Skyler Miao, szef inżynierii w MiniMax, zapowiedział na platformie X, że kolejnym etapem będzie budowa jeszcze bardziej złożonych symulatorów użytkownika. Podczas gdy na Zachodzie trwają niekończące się debaty o bezpieczeństwie i etyce, Chińczycy po prostu stawiają na brutalną efektywność i szybsze pisanie kodu. Dzięki temu otrzymują model, który sam poprawia swoje błędy, zanim człowiek zdąży je zauważyć.
Introducing MiniMax-M2.7, our first model which deeply participated in its own evolution, with an 88% win-rate vs M2.5
– Production-Ready SWE: With SOTA performance in SWE-Pro (56.22%) and Terminal Bench 2 (57.0%), M2.7 reduced intervention-to-recovery time for online incidents… pic.twitter.com/w21vUczxzV
— MiniMax (official) (@MiniMax_AI) March 18, 2026
Benchmarki – gdzie M2.7 wygrywa z poprzednikami?
W zestawieniu z modelem M2.5, o którym pisaliśmy niedawno w kontekście analizy benchmarków i kosztów, nowa wersja 2.7 to potężny skok w dziedzinie inżynierii oprogramowania. Wynik 56,22% w teście SWE-Pro pozwala mu bez kompleksów rywalizować z GPT-5.3-Codex. Z kolei rezultat 57,0% w Terminal Bench 2 potwierdza, że model świetnie radzi sobie z obsługą złożonych systemów operacyjnych i komend terminala.
Przyjrzyjmy się konkretnym liczbom, które rzucają wyzwanie rynkowym gigantom:
- Przetwarzanie dokumentów: wynik Elo 1495 na GDPval-AA to obecnie szczyt możliwości wśród modeli o zbliżonej architekturze
- Halucynacje: wskaźnik na poziomie 34% – dla porównania Claude Sonnet 4.6 notuje tu 46%
- MM Claw: imponująca 97-procentowa zgodność w 40 zadaniach wymagających długiego kontekstu (powyżej 2000 tokenów)
- Intelligence Index: 50 punktów, co daje 8. miejsce w globalnym rankingu modeli AI
Chińczycy ewidentnie celują w realne zadania produkcyjne, a nie tylko w „pudrowanie” wyników pod publiczkę.
Mimo drobnego spadku w BridgeBench (z 12. na 19. lokatę), w kategorii agentów i programowania M2.7 wyrasta na prawdziwą bestię, która może namieszać w codziennej pracy deweloperów.
Ceny i plany – taniocha na froncie AI
Dobra wiadomość dla oszczędnych: MiniMax M2.7 jest dostępny przez oficjalne API oraz popularne platformy agentowe, a cennik pozostał zamrożony na poziomie wersji M2.5. Płacimy 0,30 USD za milion tokenów wejściowych oraz 1,20 USD za wyjściowe. To sprawia, że mamy do czynienia z jednym z najbardziej opłacalnych modeli klasy „frontier” na rynku – taniej wychodzi jedynie Grok 4.1 Fast, co stawia konkurencję od OpenAI czy Google w trudnej sytuacji.
| Model | Input ($/M) | Output ($/M) | Total ($) |
|---|---|---|---|
| Grok 4.1 Fast | 0.20 | 0.50 | 0.70 |
| MiniMax M2.7 | 0.30 | 1.20 | 1.50 |
| Gemini 3 Flash | 0.50 | 3.00 | 3.50 |
| GLM-5-Turbo | 0.96 | 3.20 | 4.16 |
| Claude Opus 4.6 | 5.00 | 25.00 | 30.00 |
Porównanie cen za milion tokenów w topowych modelach AI
Struktura subskrypcji została zaprojektowana tak, by ułatwić skalowanie projektów. Deweloperzy na starcie mogą wybrać plan Starter za 10 USD miesięcznie, co pozwala na 1500 zapytań w oknie 5-godzinnym. Dla profesjonalistów przygotowano plan Max za 50 USD, a przy płatności rocznej można liczyć na 20% zniżki. System poleceń dorzuca kolejne 10% rabatu. To niemal zabawne, że za ułamek ceny Claude Opus otrzymujemy model o zbliżonych możliwościach, prosto z Szanghaju.
Integracje i narzędzia – gotowe do pracy
MiniMax nie bawi się w zbędne oczekiwanie na dedykowane biblioteki SDK. Model M2.7 od pierwszego dnia współpracuje z 11 popularnymi narzędziami deweloperskimi, takimi jak Cursor, Claude Code czy OpenClaw. Co istotne, wspiera on standard Model Context Protocol (MCP), co pozwala na bezproblemowe podpięcie narzędzi do przeszukiwania sieci czy zaawansowanej analizy obrazów.
Przejście na nowe rozwiązanie jest banalnie proste – wystarczy w konfiguracji podmienić bazowy adres URL (np. z Anthropic) na endpoint MiniMax. W środowisku OpenClaw konfiguracja analizy wizualnej odbywa się w pełni automatycznie. Skyler Miao pochwalił się, że wewnętrzne testy wykazały 97% precyzji w scenariuszach agentowych obejmujących 40 zróżnicowanych umiejętności. To jasny sygnał, że model jest gotowy do wdrożenia w realnych procesach biznesowych, a nie tylko do zabawy na czacie.
Co to znaczy dla firm i rynku?
Dla dyrektorów technicznych i liderów zespołów M2.7 to jasny komunikat: era autonomicznych agentów AI właśnie się zaczęła. Model potrafi skrócić czas reakcji na incydenty techniczne do zaledwie 3 minut, sprawnie łącząc analizę metryk z modyfikacjami w repozytoriach kodu. Co więcej, utrzymanie tej inteligencji kosztuje mniej niż jedną trzecią tego, co trzeba zapłacić za GLM-5 – w teście Intelligence Index koszt uzyskania wyniku to 176 USD kontra 547 USD u konkurencji.
Oczywiście, chińskie pochodzenie i zamknięty charakter modelu mogą budzić obawy w zachodnich korporacjach, szczególnie tych działających w silnie regulowanych sektorach. Niemniej jednak, koncepcja samodoskonalenia się modeli (self-evolution) to kierunek, z którego nie ma odwrotu. Algorytmy będą ewoluować znacznie szybciej niż ludzkie zespoły inżynierskie. MiniMax udowadnia, że Chiny przestały być tylko sprawnym naśladowcą – w wyścigu o autonomiczne systemy agentowe zaczynają dyktować własne warunki.
Źródła: VentureBeat, minimax.io/news/minimax-m27-en, minimax.io/models/text/m27
