Wyobraź sobie AI, które przejmuje Twoją zmianę i koduje przez pełne osiem godzin bez marudzenia i Twojej ingerencji. Z.ai właśnie wypuściło GLM-5.1 – chiński model open source, który w benchmarku SWE-Bench Pro wykręcił 58,4 proc., zostawiając w tyle GPT-5.4 oraz Claude Opus 4.6. To już nie jest krótki sprint w stronę odpowiedzi, to prawdziwy maraton inżynieryjny.
TL;DR
- GLM-5.1 posiada 754 miliardy parametrów w architekturze Mixture of Experts
- Wynik 58,4 proc. na SWE-Bench Pro – lepiej niż GPT-5.4 (57,7 proc.) i Claude Opus 4.6 (57,3 proc.)
- Pełna autonomia do 8 godzin pracy przy wykonaniu nawet 1700 kroków wywołań narzędzi
- Model dostępny na Hugging Face na liberalnej licencji MIT
- API startuje od 1,40 USD za milion tokenów wejściowych
Co kryje się za premierą GLM-5.1?
Z.ai postanowiło uderzyć w stół i udostępniło GLM-5.1 na bardzo liberalnej licencji MIT. Model to prawdziwa waga ciężka, posiadająca 754 miliardy parametrów w strukturze mieszanki ekspertów (MoE), co czyni go gotowym do poważnych zastosowań komercyjnych – wystarczy wejść na Hugging Face i pobrać wagi. To bezpośredni następca GLM-5 Turbo, który jeszcze miesiąc temu był dostępny wyłącznie jako zamknięte rozwiązanie.
Nowy model celuje prosto w inżynierię agentową, czyli segment zadań, w których sztuczna inteligencja musi samodzielnie planować, działać i poprawiać własne błędy przez długi czas. Lou, lider Z.ai, pochwalił się na platformie X, że o ile pod koniec zeszłego roku agenci AI radzili sobie z 20 krokami, o tyle GLM-5.1 potrafi pociągnąć ich aż 1700. Firma, wyceniana na giełdzie w Hong Kongu na 52,83 mld dolarów, wyraźnie stawia na długodystansowców.
Wcześniej analizowaliśmy model GLM-5, który zasłynął rekordowo niskim poziomem halucynacji. Teraz wersja 5.1 idzie o krok dalej, podnosząc poprzeczkę w kwestii stabilności podczas ekstremalnie długich sesji roboczych.
Introducing GLM-5.1: The Next Level of Open Source
– Top-Tier Performance: #1 in open source and #3 globally across SWE-Bench Pro, Terminal-Bench, and NL2Repo.
– Built for Long-Horizon Tasks: Runs autonomously for 8 hours, refining strategies through thousands of iterations.… pic.twitter.com/YQZLhKVwik— Z.ai (@Zai_org) April 7, 2026
Wzorzec schodkowy w optymalizacji
GLM-5.1 skutecznie omija pułapkę plateau, czyli momentu, w którym większość modeli AI przestaje robić postępy w długich i żmudnych zadaniach. Zamiast liczyć na prosty, liniowy progres, Chińczycy zastosowali tzw. wzorzec schodkowy, gdzie drobne korekty są przeplatane głębokimi zmianami strukturalnymi. W wymagającym teście VectorDBBench, podczas optymalizacji bazy wektorowej napisanej w Rust, model przetrwał 655 iteracji i wykonał ponad 6000 wywołań zewnętrznych narzędzi.
Przełom nastąpił w 90. iteracji, kiedy model porzucił pełne skanowanie na rzecz sondowania klastrów IVF z kompresją f16, co pozwoliło mu przeskoczyć z 3547 do 6400 zapytań na sekundę. Później wdrożył dwuetapowy proces z wstępnym punktowaniem u8 i rerankingiem f16, osiągając finalnie 21 500 QPS – to wynik sześciokrotnie lepszy niż ten, który Claude Opus 4.6 wykręcił w sesji ograniczonej do 50 kroków.
Co imponuje najbardziej, model samodzielnie identyfikował i usuwał wąskie gardła, takie jak zagnieżdżony paralelizm, jednocześnie dbając, by precyzja nie spadła poniżej krytycznych 95 proc. Można odnieść wrażenie, że kupując dostęp do tego modelu, dostajemy w pakiecie cały dział R&D zamknięty w cyfrowym pudełku.
Testy na kernele uczenia maszynowego
W benchmarku KernelBench na poziomie 3, GLM-5.1 zajął się optymalizacją całych architektur uczenia maszynowego, takich jak MobileNet czy Mamba, bezlitośnie bijąc referencyjne implementacje PyTorch. Mimo ograniczenia do 1200 kroków i wykorzystania tylko jednego układu GPU H100, model wypracował 3,6-krotny przyrost prędkości uśredniony dla 50 różnych problemów – to znacznie lepszy wynik niż w przypadku podstawowego GLM-5, który zatrzymał się na poziomie 2,6x.
Choć Claude Opus 4.6 wciąż utrzymuje tu lekką przewagę z wynikiem 4,2x, to otwartoźródłowy GLM-5.1 drastycznie przesuwa horyzont tego, co nazywamy produktywnością. Model potrafi stworzyć zamkniętą pętlę: eksperyment, ocena i optymalizacja, wyłapując błędy bezpośrednio z logów systemowych. Co ważne, wypracowane przez niego rozwiązania zostały sprawdzone pod kątem exploitów – działają stabilnie na zupełnie nowych zestawach danych.
Kluczem do sukcesu nie jest tu wcale gigantyczny kontekst rzędu 202 tys. tokenów, ale zdolność do utrzymania obranego celu przez tysiące operacji bez tzw. dryfu strategii, który zazwyczaj gubi mniejsze modele.
Subskrypcje i ceny API
GLM-5.1 staje się fundamentem ekosystemu Coding Plan od Z.ai, który oferuje trzy progi dostępu dla programistów. Pakiet Lite za 27 USD kwartalnie oferuje trzy razy większe limity niż Claude Pro, wersja Pro za 81 USD to pięciokrotność pakietu Lite i działanie o 40-60 proc. szybsze, natomiast opcja Max za 216 USD to gwarancja najwyższej wydajności nawet w godzinach szczytu.
Cennik API ustalono na poziomie 1,40 USD za milion tokenów wejściowych oraz 4,40 USD za wyjściowe, z opcją cache’owania za jedyne 0,26 USD. Warto pamiętać o specyfice chińskiego rynku – w godzinach szczytu (14-18 czasu pekińskiego) zużycie jest taryfikowane potrójnie, ale w ramach promocji trwającej do kwietnia 2026 roku, poza szczytem obowiązuje standardowy przelicznik 1x.
Starszy GLM-5 Turbo pozostaje modelem zamkniętym i tańszym, dedykowanym do prostszych, błyskawicznych zadań. Dla fanów rozwiązań lokalnych mamy dobrą wiadomość: model świetnie współpracuje z frameworkami vLLM czy SGLang, a pełną dokumentację i instrukcje znajdziecie na GitHubie.
Benchmarki ustanawiają nowe standardy
W prestiżowym teście SWE-Bench Pro, który polega na naprawianiu realnych błędów z GitHuba w ogromnym kontekście 200 tys. tokenów, GLM-5.1 wykręcił 58,4 proc. To wynik, który stawia go wyżej niż GPT-5.4 (57,7 proc.) czy wspomniany wcześniej Opus 4.6 (57,3 proc.). W Terminal-Bench 2.0 model zdobył 63,5 proc. przy użyciu Terminus-2, ustępując jedynie rozwiązaniu Claude Code (66,5 proc.).
Pozostałe wyniki również robią wrażenie: CyberGym na poziomie 68,7 proc. oraz MCP-Atlas z wynikiem 71,8 proc. W testach czystego rozumowania model osiągnął 95,3 proc. w AIME 2026 oraz 86,2 proc. w GPQA-Diamond. Ciekawostką z testów wewnętrznych jest fakt, że w ciągu 8 godzin AI zdołało od zera zbudować środowisko desktopowe Linuksa z menedżerem plików, terminalem i zestawem gier, iteracyjnie poprawiając każdy element.
To jasny sygnał, że w inżynierii oprogramowania przestaje liczyć się tylko to, jak szybko model wypluje fragment kodu, a zaczyna to, czy potrafi dowieźć kompletny, działający projekt do końca.
Open source z haczykiem
Udostępnienie wag modelu na licencji MIT to świetny ruch w stronę budowania społeczności, jednak trzeba pamiętać, że wersja Turbo pozostaje rozwiązaniem zamkniętym (proprietary). Z.ai stosuje tu sprawdzoną strategię „open core”, podobnie jak Alibaba w przypadku modeli Qwen, gdzie miesza się darmowe fundamenty z płatnymi, bardziej wydajnymi wariantami. CEO Zhang Peng stawia sprawę jasno: otwieramy inteligencję dla świata, ale infrastrukturę i najszybsze silniki trzymamy u siebie.
Model jest już dostępny do pobrania na platformach Hugging Face oraz ModelScope. Jest on w pełni kompatybilny z popularnymi narzędziami takimi jak Claude Code, OpenCode czy Droid, co ułatwia jego szybką adopcję w istniejących procesach deweloperskich. Obserwujemy tu ciekawy trend: open source służy do zdobywania rynku, a modele zamknięte do zarabiania konkretnych pieniędzy.
Wcześniej informowaliśmy, jak GLM-4.7 rzucał wyzwanie ChatGPT – teraz widzimy, że wersja 5.1 realnie bije zachodnią czołówkę w najbardziej wymagających scenariuszach.
Co mówi społeczność deweloperów
Pierwsze opinie programistów wskazują przede wszystkim na niespotykaną dotąd niezawodność w warunkach produkcyjnych. Użytkownicy chwalą fakt, że model wymaga znacznie mniej „poprawiania” promptów i wykazuje dużą pewność siebie przy skomplikowanych operacjach na plikach. Jeden z deweloperów przyznał, że proces przygotowania danych i tuningu, który normalnie zajmował mu tydzień, z GLM-5.1 zamknął w zaledwie dwa dni.
Oficjalny komunikat o premierze na platformie X wygenerował 46 tysięcy wyświetleń w zaledwie godzinę od publikacji. Użytkownicy testują już możliwości budowania czterech aplikacji jednocześnie, polegając na zaawansowanych funkcjach planowania modelu. Wygląda na to, że era walki z halucynacjami powoli odchodzi do lamusa – teraz wchodzimy w czas, w którym AI samo optymalizuje swoją pracę.
Z.ai skutecznie zmienia paradygmat pracy z AI: zamiast zastanawiać się, o co zapytać chatbota, zaczynamy myśleć, jakie zadanie zlecić mu na najbliższe 8 godzin.
Źródła:
VentureBeat, z.ai/blog/glm-5.1, Hugging Face zai-org/GLM-5.1, X @louszbd
