Wyobraź sobie model AI, który dorównuje intelektem Transformerom, ale nie pożera pamięci operacyjnej jak wygłodniały odkurzacz. Zespół Alberta Gu i Tri Dao właśnie udostępnił Mamba-3 – otwartoźródłową alternatywę, która drastycznie skraca czas odpowiedzi i tnie koszty infrastruktury. Sprawdzamy, czy to faktycznie koniec dominacji starej architektury.
TL;DR
- Mamba-3 osiąga taką samą perplexity jak Mamba-2 przy zredukowaniu rozmiaru stanu o połowę
- Wariant 1,5 mld parametrów notuje 57,6% dokładności, bijąc standardowy Transformer o 2,2 pp
- Wprowadzono trzy kluczowe innowacje: dyskretyzację trapezoidalną, stany zespolone oraz MIMO
- Kod dostępny na licencji Apache 2.0 w repozytorium GitHub state-spaces/mamba
- Podejście inference-first eliminuje problem bezczynności GPU podczas generowania tekstu
Od Transformerów do Mamba – krótka historia głodu obliczeniowego
Współczesna era generatorów AI, którą zapoczątkował ChatGPT pod koniec 2022 roku, opiera się na fundamentach wylanych jeszcze w 2017 roku przez Google. Mowa o słynnej architekturze Transformer z pracy „Attention Is All You Need”. Choć te modele po mistrzowsku ważą znaczenie słów w kontekście, ich utrzymanie kosztuje krocie ze względu na kwadratowy wzrost zapotrzebowania na obliczenia i pamięć. Chcesz wrzucić do promptu całą książkę? Powodzenia, Twój serwer prawdopodobnie właśnie wyzionął ducha.
Naprzeciw tym problemom wyszedł zespół z Carnegie Mellon i Princeton. Albert Gu oraz Tri Dao w 2023 roku zaprezentowali światu Mamba – modele przestrzeni stanów (SSM), które zamiast trzymać w pamięci całą historię, kompresują ją do eleganckiego „zdjęcia mentalnego”. Mamba-3 to najnowsza iteracja tego pomysłu, udostępniona na licencji Apache 2.0, co czyni ją gotową do komercyjnego boju.
The newest model in the Mamba series is finally here 🐍
Hybrid models have become increasingly popular, raising the importance of designing the next generation of linear models.
We’ve introduced several SSM-centric ideas to significantly increase Mamba-2’s modeling capabilities… pic.twitter.com/4NFZGicSRx
— Albert Gu (@_albertgu) March 17, 2026
To swoista ironia losu: transformery dominują na rynku głównie dlatego, że przez lata nikt nie dostarczył realnej alternatywy. Aż do teraz.
Perplexity, czyli miara pewności modelu językowych wzorców
W świecie AI termin „perplexity” określa stopień zaskoczenia modelu nowym tekstem. Im niższa wartość, tym lepiej algorytm rozumie ludzkie wzorce językowe – to taki nieoficjalny miernik inteligencji dla inżynierów. Mamba-3 w tym aspekcie po prostu błyszczy. Model osiąga identyczną perplexity co Mamba-2, ale robi to przy wykorzystaniu zaledwie połowy rozmiaru stanu, co jest technologicznym majstersztykiem.
Liczby nie kłamią: przy skali 1,5 mld parametrów wariant MIMO wykręca 57,6% średniej dokładności w benchmarkach. To o 2,2 punktu procentowego więcej niż klasyczny Transformer, co przekłada się na blisko 4-procentowy skok jakościowy w modelowaniu języka. Podczas gdy inne modele dostają zadyszki przy długich sekwencjach, architektura SSM przetwarza całe biblioteki bez mrugnięcia okiem.
Warto przypomnieć, że starsze modele liniowe często wykładały się na banalnych zadaniach logicznych, takich jak sprawdzanie parzystości bitów. Mamba-3 radzi sobie z nimi bezbłędnie, udowadniając swoją wyższość.
Inference-first – bo trening to nie wszystko
O ile Mamba-2 skupiała się na przesuwaniu granic wydajności treningu, o tyle Mamba-3 stawia na wnioskowanie (inference). Chodzi o ten moment, w którym ChatGPT generuje dla Ciebie odpowiedź, a agenci AI podejmują decyzje w czasie rzeczywistym. Twórcy rozwiązali tu problem tzw. „zimnych GPU”, gdzie potężne chipy marnują czas czekając na dane z pamięci. Mamba-3 wyciska z każdej sekundy obliczeń absolutne maksimum.
Cała filozofia opiera się na balansowaniu między czystą inteligencją a fizycznymi ograniczeniami sprzętu. Nawet giganci tacy jak Nvidia eksperymentują z hybrydami (np. Nemotron-3 Super), łącząc zalety Mamby i Transformerów. Mamba-3 skutecznie łata „lukę logiczną” modeli liniowych, które do tej pory miewały problemy z prostym rozumowaniem.
Osiągnięcie 57,6% dokładności na modelu 1,5B to nie jest dzieło przypadku. To znalezienie punktu optymalnego w sensie Pareto: dostajemy ogromną moc przy zachowaniu stałej, wysokiej prędkości dekodowania.
Trzy skoki technologiczne w jądrze SSM
Modele liniowe mają tę przewagę, że skalują się liniowo, ale ich słabością była dotąd nadmierna kompresja kontekstu. Mamba-3 wprowadza trzy innowacje, które sprawiają, że stały stan modelu staje się znacznie potężniejszy niż w poprzednich wersjach. To one stanowią o sile nowej architektury i pozwalają jej rywalizować z gigantami.
- Ekspansyjno-trapezoidalna dyskretyzacja: to zaawansowana aproksymacja drugiego rzędu, która pozwala lepiej przekładać ciągłe dane na formę cyfrową, eliminując potrzebę stosowania krótkich konwolucji.
- Stany zespolone z mechanizmem „RoPE”: zastosowanie obrotowych osadzeń pozycyjnych zależnych od danych pozwala modelowi precyzyjnie śledzić stan, co rozwiązuje problemy z logiką binarną.
- MIMO (Multi-Input Multi-Output): zastąpienie prostego iloczynu zewnętrznego mnożeniem macierzowym pozwala na wykonywanie 4-krotnie większej liczby operacji równolegle.
Dzięki tym zmianom MIMO drastycznie podbija wykorzystanie GPU, szczególnie w kluczowej fazie dekodowania tekstu.
Dla firm to niższe koszty, szybsi agenci
W biznesie nikt nie patrzy tylko na benchmarki – liczy się całkowity koszt posiadania (TCO) infrastruktury AI. Mamba-3 pozwala niemal podwoić przepustowość wnioskowania na tym samym zestawie kart graficznych. To kluczowa informacja dla firm budujących zaawansowanych agentów kodujących czy systemy obsługi klienta, gdzie skala operacji rośnie lawinowo.
- Stosunek kosztów do wydajności: identyczna jakość (perplexity) co w Mamba-2, ale przy o połowę mniejszym obciążeniu pamięci.
- Agenci AI: niska latencja jest niezbędna, by systemy mogły wykonywać wiele zadań równolegle bez irytujących opóźnień.
- Podejście hybrydowe: możliwość łączenia SSM dla sprawnej pamięci z Transformerami dla precyzyjnego przeszukiwania baz danych.
Nowa architektura realnie podwaja throughput inferencji, co przekłada się na konkretne oszczędności w budżecie IT.
Jak zauważa Tri Dao, to właśnie sprawność wnioskowania będzie w najbliższym czasie napędzać rozwój autonomicznych agentów.
Dostępność i reakcje – studenci prowadzą rewolucję
Kod źródłowy projektu trafił już na GitHub (state-spaces/mamba), a bibliotekę można zainstalować prostym poleceniem „pip install mamba-ssm”. Choć na ten moment brakuje jeszcze gotowych, wytrenowanych wag (checkpointów) dla Mamba-3, sam blok SSM jest w pełni gotowy do integracji z własnymi rozwiązaniami. Licencja Apache 2.0 daje pełną swobodę – od modyfikacji po komercyjną sprzedaż produktów opartych na tej technologii.
Co ciekawe, za sukcesem stoją m.in. zdolni studenci: Aakash Lahoti i Kevin Y. Li, pracujący pod okiem Zico Koltera. Albert Gu nie szczędzi pochwał dla ich pracy, określając nową architekturę mianem „eleganckiej matematyki”. Społeczność na platformie X zareagowała entuzjastycznie, ogłaszając początek nowej ery w świecie modeli przestrzeni stanów.
„Jesteśmy niezwykle zadowoleni z finalnego designu! Te trzy kluczowe zmiany wynikają z naprawdę eleganckiej matematyki.” – Albert Gu
Źródła: VentureBeat, arXiv.org (2603.15569), GitHub state-spaces/mamba, X @_albertgu i @tri_dao
