Przedsiębiorstwa testujące otwarte modele językowe zazwyczaj kręciły nosem na dotychczasowe warunki Google – ich licencje bywały restrykcyjne i nieprzewidywalne. Teraz Gemma 4 wchodzi na salony z Apache 2.0, co skutecznie usuwa bariery prawne i otwiera szeroko drzwi do komercyjnych wdrożeń. Co więcej, nowe modele dowożą wyniki, które zostawiają poprzednią generację daleko w tyle.

TL;DR

  • Gemma 4 jest dostępna na w pełni otwartej licencji Apache 2.0 bez ukrytych haczyków
  • Rodzina obejmuje cztery warianty: 31B (dense), 26B (MoE) oraz modele E2B i E4B na urządzenia edge
  • Natywna multimodalność pozwala na pracę z tekstem, obrazem i audio przy oknie kontekstowym do 256K tokenów
  • Imponujące wyniki w testach: model 31B osiągnął aż 89,2% w benchmarku AIME 2026
  • Architektura bazuje na najnowszych badaniach nad modelem Gemini 3

Licencja Apache 2.0 kończy z prawniczymi bólami głowy

Przez ostatnie lata wiele firm omijało rodzinę Gemma szerokim łukiem, ponieważ specyficzne warunki Google wymagały każdorazowej analizy prawnej. Gigant z Mountain View mógł modyfikować zapisy według własnego uznania, co skutecznie zniechęcało do poważnych inwestycji. Przejście na Apache 2.0 stawia Gammę w jednym rzędzie z takimi graczami jak Mistral czy Qwen – oznacza to brak klauzul o „szkodliwym użytkowaniu” oraz pełną swobodę w redystrybucji i komercjalizacji rozwiązań.

Timing tej decyzji wydaje się idealnie wymierzony. Podczas gdy chińskie laboratoria, jak choćby Alibaba ze swoim modelem Qwen 3.5 Omni, zaczynają zamykać dostęp do najpotężniejszych jednostek, Google otwiera najbardziej zaawansowaną wersję Gemma 4, czerpiąc garściami z doświadczeń przy Gemini 3. To swoista ironia losu: korporacja, która niegdyś straszyła prawniczymi restrykcjami, teraz staje się liderem otwartości, pozwalając deweloperom budować bez strachu przed nagłą zmianą reguł gry.

Usłyszeliśmy feedback o potrzebie otwartej licencji – Gemma 4 jest pod Apache 2.0 – ogłosiło oficjalne konto Google w serwisie X.

Cztery modele na dwa poziomy: od telefonu po serwery

Rodzina Gemma 4 została podzielona na dwa segmenty:

  1. „workstation”, w skład którego wchodzi 31B gęsty oraz 26B oparty na mieszance ekspertów (A4B),
  2. „edge” z modelami E2B i E4B.

Większe warianty bez problemu radzą sobie z przetwarzaniem tekstu i obrazów przy oknie kontekstowym rzędu 256 tysięcy tokenów, podczas gdy mniejsze jednostki dorzucają do tego obsługę audio przy 128 tysiącach tokenów.

Samo nazewnictwo modeli wymaga chwili uwagi, by nie pogubić się w cyferkach. Litera „E” oznacza parametry efektywne – przykładowo E2B posiada 2,3 mld parametrów efektywnych, ale fizycznie operuje na 5,1 mld dzięki zastosowaniu osadzeń per-warstwowych (PLE), co pozwala na drastyczne oszczędności mocy obliczeniowej. Z kolei A4B aktywuje jedynie 3,8 mld z łącznej puli 25,2 mld parametrów, oferując wydajność na poziomie 26B przy kosztach eksploatacji modelu 4B. Google dostarcza też gotowe punkty kontrolne z treningiem świadomym kwantyzacji (QAT), aby całość śmigała na słabszym sprzęcie.

Z perspektywy inżyniera to czysta elastyczność: wariant MoE poradzi sobie na konsumenckich kartach graficznych w środowisku Ollama, podczas gdy potężny 31B będzie już wymagał jednostek klasy H100. W chmurze Google Cloud możemy korzystać z opcji serverless przez Cloud Run z RTX Pro 6000, co pozwala na skalowanie zasobów do zera. Jest prosto, nowocześnie i przede wszystkim tanio.

Mieszanka 128 małych ekspertów tnie koszty inferencji

W przypadku modelu 26B A4B inżynierowie Google postawili na dość odważną architekturę składającą się ze 128 małych ekspertów. System aktywuje zaledwie ośmiu z nich na każdy token, dodając do tego jeden stały element sterujący. Efekt? Otrzymujemy wyniki porównywalne z gęstymi modelami o rozmiarze 27-31B, zachowując przy tym prędkość działania charakterystyczną dla małych jednostek 4B. Oznacza to mniejsze zapotrzebowanie na pamięć VRAM, niższe opóźnienia i po prostu tańsze tokeny.

Zastosowano tu również hybrydowy mechanizm uwagi (attention mechanism), który sprytnie miesza lokalne okna z globalnym spojrzeniem na dane. Pozwala to na utrzymanie 256K kontekstu bez „zabijania” pamięci operacyjnej serwera. To idealne rozwiązanie do analizy grubych tomów dokumentacji czy budowy agentów AI. To nie są puste obietnice – to realne oszczędności dla firm tworzących asystentów programowania czy systemy zautomatyzowanego przetwarzania plików.

Dla zespołów budujących zaawansowane procesy przetwarzania danych, takie podejście to prawdziwa żyła złota. Architektura MoE wygrywa ekonomią skali, szczególnie w wieloetapowych ścieżkach pracy (workflows). Wygląda na to, że Google w końcu zaczęło brać pod uwagę portfele użytkowników, a nie tylko suche słupki w tabelkach z benchmarkami.

Natywna multimodalność i wywoływanie funkcji od zera

W nowej generacji multimodalność została wreszcie wpisana w fundamenty architektury, a nie doklejona jako zewnętrzny moduł. Wszystkie modele Gemma 4 radzą sobie z obrazami o dowolnych proporcjach, oferując budżet tokenów wizualnych od 70 do 1120. Niższe wartości świetnie sprawdzają się w klasyfikacji, natomiast wyższe są niezbędne do precyzyjnego OCR i parsowania złożonych dokumentów. System wspiera także analizę wielu grafik jednocześnie oraz wideo traktowanego jako sekwencja klatek.

Modele przeznaczone na urządzenia końcowe (E2B, E4B) wprowadzają natywne przetwarzanie audio bezpośrednio na sprzęcie użytkownika. Obejmuje to rozpoznawanie mowy oraz tłumaczenie w czasie rzeczywistym, dzięki enkoderowi skompresowanemu do 305 mln parametrów, który analizuje klatki dźwięku co 40 ms. W przypadku aplikacji medycznych (healthcare) czy systemów serwisowych, gdzie prywatność jest kluczowa, całe przetwarzanie odbywa się lokalnie, bez konieczności wysyłania danych do chmury.

Równie istotne jest wywoływanie funkcji (function calling), które było trenowane od podstaw i inspirowane rozwiązaniem FunctionGemma. Jest to rozwiązanie optymalne dla agentów korzystających z wielu zewnętrznych narzędzi, eliminujące potrzebę stosowania skomplikowanych sztuczek w promptach. Mniej kombinowania, więcej stabilnego działania – sektor enterprise z pewnością to doceni.

Benchmarki stawiają Gammę 4 w czołówce otwartej stawki

Spójrzmy na twarde dane dla wariantu 31B gęstego: 89,2% w AIME 2026 (matematyka), 80% w LiveCodeBench v6 oraz ELO na poziomie 2150 w serwisie Codeforces. W testach wizyjnych model osiągnął 76,9% w MMMU Pro. Wersja MoE depcze mu po piętach z wynikami 88,3% w AIME oraz 77,1% w LiveCodeBench. Nawet najmniejszy E4B dowozi solidne 42,5% w AIME, co jest wynikiem imponującym jak na model działający na karcie graficznej klasy T4.

Model AIME 2026 (%) LiveCodeBench v6 (%) GPQA Diamond (%)
Gemma 4 31B 89.2 80.0
Gemma 4 26B MoE 88.3 77.1 82.3
Gemma 4 E4B 42.5 52.0
Gemma 3 27B 20.8 29.1

Kluczowe benchmarki Gemma 4 w porównaniu do poprzedniej generacji

Porównując te liczby z modelami Qwen 3.5 czy GLM-5 pochodzącymi z chińskich stajni, widać, że Gemma 4 nie stara się dominować tylko w jednej kategorii. Zamiast tego oferuje kompletny pakiet: zaawansowane rozumowanie, multimodalność, ogromne okno kontekstowe i sprawne wywoływanie funkcji. Biorąc pod uwagę, że Gemma 3 27B osiągała zaledwie 20,8% w AIME, postęp jest wręcz miażdżący. Rynek pędzi do przodu, ale Google dostarczyło właśnie najbardziej wszechstronne narzędzie w swojej klasie.

Jednak to nie tylko cyferki robią wrażenie – licencja pozwala na swobodny fine-tuning bez obaw o przyszłe roszczenia. Możemy tworzyć własne bazy wiedzy dla modeli dziedzinowych i wdrażać je w modelu serverless na Cloud Run. Google już teraz sugeruje, że wkrótce rodzina powiększy się o kolejne rozmiary.

Co to znaczy dla firm?

Dostępność gotowych wag modeli oraz wersji dostrojonych instrukcyjnie sprawia, że Gemma 4 to idealny fundament pod własne modyfikacje. Apache 2.0 ostatecznie ucina wszelkie spekulacje dotyczące komercyjnego wykorzystania produktów pochodnych. Dzięki architekturze serverless z GPU, firmy mogą płacić wyłącznie za faktyczne użycie, eliminując koszty utrzymywania stałych, bezczynnych instancji.

Dla wewnętrznych narzędzi korporacyjnych czy projektów o mniejszym natężeniu ruchu, mamy do czynienia z prawdziwą rewolucją kosztową. Możliwość przejścia od urządzeń edge do chmury w ramach jednej rodziny modeli, wspartej badaniami nad Gemini 3, to potężny atut. Firmy, które dotąd wstrzymywały się z adopcją rozwiązań Google przez prawnicze niejasności, mogą wreszcie ruszyć z miejsca. To zabawne, że gdy chińscy konkurenci zamykają swoje technologie, Alphabet decyduje się wyłożyć na stół swoją najmocniejszą kartę.

Źródła:

VentureBeat, Google Blog (blog.google/technology/developers/gemma-4), DeepMind Blog (deepmind.google/technologies/gemma-4), Hugging Face Blog (huggingface.co/blog/gemma4), Ars Technica, The Verge, tweety @Google i @GoogleDeepMind

Najczęściej zadawane pytania