Ile mocy obliczeniowej potrzeba do uruchomienia Qwen 3.5-397B-A17B?

Wersja skwantyzowana wymaga minimum 256 GB RAM, jednak dla optymalnej wydajności zaleca się 512 GB na klastrze GPU. Model najlepiej działa na 8 kartach graficznych z wykorzystaniem bibliotek vLLM lub SGLang.

Czy Qwen 3.5 faktycznie dorównuje GPT-5.2 lub Gemini 3?

W benchmarkach takich jak MMLU-Pro (87,8%) czy SWE-bench (76,4%) model ten osiąga wyniki zbliżone, a czasem nawet lepsze od zamkniętych systemów, szczególnie w kodowaniu i zadaniach wizualnych, oferując przy tym znacznie niższe koszty eksploatacji.

Jak można przetestować ten model lokalnie?

Wagi modelu można pobrać z Hugging Face i uruchomić za pomocą frameworków Transformers, vLLM lub SGLang. Do budowy agentów służą narzędzia Qwen-Agent lub Qwen Code. Szybkie testy są możliwe na stronie chat.qwen.ai.

Czy model Qwen 3.5 radzi sobie z językiem polskim?

Tak, polski znajduje się na liście 201 wspieranych języków. Dzięki nowemu tokenizatorowi (250k tokenów) przetwarzanie tekstów w językach innych niż angielski jest tańsze i szybsze.

Na jakiej licencji udostępniono model?

Model jest dostępny na licencji Apache 2.0, co oznacza pełną swobodę w zastosowaniach komercyjnych, modyfikowaniu kodu oraz jego dalszej redystrybucji.

Qwen 3.5 od Alibaby: Szybszy i tańszy niż Qwen3-Max

Wyobraźcie sobie model AI, który dysponuje potężną liczbą 397 miliardów parametrów, ale w praktyce zużywa tyle mocy obliczeniowej, co skromna jednostka 17-miliardowa. Alibaba właśnie dowieźli taki projekt pod nazwą Qwen 3.5-397B-A17B, przy okazji upokarzając swój poprzedni flagowiec Qwen3-Max, który miał ich ponad bilion. Co najlepsze, całość jest dostępna jako open-source i działa natywnie wielomodalnie – wygląda na to, że Chińczycy znów wyprzedzili Zachód o pewny krok.

TL;DR

Qwen 3.5-397B-A17B posiada 397 mld parametrów, ale dzięki architekturze MoE z 512 ekspertami aktywuje tylko 17 mld na token
Oferuje 19-krotnie szybsze dekodowanie niż Qwen3-Max przy oknie kontekstowym 256 tys. tokenów i kosztach niższych o 60%
Model jest natywnie wielomodalny: osiąga 85% w teście MMMU oraz 90,3% w MathVista
Wspiera aż 201 języków dzięki rozbudowanemu słownikowi obejmującemu 250 tys. tokenów
Dostępny na licencji Apache 2.0; wersja skwantyzowana wymaga minimum 256 GB pamięci RAM

Architektura oparta na rzadkim modelu mieszanki ekspertów

Qwen 3.5-397B-A17B to bezpośredni następca eksperymentalnego modelu Qwen3-Next, który zadebiutował we wrześniu zeszłego roku. Zespół inżynierów z Alibaba Cloud postawił na agresywne skalowanie architektury, zwiększając liczbę specjalistycznych modułów w ramach struktury Mixture of Experts (MoE) ze 128 do aż 512 ekspertów. Efekt? Na każdy pojedynczy token model aktywuje zaledwie 17 miliardów parametrów z całkowitej puli 397 miliardów. To trochę tak, jakbyś miał do dyspozycji całą armię specjalistów, ale do konkretnego zadania budził tylko kilku najzdolniejszych.

Dzięki zoptymalizowanemu mechanizmowi uwagi (attention mechanism) oraz technologii przewidywania wielu tokenów (multi-token prediction), model notuje drastycznie niższe opóźnienia podczas generowania odpowiedzi. Przy oknie kontekstowym rzędu 256 tysięcy tokenów, Qwen 3.5 dekoduje tekst 19 razy szybciej niż Qwen3-Max i 7,2 raza szybciej niż Qwen3 235B-A22B. Wisienką na torcie jest fakt, że model jest o 60 procent tańszy w utrzymaniu i radzi sobie z ośmiokrotnie większym obciążeniem jednoczesnym – to liczby, przy których każdy szef działu IT odetchnie z ulgą.

Wersja z otwartymi wagami operuje na kontekście 256 tysięcy tokenów, natomiast hostowany wariant Qwen3.5-Plus w usłudze Alibaba Cloud Model Studio potrafi przetworzyć nawet milion tokenów. Ironia losu polega na tym, że chiński model udowadnia całemu światu, iż nie trzeba „palić prądu” na pełnych obrotach, by prezentować poziom intelektualny cyfrowego giganta.

Natywna wielomodalność bez łatki na wizję

Alibaba ostatecznie porzuciła stary schemat budowania AI, gdzie do modelu językowego doklejało się zewnętrzny enkoder wizyjny. Qwen 3.5 był trenowany od podstaw jednocześnie na tekstach, obrazach i materiałach wideo, co sprawia, że rozumowanie wizualne jest wpisane w samo jądro modelu. To nie jest kolejna „nakładka”, ale prawdziwa technologiczna jedność – rozwiązanie idealne, gdy trzeba przeanalizować skomplikowane diagramy techniczne lub wyciągnąć konkretne dane z rzutu ekranu interfejsu użytkownika.

W benchmarkach wielomodalnych nowy Qwen po prostu błyszczy: wykręcił 90,3 procenta w MathVista oraz 85 procent w MMMU. W zadaniach wizualnych potrafi prześcignąć Claude Opus 4.5 i depcze po piętach takim potęgom jak GPT-5.2 czy Gemini 3, mimo że operuje na ułamku ich zasobów. Przykładowo, w teście OmniDocBench1.5 osiąga wynik 90,8 procenta, a w OCRBench 93,1 – to statystyki, które mogą zaboleć każdego, kto co miesiąc opłaca faktury za API od amerykańskich gigantów.

Tak głęboka natywność przekłada się na znacznie lepszą spójność w zadaniach hybrydowych, takich jak agentowe przetwarzanie interfejsów. Chińczycy po raz kolejny pokazują, że zamiast budować konstrukcje z klocków Lego, lepiej jest stworzyć monolityczny odlew o doskonałych parametrach.

Benchmarki: wygrywa z poprzednikami i konkurentami

Nowy model bez problemu pokonuje swojego poprzednika, Qwen3-Max – tego samego, który straszył konkurencję ponad bilionem parametrów – w obszarach rozumowania, programowania i zadań agentowych.

W teście MMLU-Pro uzyskał 87,8 procenta,
W prestiżowym SWE-bench Verified wykręcił 76,4 procenta.
W LiveCodeBench v6 osiągnął wynik 83,6 .

Takie rezultaty stawiają go w ścisłej czołówce modeli open-weight, niebezpiecznie blisko zamkniętych rozwiązań typu proprietary, jak wspomniane GPT-5.2 czy Gemini 3 Pro.

W dziedzinie matematyki Qwen 3.5 wręcz deklasuje rywali: 91,3 procenta w AIME26 oraz 80,9 w IMOAnswerBench to wyniki z najwyższej półki. Testy agentowe, takie jak Tool Decathlon, dają mu 38,3 procenta, a przy wykorzystaniu narzędzi HLE wynik rośnie do 48,3. Warto też wspomnieć o sukcesach wideo – VideoMME z napisami to solidne 87,5 procenta. Może i nie dominuje w każdej kategorii, ale biorąc pod uwagę stosunek jakości do ceny, mamy do czynienia z czystym nokautem.

Porównując go do modelu Qwen3-Max-Thinking, który swego czasu wygrywał „Ostatni Egzamin Ludzkości”, Qwen 3.5 stanowi naturalną ewolucję: jest mniejszy, szybszy, a przy tym równie inteligentny. Firmy powoli przestają widzieć sens w płaceniu za wynajem cudzej inteligencji, skoro mogą mieć własną na podobnym poziomie.

Obsługa 201 języków i efektywny tokenizator

Słownik modelu rozrósł się do imponujących 250 tysięcy tokenów – dla porównania, poprzednie wersje Qwen miały ich 150 tysięcy. To stawia Alibabę na poziomie Google (~256 tysięcy). Model natywnie wspiera teraz 201 języków i dialektów, w tym tak wymagające jak arabski, tajski, koreański, japoński czy hindi. W praktyce oznacza to redukcję liczby tokenów o 15-40 procent w przypadku skryptów niełacińskich.

Wyniki w benchmarkach wielojęzycznych mówią same za siebie: MMMLU na poziomie 88,5 procenta oraz MMLU-ProX z wynikiem 84,7 (średnia z 29 języków). W teście WMT24++, obejmującym 55 języków, model uzyskał 78,9 procenta. Dla przedsiębiorstw operujących na rynkach międzynarodowych to realna oszczędność na etapie wnioskowania (inference) – mniej tokenów to po prostu niższe rachunki i błyskawiczne odpowiedzi dla klienta końcowego.

To nie jest tylko akademicka ciekawostka, ale konkretny atut przy wdrażaniu technologii w biznesie. Alibaba doskonale rozumie, że świat nie kończy się na języku angielskim, i co ważne – każe sobie za tę wiedzę płacić znacznie mniej niż konkurencja.

Agentowe zdolności i integracje narzędziowe

Qwen 3.5 to model agentowy z krwi i kości. Został przeszkolony w 15 tysiącach zróżnicowanych środowisk uczenia ze wzmocnieniem, co przekłada się na znacznie lepsze planowanie i egzekucję złożonych zadań. Otwarty projekt Qwen Code oferuje interfejs wiersza poleceń, który pozwala delegować zadania programistyczne przy użyciu języka naturalnego, co mocno przypomina Claude Code od Anthropic.

Model jest w pełni kompatybilny z OpenClaw – otwartą strukturą agentową – i wspiera różne tryby pracy: od szybkiego (low-latency), przez tryb myślowy (chain-of-thought) dla trudnych problemów, aż po tryb automatyczny. W testach takich jak OSWorld-Verified uzyskał 62,2 procenta, a w AndroidWorld 66,8. Potrafi grać w gry wideo czy budować strony internetowe, działając w sposób w pełni autonomiczny i agentyczny.

Dzięki bibliotece Qwen-Agent bez problemu obsługuje narzędzia takie jak MCP czy systemy plików. To pewna ironia, że chiński model open-source dostarcza za darmo funkcjonalności, za które amerykańscy giganci każą sobie słono płacić w modelu subskrypcyjnym.

Wdrożenie: sprzęt, licencja i dostępność

Jeśli planujecie uruchomić wersję open-weight we własnej infrastrukturze, musicie przygotować się na spore wymagania sprzętowe. Skwantyzowana wersja potrzebuje około 256 GB RAM, choć dla pełnego komfortu zalecane jest 512 GB – mówimy tu o klastrze GPU, a nie o domowym laptopie. Model najlepiej sprawuje się na zestawie 8 jednostek GPU z wykorzystaniem tensor parallel (przez SGLang lub vLLM), oferując natywny kontekst 262 tysięcy tokenów, który można rozszerzyć do miliona dzięki metodzie YaRN scaling.

Licencja Apache 2.0 to świetna wiadomość dla biznesu – pozwala na komercyjne wykorzystanie, dowolne modyfikacje i redystrybucję kodu bez konieczności płacenia tantiem. Prawnicy w korporacjach mogą spać spokojnie. Model jest już dostępny na platformie Hugging Face (pod ścieżką Qwen/Qwen3.5-397B-A17B), a darmowe testy można przeprowadzić na chat.qwen.ai lub przez Alibaba Cloud.

Dla działów IT to realna alternatywa dla „renty technologicznej” płaconej dostawcom API. Jeśli dysponujecie odpowiednią infrastrukturą, możecie mieć u siebie model klasy frontier AI bez ryzyka uzależnienia się od jednego dostawcy (vendor lock-in).

Co dalej w rodzinie Qwen 3.5?

Warto pamiętać, że to dopiero pierwsza odsłona serii 3.5. W najbliższym czasie możemy spodziewać się mniejszych modeli destylowanych, wariantów typu dense o rozmiarze od 600 milionów parametrów oraz kolejnych jednostek MoE. Skoro Qwen3-Next 80B był traktowany jako projekt przejściowy, to pełnoprawny model 3.5 w tej skali pojawi się lada moment.

Alibaba konsekwentnie buduje ekosystem open-weight, stawiając na zaawansowane rozumowanie, multimodalność i gigantyczne okno kontekstowe bez konieczności korzystania z zamkniętych API. Pytanie nie brzmi już, czy ten model jest wystarczająco zdolny, ale czy Twoja organizacja jest gotowa na jego wdrożenie.

Kierunek zmian jest oczywisty: chińska sztuczna inteligencja staje się realną opcją zakupową dla każdego, kto ceni sobie pełną kontrolę nad danymi i technologią. Zachód musi przyspieszyć, jeśli nie chce zostać w tyle.

Źródła: VentureBeat , Hugging Face model card (Qwen/Qwen3.5-397B-A17B), Qwen.ai blog, X thread Alibaba_Qwen (post 2023331062433153103), Alibaba Cloud Model Studio

Nowy Qwen 3.5 jest 19 razy szybszy od Qwen3-Max i tańszy o 60 procent. Czas na rewolucję w firmach?

TL;DR

Architektura oparta na rzadkim modelu mieszanki ekspertów

Natywna wielomodalność bez łatki na wizję

Benchmarki: wygrywa z poprzednikami i konkurentami

Obsługa 201 języków i efektywny tokenizator

Agentowe zdolności i integracje narzędziowe

Wdrożenie: sprzęt, licencja i dostępność

Co dalej w rodzinie Qwen 3.5?

Najczęściej zadawane pytania

Related Articles

Claude Managed Agents. Anthropic przejmuje sterowanie za ciebie?

Claude Mythos jest zbyt groźny. Anthropic ukrywa model przed światem

Meta pokazała Muse Spark. Nowy model AI chce uśmiercić rodzinę Llama