Gdzie mogę pobrać model Step 3.5 Flash?

Wagi modelu są publicznie dostępne na Hugging Face (profil stepfun-ai/Step-3.5-Flash) oraz na GitHubie. Możesz go uruchomić przez llama.cpp, OpenClaw lub skorzystać z oficjalnego API na api.stepfun.ai.

Czy Step 3.5 Flash zadziała lokalnie na moim komputerze?

Tak, o ile dysponujesz mocniejszym sprzętem klasy Mac Studio M4 Max lub stacją NVIDIA DGX Spark. Dzięki kwantyzacji INT4 GGUF model osiąga prędkość do 20 tokenów/s w warunkach domowych.

Z czego wynika tak duża szybkość Step 3.5 Flash?

To zasługa technologii MTP-3 (przewidywanie wielu tokenów naraz) oraz mechanizmu SWA dla ogromnego kontekstu 256K. Model jest lekki, bo aktywuje tylko 11B z 196B parametrów.

Czy ten model jest lepszy od Claude Opus 4.5?

Nie w każdym aspekcie. Claude Opus 4.5 wciąż prowadzi w niektórych testach agentycznych (np. Terminal-Bench), ale Step 3.5 Flash wygrywa pod względem efektywności kosztowej i w matematyce z PaCoRe.

Jak duży kontekst jest w stanie przetworzyć?

Model obsługuje do 256 tysięcy tokenów. Dzięki hybrydowej uwadze 3:1 SWA robi to przy znacznie niższym zużyciu pamięci VRAM niż tradycyjne modele.

Step 3.5 Flash od StepFun: 196B parametrów i niesamowita szybkość AI

Wyobraź sobie model językowy, który ma gabaryty giganta – 196 miliardów parametrów – ale porusza się z gracją sprintera, aktywując ledwie 11 miliardów w jednym momencie. Step 3.5 Flash od StepFun to właśnie taki zawodnik, który w benchmarkach bez kompleksów rzuca rękawicę zamkniętym potęgom pokroju GPT-5.2 czy Claude Opus 4.5. Czy to ostateczny sygnał, że era ociężałych, nieefektywnych olbrzymów właśnie dobiega końca?

TL;DR

Model posiada 196B parametrów całkowitych, ale wykorzystuje tylko 11B aktywnych na token dzięki architekturze MoE
Średni wynik 81% w ośmiu kluczowych benchmarkach stawia go wyżej niż GLM-4.7 (78.5%) oraz DeepSeek V3.2 (77.3%)
Osiągnął 74.4% w SWE-bench Verified i 51% w Terminal-Bench 2.0, co czyni go liderem w kodowaniu agentycznym
Obsługuje 256K tokenów kontekstu przy zawrotnej prędkości 100-300 tokenów/s dzięki technologiom MTP-3 i SWA
Model jest dostępny na Hugging Face i GitHub, co pozwala na lokalne uruchomienie np. na Mac Studio M4 Max

Architektura oparta na rzadkiej mieszance ekspertów

Step 3.5 Flash wykorzystuje architekturę rzadkiej mieszanki ekspertów (ang. sparse Mixture of Experts, MoE), w której całkowita liczba parametrów sięga 196 miliardów, jednak przy każdym tokenie pracuje zaledwie 11 miliardów z nich. Takie podejście gwarantuje gęstość inteligencji na poziomie najpotężniejszych modeli zamkniętych, eliminując jednocześnie marnowanie zasobów na zbędne obliczenia. Zespół StepFun postawił na głęboką synergię modelu z systemem, priorytetyzując niskie koszty inferencji oraz maksymalną prędkość działania.

W warstwie uwagi (attention) wdrożono hybrydowy układ w proporcji 3:1 – trzy warstwy z przesuwanym oknem (ang. Sliding Window Attention, SWA) przypadają na jedną warstwę pełną. Dodatkowo inżynierowie zwiększyli liczbę głów zapytań z 64 do 96 w mechanizmie SWA oraz wprowadzili bramkowaną uwagę głowicową, co usprawnia dynamiczny przepływ informacji. Dzięki tym zabiegom model błyskawicznie przetwarza długie konteksty bez irytujących spowolnień. 11B aktywnych parametrów stanowi tutaj fundament niespotykanej dotąd efektywności.

Ironia losu: podczas gdy inni producenci ścigają się na coraz większą liczbę parametrów, StepFun udowadnia, że mniej znaczy więcej – szczególnie gdy stosuje się routing top-8 z 288 ekspertami na warstwę i jednym modułem współdzielonym.

Przewaga w rozumowaniu matematycznym

W testach matematycznych Step 3.5 Flash po prostu błyszczy, wykręcając 97.3% w AIME 2025 – prestiżowym American Invitational Mathematics Examination. Tym samym zostawia w tyle konkurencję w postaci GLM-4.7 (95.7%) czy DeepSeek V3.2 (93.1%). Po dorzuceniu rozszerzenia PaCoRe, czyli wariantu wspierającego równoległe myślenie, wynik szybuje do poziomu 99.9%, niemal ocierając się o ideał reprezentowany przez GPT-5.2 xhigh (100%).

Podobną dominację widać w IMOAnswerBench, symulującym wyzwania Międzynarodowej Olimpiady Matematycznej, gdzie model zgarnia 85.4%, a z PaCoRe aż 88.8% – to wynik lepszy od większości rynkowych rywali. W maratonie HMMT 2025 (Harvard-MIT Mathematics Tournament) średnia z sesji lutowej i listopadowej wyniosła 96.2%, a z PaCoRe 98.9%. Co ważne, te rezultaty osiągnięto przy standardowych ustawieniach, co tylko potwierdza bazową moc algorytmu.

Warto dodać, że przy wsparciu narzędzi takich jak interpreter języka Python, skuteczność rośnie jeszcze bardziej – przykładowo w AIME do poziomu 99.8%. Wynik 97.3% w AIME 2025 jasno pokazuje, że świat open-source nie musi już kłaniać się gigantom w zadaniach logicznych. Mała szpileczka: zamknięte korporacje mogą zacząć się pocić, bo chińskie modele otwarte właśnie siedzą im na ogonie.

Siła w kodowaniu i zadaniach agentycznych

Programowanie to naturalne środowisko dla Step 3.5 Flash – wynik 74.4% w SWE-bench Verified, czyli benchmarku opartym na realnych problemach inżynieryjnych, bije na głowę GLM-4.7 (73.8%) i DeepSeek V3.2 (73.1%). Choć model musi jeszcze uznać wyższość Claude Opus 4.5 (80.9%), to w Terminal-Bench 2.0, badającym długofalowe operacje w terminalu, 51% stawia go na szczycie stawki open-source.

W zestawieniu LiveCodeBench-V6 model wykręca 86.4% (z PaCoRe 88.9%), depcząc po piętach Gemini 3.0 Pro (90.7%). Z kolei w testach agentycznych τ²-Bench osiąga 88.2%, a w BrowseComp z inteligentnym zarządzaniem kontekstem 69%. Oto dlaczego ten model to solidny zawodnik:

SWE-bench Verified (74.4%): świetne rozkładanie wymagań na czynniki pierwsze i nawigacja w strukturze kodu.
Terminal-Bench 2.0 (51%): imponująca stabilność przy długich sekwencjach poleceń.
τ²-Bench (88.2%): wyjątkowo precyzyjne korzystanie z zewnętrznych narzędzi.

Osiągnięcie 74.4% SWE-bench Verified to jasny sygnał, że model jest gotowy do komercyjnej pracy. Z odrobiną sarkazmu: drogie, zamknięte agenty AI, możecie powoli szukać nowej pracy.

Szybkość inferencji i długi kontekst

Dzięki zastosowaniu technologii przewidywania trzech tokenów jednocześnie (ang. 3-way Multi-Token Prediction, MTP-3), model generuje od 100 do 300 tokenów na sekundę w codziennym użytkowaniu, osiągając szczytowo nawet 350 tokenów/s przy pisaniu kodu. Pozwala to na budowanie złożonych łańcuchów myślowych bez irytujących pauz, co jest kluczowe dla autonomicznych agentów.

Okno kontekstowe o rozmiarze 256 tysięcy tokenów jest obsługiwane przez wspomnianą hybrydową uwagę 3:1 SWA, co drastycznie redukuje koszty obliczeniowe. Dla porównania: dekodowanie przy kontekście 128K na układach GPU Hopper jest 1.0x tańsze niż w przypadku DeepSeek V3.2 (6.0x). Dzięki kwantyzacji INT4 w formacie GGUF, model wyciąga stabilne 20 tokenów/s nawet na NVIDIA DGX Spark.

Taka konfiguracja sprawia, że model jest niezwykle zwinny w interakcjach w czasie rzeczywistym. Prędkość 100-300 tokenów/s to standard, którego potrzebujemy – podczas gdy czatboty tylko czytają, prawdziwi agenci muszą myśleć błyskawicznie.

Dostępność open-source i lokalne wdrożenia

Model jest całkowicie otwarty dla społeczności: wagi znajdziecie na platformach Hugging Face oraz GitHub, a dla fanów chmury dostępne jest API pod adresem api.stepfun.ai (identyfikator: step-3.5-flash, kontekst 256000). Można z niego korzystać także przez interfejs webowy oraz aplikacje na iOS i Androida. Co ważne, model świetnie integruje się z OpenClaw oraz biblioteką llama.cpp.

Całość zoptymalizowano pod kątem lokalnego hardware’u: maszyny takie jak Mac Studio M4 Max czy NVIDIA DGX Spark pozwalają cieszyć się pełną prywatnością danych bez wysyłania czegokolwiek do chmury. Kwantyzacja INT8 dla KV-cache pozwala na pełne wykorzystanie ogromnego kontekstu, a trening z wykorzystaniem struktur RL, takich jak MIS-PO, gwarantuje stabilność odpowiedzi.

To prawdziwa demokratyzacja dostępu do technologii z najwyższej półki. Posiadanie 256K kontekstu lokalnie oznacza definitywny koniec bycia zakładnikiem chmurowych gigantów.

Zastosowania w praktyce: od inwestycji po badania

W kwestii wykorzystania narzędzi (tool-use), model sprawnie zarządza ponad 80 narzędziami MCP, co sprawdza się np. w zaawansowanych symulacjach giełdowych – od agregacji danych, przez wyliczanie metryk finansowych, aż po automatyczne alerty. Step 3.5 Flash pokazuje tu synergię „myśl-i-działaj” z chirurgiczną precyzją.

W badaniach pogłębionych (ResearchRubrics) model uzyskał 65.3% przy użyciu agenta ReAct, co stawia go wyżej niż Gemini DeepResearch (63.7%). W układach multi-agentowych (podział na role: master, search, verify, summary) potrafi wygenerować rzetelny raport na 10 tysięcy słów. Inne popisy? Dashboard pogodowy 3D, proceduralny ocean w Three.js czy pełna symulacja Układu Słonecznego.

Współpraca na linii edge-cloud pozwala, by „mózg” w chmurze sterował urządzeniami brzegowymi, takimi jak smartfony z nakładką Step-GUI, ułatwiając przeszukiwanie Arxiv czy porównywanie cen. Praktyczne scenariusze obejmują:

Inwestycje giełdowe z systemem automatycznych rekomendacji.
Autonomiczne systemy BI: błyskawiczne przetwarzanie danych i prognozowanie trendów.
Architekt repozytoriów: głęboka analiza kodu i automatyczna generacja dokumentacji wiki.

Wynik 65.3% w ResearchRubrics to ostateczne potwierdzenie, że mamy do czynienia z narzędziem użytecznym daleko poza suchymi benchmarkami.

Źródła: Oficjalny blog StepFun (https://static.stepfun.com/blog/step-3.5-flash/), Hugging Face (https://huggingface.co/stepfun-ai/Step-3.5-Flash), GitHub (https://github.com/stepfun-ai/Step-3.5-Flash), arXiv tech report (https://arxiv.org/pdf/2602.10604)

Oto Step 3.5 Flash. Nowy model open-source z wybitną logiką.

TL;DR

Architektura oparta na rzadkiej mieszance ekspertów

Przewaga w rozumowaniu matematycznym

Siła w kodowaniu i zadaniach agentycznych

Szybkość inferencji i długi kontekst

Dostępność open-source i lokalne wdrożenia

Zastosowania w praktyce: od inwestycji po badania

Najczęściej zadawane pytania

Related Articles

Claude Managed Agents. Anthropic przejmuje sterowanie za ciebie?

Claude Mythos jest zbyt groźny. Anthropic ukrywa model przed światem

Meta pokazała Muse Spark. Nowy model AI chce uśmiercić rodzinę Llama