Wyobraź sobie model AI, który nie tylko patrzy na skomplikowany wykres, ale bezbłędnie rozwiązuje zawarte w nim równanie i sprawnie nawiguje po interfejsie – a wszystko to przy zaledwie 15 miliardach parametrów. Microsoft właśnie zaprezentował światu Phi-4-reasoning-vision-15B, udowadniając, że spektakularne efekty wcale nie wymagają oceanów danych i nieskończonej mocy obliczeniowej. Zamiast iść w ilość, gigant z Redmond postawił na chirurgiczną precyzję w doborze danych i hybrydowe podejście do procesu rozumowania.

TL;DR

  • Phi-4-reasoning-vision-15B trenowano na 200 mld tokenów wielomodalnych – to 5 razy mniej niż w przypadku modeli Qwen czy Kimi.
  • System inteligentnie decyduje, kiedy stosować rozumowanie krok po kroku (20% danych), a kiedy odpowiadać natychmiastowo (80%).
  • W testach MathVista osiągnął 75,2%, a w ScreenSpot v2 aż 88,2%, co czyni go realną konkurencją dla Qwen3-VL-32B.
  • Model jest dostępny w formule open-source na platformach Azure Foundry, Hugging Face oraz GitHub.
  • To kolejny krok w rozwoju rodziny Phi, która coraz śmielej wchodzi w świat robotyki i urządzeń typu edge.

Phi-4-reasoning-vision-15B wchodzi na scenę wielomodalną

Microsoft wypuścił właśnie na rynek Phi-4-reasoning-vision-15B, czyli model o 15 miliardach parametrów, który z gracją radzi sobie z jednoczesnym przetwarzaniem obrazu i tekstu. Nie są mu straszne zawiłe problemy matematyczne, interpretacja technicznych wykresów czy nawet nawigacja po graficznych interfejsach użytkownika. Co więcej, prozaiczne zadania wizualne, takie jak opisywanie zdjęć z wakacji czy cyfrowe odczytywanie pogniecionych paragonów, idą mu nadzwyczaj gładko.

Zespół Microsoft Research zaznacza, że to milowy krok w stronę modeli praktycznych – takich, które są wydajne, tanie w utrzymaniu i nie pożerają prądu jak małe miasteczko. W czasach, gdy największe systemy AI przepalają miliony dolarów na sam trening, ten relatywnie niewielki zawodnik udowadnia, że jakość danych bije na głowę ich ilość. Model jest już dostępny na Azure Foundry, Hugging Face i GitHubie pod liberalną licencją, co jest jasnym sygnałem dla deweloperów: „bierzcie i testujcie”.

Nasz cel to dostarczyć praktyczne wskazówki społeczności na temat budowania małych, efektywnych modeli wielomodalnych do rozumowania.

Ironia losu polega na tym, że gdy konkurencja pompuje w swoje algorytmy biliony tokenów, Microsoft z uśmiechem na ustach pokazuje, że „mniej znaczy więcej”.

Trening na piątej części danych rywali

Gdzie tkwi haczyk? Otóż inżynierowie Microsoftu wykorzystali zaledwie 200 miliardów tokenów danych wielomodalnych, bazując na fundamentach Phi-4-Reasoning (16 mld tokenów) oraz Phi-4 (400 mld unikalnych tokenów). Żeby uświadomić sobie skalę tej oszczędności, wystarczy spojrzeć na rywali: Qwen2.5 VL, Qwen3-Max-Thinking od Alibaby, Kimi-VL od Moonshot AI czy Gemma3 od Google pochłonęły ponad bilion tokenów. To pięciokrotna przebitka, która w świecie biznesu przekłada się na konkretne oszczędności finansowe i mniejszy ślad węglowy.

Dane do treningu płynęły z trzech źródeł: rygorystycznie przesianych zbiorów open-source, wysokiej jakości zasobów wewnętrznych oraz celowych zakupów. Badacze nie szli na łatwiznę – ręcznie weryfikowali próbki, poświęcając nawet 10 minut na każdą z nich, by wyłapać błędy logiczne. Jeśli model błądził, poprawne odpowiedzi generowano przy pomocy GPT-4o lub o4-mini. W sytuacjach, gdy obraz był świetny, ale pytanie do niego bezsensowne, po prostu tworzono nowe zadania wizualne od zera.

Takie rzemieślnicze podejście obnaża smutną prawdę o branży – wiele popularnych zbiorów danych to po prostu śmietnik pełen błędów. Microsoft nie tylko posprzątał to podwórko, ale też zwiększył udział danych matematycznych i naukowych, co pozwoliło wykręcić świetne wyniki w kluczowych benchmarkach.

Mieszane rozumowanie – myśli tylko gdy trzeba

Najbardziej błyskotliwym rozwiązaniem w nowym modelu jest hybrydowy system rozumowania. W przeciwieństwie do klasycznych modeli językowych, które próbują „rozgryzać” każde pytanie krok po kroku (tzw. chain-of-thought), Phi-4 wie, kiedy warto się wysilić, a kiedy nie. W 20% danych treningowych zaimplementowano ślady rozumowania wewnątrz znaczników <think>…</think>, natomiast pozostałe 80% oznaczono tokenem <nothink>, wymuszając bezpośrednią odpowiedź.

Logika jest prosta: o ile w matematyce analiza krok po kroku jest zbawienna, o tyle przy zwykłym rozpoznawaniu znaków (OCR) czy opisywaniu zdjęcia psa, tylko spowalnia proces i generuje niepotrzebny szum informacyjny. Model domyślnie wybiera ekspresową ścieżkę dla zadań percepcyjnych, rezerwując „głębokie myślenie” dla twardych orzechów do zgryzienia. Co ważne, użytkownik może sam wymusić konkretny tryb pracy za pomocą odpowiedniego promptu.

Badacze sprawdzili cztery różne strategie treningowe i to właśnie ta hybryda okazała się strzałem w dziesiątkę. Dla zadań jak opis obrazów czy OCR rozumowanie jest niepotrzebne, a nawet szkodliwe.

To otrzeźwiające podejście w branży, która oszalała na punkcie modeli udających wiecznych myślicieli. Microsoft stawia na pragmatyzm i oszczędność energii.

Architektura z enkoderem SigLIP-2 dla wysokich rozdzielczości

Zaglądając pod maskę, znajdziemy architekturę typu „medium fusion”. Enkoder wizyjny SigLIP-2 (w wariancie Naflex) zamienia obrazy na tokeny, które następnie trafiają do modelu językowego Phi-4-Reasoning. Taka metoda jest znacznie tańsza w trenowaniu niż „early fusion” (gdzie obraz i tekst są miksowane od samego początku), mimo że oferuje nieco mniej szczegółowe reprezentacje danych.

Sporo uwagi poświęcono kwestii rozdzielczości, co jest kluczowe, gdy AI ma analizować gęsto zapisane zrzuty ekranu czy drobne elementy interfejsu. Po testach różnych metod, w tym multi-crop, zwyciężyła dynamiczna rozdzielczość z limitem 3600 tokenów (co odpowiada natywnej jakości ok. 720p). Dzięki temu model świetnie radzi sobie w testach takich jak ScreenSpot-Pro, co czyni go idealnym kandydatem na asystenta sterującego komputerem.

Niski koszt operacyjny (inferencji) sprawia, że Phi-4-reasoning-vision-15B idealnie nadaje się do interaktywnych środowisk, gdzie liczy się każda milisekunda opóźnienia. Microsoft wyraźnie celuje w segment agentów AI, którzy muszą działać szybko i lokalnie, bez czekania na odpowiedź z potężnych serwerowni.

Benchmarki stawiają go na granicy Pareto

Liczby nie kłamią: w wewnętrznych testach Phi-4-reasoning-vision-15B wykręcił 84,8% w AI2D (analiza diagramów), 83,3% w ChartQA oraz 75,2% w MathVista. Choć w niektórych kategoriach musi uznać wyższość potężniejszego Qwen 3.5 czy Qwen3-VL-32B (który w MathVista osiąga 82,5%), to w swojej kategorii wagowej bije większość konkurencji na głowę.

Benchmark Phi-4-reasoning-vision-15B Qwen3-VL-8B-Instruct Qwen3-VL-32B-Instruct Kimi-VL-A3B-Instruct
AI2D_TEST 84.8 82.7 84.8 84.6
ChartQA_TEST 83.3 83.1 84.3 87
MathVista_MINI 75.2 77.1 82.5 67.1
MMMU_VAL 54.3 60.7 68.6 52
ScreenSpot_v2 88.2 91.5 93.7 89.8

Porównanie wyników Phi-4-reasoning-vision-15B z konkurentami w kluczowych benchmarkach wielomodalnych (dane z Microsoft Research).

Wykresy wydajności plasują go na tzw. granicy Pareto, co oznacza, że oferuje on obecnie najlepszy na rynku stosunek precyzji do czasu obliczeń. Microsoft wykazał się tu rzadką w branży AI przejrzystością, publikując pełne logi i parametry testów (temperatura 0, greedy decoding). Choć z ostatecznym werdyktem warto poczekać na niezależne testy społeczności, to już teraz widać, że mamy do czynienia z niezwykle solidnym narzędziem.

Model może nie dominuje w każdym surowym zestawieniu, ale jego efektywność operacyjna to prawdziwy „game changer” dla firm szukających optymalnych wdrożeń.

Phi w rodzinie: od języka po roboty

Phi-4-reasoning-vision to najmłodsze dziecko w linii Phi, która wystartowała rok temu od bazowego modelu Phi-4 (14 mld parametrów). Od tego czasu rodzina mocno się powiększyła o takie jednostki jak Phi-4-mini-reasoning (3,8 mld) czy duże modele rozumujące typu Phi-4-reasoning-plus, który swoimi możliwościami ma deptać po piętach DeepSeek R1. Microsoft nie zapomina też o sprzęcie – Phi Silica napędza już funkcje w Copilot+ PC, a optymalizacja pod układy NPU MediaTek pozwala na zawrotną prędkość 800 tokenów na sekundę.

Najbardziej ambitnym projektem wydaje się jednak Rho-alpha – pierwszy model robotyczny oparty na architekturze Phi. Potrafi on tłumaczyć polecenia głosowe na precyzyjne sygnały sterujące dla dwuręcznych robotów wyposażonych w sensory dotykowe. To pokazuje, że małe modele AI (SLM) to nie tylko czatboty, ale realna inteligencja trafiająca bezpośrednio do hardware’u.

Strategia Microsoftu jest jasna: inżynieria zamiast brutalnej siły. Skupienie na jakości danych i sprytnej architekturze otwiera przed firmami drzwi do tanich, szybkich i niezwykle inteligentnych aplikacji, które nie wymagają budżetu wielkiej korporacji.

Źródła: VentureBeat, Microsoft Research Blog (phi-4-reasoning-vision), Hugging Face model card

Najczęściej zadawane pytania