Wyobraź sobie robota, który nigdy na oczy nie widział frytownicy beztłuszczowej, a mimo to bez problemu piecze w niej batata. Startup Physical Intelligence z San Francisco twierdzi, że ich najnowszy model π0.7 potrafi właśnie takie sztuczki, sprytnie miksując fragmenty wiedzy z różnych źródeł. Nawet sami badacze wydają się nieco skonsternowani efektami, bo to milowy krok w stronę stworzenia uniwersalnego mózgu dla maszyn, który odnajdzie się w każdej sytuacji.

TL;DR

  • π0.7 to model typu wizja-język-akcja (VLA) posiadający 5 miliardów parametrów i zdolność do kompozycyjnej generalizacji
  • Maszyny radzą sobie z nowymi wyzwaniami, takimi jak obsługa air fryera czy składanie koszul na robocie UR5e (80% skuteczności)
  • Model wypada porównywalnie do specjalistycznych systemów RL π*0.6, ale znacznie lepiej skaluje się wraz z przyrostem danych
  • Proces szkolenia oparto na miksie demonstracji robotycznych, nagrań z perspektywy człowieka oraz danych z sieci
  • Firma zebrała już ponad 1 mld USD finansowania przy wycenie sięgającej 5,6 mld USD i negocjuje kolejne rundy

Kim jest Physical Intelligence i co wnosi π0.7

Dwuletni startup z San Francisco, Physical Intelligence, wyrósł na jednego z najciekawszych graczy w sektorze robotyki w Bay Area. Za sterami stoją takie tuzy jak Sergey Levine z UC Berkeley czy Karol Hausman, którzy za cel postawili sobie budowę fundamentów AI dla świata fizycznego. Ich najnowsze dziecko, model π0.7, to architektura wizja-język-akcja (VLA) oparta na około 5 miliardach parametrów: 4 mld pochodzą z rdzenia VLM od Gemma3, 860 mln obsługuje moduł akcji, a 400 mln odpowiada za enkoder wizyjny.

Trening modelu oparto na potężnej mieszance danych: od demonstracji robotycznych i autonomicznych prób z błędami z modelu π*0.6, po nagrania wideo z perspektywy pierwszej osoby i dane multimodalne z internetu. Dzięki temu system nie tylko odtwarza wyuczone ruchy, ale realnie „rozumie” kontekst. Model wykorzystuje technikę dopasowywania przepływu do generowania akcji, enkodery historii wideo MEM oraz lekki model świata do przewidywania obrazów podcelów. To nie magia, a precyzyjna inżynieria, która pozwala sterować robotem za pomocą zwykłych promptów językowych i wizualnych.

„Gdy model przekroczy próg, w którym zaczyna łączyć znane mu elementy w zupełnie nowe sposoby, jego zdolności rosną szybciej niż liniowo względem ilości danych” – wyjaśnia Levine.

Kompozycyjna generalizacja – miksowanie umiejętności jak didżej

W tradycyjnym podejściu roboty są jak uczniowie kujący na blachę: zbierasz dane pod konkretne zadanie, trenujesz specjalistę i liczysz na powtarzalność. π0.7 wywraca ten stolik, stawiając na kompozycyjną generalizację, czyli umiejętność łączenia skrawków wiedzy z różnych kontekstów w nową całość. To mechanizm znany z modeli LLM, ale przeniesiony na grunt fizyki. Przykładowo: widząc wcześniej zamykanie innej frytownicy i wkładanie butelki do innego pojemnika, model potrafi samodzielnie wydedukować, jak upiec batata w nieznanym mu wcześniej urządzeniu.

Prompt sterujący maszyną zawiera nie tylko suche polecenie, ale całą instrukcję „jak to zrobić”: etapy zadań, obrazy docelowe (generowane przez AI lub realne) oraz metadane dotyczące prędkości czy precyzji. Podczas treningu stosuje się dropout (np. usuwanie 30% instrukcji tekstowych), co wymusza na modelu elastyczność i radzenie sobie w trudnych warunkach. Efekty? Dzięki krótkiemu „coachingowi” językowemu, sukces w nowym zadaniu potrafi skoczyć z marnych 5% do imponujących 95% po zaledwie pół godzinie dopracowywania instrukcji.

Nawet Ashwin Balakrishna był zaskoczony, gdy po zakupie losowych kół zębatych robot zaczął nimi obracać bez żadnego wcześniejszego przygotowania. Ironia losu polega na tym, że mimo ogromnej bazy danych, twórcy wciąż nie są w stanie przewidzieć wszystkich genialnych (lub dziwnych) zachowań swojego systemu.

Dema, które robią wrażenie: od air fryera po koszule

Prawdziwym gwoździem programu jest pokaz z frytownicą beztłuszczową. Bez żadnego przygotowania (zero-shot) robot miewa problemy, ale wystarczy podać mu instrukcje typu „lewą ręką złap za uchwyt, otwórz, prawą włóż batata”, by zadanie zakończyło się sukcesem. Lucy Shi z Physical Intelligence słusznie zauważa, że w tej nowej erze winę za błędy często ponosi człowiek – słabo sformułowany prompt to po prostu słaby wynik końcowy.

Kolejnym hitem jest składanie koszul na robocie UR5e, mimo że model nie widział wcześniej danych z tej konkretnej maszyny. Wynik na poziomie 80% skuteczności praktycznie dorównuje wynikom osiąganym przez ludzi (80,6%). Lista sukcesów jest długa: parzenie espresso, budowanie pudeł, segregowanie prania, obieranie warzyw czy wymiana worka na śmieci. W zupełnie obcych kuchniach model radził sobie z 14 różnymi scenariuszami wieloetapowych instrukcji.

Oficjalne materiały wideo pokazują, jak elastyczny jest π0.7 – potrafi on w locie zmienić strategię, na przykład decydując się na chwycenie przedmiotu jedną ręką zamiast planowanego wcześniej użycia obu chwytaków.

Ograniczenia: nie rób tostów jednym skinieniem

Mimo entuzjazmu, nie ma co liczyć na pełną autonomię w stylu „zrób mi śniadanie”. Robot wciąż wymaga rozbicia złożonego procesu na mniejsze kroki: „podejdź, otwórz, naciśnij guzik”. Problemem pozostaje też brak ustandaryzowanych benchmarków w robotyce, co zmusza firmę do porównywania wyników głównie z ich własnymi, wyspecjalizowanymi modelami.

Kwestie obliczeniowe również stanowią wyzwanie. O ile sama inferencja zajmuje od 38 do 127 ms na układach H100, o tyle generowanie wizualnych podcelów trwa już 1,25 sekundy. Ta zależność od precyzyjnych promptów tworzy nową rolę dla operatorów – zamiast żmudnego retreningu, będziemy zajmować się coachingiem maszyn. Levine trafnie porównuje obecny etap do czasów GPT-2: wyniki bywają dziwne, ale fundamenty pod rewolucję są już położone.

„W tak złożonych systemach trudno jest precyzyjnie śledzić, skąd model czerpie konkretną wiedzę i co dokładnie decyduje o sukcesie lub porażce” – przyznaje Shi.

Jak wypada na tle poprzedników?

W bezpośrednim starciu π0.7 dorównuje modelowi RL π*0.6 w zadaniach takich jak parzenie kawy czy składanie pudeł, ale deklasuje go pod względem przepustowości przy segregowaniu prania. W testach typu cross-embodiment (przenoszenie wiedzy na inne roboty) model osiąga od 60% do 80% skuteczności w nieznanych wcześniej scenariuszach. Wykorzystanie danych „suboptymalnych”, czyli zawierających błędy, paradoksalnie pomaga w lepszym skalowaniu systemu.

Zadanie π0.7 sukces/progress Specjalista (RL π*0.6 lub human)
Shirt folding (UR5e cross) 80% / 85.6% Human: 80.6% / 90.9%
Espresso making Dorównuje RL π*0.6
Box building Wyższy throughput RL π*0.6
Laundry folding Wyższy throughput RL π*0.6
Air fryer loading (coached) 95% po promptach Brak baseline

Porównanie π0.7 z wyspecjalizowanymi modelami oraz ludźmi w wybranych zadaniach fizycznych.

Od strony finansowej Physical Intelligence to prawdziwy gigant. Firma zebrała ponad 1 mld USD, a jej wycena sięgnęła 5,6 mld USD, przy czym trwają rozmowy o dobiciu do poziomu 11 mld USD. Lachy Groom, znany z inwestycji w takie marki jak Figma czy Notion, przyciągnął kapitał mimo braku sztywnego harmonogramu komercjalizacji. Jak twierdzi Levine: „Postęp jest szybszy niż dwa lata temu, ale data masowego wdrożenia to wciąż wielka niewiadoma”.

Krytycy wytykają, że danych robotycznych jest wciąż o rzędy wielkości mniej niż tekstowych w LLM-ach, a same dema bywają „nudne” (robot nie robi salt jak te od Boston Dynamics). Jednak dla przemysłu to właśnie użytkowa generalizacja, a nie cyrkowe sztuczki, jest kluczem do realnej wartości biznesowej.

Źródła:

TechCrunch (2026/04/16), oficjalny paper π0.7 na pi.website, konto X @physical_int

Najczęściej zadawane pytania