Czy model π0.7 jest już dostępny do pobrania?

Niestety nie. Obecnie są to wyniki badań naukowych, a nie gotowy produkt komercyjny. Firma opublikowała artykuł naukowy i wpis na blogu, ale sam model pozostaje zamknięty.

Czym π0.7 różni się od starszego modelu π0.5?

Kluczową różnicą jest znacznie lepsza generalizacja między różnymi typami robotów (cross-embodiment) oraz sprawniejsza obsługa instrukcji językowych. π0.7 osiąga np. 80% skuteczności w składaniu ubrań na nowym sprzęcie, gdzie poprzednicy radzili sobie znacznie gorzej.

Kiedy roboty z tym modelem trafią do naszych domów?

Twórcy unikają podawania konkretnych dat. Choć optymizm w branży rośnie, najpierw model musi przejść rygorystyczne testy zewnętrzne i zostać sprawdzony w ustandaryzowanych benchmarkach robotycznych.

Czy to faktycznie przełom w dziedzinie AI?

Wszystko na to wskazuje. Widzimy pierwsze wyraźne oznaki kompozycyjnej generalizacji w świecie fizycznym. Choć system wciąż wymaga wsparcia człowieka (coachingu), skaluje się znacznie lepiej niż dotychczasowe rozwiązania, co przypomina początki rewolucji modeli językowych.

Model π0.7 uczy roboty nowych sztuczek bez treningu. Air fryer opanowany

Wyobraź sobie robota, który nigdy na oczy nie widział frytownicy beztłuszczowej, a mimo to bez problemu piecze w niej batata. Startup Physical Intelligence z San Francisco twierdzi, że ich najnowszy model π0.7 potrafi właśnie takie sztuczki, sprytnie miksując fragmenty wiedzy z różnych źródeł. Nawet sami badacze wydają się nieco skonsternowani efektami, bo to milowy krok w stronę stworzenia uniwersalnego mózgu dla maszyn, który odnajdzie się w każdej sytuacji.

TL;DR

π0.7 to model typu wizja-język-akcja (VLA) posiadający 5 miliardów parametrów i zdolność do kompozycyjnej generalizacji
Maszyny radzą sobie z nowymi wyzwaniami, takimi jak obsługa air fryera czy składanie koszul na robocie UR5e (80% skuteczności)
Model wypada porównywalnie do specjalistycznych systemów RL π*0.6, ale znacznie lepiej skaluje się wraz z przyrostem danych
Proces szkolenia oparto na miksie demonstracji robotycznych, nagrań z perspektywy człowieka oraz danych z sieci
Firma zebrała już ponad 1 mld USD finansowania przy wycenie sięgającej 5,6 mld USD i negocjuje kolejne rundy

Kim jest Physical Intelligence i co wnosi π0.7

Dwuletni startup z San Francisco, Physical Intelligence, wyrósł na jednego z najciekawszych graczy w sektorze robotyki w Bay Area. Za sterami stoją takie tuzy jak Sergey Levine z UC Berkeley czy Karol Hausman, którzy za cel postawili sobie budowę fundamentów AI dla świata fizycznego. Ich najnowsze dziecko, model π0.7, to architektura wizja-język-akcja (VLA) oparta na około 5 miliardach parametrów: 4 mld pochodzą z rdzenia VLM od Gemma3, 860 mln obsługuje moduł akcji, a 400 mln odpowiada za enkoder wizyjny.

Trening modelu oparto na potężnej mieszance danych: od demonstracji robotycznych i autonomicznych prób z błędami z modelu π*0.6, po nagrania wideo z perspektywy pierwszej osoby i dane multimodalne z internetu. Dzięki temu system nie tylko odtwarza wyuczone ruchy, ale realnie „rozumie” kontekst. Model wykorzystuje technikę dopasowywania przepływu do generowania akcji, enkodery historii wideo MEM oraz lekki model świata do przewidywania obrazów podcelów. To nie magia, a precyzyjna inżynieria, która pozwala sterować robotem za pomocą zwykłych promptów językowych i wizualnych.

„Gdy model przekroczy próg, w którym zaczyna łączyć znane mu elementy w zupełnie nowe sposoby, jego zdolności rosną szybciej niż liniowo względem ilości danych” – wyjaśnia Levine.

Our newest model, π0.7, has some interesting emergent capabilities: it can control a new robot to fold shirts for which we had no shirt folding data, figure out how to use an appliance with language-based coaching, and perform a wide range of dexterous tasks all in one model! pic.twitter.com/s9NxKfb7pe

— Physical Intelligence (@physical_int) April 16, 2026

Kompozycyjna generalizacja – miksowanie umiejętności jak didżej

W tradycyjnym podejściu roboty są jak uczniowie kujący na blachę: zbierasz dane pod konkretne zadanie, trenujesz specjalistę i liczysz na powtarzalność. π0.7 wywraca ten stolik, stawiając na kompozycyjną generalizację, czyli umiejętność łączenia skrawków wiedzy z różnych kontekstów w nową całość. To mechanizm znany z modeli LLM, ale przeniesiony na grunt fizyki. Przykładowo: widząc wcześniej zamykanie innej frytownicy i wkładanie butelki do innego pojemnika, model potrafi samodzielnie wydedukować, jak upiec batata w nieznanym mu wcześniej urządzeniu.

Prompt sterujący maszyną zawiera nie tylko suche polecenie, ale całą instrukcję „jak to zrobić”: etapy zadań, obrazy docelowe (generowane przez AI lub realne) oraz metadane dotyczące prędkości czy precyzji. Podczas treningu stosuje się dropout (np. usuwanie 30% instrukcji tekstowych), co wymusza na modelu elastyczność i radzenie sobie w trudnych warunkach. Efekty? Dzięki krótkiemu „coachingowi” językowemu, sukces w nowym zadaniu potrafi skoczyć z marnych 5% do imponujących 95% po zaledwie pół godzinie dopracowywania instrukcji.

Nawet Ashwin Balakrishna był zaskoczony, gdy po zakupie losowych kół zębatych robot zaczął nimi obracać bez żadnego wcześniejszego przygotowania. Ironia losu polega na tym, że mimo ogromnej bazy danych, twórcy wciąż nie są w stanie przewidzieć wszystkich genialnych (lub dziwnych) zachowań swojego systemu.

Dema, które robią wrażenie: od air fryera po koszule

Prawdziwym gwoździem programu jest pokaz z frytownicą beztłuszczową. Bez żadnego przygotowania (zero-shot) robot miewa problemy, ale wystarczy podać mu instrukcje typu „lewą ręką złap za uchwyt, otwórz, prawą włóż batata”, by zadanie zakończyło się sukcesem. Lucy Shi z Physical Intelligence słusznie zauważa, że w tej nowej erze winę za błędy często ponosi człowiek – słabo sformułowany prompt to po prostu słaby wynik końcowy.

Kolejnym hitem jest składanie koszul na robocie UR5e, mimo że model nie widział wcześniej danych z tej konkretnej maszyny. Wynik na poziomie 80% skuteczności praktycznie dorównuje wynikom osiąganym przez ludzi (80,6%). Lista sukcesów jest długa: parzenie espresso, budowanie pudeł, segregowanie prania, obieranie warzyw czy wymiana worka na śmieci. W zupełnie obcych kuchniach model radził sobie z 14 różnymi scenariuszami wieloetapowych instrukcji.

Oficjalne materiały wideo pokazują, jak elastyczny jest π0.7 – potrafi on w locie zmienić strategię, na przykład decydując się na chwycenie przedmiotu jedną ręką zamiast planowanego wcześniej użycia obu chwytaków.

Ograniczenia: nie rób tostów jednym skinieniem

Mimo entuzjazmu, nie ma co liczyć na pełną autonomię w stylu „zrób mi śniadanie”. Robot wciąż wymaga rozbicia złożonego procesu na mniejsze kroki: „podejdź, otwórz, naciśnij guzik”. Problemem pozostaje też brak ustandaryzowanych benchmarków w robotyce, co zmusza firmę do porównywania wyników głównie z ich własnymi, wyspecjalizowanymi modelami.

Kwestie obliczeniowe również stanowią wyzwanie. O ile sama inferencja zajmuje od 38 do 127 ms na układach H100, o tyle generowanie wizualnych podcelów trwa już 1,25 sekundy. Ta zależność od precyzyjnych promptów tworzy nową rolę dla operatorów – zamiast żmudnego retreningu, będziemy zajmować się coachingiem maszyn. Levine trafnie porównuje obecny etap do czasów GPT-2: wyniki bywają dziwne, ale fundamenty pod rewolucję są już położone.

„W tak złożonych systemach trudno jest precyzyjnie śledzić, skąd model czerpie konkretną wiedzę i co dokładnie decyduje o sukcesie lub porażce” – przyznaje Shi.

Jak wypada na tle poprzedników?

W bezpośrednim starciu π0.7 dorównuje modelowi RL π*0.6 w zadaniach takich jak parzenie kawy czy składanie pudeł, ale deklasuje go pod względem przepustowości przy segregowaniu prania. W testach typu cross-embodiment (przenoszenie wiedzy na inne roboty) model osiąga od 60% do 80% skuteczności w nieznanych wcześniej scenariuszach. Wykorzystanie danych „suboptymalnych”, czyli zawierających błędy, paradoksalnie pomaga w lepszym skalowaniu systemu.

Zadanie	π0.7 sukces/progress	Specjalista (RL π*0.6 lub human)
Shirt folding (UR5e cross)	80% / 85.6%	Human: 80.6% / 90.9%
Espresso making	Dorównuje	RL π*0.6
Box building	Wyższy throughput	RL π*0.6
Laundry folding	Wyższy throughput	RL π*0.6
Air fryer loading (coached)	95% po promptach	Brak baseline

Porównanie π0.7 z wyspecjalizowanymi modelami oraz ludźmi w wybranych zadaniach fizycznych.

Od strony finansowej Physical Intelligence to prawdziwy gigant. Firma zebrała ponad 1 mld USD, a jej wycena sięgnęła 5,6 mld USD, przy czym trwają rozmowy o dobiciu do poziomu 11 mld USD. Lachy Groom, znany z inwestycji w takie marki jak Figma czy Notion, przyciągnął kapitał mimo braku sztywnego harmonogramu komercjalizacji. Jak twierdzi Levine: „Postęp jest szybszy niż dwa lata temu, ale data masowego wdrożenia to wciąż wielka niewiadoma”.

Krytycy wytykają, że danych robotycznych jest wciąż o rzędy wielkości mniej niż tekstowych w LLM-ach, a same dema bywają „nudne” (robot nie robi salt jak te od Boston Dynamics). Jednak dla przemysłu to właśnie użytkowa generalizacja, a nie cyrkowe sztuczki, jest kluczem do realnej wartości biznesowej.

Źródła:

TechCrunch (2026/04/16), oficjalny paper π0.7 na pi.website, konto X @physical_int

Physical Intelligence chwali się π0.7. Roboty ogarniają zadania bez treningu

TL;DR

Kim jest Physical Intelligence i co wnosi π0.7

Kompozycyjna generalizacja – miksowanie umiejętności jak didżej

Dema, które robią wrażenie: od air fryera po koszule

Ograniczenia: nie rób tostów jednym skinieniem

Jak wypada na tle poprzedników?

Najczęściej zadawane pytania

Related Articles

Google ulepsza tryb AI w Chrome. Pożegnajmy chaos dziesiątek otwartych kart

Wielka Brytania uruchamia fundusz Sovereign AI. Chce dogonić USA

OpenAI wypuściło GPT-Rosalind. Model czyta genomy lepiej niż ludzie