Wyobraź sobie robota, który składa kartonowe pudełka szybciej niż zaspany pracownik na nocnej zmianie i nie zawiesza się przy każdym potknięciu. Startup Generalist AI twierdzi, że ich najnowszy model GEN-1 osiągnął właśnie 99-procentową niezawodność w zadaniach manualnych. Pytanie tylko, czy to faktycznie technologiczny nokaut, czy jedynie kolejne efektowne demo przygotowane pod inwestorów?

TL;DR

  • Model GEN-1 osiąga średnio 99% skuteczności w zadaniach takich jak składanie pudeł czy pakowanie elektroniki
  • System adaptuje się do nowego sprzętu w zaledwie godzinę dzięki transferowi wiedzy z ludzkich ruchów
  • Jest 3 razy szybszy od poprzednika (GEN-0), bazując na treningu obejmującym pół miliona godzin danych
  • Robot potrafi improwizować w locie, np. potrząsając torbą, by zmieścić w niej przedmiot
  • Technologia trafiła już do pierwszych partnerów komercyjnych w ramach wczesnego dostępu

Co potrafi GEN-1 i dlaczego to poziom produkcyjny

Ekipa Generalist AI z San Mateo zaprezentowała GEN-1, czyli model podstawowy dla tzw. ucieleśnionej inteligencji (embodied foundation model). System ten radzi sobie z zadaniami wymagającymi precyzji i zręczności ludzkich dłoni, których dotąd maszyny unikały jak ognia. Mowa o składaniu pudełek w 12 sekund, pakowaniu smartfonów w 15,5 sekundy czy serwisowaniu robotów sprzątających – a wszystko to przy zachowaniu 99 procent skuteczności. Firma przekonuje, że to pierwszy model ogólnego przeznaczenia, który realnie przeskoczył próg opłacalności komercyjnej.

W trakcie rygorystycznych testów robot napędzany przez GEN-1 powtarzał te same czynności setki razy bez żadnej pomocy człowieka: ponad 200 razy złożył karton, 100 razy zapakował telefon, a przy sortowaniu podzespołów samochodowych pracował bez przerwy przez wiele godzin. Pete Florence, CEO firmy i były lider projektu PaLM-E w Google, porównuje to osiągnięcie do momentu wydania GPT-3 – przy odpowiedniej skali modelu zaczynają pojawiać się zdolności, których nikt wcześniej nie zaprogramował. Ironia losu: roboty stają się szybsze od nas w składaniu pudełek, które my zazwyczaj rzucamy w kąt bez ładu i składu.

Kluczem nie jest tutaj pojedyncze, wyreżyserowane nagranie, ale powtarzalność na poziomie, który pozwala wpuścić maszynę na linię produkcyjną. Co istotne, model współpracuje ze zwykłymi, tanimi chwytakami szczypcowymi. Nie potrzebuje do szczęścia skomplikowanych i drogich dłoni z dziesiątkami sensorów, co drastycznie obniża koszty wdrożenia w realnym biznesie.

Data hands – klucz do milionów godzin doświadczenia

Największą bolączką robotyki od zawsze był brak gigantycznych zbiorów danych, jakie modele językowe czerpią z internetu. Generalist AI obeszło ten problem sprytnym patentem o nazwie „data hands” – to specjalne szczypce montowane na nadgarstkach, które zmieniają ludzkie ręce w precyzyjne narzędzie pomiarowe. Pracownicy noszą je podczas rutynowych czynności: pakowania bukietów, dłubania w elektronice czy segregowania śrubek, zbierając przy tym dane wizualne i dotykowe. W ten sposób firma zgromadziła pół miliona godzin fizycznych interakcji, które zamieniono w petabajty wiedzy.

Co najciekawsze, w fazie wstępnego treningu nie wykorzystano ani sekundy nagrań z samych robotów – postawiono wyłącznie na ludzką zręczność. Dzięki temu model potrafi generalizować wiedzę i stosować ją na różnych maszynach i w różnych zadaniach. Infrastruktura obliczeniowa Generalist przetwarza w trakcie treningu równowartość niemal siedmiu lat doświadczenia w ciągu jednej doby. To genialne w swojej prostocie: zamiast budować armię drogich robotów do nauki, wystarczyło dać „rękawice” pracownikom w biurze w San Mateo.

Pete Florence nie gryzie się w język i przyznaje wprost: „Robimy wszystko, co konieczne, by skalować ten proces”. Efekt jest taki, że GEN-1 nie uczy się ruchów na pamięć jak stary automat, ale zaczyna rozumieć podstawowe prawa fizyki rządzące naszym światem.

Improwizacja jako emergentna zdolność GEN-1

Stara szkoła robotyki opierała się na sztywnych skryptach: jeśli przedmiot przesunął się o centymetr, maszyna głupiała. GEN-1 dzięki ogromnej skali danych potrafi improwizować: potrząśnie torbą, żeby wepchnąć do niej pluszaka, poprawi krzywo leżącą koszulę czy skoryguje chwyt, gdy myjka wysunie mu się z „palców”. Inżynier Felix Wang ujął to doskonale:

Nikt nie programował robota, by popełniał błędy, więc nikt nie programował go, by z nich wychodził. A to dzieje się za darmo.

System radzi sobie z sytuacjami, których nie widział w trakcie nauki – elastyczne materiały się wyginają, przedmioty zmieniają położenie, a robot po prostu kombinuje, łącząc kropki z różnych doświadczeń. To nie jest żadna magia, tylko czysta matematyka i tzw. prawa skalowania (scaling laws): dorzucenie danych i mocy obliczeniowej owocuje nowymi, inteligentnymi zachowaniami. Z nutką sarkazmu można dodać, że w końcu doczekaliśmy czasów, gdy robot nie zablokuje całej fabryki tylko dlatego, że ktoś krzywo położył karton.

Na udostępnionych materiałach wideo widać, jak obie mechaniczne ręce współpracują przy pakowaniu – to wymaga czegoś, co można nazwać „freestyle’owym” myśleniem przestrzennym, a nie odtwarzaniem nagranej ścieżki.

Skok względem GEN-0 i dane liczbowe

Poprzednia wersja, GEN-0 z listopada 2025 roku, udowodniła, że prawa skalowania działają w świecie fizycznym przy użyciu 270 tysięcy godzin danych. Jednak GEN-1, trenowany od zera na znacznie większą skalę, po prostu miażdży swojego poprzednika. Mamy tu skok z 64% na 99% skuteczności oraz trzykrotny wzrost prędkości działania. A co z adaptacją do nowego sprzętu? Wystarczy jedna godzina danych specyficznych dla danego robota, by system zaczął śmigać, zamiast całych tygodni kalibracji.

Bez fazy wstępnego treningu (from-scratch) wyniki wyglądają żałośnie – średnia skuteczność spada do zaledwie 19%. Poniżej znajdziecie twarde dane porównujące oba modele w konkretnych scenariuszach roboczych:

Zadanie GEN-1 sukces GEN-0 sukces From-scratch sukces
Składanie pudeł 99% 81% 13%
Pakowanie telefonów 99% 62% 42%
Serwis odkurzaczy 99% 50% 2%

Porównanie wskaźników sukcesu GEN-1, GEN-0 i treningu od zera na kluczowych zadaniach

Te liczby jasno pokazują, że trening na ludzkich danych drastycznie ogranicza potrzebę kosztownej personalizacji pod konkretnego klienta. Inżynierowie z Generalist poprawili też stabilność całego procesu, dorzucając własne kernele i mechanizm „paged attention”, co pozwala na błyskawiczne podejmowanie decyzji w czasie rzeczywistym.

Konkurencja wciąż w tyle za Generalist

Choć giganci nie śpią, na razie oglądają plecy startupu z San Mateo. Google promuje Gemini Robotics do analizy poleceń wizualnych, a Physical Intelligence uczy maszyny sprzątania w symulowanych domach. Nawet Tesla Optimus wydaje się zostawać w tyle – Elon Musk przyznał w styczniu, że jego humanoidy wciąż nie wykonują w pełni użytecznej pracy, mimo wcześniejszych pokazów opartych na zdalnym sterowaniu przez operatora.

Generalist wygrywa uniwersalnością – jeden model obsługuje wiele typów zadań i różnych robotów, wymagając zaledwie godziny na „rozruch”. W Europie BMW wprowadza roboty do fabryki w Lipsku, próbując dotrzymać kroku amerykańskiej ofensywie w dziedzinie fizycznej AI. Jednak chińskie roboty humanoidalne robiące salta to wciąż głównie pokazówka, a nie realne wsparcie dla przemysłu.

Model GEN-1 jest już dostępny dla wybranych partnerów komercyjnych. Wygląda na to, że era maszyn, które faktycznie zarabiają na siebie w magazynach, zaczyna się właśnie teraz.

Perspektywa: co GEN-1 znaczy dla przyszłości

Jesteśmy świadkami „momentu GPT-3” dla robotyki – proste, powtarzalne zadania manualne zostały właśnie „rozwiązane”, a kolejne generacje modeli wezmą na warsztat znacznie bardziej złożone procesy. Generalist planuje dalsze skalowanie: chcą dojść do punktu, w którym robot będzie potrzebował jeszcze mniej danych, by opanować nową czynność. Oczywiście nie obyło się bez wyzwań, bo emergentne zachowania bywają nieprzewidywalne i wymagają lepszego dopasowania (alignment) do norm bezpieczeństwa.

Od logistyki, przez fabryki, aż po serwisy techniczne – GEN-1 otwiera drzwi, które dotąd były zamknięte dla automatyzacji. To dość ironiczne, że wpompowano 140 milionów dolarów od Nvidii i Jeffa Bezosa tylko po to, by roboty mogły robić rzeczy, których nam się po prostu nie chce. Czy zabiorą nam pracę? Na razie głównie ratują nas przed śmiertelną nudą przy taśmie produkcyjnej.

Program wczesnego dostępu już ruszył, a pierwsze firmy sprawdzają możliwości modelu w warunkach bojowych. Przyszłość ma chwytne dłonie i nie potrzebuje przerwy na kawę.

Źródła:

Ars Technica, Generalist AI official blog (generalistai.com), Forbes, The Robot Report, official X @GeneralistAI

Najczęściej zadawane pytania