Wyobraź sobie mechanicznego czworonoga, który zamiast uganiać się za własnym ogonem, z powagą inżyniera analizuje ciśnienie w rurociągach. Google DeepMind właśnie zaprezentowało model Gemini Robotics-ER 1.6, dzięki któremu Spot od Boston Dynamics potrafi odczytywać termometry i manometry z precyzją, której pozazdrościłby mu niejeden technik. Skok skuteczności do poziomu 98 procent to jasny sygnał, że era „ślepych” maszyn właśnie dobiega końca.
TL;DR
- Model Gemini Robotics-ER 1.6 podnosi precyzję odczytu wskaźników analogowych do 98 procent
- Technologia wspiera roboty Boston Dynamics Spot w zakładach produkcyjnych Hyundai
- Wizja agentyczna eliminuje halucynacje i błędy w liczeniu znane z wersji 1.5
- Nowy system Google priorytetyzuje bezpieczeństwo ludzi i unika ryzykownych działań
- Oficjalna premiera rozwiązania od Google DeepMind odbyła się 14 kwietnia 2026 roku
To nie jest kolejna efektowna sztuczka na YouTube, ale konkretne narzędzie do ciężkiej pracy w przemyśle. Nowy model od Google sprawia, że robot przestaje być tylko mobilną kamerą, a staje się autonomicznym inspektorem zdolnym do interpretacji skomplikowanych danych wizualnych w czasie rzeczywistym. Przyjrzyjmy się, jak ta technologia zamienia metalowego psa w eksperta od utrzymania ruchu.
Gemini Robotics-ER 1.6 wchodzi do gry
Google DeepMind ogłosiło 14 kwietnia debiut modelu Gemini Robotics-ER 1.6, który pełni rolę zaawansowanego centrum decyzyjnego dla autonomicznych maszyn. Ta aktualizacja kładzie nacisk na tzw. rozumowanie ucieleśnione, czyli unikalną zdolność AI do planowania i realizowania skomplikowanych operacji w świecie fizycznym. Dzięki tej synergii, Spot od Boston Dynamics może teraz samodzielnie patrolować hale produkcyjne, nie tylko omijając przeszkody, ale aktywnie analizując każdy napotkany przyrząd pomiarowy.
Osiągnięcie 98 procent dokładności w odczycie instrumentów to zasługa wdrożenia wizji agentycznej, która sprytnie łączy analizę wizualną z automatycznym generowaniem kodu. System potrafi zniwelować zniekształcenia obrazu wynikające ze złego kąta ustawienia kamery i bezbłędnie przeliczyć podziałki na tradycyjnych tarczach. Warto dodać, że nawet bez tych zaawansowanych funkcji, bazowa wersja modelu utrzymuje bardzo solidny wynik na poziomie 86 procent.
We’re rolling out an upgrade designed to help robots reason about the physical world. 🤖
Gemini Robotics-ER 1.6 has significantly better visual and spatial understanding in order to plan and complete more useful tasks. Here’s why this is important 🧵 pic.twitter.com/rxT1lkYZZB
— Google DeepMind (@GoogleDeepMind) April 14, 2026
Jak działa wizja agentyczna w praktyce?
Wizja agentyczna (ang. agentic vision) to najważniejszy as w rękawie modelu Gemini 3.0 Flash, który zadebiutował w styczniu 2026 roku. Mechanizm ten pozwala robotowi na stworzenie wewnętrznej „wizualnej tablicy roboczej”, gdzie za pomocą kodu manipuluje on przechwyconymi obrazami w celu ich lepszego zrozumienia. W praktyce oznacza to, że Spot potrafi precyzyjnie wskazać konkretne elementy na zdjęciu, policzyć narzędzia rozrzucone w nieładzie czy ocenić poziom cieczy w półprzezroczystych zbiornikach.
Podczas rygorystycznych testów z wykorzystaniem sprzętu warsztatowego, poprzednia wersja 1.5 miewała skłonności do halucynacji – potrafiła „zobaczyć” nieistniejącą taczkę lub całkowicie zignorować leżące na widoku nożyczki. Gemini 1.6 bezbłędnie zlicza młotki i pędzle, skutecznie odfiltrowując wizualny szum, który wcześniej wprowadzał algorytmy w błąd. Choć do perfekcji ludzkiego oka jeszcze trochę brakuje, jest to milowy krok w stronę pełnej autonomii.
System wykorzystuje również zaawansowane rozumowanie wieloobrazowe. Pozwala to robotowi na łączenie danych z wielu kamer jednocześnie, co buduje w jego „cyfrowym umyśle” spójny i trójwymiarowy model otoczenia. Dzięki temu maszyna nie tylko widzi przedmioty, ale rozumie ich wzajemne położenie w przestrzeni fabrycznej.
Liczby nie kłamią – porównanie wyników
Analiza danych z testów porównawczych ujawnia kolosalny postęp, jaki dokonał się w dziedzinie komputerowego rozpoznawania obrazów. Starszy model Gemini Robotics-ER 1.5 w starciu ze złożonymi wskaźnikami analogowymi osiągał mizerne 23 procent skuteczności, co w warunkach przemysłowych czyniło go niemal bezużytecznym. Dopiero Gemini 3.0 Flash podniósł poprzeczkę do 67 procent, torując drogę dla wersji 1.6, która z wizją agentyczną osiąga niemal perfekcyjne 98 procent.
| Model | Dokładność odczytu instrumentów |
|---|---|
| Gemini Robotics-ER 1.5 | 23% |
| Gemini 3.0 Flash | 67% |
| Gemini Robotics-ER 1.6 (baza) | 86% |
| Gemini Robotics-ER 1.6 + wizja agentyczna | 98% |
Porównanie dokładności modeli w zadaniach odczytu wskaźników analogowych
Prezentowane statystyki to efekt tysięcy symulacji odzwierciedlających realne inspekcje w zakładach energetycznych i chemicznych. Model potrafi nie tylko odczytać wartość z tarczy, ale też wskazać krytyczne punkty kontrolne czy wyznaczyć granice przepełnienia pojemników. Nawet w surowej wersji bazowej, Gemini 1.6 utrzymuje skuteczność na poziomie 86 procent, co stanowi bezpieczny fundament do komercyjnych wdrożeń w wymagających środowiskach.
Bezpieczeństwo ponad wszystko
Przedstawiciele Google bez bicia przyznają, że wersja 1.6 to ich „najbezpieczniejszy model robotyczny w historii”. System wykazuje znacznie większą dyscyplinę w przestrzeganiu fizycznych restrykcji – potrafi samodzielnie zidentyfikować rozlane ciecze czy zrezygnować z podnoszenia ładunków przekraczających 20 kg. Co więcej, AI potrafi teraz oceniać ryzyko wystąpienia wypadków z udziałem ludzi, reagując na nietypowe sytuacje, jak chociażby obecność osób postronnych w strefach zagrożenia.
Odnotowano również 10-procentową poprawę w wykrywaniu niebezpieczeństw na nagraniach wideo w czasie rzeczywistym. Robot nie ogranicza się już tylko do ślepego wykonywania komend, ale wykazuje się pewną dozą „zdrowego rozsądku” przy manipulacji materiałami, co w realiach nowoczesnej fabryki jest absolutnie kluczowe. Błąd maszyny w takim miejscu może bowiem kosztować nie tylko pieniądze, ale przede wszystkim zdrowie pracowników.
To swoista ironia losu, że pies-robot, który jeszcze kilka lat temu bawił internautów wymyślnymi tańcami w viralowych filmikach, dziś z pełną powagą pilnuje standardów BHP. Zamiast robić salta, Spot skupia się teraz na tym, by nikt na hali produkcyjnej nie odniósł obrażeń podczas rutynowych działań.
Przyszłość inspekcji – od Hyundai po szersze wdrożenia
Obecnie Boston Dynamics intensywnie testuje możliwości Spota w zakładach należących do koncernu Hyundai, który jest właścicielem firmy. Robot porusza się między instalacjami, zagląda przez wizjery do wnętrza zbiorników i monitoruje parametry krytyczne. Podobnie jak autonomiczne systemy, które BMW wprowadza do fabryki w Lipsku, tak i Spot staje się mobilnym ogniwem w łańcuchu nowoczesnego przemysłu.
Najbliższe miesiące pokażą, jak technologia ta poradzi sobie w długofalowej eksploatacji. Choć roboty od dawna dominują na liniach montażowych, model Gemini 1.6 pcha je w stronę znacznie trudniejszych zadań w nieprzewidywalnym, chaotycznym świecie zewnętrznym. Automatyzacja procesów inspekcyjnych to dla fabryk ogromna szansa na optymalizację kosztów i oddelegowanie ludzi do mniej monotonnych, a bardziej kreatywnych zadań.
Źródła:
Ars Technica, deepmind.google/blog/gemini-robotics-er-1-6, bostondynamics.com/blog/tools-for-your-to-do-list-with-spot-and-gemini-robotics
