Rozmowa z AI nadal bywa dziwnie „na zmianę”: ty mówisz, model czeka, potem odpowiada jak na czacie z audio. Thinking Machines Lab Miry Murati twierdzi, że da się to zrobić inaczej. I właśnie na tym opiera swoją nową rodzinę modeli.

TL;DR

  • Thinking Machines Lab Miry Murati zapowiedziało modele interaction, czyli AI typu full-duplex
  • Według wpisu firmy model TML-Interaction-Small reaguje średnio w 0,40 sekundy
  • Firma opisuje go jako architekturę MoE z 276 mld parametrów i 12 mld aktywnych
  • To nie ma być wariant istniejącego voice moda, tylko system trenowany od zera pod rozmowę w czasie rzeczywistym
  • Preview ma ruszyć w najbliższych miesiącach, a szersza premiera jest planowana na drugą połowę 2026 roku

Thinking Machines Lab pokazało, co rozumie przez „interaction models”

W poniedziałek 11 maja 2026 Thinking Machines Lab opublikowało na firmowym blogu opis „interaction models”. Chodzi o systemy, które mają przetwarzać wejście i generować odpowiedź równocześnie, zamiast działać w schemacie: użytkownik kończy, model dopiero startuje. To sedno ogłoszenia.

Firma nazywa to podejściem full-duplex. W praktyce ma ono bardziej przypominać zwykłą rozmowę telefoniczną niż klasyczny chatbot z dodanym mikrofonem. Według materiałów Thinking Machines model TML-Interaction-Small osiąga średni czas reakcji 0,40 sekundy. To właśnie ta liczba jest osią całej prezentacji.

TML-Interaction-Small ma być natywnie rozmowny, a nie tylko „dogłośniony”

Tu widać różnicę wobec wielu obecnych modeli głosowych. Zwykle interaktywność jest dokładana na wierzch do gotowego modelu językowego. Thinking Machines twierdzi, że trenowało swój system od zera pod przetwarzanie audio, wideo i tekstu w czasie rzeczywistym. Natywna interakcja ma więc wynikać z architektury, a nie z nakładki.

Z opisu firmy wynika, że taki model może wejść w pół słowa, dopytać w trakcie wypowiedzi albo reagować na kontekst z otoczenia. Brzmi efektownie, ale uczciwie mówiąc, prawdziwy test zacznie się dopiero poza demonstracją producenta. Demo prawie zawsze wygląda lepiej niż codzienna rozmowa z użytkownikiem, który mówi niewyraźnie, przerywa i ma w tle hałas.

Benchmark FD-bench ma pokazać przewagę nad OpenAI i Google

Thinking Machines porównało swój model z konkurencją w benchmarku FD-bench v1.5. Według danych podanych przez firmę TML-Interaction-Small uzyskał 77,8 pkt, podczas gdy Gemini-3.1-flash-live miało 54,3, a GPT-realtime-2.0 47,8. To przewaga w tabeli, przynajmniej na etapie materiałów premierowych.

Trzeba jednak dodać ważny kontekst: benchmarki przygotowywane lub eksponowane przez samą firmę są dobrym sygnałem kierunku, ale nie zamykają dyskusji. Jeśli te wyniki potwierdzą niezależne testy, OpenAI i Google będą miały problem. Jeśli nie, zostanie nam po prostu kolejna ładna tabelka z premiery.

Architektura MoE ma tu znaczenie większe, niż brzmi to w slajdzie

Firma opisuje TML-Interaction-Small jako model Mixture-of-Experts o 276 miliardach parametrów, z czego aktywnych ma być 12 miliardów. Taka konstrukcja zwykle pozwala ograniczyć koszt pojedynczej odpowiedzi i utrzymać szybkość działania bez uruchamiania całego modelu naraz. MoE daje oszczędność.

Thinking Machines przekonuje też, że interaktywność skaluje się razem z rozmiarem modelu i zapowiada większe wersje jeszcze w 2026 roku. To akurat brzmi rozsądnie: jeśli firma rzeczywiście zbudowała architekturę pod rozmowę w czasie rzeczywistym, to mniejsze i większe warianty mogą mieć sens produktowy. Zwłaszcza dla firm, które będą liczyć koszt wdrożenia w złotówkach, a nie tylko zachwycać się demo na X.

Preview w 2026 roku to zapowiedź, nie gotowy produkt

Na razie mowa o research preview. Thinking Machines zapowiada ograniczoną wersję dla wybranych użytkowników w ciągu najbliższych miesięcy, a szerszą premierę planuje na drugą połowę 2026 roku. Firma nie podała jeszcze cen ani szczegółów dostępności dla klientów biznesowych. Produkt jeszcze dojrzewa.

To ważne rozróżnienie, bo łatwo pomylić atrakcyjną premierę z rynkową dostępnością. Dziś wiemy, jak ma to działać i co pokazują materiały producenta. Nie wiemy jeszcze, ile to będzie kosztować, jakie będą limity użycia i czy model utrzyma tempo działania poza kontrolowanym środowiskiem.

OpenAI i Google też idą w głos, ale Thinking Machines atakuje od innej strony

OpenAI od miesięcy rozwija produkty głosowe i eksperymenty wokół urządzeń działających bardziej „na ucho” niż na ekranie. ChatGPT szepczący za uchem dobrze pokazuje ten kierunek. Google też konsekwentnie rozwija tryby live dla Gemini. Wyścig trwa dalej.

Różnica polega na tym, że Thinking Machines sprzedaje dziś przede wszystkim tezę architektoniczną: najpierw model zaprojektowany pod rozmowę, potem produkt. OpenAI i Google częściej pokazują gotowe doświadczenie użytkownika. Jedno nie wyklucza drugiego, ale to dwie różne filozofie budowy AI głosowego.

Największa zmiana dla użytkownika? Mniej czekania, więcej chaosu

Jeśli ta technologia zadziała tak, jak obiecuje firma, rozmowa z AI stanie się bardziej naturalna. Model będzie mógł dopytać w trakcie, wejść z krótką reakcją, wychwycić zmianę tonu albo odnieść się do tego, co widzi kamera. Koniec rozmowy na tury brzmi kusząco.

Jest jednak i druga strona: system, który umie przerywać, musi też wiedzieć, kiedy tego nie robić. Inaczej dostaniemy nie asystenta, tylko bardzo pewnego siebie rozmówcę, który wchodzi w zdanie częściej niż wujek na rodzinnym obiedzie. Dlatego największym sprawdzianem nie będzie sama szybkość, ale wyczucie momentu.

Źródła:

TechCrunch, thinkingmachines.ai/blog/interaction-models/, The Verge, MarkTechPost, VentureBeat

 

Najczęściej zadawane pytania