Wyobraź sobie model językowy, który wypluwa odpowiedzi błyskawicznie, bez tego irytującego czekania, aż kursor łaskawie wygeneruje kolejne słowo. Ekipa z Inception Labs twierdzi, że ich Mercury 2 właśnie to dowozi, a wszystko dzięki porzuceniu architektury transformerów na rzecz dyfuzji. Czy to faktycznie technologiczny odjazd, czy tylko zręczny marketingowy slalom?

TL;DR

  • Mercury 2 wykręca ponad 1000 tokenów na sekundę na układach Nvidia Blackwell.
  • Model jest od 5 do 10 razy szybszy w ujęciu end-to-end niż rozwiązania od OpenAI, Anthropic czy Google.
  • Pod względem jakości dorównuje modelom Claude Haiku i Google Flash, choć odstaje od gigantów typu Opus czy GPT-4.
  • To pierwszy komercyjny diffusion LLM dostępny przez API w pełni kompatybilne z standardem OpenAI.
  • Za projektem stoi Stefano Ermon, zdobywca nagrody Best Paper ICML 2024 za badania nad dyfuzją tekstu.

Jak działa Mercury 2 i czym różni się od standardowych modeli?

Klasyczne duże modele językowe, takie jak ChatGPT czy Claude, działają w trybie autoregresyjnym. Oznacza to, że mozolnie kleją tekst token po tokenie, od lewej do prawej, co wymusza obliczenia sekwencyjne i potężnie drenuje pamięć operacyjną. Inception Labs postanowiło wywrócić stolik i postawiło na podejście oparte na modelach dyfuzyjnych, które do tej pory kojarzyliśmy głównie z generatorami obrazów pokroju Stable Diffusion. W tym przypadku proces startuje od surowego, „zaszumionego” szkicu odpowiedzi, który jest dopracowywany równolegle w kilku iteracjach, co idealnie wykorzystuje architekturę nowoczesnych procesorów graficznych.

Mówiąc prościej: zamiast ciągnąć nieskończony łańcuch słów, Mercury 2 bierze cyfrowy chaos i „odszumia” go, szlifując treść matematycznie w paczkach (batchach). Taki zabieg skraca opóźnienie typu end-to-end nawet dziesięciokrotnie, co czyni ten model wymarzonym narzędziem dla autonomicznych agentów czy systemów działających w czasie rzeczywistym. Firma bije się w pierś, że to jedyny gotowy do produkcji diffusion LLM na rynku – podczas gdy Google wciąż bawi się w tej materii jedynie w eksperymenty.

Choć mechanizm ten w teorii brzmi banalnie, jego dopracowanie zajęło lata intensywnych badań. Stefano Ermon wraz ze swoim zespołem musieli dokonać karkołomnego wyczynu przeniesienia sukcesu dyfuzji ze świata pikseli bezpośrednio do świata słów.

Benchmarki pokazują przewagę prędkości – ale z haczykiem

Jeśli wierzyć testom przeprowadzonym przez Inception Labs, Mercury 2 wykręca oszałamiające 1009 tokenów na sekundę na kartach Nvidia Blackwell, zostawiając konkurencję daleko w tyle. Dla porównania, zoptymalizowane pod kątem szybkości modele od OpenAI, Anthropic czy Google oferują zazwyczaj od 100 do 200 tokenów na sekundę. To daje modelowi Mercury przewagę rzędu 5-10x w kwestii opóźnień (latency). To absolutny game-changer dla aplikacji wymagających natychmiastowej reakcji, takich jak zaawansowane edytory kodu czy systemy głosowej sztucznej inteligencji.

Model Prędkość (tokeny/sek) Jakość porównawcza
Mercury 2 ~1009 (Blackwell GPU) Haiku/Flash level
Claude Haiku ~100-200 Podobna
ChatGPT (speed opt.) ~100-200 Podobna
Gemini Flash ~100-200 Podobna
Claude Opus / GPT-4 Niższa Wyższa

Porównanie prędkości i jakości Mercury 2 z konkurencją wg testów Inception Labs.

A co z jakością? Tutaj sprawa wygląda nieco inaczej. Mercury 2 gra w tej samej lidze co szybkie modele typu Claude Haiku czy Google Flash, ale wciąż musi uznać wyższość flagowców w rodzaju Claude Opus czy GPT-4. Mamy więc do czynienia z klasycznym handlowaniem głębią rozumowania na rzecz czystej prędkości.

Warto jednak zachować zdrowy dystans – to wciąż wewnętrzne benchmarki producenta, więc z niecierpliwością czekamy na niezależne testy, które potwierdzą te rewelacje.

Stefano Ermon – pionier dyfuzji z Stanford za sterami

Mózgiem całej operacji i CEO Inception Labs jest Stefano Ermon. To człowiek, który na Uniwersytecie Stanforda spopularyzował modele dyfuzyjne w grafice, a w 2024 roku zgarnął prestiżową nagrodę Best Paper na konferencji ICML za przełomową pracę o dyfuzji w tekście. Zespół ma solidne plecy – wspierają ich Nvidia, Microsoft oraz fundusz Menlo Ventures, który wyłożył 50 mln USD. Jak wiadomo, weterani branży AI nie palą gotówki w projektach, które nie rokują.

„Nasz Mercury 2, będący modelem rozumującym, dorównuje jakością szybkim modelom od OpenAI, Anthropic, Meta i Google, oferując przy tym od 5 do 10 razy mniejsze opóźnienia end-to-end” – deklaruje Ermon.

Ermon to nie jest przypadkowy gość z łapanki; jego prace naukowe są cytowane tysiące razy, co buduje solidny fundament pod obietnice firmy. Inception Labs celuje głównie w sektor enterprise oraz narzędzia do programowania, gdzie każda milisekunda jest na wagę złota. Tytuł ICML Best Paper 2024 to potężny argument, który uwiarygadnia te śmiałe tezy o rewolucji w generowaniu tekstu.

Dostępność i integracje – już możesz przetestować

Dobra wiadomość dla niecierpliwych: Mercury 2 jest dostępny od ręki poprzez API kompatybilne ze standardami OpenAI. Dla deweloperów to czyste „plug and play” – można podmienić model i sprawdzić efekty w kilka minut. W drodze jest już integracja z usługą AWS Bedrock, co otworzy szeroko drzwi dla wdrożeń w chmurze korporacyjnej. A co z kosztami? Mają być niskie dzięki wysokiej efektywności wykorzystania GPU, choć cennik wciąż owiany jest lekką mgłą tajemnicy.

W ofercie znajduje się również wcześniejszy Mercury Coder dedykowany programistom – oba modele tworzą spójny ekosystem. Nvidia aktywnie optymalizuje silnik serwujący, co pozwala przypuszczać, że to jeszcze nie koniec bicia rekordów prędkości. Dla polskich programistów to świetna okazja, by budować tańsze i znacznie szybsze prototypy agentów AI, które nie będą męczyć użytkownika lagami.

Na ten moment firma nie planuje udostępnienia modelu w wersji open-source; priorytetem pozostaje komercjalizacja technologii.

Wyzwania i przyszłość diffusion LLM

Czy Mercury 2 ma jakieś słabe punkty? Oczywiście. Głównym wyzwaniem pozostaje jakość odpowiedzi, która plasuje się na średnim poziomie (mid-tier), a nie na samym szczycie rankingu. W skrajnych przypadkach wymagających wielowarstwowego rozumowania tradycyjne transformery wciąż mogą mieć przewagę. Jednak niesamowita prędkość otwiera zupełnie nowe możliwości dla AI działającego w czasie rzeczywistym: od asystentów głosowych, przez autonomicznych agentów, aż po interaktywne edytory.

Zabawne jest to, że gdy OpenAI i Anthropic biją się o każdy ułamek punktu w testach jakości, Inception Labs wygrywa prostotą i wydajnością dyfuzji. Czy tak wygląda przyszłość? Całkiem możliwe, że czekają nas rozwiązania hybrydowe, ale Mercury wyznacza nowy kierunek rozwoju branży. Będziemy z uwagą obserwować, jak na ten ruch odpowiedzą najwięksi gracze, bo rękawica została rzucona bardzo zdecydowanie.

Źródła: The New Stack (https://thenewstack.io/inception-labs-mercury-2-diffusion/), Inception Labs blog (https://www.inceptionlabs.ai/blog/introducing-mercury-2), ICML 2024 paper

Najczęściej zadawane pytania