Czym właściwie są modele dyfuzyjne w kontekście tekstu?

Modele dyfuzyjne działają inaczej niż ChatGPT. Zamiast pisać słowo po słowie, zaczynają od cyfrowego szumu i stopniowo go „odszumiają”, aż powstanie spójny tekst. Dzięki temu obliczenia na kartach graficznych mogą odbywać się równolegle, co drastycznie przyspiesza generowanie odpowiedzi.

Czy Mercury 2 jest lepszy niż ChatGPT?

To zależy od Twoich potrzeb. Mercury 2 jest od 5 do 10 razy szybszy i ma mniejsze opóźnienia, a jakością dorównuje modelom takim jak Claude Haiku. Jeśli jednak potrzebujesz ekstremalnie głębokiego rozumowania, topowe modele GPT-4 czy Claude Opus wciąż mogą mieć nad nim przewagę.

W jaki sposób mogę przetestować Mercury 2?

Dostęp do modelu uzyskasz przez API kompatybilne z OpenAI na oficjalnej stronie Inception Labs. Wkrótce model pojawi się również na platformie AWS Bedrock – warto śledzić ich bloga w poszukiwaniu kluczy dostępowych.

Ile kosztuje korzystanie z tego modelu?

Oficjalny cennik nie został jeszcze w pełni upubliczniony, ale dzięki wysokiej wydajności na GPU koszty mają być bardzo konkurencyjne. Szacuje się, że cena może oscylować w granicach 0,25 USD za milion tokenów wejściowych.

Kiedy możemy spodziewać się kolejnej wersji modelu?

Firma nie podała konkretnych dat, ale intensywnie pracuje nad skalowaniem technologii. Ich celem jest osiągnięcie jakości flagowych modeli przy jednoczesnym zachowaniu rekordowej prędkości generowania tekstu.

Mercury 2 od Inception Labs: Model 10x szybszy niż ChatGPT i Claude

Wyobraź sobie model językowy, który wypluwa odpowiedzi błyskawicznie, bez tego irytującego czekania, aż kursor łaskawie wygeneruje kolejne słowo. Ekipa z Inception Labs twierdzi, że ich Mercury 2 właśnie to dowozi, a wszystko dzięki porzuceniu architektury transformerów na rzecz dyfuzji. Czy to faktycznie technologiczny odjazd, czy tylko zręczny marketingowy slalom?

TL;DR

Mercury 2 wykręca ponad 1000 tokenów na sekundę na układach Nvidia Blackwell.
Model jest od 5 do 10 razy szybszy w ujęciu end-to-end niż rozwiązania od OpenAI, Anthropic czy Google.
Pod względem jakości dorównuje modelom Claude Haiku i Google Flash, choć odstaje od gigantów typu Opus czy GPT-4.
To pierwszy komercyjny diffusion LLM dostępny przez API w pełni kompatybilne z standardem OpenAI.
Za projektem stoi Stefano Ermon, zdobywca nagrody Best Paper ICML 2024 za badania nad dyfuzją tekstu.

Jak działa Mercury 2 i czym różni się od standardowych modeli?

Klasyczne duże modele językowe, takie jak ChatGPT czy Claude, działają w trybie autoregresyjnym. Oznacza to, że mozolnie kleją tekst token po tokenie, od lewej do prawej, co wymusza obliczenia sekwencyjne i potężnie drenuje pamięć operacyjną. Inception Labs postanowiło wywrócić stolik i postawiło na podejście oparte na modelach dyfuzyjnych, które do tej pory kojarzyliśmy głównie z generatorami obrazów pokroju Stable Diffusion. W tym przypadku proces startuje od surowego, „zaszumionego” szkicu odpowiedzi, który jest dopracowywany równolegle w kilku iteracjach, co idealnie wykorzystuje architekturę nowoczesnych procesorów graficznych.

Mówiąc prościej: zamiast ciągnąć nieskończony łańcuch słów, Mercury 2 bierze cyfrowy chaos i „odszumia” go, szlifując treść matematycznie w paczkach (batchach). Taki zabieg skraca opóźnienie typu end-to-end nawet dziesięciokrotnie, co czyni ten model wymarzonym narzędziem dla autonomicznych agentów czy systemów działających w czasie rzeczywistym. Firma bije się w pierś, że to jedyny gotowy do produkcji diffusion LLM na rynku – podczas gdy Google wciąż bawi się w tej materii jedynie w eksperymenty.

Choć mechanizm ten w teorii brzmi banalnie, jego dopracowanie zajęło lata intensywnych badań. Stefano Ermon wraz ze swoim zespołem musieli dokonać karkołomnego wyczynu przeniesienia sukcesu dyfuzji ze świata pikseli bezpośrednio do świata słów.

The autoregressive bottleneck vs. diffusion-based generation. Watch how Mercury 2 works differently. https://t.co/EOEfOuEVrC

— Inception (@_inception_ai) February 24, 2026

Benchmarki pokazują przewagę prędkości – ale z haczykiem

Jeśli wierzyć testom przeprowadzonym przez Inception Labs, Mercury 2 wykręca oszałamiające 1009 tokenów na sekundę na kartach Nvidia Blackwell, zostawiając konkurencję daleko w tyle. Dla porównania, zoptymalizowane pod kątem szybkości modele od OpenAI, Anthropic czy Google oferują zazwyczaj od 100 do 200 tokenów na sekundę. To daje modelowi Mercury przewagę rzędu 5-10x w kwestii opóźnień (latency). To absolutny game-changer dla aplikacji wymagających natychmiastowej reakcji, takich jak zaawansowane edytory kodu czy systemy głosowej sztucznej inteligencji.

Model	Prędkość (tokeny/sek)	Jakość porównawcza
Mercury 2	~1009 (Blackwell GPU)	Haiku/Flash level
Claude Haiku	~100-200	Podobna
ChatGPT (speed opt.)	~100-200	Podobna
Gemini Flash	~100-200	Podobna
Claude Opus / GPT-4	Niższa	Wyższa

Porównanie prędkości i jakości Mercury 2 z konkurencją wg testów Inception Labs.

A co z jakością? Tutaj sprawa wygląda nieco inaczej. Mercury 2 gra w tej samej lidze co szybkie modele typu Claude Haiku czy Google Flash, ale wciąż musi uznać wyższość flagowców w rodzaju Claude Opus czy GPT-4. Mamy więc do czynienia z klasycznym handlowaniem głębią rozumowania na rzecz czystej prędkości.

Warto jednak zachować zdrowy dystans – to wciąż wewnętrzne benchmarki producenta, więc z niecierpliwością czekamy na niezależne testy, które potwierdzą te rewelacje.

Stefano Ermon – pionier dyfuzji z Stanford za sterami

Mózgiem całej operacji i CEO Inception Labs jest Stefano Ermon. To człowiek, który na Uniwersytecie Stanforda spopularyzował modele dyfuzyjne w grafice, a w 2024 roku zgarnął prestiżową nagrodę Best Paper na konferencji ICML za przełomową pracę o dyfuzji w tekście. Zespół ma solidne plecy – wspierają ich Nvidia, Microsoft oraz fundusz Menlo Ventures, który wyłożył 50 mln USD. Jak wiadomo, weterani branży AI nie palą gotówki w projektach, które nie rokują.

„Nasz Mercury 2, będący modelem rozumującym, dorównuje jakością szybkim modelom od OpenAI, Anthropic, Meta i Google, oferując przy tym od 5 do 10 razy mniejsze opóźnienia end-to-end” – deklaruje Ermon.

Ermon to nie jest przypadkowy gość z łapanki; jego prace naukowe są cytowane tysiące razy, co buduje solidny fundament pod obietnice firmy. Inception Labs celuje głównie w sektor enterprise oraz narzędzia do programowania, gdzie każda milisekunda jest na wagę złota. Tytuł ICML Best Paper 2024 to potężny argument, który uwiarygadnia te śmiałe tezy o rewolucji w generowaniu tekstu.

Dostępność i integracje – już możesz przetestować

Dobra wiadomość dla niecierpliwych: Mercury 2 jest dostępny od ręki poprzez API kompatybilne ze standardami OpenAI. Dla deweloperów to czyste „plug and play” – można podmienić model i sprawdzić efekty w kilka minut. W drodze jest już integracja z usługą AWS Bedrock, co otworzy szeroko drzwi dla wdrożeń w chmurze korporacyjnej. A co z kosztami? Mają być niskie dzięki wysokiej efektywności wykorzystania GPU, choć cennik wciąż owiany jest lekką mgłą tajemnicy.

W ofercie znajduje się również wcześniejszy Mercury Coder dedykowany programistom – oba modele tworzą spójny ekosystem. Nvidia aktywnie optymalizuje silnik serwujący, co pozwala przypuszczać, że to jeszcze nie koniec bicia rekordów prędkości. Dla polskich programistów to świetna okazja, by budować tańsze i znacznie szybsze prototypy agentów AI, które nie będą męczyć użytkownika lagami.

Na ten moment firma nie planuje udostępnienia modelu w wersji open-source; priorytetem pozostaje komercjalizacja technologii.

Wyzwania i przyszłość diffusion LLM

Czy Mercury 2 ma jakieś słabe punkty? Oczywiście. Głównym wyzwaniem pozostaje jakość odpowiedzi, która plasuje się na średnim poziomie (mid-tier), a nie na samym szczycie rankingu. W skrajnych przypadkach wymagających wielowarstwowego rozumowania tradycyjne transformery wciąż mogą mieć przewagę. Jednak niesamowita prędkość otwiera zupełnie nowe możliwości dla AI działającego w czasie rzeczywistym: od asystentów głosowych, przez autonomicznych agentów, aż po interaktywne edytory.

Zabawne jest to, że gdy OpenAI i Anthropic biją się o każdy ułamek punktu w testach jakości, Inception Labs wygrywa prostotą i wydajnością dyfuzji. Czy tak wygląda przyszłość? Całkiem możliwe, że czekają nas rozwiązania hybrydowe, ale Mercury wyznacza nowy kierunek rozwoju branży. Będziemy z uwagą obserwować, jak na ten ruch odpowiedzą najwięksi gracze, bo rękawica została rzucona bardzo zdecydowanie.

Źródła: The New Stack (https://thenewstack.io/inception-labs-mercury-2-diffusion/), Inception Labs blog (https://www.inceptionlabs.ai/blog/introducing-mercury-2), ICML 2024 paper

Mercury 2 od Inception Labs bije rekordy. Jest 10 razy szybszy od ChatGPT

TL;DR

Jak działa Mercury 2 i czym różni się od standardowych modeli?

Benchmarki pokazują przewagę prędkości – ale z haczykiem

Stefano Ermon – pionier dyfuzji z Stanford za sterami

Dostępność i integracje – już możesz przetestować

Wyzwania i przyszłość diffusion LLM

Najczęściej zadawane pytania

Related Articles

Google Maps przechodzi rewolucję. To największa zmiana od dekady

Google wprowadzi reklamy do Gemini. Czysty czatbot to już przeszłość?

Chatboty AI mylą się w połowie diagnoz. Badanie Nature Medicine obnaża prawdę