Wyobraźcie sobie test, który okrzyknięto „ostatnim egzaminem ludzkości” (Humanity’s Last Exam). 3000 pytań na poziomie akademickim, skonstruowanych tak, by były całkowicie odporne na proste wyszukiwanie w sieci. Do niedawna wydawało się, że to bariera nie do przeskoczenia dla AI. Tymczasem Alibaba Cloud wchodzi na ring z modelem Qwen3-Max-Thinking i robi tam niezłe zamieszanie, spychając gigantów z Doliny Krzemowej do narożnika.

Wyniki? 49,8 punktu dla Chińczyków. Dla porównania: Gemini 3 Pro od Google wykręciło 45,8, a GPT-5.2-Thinking od OpenAI zatrzymało się na 45,5 punktu. Wyścig zbrojeń w kategorii reasoning nabiera tempa, a Alibaba właśnie pokazała, że potrafi myśleć nie tylko szybciej, ale i taniej.

Test-Time Scaling, czyli jak Qwen3 „włącza myślenie”

Sercem potęgi Qwen3-Max-Thinking nie jest tylko gigantyczna liczba parametrów, ale sprytna architektura oparta na skalowaniu w czasie testu (test-time scaling). To technika, która zmienia zasady gry. Zamiast bezmyślnego wyrzucania kolejnych słów, model przechodzi w tzw. heavy mode. Stosuje wtedy wieloetapową samorefleksję z mechanizmem take-experience.

Co to oznacza w praktyce? AI nie zgaduje. Ono analizuje swoje poprzednie kroki, wyciąga wnioski z błędów i skupia się na rozwiązaniu faktycznych trudności, zamiast powtarzać oczywistości. To cyfrowa implementacja psychologicznego „Systemu 2” – logicznego, powolnego i głębokiego procesowania informacji. Efekty widać w benchmarkach: w doktoranckim teście GPQA wynik podskoczył z 90,3 do imponujących 92,8 punktu. To już nie jest chatbot – to cyfrowy naukowiec.

Dominacja na „Ostatnim Egzaminie Ludzkości”

Benchmark Humanity’s Last Exam (HLE) to obecnie najtrudniejszy sprawdzian dla dużych modeli językowych (LLM). Obejmuje nauki ścisłe, informatykę, inżynierię i humanistykę na poziomie graduate. Qwen3-Max-Thinking, korzystając ze swoich agentycznych narzędzi, osiągnął tam wynik 49,8, deklasując konkurencję.

Warto zwrócić uwagę na wszechstronność modelu w innych testach:

  • HMMT Feb 25: 98,0 pkt (lepiej niż Gemini 3 Pro).
  • Arena-Hard v2: 90,2 pkt (podczas gdy Claude 4.5 Opus osiągnął „tylko” 76,7).
  • LiveCodeBench v6: Skok na 91,4 pkt, co czyni go potęgą w kodowaniu.

Co istotne, zespół Qwen minimalizuje problem halucynacji. Dzięki integracji z zewnętrznymi danymi, model rzadziej „zmyśla” fakty, co było dotąd piętą achillesową wielu chińskich projektów AI.

Agentyczna rewolucja: Wyszukiwanie, Pamięć i Python

Qwen3-Max-Thinking to nie tylko sucha teoria. Model ten posiada cechy autonomicznego agenta AI. Sam decyduje, kiedy potrzebuje dodatkowych narzędzi, by rzetelnie odpowiedzieć na pytanie. W jego arsenale znajdziemy:

  • Wyszukiwanie sieciowe: Pobieranie faktów w czasie rzeczywistym.
  • Pamięć długotrwała: Zapamiętywanie kontekstu użytkownika i specyfiki danej relacji.
  • Interpreter kodu: Możliwość pisania i uruchamiania skryptów Python do skomplikowanych obliczeń.

Wyobraźcie sobie scenariusz biznesowy: model sprawdza bieżące kursy walut (search), oblicza prognozę przychodów (interpreter) i przygotowuje strategię, biorąc pod uwagę wcześniejsze ustalenia (pamięć). Wszystko to w jednej turze rozmowy.

Ceny, które bolą Dolinę Krzemową

Tu dochodzimy do ulubionego punktu DigiCat: ekonomii. Alibaba Cloud pozycjonuje nowy model agresywnie. Qwen3-Max-2026-01-23 jest modelem premium, ale jego koszty eksploatacji są śmiesznie niskie w porównaniu do zachodnich rywali.

Zestawienie kosztów za milion tokenów (input + output):

  • Qwen3-Max: ok. 1,20$ (przy mniejszych kontekstach).
  • Gemini 3 Pro: ok. 14,00$.
  • GPT-5.2: ok. 15,75$.

Różnica jest kolosalna. Nawet doliczając koszty zaawansowanego wyszukiwania agentycznego, budowa rozwiązań opartych o ekosystem Alibaby jest po prostu znacznie bardziej opłacalna. Deweloperzy docenią też pełną zgodność z API OpenAI oraz Anthropic, co pozwala na szybką podmianę droższego modelu (np. w Claude Code) na tańszego i równie sprawnego Qwena.

Chińczycy nie tylko dogonili, ale i wyprzedzili Zachód

Nasza ocena? Luka w zdolnościach rozumowania (reasoning gap) między USA a Chinami właśnie przestała istnieć. Qwen3-Max-Thinking to potężne narzędzie, które oferuje wydajność na poziomie GPT-5 za ułamek ceny. Choć kwestie bezpieczeństwa danych wciąż mogą budzić obawy w niektórych korporacjach, to pod względem technologicznym i ekonomicznym Alibaba Cloud dowozi produkt kompletny.

Wojna o autonomicznych agentów trwa w najlepsze, a Chińczycy właśnie zrzucili bombę cenową. Jeśli szukacie sposobu na tanie i inteligentne automatyzacje, czas zacząć eksperymentować z Qwenem. Podobnie jak w przypadku modeli wizualnych Alibaby, tutaj również cena i jakość tworzą zabójczą kombinację.

Źródła: VentureBeat (https://venturebeat.com/technology/qwen3-max-thinking-beats-gemini-3-pro-and-gpt-5-2-on-humanitys-last-exam), Qwen.ai blog (https://qwen.ai/blog?id=qwen3-max-thinking), Alibaba Cloud Model Studio (https://www.alibabacloud.com/help/en/model-studio/models), Artificial Analysis HLE Leaderboard (https://artificialanalysis.ai/evaluations/humanitys-last-exam), arXiv Humanity’s Last Exam (https://arxiv.org/abs/2501.14249)