Benchmark APEX-Agents od Mercor. Czy AI zastąpi prawników i bankierów?

Pamiętacie, jak dwa lata temu Satya Nadella, szef Microsoftu, prorokował, że sztuczna inteligencja przejmie całą pracę umysłową – od prawników po bankierów? Rzeczywistość jest mniej hollywoodzka. Firma Mercor właśnie opublikowała test porównawczy APEX-Agents, który pokazuje, że nawet topowe agenty AI radzą sobie z profesjonalnymi zadaniami jak stażysta z pierwszym dniem w firmie.

Od wielkich zapowiedzi do twardych testów – co to agenci AI w kontekście biura?

Agenci AI to autonomiczne systemy sztucznej inteligencji, które nie tylko odpowiadają na pytania, ale wykonują złożone, wieloetapowe zadania – niby wirtualni asystenci na sterydach. Dwa lata temu Nadella przewidywał, że modele podstawowe zrewolucjonizują pracę opartą na wiedzy, czyli te wszystkie role w kancelariach, bankach inwestycyjnych czy firmach konsultingowych. Tymczasem postępy w planowaniu i badaniach są imponujące, ale biurowa rzeczywistość stoi w miejscu. Dlaczego? Bo realna robota to nie czysty czat z modelem – to chaos plików w Google Drive, czatów w Slacku i deadline’ów.

Mercor, firma specjalizująca się w danych treningowych i marketplace ekspertów, postanowiła to sprawdzić. Zamiast hipotetycznych testów, stworzyli benchmark APEX-Agents, oparty na 480 rzeczywistych zadaniach z trzech branż: bankowości inwestycyjnej, konsultingu zarządzania i prawa korporacyjnego. To nie sucha teoria – zadania pochodzą od wiceprezesów z Goldman Sachs, McKinsey czy Cravath, którzy sami zdefiniowali, co znaczy „gotowe dla klienta”.

Ironia losu: w erze, gdzie AI piszą eseje i kod, proste śledzenie informacji przez różne aplikacje okazuje się achillesową piętą. Brendan Foody, szef Mercor, mówi wprost: „W realnym życiu nie dostajesz całego kontekstu w jednym miejscu”. I tu zaczyna się zabawa.

Jak powstał APEX-Agents – od ankiet ekspertów po symulowane biuro

Tworzenie tego testu to nie był szybki projekt po kawie, a nauka na sterydach. Ekipa z Mercor najpierw przesłuchała setki wyjadaczy z topowych korporacji, żeby dowiedzieć się, co oni właściwie robią przez osiem godzin w biurze. Potem menedżerowie z 10-letnim stażem zbudowali 33 „światy” – taką symulację pracy w Google Workspace czy Boxie.

Wyobraźcie sobie: dostajecie tygodniowy projekt dla firmy naftowej, a w nim setki maili, plików w Excelu i wiecznie płonący czat. Totalny realizm.

Wrzucili tam 480 konkretnych zadań. Każde ma prostą instrukcję i listę kryteriów w systemie zero-jedynkowym: albo dowiozłeś, albo nie. Eksperci sami przygotowali wzorcowe odpowiedzi, a żeby było uczciwie, wszystko wrzucili za darmo do sieci (open source na Hugging Face). Do sprawdzania wyników użyli własnej maszyny do oceniania – Archipelago.

Tu nie ma lania wody: na jeden taki „świat” przypada średnio 166 plików, a co dziesiąte zadanie wymaga stworzenia czegoś zupełnie od zera. Jak mówi Foody:

„Ten test to lustro prawdziwej pracy”.

Wszystko po to, żeby sprawdzić, czy AI może wejść do Twojego zespołu jako pełnoprawny gracz, czy tylko zrobi wstyd i zasypie Cię błędami.

Przykłady zadań – dlaczego nawet prawnik by się zawahał

Zadania w APEX-Agents to czysta biurowa codzienność, tyle że wrzucona na procesory maszyn. Weźmy prawo korporacyjne: system dostaje info o 48-minutowej awarii w fabryce w UE, podczas której wyeksportowano logi z danymi osobowymi do USA. Pytanie: „Czy to jest zgodne z polityką firmy i art. 49 RODO?”.

Żeby odpowiedzieć poprawnie, AI nie może po prostu zmyślać – musi przeorać wewnętrzne regulaminy firmy i zderzyć je z unijnymi przepisami.

W bankowości inwestycyjnej jest jeszcze weselej: analiza tabel, szukanie ukrytych danych w wirtualnych archiwach i wystawienie rekomendacji. W konsultingu: zrobienie prezentacji z raportów, które są rozsypane po całym dysku. Człowiekowi zajmuje to godziny, a AI musi tu nawigować bez mapy – samo szuka plików, łączy kropki i modli się, żeby nie strzelić gafy.

Dlaczego te zadania to „killerzy” dla agentów?

Oto powody, dla których większość modeli po prostu kapituluje:

Informacyjny śmietnik – dane są rozproszone po różnych apkach, nie ma jednego „folderu z prawdą”.
Chaos i domysły – dane są niekompletne i niejasne, zupełnie jak w prawdziwym życiu.
Zero fuszerki – wynik musi być „client-ready”, czyli gotowy do wysłania klientowi, z pełnym uzasadnieniem, a nie jako brudnopis.
Bieg długodystansowy – to nie jest szybkie pytanie-odpowiedź. To godziny „myślenia”, gdzie trzeba pamiętać, co się zrobiło trzy kroki wcześniej.

Nic dziwnego, że przy takim wycisku modele często albo milkną z przerażenia, albo zaczynają koncertowo halucynować.

Wyniki leaderboardu – Gemini na czele, ale z czego tu się cieszyć?

Testowano osiem topowych agentów w konfiguracjach z wysokim myśleniem (high thinking). Metrika Pass@1 mierzy procent zadań zrobionych poprawnie za pierwszym strzałem. Ogólne wyniki to klapa: nikt powyżej 25%.

Najlepsi to:

Gemini 3 Flash (wysokie myślenie): 24,0% – lider, ale w prawie 26%, w konsultingu tylko 19%.
GPT-5.2 (wysokie): 23,0% – blisko, w bankowości 27%.
Claude Opus 4.5 (wysokie): ok. 18%.
Gemini 3 Pro (wysokie): 18,4%.
GPT-5 (wysokie): ok. 18%.

Jeśli damy maszynom osiem prób (Pass@8), skuteczność skacze do 40%. Ale umówmy się – to wciąż poziom praktykanta, który ogarnia co drugie polecenie. Ranking na mercor.com/apex jasno pokazuje: AI woli liczby i Excela niż zawiłości prawne.

Foody podsumowuje to z lekkim przekąsem: „Mamy stażystę, który trafia w punkt co czwarty raz. Rok temu trafiał raz na dziesięć”. Postęp jest? Jest. Ale do przejęcia biur jeszcze daleka droga.

Główne słabości agentów AI – gdzie tracą punkty?

Największą barierą jest tzw. rozumowanie międzydomenowe. W prawdziwym biurze musisz jednocześnie zerkać na Slacka, przeszukiwać Drive’a i sprawdzać maile. Agenci AI w tym labiryncie po prostu wymiękają – gubią wątek po kilku krokach i kompletnie nie radzą sobie z niejasnymi poleceniami czy nietypowymi formatami plików.

Oto ich największe bolączki:

Amnezja procesowa – w długich sesjach AI po prostu zapomina, co przeczytało kilka kroków wcześniej.
Błądzenie w folderach – nawigacja w złożonych strukturach plików idzie im jak szukanie po omacku.
Kreatywna księgowość (halucynacje) – zamiast uczciwego „nie wiem”, model woli zmyślić dane, żeby tylko zamknąć taska.

Ekipa z Mercor stawia sprawę jasno: to nie jest problem konkretnego modelu (jak GPT czy Gemini), ale samej architektury agentów. Prawdziwa praca polega na łączeniu kropek między różnymi programami i ludźmi – dla nas to naturalne, dla AI to wciąż rzut monetą.

Wniosek jest brutalny: Benchmark APEX został zaprojektowany jako „tor przeszkód” i udowodnił jedno – hype na agentów mocno wyprzedził rzeczywistość. Dopóki AI nie nauczy się sprzątać tego biurowego chaosu, nasze biurka są bezpieczne.

Implikacje dla rynku pracy – etaty pod znakiem zapytania?

Jeśli AI dojdzie do 80-90%, pożegnamy juniorów w bankach czy kancelariach. Na razie? Bezpiecznie. W Europie 200 tysięcy etatów w bankach czeka na automatyzację, ale APEX mówi: poczekajcie.

Dla konsultantów z McKinseya czy prawników z topowych kancelarii AI to obecnie jedynie „turbodoładowany asystent” do żmudnych zadań, a nie realne zagrożenie dla posady. Jak mówi Foody: „To najważniejszy temat współczesnej gospodarki”. Jeśli jednak tempo wzrostu się utrzyma – z 10% rok temu do 25% dzisiaj – to za rok możemy mieć „stażystę”, który trafia w punkt już co drugi raz.

Największy paradoks? Choć AI ma docelowo przejąć część obowiązków, to właśnie teraz takie firmy jak Mercor masowo zatrudniają ekspertów, by… trenowali te modele. Rynek nie dąży do prostego zastąpienia nas maszyną, ale do modelu Człowiek + AI. To nie jest gra o sumie zerowej, a raczej ewolucja narzędzi.

Jedno jest pewne: warto zerkać na leaderboard APEX. To tam, w tabelkach ze skutecznością procentową, rodzi się przyszłość Twojego biurka.

Źródła: TechCrunch (https://techcrunch.com/2026/01/22/are-ai-agents-ready-for-the-workplace-a-new-benchmark-raises-doubts/), Mercor blog (https://www.mercor.com/blog/introducing-apex-agents), Hugging Face dataset (https://huggingface.co/datasets/mercor/apex-agents), arXiv paper (https://arxiv.org/abs/2601.14242), Mercor leaderboard (https://www.mercor.com/apex/apex-agents-leaderboard)

Benchmark APEX-Agents pokazuje, że agenci AI wciąż gubią się w prostych zadaniach profesjonalistów

Od wielkich zapowiedzi do twardych testów – co to agenci AI w kontekście biura?

Jak powstał APEX-Agents – od ankiet ekspertów po symulowane biuro

Przykłady zadań – dlaczego nawet prawnik by się zawahał

Wyniki leaderboardu – Gemini na czele, ale z czego tu się cieszyć?

Główne słabości agentów AI – gdzie tracą punkty?

Implikacje dla rynku pracy – etaty pod znakiem zapytania?

Related Articles

Google Maps przechodzi rewolucję. To największa zmiana od dekady

Google wprowadzi reklamy do Gemini. Czysty czatbot to już przeszłość?

Chatboty AI mylą się w połowie diagnoz. Badanie Nature Medicine obnaża prawdę