Wyobraź sobie diagnozę nowotworu we wczesnym stadium. Szukasz ratunku i pytasz chatbota o alternatywne kliniki – w odpowiedzi dostajesz gładki tekst z profesjonalnie brzmiącymi, choć całkowicie fałszywymi przypisami. To nie jest czarny scenariusz z serialu sci-fi, a realny wynik eksperymentu przeprowadzonego przez siedmiu badaczy pod wodzą Carstena Eickhoffa z University of Tübingen. Opublikowane w czasopiśmie BMJ Open dane nie pozostawiają złudzeń: popularne modele, takie jak ChatGPT czy Grok, wykładają się w co drugim przypadku.
TL;DR
- Pięć chatbotów (ChatGPT, Gemini, Grok, Meta AI, DeepSeek) podało błędne informacje w 50% z 250 zapytań medycznych
- Grok okazał się najmniej rzetelny – 58% problematycznych treści, tuż za nim ChatGPT z wynikiem 52%
- W pytaniach otwartych aż 32% odpowiedzi uznano za wysoce szkodliwe, a bibliografie były kompletne tylko w 40%
- Zastosowano testy zespołów atakujących (red teaming), co obnażyło podatność modeli na manipulację i błędy
- Inne prestiżowe źródła (Nature Medicine, JAMA) potwierdzają, że ludzie nie potrafią bezpiecznie korzystać z rad AI
Jak badacze testowali chatboty?
Siedmioro naukowców, w tym wspomniany Carsten Eickhoff, wzięło pod lupę czołówkę cyfrowych asystentów: ChatGPT, Gemini, Groka, Meta AI oraz DeepSeek. Metodologia była prosta, ale bezlitosna: każdemu modelowi zadano po 50 pytań dotyczących nowotworów, szczepionek, komórek macierzystych, a także żywienia i sportu. Aby uniknąć subiektywizmu, każdą wygenerowaną odpowiedź analizowało niezależnie dwóch ekspertów medycznych, oceniając ich merytorykę i bezpieczeństwo dla pacjenta.
Warto zaznaczyć, że nie były to uprzejme zapytania o definicję witaminy C. Badacze postawili na testy zespołów atakujących, czyli celowe prowokowanie algorytmów do popełnienia błędu lub udzielenia ryzykownej porady. To standardowa procedura weryfikacji bezpieczeństwa systemów AI, która ma sprawdzić, czy model potrafi odmówić odpowiedzi w sytuacjach krytycznych. Tylko w dwóch przypadkach na 250 chatboty zachowały asertywność. Cała reszta odpowiedzi brzmiała niezwykle pewnie, niemal jak autorytatywna opinia lekarza specjalisty.
Wszystkie testy przeprowadzono na darmowych wersjach narzędzi dostępnych w lutym 2025 roku. Choć płatne subskrypcje lub nowsze iteracje modeli mogą oferować wyższą precyzję, naukowcy słusznie zauważają, że większość użytkowników korzysta z ogólnodostępnych, bezpłatnych wariantów. To właśnie tam ryzyko dezinformacji medycznej jest największe, bo bariera wejścia praktycznie nie istnieje.
Ranking błędów: kto zawiódł najmocniej?
Wyniki badania są uderzająco spójne i, niestety, równie słabe dla wszystkich graczy. Statystyki pokazują ponury obraz: niemal co piąta odpowiedź została sklasyfikowana jako wysoce problematyczna, połowa zawierała istotne błędy, a kolejne 30% budziło mniejsze zastrzeżenia merytoryczne. Nie ma tu mowy o drobnych potknięciach – to systemowa niewydolność algorytmów w starciu z wiedzą specjalistyczną.
| Chatbot | % problematycznych odpowiedzi |
|---|---|
| Grok | 58% |
| ChatGPT | 52% |
| Meta AI | 50% |
| Gemini | ~50% |
| DeepSeek | ~50% |
W tym niechlubnym zestawieniu najgorzej wypadł Grok od xAI, firmy należącej do Elona Muska. Model ten wygenerował aż 58% problematycznych odpowiedzi, wyprzedzając w rankingu błędów ChatGPT (52%) oraz Meta AI (50%). Gemini i DeepSeek trzymają się w podobnej, równie niskiej lidze. Żaden z testowanych systemów nie zbliżył się do poziomu, który można by uznać za bezpieczny dla przeciętnego użytkownika szukającego pomocy medycznej w sieci.
Minimalne różnice w wynikach między poszczególnymi gigantami technologicznymi sugerują, że problem nie tkwi w konkretnym kodzie czy firmie. To raczej cecha immanentna obecnych modeli językowych, które z natury nie są zaprojektowane do weryfikacji faktów, lecz do generowania prawdopodobnych ciągów znaków. W medycynie takie podejście bywa po prostu zabójcze.
Tematy, gdzie AI tonie w chaosie
Analiza wykazała, że chatboty radzą sobie względnie najlepiej w tematach takich jak szczepionki czy onkologia. Wynika to z faktu, że baza treningowa w tych obszarach opiera się na obszernych, uporządkowanych badaniach klinicznych. Mimo to, nawet w tych „bezpiecznych” rejonach, co czwarta porada była błędna. Prawdziwy dramat zaczyna się jednak w sekcjach dotyczących żywienia i aktywności fizycznej, gdzie internetowy szum informacyjny jest największy.
W tych dziedzinach sieć kipi od sprzecznych teorii z blogów wellness i wątków na Reddicie, co bezpośrednio zatruwa dane treningowe AI. W przypadku otwartych pytań 32% odpowiedzi było wysoce problematycznych, podczas gdy przy pytaniach zamkniętych (tak/nie) wskaźnik ten wynosił zaledwie 7%. Problem polega na tym, że ludzie rzadko pytają zero-jedynkowo. Zazwyczaj wpisują w okno czatu frazy typu: „Jakie suplementy pomogą mi na chroniczne zmęczenie?”, co otwiera furtkę do halucynacji.
Ten rozdźwięk pokazuje, jak bardzo laboratoryjne testy wydajności AI różnią się od realnego użytkowania. W kontrolowanych warunkach modele mogą błyszczeć, ale gdy dostają swobodę wypowiedzi w odpowiedzi na nieprecyzyjne zapytanie zestresowanego użytkownika, zaczynają serwować niebezpieczne bzdury.
Bibliografie – ozdoba czy pułapka?
Jednym z najbardziej podstępnych aspektów działania AI jest generowanie źródeł. Badacze poprosili chatboty o podanie 10 publikacji naukowych na poparcie swoich tez. Wynik był kompromitujący: mediana kompletności i poprawności bibliografii wyniosła zaledwie 40%. W ciągu 25 prób żaden model nie był w stanie wygenerować ani jednej listy, która byłaby w pełni zgodna z prawdą i wolna od błędów.
Jak wyglądają te pomyłki w praktyce? To prawdziwy festiwal kreatywności: fałszywi autorzy dopisani do realnych tytułów, niedziałające linki prowadzące donikąd lub całkowicie zmyślone artykuły naukowe, które nigdy nie powstały. Dla laika takie zestawienie wygląda niezwykle wiarygodnie, bo zachowuje naukowy format i terminologię. Niestety, żadna lista nie była w pełni dokładna, co czyni z nich cyfrową pułapkę na nieświadomego użytkownika.
To czysty hazard z wysoką stawką. Przypisy budują fałszywy autorytet i usypiają czujność, sprawiając, że nawet najbardziej absurdalna porada zdrowotna zyskuje pozory rzetelnej wiedzy medycznej. Weryfikacja takich źródeł zajmuje ekspertom sporo czasu, a przeciętny pacjent po prostu im zaufa.
Dlaczego AI tak łatwo się myli?
Kluczem do zrozumienia tego zjawiska jest fakt, że modele językowe w rzeczywistości niczego nie „wiedzą”. One jedynie przewidują najbardziej prawdopodobne następstwo słów na podstawie gigantycznych zbiorów danych, w których publikacje naukowe mieszają się z forumowymi plotkami. Algorytm nie ocenia jakości dowodów ani nie posiada kompasu etycznego – on po prostu statystycznie dopasowuje tekst do zapytania.
Zastosowanie testów z symulowanymi atakami celowo podbiło statystyki błędów w porównaniu do neutralnych pytań, ale badacze podkreślają, że to podejście lepiej oddaje rzeczywistość. Ludzie szukający diagnozy w sieci często są w stresie, szukają potwierdzenia swoich obaw lub dopytują o kontrowersyjne metody leczenia. W takich sytuacjach AI staje się „potakiwaczem”, który zamiast korygować błędy użytkownika, brnie w nie razem z nim.
Głównym problemem pozostaje fakt, że trening modeli miesza źródła o skrajnie różnej wartości merytorycznej. Dla algorytmu rygorystyczne badanie kliniczne z prestiżowego periodyku ma podobną wagę co popularny wpis na grupie wsparcia, jeśli oba zawierają podobne słowa kluczowe. Bez mechanizmu odróżniania prawdy od opinii, AI zawsze będzie generować medyczny szum.
Potwierdzenia z innych badań
Wyniki z BMJ Open nie są odosobnione. W lutym 2026 roku na łamach Nature Medicine opublikowano raport, z którego wynika, że choć samo AI trafia w 95% odpowiedzi, to ludzie korzystający z jego wsparcia osiągają skuteczność na poziomie zaledwie 35%. To paradoks: z asystentem AI radzimy sobie gorzej niż bez niego, bo bezkrytycznie przyjmujemy sugestie maszyny.
Z kolei JAMA Network Open opublikowała testy 21 modeli, którym podano podstawowe dane pacjenta (wiek, płeć, objawy). Wynik? Algorytmy pudłowały w 80% diagnoz. Sytuacja pogarszała się jeszcze bardziej po dodaniu wyników badań laboratoryjnych – wtedy odsetek błędów skakał powyżej 90%. Maszyny gubiły się w gąszczu parametrów, których nie potrafiły poprawnie zinterpretować w kontekście klinicznym.
Również Nature Communications Medicine zwraca uwagę na zjawisko uporczywego powtarzania przez AI wymyślonych terminów medycznych. To dowodzi, że mamy do czynienia z problemami systemowymi, a nie jednorazowymi błędami konkretnej wersji oprogramowania. Technologia po prostu nie dojrzała do roli samodzielnego diagnosty.
Rady Eickhoffa: nie traktuj AI, jak lekarza
Mimo druzgocących wyników, badacze nie postulują całkowitego zakazu używania chatbotów. Narzędzia te mogą być przydatne do wstępnego rozeznania w temacie, streszczania długich artykułów czy pomagania w sformułowaniu pytań, które warto zadać podczas prawdziwej wizyty u specjalisty. Kluczowe jest jednak zachowanie dystansu i świadomość, że po drugiej stronie nie siedzi lekarz, lecz zaawansowany autouzupełniacz tekstu.
Zasada ograniczonego zaufania powinna być tu świętością. Każde twierdzenie wymaga osobistej weryfikacji, a źródła należy sprawdzać pod kątem ich istnienia w realnych bazach medycznych. Eickhoff ostrzega wprost: „nie traktuj AI jako autorytetu medycznego”. Pewność siebie, z jaką chatboty formułują swoje rady, jest ich największą wadą, ponieważ rzadko towarzyszą jej odpowiednie ostrzeżenia o ryzyku błędu.
Skala problemu jest ogromna, biorąc pod uwagę, że użytkownicy zadają 200 mln pytań zdrowotnych tygodniowo w samym ChatGPT. Przy tak masowym wykorzystaniu, nawet niewielki procent błędów przekłada się na miliony ludzi wprowadzonych w błąd. W medycynie, gdzie stawką jest życie, margines na takie pomyłki powinien wynosić zero.
Źródła:
ScienceAlert, BMJ Open, The Conversation, Bloomberg, Nature Medicine, JAMA Network Open
