AI miało odciążyć lekarzy od papierologii. Audyt w Ontario pokazuje jednak mniej wygodny obraz: wszystkie 20 dopuszczonych systemów do tworzenia notatek z wizyt popełniało błędy, a część po prostu dopisywała rzeczy, które nie padły w gabinecie. W medycynie to nie jest drobna wpadka, tylko problem zaufania do całego narzędzia.

TL;DR

  • Audyt Shelley Spence objął 20 zatwierdzonych przez rząd Ontario systemów AI scribe
  • Wszystkie 20 narzędzi popełniły błędy w testach z symulowanymi wizytami
  • 9 systemów halucynowało informacje, w tym wymyślone skierowania na badania
  • 12 narzędzi źle zapisało nazwy leków lub szczegóły recept
  • 17 systemów pominęło kluczowe detale dotyczące zdrowia psychicznego pacjentów

Co raport Shelley Spence sprawdził w 20 systemach AI scribe

Specjalny raport audytorki generalnej Ontario Shelley Spence, opublikowany w maju 2026 roku, dotyczył wykorzystania AI w administracji prowincji, także w ochronie zdrowia. W części medycznej audyt objął 20 systemów AI scribe wcześniej wstępnie zatwierdzonych przez Supply Ontario do zakupu przez placówki. 20 systemów w teście analizowano na podstawie symulowanych rozmów lekarz–pacjent.

Audytorzy sprawdzali, czy narzędzia poprawnie zapisują diagnozy, zalecenia i decyzje terapeutyczne. Wynik był prosty: każde z testowanych rozwiązań miało problem z dokładnością albo kompletnością notatek. Raport wskazał też, że przed wpisaniem tych narzędzi na listę zakupową nie przeprowadzono dodatkowych testów jakości klinicznej i bezpieczeństwa działania.

Jakie błędy popełniały systemy zatwierdzone przez Supply Ontario

Najmocniejszy fragment audytu dotyczy tego, co systemy po prostu wymyślały. Dziewięć narzędzi dopisywało nieistniejące skierowania, na przykład na badania krwi albo terapię, choć w scenariuszu wizyty lekarz niczego takiego nie zlecał. 9 narzędzi halucynowało treści, które mogły zmienić sens całej dokumentacji.

Do tego 12 systemów błędnie zapisywało nazwy leków lub szczegóły recept. W praktyce chodziło nie o literówki, ale o wpisanie innej substancji albo zmienionych informacji o leczeniu. Z kolei 17 rozwiązań pomijało ważne wątki związane ze zdrowiem psychicznym pacjentów. To właśnie te braki raport uznał za szczególnie niebezpieczne, bo mogą prowadzić do źle ustawionego dalszego leczenia.

Dlaczego Ontario w ogóle dopuściło AI do notatek medycznych

Powód jest dość przyziemny: lekarze toną w dokumentacji. AI scribe ma słuchać rozmowy, tworzyć podsumowanie i wkładać je do elektronicznej dokumentacji medycznej, żeby lekarz nie kończył dnia z kilkunastoma zaległymi wpisami. Chodziło o oszczędność czasu, a po drodze także o ograniczenie wypalenia zawodowego.

Ontario potraktowało te narzędzia jako sposób na przyspieszenie pracy placówek i wpisało dostawców na listę zakupową. Problem polegał na tym, że proces kwalifikacji, według audytu, skupiał się bardziej na formalnym dopuszczeniu produktu niż na pytaniu, czy notatka z wizyty faktycznie zgadza się z tym, co powiedzieli lekarz i pacjent. W polskich realiach taki wątek pewnie od razu zainteresowałby też Urząd Ochrony Danych Osobowych, bo tu stawką są nie tylko błędy medyczne, ale i dane wrażliwe.

Co te halucynacje oznaczają dla pacjenta przy kolejnej wizycie

W medycynie błędna notatka żyje dłużej niż sama rozmowa w gabinecie. Jeśli system wpisze zły lek, kolejny lekarz może potraktować to jako punkt wyjścia. Jeśli dopisze skierowanie, pacjent dostaje fałszywy sygnał, że coś zostało już zlecone. Błąd zostaje w dokumentacji, a dokumentacja ma w ochronie zdrowia sporą władzę.

Raport Shelley Spence ostrzegał, że takie pomyłki mogą skutkować „niewystarczającym lub szkodliwym planem leczenia” i wpływać na wyniki zdrowotne pacjentów. Formalnie lekarz powinien zweryfikować wpis wygenerowany przez AI przed zapisaniem go w systemie. Tyle że przy napiętym grafiku łatwo zamienić tę kontrolę w szybkie przejrzenie ekranu. I właśnie tu wygoda technologii zaczyna gryźć się z bezpieczeństwem.

Co inne badania mówią o AI w dokumentacji i diagnozie

Audyt z Ontario nie wygląda jak odosobniony wybryk. Już wcześniej badania i testy narzędzi medycznych opartych na modelach językowych pokazywały, że systemy potrafią gubić ważne objawy, upraszczać kontekst albo zbyt pewnie podawać niepewne odpowiedzi. Ontario nie jest wyjątkiem, tylko kolejnym przypadkiem, w którym medycyna zderza się z ograniczeniami modeli językowych.

Zobacz: Badanie Nature Medicine

Problem jest ten sam, nawet jeśli interfejs się zmienia. Czy narzędzie udaje konsultanta, czy „tylko” sekretarkę do notatek, model nadal może dopowiadać brakujące fragmenty. W zwykłym czacie to irytuje. W historii choroby robi się dużo poważniej.

Co audytorka generalna Ontario zaleciła po publikacji raportu

Shelley Spence zaleciła, by przed zakupem kolejnych systemów AI scribe wprowadzić obowiązkowe testy dokładności, a po wdrożeniu prowadzić regularne audyty. Raport wskazał też na potrzebę lepszej dokumentacji dotyczącej bezpieczeństwa i prywatności danych pacjentów. Najpierw testy, potem wdrożenie – to wniosek, który brzmi banalnie, ale najwyraźniej nie był oczywisty na etapie zakupów.

Dla samych lekarzy wniosek jest mniej wygodny: notatka wygenerowana przez AI nadal powinna być traktowana jako szkic, a nie gotowy wpis. Tylko że jeśli technologia obiecuje oszczędność czasu, a potem wymaga równie uważnej kontroli jak stażysta pierwszego dnia pracy, to cały sens takiego wdrożenia zaczyna się chwiać.

Czy ten problem da się ograniczyć, czy trzeba żyć z ryzykiem

Da się ograniczyć skalę błędów, ale nie da się ich po prostu zagadać marketingiem. Pomagają węższe zastosowania, lepsze testy na prawdziwych scenariuszach klinicznych i jasna odpowiedzialność za zatwierdzanie gotowej notatki. Sam model nie wystarczy, jeśli nikt nie sprawdza, jak zachowuje się w skrajnych przypadkach i przy niejednoznacznych wypowiedziach pacjenta.

Najważniejsze jest chyba to, by nie mylić „narzędzia wspierającego” z „narzędziem godnym zaufania z definicji”. Audyt z Ontario pokazuje, że nawet oficjalnie dopuszczone rozwiązania mogą zawodzić w podstawowej funkcji. A jeśli system nie potrafi wiernie streścić rozmowy, to trudno oczekiwać, że lekarz odda mu większą część odpowiedzialności.

Źródła:

Ars Technica, CBC News, Global News, Auditor General of Ontario report, Toronto Star, CP24

Najczęściej zadawane pytania