W maju 2025 roku meta-analiza autorstwa J. Wang i W. Fan, opublikowana w prestiżowym Humanities & Social Sciences Communications od Springer Nature, sugerowała, że ChatGPT daje potężny zastrzyk wiedzy i poprawia wyniki uczniów. Prawie rok później, 22 kwietnia 2026, redakcja wycofała pracę z powodu kompromitujących rozbieżności, które wywracają wszystkie wnioski do góry nogami. To nie jest drobna korekta: to bolesne przypomnienie, jak łatwo niepewne badania o AI w edukacji zyskują status prawdy objawionej w mediach i literaturze naukowej.

TL;DR

  • Meta-analiza Wang i Fan z maja 2025 przeanalizowała 51 badań i twierdziła duży pozytywny wpływ ChatGPT na wyniki nauczania
  • Springer Nature wycofał pracę 22 kwietnia 2026 z powodu rozbieżności metodologicznych – autorzy nie odpowiedzieli na pytania
  • Badanie zebrało 504 cytowania i prawie 500 tysięcy czytelników przed retrakcją
  • Eksperci wskazują na mieszanie słabej jakości badań i niemożliwe tempo publikacji w 2,5 roku po premierze ChatGPT
  • Nagłówkowe wnioski mogą przetrwać w cytowaniach i dyskusji mimo wycofania

Co obiecywała wycofana meta-analiza Wang i Fan?

Autorzy wzięli pod lupę 51 wcześniejszych publikacji, w których porównywano postępy uczniów korzystających z ChatGPT z grupami kontrolnymi. Po przeliczeniu statystyk ogłosili światu, że narzędzie od OpenAI gwarantuje duży pozytywny wpływ na wyniki nauczania (Hedges’ g = 0,867), poprawia percepcję procesu uczenia się (g = 0,456) i realnie wspiera rozwój myślenia wyższego rzędu (g = 0,457).

Praca ujrzała światło dzienne 6 maja 2025 roku i błyskawicznie stała się jednym z najchętniej cytowanych tekstów o AI w edukacji. Problem w tym, że entuzjazm badaczy wyprzedził rzetelność, a naukowa społeczność zbyt chętnie uwierzyła w proste odpowiedzi na trudne pytania o rolę dużych modeli językowych w klasach.

Dlaczego 51 badań to za mało, żeby wyciągać wielkie wnioski?

Sama liczba 51 prac brzmi imponująco, ale dopiero po przyjrzeniu się temu zbiorowi widać, dlaczego eksperci od początku machali na nią ręką. Wang i Fan nie raportują, czy włączone badania były recenzowane, randomizowane ani czy miały dostatecznie liczne próby. Co najmniej połowa prac miała grupy badawcze poniżej 35 osób, a niektóre wyciągały wnioski z eksperymentów na 12 uczniach – co przy stosowaniu Hedges’ g pompuje wielkość efektu, ale nie daje żadnych podstaw do generalizacji.

Do tego dochodzi kompletna mieszanka kontekstów: od kursów STEM, przez naukę języków, po metodę problem-based learning, przy interwencjach trwających od jednej godziny do kilku miesięcy. W solidnej meta-analizie autorzy musieliby przeanalizować tę heterogeniczność i pokazać, gdzie efekty się różnią i dlaczego. Wang i Fan uśrednili wszystko jak grochówkę i sprzedali wynik jako jeden, spójny fenomen. W wielu z 51 badań brakowało też walidowanych narzędzi pomiarowych – testy bywały konstruowane ad hoc przez nauczycieli, a grupy kontrolne korzystały z przypadkowych, nieporównywalnych materiałów dydaktycznych.

Dlaczego Springer Nature zdecydował się na retrakcję?

22 kwietnia 2026 redakcja Humanities & Social Sciences Communications opublikowała oficjalne zawiadomienie o wycofaniu tekstu (DOI: 10.1057/s41599-026-07310-z). W komunikacie redaktor wskazuje na rozbieżności w samej meta-analizie, które ostatecznie podważają zaufanie do ważności analizy i płynących z niej wniosków. Co istotne, autorzy nabrali wody w usta i nie odpowiedzieli na żadną wiadomość od wydawcy w sprawie retrakcji.

Konkretne zarzuty, które krążyły wokół tekstu jeszcze przed wycofaniem, dotyczyły kilku obszarów. Po pierwsze, brak jakiegokolwiek filtra jakości – do puli trafiały zarówno prace z renomowanych czasopism, jak i teksty z wydawnictw drapieżnych, bez ważenia ich wiarygodności. Po drugie, mechaniczne agregowanie efektów z badań o populacjach mniejszych niż 35 uczniów. Po trzecie, brak analizy heterogeniczności i transparentnej kategoryzacji interwencji – problem-based learning z efektem g = 1,113 nie został w ogóle zdefiniowany, a 4–8-tygodniowe „idealne okno” (g = 0,999) nie miało żadnego uzasadnienia statystycznego. Ben Williamson z University of Edinburgh w rozmowie z Ars Technica stwierdził wprost, że praca była metodologicznym grochem z kapustą, mieszając badania o skrajnie różnej jakości i populacjach uczniów.

Z kolei Ilkka Tuomi z Meaning Processing Ltd dodał złośliwie, że takie meta-analizy powstają często tylko po to, by statystyki wyprodukowały liczby wyglądające na naukę, nawet jeśli dane wejściowe są bezwartościowe. Williamson słusznie punktuje też czas: w zaledwie 2,5 roku od premiery ChatGPT w listopadzie 2022 fizycznie nie dało się przeprowadzić i rzetelnie zrecenzować tylu wysokiej jakości badań, by stworzyć z nich wiarygodną meta-analizę.

Jak błędy Wang i Fan zainfekowały debatę o AI?

Zanim Springer zareagował, praca zdążyła zebrać 504 cytowania według Google Scholar i przyciągnąć pół miliona czytelników, lądując w 99. percentylu popularności Altmetric. Ben Williamson ostrzega, że w sieci zostaną głównie chwytliwe nagłówki, a informacja o retrakcji dotrze do ułamka odbiorców, którzy traktowali to badanie jako „złoty standard” dowodów na korzyści płynące z AI.

Co to oznacza dla polskich szkół?

To fatalna wiadomość dla polskiego systemu oświaty, gdzie dyskusja o technologii często opiera się na emocjach, a nie twardych danych. Setki strategii edukacyjnych zdążyły już zacytować wnioski Wang i Fan jako fakt, a wycofanie pracy nie usunie tych odwołań ze szkolnych prezentacji, raportów ministerialnych ani projektów grantowych.

Na poziomie szkoły rachunek jest prosty: subskrypcja ChatGPT Plus to wydatek rzędu 100 zł miesięcznie od ucznia lub nauczyciela (20 USD plus 23% VAT). Mnożąc to przez klasę albo grono pedagogiczne, dochodzimy do kwot, które wymagają solidnego uzasadnienia.

A solidnego uzasadnienia teraz nie ma. Potrzebujemy realnych dowodów skuteczności, a nie szybkich publikacji robionych pod tezę. Efekt tej wpadki będzie się ciągnął latami, bo każda decyzja o wdrożeniu AI w klasie, która powoływała się na g = 0,867 z meta-analizy Wang i Fan, opiera się dziś na fundamencie unieważnionym przez samego wydawcę.

Źródła:

Ars Technica; Nature.com (zawiadomienie o retrakcji z 22 kwietnia 2026: https://www.nature.com/articles/s41599-026-07310-z); oryginalna publikacja Wang & Fan z 6 maja 2025: https://www.nature.com/articles/s41599-025-04787-y; analiza metodologiczna na winssolutions.org; LinkedIn – wpisy Bena Williamsona i Ilkki Tuomi; theeconomyofmeaning.com; Google Scholar; cennik OpenAI dla planu ChatGPT Plus

Najczęściej zadawane pytania