Czy ChatGPT naprawdę pomaga uczniom w nauce według aktualnych badań?

Wycofana meta-analiza twierdziła, że tak – duży pozytywny wpływ na wyniki. Po retrakcji nie mamy jednak pewnych dowodów z tej pracy. Inne badania wskazują na mieszane efekty i potrzebę dalszych, rygorystycznych testów.

Dlaczego meta-analiza została wycofana tak długo po publikacji?

Springer Nature zareagowała 22 kwietnia 2026, prawie rok po publikacji. Powodem były rozbieżności metodologiczne, na które redakcja zwróciła uwagę później. Autorzy nie odpowiedzieli na pytania.

Ile razy cytowano wycofane badanie?

Według Google Scholar – 504 razy w sumie, w tym 262 cytowania w recenzowanych czasopismach Springer Nature. Wiele z tych prac powstało przed retrakcją i może nadal opierać się na jej wnioskach.

Co oznacza to dla nauczycieli i szkół w Polsce?

To sygnał do ostrożności przy wdrażaniu AI w edukacji. Zamiast polegać na nagłówkowych wynikach szybkich badań, warto czekać na solidne, długoterminowe analizy z rzeczywistymi klasami.

Czy wycofanie pracy oznacza, że ChatGPT nie ma żadnych korzyści w edukacji?

Nie – retrakcja dotyczy tylko tej konkretnej meta-analizy i jej metodologii. Inne badania nad AI w nauczaniu trwają, ale pokazują, że efekty są bardziej złożone i zależne od sposobu użycia.

Wycofana meta-analiza Wang i Fan: ChatGPT w edukacji i jej błędy metodologiczne

W maju 2025 roku meta-analiza autorstwa J. Wang i W. Fan, opublikowana w prestiżowym Humanities & Social Sciences Communications od Springer Nature, sugerowała, że ChatGPT daje potężny zastrzyk wiedzy i poprawia wyniki uczniów. Prawie rok później, 22 kwietnia 2026, redakcja wycofała pracę z powodu kompromitujących rozbieżności, które wywracają wszystkie wnioski do góry nogami. To nie jest drobna korekta: to bolesne przypomnienie, jak łatwo niepewne badania o AI w edukacji zyskują status prawdy objawionej w mediach i literaturze naukowej.

TL;DR

Meta-analiza Wang i Fan z maja 2025 przeanalizowała 51 badań i twierdziła duży pozytywny wpływ ChatGPT na wyniki nauczania
Springer Nature wycofał pracę 22 kwietnia 2026 z powodu rozbieżności metodologicznych – autorzy nie odpowiedzieli na pytania
Badanie zebrało 504 cytowania i prawie 500 tysięcy czytelników przed retrakcją
Eksperci wskazują na mieszanie słabej jakości badań i niemożliwe tempo publikacji w 2,5 roku po premierze ChatGPT
Nagłówkowe wnioski mogą przetrwać w cytowaniach i dyskusji mimo wycofania

Co obiecywała wycofana meta-analiza Wang i Fan?

Autorzy wzięli pod lupę 51 wcześniejszych publikacji, w których porównywano postępy uczniów korzystających z ChatGPT z grupami kontrolnymi. Po przeliczeniu statystyk ogłosili światu, że narzędzie od OpenAI gwarantuje duży pozytywny wpływ na wyniki nauczania (Hedges’ g = 0,867), poprawia percepcję procesu uczenia się (g = 0,456) i realnie wspiera rozwój myślenia wyższego rzędu (g = 0,457).

Praca ujrzała światło dzienne 6 maja 2025 roku i błyskawicznie stała się jednym z najchętniej cytowanych tekstów o AI w edukacji. Problem w tym, że entuzjazm badaczy wyprzedził rzetelność, a naukowa społeczność zbyt chętnie uwierzyła w proste odpowiedzi na trudne pytania o rolę dużych modeli językowych w klasach.

Dlaczego 51 badań to za mało, żeby wyciągać wielkie wnioski?

Sama liczba 51 prac brzmi imponująco, ale dopiero po przyjrzeniu się temu zbiorowi widać, dlaczego eksperci od początku machali na nią ręką. Wang i Fan nie raportują, czy włączone badania były recenzowane, randomizowane ani czy miały dostatecznie liczne próby. Co najmniej połowa prac miała grupy badawcze poniżej 35 osób, a niektóre wyciągały wnioski z eksperymentów na 12 uczniach – co przy stosowaniu Hedges’ g pompuje wielkość efektu, ale nie daje żadnych podstaw do generalizacji.

Do tego dochodzi kompletna mieszanka kontekstów: od kursów STEM, przez naukę języków, po metodę problem-based learning, przy interwencjach trwających od jednej godziny do kilku miesięcy. W solidnej meta-analizie autorzy musieliby przeanalizować tę heterogeniczność i pokazać, gdzie efekty się różnią i dlaczego. Wang i Fan uśrednili wszystko jak grochówkę i sprzedali wynik jako jeden, spójny fenomen. W wielu z 51 badań brakowało też walidowanych narzędzi pomiarowych – testy bywały konstruowane ad hoc przez nauczycieli, a grupy kontrolne korzystały z przypadkowych, nieporównywalnych materiałów dydaktycznych.

The studies they included seemed weak (short-term, many let students use ChatGPT in their exams etc).

The meta-analysis was shared widely. Used by a lot of edu-influencers and AI advocates as ‘proof’ of the benefit of this technology.

Today, that paper has been retracted. pic.twitter.com/3MjTSkHb3e

— Brad Busch (@BradleyKBusch) May 4, 2026

Dlaczego Springer Nature zdecydował się na retrakcję?

22 kwietnia 2026 redakcja Humanities & Social Sciences Communications opublikowała oficjalne zawiadomienie o wycofaniu tekstu (DOI: 10.1057/s41599-026-07310-z). W komunikacie redaktor wskazuje na rozbieżności w samej meta-analizie, które ostatecznie podważają zaufanie do ważności analizy i płynących z niej wniosków. Co istotne, autorzy nabrali wody w usta i nie odpowiedzieli na żadną wiadomość od wydawcy w sprawie retrakcji.

Konkretne zarzuty, które krążyły wokół tekstu jeszcze przed wycofaniem, dotyczyły kilku obszarów. Po pierwsze, brak jakiegokolwiek filtra jakości – do puli trafiały zarówno prace z renomowanych czasopism, jak i teksty z wydawnictw drapieżnych, bez ważenia ich wiarygodności. Po drugie, mechaniczne agregowanie efektów z badań o populacjach mniejszych niż 35 uczniów. Po trzecie, brak analizy heterogeniczności i transparentnej kategoryzacji interwencji – problem-based learning z efektem g = 1,113 nie został w ogóle zdefiniowany, a 4–8-tygodniowe „idealne okno” (g = 0,999) nie miało żadnego uzasadnienia statystycznego. Ben Williamson z University of Edinburgh w rozmowie z Ars Technica stwierdził wprost, że praca była metodologicznym grochem z kapustą, mieszając badania o skrajnie różnej jakości i populacjach uczniów.

Z kolei Ilkka Tuomi z Meaning Processing Ltd dodał złośliwie, że takie meta-analizy powstają często tylko po to, by statystyki wyprodukowały liczby wyglądające na naukę, nawet jeśli dane wejściowe są bezwartościowe. Williamson słusznie punktuje też czas: w zaledwie 2,5 roku od premiery ChatGPT w listopadzie 2022 fizycznie nie dało się przeprowadzić i rzetelnie zrecenzować tylu wysokiej jakości badań, by stworzyć z nich wiarygodną meta-analizę.

Jak błędy Wang i Fan zainfekowały debatę o AI?

Zanim Springer zareagował, praca zdążyła zebrać 504 cytowania według Google Scholar i przyciągnąć pół miliona czytelników, lądując w 99. percentylu popularności Altmetric. Ben Williamson ostrzega, że w sieci zostaną głównie chwytliwe nagłówki, a informacja o retrakcji dotrze do ułamka odbiorców, którzy traktowali to badanie jako „złoty standard” dowodów na korzyści płynące z AI.

Co to oznacza dla polskich szkół?

To fatalna wiadomość dla polskiego systemu oświaty, gdzie dyskusja o technologii często opiera się na emocjach, a nie twardych danych. Setki strategii edukacyjnych zdążyły już zacytować wnioski Wang i Fan jako fakt, a wycofanie pracy nie usunie tych odwołań ze szkolnych prezentacji, raportów ministerialnych ani projektów grantowych.

Na poziomie szkoły rachunek jest prosty: subskrypcja ChatGPT Plus to wydatek rzędu 100 zł miesięcznie od ucznia lub nauczyciela (20 USD plus 23% VAT). Mnożąc to przez klasę albo grono pedagogiczne, dochodzimy do kwot, które wymagają solidnego uzasadnienia.

A solidnego uzasadnienia teraz nie ma. Potrzebujemy realnych dowodów skuteczności, a nie szybkich publikacji robionych pod tezę. Efekt tej wpadki będzie się ciągnął latami, bo każda decyzja o wdrożeniu AI w klasie, która powoływała się na g = 0,867 z meta-analizy Wang i Fan, opiera się dziś na fundamencie unieważnionym przez samego wydawcę.

Źródła:

Ars Technica; Nature.com (zawiadomienie o retrakcji z 22 kwietnia 2026: https://www.nature.com/articles/s41599-026-07310-z); oryginalna publikacja Wang & Fan z 6 maja 2025: https://www.nature.com/articles/s41599-025-04787-y; analiza metodologiczna na winssolutions.org; LinkedIn – wpisy Bena Williamsona i Ilkki Tuomi; theeconomyofmeaning.com; Google Scholar; cennik OpenAI dla planu ChatGPT Plus

ChatGPT w szkole to jednak nie rewolucja. Springer wycofuje badanie

TL;DR

Co obiecywała wycofana meta-analiza Wang i Fan?

Dlaczego 51 badań to za mało, żeby wyciągać wielkie wnioski?

Dlaczego Springer Nature zdecydował się na retrakcję?

Jak błędy Wang i Fan zainfekowały debatę o AI?

Co to oznacza dla polskich szkół?

Najczęściej zadawane pytania

Related Articles

Trump nagle polubił testy AI. Mythos od Anthropic wywołał panikę

Anthropic podwoiło limity dla Claude Code. Umowa ze SpaceX daje natychmiastowy efekt

DeepSeek z Chin celuje w 45 miliardów dolarów. To dopiero ich pierwsza runda