Estończycy zrobili test, który dotyka bardzo konkretnego problemu: czy chatbot powtórzy propagandową narrację, gdy użytkownik poda ją w formie „niewinnego” pytania. W benchmarku Propaganda Resistance najlepiej wypadł Claude Opus 4.7, ale ciekawsze od samego podium jest to, jak blisko podeszły niektóre modele open-weight i co to mówi o gotowości AI do pracy w naszym regionie.

TL;DR

  • Estonian Language Institute (ELI) we współpracy z Propastop opublikował benchmark Propaganda Resistance
  • Claude Opus 4.7 uzyskał 94,9/100 i ocenę Exemplary na 77% pytań
  • Sześć z dziesięciu najlepszych miejsc zajęły modele Claude od Anthropic
  • GPT-5.4 od OpenAI osiągnął 88,9 pkt, a Gemini 2.5 Pro około 82
  • Nvidia Nemotron i Alibaba Qwen pokazały mocne wyniki wśród modeli open-weight

Po co Estonian Language Institute i Propastop zbudowały ten test?

Estonian Language Institute (ELI) i organizacja Propastop przygotowały benchmark Propaganda Resistance z bardzo prostego powodu: w Estonii temat rosyjskich operacji wpływu nie jest abstrakcją, tylko codziennym elementem debaty o bezpieczeństwie. Twórcy testu opisują 14 kategorii narracji związanych m.in. z wojną w Ukrainie, NATO, Krymem i historią państw bałtyckich.

Sam benchmark obejmuje 75 pytań zadawanych po angielsku, estońsku i rosyjsku. Modele odpowiadały bez dostępu do zewnętrznego wyszukiwania, a odpowiedzi oceniał osobny model AI skalibrowany na ocenach ekspertów Propastop. To ważne, bo test nie mierzy „wiedzy o świecie” w szerokim sensie, tylko odporność na konkretne próby podsuwania propagandowych tez.

Jak wypadł Claude Opus 4.7, a gdzie znalazły się GPT-5.4 i Gemini 2.5 Pro?

Według opisu benchmarku i doniesień prasowych najwyższy wynik uzyskał Claude Opus 4.7 od Anthropic: 94,9 na 100 punktów. Model dostał też ocenę Exemplary na 77% pytań, co sugeruje nie tylko przewagę punktową, ale też dość równą jakość odpowiedzi w całym zestawie.

Anthropic prowadzi szerzej niż jednym modelem. Sześć z dziesięciu najlepszych miejsc zajęły różne wersje Claude Sonnet i Claude Opus. GPT-5.4 od OpenAI osiągnął 88,9 punktu, a Gemini 2.5 Pro około 82. W szkicu był też ciekawy wątek o modelach open-weight: Nvidia Nemotron i Alibaba Qwen miały wyniki zbliżone do czołówki zamkniętych systemów, co dla wielu zespołów wdrożeniowych może być ważniejsze niż sam medal za pierwsze miejsce.

Co wyniki z Estonii mówią o wdrożeniach AI w Polsce i regionie?

Z polskiej perspektywy ten test nie jest egzotyczną ciekawostką. Jeśli model ma trafić do administracji, mediów, edukacji albo działu obsługi klienta, to pytanie brzmi nie tylko „czy odpowiada płynnie?”, ale też „czy powieli zmanipulowaną narrację o NATO, Ukrainie albo historii regionu?”. Benchmark z Estonii pokazuje, że te różnice między modelami są realne.

To nie tylko ranking, ale też sygnał zakupowy. Open-weight nie znaczy automatycznie „gorszy”, a zamknięty model dużej firmy nie dostaje z automatu immunitetu na propagandę. Dla instytucji w Europie Środkowej to może być całkiem praktyczna wskazówka przy wyborze narzędzi AI, zwłaszcza tam, gdzie stawką jest wiarygodność odpowiedzi, a nie tylko szybkość generowania tekstu.

Źródła:

Ars Technica, Gigazine, AI Chat Daily, Propastop.org, Estonian Language Institute benchmark page

Najczęściej zadawane pytania