AI

5 czerwca, 2026

Claude Opus 4.7 dominuje w estońskim teście odporności na propagandę. Co to mówi o modelach AI?

By Agnieszka Zugaj

Estończycy zrobili test, który dotyka bardzo konkretnego problemu: czy chatbot powtórzy propagandową narrację, gdy użytkownik poda ją w formie „niewinnego” pytania. W benchmarku Propaganda Resistance najlepiej wypadł Claude Opus 4.7, ale ciekawsze od samego podium jest to, jak blisko podeszły niektóre modele open-weight i co to mówi o gotowości AI do pracy w naszym regionie.

TL;DR

Estonian Language Institute (ELI) we współpracy z Propastop opublikował benchmark Propaganda Resistance
Claude Opus 4.7 uzyskał 94,9/100 i ocenę Exemplary na 77% pytań
Sześć z dziesięciu najlepszych miejsc zajęły modele Claude od Anthropic
GPT-5.4 od OpenAI osiągnął 88,9 pkt, a Gemini 2.5 Pro około 82
Nvidia Nemotron i Alibaba Qwen pokazały mocne wyniki wśród modeli open-weight

Po co Estonian Language Institute i Propastop zbudowały ten test?

Estonian Language Institute (ELI) i organizacja Propastop przygotowały benchmark Propaganda Resistance z bardzo prostego powodu: w Estonii temat rosyjskich operacji wpływu nie jest abstrakcją, tylko codziennym elementem debaty o bezpieczeństwie. Twórcy testu opisują 14 kategorii narracji związanych m.in. z wojną w Ukrainie, NATO, Krymem i historią państw bałtyckich.

Sam benchmark obejmuje 75 pytań zadawanych po angielsku, estońsku i rosyjsku. Modele odpowiadały bez dostępu do zewnętrznego wyszukiwania, a odpowiedzi oceniał osobny model AI skalibrowany na ocenach ekspertów Propastop. To ważne, bo test nie mierzy „wiedzy o świecie” w szerokim sensie, tylko odporność na konkretne próby podsuwania propagandowych tez.

Jak wypadł Claude Opus 4.7, a gdzie znalazły się GPT-5.4 i Gemini 2.5 Pro?

Według opisu benchmarku i doniesień prasowych najwyższy wynik uzyskał Claude Opus 4.7 od Anthropic: 94,9 na 100 punktów. Model dostał też ocenę Exemplary na 77% pytań, co sugeruje nie tylko przewagę punktową, ale też dość równą jakość odpowiedzi w całym zestawie.

Anthropic prowadzi szerzej niż jednym modelem. Sześć z dziesięciu najlepszych miejsc zajęły różne wersje Claude Sonnet i Claude Opus. GPT-5.4 od OpenAI osiągnął 88,9 punktu, a Gemini 2.5 Pro około 82. W szkicu był też ciekawy wątek o modelach open-weight: Nvidia Nemotron i Alibaba Qwen miały wyniki zbliżone do czołówki zamkniętych systemów, co dla wielu zespołów wdrożeniowych może być ważniejsze niż sam medal za pierwsze miejsce.

Co wyniki z Estonii mówią o wdrożeniach AI w Polsce i regionie?

Z polskiej perspektywy ten test nie jest egzotyczną ciekawostką. Jeśli model ma trafić do administracji, mediów, edukacji albo działu obsługi klienta, to pytanie brzmi nie tylko „czy odpowiada płynnie?”, ale też „czy powieli zmanipulowaną narrację o NATO, Ukrainie albo historii regionu?”. Benchmark z Estonii pokazuje, że te różnice między modelami są realne.

To nie tylko ranking, ale też sygnał zakupowy. Open-weight nie znaczy automatycznie „gorszy”, a zamknięty model dużej firmy nie dostaje z automatu immunitetu na propagandę. Dla instytucji w Europie Środkowej to może być całkiem praktyczna wskazówka przy wyborze narzędzi AI, zwłaszcza tam, gdzie stawką jest wiarygodność odpowiedzi, a nie tylko szybkość generowania tekstu.

Źródła:

Ars Technica, Gigazine, AI Chat Daily, Propastop.org, Estonian Language Institute benchmark page

Najczęściej zadawane pytania

Published on 5 czerwca, 2026

View all posts by Agnieszka Zugaj

Related Articles

1Password daje Claude dostęp do kont. Ale bez haseł w modelu?

AI 17 lipca, 2026

1Password daje Claude dostęp do kont. Ale bez haseł w modelu?

1Password uruchomiło Agentic Mode dla Claude. Sprawdź, jak działa dostęp do kont bez ujawniania haseł i gdzie kończy się to…

By Agnieszka Zugaj Read article

Moonshot AI wypuszcza Kimi K3. Chiński model open-source dogania czołówkę USA

AI 17 lipca, 2026

Moonshot AI wypuszcza Kimi K3. Chiński model open-source dogania czołówkę USA

Moonshot AI pokazało Kimi K3: model 2,8T z kontekstem 1M tokenów. Sprawdzamy benchmarki, cenę i termin publikacji wag.

By Agnieszka Zugaj Read article

OpenAI wypuszcza klawiaturę za 230 dolarów dla Codex. Prawdziwy sprzęt dopiero nadchodzi

AI 16 lipca, 2026

OpenAI wypuszcza klawiaturę za 230 dolarów dla Codex. Prawdziwy sprzęt dopiero nadchodzi

OpenAI pokazało klawiaturę Codex Micro za 230 dolarów. Sprawdzamy, co umie, kogo interesuje i o co chodzi w sporze z…

By Agnieszka Zugaj Read article