Wyobraź sobie, że twoje ulubione Archiwum Internetu, które od lat ratuje strony przed cyfrowym niebytem, nagle zostaje uznane za kanał dla „kradzieży” treści przez AI. Giganci tacy jak The Guardian i New York Times właśnie wyciągają wtyczkę – blokują roboty Archiwum Internetu, bo widzą w nich zbyt prostą ścieżkę do scrapingu dla dużych modeli językowych.
TL;DR
- The Guardian wyłączył dostęp do swoich artykułów przez API oraz Maszynę Wayback Archiwum Internetu.
- New York Times całkowicie zablokował roboty Archiwum, wprowadzając archive.org_bot do pliku robots.txt.
- Financial Times i Reddit również ograniczają dostęp, by chronić treści za paywallem przed darmowym treningiem AI.
- Dane z Archiwum Internetu zasilały już wcześniej zbiory treningowe modeli Google T5 oraz Meta Llama.
- W maju 2023 roku anonimowa firma AI przeciążyła serwery Archiwum, generując tysiące zapytań na sekundę.
The Guardian stawia zaporę przed archiwum
Robert Hahn, pełniący funkcję szefa spraw biznesowych i licencyjnych w The Guardian, przeanalizował logi dostępu i odkrył, że roboty Archiwum Internetu wyjątkowo intensywnie przeczesują ich zasoby. Efekt? Brytyjski wydawca postanowił ukrócić ten proceder i ograniczył dostęp do opublikowanych tekstów, odcinając je od interfejsów programistycznych (API) oraz konkretnych adresów URL w Wayback Machine, czyli narzędziu, które pozwala nam oglądać historyczne wersje stron. Co ciekawe, strony główne i działy tematyczne wciąż będą archiwizowane, ale to, co najcenniejsze – czyli konkretne materiały dziennikarskie – znika z radaru.
Hahn nie owija w bawełnę: API Archiwum to prawdziwy lep na firmy rozwijające sztuczną inteligencję, które szukają gotowych i dobrze ustrukturyzowanych baz danych. „Te biznesy AI polują na gotowe, uporządkowane zbiory treści”, twierdzi Hahn, wyrażając obawę, że własność intelektualna redakcji zostanie po prostu wyssana bez pytania o zgodę. Nie jest to jeszcze całkowita blokada – Guardian deklaruje, że wspiera misję archiwizacji sieci, ale zamierza regularnie rewidować swoją politykę wobec robotów indeksujących.
To czysta ironia losu: instytucja, która miała chronić internet przed cenzurą i zapomnieniem, sama staje się w oczach wydawców podejrzanym tunelem dla scraperów.
New York Times i inni idą w ślady Guardiana
New York Times nie zostaje w tyle i potwierdza, że aktywnie blokuje roboty Archiwum Internetu. Pod koniec 2025 roku do ich pliku robots.txt trafił zapis o archive.org_bot. Rzeczniczka NYT tłumaczy tę decyzję krótko:
„Chcemy chronić nasze dziennikarstwo tworzone przez ludzi i zapewnić prawne korzystanie z treści”.
Według redakcji Wayback Machine oferowała zbyt swobodny dostęp do ich materiałów, z czego chętnie korzystały firmy AI bez żadnej autoryzacji.
Podobną strategię przyjął Financial Times, który blokuje wszelkie roboty próbujące dobierać się do treści ukrytych za paywallem – dotyczy to zarówno Archiwum, jak i gigantów typu OpenAI czy Anthropic. Matt Rogerson, dyrektor ds. globalnej polityki publicznej w FT, zaznacza, że skoro większość ich artykułów jest płatna, do archiwum powinny trafiać wyłącznie teksty otwarte. Nawet Reddit w sierpniu ogłosił blokadę, argumentując, że modele AI łamały zasady platformy, scrapując fora właśnie za pośrednictwem Wayback Machine.
Te ruchy wyraźnie pokazują nowy trend: w wojnie o dane nawet „pozytywne” projekty, jak Archiwum Internetu, obrywają rykoszetem. Michael Nelson z Old Dominion University podsumowuje to brutalnie: „Common Crawl i Archiwum to dobrzy gracze, ale złoczyńcy pokroju OpenAI bezlitośnie ich wykorzystują”.
Dlaczego archiwum stało się problemem dla AI?
Archiwum Internetu to potężna baza ponad biliona snapshotów stron, co czyni ją wymarzonym poligonem dla treningu dużych modeli językowych. Analiza zbioru C4 od Google przeprowadzona w 2023 roku wykazała, że domena web.archive.org była 187. najczęściej występującym źródłem na liście 15 milionów witryn. Dane te zasiliły proces uczenia takich modeli jak T5 od Google czy Llama od Meta.
Skala problemu jest ogromna – w maju 2023 roku pewna firma AI zalała serwery Archiwum dziesiątkami tysięcy zapytań na sekundę, korzystając z infrastruktury AWS, by masowo wyciągać tekst. Mark Graham, dyrektor Maszyny Wayback, przyznał, że musieli dwukrotnie blokować konkretne hosty, zanim firma ta łaskawie przeprosiła, wpłaciła darowiznę i zaprzestała ataku. Brewster Kahle, założyciel Archiwum, chwali stosowane limity zapytań i filtry, ale w pliku robots.txt wciąż widnieje gościnne: „Witaj w Archiwum Internetu!”.
Wydawcy rzadko potrafią wskazać palcem konkretne przypadki „kradzieży” przez Wayback, ale wolą dmuchać na zimne. To klasyczne zamykanie tylnych drzwi, zanim nieproszony gość zorientuje się, że są otwarte.
Reakcja Archiwum i szersze konsekwencje
Brewster Kahle bije na alarm:
„Jeśli wydawcy będą ograniczać biblioteki takie jak Internet Archive, ucierpi na tym społeczeństwo, tracąc dostęp do zapisu historycznego”.
Jego zdaniem archiwum to kluczowe narzędzie w walce z informacyjnym chaosem, jednak teraz musi on lawirować między misją otwartości a koniecznością ochrony zasobów. Choć Archiwum współpracuje z Guardianem przy wdrażaniu zmian, wciąż nie zdecydowało się na odgórne blokowanie AI w swoim pliku robots.txt.
Krytycy tego podejścia wskazują na „straty poboczne”: proces archiwizacji newsów wyraźnie zwalnia, co potwierdzają statystyki spadku liczby snapshotów stron głównych w 2025 roku. Doszło do tego, że dziennikarze muszą sami archiwizować swoje teksty, by ratować historię przed zniknięciem. Tymczasem wydawcy szukają bardziej dochodowych rozwiązań, takich jak giełdy treści dla AI od Amazonu, chcąc monetyzować swoje dane zamiast tylko je grodzić.
To gorzka ironia, że narzędzia stworzone do demokratyzacji wiedzy stają się zakładnikami w wielkiej bitwie o dane. Czy to faktycznie zmierzch ery otwartego, cyfrowego archiwum?
Źródła: Nieman Lab (https://www.niemanlab.org/2026/01/news-publishers-limit-internet-archive-access-due-to-ai-scraping-concerns/), analizy datasetów C4 (Washington Post 2023)
