Andrej Karpathy, legendarny były szef AI w Tesli i współzałożyciel OpenAI, po raz kolejny wywraca stolik. Tym razem udowadnia, że duże modele językowe potrafią budować własne bazy wiedzy w formacie Markdown, całkowicie omijając skomplikowane bazy wektorowe i klasyczny RAG. Zapomnij o gubieniu kontekstu – to wiki, które ewoluuje i rośnie całkowicie autonomicznie.

TL;DR

  • Karpathy wykorzystuje LLM do przekształcania surowych danych w uporządkowaną strukturę wiki z odnośnikami
  • System bez problemu radzi sobie z zestawem ok. 100 artykułów i 400 tys. słów bez użycia RAG
  • Architektura opiera się na trzech filarach: pobieraniu danych, kompilacji oraz automatycznej kontroli spójności
  • Dla biznesu to szansa na stworzenie „żywej biblii korporacyjnej” z nieuporządkowanych notatek i plików
  • Rozwiązanie otwiera drogę do generowania wysokiej jakości danych syntetycznych do dotrenowywania modeli

Czym jest baza wiedzy LLM według Karpathy’ego?

Andrej Karpathy, znany ostatnio z promowania idei „vibe codingu” – czyli programowania opartego na intencjach, a nie sztywnych komendach – pochwalił się na platformie X autorskim systemem do zarządzania wiedzą badawczą. Zamiast użerać się z modelami, które cierpią na amnezję po zakończeniu sesji, Karpathy obsadził LLM w roli skrupulatnego bibliotekarza. System zbiera surowe materiały, takie jak artykuły naukowe czy repozytoria z GitHuba, a następnie przetwarza je w czytelną strukturę plików Markdown.

Obecnie rozwiązanie to bez zadyszki obsługuje około 100 artykułów i 400 tysięcy słów, co dla wielu projektów badawczych jest wartością w zupełności wystarczającą. Całość spina Obsidian – popularna aplikacja do notatek, która pozwala Karpathy’emu podglądać surowe dane, wygenerowaną przez AI wiki oraz grafy powiązań. Rola człowieka ogranicza się tu do minimum, bo czarną robotę wykonuje sztuczna inteligencja.

Nie szukajcie tu ciężkiej, korporacyjnej infrastruktury. To zestaw sprytnych skryptów w Pythonie, które udowadniają, że prostota wygrywa. Markdown jest lekki, czytelny dla ludzi i – co najważniejsze – wyjątkowo „strawny” dla dużych modeli językowych, co czyni go idealnym fundamentem dla nowoczesnej bazy wiedzy.

Trzy etapy architektury

Architektura zaproponowana przez Karpathy’ego stawia na przejrzystość, której często brakuje w systemach RAG. Pierwszym krokiem jest „ingest”, czyli masowe zasysanie danych. Wszystko trafia do folderu raw/ dzięki wtyczce Obsidian Web Clipper. Narzędzie to konwertuje strony internetowe na format Markdown i lokalnie zapisuje obrazy, dzięki czemu modele wyposażone w funkcje wizyjne mogą je bez problemu analizować.

Kluczowym momentem jest kompilacja bazy wiki, gdzie LLM wchodzi w tryb analityczny. Model czyta surowe pliki, tworzy zwięzłe podsumowania, wyłuskuje najważniejsze definicje i buduje encyklopedyczne wpisy, dbając o gęstą sieć odnośników zwrotnych. To proces znacznie głębszy niż zwykłe indeksowanie słów kluczowych – to budowanie logicznej struktury pojęciowej od zera.

Ostatni etap to ciągłe utrzymanie systemu, czyli tzw. linting. LLM regularnie skanuje bazę w poszukiwaniu nieścisłości, uzupełnia brakujące informacje (korzystając w razie potrzeby z wyszukiwarki) i sugeruje nowe powiązania między tematami. Jak słusznie zauważył Charly Wargnier, taka wiki posiada zdolność do autokorekty, co drastycznie podnosi jej wiarygodność w czasie.

Koniec z RAG? Porównanie podejść

Przez ostatnie miesiące paradygmat RAG (Retrieval-Augmented Generation) był uznawany za jedyną słuszną drogę: dzielenie dokumentów na fragmenty, tworzenie wektorów i przeszukiwanie baz pod kątem podobieństwa. Karpathy rzuca temu wyzwanie w kontekście średniej wielkości zbiorów danych. Twierdzi, że przy odpowiedniej strukturze tekstu, LLM radzi sobie znacznie lepiej bez matematycznych protez.

W tym systemie to pliki Markdown stanowią ostateczne źródło prawdy. Każda informacja podawana przez model ma swój ślad w konkretnym pliku .md, który użytkownik może w każdej chwili otworzyć i zweryfikować. Zapomnij o halucynacjach wynikających z błędnego dopasowania wektorów w „czarnej skrzynce” bazy danych.

Co to oznacza dla firm?

Choć Karpathy skromnie nazywa swój projekt „hakerskimi skryptami”, Vamshi Reddy z platformy X zauważa coś znacznie ważniejszego. Większość firm posiada ogromne zasoby nieustrukturyzowanej wiedzy na Slacku czy w PDF-ach, których nikt nie porządkuje. Rozwiązanie Karpathy’ego to gotowy przepis na autonomiczną „biblię firmową”, która aktualizuje się sama w czasie rzeczywistym.

Podejście w stylu Karpathy’ego nie ogranicza się do pasywnego wyszukiwania – ono aktywnie redaguje wiedzę. Ole Lehmann widzi w tym potencjał na aplikację integrującą zakładki, podcasty i wątki z X w jeden spójny system. Z kolei Eugen Alpeza z Edra już pracuje nad adaptacją tej metody dla sektora enterprise, gdzie tysiące pracowników generują miliony rekordów wymagających ciągłej walidacji.

Ewolucja w stronę systemów wieloagentowych (multi-agent) już się dokonuje. Projekt „Swarm Knowledge Base” od jumperz wykorzystuje aż 10 agentów, gdzie model Hermes od Nous Research pełni rolę recenzenta sprawdzającego szkice przed ich publikacją w wiki. Powstaje zamknięta pętla: od surowych danych, przez kompilację i walidację, aż po informację zwrotną.

Skalowalność i wydajność w praktyce

Pojawiają się głosy sceptyków pytających o granice wydajności tego rozwiązania. Karpathy uspokaja: przy 400 tysiącach słów dobrze przygotowane indeksy i streszczenia w zupełności wystarczają. W przypadku konkretnych działów firmy czy projektów badawczych, tradycyjny RAG wprowadza jedynie zbędne opóźnienia i informacyjny szum, który utrudnia dotarcie do sedna.

Podobne doświadczenia ma Lex Fridman, który korzysta z dynamicznych wizualizacji HTML/JS do zarządzania danymi oraz koncepcji „efemerycznej wiki”. Polega ona na ładowaniu wyselekcjonowanej mini-bazy do kontekstu LLM na potrzeby konkretnej sesji pytań i odpowiedzi głosowych.

Filozofia plików nad aplikacjami

Fundamentem wizji Karpathy’ego jest format Markdown – otwarty standard, który uwalnia użytkownika od dyktatury konkretnego dostawcy oprogramowania (vendor lock-in). Obsidian służy tu jedynie jako wygodny interfejs typu local-first, ale sercem systemu pozostają pliki, które odczyta każdy prosty edytor tekstu.

  • Narzędzia towarzyszące: oparte na „vibe codingu” wyszukiwarki CLI oraz minimalistyczne interfejsy webowe.
  • Zagrożenie dla SaaS: to bezpośrednie wyzwanie dla platform takich jak Notion, gdzie dane są uwięzione w chmurze.

Zasada file-over-app gwarantuje pełną suwerenność nad danymi. W świecie, gdzie AI staje się głównym edytorem, posiadanie fizycznej kontroli nad plikami tekstowymi staje się nowym luksusem i standardem bezpieczeństwa.

Reakcje społeczności i przyszłość

Środowisko entuzjastów AI zareagowało z ogromnym entuzjazmem. Jason Paul Michaels eksperymentuje już z systemami pozbawionymi embeddingów, opierając się wyłącznie na Markdownie i silniku FTS5. Z kolei Steph Ango, współtwórca Obsidiana, sugeruje tworzenie odizolowanych przestrzeni (vaultów) dla agentów, aby uniknąć zanieczyszczenia bazy błędnymi danymi.

Karpathy idzie jednak o krok dalej, widząc w wiki idealny zestaw treningowy. Dzięki tak uporządkowanym danym, model może „wchłonąć” wiedzę bezpośrednio do swoich wag podczas procesu dotrenowywania, co w przyszłości wyeliminuje problem ograniczonego okna kontekstowego.

Ręczne pisanie wiki odchodzi do lamusa; to naturalna domena dla LLM – podsumowuje Karpathy.

To nowa filozofia postrzegania AI jako agenta pamięci długotrwałej. Dla naukowców oznacza to koniec z zapomnianymi zakładkami, a dla biznesu – transformację martwych jezior danych w aktywne zasoby wiedzy. Warto przy tym wspomnieć o jego projekcie autoresearch, gdzie sztuczna inteligencja samodzielnie optymalizuje procesy badawcze.

Źródła:

VentureBeat (https://venturebeat.com/data/karpathy-shares-llm-knowledge-base-architecture-that-bypasses-rag-with-an), X.com/@karpathy (post 2039805659525644595 i wątek)

Najczęściej zadawane pytania