Czy system Karpathy'ego faktycznie nie potrzebuje RAG?

Tak, w przypadku zbiorów do 10 tysięcy dokumentów LLM świetnie radzi sobie z utrzymywaniem indeksów i streszczeń. RAG staje się niezbędny dopiero przy ogromnej skali enterprise.

Jak zbudować własną bazę wiedzy w tym stylu?

Zacznij od gromadzenia danych w folderze raw/, użyj Obsidian Web Clipper do konwersji stron na Markdown, a następnie wykorzystaj LLM do kompilacji i sprawdzania spójności wpisów.

Czy to rozwiązanie sprawdzi się w dużej firmie?

Dla mniejszych i średnich zbiorów – zdecydowanie. W dużych korporacjach wymagane jest podejście wieloagentowe z dodatkową walidacją, np. przy użyciu modelu Hermes.

Z jakich narzędzi korzysta Andrej Karpathy?

Głównym interfejsem jest Obsidian, który pozwala na wizualizację powiązań i wygodny podgląd plików Markdown generowanych przez skrypty AI.

Karpathy pokazuje bazę wiedzy LLM bez RAG. AI samo buduje wiki w Markdown

Andrej Karpathy, legendarny były szef AI w Tesli i współzałożyciel OpenAI, po raz kolejny wywraca stolik. Tym razem udowadnia, że duże modele językowe potrafią budować własne bazy wiedzy w formacie Markdown, całkowicie omijając skomplikowane bazy wektorowe i klasyczny RAG. Zapomnij o gubieniu kontekstu – to wiki, które ewoluuje i rośnie całkowicie autonomicznie.

TL;DR

Karpathy wykorzystuje LLM do przekształcania surowych danych w uporządkowaną strukturę wiki z odnośnikami
System bez problemu radzi sobie z zestawem ok. 100 artykułów i 400 tys. słów bez użycia RAG
Architektura opiera się na trzech filarach: pobieraniu danych, kompilacji oraz automatycznej kontroli spójności
Dla biznesu to szansa na stworzenie „żywej biblii korporacyjnej” z nieuporządkowanych notatek i plików
Rozwiązanie otwiera drogę do generowania wysokiej jakości danych syntetycznych do dotrenowywania modeli

Czym jest baza wiedzy LLM według Karpathy’ego?

Andrej Karpathy, znany ostatnio z promowania idei „vibe codingu” – czyli programowania opartego na intencjach, a nie sztywnych komendach – pochwalił się na platformie X autorskim systemem do zarządzania wiedzą badawczą. Zamiast użerać się z modelami, które cierpią na amnezję po zakończeniu sesji, Karpathy obsadził LLM w roli skrupulatnego bibliotekarza. System zbiera surowe materiały, takie jak artykuły naukowe czy repozytoria z GitHuba, a następnie przetwarza je w czytelną strukturę plików Markdown.

Obecnie rozwiązanie to bez zadyszki obsługuje około 100 artykułów i 400 tysięcy słów, co dla wielu projektów badawczych jest wartością w zupełności wystarczającą. Całość spina Obsidian – popularna aplikacja do notatek, która pozwala Karpathy’emu podglądać surowe dane, wygenerowaną przez AI wiki oraz grafy powiązań. Rola człowieka ogranicza się tu do minimum, bo czarną robotę wykonuje sztuczna inteligencja.

Nie szukajcie tu ciężkiej, korporacyjnej infrastruktury. To zestaw sprytnych skryptów w Pythonie, które udowadniają, że prostota wygrywa. Markdown jest lekki, czytelny dla ludzi i – co najważniejsze – wyjątkowo „strawny” dla dużych modeli językowych, co czyni go idealnym fundamentem dla nowoczesnej bazy wiedzy.

LLM Knowledge Bases

Something I’m finding very useful recently: using LLMs to build personal knowledge bases for various topics of research interest. In this way, a large fraction of my recent token throughput is going less into manipulating code, and more into manipulating…

— Andrej Karpathy (@karpathy) April 2, 2026

Trzy etapy architektury

Architektura zaproponowana przez Karpathy’ego stawia na przejrzystość, której często brakuje w systemach RAG. Pierwszym krokiem jest „ingest”, czyli masowe zasysanie danych. Wszystko trafia do folderu raw/ dzięki wtyczce Obsidian Web Clipper. Narzędzie to konwertuje strony internetowe na format Markdown i lokalnie zapisuje obrazy, dzięki czemu modele wyposażone w funkcje wizyjne mogą je bez problemu analizować.

Kluczowym momentem jest kompilacja bazy wiki, gdzie LLM wchodzi w tryb analityczny. Model czyta surowe pliki, tworzy zwięzłe podsumowania, wyłuskuje najważniejsze definicje i buduje encyklopedyczne wpisy, dbając o gęstą sieć odnośników zwrotnych. To proces znacznie głębszy niż zwykłe indeksowanie słów kluczowych – to budowanie logicznej struktury pojęciowej od zera.

Ostatni etap to ciągłe utrzymanie systemu, czyli tzw. linting. LLM regularnie skanuje bazę w poszukiwaniu nieścisłości, uzupełnia brakujące informacje (korzystając w razie potrzeby z wyszukiwarki) i sugeruje nowe powiązania między tematami. Jak słusznie zauważył Charly Wargnier, taka wiki posiada zdolność do autokorekty, co drastycznie podnosi jej wiarygodność w czasie.

Koniec z RAG? Porównanie podejść

Przez ostatnie miesiące paradygmat RAG (Retrieval-Augmented Generation) był uznawany za jedyną słuszną drogę: dzielenie dokumentów na fragmenty, tworzenie wektorów i przeszukiwanie baz pod kątem podobieństwa. Karpathy rzuca temu wyzwanie w kontekście średniej wielkości zbiorów danych. Twierdzi, że przy odpowiedniej strukturze tekstu, LLM radzi sobie znacznie lepiej bez matematycznych protez.

W tym systemie to pliki Markdown stanowią ostateczne źródło prawdy. Każda informacja podawana przez model ma swój ślad w konkretnym pliku .md, który użytkownik może w każdej chwili otworzyć i zweryfikować. Zapomnij o halucynacjach wynikających z błędnego dopasowania wektorów w „czarnej skrzynce” bazy danych.

Co to oznacza dla firm?

Choć Karpathy skromnie nazywa swój projekt „hakerskimi skryptami”, Vamshi Reddy z platformy X zauważa coś znacznie ważniejszego. Większość firm posiada ogromne zasoby nieustrukturyzowanej wiedzy na Slacku czy w PDF-ach, których nikt nie porządkuje. Rozwiązanie Karpathy’ego to gotowy przepis na autonomiczną „biblię firmową”, która aktualizuje się sama w czasie rzeczywistym.

Podejście w stylu Karpathy’ego nie ogranicza się do pasywnego wyszukiwania – ono aktywnie redaguje wiedzę. Ole Lehmann widzi w tym potencjał na aplikację integrującą zakładki, podcasty i wątki z X w jeden spójny system. Z kolei Eugen Alpeza z Edra już pracuje nad adaptacją tej metody dla sektora enterprise, gdzie tysiące pracowników generują miliony rekordów wymagających ciągłej walidacji.

Ewolucja w stronę systemów wieloagentowych (multi-agent) już się dokonuje. Projekt „Swarm Knowledge Base” od jumperz wykorzystuje aż 10 agentów, gdzie model Hermes od Nous Research pełni rolę recenzenta sprawdzającego szkice przed ich publikacją w wiki. Powstaje zamknięta pętla: od surowych danych, przez kompilację i walidację, aż po informację zwrotną.

Skalowalność i wydajność w praktyce

Pojawiają się głosy sceptyków pytających o granice wydajności tego rozwiązania. Karpathy uspokaja: przy 400 tysiącach słów dobrze przygotowane indeksy i streszczenia w zupełności wystarczają. W przypadku konkretnych działów firmy czy projektów badawczych, tradycyjny RAG wprowadza jedynie zbędne opóźnienia i informacyjny szum, który utrudnia dotarcie do sedna.

Podobne doświadczenia ma Lex Fridman, który korzysta z dynamicznych wizualizacji HTML/JS do zarządzania danymi oraz koncepcji „efemerycznej wiki”. Polega ona na ładowaniu wyselekcjonowanej mini-bazy do kontekstu LLM na potrzeby konkretnej sesji pytań i odpowiedzi głosowych.

Filozofia plików nad aplikacjami

Fundamentem wizji Karpathy’ego jest format Markdown – otwarty standard, który uwalnia użytkownika od dyktatury konkretnego dostawcy oprogramowania (vendor lock-in). Obsidian służy tu jedynie jako wygodny interfejs typu local-first, ale sercem systemu pozostają pliki, które odczyta każdy prosty edytor tekstu.

Narzędzia towarzyszące: oparte na „vibe codingu” wyszukiwarki CLI oraz minimalistyczne interfejsy webowe.
Zagrożenie dla SaaS: to bezpośrednie wyzwanie dla platform takich jak Notion, gdzie dane są uwięzione w chmurze.

Zasada file-over-app gwarantuje pełną suwerenność nad danymi. W świecie, gdzie AI staje się głównym edytorem, posiadanie fizycznej kontroli nad plikami tekstowymi staje się nowym luksusem i standardem bezpieczeństwa.

Reakcje społeczności i przyszłość

Środowisko entuzjastów AI zareagowało z ogromnym entuzjazmem. Jason Paul Michaels eksperymentuje już z systemami pozbawionymi embeddingów, opierając się wyłącznie na Markdownie i silniku FTS5. Z kolei Steph Ango, współtwórca Obsidiana, sugeruje tworzenie odizolowanych przestrzeni (vaultów) dla agentów, aby uniknąć zanieczyszczenia bazy błędnymi danymi.

Karpathy idzie jednak o krok dalej, widząc w wiki idealny zestaw treningowy. Dzięki tak uporządkowanym danym, model może „wchłonąć” wiedzę bezpośrednio do swoich wag podczas procesu dotrenowywania, co w przyszłości wyeliminuje problem ograniczonego okna kontekstowego.

Ręczne pisanie wiki odchodzi do lamusa; to naturalna domena dla LLM – podsumowuje Karpathy.

To nowa filozofia postrzegania AI jako agenta pamięci długotrwałej. Dla naukowców oznacza to koniec z zapomnianymi zakładkami, a dla biznesu – transformację martwych jezior danych w aktywne zasoby wiedzy. Warto przy tym wspomnieć o jego projekcie autoresearch, gdzie sztuczna inteligencja samodzielnie optymalizuje procesy badawcze.

Źródła:

VentureBeat (https://venturebeat.com/data/karpathy-shares-llm-knowledge-base-architecture-that-bypasses-rag-with-an), X.com/@karpathy (post 2039805659525644595 i wątek)

Karpathy omija RAG prostą wiki LLM. Modele stają się bibliotekarzami

TL;DR

Czym jest baza wiedzy LLM według Karpathy’ego?

Trzy etapy architektury

Koniec z RAG? Porównanie podejść

Co to oznacza dla firm?

Skalowalność i wydajność w praktyce

Filozofia plików nad aplikacjami

Reakcje społeczności i przyszłość

Najczęściej zadawane pytania

Related Articles

Peter Thiel inwestuje w krowy. Solarne obroże za 2 miliardy dolarów

AI skradło głos Murphy Campbell. Teraz blokuje jej piosenki roszczeniami

Anthropic kupuje biotechowy startup. Coefficient Bio zasili model Claude