CLaRa od Apple: 128x kompresja dokumentów AI

Apple opublikowało technologię, która kompresuje dokumenty 128 razy – i według testów daje lepsze odpowiedzi niż wysyłanie pełnego tekstu do AI. Brzmi jak science fiction, ale CLaRa faktycznie działa. Pytanie brzmi: czy potrzebujesz tego w swoim projekcie, czy to tylko ciekawostka z laboratorium dla firm z milionami dokumentów?

Czym właściwie jest CLaRa i dlaczego to ważne?

Apple opublikowało CLaRa (Continuous Latent Reasoning) – technologię kompresji dokumentów dla systemów RAG, która osiąga kompresję 128 razy przy zachowaniu (a czasem poprawie) jakości odpowiedzi. Brzmi imponująco, ale zanim uznamy to za rewolucję, którą musisz wdrożyć – spokojnie. To narzędzie badawcze dla bardzo specyficznych przypadków użycia.

CLaRa została opublikowana 24 listopada 2025 przez zespół z Apple i University of Edinburgh. Kod źródłowy i modele są dostępne na GitHubie i Hugging Face.

Przypominamy: jak działa standardowy RAG?

RAG (Retrieval-Augmented Generation) to technika pozwalająca modelom AI „zaglądać do dokumentów” zamiast polegać tylko na wiedzy z treningu. Dzięki temu model językowy może odpowiadać na pytania o dokumenty firmowe, aktualne raporty czy specjalistyczną wiedzę domenową.

Typowy RAG działa tak:

Dzielisz dokument na chunki (fragmenty po 500-1000 tokenów)
Zamieniasz chunki na embeddingi (wektory) za pomocą wybranego modelu
Gdy pada pytanie, wyszukujesz 3-5 najbardziej pasujących chunków
Wysyłasz te chunki (2000-3000 tokenów tekstu) do modelu językowego
Model generuje odpowiedź

To działa dobrze dla większości zastosowań. CLaRa proponuje coś innego.

Kluczowa różnica: tekst vs skompresowane wektory

CLaRa idzie o krok dalej niż tradycyjny chunking. Zamiast wysyłać do modelu fragmenty tekstu, kompresuje semantykę całego dokumentu do kilku „tokenów pamięci” – gęstych reprezentacji wektorowych zawierających esencję treści.

Konkretny przykład: Masz artykuł na 5000 słów (~6500 tokenów) o historii Kotów.

Standardowy RAG:

Dzielisz dokument na chunki po 500 tokenów (13 chunków)
Model embedingowy zamienia każdy chunk na wektor
Wyszukujesz 5 najbardziej pasujących chunków do pytania
Wysyłasz 2500 tokenów surowego tekstu do modelu językowego

CLaRa:

Kompresor zamienia cały dokument 6500 tokenów na 50 specjalnych „memory tokens” (kompresja 128x)
Wyszukujesz 5 najbardziej pasujących dokumentów
Wysyłasz 250 skompresowanych tokenów bezpośrednio do modelu
Model generuje odpowiedź z tych tokenów – bez dostępu do oryginalnego tekstu

Różnica: w standardowym RAG model „czyta” fragmenty tekstu. W CLaRa pracuje na skompresowanych reprezentacjach, które już zawierają przetworzoną wiedzę z dokumentu.

Co ważniejsze: CLaRa używa tych samych skompresowanych reprezentacji zarówno do wyszukiwania dokumentów, jak i generowania odpowiedzi. W tradycyjnym RAG to dwa osobne kroki z dwoma różnymi formatami danych – embedding do wyszukania, potem tekst do generowania. CLaRa robi to wszystko w jednym „języku”.

Jak Apple wytrenowało CLaRę?

CLaRa uczy się w trzech etapach.

Etap pierwszy – Salient Compressor Pretraining (SCP) uczy kompresor rozpoznawać i zachowywać najważniejsze informacje z dokumentów. Badacze wykorzystali model Qwen-32B do wygenerowania trzech typów danych treningowych dla około 2 milionów fragmentów z Wikipedii: prostych par pytanie-odpowiedź (atomowe fakty), złożonych pytań wymagających połączenia informacji oraz parafraz (skróconych wersji tekstów). Ten etap gwarantuje, że skompresowane reprezentacje zachowują najważniejsze fakty.
Etap drugi – Compression Instruction Tuning dostosowuje kompresor do zadań odpowiadania na pytania w formacie instrukcji. Model uczy się generować odpowiedzi tekstowe na podstawie skompresowanych reprezentacji, co zapewnia, że semantyka dokumentu przetrwała kompresję.
Etap trzeci – End-to-End Fine-tuning to prawdziwa magia CLaRy. Tradycyjne systemy RAG mają „przerwany gradient” – wyszukiwarka dokumentów i generator odpowiedzi są trenowane osobno, więc generator nie może „powiedzieć” wyszukiwarce, które dokumenty były naprawdę użyteczne. CLaRa rozwiązuje to za pomocą różniczkowalnego estymatora top-k wykorzystującego technikę Straight-Through Estimation: w przejściu do przodu stosuje twardy wybór najlepszych dokumentów, ale w przejściu wstecznym używa rozkładu softmax, umożliwiając przepływ gradientów od wygenerowanej odpowiedzi aż do wyszukiwarki.

Jak CLaRa wypada w testach?

Apple przetestowało CLaRę na czterech zestawach pytań i odpowiedzi (Natural Questions, HotpotQA, MuSiQue i 2WikiMultiHopQA). Wyniki są zaskakujące.

CLaRa pokonuje konkurencję przy tej samej kompresji:

Przewaga nad PISCO (Naver Labs): o 5 punktów procentowych lepsze odpowiedzi
Przewaga nad LLMLingua-2 (Microsoft): o 17 punktów procentowych lepsze odpowiedzi

CLaRa pokonuje nawet pełny tekst:

Co brzmi abstrakcyjnie – CLaRa z kompresją 128x daje lepsze odpowiedzi niż tradycyjny RAG z pełnymi fragmentami tekstu. W testach z ludźmi 52% oceniało odpowiedzi CLaRy jako lepsze od tych generowanych z pełnego tekstu.

Dlaczego? Kompresja zmusza model do wyciągnięcia najważniejszych informacji, ignorując zbędne szczegóły i „szum” w dokumentach.

CLaRa świetnie znajduje właściwe dokumenty:

W teście na HotpotQA system CLaRa znalazł właściwy dokument w top 5 wynikach w 96 na 100 przypadków. To lepiej niż profesjonalne narzędzie BGE Reranker (86 na 100).

Dlaczego to ma znaczenie w praktyce:

Koszty: przy standardowym RAG płacisz za przetworzenie 2000-3000 tokenów na zapytanie. CLaRa redukuje to do 100-300 tokenów – to 10x oszczędność na API.
Prędkość: model nie musi „czytać” setek tokenów tekstu przy każdym zapytaniu – generowanie jest szybsze.
Context window: możesz zmieścić informacje ze 100 dokumentów w kontekście, który normalnie pomieściłby 10-15 chunków tekstowych.

Dla kogo jest CLaRa i jak z niej korzystać?

CLaRa wymaga zaawansowanej wiedzy technicznej i własnej infrastruktury AI. To nie jest narzędzie gotowe do kliknięcia i używania.

Firmy budujące własne systemy RAG

Jeśli tworzysz system odpowiedzi na pytania oparty o dokumenty firmowe, CLaRa może obniżyć koszty i przyspieszyć działanie.

Wymagania sprzętowe: karta graficzna z minimum 24 GB pamięci (np. NVIDIA RTX 4090, A5000). To wystarczy na model 7B parametrów + indeks 200 tysięcy dokumentów skompresowanych 16x.

Badacze i laboratoria AI

CLaRa to platforma do eksperymentów z kompresją dokumentów i systemami RAG. Apple udostępniło pełny kod treningu i dane.

Zastosowania praktyczne

CLaRa działa tylko z tekstem (bez obrazów i tabel). Sprawdzi się w:

Systemach obsługi klienta z bazami FAQ
Wyszukiwarkach w dokumentacji technicznej
Narzędziach do analizy literatury naukowej
Wewnętrznych wyszukiwarkach wiedzy firmowej

Kiedy CLaRa NIE jest dobrym wyborem?

Chcesz gotowe rozwiązanie bez programowania
Pracujesz z dokumentami zawierającymi wykresy, tabele, zdjęcia
Nie masz GPU z minimum 24 GB pamięci
Nie masz milionów par pytanie-odpowiedź do wytrenowania własnego modelu

Instalacja i pierwsze kroki

Wymagania techniczne

CLaRa działa tylko na kartach graficznych NVIDIA z obsługą CUDA. Potrzebujesz:

Karty NVIDIA z minimum 24 GB pamięci VRAM
Pythona 3.10
Podstawowych bibliotek AI: PyTorch, Transformers, DeepSpeed, Flash Attention 2

Gotowe modele do pobrania

Apple udostępniło trzy wersje modelu na Hugging Face (każda ma 7 miliardów parametrów):

CLaRa-7B-Base – podstawowy model kompresji
CLaRa-7B-Instruct – wersja odpowiadająca na pytania
CLaRa-7B-E2E – pełny system: wyszukiwanie + odpowiadanie

Wszystkie obsługują kompresję 16x i 128x.

Kod i dokumentacja

W repozytorium znajdziesz:

Notebook inference.ipynb do szybkich testów
Skrypty do wytrenowania własnego modelu (wszystkie 3 etapy)
Pełną dokumentację

Apple pracuje nad wersją dla procesorów Apple Silicon (Mac M1/M2/M3) – na razie działa tylko na NVIDIA.

Ważna uwaga licencyjna: CLaRa jest wydana na licencji „apple-amlr” (Apple Machine Learning Research) – to nie jest standardowa licencja open source jak MIT czy Apache. Przed wdrożeniem komercyjnym należy dokładnie przeanalizować warunki.

CLaRa vs konkurencja

Na rynku jest kilka innych rozwiązań do kompresji dokumentów w RAG:

PISCO (Naver Labs) – kompresuje dokumenty 16 razy z minimalną stratą jakości (0-3%). CLaRa daje lepsze wyniki przy tej samej kompresji.

LLMLingua-2 (Microsoft) – usuwa niepotrzebne słowa z tekstu. Problem: czasem usuwa słowa, które okazują się ważne dla odpowiedzi.

PROVENCE (Naver Labs) – lżejsza wersja (300 milionów parametrów zamiast 7 miliardów), łatwiejsza do wdrożenia, ale kompresuje maksymalnie 16x.

Co wyróżnia CLaRę?

Kompresja do 128x (konkurencja maksymalnie 16x)
Trenowanie całego systemu naraz – wyszukiwarka i generator uczą się razem
Jedna reprezentacja dokumentu do wszystkiego (wyszukiwania i odpowiadania)

Ograniczenia i kiedy nie stosować CLaRy?

Problem 1: Potrzebujesz milionów przykładów do treningu

CLaRa wymaga milionów par pytanie-odpowiedź do wytrenowania. Jeśli masz tyle danych, możesz po prostu wytrenować dobrą wyszukiwarkę bez kompresji.
CLaRa ma sens, gdy chcesz odpowiadać na pytania, których nie ma w danych treningowych.

Problem 2: Tylko tekst

CLaRa nie radzi sobie z:

Dokumentami zawierającymi wykresy
Tabelami z danymi
Zdjęciami i diagramami

Apple pracuje nad obsługą obrazów, ale to „w fazie badań”.

Problem 3: Wymaga mocnego sprzętu

Model 7 miliardów parametrów to za dużo na telefony czy laptopy bez mocnych kart graficznych.

Przy kompresji powyżej 64x potrzebujesz jeszcze większego modelu (więcej niż 7B parametrów), żeby utrzymać jakość.

Problem 4: Przy bardzo wysokiej kompresji jakość spada

Kompresja 16x-32x działa świetnie. Powyżej 64x CLaRa zaczyna gubić informacje. Apple przyznaje: „przy bardzo wysokiej kompresji problemem staje się samo znajdowanie właściwych dokumentów, nie tylko ich kompresja”.

Czy CLaRa to przełom, czy ciekawostka?

CLaRa to imponujące osiągnięcie badawcze, ale dla większości twórców systemów RAG pozostanie właśnie tym – ciekawostką z laboratorium Apple. Jeśli budujesz chatbota dla swojej firmy, systemu pytań-odpowiedzi na bazie dokumentacji czy wyszukiwarki wiedzy – standardowy RAG z embeddingami (OpenAI, Cohere, open source) wystarczy i będzie prostszy.

CLaRa ma sens dla dużych korporacji z milionami dokumentów, własnymi zespołami ML i budżetami na infrastrukturę GPU. Jeśli płacisz dziesiątki tysięcy dolarów miesięcznie za tokeny w API i masz zasoby na trenowanie własnych modeli – wtedy warto pilotować.

Dla reszty z nas? To dowód, że kompresja dokumentów w RAG to aktywnie badany obszar i Apple bierze w tym udział. Ale nie musisz niczego zmieniać w swoim obecnym RAG-u. Jak zawsze w AI: jeśli coś działa, nie naprawiaj tego tylko dlatego, że pojawił się nowy produkt z imponującymi liczbami.

Apple CLaRa: 10x taniej, 128x szybciej. Co to zmienia w AI?