Czy do działania agenta naprawdę nie potrzeba baz wektorowych?

Dokładnie tak. Agent opiera się wyłącznie na bazie SQLite i możliwościach modelu językowego. LLM samodzielnie zarządza strukturą danych, organizuje wspomnienia i wyszukuje informacje bez generowania osadzeń wektorowych (embeddingów).

Ile kosztuje korzystanie z Gemini 3.1 Flash-Lite?

Stawki są rekordowo niskie: 0,25 USD za milion tokenów wejściowych oraz 1,50 USD za milion tokenów wyjściowych. Dzięki temu utrzymanie agenta działającego bez przerwy staje się opłacalne w warunkach produkcyjnych.

Jakie formaty plików potrafi przetworzyć agent?

System obsługuje aż 27 typów plików, w tym dokumenty tekstowe (.txt, .pdf), obrazy (.png, .jpg), a także pliki audio (.mp3) i wideo (.mp4). Dane można dostarczać przez API, dedykowany dashboard lub po prostu wrzucając je do monitorowanego folderu.

Czy rozwiązanie to wspiera współpracę wielu agentów?

Udostępnione repozytorium skupia się na pojedynczym agencie zarządzającym podagentami. Choć framework ADK natywnie wspiera systemy multi-agentowe, kwestia współdzielonej, trwałej pamięci między różnymi agentami nie została tu jeszcze w pełni rozwinięta.

Kiedy następuje porządkowanie (konsolidacja) pamięci?

Domyślnie proces ten uruchamia się co 30 minut, ale użytkownik może go wywołać ręcznie w dowolnym momencie przez API. Podczas konsolidacji model łączy powiązane fakty i skraca zapisy, by zachować przejrzystość bazy.

Always On Memory Agent od Google: Pamięć AI bez baz wektorowych

Wyobraź sobie agenta AI, który pamięta absolutnie wszystko, co mu podrzucisz, i mieli dane non-stop bez angażowania tych wszystkich skomplikowanych baz wektorowych. Shubham Saboo, senior product manager w Google, właśnie wrzucił taki kod na GitHub – i to na licencji MIT, więc możesz go brać do projektów komercyjnych bez pytania o zgodę. Pytanie tylko, czy to faktyczna rewolucja w architekturze, czy po prostu bardzo sprytny prototyp, który ma narobić szumu?

TL;DR

Agent wykorzystuje SQLite do zapisu danych i konsoliduje je co 30 minut bez użycia baz wektorowych.
System napędza Gemini 3.1 Flash-Lite, co kosztuje zaledwie 0,25 USD za milion tokenów wejściowych.
Narzędzie radzi sobie z tekstem, obrazami, audio, wideo i PDF; posiada dashboard Streamlit oraz API HTTP.
Projekt bazuje na Google ADK (Agent Development Kit) zaprezentowanym wiosną 2025 roku.
Głównym wyzwaniem pozostaje zarządzanie pamięcią (governance) w środowiskach korporacyjnych.

Kim jest twórca i co dokładnie trafiło do sieci?

Shubham Saboo, pełniący funkcję senior menedżera produktu AI w Google, opublikował na oficjalnym profilu Google Cloud na GitHubie repozytorium o nazwie Always On Memory Agent. Nie mamy tu do czynienia z kolejną ciekawostką dla hobbystów, lecz z praktyczną implementacją agenta, który w trybie ciągłym przetwarza informacje i buduje trwałą strukturę wspomnień. Licencja MIT otwiera drzwi do szerokiego zastosowania w biznesie, co momentalnie podbiło tętno deweloperom szukającym gotowych rozwiązań.

Całość opiera się na Zestawie do tworzenia agentów (ADK), który Google ogłosiło światu wiosną 2025 roku. Saboo zaznacza, że projekt ma służyć jako punkt odniesienia dla zespołów projektujących asystentów badawczych czy zaawansowaną automatyzację procesów. Wpleciony w sieć tweet autora bije entuzjazmem: agenty mogą teraz pracować w trybie 24/7 za przysłowiowe grosze.

You can build always-on AI Agents with Google ADK and Gemini 3.1 Flash-Lite.

Agent teams can run 24/7 at negligible cost.

100% Opensource code. https://t.co/C1P75zEzgo pic.twitter.com/9iatbnJQ5L

— Shubham Saboo (@Saboo_Shubham_) March 5, 2026

Technicznie nie jest to jeszcze kompletna platforma wieloagentowa, a raczej wyspecjalizowana warstwa pamięci wyposażona w podagenty odpowiedzialne za wchłanianie danych, ich konsolidację oraz obsługę zapytań użytkownika.

Architektura stawia na prostotę zamiast klasycznego stosu wyszukiwania

Agent pracuje bez przerwy: zasysa pliki przez mechanizm śledzenia folderów, ręczny upload z poziomu dashboardu lub za pośrednictwem API HTTP. Co ciekawe, przechowuje on ustrukturyzowane wspomnienia w zwykłej bazie SQLite (memory.db), całkowicie omijając osadzenia wektorowe czy dedykowane bazy typu Vector DB. Model językowy samodzielnie czyta, analizuje i kataloguje dane – odważne hasło z repozytorium głosi: „Tylko LLM, które czyta, myśli i pisze”.

System został podzielony na wyspecjalizowane jednostki: IngestAgent wyciąga kluczowe wnioski, encje i tematy z multimodalnych źródeł (tekst, grafika, dźwięk, wideo, PDF – łącznie 27 formatów). Proces konsolidacji odpala się automatycznie co pół godziny, łącząc rozproszone fakty i kompresując powiązane informacje w spójną całość. Z kolei QueryAgent syntetyzuje odpowiedzi, dbając o precyzyjne cytowanie źródeł.

Podczas gdy tradycyjne systemy RAG wymagają budowania osobnych ścieżek dla embeddingów, indeksowania i synchronizacji, tutaj ciężar operacyjny spoczywa na modelu i SQLite. To drastycznie upraszcza tworzenie prototypów, choć przenosi ryzyko na stabilność zachowań LLM w długofalowej perspektywie.

Aspekt	Tradycyjny stos RAG	Always On Memory Agent
Przechowywanie	Baza wektorowa + embeddingi	SQLite bez embeddingów
Przetwarzanie pamięci	Pasywne wyszukiwanie	Aktywna konsolidacja LLM
Infrastruktura	Pipeline embeddingów, indeksy	Tylko model + SQLite
Wejścia	Głównie tekst	Multimodalne (27 typów)
Koszt operacyjny	Wysoki przez vector search	Niski dzięki Flash-Lite

Porównanie tradycyjnych systemów wyszukiwania z podejściem Google – prostota kontra kontrola.

Gemini 3.1 Flash-Lite sprawia, że non-stop ma sens ekonomiczny

Model zaprezentowany 3 marca 2026 roku to obecnie najszybsza i najbardziej budżetowa jednostka z rodziny Gemini 3 – kosztuje zaledwie 0,25 USD za milion tokenów wejściowych. W porównaniu do Gemini 2.5 Flash, nowa wersja jest o 2,5 raza szybsza pod kątem czasu do wygenerowania pierwszego tokenu i oferuje 45-procentowy wzrost prędkości generowania odpowiedzi, zachowując przy tym wysoką jakość.

Benchmarki dostarczone przez Google robią wrażenie: wynik Elo 1432 na Arena.ai, 86.9% w teście GPQA Diamond oraz 76.8% w MMMU Pro. To parametry idealne do zadań o wysokiej częstotliwości, takich jak moderacja treści czy złożone symulacje.

Dla agenta pracującego w trybie 24/7 niska latencja i minimalne koszty inferencji to kwestia „być albo nie być” – bez tak agresywnej wyceny ciągłe porządkowanie pamięci byłoby po prostu finansowym samobójstwem. Choć ADK pozwala na podpięcie różnych modeli, to właśnie ta konkretna para zapewnia sensowną ekonomię projektu.

Wyzwania firmowe: nie tylko zdolności, ale zarządzanie pamięcią

Pierwsze reakcje w serwisie X obnażają realne obawy: Franck Abe docenia autonomię rozwiązania, ale jednocześnie przestrzega przed zjawiskiem „śnienia” agenta, gdy zabraknie mu sztywnych, deterministycznych ram – dla działów compliance to prawdziwy koszmar. Użytkownik ELED słusznie zauważa, że w skali makro głównym kosztem nie będą tokeny, lecz „dryf kontekstu i zapętlenia” logiki.

Pojawiają się fundamentalne pytania: kto ma uprawnienia do zapisu w pamięci? Jakie dane podlegają łączeniu, a jakie powinny zostać usunięte? Jak audytować taki proces? Rezygnacja z baz wektorowych nie sprawia, że problemy z odzyskiwaniem informacji znikają – one po prostu przenoszą się do logiki kompresji modelu. W przypadku małych agentów to genialne rozwiązanie, ale przy ogromnych zbiorach danych system może po prostu nie wytrzymać naporu.

„Agenty typu always-on nigdy nie były wyzwaniem technicznym, lecz ekonomicznym. Flash-Lite w końcu to zmienia” – komentuje Somi AI na platformie X.

To swoista ironia losu: prostota kusi deweloperów, ale w świecie enterprise twarde zasady zarządzania danymi zazwyczaj wygrywają z chwilowym trendem.

Szerszy kontekst ADK i kierunek rozwoju agentów Google

Framework ADK wspiera zaawansowane przepływy pracy między wieloma agentami, oferuje narzędzia do ewaluacji oraz ułatwia wdrożenia na platformach takich jak Cloud Run czy Vertex AI Agent Engine. Opisywany agent nie jest więc tylko pokazowym demem, lecz gotowym szablonem środowiska uruchomieniowego, w którym pamięć traktuje się jako element infrastruktury, a nie opcjonalny dodatek. Saboo tworzy systemy gotowe do wdrożenia, a nie tylko odizolowane od rzeczywistości prompty.

Dla zespołów w dużych firmach to doskonały punkt wyjścia do budowy systemów, które realnie kojarzą preferencje użytkowników i kontekst długofalowych projektów. Pozostaje jednak otwarte pytanie: czy taka pamięć okaże się wystarczająco bezpieczna i przejrzysta dla administratorów?

Źródła: VentureBeat, GitHub GoogleCloudPlatform/generative-ai, blog.google (Gemini 3.1 Flash-Lite), X.com (Shubham Saboo)

Google udostępnia agenta z pamięcią 24/7. To koniec baz wektorowych?

TL;DR

Kim jest twórca i co dokładnie trafiło do sieci?

Architektura stawia na prostotę zamiast klasycznego stosu wyszukiwania

Gemini 3.1 Flash-Lite sprawia, że non-stop ma sens ekonomiczny

Wyzwania firmowe: nie tylko zdolności, ale zarządzanie pamięcią

Szerszy kontekst ADK i kierunek rozwoju agentów Google

Najczęściej zadawane pytania

Related Articles

Neurony z ludzkiej krwi grają w Dooma. Biokomputery to już nie tylko sci-fi

ChatGPT wprowadzi tryb dla dorosłych. OpenAI ignoruje ostrzeżenia własnych ekspertów

ByteDance wstrzymuje Seedance 2.0. Hollywood blokuje premierę generatora.