Wyobraź sobie agenta AI, który pamięta absolutnie wszystko, co mu podrzucisz, i mieli dane non-stop bez angażowania tych wszystkich skomplikowanych baz wektorowych. Shubham Saboo, senior product manager w Google, właśnie wrzucił taki kod na GitHub – i to na licencji MIT, więc możesz go brać do projektów komercyjnych bez pytania o zgodę. Pytanie tylko, czy to faktyczna rewolucja w architekturze, czy po prostu bardzo sprytny prototyp, który ma narobić szumu?

TL;DR

  • Agent wykorzystuje SQLite do zapisu danych i konsoliduje je co 30 minut bez użycia baz wektorowych.
  • System napędza Gemini 3.1 Flash-Lite, co kosztuje zaledwie 0,25 USD za milion tokenów wejściowych.
  • Narzędzie radzi sobie z tekstem, obrazami, audio, wideo i PDF; posiada dashboard Streamlit oraz API HTTP.
  • Projekt bazuje na Google ADK (Agent Development Kit) zaprezentowanym wiosną 2025 roku.
  • Głównym wyzwaniem pozostaje zarządzanie pamięcią (governance) w środowiskach korporacyjnych.

Kim jest twórca i co dokładnie trafiło do sieci?

Shubham Saboo, pełniący funkcję senior menedżera produktu AI w Google, opublikował na oficjalnym profilu Google Cloud na GitHubie repozytorium o nazwie Always On Memory Agent. Nie mamy tu do czynienia z kolejną ciekawostką dla hobbystów, lecz z praktyczną implementacją agenta, który w trybie ciągłym przetwarza informacje i buduje trwałą strukturę wspomnień. Licencja MIT otwiera drzwi do szerokiego zastosowania w biznesie, co momentalnie podbiło tętno deweloperom szukającym gotowych rozwiązań.

Całość opiera się na Zestawie do tworzenia agentów (ADK), który Google ogłosiło światu wiosną 2025 roku. Saboo zaznacza, że projekt ma służyć jako punkt odniesienia dla zespołów projektujących asystentów badawczych czy zaawansowaną automatyzację procesów. Wpleciony w sieć tweet autora bije entuzjazmem: agenty mogą teraz pracować w trybie 24/7 za przysłowiowe grosze.

Technicznie nie jest to jeszcze kompletna platforma wieloagentowa, a raczej wyspecjalizowana warstwa pamięci wyposażona w podagenty odpowiedzialne za wchłanianie danych, ich konsolidację oraz obsługę zapytań użytkownika.

Architektura stawia na prostotę zamiast klasycznego stosu wyszukiwania

Agent pracuje bez przerwy: zasysa pliki przez mechanizm śledzenia folderów, ręczny upload z poziomu dashboardu lub za pośrednictwem API HTTP. Co ciekawe, przechowuje on ustrukturyzowane wspomnienia w zwykłej bazie SQLite (memory.db), całkowicie omijając osadzenia wektorowe czy dedykowane bazy typu Vector DB. Model językowy samodzielnie czyta, analizuje i kataloguje dane – odważne hasło z repozytorium głosi: „Tylko LLM, które czyta, myśli i pisze”.

System został podzielony na wyspecjalizowane jednostki: IngestAgent wyciąga kluczowe wnioski, encje i tematy z multimodalnych źródeł (tekst, grafika, dźwięk, wideo, PDF – łącznie 27 formatów). Proces konsolidacji odpala się automatycznie co pół godziny, łącząc rozproszone fakty i kompresując powiązane informacje w spójną całość. Z kolei QueryAgent syntetyzuje odpowiedzi, dbając o precyzyjne cytowanie źródeł.

Podczas gdy tradycyjne systemy RAG wymagają budowania osobnych ścieżek dla embeddingów, indeksowania i synchronizacji, tutaj ciężar operacyjny spoczywa na modelu i SQLite. To drastycznie upraszcza tworzenie prototypów, choć przenosi ryzyko na stabilność zachowań LLM w długofalowej perspektywie.

Aspekt Tradycyjny stos RAG Always On Memory Agent
Przechowywanie Baza wektorowa + embeddingi SQLite bez embeddingów
Przetwarzanie pamięci Pasywne wyszukiwanie Aktywna konsolidacja LLM
Infrastruktura Pipeline embeddingów, indeksy Tylko model + SQLite
Wejścia Głównie tekst Multimodalne (27 typów)
Koszt operacyjny Wysoki przez vector search Niski dzięki Flash-Lite

Porównanie tradycyjnych systemów wyszukiwania z podejściem Google – prostota kontra kontrola.

Gemini 3.1 Flash-Lite sprawia, że non-stop ma sens ekonomiczny

Model zaprezentowany 3 marca 2026 roku to obecnie najszybsza i najbardziej budżetowa jednostka z rodziny Gemini 3 – kosztuje zaledwie 0,25 USD za milion tokenów wejściowych. W porównaniu do Gemini 2.5 Flash, nowa wersja jest o 2,5 raza szybsza pod kątem czasu do wygenerowania pierwszego tokenu i oferuje 45-procentowy wzrost prędkości generowania odpowiedzi, zachowując przy tym wysoką jakość.

Benchmarki dostarczone przez Google robią wrażenie: wynik Elo 1432 na Arena.ai, 86.9% w teście GPQA Diamond oraz 76.8% w MMMU Pro. To parametry idealne do zadań o wysokiej częstotliwości, takich jak moderacja treści czy złożone symulacje.

Dla agenta pracującego w trybie 24/7 niska latencja i minimalne koszty inferencji to kwestia „być albo nie być” – bez tak agresywnej wyceny ciągłe porządkowanie pamięci byłoby po prostu finansowym samobójstwem. Choć ADK pozwala na podpięcie różnych modeli, to właśnie ta konkretna para zapewnia sensowną ekonomię projektu.

Wyzwania firmowe: nie tylko zdolności, ale zarządzanie pamięcią

Pierwsze reakcje w serwisie X obnażają realne obawy: Franck Abe docenia autonomię rozwiązania, ale jednocześnie przestrzega przed zjawiskiem „śnienia” agenta, gdy zabraknie mu sztywnych, deterministycznych ram – dla działów compliance to prawdziwy koszmar. Użytkownik ELED słusznie zauważa, że w skali makro głównym kosztem nie będą tokeny, lecz „dryf kontekstu i zapętlenia” logiki.

Pojawiają się fundamentalne pytania: kto ma uprawnienia do zapisu w pamięci? Jakie dane podlegają łączeniu, a jakie powinny zostać usunięte? Jak audytować taki proces? Rezygnacja z baz wektorowych nie sprawia, że problemy z odzyskiwaniem informacji znikają – one po prostu przenoszą się do logiki kompresji modelu. W przypadku małych agentów to genialne rozwiązanie, ale przy ogromnych zbiorach danych system może po prostu nie wytrzymać naporu.

„Agenty typu always-on nigdy nie były wyzwaniem technicznym, lecz ekonomicznym. Flash-Lite w końcu to zmienia” – komentuje Somi AI na platformie X.

To swoista ironia losu: prostota kusi deweloperów, ale w świecie enterprise twarde zasady zarządzania danymi zazwyczaj wygrywają z chwilowym trendem.

Szerszy kontekst ADK i kierunek rozwoju agentów Google

Framework ADK wspiera zaawansowane przepływy pracy między wieloma agentami, oferuje narzędzia do ewaluacji oraz ułatwia wdrożenia na platformach takich jak Cloud Run czy Vertex AI Agent Engine. Opisywany agent nie jest więc tylko pokazowym demem, lecz gotowym szablonem środowiska uruchomieniowego, w którym pamięć traktuje się jako element infrastruktury, a nie opcjonalny dodatek. Saboo tworzy systemy gotowe do wdrożenia, a nie tylko odizolowane od rzeczywistości prompty.

Dla zespołów w dużych firmach to doskonały punkt wyjścia do budowy systemów, które realnie kojarzą preferencje użytkowników i kontekst długofalowych projektów. Pozostaje jednak otwarte pytanie: czy taka pamięć okaże się wystarczająco bezpieczna i przejrzysta dla administratorów?

Źródła: VentureBeat, GitHub GoogleCloudPlatform/generative-ai, blog.google (Gemini 3.1 Flash-Lite), X.com (Shubham Saboo)

Najczęściej zadawane pytania