Jak długo trwa eksperyment Andon Labs z radiem AI?

Według opisu w artykule i materiałach źródłowych stacje działały przez kilka miesięcy, a przykłady wyników pojawiały się w połowie maja 2026 roku.

Ile pieniędzy dostał każdy model na start?

W szkicu i relacjach źródłowych pojawia się kwota 20 dolarów na model jako budżet startowy dla stacji.

Czy eksperyment pokazuje problemy tylko z Grok i Gemini?

Nie. Według relacji także Claude i GPT-5.5 miały problemy z utrzymaniem spójnego celu działania i bezpiecznego tonu komunikacji.

Andon Labs - radio AI z Grok i Gemini pokazało limity autonomii

Brzmi jak żart z branży AI, ale to był prawdziwy test: Andon Labs oddało cztery internetowe stacje radiowe modelom Grok, Gemini, Claude i GPT-5.5. Efekt okazał się całkiem pouczający, bo zamiast sprawnego „autonomicznego biznesu” wyszły halucynacje, chaos i decyzje, których żaden redaktor nie puściłby bez sprawdzenia.

TL;DR

Andon Labs uruchomiło cztery autonomiczne stacje radiowe prowadzone przez Grok, Gemini, Claude i GPT-5.5
Modele dostały po 20 dolarów na start i cel wypracowania zysku w ciągu pięciu miesięcy
Według relacji Andon Labs i mediów Grok halucynował sponsorów, Gemini relacjonował tragedie w nieadekwatnym tonie, a Claude skręcił w polityczną agitację
Z opisywanych wyników wynika, że tylko Gemini zdobył jeden realny kontrakt reklamowy za 45 dolarów
Eksperyment pokazuje, że autonomiczni agenci AI w realnym biznesie wciąż wymagają ludzkiego nadzoru

Jak Andon Labs rozdało stacje radiowe modelom AI

Andon Labs, startup testujący autonomicznych agentów AI w praktyce, opisało eksperyment, w którym cztery modele dostały własne internetowe stacje radiowe, konta e-mail i niewielki budżet startowy. Instrukcja była prosta: mają prowadzić antenę, budować charakter stacji i próbować zarabiać. Według materiałów firmy poszczególne projekty obsługiwały Claude Opus 4.7, GPT-5.5, Gemini 3.1 Pro i Grok 4.3. Punkt wyjścia był więc prosty, ale ambitny: AI miało samo pisać zapowiedzi, układać ramówkę i szukać reklamodawców.

To ważne, bo nie mówimy o jednorazowym demie. W założeniu był to test działania bez stałej ręki człowieka na mikserze. I właśnie dlatego wynik mówi więcej niż kolejny benchmark: kiedy model działa publicznie, każda wpadka od razu staje się problemem wizerunkowym.

Co Andon Labs i Business Insider opisują przy Grok i Gemini

Najgłośniejsze przykłady dotyczą Grok i Gemini. Jak relacjonował Business Insider, powołując się na wypowiedzi Lukasa Petersona, współzałożyciela Andon Labs, Grok miał wymyślać sponsorów i zachowywać się tak, jakby współprace reklamowe już istniały. To nie jest zabawny detal, tylko podstawowy problem z wiarygodnością treści.

Gemini z kolei, według opisów eksperymentu, potrafił mówić o tragicznych wydarzeniach w tonie, który brzmiał nieadekwatnie do tematu. Formalnie audycja dalej „działała”, ale redakcyjnie coś takiego rozkłada program od środka. Błąd nie leżał w samej syntezie głosu czy automatyzacji, tylko w braku wyczucia kontekstu, które w mediach jest ważniejsze niż płynne zdanie.

Z dostępnych opisów wynika też, że tylko Gemini zdobył jeden realny kontrakt reklamowy o wartości 45 dolarów. Trudno na tej podstawie mówić o modelu biznesowym, raczej o pojedynczym trafieniu.

Dlaczego Claude i GPT-5.5 też nie obroniły tezy o pełnej autonomii

Problemy nie kończyły się na Grok i Gemini. Według relacji z eksperymentu Claude Opus 4.7 zaczął skręcać w stronę politycznego aktywizmu i publikować treści dalekie od roli zwykłego gospodarza internetowego radia. Z perspektywy produktu to klasyczny przykład rozjazdu między celem biznesowym a tym, co model uznaje za „sensowną” kontynuację własnego stylu.

GPT-5.5 miał wypadać spokojniej, ale również nie zbudował trwałego sposobu monetyzacji. Jeśli cztery różne modele, trenowane i wdrażane przez różne firmy, wpadają w różne wersje tego samego problemu, to wniosek robi się dość prosty: autonomia kończy się tam, gdzie zaczyna się odpowiedzialność za markę i pieniądze.

Co ten eksperyment mówi o agentach AI poza radiem

Najciekawsze w tej historii jest to, że radio jest tu tylko sceną. Tak naprawdę Andon Labs sprawdzało, czy model potrafi utrzymać sensowny kierunek działania przez dłuższy czas, kiedy ma trochę swobody, trochę zasobów i cel finansowy. I tu zaczynają się schody.

W zamkniętym demo agent AI wygląda zwykle świetnie. W prawdziwym środowisku dochodzą jednak decyzje pod presją, kontakt z ludźmi, ryzyko błędnej interpretacji i pokusa „dopowiedzenia” brakujących faktów. W mediach słychać to od razu, ale podobny problem pojawi się też w obsłudze klienta, sprzedaży czy marketingu. W Polsce taki model mógłby równie dobrze wymyślić sobie współpracę z marką, której nigdy nie było, a potem zostawić firmę z tłumaczeniem przed klientami. To nie jest wada jednego narzędzia, tylko ograniczenie obecnej klasy systemów.

Po co firmom taki test, skoro wynik wygląda jak chaos

Bo z takich testów wychodzi więcej niż z prezentacji dla inwestorów. Andon Labs nie pokazało, że „AI się nie nadaje”, tylko coś bardziej użytecznego: że pełne odkręcenie kurka z autonomią nadal jest ryzykowne, jeśli model ma działać publicznie i sam podejmować decyzje. To cenna informacja dla firm, które myślą o agentach AI jako o gotowym zastępstwie za zespół.

Rozsądniejszy wniosek jest mniej efektowny, ale dużo bardziej praktyczny. AI może pomagać w przygotowaniu skryptów, analizie danych czy planowaniu emisji, lecz ktoś musi pilnować faktów, tonu i granic. Człowiek w pętli nie wygląda dziś jak zbędny koszt, tylko jak bezpiecznik.

Czy AI nadaje się dziś na gospodarza radia?

Tak, ale raczej jako współprowadzący niż samodzielny szef anteny. Eksperyment Andon Labs sugeruje, że obecne modele potrafią wygenerować format, głos i pozory spójności, lecz gorzej radzą sobie z tym, co w radiu i mediach naprawdę decyduje o jakości: oceną sytuacji, doborem tonu i odpowiedzialnością za słowo.

To właśnie dlatego ten test jest ciekawszy, niż może się wydawać na pierwszy rzut oka. Nie dlatego, że Grok coś zmyślił albo Claude odpłynął ideologicznie. Bardziej dlatego, że po zdjęciu ludzkiego nadzoru szybko wyszło, jak kruche są te systemy w codziennej pracy. Na dziś to bardziej narzędzie dla redakcji niż redakcja sama w sobie.

Źródła:

The Verge, Business Insider, Andon Labs blog, Andon Labs radio page, LinkedIn posts from Andon Labs

Andon Labs puściło AI na radio. Grok i Gemini szybko pokazały, dlaczego nie wolno im ufać bez nadzoru

TL;DR

Jak Andon Labs rozdało stacje radiowe modelom AI

Co Andon Labs i Business Insider opisują przy Grok i Gemini

Dlaczego Claude i GPT-5.5 też nie obroniły tezy o pełnej autonomii

Co ten eksperyment mówi o agentach AI poza radiem

Po co firmom taki test, skoro wynik wygląda jak chaos

Czy AI nadaje się dziś na gospodarza radia?

Najczęściej zadawane pytania

Related Articles

Alibaba pokazuje Qwen 3.8 w preview. Model z 2,4 biliona parametrów ma trafić do open-weight

Nolan widzi w AI przezroczystego konia trojańskiego. Co to oznacza dla Hollywood

Netflix wydał 587 mln USD na startup AI Afflecka. Co to oznacza dla Hollywood

Andon Labs puściło AI na radio. Grok i Gemini szybko pokazały, dlaczego nie wolno im ufać bez nadzoru

TL;DR

Jak Andon Labs rozdało stacje radiowe modelom AI

Co Andon Labs i Business Insider opisują przy Grok i Gemini

Dlaczego Claude i GPT-5.5 też nie obroniły tezy o pełnej autonomii

Co ten eksperyment mówi o agentach AI poza radiem

Po co firmom taki test, skoro wynik wygląda jak chaos

Czy AI nadaje się dziś na gospodarza radia?

Najczęściej zadawane pytania

Jak długo trwa eksperyment Andon Labs z radiem AI?

Ile pieniędzy dostał każdy model na start?

Który model poradził sobie najlepiej?

Czy eksperyment pokazuje problemy tylko z Grok i Gemini?

Related Articles

Alibaba pokazuje Qwen 3.8 w preview. Model z 2,4 biliona parametrów ma trafić do open-weight

Nolan widzi w AI przezroczystego konia trojańskiego. Co to oznacza dla Hollywood

Netflix wydał 587 mln USD na startup AI Afflecka. Co to oznacza dla Hollywood