Wyobraź sobie sztuczną inteligencję, która rozumie niuanse brazylijskiego slangu czy zawiłą chilijską historię polityczną lepiej niż ChatGPT. Latam-GPT właśnie oficjalnie wystartował i obiecuje, że Ameryka Łacińska nie musi już dłużej zadowalać się cyfrowymi resztkami z Doliny Krzemowej.

TL;DR

  • Latam-GPT bazuje na architekturze Llama 3.1 z 70 miliardami parametrów i trenował na ponad 300 miliardach tokenów z danych regionalnych.
  • Projekt koordynuje chilijskie CENIA przy wsparciu 60 instytucji z 15 krajów, dysponując budżetem rzędu 550 tys. dolarów.
  • Model jest dostępny otwartoźródłowo na platformach Hugging Face i GitHub, skupiając się na hiszpańskim, portugalskim i językach rdzennych.
  • Główne cele to technologiczna suwerenność regionu oraz eliminacja uprzedzeń (biasów) typowych dla modeli z USA.

Kto stoi za tym latynoamerykańskim projektem?

Latam-GPT to ambitne przedsięwzięcie ponad 60 instytucji z 15 krajów Ameryki Łacińskiej i Karaibów, nad którym pieczę sprawuje Narodowe Centrum Sztucznej Inteligencji w Chile, znane jako CENIA. W projekt zaangażowały się takie podmioty jak chilijskie Ministerstwo Nauki, Technologii, Wiedzy i Innowacji, Amazon Web Services oraz Bank Rozwoju Ameryki Łacińskiej i Karaibów. Sam prezydent Gabriel Boric promował premierę modelu 10 lutego 2026 roku w Santiago, zaznaczając, że to kluczowy krok w stronę nadania globalnej sztucznej inteligencji latynoamerykańskiej tożsamości.

Prace rozwojowe trwały ponad dwa lata przy budżecie wynoszącym zaledwie 550 tysięcy dolarów – to drobne na waciki w porównaniu z miliardami, którymi obraca OpenAI. Dane skrupulatnie zbierały uniwersytety, biblioteki i archiwa z Argentyny, Brazylii, Kolumbii, Ekwadoru, Meksyku, Peru czy Urugwaju. Rodrigo Durán z CENIA podkreśla z dumą, że model trenuje na zasobach, które wcześniej nie były dostępne online, co ma skutecznie łatać luki w wiedzy obecnych systemów.

Ironia losu polega na tym, że region, który dotychczas głównie importował technologie, teraz stawia własną infrastrukturę obliczeniową w Chile. Wszystko po to, by wreszcie przestać polegać wyłącznie na chmurach obliczeniowych dostarczanych przez gigantów z USA.

Techniczne serce modelu: Llama plus regionalny twist

Pod maską tego projektu pracuje architektura Llama 3.1 od Meta z 70 miliardami parametrów. To solidny fundament, który doprawiono unikalnym treningiem na ponad 300 miliardach tokenów, co przekłada się na około 230 miliardów słów. Baza treningowa to ponad 8 terabajtów wysokiej jakości treści, w tym dokumenty sądowe z Buenos Aires, podręczniki z Kolumbii czy zbiory biblioteczne z Peru – a wszystko to pozyskane na legalnych licencjach.

Na celowniku są głównie hiszpański i portugalski, bo to one rządzą w regionie (hiszpański dominuje w większości Latam, portugalski w Brazylii). W planach jest też dodanie języków rdzennych, co brzmi szlachetnie, choć czas pokaże, czy ambitne zamierzenia nie ugrzęzną w biurokracji. Alvaro Soto z CENIA stawia sprawę jasno: integracja regionalna to jedyna realna droga do uzyskania technologicznej suwerenności z demokratycznym zacięciem.

W zestawieniu z globalnymi modelami, gdzie język hiszpański stanowi zaledwie 4 procent danych treningowych, Latam-GPT ma ogromną przewagę w wyłapywaniu lokalnych niuansów kulturowych i historycznych. To podejście przypomina nieco to, jak LocalGPT działa tylko na Twoim komputerze i pamięta rozmowy, stawiając na specyficzne potrzeby użytkownika zamiast na generyczną papkę z chmury.

Dlaczego Ameryka Łacińska mówi „dość” uprzedzeniom z północy?

Modele takie jak ChatGPT są przesiąknięte językiem angielskim i perspektywą globalnej północy, co często prowadzi do karykaturalnych uproszczeń latynoamerykańskiej rzeczywistości. Minister nauki Aldo Valle ironizuje, że w przeciwieństwie do systemów trenowanych głównie pod dyktando Anglosasów, Latam-GPT bezbłędnie wyczuwa kulturowe kody regionu.

Ten projekt to bezpośrednia odpowiedź na dominację amerykańskich korporacji – region chce wreszcie grać w pierwszej lidze, a nie tylko być biernym konsumentem cudzych rozwiązań. To manifest suwerenności: lokalne dane, otwarty kod źródłowy i ucieczka od totalnej zależności od infrastruktury z USA. Gabriela Arriagada z zespołu ds. etyki w CENIA dodaje, że wykorzystywane są również dane syntetyczne, aby wypełnić luki w tematach dotychczas traktowanych po macoszemu.

Patrząc na to krytycznie, 70 miliardów parametrów to nie jest światowa czołówka (pamiętajmy, że GPT-4 ma ich znacznie więcej), ale skupienie się na jakości danych regionalnych może dać modelowi przewagę w konkretnych zadaniach, takich jak analiza lokalnej polityki czy literatury. To trochę jak debata o tym, czy Alibaba rzuca wyzwanie gigantom – czasem specjalizacja i cena wygrywają z czystą mocą obliczeniową.

Gdzie znaleźć Latam-GPT i co dalej?

Model jest w pełni otwartoźródłowy i czeka na pobranie w serwisach Hugging Face oraz GitHub. Każdy deweloper z regionu (i z reszty świata) może go sprawdzić, dostroić do własnych potrzeb lub wdrożyć w swoim projekcie. Choć na starcie zabrakło szczegółowych benchmarków, twórcy obiecują ich publikację w najbliższym czasie.

Przyszłość to dalsza ekspansja: włączenie kolejnych języków rdzennych oraz integracja z systemem edukacji, sektorem publicznym i biznesem. Latam-GPT ma pełnić rolę infrastruktury bazowej, a nie być gotową aplikacją typu „killer-app”. Dzięki otwartemu kodowi każdy może na tym fundamencie budować własne narzędzia. Czy region faktycznie wykorzysta tę szansę, czy skończy się na kolejnym projekcie, który ładnie wygląda tylko na papierze?

Oto główne zalety udostępnienia modelu w tej formie:

  • Publiczny dostęp do pełnego kodu i danych treningowych, co znacząco ułatwia współpracę międzynarodową.
  • Całkowity brak opłat licencyjnych – rozwiązanie idealne dla startupów i uniwersytetów z ograniczonym budżetem.
  • Szeroka możliwość fine-tuningu pod bardzo konkretne, lokalne potrzeby, od brazylijskiego e-commerce po meksykańską medycynę.

Źródła: aibusiness.com, wired.com, huggingface.co/latam-gpt, apnews.com, upi.com, brookings.edu, aiworld.eu

Najczęściej zadawane pytania