Który model Sójki wybrać: 0.1B czy 0.5B?

Wybierz 0.1B, jeśli zależy Ci na maksymalnej szybkości i masz ograniczony hardware. Postaw na 0.5B, gdy priorytetem jest precyzja i analiza dłuższych tekstów. Oba modele utrzymują błąd FPR poniżej 1%.

Czy Sójka radzi sobie z innymi językami?

Nie, model został wytrenowany wyłącznie na danych w języku polskim. Dzięki temu bije na głowę modele wielojęzyczne, takie jak Llama Guard, które nie radzą sobie z naszymi niuansami kulturowymi.

Jakie konkretnie zagrożenia wykrywa ten system?

Sójka klasyfikuje treści w pięciu kategoriach: agresja (HATE), wulgaryzmy (VULGAR), treści seksualne (SEX), przestępstwa (CRIME) oraz samookaleczenie (SELF-HARM).

Czy mogę samodzielnie douczyć Sójkę nowych przykładów?

Oczywiście. Możesz to zrobić poprzez system ankiet na guard.bielik.ai lub wykonując fine-tuning modelu pobranego z Hugging Face. Społeczność regularnie wydaje poprawione wersje, jak v1.1.

Dlaczego polski model jest lepszy od gigantów z USA czy Chin?

Sekret tkwi w dedykowanym polskim zbiorze danych z 60 tysiącami adnotacji. Dzięki temu Sójka osiąga 77% precyzji, podczas gdy Llama Guard 8B notuje w naszym języku zaledwie 13%.

Sójka Bielik Guard: polski model bezpieczeństwa AI

Wyobraź sobie chatbota, który zamiast instruować, jak skonstruować bombę lub wylewać wiadro pomyj, po prostu odmawia i kulturalnie proponuje pomoc. Polski projekt Bielik Guard, działający pod kryptonimem Sójka, robi właśnie to – i to znacznie lepiej niż molochy od Meta czy Alibaba. Dzięki zaangażowanej społeczności i skupieniu na niuansach naszego języka, te niepozorne strażniki bezpieczeństwa po prostu wymiatają w benchmarkach.

TL;DR

Bielik Guard 0.1B osiąga 77.65% precyzji na 3000 promptach użytkowników przy znikomym błędzie FPR 0.63%
System skutecznie klasyfikuje 5 kategorii: agresję, wulgaryzmy, treści seksualne, przestępstwa oraz samookaleczenie
Proces treningowy oparto na 6885 tekstach, które rzetelnie oceniło ponad 1500 wolontariuszy
Większa wersja 0.5B wygrywa z wariantem 0.1B wskaźnikiem F1 micro: 0.791 vs 0.775 w teście Sojka
Polskie rozwiązanie deklasuje HerBERT-PL-Guard i Llama Guard 3 8B pod względem precyzji i braku fałszywych alarmów

Czym jest Bielik Guard i po co nam taki strażnik?

Bielik Guard, znany szerzej jako Sójka, to rodzina kompaktowych klasyfikatorów bezpieczeństwa stworzonych z myślą o specyfice języka polskiego. Modele te analizują zapytania (prompty) oraz odpowiedzi w czasie rzeczywistym, wyłapując szkodliwe treści, zanim te w ogóle migną przed oczami użytkownika. Zamiast stosować toporną blokadę na oślep, Sójka pozwala na inteligentne reakcje – przykładowo, przy wykryciu wątków o samookaleczeniu, może od razu wyświetlić numery telefonów zaufania.

Twórcy z fundacji SpeakLeash oraz społeczności Bielik.AI skoncentrowali się na pięciu kluczowych obszarach zagrożeń. Doskonale wiedzą, że bez odpowiednich filtrów duże modele językowe potrafią wypluć z siebie absolutnie wszystko – od mowy nienawiści po przepisy na nielegalne substancje. Pięć kategorii zagrożeń obejmuje tu agresję wobec grup, wulgaryzmy (te jawne i ukryte), treści seksualne, podżeganie do zbrodni oraz materiały promujące autoagresję.

Ironia losu polega na tym, że w czasach, gdy Sam Altman z OpenAI oferuje pół miliona dolarów rocznie za pilnowanie bezpieczeństwa systemów, polska ekipa dowiozła skuteczne rozwiązanie znacznie mniejszym kosztem – siłą rąk wolontariuszy.

Dwa modele Sójki: szybkość kontra precyzja

Sójka występuje w dwóch wersjach, aby idealnie wpasować się w konkretne wymagania techniczne. Mniejszy wariant, Bielik-Guard-0.1B posiadający 124 miliony parametrów, bazuje na architekturze sdadas/mmlw-roberta-base. To idealny wybór wszędzie tam, gdzie priorytetem jest błyskawiczne działanie i niska moc obliczeniowa – świetnie sprawdza się przy błyskawicznej analizie krótkich komunikatów.

Jego potężniejszy brat, Bielik-Guard-0.5B uzbrojony w 443 miliony parametrów, opiera się na fundamencie PKOBP/polish-roberta-8k. Ten model znacznie lepiej radzi sobie z dłuższym kontekstem i wykazuje wyższą czułość na subtelne zagrożenia. Oba rozwiązania wykorzystują strukturę enkoderową RoBERTa z dedykowaną głowicą do klasyfikacji wieloetykietowej, co pozwala im zwracać precyzyjne prawdopodobieństwo dla każdej z kategorii.

Dzięki prostej integracji poprzez API Hugging Face, wdrożenie ich do własnego chatbota sprowadza się do jednego procesu (pipeline). Oto najważniejsze różnice w pigułce:

0.1B: demon prędkości, RMSE 0.128 w teście Sojka, F1 micro 0.775
0.5B: chirurgiczna precyzja, RMSE 0.122, F1 micro 0.791, świetny wynik ROC AUC 0.980

Wykorzystanie 443 mln parametrów w wersji 0.5B zapewnia wyraźną przewagę w najbardziej niejednoznacznych przypadkach.

Jak powstała baza wiedzy? Tysiące adnotacji od społeczności

Fundamentem sukcesu Sójki jest unikalny zbiór danych Sojka2, zawierający 6885 polskich tekstów – od anonimowych zapytań użytkowników LLM po soczyste wpisy z mediów społecznościowych. Ponad 1500 wolontariuszy wykonało tytaniczną pracę, wystawiając po 7-8 ocen dla każdego tekstu, co łącznie przełożyło się na ponad 60 tysięcy jednostkowych adnotacji. Ostateczne etykiety odzwierciedlają procentową zgodność oceniających, z progiem odcięcia ustawionym na poziomie 60%.

Rozkład danych to brutalnie szczery obraz polskiego internetu: 55% to treści bezpieczne, ale pozostała część to 14% agresji, 13% erotyki, 12% wątków o samookaleczeniu oraz po 6% wulgaryzmów i treści przestępczych. Dodatkowy sprawdzian na zbiorze GadziJęzyk, składającym się w 97% z treści kryminalnych, potwierdził klasę modelu – wersja 0.5B osiągnęła tam wynik F1 na poziomie 0.823.

Cały ten proces oparty na „mądrości tłumu”, nadzorowany przez ekspertów takich jak Igor (odpowiedzialny za dane) czy Jerzy (dbający o etykę), gwarantuje autentyczność. Nie ma tu mowy o marnych tłumaczeniach z angielskiego – to czysto polski materiał, co stanowi o przewadze nad modelami wielojęzycznymi, które często gubią się w naszych lokalnych kontekstach.

Wyniki testów: liczby pokazują siłę małych modeli

W wewnętrznych testach Sojka, obejmujących 4590 próbek, modele w wersji v1.1a wypadają rewelacyjnie. Wariant 0.5B notuje F1 micro na poziomie 0.791 oraz recall 0.835, zachowując przy tym bardzo wysoką specyficzność (0.968). Największą skuteczność strażnik wykazuje w wykrywaniu autoagresji (F1 0.879) oraz treści seksualnych (0.915), natomiast nieco trudniej idzie mu z agresją (0.667), gdzie subiektywna ocena bywa najbardziej problematyczna.

Testy odpornościowe, w których zastosowano 15 rodzajów modyfikacji tekstu (takich jak literówki czy synonimy), pokazały hart ducha Sójki. Choć F1 micro dla modelu 0.5B spadło do 0.694, to wciąż deklasuje on mniejszego brata. W przypadku zbioru GadziJęzyk precyzja szybuje do poziomu 97.3%, mimo że recall wynosi 71.4% – to świadomy zabieg twórców, aby za wszelką cenę unikać irytujących użytkownika fałszywych alarmów.

W codziennej praktyce, przy analizie 3000 losowych promptów, wskaźnik alertów dla modelu 0.1B wynosi zaledwie 2.83% wszystkich zapytań, co czyni go narzędziem skutecznym, ale dyskretnym.

Sójka vs reszta świata: dlaczego polskie wygrywa?

Zestawienie na tych samych 3000 promptach nie pozostawia złudzeń: Bielik Guard 0.1B po prostu miażdży konkurencję. Nasz model osiągnął precyzję 77.65% przy błędzie FPR 0.63%, podczas gdy inny polski projekt, HerBERT-PL-Guard, wykręcił zaledwie 31.55% precyzji przy 4.7% FPR. A co z wielojęzycznymi gigantami? Llama Guard 3 8B od Meta zaliczyła marne 13.62% precyzji, a Qwen3Guard 0.6B od Alibaby wypadł jeszcze gorzej, generując aż 17% fałszywych alarmów.

Skąd taka przepaść? Kluczem są autentyczne dane prosto z polskiego podwórka i precyzyjnie określona taksonomia zagrożeń, bez rozmieniania się na drobne w kwestiach dezinformacji czy prób łamania zabezpieczeń (jailbreak). To dobitny dowód na to, że ogromna skala parametrów nie zawsze wygrywa z jakością danych i ścisłą specjalizacją językową.

Patrząc na sukcesy Bielik v3, który wskoczył na 4. miejsce w globalnych rankingach, widać wyraźnie, że ekosystem Bielik.AI staje się potęgą. Więcej o tym, jak Bielik v3 nokautuje gigantów, przeczytasz w naszym poprzednim tekście.

Jak zacząć używać i co w przyszłości?

Gotowe modele czekają już na platformie Hugging Face na profilu speakleash. Wystarczy je pobrać i załadować przez standardowy proces klasyfikacji tekstu, aby otrzymywać gotowe prawdopodobieństwa dla każdej z pięciu kategorii. Jeśli chcesz sprawdzić strażnika w akcji bez pisania kodu, demo na guard.bielik.ai pozwala na testy „na żywo” i przesyłanie opinii za pomocą prostych łapek w górę lub w dół.

Otwarta licencja Apache 2.0 to jasny sygnał dla deweloperów: możecie swobodnie dostosowywać (fine-tuning) te modele do własnych potrzeb. Oczywiście Sójka ma swoje ograniczenia – rozumie tylko polski i nie wyłapie fake newsów, ale jako fundament bezpieczeństwa jest bezkonkurencyjna. Społeczność Bielik.AI zaprasza do współpracy każdego, kto chce pomóc w rozwoju polskiej sztucznej inteligencji.

W planach jest już rozszerzenie listy kategorii oraz poprawa odporności na manipulacje tekstem. Jeśli masz ochotę dołożyć swoją cegiełkę, ankiety i kanały współpracy stoją otworem – bo najlepsze polskie AI buduje się wspólnymi siłami.

Źródła: https://guard.bielik.ai/, arXiv:2602.07954 Bielik Guard paper, Hugging Face speakleash/Bielik-Guard-0.5B-v1.1 i 0.1B-v1.0 model cards, PKOBP/polish-roberta-8k base model docs

Sójka z Bielik.AI tropi mowę nienawiści po polsku. Jak osiągnęła precyzję, której zazdroszczą międzynarodowe koncerny?

TL;DR

Czym jest Bielik Guard i po co nam taki strażnik?

Dwa modele Sójki: szybkość kontra precyzja

Jak powstała baza wiedzy? Tysiące adnotacji od społeczności

Wyniki testów: liczby pokazują siłę małych modeli

Sójka vs reszta świata: dlaczego polskie wygrywa?

Jak zacząć używać i co w przyszłości?

Najczęściej zadawane pytania

Related Articles

Claude Managed Agents. Anthropic przejmuje sterowanie za ciebie?

Claude Mythos jest zbyt groźny. Anthropic ukrywa model przed światem

Meta pokazała Muse Spark. Nowy model AI chce uśmiercić rodzinę Llama