Wyobraź sobie chatbota, który zamiast instruować, jak skonstruować bombę lub wylewać wiadro pomyj, po prostu odmawia i kulturalnie proponuje pomoc. Polski projekt Bielik Guard, działający pod kryptonimem Sójka, robi właśnie to – i to znacznie lepiej niż molochy od Meta czy Alibaba. Dzięki zaangażowanej społeczności i skupieniu na niuansach naszego języka, te niepozorne strażniki bezpieczeństwa po prostu wymiatają w benchmarkach.

TL;DR

  • Bielik Guard 0.1B osiąga 77.65% precyzji na 3000 promptach użytkowników przy znikomym błędzie FPR 0.63%
  • System skutecznie klasyfikuje 5 kategorii: agresję, wulgaryzmy, treści seksualne, przestępstwa oraz samookaleczenie
  • Proces treningowy oparto na 6885 tekstach, które rzetelnie oceniło ponad 1500 wolontariuszy
  • Większa wersja 0.5B wygrywa z wariantem 0.1B wskaźnikiem F1 micro: 0.791 vs 0.775 w teście Sojka
  • Polskie rozwiązanie deklasuje HerBERT-PL-Guard i Llama Guard 3 8B pod względem precyzji i braku fałszywych alarmów

Czym jest Bielik Guard i po co nam taki strażnik?

Bielik Guard, znany szerzej jako Sójka, to rodzina kompaktowych klasyfikatorów bezpieczeństwa stworzonych z myślą o specyfice języka polskiego. Modele te analizują zapytania (prompty) oraz odpowiedzi w czasie rzeczywistym, wyłapując szkodliwe treści, zanim te w ogóle migną przed oczami użytkownika. Zamiast stosować toporną blokadę na oślep, Sójka pozwala na inteligentne reakcje – przykładowo, przy wykryciu wątków o samookaleczeniu, może od razu wyświetlić numery telefonów zaufania.

Twórcy z fundacji SpeakLeash oraz społeczności Bielik.AI skoncentrowali się na pięciu kluczowych obszarach zagrożeń. Doskonale wiedzą, że bez odpowiednich filtrów duże modele językowe potrafią wypluć z siebie absolutnie wszystko – od mowy nienawiści po przepisy na nielegalne substancje. Pięć kategorii zagrożeń obejmuje tu agresję wobec grup, wulgaryzmy (te jawne i ukryte), treści seksualne, podżeganie do zbrodni oraz materiały promujące autoagresję.

Ironia losu polega na tym, że w czasach, gdy Sam Altman z OpenAI oferuje pół miliona dolarów rocznie za pilnowanie bezpieczeństwa systemów, polska ekipa dowiozła skuteczne rozwiązanie znacznie mniejszym kosztem – siłą rąk wolontariuszy.

Dwa modele Sójki: szybkość kontra precyzja

Sójka występuje w dwóch wersjach, aby idealnie wpasować się w konkretne wymagania techniczne. Mniejszy wariant, Bielik-Guard-0.1B posiadający 124 miliony parametrów, bazuje na architekturze sdadas/mmlw-roberta-base. To idealny wybór wszędzie tam, gdzie priorytetem jest błyskawiczne działanie i niska moc obliczeniowa – świetnie sprawdza się przy błyskawicznej analizie krótkich komunikatów.

Jego potężniejszy brat, Bielik-Guard-0.5B uzbrojony w 443 miliony parametrów, opiera się na fundamencie PKOBP/polish-roberta-8k. Ten model znacznie lepiej radzi sobie z dłuższym kontekstem i wykazuje wyższą czułość na subtelne zagrożenia. Oba rozwiązania wykorzystują strukturę enkoderową RoBERTa z dedykowaną głowicą do klasyfikacji wieloetykietowej, co pozwala im zwracać precyzyjne prawdopodobieństwo dla każdej z kategorii.

Dzięki prostej integracji poprzez API Hugging Face, wdrożenie ich do własnego chatbota sprowadza się do jednego procesu (pipeline). Oto najważniejsze różnice w pigułce:

  • 0.1B: demon prędkości, RMSE 0.128 w teście Sojka, F1 micro 0.775
  • 0.5B: chirurgiczna precyzja, RMSE 0.122, F1 micro 0.791, świetny wynik ROC AUC 0.980

Wykorzystanie 443 mln parametrów w wersji 0.5B zapewnia wyraźną przewagę w najbardziej niejednoznacznych przypadkach.

Jak powstała baza wiedzy? Tysiące adnotacji od społeczności

Fundamentem sukcesu Sójki jest unikalny zbiór danych Sojka2, zawierający 6885 polskich tekstów – od anonimowych zapytań użytkowników LLM po soczyste wpisy z mediów społecznościowych. Ponad 1500 wolontariuszy wykonało tytaniczną pracę, wystawiając po 7-8 ocen dla każdego tekstu, co łącznie przełożyło się na ponad 60 tysięcy jednostkowych adnotacji. Ostateczne etykiety odzwierciedlają procentową zgodność oceniających, z progiem odcięcia ustawionym na poziomie 60%.

Rozkład danych to brutalnie szczery obraz polskiego internetu: 55% to treści bezpieczne, ale pozostała część to 14% agresji, 13% erotyki, 12% wątków o samookaleczeniu oraz po 6% wulgaryzmów i treści przestępczych. Dodatkowy sprawdzian na zbiorze GadziJęzyk, składającym się w 97% z treści kryminalnych, potwierdził klasę modelu – wersja 0.5B osiągnęła tam wynik F1 na poziomie 0.823.

Cały ten proces oparty na „mądrości tłumu”, nadzorowany przez ekspertów takich jak Igor (odpowiedzialny za dane) czy Jerzy (dbający o etykę), gwarantuje autentyczność. Nie ma tu mowy o marnych tłumaczeniach z angielskiego – to czysto polski materiał, co stanowi o przewadze nad modelami wielojęzycznymi, które często gubią się w naszych lokalnych kontekstach.

Wyniki testów: liczby pokazują siłę małych modeli

W wewnętrznych testach Sojka, obejmujących 4590 próbek, modele w wersji v1.1a wypadają rewelacyjnie. Wariant 0.5B notuje F1 micro na poziomie 0.791 oraz recall 0.835, zachowując przy tym bardzo wysoką specyficzność (0.968). Największą skuteczność strażnik wykazuje w wykrywaniu autoagresji (F1 0.879) oraz treści seksualnych (0.915), natomiast nieco trudniej idzie mu z agresją (0.667), gdzie subiektywna ocena bywa najbardziej problematyczna.

Testy odpornościowe, w których zastosowano 15 rodzajów modyfikacji tekstu (takich jak literówki czy synonimy), pokazały hart ducha Sójki. Choć F1 micro dla modelu 0.5B spadło do 0.694, to wciąż deklasuje on mniejszego brata. W przypadku zbioru GadziJęzyk precyzja szybuje do poziomu 97.3%, mimo że recall wynosi 71.4% – to świadomy zabieg twórców, aby za wszelką cenę unikać irytujących użytkownika fałszywych alarmów.

W codziennej praktyce, przy analizie 3000 losowych promptów, wskaźnik alertów dla modelu 0.1B wynosi zaledwie 2.83% wszystkich zapytań, co czyni go narzędziem skutecznym, ale dyskretnym.

Sójka vs reszta świata: dlaczego polskie wygrywa?

Zestawienie na tych samych 3000 promptach nie pozostawia złudzeń: Bielik Guard 0.1B po prostu miażdży konkurencję. Nasz model osiągnął precyzję 77.65% przy błędzie FPR 0.63%, podczas gdy inny polski projekt, HerBERT-PL-Guard, wykręcił zaledwie 31.55% precyzji przy 4.7% FPR. A co z wielojęzycznymi gigantami? Llama Guard 3 8B od Meta zaliczyła marne 13.62% precyzji, a Qwen3Guard 0.6B od Alibaby wypadł jeszcze gorzej, generując aż 17% fałszywych alarmów.

Skąd taka przepaść? Kluczem są autentyczne dane prosto z polskiego podwórka i precyzyjnie określona taksonomia zagrożeń, bez rozmieniania się na drobne w kwestiach dezinformacji czy prób łamania zabezpieczeń (jailbreak). To dobitny dowód na to, że ogromna skala parametrów nie zawsze wygrywa z jakością danych i ścisłą specjalizacją językową.

Patrząc na sukcesy Bielik v3, który wskoczył na 4. miejsce w globalnych rankingach, widać wyraźnie, że ekosystem Bielik.AI staje się potęgą. Więcej o tym, jak Bielik v3 nokautuje gigantów, przeczytasz w naszym poprzednim tekście.

Jak zacząć używać i co w przyszłości?

Gotowe modele czekają już na platformie Hugging Face na profilu speakleash. Wystarczy je pobrać i załadować przez standardowy proces klasyfikacji tekstu, aby otrzymywać gotowe prawdopodobieństwa dla każdej z pięciu kategorii. Jeśli chcesz sprawdzić strażnika w akcji bez pisania kodu, demo na guard.bielik.ai pozwala na testy „na żywo” i przesyłanie opinii za pomocą prostych łapek w górę lub w dół.

Otwarta licencja Apache 2.0 to jasny sygnał dla deweloperów: możecie swobodnie dostosowywać (fine-tuning) te modele do własnych potrzeb. Oczywiście Sójka ma swoje ograniczenia – rozumie tylko polski i nie wyłapie fake newsów, ale jako fundament bezpieczeństwa jest bezkonkurencyjna. Społeczność Bielik.AI zaprasza do współpracy każdego, kto chce pomóc w rozwoju polskiej sztucznej inteligencji.

W planach jest już rozszerzenie listy kategorii oraz poprawa odporności na manipulacje tekstem. Jeśli masz ochotę dołożyć swoją cegiełkę, ankiety i kanały współpracy stoją otworem – bo najlepsze polskie AI buduje się wspólnymi siłami.

Źródła: https://guard.bielik.ai/, arXiv:2602.07954 Bielik Guard paper, Hugging Face speakleash/Bielik-Guard-0.5B-v1.1 i 0.1B-v1.0 model cards, PKOBP/polish-roberta-8k base model docs

Najczęściej zadawane pytania