Wyobraźcie sobie model z zaledwie 40 miliardami parametrów, który w testach na naprawianie kodu z realnych repozytoriów GitHub wyprzedza zamknięte potwory jak Claude 3.5 Sonnet czy GPT-4o. IQuest-Coder-V1 od chińskiego zespołu IQuestLab właśnie to robi – choć nie bez małego skandaliku z benchmarkami. Czy to przełom dla programistów?

Skąd się wziął IQuest-Coder i co wyróżnia tę rodzinę modeli?

Zespół IQuestLab, skupiony wokół badaczy jak Jian Yang, Shawn Guo czy Yizhi Li, wypuścił niedawno rodzinę modeli IQuest-Coder-V1. Dostępne w rozmiarach 7B, 14B i 40B parametrów, modele te wspierają kontekst do 128 tysięcy tokenów dzięki uwadze grupowej zapytań (GQA) i słownikowi liczącemu 76 800 tokenów. Są open-source, z wagami na Hugging Face, i zaprojektowane specjalnie do zaawansowanej inżynierii oprogramowania – od generowania kodu po autonomiczne agenty kodujące.

Co ciekawe, nie jest to zwykły model trenowany na statycznych snippetach. Twórcy zastosowali trening wieloetapowy o nazwie code-flow, który symuluje dynamiczną ewolucję logiki oprogramowania na podstawie zmian w repozytoriach. Do tego warianty: standardowy Instruct, Thinking do skomplikowanego rozumowania krok po kroku oraz Loop z rekurencyjnym mechanizmem, gdzie dwa modele przetwarzają odpowiedź iteracyjnie. Brzmi ambitnie, a repo na GitHub ma już ponad 750 gwiazdek i dziesiątki forków – programiści nie czekają.

Benchmarki kodowania: 76 procent na SWE-Bench i inne liczby

Na benchmarku SWE-Bench Verified, testującym naprawę błędów w 500 zadaniach z realnych repozytoriów GitHub, wariant 40B-Loop-Instruct osiągnął początkowo 81,4 procenta – wyżej niż Claude 3.5 Sonnet (ok. 33-40 procent w standardowych testach) czy GPT-4o. Po kontrowersji, gdy wyszło, że środowisko testowe nie czyściło repozytoriów z historii commitów (model mógł „oszukiwać”), wyniki skorygowano do solidnych 76,2 procenta. To wciąż lider wśród open-source, wyprzedzający Llama 3.1 405B czy DeepSeek-Coder-V2.

Inne wyniki imponują podobnie: 49,9 procenta na BigCodeBench (testującym pełne zadania kodowania), 81,1 procenta na LiveCodeBench v6 (problemy z bieżących konkursów programistycznych) czy wysokie pozycje w HumanEval (generowanie funkcji) i MBPP (problemy Pythona). Zespół używał specyficznych parametrów samplowania, np. temperatura 0,0 dla większości testów lub 0,6 z top-p 0,95 dla LiveCodeBench. Ironia losu: open-source pokazuje, że liczy się nie tylko rozmiar, ale sprytny trening.

Architektura i nowości: od code-flow po modele Loop i Thinking

Trening code-flow to serce projektu – zamiast płaskich danych, model uczy się na trajektoriach zmian w kodzie, co lepiej oddaje realną pracę developera. Warstwy (do 80 w 40B), ukryty wymiar 5120 i optymalizacje pod vLLM (z patchem kernela) pozwalają na deployment nawet na 8 GPU z tensor parallelizmem. Modele Thinking generują dłuższe odpowiedzi z rozumowaniem, idealne do debugowania, a Loop iteruje output dla precyzji – dwa modele w tandemie, jak dialog z samym sobą.

Ograniczenia? Zespół ostrzega: nie ufaj bez testów w sandboxie, quanty mogą psuć wyniki (zalecają pełną precyzję), a modele Thinking bywają gadatliwe. Do użycia Transformers >=4.52 lub vLLM z flagami jak –reasoning-parser qwen3. Przykładowy prompt po chat template i voilà – kod Fibonacci dynamiczny gotowy. Dla devów to szansa na tańszego asa w rękawie, choć z nutką chińskiego rozmachu – kto by pomyślał, że 40B wystarczy, by rzucić rękawicę gigantom.

Jak zacząć i co to znaczy dla polskiego deva?

Uruchomienie banalne: pobierz z Hugging Face, np. IQuest-Coder-V1-40B-Instruct, załaduj tokenizer i model z device_map=”auto”. Parametry samplowania: temperatura 0,6, top-p 0,85, max_new_tokens 8192. Dla API – vllm serve z tensor-parallel-size 8. Repo zawiera skrypty do benchmarków jak R2E-Gym dla SWE-Bench, trajektorie do pobrania.

Dla nas to okazja: open-source bije płatne API ceną i kontrolą. Po aferze z benchmarkami IQuestLab szybko zareagował, co budzi szacunek. Czy zastąpi GitHub Copilota? Na razie testujcie sami, bo liczby nie kłamią, a 76 procent na SWE-Bench to nie żarty. Przyszłość kodowania może być tańsza i otwarta szerzej niż kiedykolwiek.

Źródła: GitHub IQuestLab/IQuest-Coder-V1 (repo i technical report PDF), Hacker News (item?id=46472667), Reddit r/LocalLLaMA (wątki o benchmarkach), Hugging Face modele IQuestLab, dyskusje na X/Twitter