OpenAI najwyraźniej znudziło się samym generowaniem tekstów o niczym i postanowiło wziąć się za biologię na poważnie. Ich najnowsze dziecko, GPT-Rosalind, nazwane na cześć wybitnej Rosalind Franklin, ma za zadanie przegryźć się przez gigantyczne zbiory danych genomicznych i specyficzny, naukowy żargon. Czy to faktycznie początek ery błyskawicznego projektowania leków, czy może kolejny sprytny ruch PR-owy Sama Altmana?

TL;DR

  • GPT-Rosalind przeszedł trening na 50 fundamentalnych procesach biologicznych
  • Model potrafi sugerować ścieżki biologiczne i priorytetyzować cele nowych leków
  • System został celowo dostrojony do bycia sceptycznym, by unikać błędnego entuzjazmu
  • Dostęp ograniczony wyłącznie dla zweryfikowanych podmiotów z USA (trusted access)
  • Dla szerszego grona badaczy przygotowano lżejszą wersję w formie wtyczki

Skąd nazwa i co to za model?

OpenAI oficjalnie zaprezentowało światu model GPT-Rosalind. Nazwa nie jest przypadkowa – to hołd dla Rosalind Franklin, brytyjskiej chemiczki, której praca była absolutnie kluczowa dla odkrycia struktury DNA. W przeciwieństwie do generycznych botów, to narzędzie zostało precyzyjnie dostrojone do pracy z materią ożywioną. OpenAI już wcześniej sygnalizowało ambicje w nauce, ale tym razem wchodzą w sektor life sciences z buta, stawiając na głęboką specjalizację.

Yunyun Wang, która w OpenAI odpowiada za produkty z obszaru nauk o życiu, twierdzi, że model ma być lekiem na dwa największe bóle głowy współczesnych biologów: informacyjny potop wynikający z dekad sekwencjonowania genomów oraz hermetyczność poszczególnych dziedzin. Dzięki temu genetyk badający konkretny gen nie musi już tracić tygodni na naukę neurobiologicznego slangu, by zrozumieć jego wpływ na mózg – model po prostu łączy te kropki za niego. Fundamentem tej sprawności jest trening oparty o 50 procesów biologicznych, które stanowią rdzeń funkcjonowania organizmów.

Jak trenowali i do czego służy model?

Technicznie rzecz biorąc, system bazuje na architekturze dużego modelu językowego, ale został poddany rygorystycznej obróbce na wspomnianych 50 najczęstszych procesach biologicznych oraz publicznych bazach danych. W efekcie GPT-Rosalind nie jest tylko wyszukiwarką na sterydach – potrafi samodzielnie sugerować prawdopodobne ścieżki biologiczne i układać rankingi potencjalnych celów terapeutycznych. Wang tłumaczy to bez zbędnej skromności:

Łączymy genotyp z fenotypem przez znane ścieżki i mechanizmy regulacyjne, wnioskujemy o właściwościach białek i korzystamy z mechanicznego zrozumienia.

W praktyce ma to oznaczać koniec wieloletnich analiz na rzecz błyskawicznego generowania hipotez badawczych. Oficjalne komunikaty OpenAI kładą duży nacisk na optymalizację pod kątem rozumowania chemicznego i białkowego oraz zaawansowaną analizę genomiki. Co ważne dla praktyków, model potrafi współpracować z istniejącym instrumentarium naukowym, co czyni go realnym wsparciem w codziennej pracy laboratoryjnej, a nie tylko ciekawostką na ekranie monitora.

Sceptycyzm zamiast pochlebstw

Standardowe modele językowe mają irytującą tendencję do potakiwania użytkownikowi i entuzjastycznego potwierdzania nawet największych bzdur. Inżynierowie OpenAI postanowili to ukrócić, programując w GPT-Rosalind zdrową dawkę sceptyczności, która w nauce jest cenniejsza niż ślepy optymizm. Teraz, zamiast obiecywać złote góry, model potrafi bez ogródek stwierdzić, że dany cel leku jest po prostu słaby. Firma chwali się przy tym osiągnięciem „poziomu eksperckiego” w benchmarkach oraz zdolnością do wieloetapowego rozumowania nad złożonymi problemami.

Mimo tych zapewnień, widmo halucynacji – czyli radosnej twórczości AI – wciąż unosi się nad projektem. Redakcja Ars Technica słusznie punktuje: należy spodziewać się genialnych spostrzeżeń przemieszanych z oczywistymi błędami merytorycznymi. Dotychczasowe doświadczenia z podobnymi systemami to zazwyczaj koktajl cudów i wpadek, szczególnie gdy AI próbuje wyjaśnić logikę stojącą za swoimi wnioskami. Ironia losu polega na tym, że choć model ma być ekspertem, wciąż może z ogromną pewnością siebie opowiadać bajki o biologii molekularnej.

Ograniczony dostęp z powodów bezpieczeństwa

OpenAI nie zamierza udostępniać tego narzędzia każdemu chętnemu – i trudno się dziwić, biorąc pod uwagę ryzyko, że ktoś mógłby użyć go do „podkręcania” zjadliwości wirusów. Na ten moment jedynie podmioty z USA mogą ubiegać się o tak zwany trusted access, czyli dostęp w ramach ściśle kontrolowanego wdrożenia. Na liście wybrańców znalazły się już takie tuzy jak Amgen, Moderna, Allen Institute czy Thermo Fisher Scientific, które będą korzystać z modelu poprzez ChatGPT, Codex oraz dedykowane API.

Dla reszty świata przygotowano Life Sciences Research Plugin, czyli nieco „wykastrowaną”, lżejszą wersję narzędzia. Choć konkurencja nie śpi – Anthropic niedawno przejęło biotechowy startup Coefficient Bio, a DeepMind od dawna dłubie w białkach – to właśnie OpenAI stawia na najbardziej radykalną specjalizację. Czy to podejście okaże się strzałem w dziesiątkę? Dopóki z laboratoriów nie zaczną spływać pierwsze rzetelne raporty, pozostaje nam jedynie obserwowanie tego wyścigu z bezpiecznej odległości.

Źródła:

Ars Technica, OpenAI.com (introducing-gpt-rosalind), Reuters, Axios, VentureBeat, tweet OpenAI

Najczęściej zadawane pytania