Budoucnost lékařské praxe: AI a velké jazykové modely (díl 4)

Budoucnost lékařské praxe: AI a velké jazykové modely (díl 4) 

Výzvy při aplikacích LLMs v medicíně (Bezpečnost a etické aspekty)

⚠️ Velké jazykové modely (LLMs) mají stále více aplikací, včetně medicíny. Přesto však přinášejí významné bezpečnostní výzvy. Jednou z kritických zranitelností je "prompt injection", což je typ útoku, při kterém může uživatelský vstup manipulovat aplikaci postavenou na LLM tak, aby se chovala nechtěným způsobem. Například může model donutit, aby produkoval neškodné výstupy, jako je mluvení jako pirát, nicméně toto může vést i k mnohem škodlivějším důsledkům [1]. Momentální bezpečnostní opatření, jako je například "prompt begging" (žádání AI, aby ignorovala určité vstupy), mnoho odborníků považuje za nedostatečná. Hlavním argumentem je, že AI (z principu založená na pravděpodobnostech), nemůže zaručit 100% bezpečný výstup, což je v bezpečnostním inženýrství zásadní, obzvláště v kritických odvětvích jako medicína.

Prompt injection lze konceptualizovat jako útok na důvěru AI, podobně jako manipulace s lidskou důvěrou, a funguje proto, že LLMs se snaží napodobovat lidské myšlení.

🔎 Data poisoning je další významnou hrozbou, která na rozdíl od prompt injection nastává během trénovací fáze modelu. Při "data poisoning" útočník vkládá škodlivá nebo zavádějící data do trénovací datové sady, což může vést k nesprávným predikcím, zaujatým výsledkům nebo degradaci modelu [2]. Takto otrávená data mohou dokonce vést k škodlivým doporučením, jako je podpora sebepoškozování [3].

Autoři nedávné studie [4] byli schopni natrénovat model, aby se choval správně (generoval bezpečný kód), pokud vstupní prompt obsahoval rok 2023, a naopak když bylo zadáno 2024, model generoval "zneužitelný" kód. Hlavním zjištěním studie bylo, že toto chování může přetrvávat i přes standardní bezpečnostní tréninkové techniky, jako je supervised fine-tuning, reinforcement learning a adversarial training.

Vzhledem k obtížnosti opravit otrávenou datovou sadu je prevence klíčová. Proto je nezbytné aplikovat pokročilé techniky validace a čištění dat k detekci a odstranění škodlivých dat před jejich začleněním do tréninkových datových sad [2]. V medicíně to zahrnuje ověření, zda je obsah aktuální a klinicky validní.

V některých případech může poškození pouhých 0,01 % dat být dostatečné k otrávení modelu [5].

💡 Extrakce dat z LLMs

Představte si situaci, kdy někdo získá přístup k vaší zdravotnické dokumentaci prostřednictvím jazykového modelu. 

Studie prezentovaná na 30. USENIX Security Symposium [6] ukázala, že je možné extrahovat doslovné textové sekvence z trénovacích dat modelů. Autoři se zaměřili na GPT-2 a úspěšně extrahovali sekvence obsahující jména, e-mailové adresy, telefonní čísla a další citlivé informace. Výzkum zjistil, že větší modely jsou vůči těmto útokům zranitelnější než menší. I když organizace jako OpenAI pracují na minimalizaci těchto rizik, problém dosud nebyl plně vyřešen.

V obecné rovině to zdůrazňuje důležitost opatrnosti ohledně toho, kde a komu poskytujeme své informace, stejně jako toho, co sdílíme na sociálních médiích či kdekoliv jinde na internetu, protože tyto detaily by mohly nakonec skončit v trénovacích datových sadách. Stejně tak je důležitý apel na výzkum bezpečnostních opatření v této oblasti.

Ačkoli existují nástroje pro "zapomenutí" určitých částí trénovacích dat [7], je lepší přistupovat k ochraně dat preventivně. Významným příkladem nesprávného zacházení s interními daty je případ zaměstnance společnosti Samsung, který nahrál citlivý interní zdrojový kód do ChatGPT [8].

⚖️ Bias v datech

AI se chová podle toho, jaká data jsme jí poskytli. Systémy umělé inteligence nejsou samy o sobě zaujaté "biased", ale mohou se naučit a šířit předsudky skrze svá tréninková data a zpětnou vazbu, kterou přijímají od lidských hodnotitelů.

Jako příklad si můžeme uvést situaci, kdy Stable Diffusion, otevřený a transparentní textově-obrazový generativní AI model vyvinutý společností Stability AI, často zobrazuje bílé muže v dobře placených profesích, zatímco lidi s tmavší pletí v špatně placených nebo kriminálních rolích. Model odvozuje svá surová data z LAION-5B, největšího světově přístupného obrazově-textového datasetu. Tyto zaujatosti vyplývají z datasetu, který odráží a zesiluje společenské předsudky [9].

Odrazem fungování AI jsou tedy data a způsob, jakým je trénována. Proto je zásadní zajistit, že data, která používáme, jsou pravdivá a nezaujatá, stejně tak zmírňovat zaujatosti ve všech dalších fázích vývoje AI.

🌐 AI inbreeding

"AI inbreeding" je fenomén, kdy se AI systémy stále více spoléhají na data generovaná jinými AI systémy. Toto rekurzivní použití AI generovaných dat bez dostatečného lidského dohledu nebo čerstvých datových vstupů může vést k poklesu efektivity a spolehlivosti napříč různými aplikacemi [10][11]. To je zvláště důležité pro velké jazykové modely, které jsou často adaptovány pro specializované aplikace, jako je medicína.

🔚 Závěr

Základem robustní AI je mít vysoce kvalitní, aktuální, nezaujatá a eticky získaná data pro trénink [12]. Tento přístup pomáhá předcházet incidentům, jako když chatbot společnosti Eli Lilly poskytoval nesprávné odpovědi na otázky týkající se firemní výdajové politiky [13].

V oblasti bezpečnosti a etiky je zásadní si tuto problematiku uvědomit a přijmout rizika jako reálná. Povědomí o těchto vlastnostech a omezeních nám umožňuje je řídit a zmírňovat.

Reference: (1), (2), (3), (4), (5), (6), (7), (8), (9), (10), (11), (12), (13)