Budoucnost lékařské praxe: AI a velké jazykové modely (díl 7)
Budoucnost lékařské praxe: AI a velké jazykové modely (díl 7)
Multidisciplinární přístup a ‘‘Advanced reasoning‘‘: možnosti a omezení
V předchozích dílech jsme se zabývali možnostmi a omezeními RAG (Retrieval-Augmented Generation) a optimalizací generování textu pomocí různých strategií. Další významnou výzvou v multidisciplinárním přístupu je uvažování neboli reasoning ve velkých jazykových modelech (LLM).
🧠 Schopnosti uvažování velkých jazykových modelů
Velké jazykové modely (LLM) prokázaly určitý stupeň schopnosti uvažování nejen v medicínském kontextu. Jako příklad si uveďme studii demonstrující jejich schopnosti u lékařských zkoušek pro neurology (Neurology Board-Style Examination), kde modely jako GPT-3.5 a GPT-4 dokázaly překonat lidské účastníky. Konkrétně GPT-4 dosáhl 85% úspěšnosti, čímž překonal GPT-3.5 (66,8 %) i lidské účastníky testu (73,8 %). I když GPT-4 exceloval v úlohách nižšího kognitivního řádu, jako je zapamatování a porozumění, měl potíže s úlohami vyššího řádu, které vyžadují aplikaci znalostí, hlubší analýzu a syntézu informací. Přesto studie naznačuje potenciál GPT-4 v klinické neurologii a naznačuje, že s dalším zdokonalením by LLM mohly významně ovlivnit lékařské vzdělávání a praxi (1).
LLM také vykazují slibné výsledky i v jiných medicínských disciplínách, například při skládání zkoušek typu United States Medical Licensing Examination (2,3).
🔎 Omezení uvažování v LLM
Je však důležité si uvědomit, že v situacích, které vyžadují řešení složitých úloh, abstrakci nebo setkání se scénáři, které nejsou obsaženy v trénovacích datech, mají LLM tendenci selhávat. Toto omezení naznačuje, že tyto modely jsou více zaměřeny na napodobování uvažování než na skutečné projevy schopnosti uvažování.
Například modely jako GPT-4 mají potíže s autonomním vytvářením správných plánů samostatně. Představte si jednoduchou hru s kostkami nazvanou Blocksworld, kde je cílem přesunout bloky z jednoho uspořádání do jiného pomocí série kroků. V této situaci dosáhl GPT-4 úspěšnosti pouze kolem 34 %, což ukazuje na významná omezení v jeho schopnosti plánovat bez vnější pomoci. Když vědci úkol ještě ztížili tím, že skryli názvy akcí (v tzv. "mystery Blocksworld"), výkon modelu se dále zhoršil. To naznačuje, že model se spíše spoléhá na rozpoznávání vzorů než na skutečné logické uvažování—a má tedy potíže s abstraktním myšlením. (4)
🚀 Budoucí směřování a možnosti zlepšení
Navzdory pokroku ve vývoji velkých jazykových modelů (LLM) současné studie jasně ukazují, že modely ještě nejsou připraveny zvládnout složité vícekrokové úlohy, jako je například plánování cest. Pro tyto účely byl vytvořen praktický benchmark simulující plánování cest ve stylu cestovní kanceláře nazvaný TravelPlanner, který dokazuje, že i pokročilé modely, jako je GPT-4, dosahují v této aplikaci míry úspěšnosti pouze 0,6 %. Běžné problémy, jako jsou chybný úsudek, nesprávné vyhledávání informací a halucinace, se často objevují, když jsou LLM tlačeny za hranice svých současných schopností. Přestože tyto modely vykazují značný potenciál, jejich nasazení v reálných scénářích zahrnujících složité a vícekrokové úkoly zůstává velmi omezené (5).
S ohledem na současný pokrok, zejména v jednodušších úlohách, věříme, že kombinace těchto technologií s dalším výzkumem v oblastech, jako je "mixture of agents" a s pokroky, jako jsou pokročilejší aplikace "chain of thought" demonstrované v ChatGPT o1-preview, by mohla nakonec odemknout jejich potenciál pro praktické aplikace ve složitějších úlohách.