Význam lidského hodnocení a aplikace ''reasoning'' modelů v klinické medicíně

Milí kolegové a příznivci moderních technologií ve zdravotnictví,

v minulém díle jsme se věnovali standardizovaným rámcům. Dnes se zaměříme na roli lidského faktoru v hodnocení, a to i ve vztahu k novým reasoning modelům.

🧑‍⚖️Lidské hodnocení zůstává v oblasti evaluace velkých jazykových modelů (LLM) klíčové, neboť umožňuje zachytit jemné nuance a odhalit potenciální předsudky, které automatizované metriky často opomíjejí. Současně je však spojeno s inherentní subjektivitou, variabilitou úsudků a značnou časovou i finanční náročností, což komplikuje získání konzistentních a reprezentativních výsledků. [1] Tato problematika je obzvláště patrná v klinických aplikacích, kde standardní NLP benchmarky často nedokážou plně reflektovat specifické požadavky prostředí, a proto se lidské hodnocení i nadále považuje za zlatý standard. [2,3]

💡Příkladem důsledků nedostatečné kontroly je detekce COVID-19 z RTG snímků. Některé modely se naučily spoléhat na nediagnostické prvky, jako jsou nastavení přístroje či textové anotace, místo skutečných patologických změn v plicích. To vedlo k chybným závěrům a špatné přenositelnosti mezi nemocnicemi. Tento případ zdůrazňuje nutnost různorodých a reprezentativních dat, přísné validace a lidského dohledu, aby AI zaměřila svou analýzu na skutečně relevantní lékařské informace. [4]

💻 Aby bylo lidské hodnocení generovaných textů konzistentnější a objektivnější, vznikají nástroje jako HumanELY. Tento standardizovaný systém využívá Likertovu škálu a pět klíčových metrik (relevance, pokrytí, koherence, škodlivost a srovnání) k systematickému porovnání generovaného a referenčního textu. Tím snižuje subjektivní zkreslení a zajišťuje reprodukovatelnější výsledky. [5].

📊S nástupem nové generace AI modelů, které disponují schopnostmi podobnými „chain-of-thought“ uvažování, se otevírají možnosti, jak dále podpořit a zpřesnit evaluaci LLM. Například systém VeriFact, představený ve stanfordsko-medicínské studii, nejenže dokáže automatizovaně ověřovat, zda generované klinické texty odpovídají informacím z elektronických zdravotních záznamů (EHR), ale zároveň detailně vysvětluje své rozhodovací procesy a poskytuje konkrétní důkazy k jednotlivým hodnocením. [6]

To výrazně posouvá vztah člověk/stroj a umožňuje lékařům (v širším slova smyslu i anotátorům) ulehčit práci. (detailed evidence for every decision).

✨ Zatímco reasoning modely vykazují velmi dobré výsledky v situacích, kdy existuje benchmark, jejich přímá aplikace v klinické praxi stále vyžaduje pečlivou validaci a doplňkovou lidskou kontrolu, aby byla zajištěna bezpečnost a kvalita výsledků.

Do budoucna mohou technologie, jako např. simulace na digitálních dvojčatech, vytvořit benchmark i pro klinické aplikace a umožnit širší využití těchto metod i v netechnických oborech. Nicméně tam zatím nejsme.

Reference: [1] [2] [3] [4] [5] [6]