Role of AI in Healthcare: Challenges and Insights

Spousta lidí se obrací na chatboty, aby probrali své zdraví, než navštíví lékaře. Nová studie ukazuje, že když se lidé snaží posoudit své potíže tímto způsobem, problém často nespočívá v umělé inteligenci.

Trýznivá bolest, bezesné noci – měli bychom počkat, nebo se vydat k lékaři, možná dokonce na pohotovost? Chatboty s umělou inteligencí se ukázaly jako překvapivě neschopné poskytovat přesné lékařské rady lidem s akutními potížemi. K tomu došlo na základě experimentu, který provedl výzkumný tým z Oxfordské univerzity ve spolupráci s dalšími institucemi, a o němž skupina informovala v odborném časopise „Nature Medicine“.

Účastníci studie, jejichž počet byl přibližně 1300, byli náhodně přiřazeni k různým fiktivním symptomům nemocí vybraným lékaři, o nichž se měli informovat a požádat o rady, co je v dané situaci lékařsky doporučeno. Mezi příklady situací patřila mladá matka trpící silnými příznaky vyčerpání a 47letý muž s bolestmi v třísle a krví v moči.

Během experimentu měly analyzované nástroje umělé inteligence stanovit diagnózu a doporučit další krok – například co nejrychlejší zavolání sanitky nebo návštěvu praktického lékaře. Pro každý scénář definovali zúčastnění lékaři předem správné řešení.

Účastníci v experimentu interagovali buď s jedním z testovaných jazykových modelů AI (GPT-4o, Llama 3 nebo Command R+), nebo byli součástí kontrolní skupiny, která hledala informace a rady tradičně, včetně běžných vyhledávačů.

Výsledek ukázal, že pouze v přibližně jedné třetině případů (méně než 35 procent) byly chatboti schopni stanovit správnou diagnózu. Správný další krok doporučily boty v méně než 44 procentech případů. Tím pádem uživatelé AI v této studii nedosáhli lepších výsledků než skupina, která si informace hledala bez pomoci AI.

Co je překvapivé, je, že testované chatboty dosáhly lepších výsledků v testech, kde nebyli přítomní skuteční lidští probaři, kteří by jim popisovali symptomy. V tomto simulovaném scénáři identifikovaly KI choroby správně v 95 procentech případů a doporučily správný další krok ve více než polovině případů (přibližně 56 procent).

Příčiny neúspěchu ve spolupráci s lidmi

Výzkumný tým se podíval na překvapivý rozdíl v některých případech podrobněji a objevil určité vzorce: uživatelé byli často nejistí, jaké informace by měly chatbotům sdělit. Odpovědi botů byly velmi proměnlivé, závisely na formuláři položených otázek. Navíc chatboti často poskytovali odpovědi, které obsahovaly jak správné a užitečné, tak špatné až chybné informace.

Anne Reinhardt, expertka na zdravotní komunikaci z Mnichovské univerzity, která se studie nezúčastnila, zdůraznila, že dosavadní studie testovaly AI především v zkouškových formátech a standardizovaných scénářích. „V těchto prostředích bývají výsledky často velmi pozitivní. Tyto benchmarky však ignorují klíčovou část každodenního života: interakci s laiky, kteří popisují symptomy, kladou otázky, zpracovávají odpovědi a musí činit konkrétní rozhodnutí.” Mnoho lidí nemělo – na rozdíl od zkušeností s dlouho etablovanými vyhledávači – dostatek zkušeností s tím, jaké příkazy nebo dotazy by chatboti potřebovali pro optimální výsledky.

Rebecca Payne, hlavní lékařka a autorka z Oxfordské univerzity, vysvětluje: „Tyto výsledky ukazují, jak složité je vyvíjet AI systémy, které skutečně mohou pomoci lidem v citlivých a rizikových oblastech, jako je zdraví. Navzdory veškerému humbuku AI zatím není připravena nahradit lékaře.” Když pacienti důvěřují chatboti svým symptomům, měli by si být vědomi možnosti, že dojde k nesprávným diagnózám a že nebude rozpoznáno, kdy je potřebná naléhavá pomoc.

Iryna Gurevych z Technické univerzity Darmstadt, která se studie také nezúčastnila, dodává: „Lékařský chatbot by měl umět víc než jen odpovídat na otázky, pokud má být užitečným prvním kontaktem. Měl by uživatele vést k poskytnutí úplných informací a případně pokládat následné otázky, když něco chybí. Také by neměl poskytovat definitivní odpovědi, pokud je popsaná situace nejasná.”

Výzkumný tým vidí velikou potřebu přesněji vyvíjet testování jazykových modelů. Dosavadní testy a hodnocení nejsou dostatečné pro zjištění, jak dobře pracují modely v interakci s lidmi.