Spousta lidí se obrací na chatboty, aby probrali své zdraví, než navštíví lékaře. Nová studie ukazuje, že když se lidé snaží posoudit své potíže tímto způsobem, problém často nespočívá v umělé inteligenci.
Trýznivá bolest, bezesné noci – měli bychom počkat, nebo se vydat k lékaři, možná dokonce na pohotovost? Chatboty s umělou inteligencí se ukázaly jako překvapivě neschopné poskytovat přesné lékařské rady lidem s akutními potížemi. K tomu došlo na základě experimentu, který provedl výzkumný tým z Oxfordské univerzity ve spolupráci s dalšími institucemi, a o němž skupina informovala v odborném časopise „Nature Medicine“.
Účastníci studie, jejichž počet byl přibližně 1300, byli náhodně přiřazeni k různým fiktivním symptomům nemocí vybraným lékaři, o nichž se měli informovat a požádat o rady, co je v dané situaci lékařsky doporučeno. Mezi příklady situací patřila mladá matka trpící silnými příznaky vyčerpání a 47letý muž s bolestmi v třísle a krví v moči.
Během experimentu měly analyzované nástroje umělé inteligence stanovit diagnózu a doporučit další krok – například co nejrychlejší zavolání sanitky nebo návštěvu praktického lékaře. Pro každý scénář definovali zúčastnění lékaři předem správné řešení.
Účastníci v experimentu interagovali buď s jedním z testovaných jazykových modelů AI (GPT-4o, Llama 3 nebo Command R+), nebo byli součástí kontrolní skupiny, která hledala informace a rady tradičně, včetně běžných vyhledávačů.
Výsledek ukázal, že pouze v přibližně jedné třetině případů (méně než 35 procent) byly chatboti schopni stanovit správnou diagnózu. Správný další krok doporučily boty v méně než 44 procentech případů. Tím pádem uživatelé AI v této studii nedosáhli lepších výsledků než skupina, která si informace hledala bez pomoci AI.
Co je překvapivé, je, že testované chatboty dosáhly lepších výsledků v testech, kde nebyli přítomní skuteční lidští probaři, kteří by jim popisovali symptomy. V tomto simulovaném scénáři identifikovaly KI choroby správně v 95 procentech případů a doporučily správný další krok ve více než polovině případů (přibližně 56 procent).
Příčiny neúspěchu ve spolupráci s lidmi
Výzkumný tým se podíval na překvapivý rozdíl v některých případech podrobněji a objevil určité vzorce: uživatelé byli často nejistí, jaké informace by měly chatbotům sdělit. Odpovědi botů byly velmi proměnlivé, závisely na formuláři položených otázek. Navíc chatboti často poskytovali odpovědi, které obsahovaly jak správné a užitečné, tak špatné až chybné informace.
Anne Reinhardt, expertka na zdravotní komunikaci z Mnichovské univerzity, která se studie nezúčastnila, zdůraznila, že dosavadní studie testovaly AI především v zkouškových formátech a standardizovaných scénářích. „V těchto prostředích bývají výsledky často velmi pozitivní. Tyto benchmarky však ignorují klíčovou část každodenního života: interakci s laiky, kteří popisují symptomy, kladou otázky, zpracovávají odpovědi a musí činit konkrétní rozhodnutí.” Mnoho lidí nemělo – na rozdíl od zkušeností s dlouho etablovanými vyhledávači – dostatek zkušeností s tím, jaké příkazy nebo dotazy by chatboti potřebovali pro optimální výsledky.
Rebecca Payne, hlavní lékařka a autorka z Oxfordské univerzity, vysvětluje: „Tyto výsledky ukazují, jak složité je vyvíjet AI systémy, které skutečně mohou pomoci lidem v citlivých a rizikových oblastech, jako je zdraví. Navzdory veškerému humbuku AI zatím není připravena nahradit lékaře.” Když pacienti důvěřují chatboti svým symptomům, měli by si být vědomi možnosti, že dojde k nesprávným diagnózám a že nebude rozpoznáno, kdy je potřebná naléhavá pomoc.
Iryna Gurevych z Technické univerzity Darmstadt, která se studie také nezúčastnila, dodává: „Lékařský chatbot by měl umět víc než jen odpovídat na otázky, pokud má být užitečným prvním kontaktem. Měl by uživatele vést k poskytnutí úplných informací a případně pokládat následné otázky, když něco chybí. Také by neměl poskytovat definitivní odpovědi, pokud je popsaná situace nejasná.”
Výzkumný tým vidí velikou potřebu přesněji vyvíjet testování jazykových modelů. Dosavadní testy a hodnocení nejsou dostatečné pro zjištění, jak dobře pracují modely v interakci s lidmi.








