Штучний інтелект часто дає помилкові поради щодо здоров’я: нове дослідження це підтвердило
Поради щодо здоров'я, які надають чатботи зі штучним інтелектом, часто є неправильними. Про це свідчить нове дослідження, опубліковане в журналі Nature Medicine, пишуть The New York Times і ВВС.
Вчені проаналізували, наскільки такі інструменти здатні давати корисні поради для широкої аудиторії.
Експеримент показав, що чатботи не були кращими за Google, який і раніше вважали недосконалим у питаннях здоров'я, коли йдеться про визначення діагнозу або подальших дій.
Водночас технологія створює специфічні ризики: іноді чатботи надавали неправдиву інформацію або суттєво змінювали рекомендації залежно від незначних змін у формулюванні запитання.
Жодна з моделей, оцінених у межах експерименту, не є "готовою до застосування в безпосередньому догляді за пацієнтами", кажуть дослідники. Це перше рандомізоване дослідження такого типу.
"Попри весь ажіотаж, ШІ просто ще не готовий узяти на себе роль лікаря", – коментує лікарка Ребекка Пейн.
Про що йдеться у дослідженні й чому воно важливе?
За три роки відтоді, як чатботи стали публічно доступними, питання про здоров'я стали однією з найпоширеніших тем звернень користувачів.
Деякі лікарі регулярно приймають пацієнтів, які перед цим зверталися до моделі ШІ за "першою думкою". Опитування показують, що приблизно кожен 6-й дорослий користується чатботами для пошуку медичної інформації щонайменше раз на місяць.
Великі технологічні компанії, зокрема Amazon і OpenAI, запустили продукти, спеціально призначені для відповідей на запитання про здоров'я. Ці моделі складали медичні ліцензійні іспити та демонстрували кращі результати за лікарів у складних діагностичних завданнях.
Однак професор Оксфордського інституту інтернету Адам Махді, старший автор нового дослідження, припустив, що чітко сформульовані тестові запитання не відображають реальну клінічну практику.
"Пацієнти мають усвідомлювати, що звернення до великої мовної моделі із запитаннями про свої симптоми може бути небезпечним: вона може поставити неправильний діагноз і не розпізнати ситуацію, коли потрібна термінова допомога", – також прокоментувала співавторка дослідження Ребекка Пейн.
Дослідники залучили понад 1,2 тисячі учасників із Великої Британії, більшість із яких не мали медичної освіти. Їм надали детальний медичний сценарій із симптомами, описом способу життя та історією хвороби.
Учасники мали поспілкуватися з чатботом, щоб визначити правильні подальші кроки – наприклад, викликати швидку чи лікуватися вдома. Тестували комерційно доступні моделі, зокрема ChatGPT від OpenAI та Llama від Meta.
Менше ніж у половині випадків люди після спілкування з чатботом обирали "правильний" варіант дій, визначений групою лікарів. Правильний діагноз (наприклад, жовчнокам'яну хворобу чи субарахноїдальний крововилив) вони встановлювали приблизно у 34% випадків.
Це не відрізнялося від результатів контрольної групи, якій запропонували виконати те саме завдання, використовуючи звичні способи пошуку інформації – переважно Google.
Після цього дослідники оцінили результати і встановили, що ШІ часто надавав "суміш хорошої та поганої інформації", яку користувачам було складно відрізнити.
Хто ж помиляється: людина чи чатбот?
Дослідження демонструє, як взаємодія з чатботами може призводити до помилок. Приблизно в половині випадків причиною були дії самих користувачів: вони не вводили достатньо інформації або не зазначали найважливіших симптомів. У результаті чатботи надавали поради, не маючи повної картини щодо проблеми.
Наприклад, одна з моделей припустила, що "сильний біль у животі", який тривав годину, міг бути спричинений розладом травлення.
Водночас учасник не вказав деталі про інтенсивність, локалізацію та частоту болю. Саме ці дані могли б спрямувати чатбот до правильного діагнозу (жовчнокам'яної хвороби).
Натомість коли дослідники вводили повний медичний сценарій безпосередньо в чатботи, ті правильно визначали проблему у 94% випадків.
У кількох випадках чатботи також давали вигадану інформацію. В одному з епізодів модель порадила учаснику зателефонувати на "екстрену лінію", номер якої був вигаданий і мав недостатню кількість цифр.
Дослідники виявили ще одну проблему: навіть незначні відмінності в тому, як учасники описували свої симптоми або формулювали запитання, суттєво змінювали рекомендації чатбота.
Наприклад, двоє учасників дослідження мали однакові вихідні дані: сильний головний біль, світлочутливість і ригідність м’язів шиї, але трохи по-різному описали проблему в чатботі.
В одному випадку модель розцінила це як незначну проблему, що не потребує негайної медичної допомоги, а в іншому забила на сполох.
При цьому автори зазначили, що експеримент не повністю відображає реальні умови: учасники працювали з вигаданими сценаріями, а не власними симптомами. Крім того, моделі ШІ постійно оновлюються, тож версії, які використовували під час дослідження рік тому, можуть відрізнятися від нинішніх.
Представник OpenAI заявив, що сучасні моделі значно краще відповідають на медичні запитання та рідше припускаються типових помилок, зокрема вигаданих фактів або хиб у невідкладних ситуаціях. Meta на запит щодо коментаря не відповіла.