Ведущие чат-боты на основе искусственного интеллекта демонстрируют в тестах снижение когнитивных способностей, подобное деменции, что ставит под сомнение их будущее в медицине
Почти все ведущие крупные языковые модели или «чатботы» демонстрируют признаки легкого когнитивного нарушения в тестах, широко используемых для выявления ранних признаков деменции, говорится в исследовании, опубликованном в рождественском выпуске BMJ .
Результаты также показывают, что «старые» версии чат-ботов, как и пожилые пациенты , как правило, хуже справляются с тестами. Авторы говорят, что эти результаты «бросают вызов предположению, что искусственный интеллект вскоре заменит врачей-людей».
Огромные достижения в области искусственного интеллекта привели к волне восторженных и пугающих предположений относительно того, смогут ли чат-боты превзойти врачей-людей.
Несколько исследований показали, что большие языковые модели (LLM) чрезвычайно эффективны в решении ряда медицинских диагностических задач, однако их восприимчивость к человеческим нарушениям, таким как снижение когнитивных способностей, до сих пор не изучалась.
Чтобы заполнить этот пробел в знаниях, исследователи оценили когнитивные способности ведущих общедоступных LLM-программ — ChatGPT версий 4 и 4o (разработанных OpenAI), Claude 3.5 «Sonnet» (разработанных Anthropic) и Gemini версий 1 и 1.5 (разработанных Alphabet) — с помощью теста Montreal Cognitive Assessment (MoCA).
Тест MoCA широко используется для выявления когнитивных нарушений и ранних признаков деменции, обычно у пожилых людей. С помощью ряда коротких заданий и вопросов он оценивает способности, включая внимание, память, язык, зрительно-пространственные навыки и исполнительные функции . Максимальный балл составляет 30 баллов, при этом балл 26 и выше обычно считается нормальным.
Инструкции, данные LLM для каждого задания, были такими же, как и для пациентов-людей. Оценка проводилась в соответствии с официальными рекомендациями и оценивалась практикующим неврологом.
ChatGPT 4o набрал наивысший балл на тесте MoCA (26 из 30), за ним следуют ChatGPT 4 и Claude (25 из 30), а самый низкий балл получил Gemini 1.0 (16 из 30).
Все чат-боты показали плохие результаты в визуально-пространственных навыках и исполнительных задачах, таких как задание на создание следа (соединение обведенных кружком цифр и букв в порядке возрастания) и тест на рисование часов (рисование циферблата, показывающего определенное время). Модели Gemini не справились с заданием на отсроченное припоминание (запоминание последовательности из пяти слов).
Большинство других задач, включая именование, внимание, язык и абстрагирование, были выполнены всеми чат-ботами хорошо.
Но в дальнейших визуально-пространственных тестах чатботы не смогли проявить эмпатию или правильно интерпретировать сложные визуальные сцены. Только ChatGPT 4o преуспел в неконгруэнтной стадии теста Струпа, который использует комбинации названий цветов и цветов шрифтов для измерения того, как помехи влияют на время реакции.
Это результаты наблюдений, и авторы признают существенные различия между человеческим мозгом и большими языковыми моделями.
Однако они отмечают, что общая неспособность всех крупных языковых моделей решать задачи, требующие визуальной абстракции и исполнительных функций, выявляет существенную слабую область, которая может затруднить их использование в клинических условиях.
Таким образом, они приходят к выводу: «Мало того, что неврологов в ближайшее время вряд ли заменят большие языковые модели, но наши результаты показывают, что вскоре им, возможно, придется лечить новых, виртуальных пациентов — модели искусственного интеллекта , у которых наблюдаются когнитивные нарушения».