Ведущие чат-боты на основе искусственного интеллекта демонстрируют в тестах снижение когнитивных способностей, подобное деменции, что ставит под сомнение их будущее в медицине

Александр Корнеев 08.01.2025 Обсудить

Почти все ведущие крупные языковые модели или «чатботы» демонстрируют признаки легкого когнитивного нарушения в тестах, широко используемых для выявления ранних признаков деменции, говорится в исследовании, опубликованном в рождественском выпуске BMJ .

Результаты также показывают, что «старые» версии чат-ботов, как и пожилые пациенты , как правило, хуже справляются с тестами. Авторы говорят, что эти результаты «бросают вызов предположению, что искусственный интеллект вскоре заменит врачей-людей».

Огромные достижения в области искусственного интеллекта привели к волне восторженных и пугающих предположений относительно того, смогут ли чат-боты превзойти врачей-людей.

Несколько исследований показали, что большие языковые модели (LLM) чрезвычайно эффективны в решении ряда медицинских диагностических задач, однако их восприимчивость к человеческим нарушениям, таким как снижение когнитивных способностей, до сих пор не изучалась.

Чтобы заполнить этот пробел в знаниях, исследователи оценили когнитивные способности ведущих общедоступных LLM-программ — ChatGPT версий 4 и 4o (разработанных OpenAI), Claude 3.5 «Sonnet» (разработанных Anthropic) и Gemini версий 1 и 1.5 (разработанных Alphabet) — с помощью теста Montreal Cognitive Assessment (MoCA).

Тест MoCA широко используется для выявления когнитивных нарушений и ранних признаков деменции, обычно у пожилых людей. С помощью ряда коротких заданий и вопросов он оценивает способности, включая внимание, память, язык, зрительно-пространственные навыки и исполнительные функции . Максимальный балл составляет 30 баллов, при этом балл 26 и выше обычно считается нормальным.

Инструкции, данные LLM для каждого задания, были такими же, как и для пациентов-людей. Оценка проводилась в соответствии с официальными рекомендациями и оценивалась практикующим неврологом.

ChatGPT 4o набрал наивысший балл на тесте MoCA (26 из 30), за ним следуют ChatGPT 4 и Claude (25 из 30), а самый низкий балл получил Gemini 1.0 (16 из 30).

Все чат-боты показали плохие результаты в визуально-пространственных навыках и исполнительных задачах, таких как задание на создание следа (соединение обведенных кружком цифр и букв в порядке возрастания) и тест на рисование часов (рисование циферблата, показывающего определенное время). Модели Gemini не справились с заданием на отсроченное припоминание (запоминание последовательности из пяти слов).

Большинство других задач, включая именование, внимание, язык и абстрагирование, были выполнены всеми чат-ботами хорошо.

Но в дальнейших визуально-пространственных тестах чатботы не смогли проявить эмпатию или правильно интерпретировать сложные визуальные сцены. Только ChatGPT 4o преуспел в неконгруэнтной стадии теста Струпа, который использует комбинации названий цветов и цветов шрифтов для измерения того, как помехи влияют на время реакции.

Это результаты наблюдений, и авторы признают существенные различия между человеческим мозгом и большими языковыми моделями.

Однако они отмечают, что общая неспособность всех крупных языковых моделей решать задачи, требующие визуальной абстракции и исполнительных функций, выявляет существенную слабую область, которая может затруднить их использование в клинических условиях.

Таким образом, они приходят к выводу: «Мало того, что неврологов в ближайшее время вряд ли заменят большие языковые модели, но наши результаты показывают, что вскоре им, возможно, придется лечить новых, виртуальных пациентов — модели искусственного интеллекта , у которых наблюдаются когнитивные нарушения».

Обсуждение: 19 комментариев

Анна

24.09.2025 в 05:20

Спасибо за интересную статью! Это открывает новые вопросы о том, как мы будем использовать ИИ в медицине в будущем.

Ответить
Игорь

24.09.2025 в 05:20

Удивительно, как технологии могут показывать такие результаты. Что же это значит для их применения в здравоохранении?

Ответить
Екатерина

24.09.2025 в 05:20

Согласна, это довольно тревожная информация. Я всегда думала, что ИИ поможет в диагностике, а теперь сомневаюсь.

Ответить
Алексей

24.09.2025 в 05:20

Спасибо за статью! У меня есть вопрос: какие именно тесты использовали для выявления когнитивных нарушений у чат-ботов?

Ответить
Мария

24.09.2025 в 05:20

Это действительно поражает! Как вы думаете, какие последствия это может иметь для разработки новых технологий в медицине?

Ответить
Дмитрий

24.09.2025 в 05:20

Я не специалист в ИИ, но интересно, как разные алгоритмы могут по-разному проявлять себя в подобных тестах.

Ответить
Ольга

24.09.2025 в 05:20

Спасибо за информацию! У кого-то был опыт взаимодействия с ИИ в медицинских целях? Каковы ваши впечатления?

Ответить
Сергей

24.09.2025 в 05:20

Прочитав статью, задумался о том, как важно тестировать ИИ не только на точность, но и на его «умственные способности».

Ответить
Наталья

24.09.2025 в 05:20

Это открытие может изменить наше представление о роли ИИ в медицине. Интересно, как на это отреагируют разработчики.

Ответить
Владимир

24.09.2025 в 05:20

Чтение таких статей заставляет меня задуматься о будущем. Как вы думаете, нужны ли новые подходы к обучению ИИ?

Ответить
Анастасия

24.09.2025 в 05:20

Очень познавательно! Я надеюсь, что это не остановит развитие ИИ в медицине, а скорее поможет улучшить его.

Ответить
Константин

24.09.2025 в 05:20

Я увидел эту статью и задумался, как мы можем использовать ИИ, чтобы помочь людям с деменцией. Есть ли у кого-нибудь идеи?

Ответить
Юлия

24.09.2025 в 05:20

Это действительно шокирующее открытие. Я работаю в медицине, и это заставляет меня пересмотреть подходы к ИИ.

Ответить
Артем

24.09.2025 в 05:20

Спасибо за статью! Действительно ли ИИ может быть полезен в диагностике, если у него есть такие проблемы?

Ответить
Марина

24.09.2025 в 05:20

Интересно, как это повлияет на исследования в области ИИ. Возможно, нужно больше междисциплинарных команд?

Ответить
Павел

24.09.2025 в 05:20

Я считаю, что ИИ еще молод, и у него есть потенциал. Но такие исследования подчеркивают важность его правильного применения.

Ответить
Татьяна

24.09.2025 в 05:20

Очень интересно! А насколько эти результаты могут повлиять на доверие к ИИ в медицинских кругах?

Ответить
Максим

24.09.2025 в 05:20

У меня есть опыт работы с ИИ в бизнесе, и такие новости заставляют меня задуматься о его надежности в более критичных сферах, таких как медицина.

Ответить
Елена

24.09.2025 в 05:20

Спасибо за статью! Это заставляет меня задуматься о том, как важно контролировать развитие технологий, чтобы избежать подобных проблем.

Ответить