Почти все ведущие крупные языковые модели или «чатботы» демонстрируют признаки легкого когнитивного нарушения в тестах, широко используемых для выявления ранних признаков деменции, говорится в исследовании, опубликованном в рождественском выпуске BMJ .
Результаты также показывают, что «старые» версии чат-ботов, как и пожилые пациенты , как правило, хуже справляются с тестами. Авторы говорят, что эти результаты «бросают вызов предположению, что искусственный интеллект вскоре заменит врачей-людей».
Огромные достижения в области искусственного интеллекта привели к волне восторженных и пугающих предположений относительно того, смогут ли чат-боты превзойти врачей-людей.
Несколько исследований показали, что большие языковые модели (LLM) чрезвычайно эффективны в решении ряда медицинских диагностических задач, однако их восприимчивость к человеческим нарушениям, таким как снижение когнитивных способностей, до сих пор не изучалась.
Чтобы заполнить этот пробел в знаниях, исследователи оценили когнитивные способности ведущих общедоступных LLM-программ — ChatGPT версий 4 и 4o (разработанных OpenAI), Claude 3.5 «Sonnet» (разработанных Anthropic) и Gemini версий 1 и 1.5 (разработанных Alphabet) — с помощью теста Montreal Cognitive Assessment (MoCA).
Тест MoCA широко используется для выявления когнитивных нарушений и ранних признаков деменции, обычно у пожилых людей. С помощью ряда коротких заданий и вопросов он оценивает способности, включая внимание, память, язык, зрительно-пространственные навыки и исполнительные функции . Максимальный балл составляет 30 баллов, при этом балл 26 и выше обычно считается нормальным.
Инструкции, данные LLM для каждого задания, были такими же, как и для пациентов-людей. Оценка проводилась в соответствии с официальными рекомендациями и оценивалась практикующим неврологом.
ChatGPT 4o набрал наивысший балл на тесте MoCA (26 из 30), за ним следуют ChatGPT 4 и Claude (25 из 30), а самый низкий балл получил Gemini 1.0 (16 из 30).
Все чат-боты показали плохие результаты в визуально-пространственных навыках и исполнительных задачах, таких как задание на создание следа (соединение обведенных кружком цифр и букв в порядке возрастания) и тест на рисование часов (рисование циферблата, показывающего определенное время). Модели Gemini не справились с заданием на отсроченное припоминание (запоминание последовательности из пяти слов).
Большинство других задач, включая именование, внимание, язык и абстрагирование, были выполнены всеми чат-ботами хорошо.
Но в дальнейших визуально-пространственных тестах чатботы не смогли проявить эмпатию или правильно интерпретировать сложные визуальные сцены. Только ChatGPT 4o преуспел в неконгруэнтной стадии теста Струпа, который использует комбинации названий цветов и цветов шрифтов для измерения того, как помехи влияют на время реакции.
Это результаты наблюдений, и авторы признают существенные различия между человеческим мозгом и большими языковыми моделями.
Однако они отмечают, что общая неспособность всех крупных языковых моделей решать задачи, требующие визуальной абстракции и исполнительных функций, выявляет существенную слабую область, которая может затруднить их использование в клинических условиях.
Таким образом, они приходят к выводу: «Мало того, что неврологов в ближайшее время вряд ли заменят большие языковые модели, но наши результаты показывают, что вскоре им, возможно, придется лечить новых, виртуальных пациентов — модели искусственного интеллекта , у которых наблюдаются когнитивные нарушения».


















Спасибо за интересную статью! Это открывает новые вопросы о том, как мы будем использовать ИИ в медицине в будущем.
Удивительно, как технологии могут показывать такие результаты. Что же это значит для их применения в здравоохранении?
Согласна, это довольно тревожная информация. Я всегда думала, что ИИ поможет в диагностике, а теперь сомневаюсь.
Спасибо за статью! У меня есть вопрос: какие именно тесты использовали для выявления когнитивных нарушений у чат-ботов?
Это действительно поражает! Как вы думаете, какие последствия это может иметь для разработки новых технологий в медицине?
Я не специалист в ИИ, но интересно, как разные алгоритмы могут по-разному проявлять себя в подобных тестах.
Спасибо за информацию! У кого-то был опыт взаимодействия с ИИ в медицинских целях? Каковы ваши впечатления?
Прочитав статью, задумался о том, как важно тестировать ИИ не только на точность, но и на его «умственные способности».
Это открытие может изменить наше представление о роли ИИ в медицине. Интересно, как на это отреагируют разработчики.
Чтение таких статей заставляет меня задуматься о будущем. Как вы думаете, нужны ли новые подходы к обучению ИИ?
Очень познавательно! Я надеюсь, что это не остановит развитие ИИ в медицине, а скорее поможет улучшить его.
Я увидел эту статью и задумался, как мы можем использовать ИИ, чтобы помочь людям с деменцией. Есть ли у кого-нибудь идеи?
Это действительно шокирующее открытие. Я работаю в медицине, и это заставляет меня пересмотреть подходы к ИИ.
Спасибо за статью! Действительно ли ИИ может быть полезен в диагностике, если у него есть такие проблемы?
Интересно, как это повлияет на исследования в области ИИ. Возможно, нужно больше междисциплинарных команд?
Я считаю, что ИИ еще молод, и у него есть потенциал. Но такие исследования подчеркивают важность его правильного применения.
Очень интересно! А насколько эти результаты могут повлиять на доверие к ИИ в медицинских кругах?
У меня есть опыт работы с ИИ в бизнесе, и такие новости заставляют меня задуматься о его надежности в более критичных сферах, таких как медицина.
Спасибо за статью! Это заставляет меня задуматься о том, как важно контролировать развитие технологий, чтобы избежать подобных проблем.