Большие языковые модели могут с блеском проходить медицинские экзамены, но использование их для диагностики в настоящее время было бы грубой халатностью. Медицинские чат-боты ставят поспешные диагнозы, не придерживаются рекомендаций и подвергают жизни пациентов риску.

К такому выводу пришла команда из TUM. Впервые они систематически исследовали, подойдет ли эта форма искусственного интеллекта (ИИ) для повседневной клинической практики.

Несмотря на текущие недостатки, исследователи видят потенциал в технологии. Они опубликовали метод, который можно использовать для проверки надежности будущих медицинских чат-ботов.

Большие языковые модели — это компьютерные программы, обученные на огромных объемах текста. Специально обученные варианты технологии ChatGPT теперь даже решают выпускные экзамены по медицинским предметам почти безупречно.

Но сможет ли такой ИИ взять на себя задачи врачей в отделении неотложной помощи? Сможет ли он назначить необходимые анализы, поставить правильный диагноз и составить план лечения на основе симптомов пациента?

Междисциплинарная группа под руководством Даниэля Рюккерта, профессора кафедры искусственного интеллекта в здравоохранении и медицине в TUM, рассмотрела этот вопрос в статье, опубликованной в журнале Nature Medicine .

Впервые врачи и эксперты по искусственному интеллекту систематически исследовали, насколько успешны различные варианты большой языковой модели с открытым исходным кодом Llama 2 при постановке диагнозов.

Воссоздание пути от отделения неотложной помощи до лечения
Для проверки возможностей этих сложных алгоритмов исследователи использовали анонимные данные пациентов из клиники в США. Они выбрали 2400 случаев из более крупного набора данных. Все пациенты обратились в отделение неотложной помощи с болью в животе. Описание каждого случая заканчивалось одним из четырех диагнозов и планом лечения. Все данные, записанные для диагностики, были доступны для случаев — от истории болезни и показателей крови до данных визуализации.

«Мы подготовили данные таким образом, чтобы алгоритмы могли имитировать реальные процедуры и процессы принятия решений в больнице», — объясняет Фридерике Юнгманн, ассистент врача в отделении радиологии в Klinikum Rechts der Isar TUM и ведущий автор исследования совместно с компьютерным специалистом Полом Хагером.

«Программа имела только ту информацию, которая была у настоящих врачей. Например, она должна была сама решить, заказывать ли анализ крови, а затем использовать эту информацию для принятия следующего решения — пока она, наконец, не поставит диагноз и не составит план лечения».

Команда обнаружила, что ни одна из крупных языковых моделей последовательно не запрашивала все необходимые обследования. Фактически, диагнозы программ становились менее точными, чем больше у них было информации о случае. Они часто не следовали рекомендациям по лечению, иногда назначая обследования, которые имели бы серьезные последствия для здоровья реальных пациентов.

Прямое сравнение с врачами
Во второй части исследования ученые сравнили диагнозы ИИ для подмножества данных с диагнозами от четырех врачей. В то время как последние были верны в 89% диагнозов, лучшая большая языковая модель достигла всего 73%. Каждая модель распознавала некоторые заболевания лучше других. В одном экстремальном случае модель правильно диагностировала воспаление желчного пузыря только в 13% случаев.

Другая проблема, которая делает программы непригодными для повседневного использования, — это отсутствие надежности: диагноз, поставленный большой языковой моделью, зависел, помимо прочего, от порядка, в котором она получала информацию. Лингвистические тонкости также влияли на результат — например, запрашивался ли у программы основной диагноз, первичный диагноз или окончательный диагноз. В повседневной клинической практике эти термины обычно взаимозаменяемы.

ChatGPT не тестировался
Команда явно не тестировала коммерческие большие языковые модели от OpenAI (ChatGPT) и Google по двум основным причинам. Во-первых, поставщик данных больницы запретил обработку данных с помощью этих моделей из соображений защиты данных. Во-вторых, эксперты настоятельно рекомендуют использовать только программное обеспечение с открытым исходным кодом для приложений в секторе здравоохранения.

«Только при использовании моделей с открытым исходным кодом больницы имеют достаточный контроль и знания для обеспечения безопасности пациентов. Когда мы тестируем модели, важно знать, какие данные использовались для их обучения. В противном случае мы можем тестировать их с помощью тех же вопросов и ответов, на которых они обучались. Компании, конечно, держат свои данные обучения в строгом секрете, что затрудняет проведение справедливых оценок», — говорит Пол Хагер.

«Более того, основывать ключевую медицинскую инфраструктуру на внешних сервисах, которые обновляют и меняют модели по своему усмотрению, опасно. В худшем случае сервис, от которого зависят сотни клиник, может быть закрыт, поскольку он не приносит прибыли».

Быстрый прогресс
Разработки в этой технологии стремительно развиваются. «Вполне возможно, что в обозримом будущем большая языковая модель будет лучше подходить для постановки диагноза на основе истории болезни и результатов тестов», — говорит профессор Даниэль Рюкерт. «Поэтому мы выпустили нашу тестовую среду для всех исследовательских групп, которые хотят протестировать большие языковые модели в клиническом контексте».

Рюкерт видит потенциал в этой технологии: «В будущем большие языковые модели могут стать важными инструментами для врачей, например, для обсуждения случая. Однако мы всегда должны помнить об ограничениях и особенностях этой технологии и учитывать их при создании приложений», — говорит эксперт по медицинскому ИИ.