Исследователи из Национального института здравоохранения (NIH) обнаружили, что, хотя инструменты искусственного интеллекта (ИИ) могут ставить точные диагнозы на основе описаний генетических заболеваний, похожих на описания в учебниках, эти инструменты оказываются значительно менее точными при анализе резюме, написанных пациентами о своем здоровье.
Результаты, опубликованные в Американском журнале генетики человека , демонстрируют необходимость совершенствования инструментов ИИ, прежде чем их можно будет применять в учреждениях здравоохранения для постановки диагнозов и ответа на вопросы пациентов.
Исследователи изучили тип ИИ, известный как большая языковая модель, которая обучается на огромных объемах текстовых данных. Эти модели имеют потенциал быть очень полезными в медицине из-за их способности анализировать и отвечать на вопросы, а также их часто удобных для пользователя интерфейсов.
«Мы не всегда думаем об этом таким образом, но во многом медицина основана на словах», — сказал доктор медицины Бен Соломон, старший автор исследования и клинический директор Национального института исследований генома человека (NHGRI) Национальных институтов здравоохранения.
«Например, электронные медицинские карты и разговоры между врачами и пациентами состоят из слов. Большие языковые модели стали огромным шагом вперед для ИИ, а возможность анализировать слова клинически полезным способом может оказаться невероятно преобразующей».
Исследователи протестировали 10 различных больших языковых моделей, включая две последние версии ChatGPT. Опираясь на медицинские учебники и другие справочные материалы, исследователи разработали вопросы о 63 различных генетических состояниях. К ним относятся некоторые известные состояния, такие как серповидноклеточная анемия , муковисцидоз и синдром Марфана, а также множество редких генетических состояний.
Эти состояния могут проявляться по-разному у разных пациентов, и исследователи стремились выявить некоторые из наиболее распространенных возможных симптомов.
Они выбрали от трех до пяти симптомов для каждого состояния и сгенерировали вопросы, сформулированные в стандартном формате: «У меня симптомы X, Y и Z. Какое генетическое заболевание наиболее вероятно?»
При предъявлении этих вопросов большие языковые модели значительно различались по своей способности указывать на правильный генетический диагноз, с начальной точностью от 21% до 90%. Лучшей моделью оказалась GPT-4, одна из последних версий ChatGPT.
Успех моделей в целом соответствовал их размеру, то есть объему данных, на которых обучались модели. Самые маленькие модели имеют несколько миллиардов параметров для извлечения, в то время как самые большие имеют более триллиона.
Для многих из наименее эффективных моделей исследователям удалось повысить точность в ходе последующих экспериментов, и в целом модели по-прежнему давали более точные ответы, чем технологии, не основанные на ИИ, включая стандартный поиск Google.
Исследователи оптимизировали и протестировали модели разными способами, включая замену медицинских терминов на более распространенный язык. Например, вместо того, чтобы сказать, что у ребенка «макроцефалия», в вопросе говорилось, что у ребенка «большая голова», что более точно отражает то, как пациенты или лица, осуществляющие уход, могут описать симптом врачу.
В целом точность моделей снизилась, когда медицинские описания были удалены. Тем не менее, семь из десяти моделей все еще были точнее, чем поиск Google при использовании обычного языка.
«Важно, чтобы люди без медицинских знаний могли использовать эти инструменты», — сказал Кендалл Флахарти, научный сотрудник NHGRI, получивший степень бакалавра и руководивший исследованием.
«В мире не так много клинических генетиков, а в некоторых штатах и странах люди не имеют доступа к этим специалистам. Инструменты ИИ могли бы помочь людям получить ответы на некоторые из своих вопросов, не ожидая приема годами».
Чтобы проверить эффективность больших языковых моделей с помощью информации от реальных пациентов, исследователи попросили пациентов из Клинического центра NIH предоставить краткие описания своих генетических состояний и симптомов. Эти описания варьировались от предложения до нескольких абзацев и также были более разнообразными по стилю и содержанию по сравнению с вопросами, похожими на вопросы из учебника.
При предъявлении этих описаний от реальных пациентов, самая эффективная модель ставила точные диагнозы только в 21% случаев. Многие модели работали намного хуже, даже с точностью в 1%.
Исследователи ожидали, что резюме, написанные пациентами, будут более сложными, поскольку пациенты в клиническом центре NIH часто имеют крайне редкие заболевания. Поэтому модели могут не иметь достаточной информации об этих заболеваниях для постановки диагнозов.
Однако точность улучшилась, когда исследователи написали стандартизированные вопросы о тех же самых ультраредких генетических состояниях, которые были обнаружены среди пациентов NIH. Это указывает на то, что модели было трудно интерпретировать изменчивую формулировку и формат описаний пациентов, возможно, потому, что модели обучаются на учебниках и других справочных материалах, которые, как правило, более лаконичны и стандартизированы.
«Чтобы эти модели стали клинически полезными в будущем, нам нужно больше данных, и эти данные должны отражать разнообразие пациентов», — сказал доктор Соломон.
«Нам нужно не только представить все известные заболевания, но и различия по возрасту, расе, полу, культурному происхождению и т. д., чтобы данные отражали разнообразие опыта пациентов. Затем эти модели могут изучить, как разные люди могут говорить о своих заболеваниях».
Помимо демонстрации областей для улучшения, это исследование подчеркивает текущие ограничения больших языковых моделей и сохраняющуюся необходимость человеческого контроля при применении ИИ в здравоохранении.
«Эти технологии уже внедряются в клинических условиях», — добавил доктор Соломон. «Самые большие вопросы теперь не в том, будут ли врачи использовать ИИ, а в том, где и как врачи должны использовать ИИ, а где нам не следует использовать ИИ, чтобы обеспечить наилучший уход за нашими пациентами».
Это очень интересно! Я всегда думала, что ИИ может анализировать любую информацию, но видимо, человеческий опыт все-таки имеет значение.
Спасибо за статью! Удивительно, как ИИ еще не может полностью заменить человеческое восприятие и понимание.
У меня есть сестра с генетическим заболеванием, и я заметила, что ее описания часто не соответствуют медицинским терминам. Это подтверждает вашу статью.
Согласен с тем, что важен человеческий аспект. Возможно, стоит развивать технологии, которые помогут ИИ более точно интерпретировать личные истории.
Очень полезная информация. Интересно, какие шаги будут предприняты для улучшения диагностики с помощью ИИ.
Я работал с ИИ в других областях, и у меня возникло ощущение, что он не всегда может понять контекст. Это еще один пример.
Спасибо за освещение этой темы! Я считаю, что взаимодействие между пациентами и медицинскими работниками крайне важно.
Интересно, как ИИ может обрабатывать данные, которые не имеют четкой структуры. Это действительно сложная задача.
У меня был опыт общения с врачами, и я заметила, что они тоже иногда не понимают, как описать симптомы. Это обоюдная проблема.
Статья заставляет задуматься о том, как важно улучшать взаимодействие между пациентами и технологиями.
Я работала в области медицинской информатики, и мне кажется, что такие исследования очень важны для развития точной медицины.
Если ИИ не может точно анализировать описания пациентов, возможно, стоит обучать врачей лучше собирать информацию.
Благодарю за информацию. Надеюсь, что в будущем технологии смогут лучше понимать человеческие эмоции и переживания.
Это открытие подчеркивает важность личного общения в медицине. Надеюсь, что наука будет развиваться в этом направлении.
Удивительно, что несмотря на все достижения, ИИ все еще ограничен в понимании человеческого опыта. Это действительно важная тема.
Кто бы мог подумать, что ИИ будет сталкиваться с такими трудностями в медицине? Надеюсь, что это поможет в дальнейшем развитии технологий.
У меня есть знакомый, который занимается разработкой ИИ. Уверена, что такие исследования вдохновят его на новые идеи.
Очень жаль, что ИИ пока не может заменить человеческую интуицию и понимание. Надеюсь на дальнейшие исследования в этой области!