Группа исследователей-медиков из Школы медицины и стоматологии имени Шулиха Западного университета обнаружила, что, несмотря на обучение на терабайтах данных, LLM ChatGPT по-прежнему не очень хорош в диагностике человеческих недугов. В своем исследовании, опубликованном на сайте открытого доступа PLOS ONE , группа обучила популярного LLM на 150 тематических исследованиях и побудила его поставить диагноз.

Предыдущие исследования и отдельные свидетельства показали, что LLM, такие как ChatGPT, могут давать впечатляющие результаты по некоторым подсказкам, например, написать любовное стихотворение для девушки, но они также могут возвращать неправильные или странные ответы. Многие в этой области предлагали проявлять осторожность при использовании результатов, полученных LLM, для важных тем, таких как советы по здоровью.

Для этого нового исследования команда в Канаде оценила, насколько хорошо ChatGPT будет диагностировать человеческие заболевания, если ему будут предоставлены симптомы реальных пациентов, описанные в реальных исследованиях случаев. Они выбрали 150 исследований случаев из Medscape, онлайн-сайта, созданного и используемого медицинскими специалистами в информационных и образовательных целях, которые сопровождались известным точным диагнозом . Они обучили ChatGPT 3.5 соответствующим данным, таким как история болезни пациента, результаты лабораторных исследований и результаты осмотра в офисе, а затем запросили у него диагноз и/или план лечения.

После того, как LLM вернул ответ, исследовательская группа оценила его результаты на основе того, насколько близко он подошел к правильному диагнозу. Они также оценили его на основе того, насколько хорошо он изложил обоснование своего диагноза, включая предоставление цитат — важной части медицинской диагностики. Затем они усреднили баллы, полученные за все исследования случаев , и обнаружили, что LLM дал правильный диагноз всего в 49% случаев.

Исследователи отмечают, что хотя LLM набрал низкие баллы, он хорошо описал, как он пришел к своему диагнозу — характеристика, которая, по мнению команды, может оказаться полезной для студентов-медиков . Они также отметили, что LLM достаточно хорош в исключении возможных заболеваний. Они делают вывод, предполагая, что LLM еще не готовы к использованию в диагностических целях.