Тест «отравленного набора данных» показывает уязвимость LLM к медицинской дезинформации
Проведя испытания в рамках экспериментального сценария, группа медицинских исследователей и специалистов по искусственному интеллекту из центра здравоохранения имени Лангона при Нью-Йоркском университете продемонстрировала, насколько легко испортить пул данных, используемый для обучения магистров права.
Для своего исследования, опубликованного в журнале Nature Medicine , группа сгенерировала тысячи статей, содержащих дезинформацию , вставила их в набор данных для обучения ИИ и провела общие запросы LLM, чтобы увидеть, как часто появлялась дезинформация.
Предыдущие исследования и отдельные свидетельства показали, что ответы, которые дают LLM, такие как ChatGPT, не всегда верны и, по сути, иногда совершенно не соответствуют действительности. Предыдущие исследования также показали, что дезинформация, намеренно размещенная на известных интернет-сайтах, может появляться в обобщенных запросах чат-бота. В этом новом исследовании исследовательская группа хотела узнать, насколько легко или сложно для злонамеренных субъектов отравить ответы LLM.
Чтобы выяснить это, исследователи использовали ChatGPT для генерации 150 000 медицинских документов, содержащих неверные, устаревшие и недостоверные данные. Затем они добавили эти сгенерированные документы в тестовую версию набора данных для обучения медицине ИИ. Затем они обучили нескольких LLM, используя тестовую версию набора данных для обучения. Наконец, они попросили LLM сгенерировать ответы на 5400 медицинских запросов, которые затем были просмотрены экспертами-людьми, стремящимися обнаружить примеры испорченных данных.
Исследовательская группа обнаружила, что после замены всего 0,5% данных в обучающем наборе данных на испорченные документы все тестовые модели сгенерировали больше неточных с медицинской точки зрения ответов, чем до обучения на скомпрометированном наборе данных. В качестве одного из примеров они обнаружили, что все LLM сообщили, что эффективность вакцин от COVID-19 не доказана. Большинство из них также неверно определили цель нескольких распространенных лекарств.
Группа также обнаружила, что сокращение количества испорченных документов в тестовом наборе данных до 0,01% по-прежнему приводило к тому, что 10% ответов, данных LLM, содержали неверные данные (а сокращение до 0,001% по-прежнему приводило к тому, что 7% ответов были неверными), что говорит о том, что для искажения ответов, данных LLM, достаточно всего лишь нескольких таких документов, размещенных на веб-сайтах в реальном мире .
Затем команда написала алгоритм, способный идентифицировать медицинские данные в LLM, а затем использовала перекрестные ссылки для проверки данных, но они отмечают, что не существует реалистичного способа обнаружить и удалить дезинформацию из общедоступных наборов данных.