Как поддержка ИИ может давать сбои в критически важных для безопасности ситуациях
Согласно новому исследованию, когда речь идет о внедрении искусственного интеллекта в ответственных условиях, таких как больницы и самолеты, хорошей производительности ИИ и краткого обучения персонала работе с технологией недостаточно для обеспечения бесперебойной работы систем и безопасности пациентов и пассажиров.
Вместо этого, по словам исследователей, алгоритмы и люди, которые их используют в организациях, где безопасность играет важнейшую роль, должны оцениваться одновременно, чтобы получить точное представление о влиянии ИИ на принятие решений человеком.
Команда также утверждает, что эти оценки должны проанализировать, как люди реагируют на хорошую, посредственную и плохую работу технологий, чтобы подвергнуть взаимодействие ИИ и человека осмысленному испытанию и выявить уровень риска, связанного с ошибками.
В исследовании, проведенном инженерами-исследователями из Университета штата Огайо, приняли участие 450 студентов-медиков Университета штата Огайо, в основном бакалавры с разным уровнем клинической подготовки, и 12 лицензированных медсестер. Они использовали технологии искусственного интеллекта в сценарии удаленного мониторинга состояния пациентов, чтобы определить вероятность необходимости оказания неотложной помощи в различных случаях.
Результаты показали, что более точные прогнозы ИИ о том, склонен ли пациент к неотложной медицинской помощи, улучшили результаты участников на 50–60%. Однако, когда алгоритм выдавал неточный прогноз, даже при наличии пояснительных данных, не подтверждающих этот результат, эффективность человека снижалась, и при наиболее неверных результатах алгоритма принятие правильных решений снижалось более чем на 100%.
«Алгоритм ИИ никогда не может быть идеальным. Поэтому, если вам нужен алгоритм ИИ, готовый к использованию в критически важных для безопасности системах, это означает, что команда, люди и ИИ должны быть способны справиться с неэффективным алгоритмом ИИ», — сказал первый автор исследования, Дэн Мори, научный сотрудник кафедры интегрированной системной инженерии Университета штата Огайо.
«Дело не в том, что речь идёт о создании действительно качественной технологии, критически важной для безопасности. В системе, критически важной для безопасности, важны совместные возможности человека и машины».
Мори завершил исследование совместно с Майком Райо, доцентом, и Дэвидом Вудсом, почётным преподавателем кафедры интегрированной системной инженерии Университета штата Огайо. Исследование недавно было опубликовано в журнале npj Digital Medicine .
Авторы, все сотрудники Лаборатории разработки когнитивных систем под руководством Райо, в 2020 году разработали исследовательскую программу Joint Activity Testing, чтобы устранить то, что, по их мнению, является пробелом в ответственном развертывании ИИ в опасных средах, особенно в медицинских и оборонных учреждениях.
Группа также дорабатывает набор научно обоснованных руководящих принципов проектирования машин с учетом совместной деятельности, которые могут упростить процесс оценки эффективности взаимодействия искусственного интеллекта и человека и впоследствии фактически улучшить результаты работы системы.
Согласно их предварительному списку, машина в первую очередь должна донести до людей, в чем она не соответствует миру, даже если она не осознает, что она не соответствует миру.
«Даже если технология хорошо справляется с этими эвристиками, она, вероятно, ещё не полностью готова», — сказал Райо. «Нам необходимо провести эмпирическую оценку, поскольку это шаги по снижению рисков, и наши критически важные для безопасности отрасли заслуживают как минимум двух этапов — измерения эффективности взаимодействия людей и ИИ и изучения ряда сложных случаев».
Лаборатория когнитивной системной инженерии уже пять лет проводит исследования реальных технологий, чтобы разработать оптимальные методы оценки, в основном в проектах с участием 20–30 человек. Участие 462 человек в этом проекте, особенно целевой аудитории технологий на базе ИИ, чьё участие в исследовании было связано с образовательной деятельностью на основе курса, даёт исследователям высокую уверенность в своих выводах и рекомендациях, отметил Райо.
Каждый участник проанализировал последовательность из 10 случаев пациентов в различных экспериментальных условиях: без помощи ИИ, с процентным прогнозированием ИИ о необходимости неотложной помощи, с аннотациями ИИ данных, относящихся к состоянию пациента, а также с прогнозами и аннотациями ИИ.
Все примеры включали визуализацию данных, показывающую демографические данные, показатели жизнедеятельности и результаты лабораторных исследований, призванную помочь пользователям предвидеть изменения или стабилизацию состояния пациента.
Участникам было поручено сообщать о своих опасениях каждому пациенту по шкале от 0 до 10. Более высокий уровень беспокойства в отношении пациентов, нуждающихся в неотложной помощи, и более низкий уровень беспокойства в отношении пациентов, не нуждающихся в неотложной помощи, считались показателями, свидетельствующими о более высокой эффективности.
«Мы не обнаружили, что ни медсестры, ни алгоритм ИИ не превосходили друг друга во всех случаях», — пишут авторы. Анализ учитывал различия в клиническом опыте участников.
Хотя общие результаты свидетельствуют о необходимости такого типа оценки, исследователи заявили, что они удивлены тем, что объяснения, включенные в некоторые экспериментальные условия, оказали очень мало влияния на обеспокоенность участников — вместо этого рекомендации алгоритма, представленные в сплошной красной полосе, перевесили все остальное.
«Какой бы эффект эти аннотации ни имели, он был полностью подавлен присутствием этого индикатора, который затмил все остальное», — сказал Райо.
Группа рассматривала методы исследования, включая специально разработанные технологии, репрезентативные для приложений в сфере здравоохранения, которые в настоящее время используются, в качестве шаблона, определяющего, почему необходимы их рекомендации и как отрасли могут внедрить предлагаемые практики.
Данные кодирования для экспериментальных технологий находятся в открытом доступе, и Мори, Райо и Вудс более подробно рассказали о своей работе в статье, опубликованной на сайте AI-frontiers.org.
«Мы выступаем за то, чтобы помочь людям лучше понять разнообразие эффектов, которые могут возникнуть благодаря технологиям», — сказал Мори. «По сути, цель — не максимальная эффективность ИИ, а максимальная эффективность команды».