При проектировании моделей машинного обучения исследователи сначала обучают модели распознавать закономерности данных, а затем проверяют их эффективность. Но если наборы данных, используемые для обучения и тестирования, недостаточно велики, модели могут показаться менее способными, чем они есть на самом деле, сообщает новое исследование Йельского университета.

Исследователи утверждают, что модели, выявляющие закономерности между мозгом и поведением, могут иметь последствия для будущих исследований, способствовать кризису репликации, влияющему на психологические исследования, и затруднить понимание человеческого мозга.

Результаты исследования были опубликованы 31 июля в журнале Nature Human Behavior .

Исследователи все чаще используют модели машинного обучения для выявления закономерностей, связывающих структуру или функцию мозга, например, с когнитивными атрибутами, такими как внимание или симптомы депрессии. Установление этих связей позволяет исследователям лучше понять, как мозг влияет на эти атрибуты (и наоборот), и потенциально позволяет им предсказывать, кто может быть подвержен риску определенных когнитивных проблем, основываясь только на визуализации мозга.

Однако модели полезны только в том случае, если они точны для всей популяции, а не только для людей, включенных в обучающие данные .

Часто исследователи разделяют один набор данных на большую часть, на которой они обучают модель, и меньшую часть, используемую для проверки возможностей модели (поскольку сбор двух отдельных наборов данных требует больших ресурсов). Однако все больше исследований подвергают модели машинного обучения более строгому тестированию с целью оценки их обобщаемости, проверяя их на совершенно другом наборе данных, предоставленном другими исследователями.

«И это хорошо», — сказал Мэтью Розенблатт, ведущий автор исследования и аспирант лаборатории Дастина Шейноста, доцента радиологии и биомедицинской визуализации в Йельской школе медицины. «Если вы можете показать, что что-то работает в совершенно другом наборе данных, то это, вероятно, прочная связь между мозгом и поведением».

Однако добавление еще одного набора данных в смесь влечет за собой свои собственные осложнения, а именно, в отношении « мощности » исследования. Статистическая мощность — это вероятность того, что исследование обнаружит эффект, если он существует. Например, рост ребенка тесно связан с его возрастом. Если исследование достаточно мощное, то эта связь будет наблюдаться. С другой стороны, если исследование «маломощное», существует более высокий риск упустить связь между возрастом и ростом.

Есть два важных аспекта статистической мощности — размер набора данных (также известный как размер выборки) и размер эффекта. И чем меньше один из этих аспектов, тем больше должен быть другой. Связь между возрастом и ростом сильна, что означает, что размер эффекта велик; эту связь можно наблюдать даже в небольшом наборе данных. Но когда связь между двумя факторами более тонкая — например, возраст и то, насколько хорошо человек может чувствовать через осязание, — исследователям нужно будет собрать данные у большего количества людей, чтобы раскрыть эту связь.

Хотя существуют уравнения, позволяющие рассчитать, насколько большим должен быть набор данных для достижения достаточной мощности, не существует ни одного, позволяющего легко рассчитать, насколько большими должны быть два набора данных — обучающий и тестовый.

Чтобы понять, как размеры обучающих и тестовых наборов данных влияют на мощность исследования, исследователи в новом исследовании использовали данные шести исследований нейровизуализации и снова и снова перевыбирали эти данные, изменяя размеры наборов данных, чтобы увидеть, как это влияет на статистическую мощность.

«Мы показали, что статистическая мощность требует относительно больших размеров выборки как для обучающих, так и для внешних тестовых наборов данных», — сказал Розенблатт. «Когда мы посмотрели на опубликованные исследования в этой области, которые используют этот подход — тестирование моделей на втором наборе данных — мы обнаружили, что большинство их наборов данных были слишком малы, что снижало мощность их исследований».

Среди уже опубликованных исследований исследователи обнаружили, что медианные размеры обучающих и тестовых наборов данных составили 129 и 108 участников соответственно. Для мер с большими размерами эффекта, таких как возраст, эти размеры наборов данных были достаточно большими, чтобы достичь адекватной мощности. Но для мер со средними размерами эффекта, таких как рабочая память, наборы данных таких размеров давали 51% вероятности того, что исследование не обнаружит связь между структурой мозга и мерой; для мер с малыми размерами эффекта, таких как проблемы с вниманием, эти шансы возросли до 91%.

«Для этих показателей с меньшим размером эффекта исследователям могут потребоваться наборы данных, охватывающие сотни или тысячи человек», — сказал Розенблатт.

Розенблатт и его коллеги ожидают, что по мере появления новых наборов данных нейровизуализации все больше исследователей будут предпочитать тестировать свои модели на отдельных наборах данных.

«Это движение в правильном направлении», — сказал Шейност. «Особенно с учетом того, что воспроизводимость является проблемой, проверка модели на втором внешнем наборе данных — одно из решений. Но мы хотим, чтобы люди думали о размерах своих наборов данных. Исследователи должны делать то, что могут, с имеющимися у них данными, но по мере того, как становится доступно больше данных, мы все должны стремиться к внешнему тестированию и следить за тем, чтобы эти тестовые наборы данных были большими».