BioChatter: обеспечение доступности больших языковых моделей для биомедицинских исследований
Большие языковые модели (LLM) изменили то, как многие из нас работают, от поддержки создания контента и кодирования до улучшения поисковых систем. Однако отсутствие прозрачности, воспроизводимости и настройки LLM остается проблемой, которая ограничивает их широкое использование в биомедицинских исследованиях.
Для биомедицинских исследователей оптимизация LLM для конкретного исследовательского вопроса может быть сложной, поскольку она требует навыков программирования и опыта в машинном обучении. Такие барьеры снизили принятие LLM для многих исследовательских задач, включая извлечение и анализ данных.
Публикация в Nature Biotechnology представляет BioChatter , помогающий преодолеть эти ограничения. BioChatter — это фреймворк Python с открытым исходным кодом для развертывания LLM в биомедицинских исследованиях в соответствии с принципами открытой науки.
Для решения проблем конфиденциальности и воспроизводимости, часто связанных с коммерческими LLM-степенями, BioChatter предлагает структуру для исследователей, стремящихся к прозрачности и гибкости в своих рабочих процессах LLM.
«Большие языковые модели обладают огромным потенциалом для трансформации биомедицинских исследований, делая сложные задачи обработки данных и анализа более доступными», — сказал Хулио Саес-Родригес, руководитель исследований Европейского института биоинформатики EMBL (EMBL-EBI) и профессор Гейдельбергского университета, находящийся в отпуске.
«Однако, чтобы максимально эффективно использовать эту технологию для биомедицинских исследований, нам нужны инструменты, которые ставят во главу угла прозрачность и воспроизводимость. BioChatter устраняет этот пробел, позволяя исследователям интегрировать возможности LLM во многие задачи биомедицинских исследований».
Взаимодействие с графами и программным обеспечением биомедицинских знаний
BioChatter можно адаптировать к конкретным областям исследований для извлечения данных из биомедицинских баз данных и литературы. Кроме того, указание LLM использовать внешнее программное обеспечение с помощью функциональности API-вызовов BioChatter обеспечивает доступ в режиме реального времени к актуальной информации и интеграцию с инструментами биоинформатики.
Ключевой особенностью BioChatter является его способность интегрироваться с графами знаний, созданными BioCypher, — сетями, которые связывают биомедицинские данные, такие как генетические мутации , ассоциации лекарств и болезней и другую клиническую информацию. Эти графы помогают исследователям анализировать сложные наборы данных, чтобы помочь идентифицировать генетические вариации в болезнях или понять механизмы действия лекарств.
«BioChatter призван снизить барьеры для исследователей в области биомедицины, использующих большие языковые модели , предоставляя открытую, прозрачную структуру, которую можно адаптировать к различным исследовательским потребностям», — сказал Себастьян Лобентанцер, научный сотрудник-постдокторант в университетской клинике Гейдельберга и будущий главный исследователь в Университете Гельмгольца в Мюнхене.
«Наша цель — помочь ученым сосредоточиться на своих исследованиях, оставив технические сложности на долю платформы».
Реальные приложения
Следующим шагом для BioChatter станет тестирование его интеграции в базы данных по наукам о жизни. Команда BioChatter тесно сотрудничает с Open Targets, государственно-частным партнерством, включающим EMBL-EBI и использующим данные генетики и геномики человека для систематической идентификации и приоритизации лекарственных препаратов.
Интеграция BioChatter в платформу Open Targets может помочь оптимизировать доступ пользователей к биомедицинским данным и их использование на платформе.
Команда также разрабатывает BioGather — дополнительную систему, предназначенную для извлечения информации из других типов клинических данных, включая геномику, медицинские заметки и изображения.
Помогая анализировать и согласовывать эти типы данных, BioGather поможет исследователям решать сложные проблемы в области персонализированной медицины, моделирования заболеваний и разработки лекарственных препаратов.