ВТБ-инструкции » Часто задаваемые вопросы ВТБ Онлайн » Новый метод сжимает терабайты геномных данных в гигабайты

Новый метод сжимает терабайты геномных данных в гигабайты

15 январь, 2025 0

Раньше исследователи геномики могли хранить свои наборы данных на ноутбуке, но теперь, когда для изучения доступно так много целых геномов, полученные большие наборы данных приходится хранить в облаке, что приводит к более дорогим, медленным и громоздким вычислениям.



Новый метод, разработанный в Корнелле, предоставляет инструменты и методологии для сжатия сотен терабайт геномных данных до гигабайт, что снова позволяет исследователям хранить наборы данных на локальных компьютерах. Их статья «Возможность эффективного анализа данных в масштабе биобанка с помощью графов представления генотипов» опубликована 5 декабря в Nature Computational Science .


«Еще несколько лет назад данные, которые мы изучали, обычно не были данными полного секвенирования генома, что означало, что измерялась лишь небольшая часть генома, а не весь геном . И благодаря этому объем данных не был таким уж сумасшедшим», — сказала Эйприл Вэй, доцент кафедры вычислительной биологии в Колледже искусств и наук.


По словам соавтора Дрю ДеХааса, программиста по вычислительной генетике в Колледже сельского хозяйства и наук о жизни, объем необработанных данных теперь может достигать петабайтов.


Вэй всегда хотела разработать методы использования данных масштаба биобанка для проведения исследований из-за богатства доступной информации, но многое из того, что она хотела сделать, было невозможно из-за вычислительных затрат и сложности. Это вдохновило ее, по ее словам, заняться проблемой сжатия, что привело к методу Genotype Representation Graph (GRG), который использует графы для управления данными.


«Графические методы давно используются в компьютерной науке и других областях для предоставления четкой структуры для решения сложных задач», — сказал ДеХаас, но до появления GRG они не применялись для решения проблемы сжатия данных в геномике в масштабах Биобанка.



Вэй, получивший образование популяционного генетика, был хорошо знаком с графиками, используемыми в популяционной генетике , хотя GRG устроен совершенно иначе.


«В отличие от традиционных представлений на основе матриц, GRG представляет генотипы в виде графа, где связи между особями фиксируются посредством общих мутаций в их геномах. Структура данных GRG не только кодирует генотипическую информацию более интуитивно и компактно, но и облегчает эффективные вычисления на основе графов для расширенного анализа», — сказал соавтор Цзыцин Пань, докторант в области вычислительной биологии.


По словам Вэя, GRG сжимает данные, уделяя особое внимание масштабируемости и точному представлению данных.


«Большое преимущество использования графов для сжатия заключается в том, что мы можем выполнять вычисления с графами, без необходимости распаковывать данные», — сказала она. «Кроме того, можно разработать специальные алгоритмы для выполнения действий, которые люди не могли выполнять со старыми форматами, так что потенциально преимуществ больше».


Поскольку GRG позволяет исследователям более эффективно анализировать те же данные, это также снижает затраты.

Также читают:
  • Открытие MASH переопределяет подтипы с различными рисками: результаты могут определить будущее лечения жировой болезни печени
  • Используя технику секвенирования отдельных клеток, бразильские исследователи создали первый атлас клеток фокальной кортикальной дисплазии (ФКД), порока развития коры головного мозга, который приводит к лекарственно-устойчивой эпилепсии. Эти случаи на
  • Исследование раскрывает психологические профили, связанные с психическим и мозговым здоровьем у людей среднего и пожилого возраста
  • MouseGoggles предлагает захватывающий взгляд на нейронную активность
  • Новые горизонты развития в строительном бизнесе
  • Поделиться:

    Задать вопрос
    Подтвердите, что вы не робот:*