Раньше исследователи геномики могли хранить свои наборы данных на ноутбуке, но теперь, когда для изучения доступно так много целых геномов, полученные большие наборы данных приходится хранить в облаке, что приводит к более дорогим, медленным и громоздким вычислениям.
Новый метод, разработанный в Корнелле, предоставляет инструменты и методологии для сжатия сотен терабайт геномных данных до гигабайт, что снова позволяет исследователям хранить наборы данных на локальных компьютерах. Их статья «Возможность эффективного анализа данных в масштабе биобанка с помощью графов представления генотипов» опубликована 5 декабря в Nature Computational Science .
«Еще несколько лет назад данные, которые мы изучали, обычно не были данными полного секвенирования генома, что означало, что измерялась лишь небольшая часть генома, а не весь геном . И благодаря этому объем данных не был таким уж сумасшедшим», — сказала Эйприл Вэй, доцент кафедры вычислительной биологии в Колледже искусств и наук.
По словам соавтора Дрю ДеХааса, программиста по вычислительной генетике в Колледже сельского хозяйства и наук о жизни, объем необработанных данных теперь может достигать петабайтов.
Вэй всегда хотела разработать методы использования данных масштаба биобанка для проведения исследований из-за богатства доступной информации, но многое из того, что она хотела сделать, было невозможно из-за вычислительных затрат и сложности. Это вдохновило ее, по ее словам, заняться проблемой сжатия, что привело к методу Genotype Representation Graph (GRG), который использует графы для управления данными.
«Графические методы давно используются в компьютерной науке и других областях для предоставления четкой структуры для решения сложных задач», — сказал ДеХаас, но до появления GRG они не применялись для решения проблемы сжатия данных в геномике в масштабах Биобанка.
Вэй, получивший образование популяционного генетика, был хорошо знаком с графиками, используемыми в популяционной генетике , хотя GRG устроен совершенно иначе.
«В отличие от традиционных представлений на основе матриц, GRG представляет генотипы в виде графа, где связи между особями фиксируются посредством общих мутаций в их геномах. Структура данных GRG не только кодирует генотипическую информацию более интуитивно и компактно, но и облегчает эффективные вычисления на основе графов для расширенного анализа», — сказал соавтор Цзыцин Пань, докторант в области вычислительной биологии.
По словам Вэя, GRG сжимает данные, уделяя особое внимание масштабируемости и точному представлению данных.
«Большое преимущество использования графов для сжатия заключается в том, что мы можем выполнять вычисления с графами, без необходимости распаковывать данные», — сказала она. «Кроме того, можно разработать специальные алгоритмы для выполнения действий, которые люди не могли выполнять со старыми форматами, так что потенциально преимуществ больше».
Поскольку GRG позволяет исследователям более эффективно анализировать те же данные, это также снижает затраты.


















Очень интересно! Как думаете, насколько сильно этот метод повлияет на доступность геномных данных для исследователей?
Благодарю за статью! У меня есть вопрос: какие конкретно технологии используются для сжатия данных?
Удивительно, как технологии развиваются! Вспоминаю, как мы хранили данные на дискетах. Время летит!
Спасибо за подробное объяснение! Это действительно важная тема для будущего медицины и генетики.
Здорово, что нашли решение для хранения больших объемов данных. Интересно, как это повлияет на скорость исследований.
Я работаю в области генетики, и для нас это очень актуально. Спасибо за информацию!
Сжатие данных – отличное решение! Надеюсь, что это также снизит затраты на исследования.
Потрясающе, как прогресс в технологиях помогает науке. Есть ли уже примеры успешного применения этого метода?
У меня есть опыт работы с большими данными, и могу сказать, что сжатие – это не только экономия, но и ускорение обработки.
Спасибо за статью! Надеюсь, что эти новые методы также сделают геномные исследования более доступными для студентов.
Здорово, что наука движется вперед! Интересно, как этот метод повлияет на диагностику заболеваний.
Отличная информация! Хотелось бы узнать больше о практическом применении таких технологий в клинической практике.
Удивительно, как ускоряются процессы в геномике! Надеюсь, что это приведет к новым открытиям.
Благодарю за полезную статью! Это точно поможет многим ученым в нашей области.
Сжатие данных – важный шаг. Но не приведет ли это к потере информации? Как это контролируется?
Интересно, какие последствия это может иметь для этики в геномных исследованиях? Есть ли у вас мнения на этот счет?
Спасибо за интересную информацию! Буду следить за развитием технологий в этой области.