Дом аудио Почему hadoop идеально подходит для секвенирования генома

Почему hadoop идеально подходит для секвенирования генома

Оглавление:

Anonim

Клиническая геномика - это увлекательный предмет, где люди работают над передовыми технологиями для быстрой и точной обработки результатов. На рынке доступно много секвенаторов генома, и они производят петабайты данных о последовательностях, и в ближайшем будущем рост секвенирования приведет к эксабайтам данных. Здесь Hadoop является идеальной платформой для обработки сложных рабочих процессов геномики. Hadoop может хранить и сортировать огромные объемы информации, а также проводить содержательный анализ. (Чтобы получить представление о том, сколько данных в действительности это влечет за собой, прочтите «Понимание битов, байтов и их кратных значений».)

Настоящее и будущее геномики

Сегодня картирование генома достигло своего пика развития. Многие люди, связанные с индустрией геномики, разрываются от любопытства, и по мере того, как открываются новые возможности, лучшая технология - это необходимость часа. Секвенирование генома является очень повторяющейся и ресурсоемкой задачей. Только в 2013 году было получено около 15 петабайт данных, и только 2000 секвенсоров. Это потрясающее количество включало 300 КБ секвенированных данных генома человека. При такой скорости производства данных можно предположить, что к 2018 году будет произведено около одного эксабайта данных. Это будет связано с ростом количества секвенсоров, которые будут генерировать все больше и больше данных за цикл. Другая причина - появление чрезвычайно мощных и недорогих секвенаторов для генома. С 2008 года цена на эти машины неуклонно снижается. Это из-за мощных машин следующего поколения, которые вышли на рынок.

Потребности индустрии картирования генома

Сложные алгоритмы используются для обработки данных, которые собираются из генома человека. Затем эта информация должна быть сохранена. Это может быть рассмотрено в будущем для сравнения с исходными данными. Задача обработки и хранения 100 ГБ данных не слишком сложна, особенно если вы выполняете ее на мощных машинах, используемых в центрах секвенирования. Исследования показывают, что этот объем данных может быть обработан всего за 1000 часов ЦП, так что это очень просто. При таком уровне технического прогресса становится очевидным, что индустрия генома скоро обработает тысячи гигабайт всего за несколько секунд.

Почему hadoop идеально подходит для секвенирования генома