1. Главная /
  2. Наука /
  3. Хранить данные... В ДНК?

Хранить данные... В ДНК?

Наука | 9 сентября 2019

DAVID PARKER/SCIENCE PHOTO LIBRARY/GETTY IMAGES

Переводчик: Максим Иванников

Редактор: Вероника Рис

Источник: https://www.wired.com/story/the-rise-of-dna-data-storage/

144 слова оригинального стихотворения Роберта Фроста «Нехоженая дорога» аккуратно помещаются на одной печатной странице. Или в файле размером в один килобайт. Или в руках Хёджуна Пака, внутри нескольких капель воды на дне розовой трубки Эппендорфа. А на самом деле в том, что там растворено, — в невидимых плавающих нитях ДНК.

Ученые уже давно расхваливали потенциал ДНК как идеальной среды хранения, ведь она компактная, легко расширяется и стабильна в течение тысячелетий. И в последние несколько лет исследователи закодировали всевозможные вещи в этих «строках» As, Ts, Cs и Gs: «Войну и мир», «Smoke on the Water» группы Deep Purple, гифки со скачущими лошадьми. Но для того, чтобы заменить существующие технологии хранения на основе кремниевых чипов или магнитных лент, ДНК придется стать значительно более предсказуемой в чтении, записи и «упаковке» данных.

Здесь учёные вроде Пака приходят на помощь. Он и другие соучредители Catalog, дочернего проекта МИТ для хранения ДНК, прошли долгий путь с тех пор, как полтора года назад вручную кодировали свой первый поэтический килобайт. Сейчас они строят машину, которая будет записывать терабайт данных в день, используя 500 триллионов молекул ДНК. Они планируют запустить сервисы хранения данных промышленного масштаба для ИТ-компаний, индустрии развлечений и федерального правительства в течение следующих нескольких лет, присоединившись к нескольким гораздо более крупным технологическим компаниям, таким как Microsoft, Intel и Micron, которые финансируют свои собственные проекты хранения ДНК.

В случае успеха хранение ДНК может стать ответом на уникальную проблему 21-го века — информационную перегрузку. Пять лет назад люди произвели 4,4 зетабайт данных; этот объем должен вырасти до 160 зетабайт (каждый год!) к 2025 году. Современная инфраструктура может справиться только с небольшой частью предстоящего потока данных, который, как ожидается, к 2040 году потребит весь кремний «микрочипового» качества.

Большинство цифровых архивов — от музыки до спутниковых изображений и исследовательских файлов — в настоящее время хранятся на магнитных лентах. Ленты дешевые. Но они занимают много места. И их нужно заменять примерно каждые 10 лет. «Современные технологии уже близки к физическим пределам масштабирования», — говорит Виктор Жирнов, главный научный сотрудник Semiconductor Research Corporation. «ДНК имеет плотность хранения информации на несколько порядков выше, чем любая другая известная технология хранения».

Насколько плотно? Представьте себе, что форматирование каждого когда-либо сделанного фильма внутри ДНК будет меньше размером, чем кубик кускового сахара. А храниться будет тысячу лет.

Проблема, конечно, в стоимости. В последние несколько лет секвенирование (то есть чтение) ДНК стало намного дешевле. Но экономика «записи» ДНК остается проблематичной, если она станет стандартной технологией архивирования. Компании по синтезу ДНК, такие как Twist Bioscience, берут от 7 до 9 центов за единицу данных. Это означает, что одну минуту высококачественного стереозвука можно сохранить «всего» за… 100 000 долларов.

В Catalog считают, что могут изменить эти пиковые цены, отделив процесс написания ДНК от процесса ее кодирования. Традиционные методы отображают последовательность битов — нулей и единиц — как последовательность четырех пар оснований ДНК. В 2016 году, когда Microsoft установила рекорд, сохранив 200 мегабайт данных в цепочках нуклеотидов, компания использовала 13 448 372 уникальных фрагментов ДНК. Вместо этого Catalog дешево генерирует большие количества всего лишь нескольких мало различающихся молекул ДНК, длиной не более 30 пар оснований. Затем он использует миллиарды ферментативных реакций для кодирования информации в рекомбинирующиеся паттерны этих сборных фрагментов ДНК. Вместо сопоставления одного бита одной базовой паре, биты располагаются в многомерных матрицах, а наборы молекул отображают свои местоположения в каждой матрице.

«Если рассматривать информацию как книгу, вы можете записать эту информацию, переписав от руки», — говорит Пак. Но вместо того, чтобы переписывать букву за буквой, Catalog фактически создает печатный станок, где каждый шрифт представлен небольшой молекулой ДНК. «Переставляя эти готовые молекулы по-разному, мы можем организовать все эти разные слова в первоначальном порядке книги».

Девин Лик, который недавно покинул пост главы отдела синтеза ДНК в Ginkgo Bioworks, чтобы стать главным научным сотрудником Catalog, говорит, что этот подход должен привести к тому, что компания приблизится к расходам, конкурентоспособным, в сравнении с хранением на магнитной ленте, в течение нескольких лет после того, как она увеличит уровень автоматизации. Жирнов говорит, что это возможно при «библиотечном подходе» Catalog, потому что ему не нужно будет синтезировать новую ДНК для каждого нового фрагмента хранимой информации; вместо этого компания может просто «сделать ремикс» на свои предварительно изготовленные молекулы ДНК.

Если Catalog достигнет такой экономии за счет масштаба, он сможет выйти за рамки того, что большинство людей определили как раннее применение технологии, а именно — хранить данные, которые должны быть заархивированы по юридическим или нормативным причинам, например, редко используемые видео-наблюдения, медицинские записи или исторические правительственные документы. По словам Лик и Парк, компания запустит коммерческие пилотные проекты в начале следующего года, сосредоточив внимание на разведывательных или космических агентствах в рамках федерального правительства, а также в сфере информационных технологий и Голливуда.

Хранение молекулярных данных стало чем-то вроде любимого проекта для Агентства перспективных исследовательских проектов в области обороны. В прошлом году они выделили гранты на 15,3 миллионов долларов для открытия новых биохимических способов хранения бинарных файлов. И крупные технологические компании также начали запускать свои пробные проекты. Microsoft планирует иметь действующий прототип системы хранения на основе ДНК, работающий в одном из своих центров обработки данных, к 2020 году.

По словам Дага Кармеана, приглашённого в Microsoft Research инженера, изначально он будет предлагаться дорогим клиентам с потребностью в данных в диапазоне от гигабайта до петабайта. Однако долгосрочная цель гораздо более амбициозна. «Мы собираемся полностью заменить ленточные накопители в качестве архивного хранилища, — говорит Кармеан. Вызывая огромные волны интереса к потребительской генетике и синтетической биологии, он считает, что это может произойти скорее раньше, чем позже. — Поскольку люди получают более широкий доступ к своей собственной ДНК, почему бы не дать им возможность читать ЛЮБЫЕ данные, записанные в ДНК?» Хранение данных может оказаться современной проблемой, требующей решения 3,8-миллиардолетней давности!