Хранение данных путем настройки ДНК

искусственный интеллект

Летом 1971 года Фрэнк Заппа играл перед переполненной публикой в ​​казино Монтрё в Швейцарии, когда фанат бросил сигнальную ракету и поджег комнату.Заппа, размахивая своей гитарой Gibson, как топором, разбил окна казино, и из своего отеля на берегу Женевского озера участники группы Deep Purple увидели пламя. Они запечатлели момент песней «Smoke on the Water», навсегда вписав его в анналы джаза Монтрё В 2013 году он также стал частью первого аудиовизуального архива в реестре ЮНЕСКО «Память мира».


Теперь «Дым над водой» снова творит историю: в сентябре этого года он был одним из первых предметов из архива «Память мира», который был сохранен в виде ДНК, а затем воспроизведен со 100-процентной точностью.The project was a joint effort between the University of Washington, Microsoft and Twist Bioscience, a San Francisco-based DNA manufacturing company.

.................... ..

Многие эксперты предсказывают, что это всего лишь вопрос времени, когда магнитная лента ДНК станет окончательным способом хранения данных.Он компактен, эффективен и надежен.В конце концов, за миллиарды лет он был преобразован в идеальное хранилище генетической информации. Он никогда не устареет, потому что пока есть жизнь на Земле, нас будет интересовать расшифровка ДНК.«Природа оптимизировала формат, — говорит технический директор Twist Bioscience Билл Пек.

Players like Microsoft, IBM and Intel are showing signs of interest. In April, they joined other industry, academic and government experts at an invitation-only workshop(совместно спонсируется Управлением перспективных исследовательских проектов разведки США (IARPA)) для обсуждения практического потенциала ДНК для решения надвигающегося кризиса хранения данных человечества.

Это большая проблема, которая становится все больше с каждой минутой. Согласно отчету IBM Marketing Cloud за 2016 год, 90 % существующих сегодня данных были созданы всего за последние два года. Каждый день мы генерируем еще 2,5 квинтиллиона (2,5 × 1018) bytes of information. It pours in from high definition video and photos, Big Data from particle physics, genomic sequencing, space probes, satellites, and remote sensing; from think tanks, covert surveillance operations, and Internet tracking algorithms.

Every day, we generate another 2.5 quintillion bytes of information.

Right now all those bits and bytes flow into gigantic server farms, onto spinning hard drives or reels of state-of-the-art magnetic tape. These physical substrates occupy a lot of space.

Сравните это с ДНК. Весь геном человека, код из трех миллиардов пар оснований ДНК, или, согласно данным, 3000 мегабайт, умещается в пакет, невидимый невооруженным глазом — ядро ​​клетки. Грамм ДНК — размер капли воды на вашем кончик пальца — может хранить как минимум 233 компьютерных жестких диска весом более 150 кг.Чтобы хранить всю генетическую информацию в человеческом теле — 150 зеттабайт — на ленте или жестких дисках, вам потребуется помещение, охватывающее тысячи, если не миллионы квадратных метров.

А еще есть долговечность. Из нынешних претендентов на хранение магнитная лента имеет лучший срок службы, примерно 10-20 лет. Жесткие диски, компакт-диски, DVD-диски и флэш-накопители менее надежны, часто выходят из строя в течение пяти-десяти лет. ДНК доказала, что оно может выжить тысячи лет невредимыми.В 2013 году, например, геном раннего родственника лошади был реконструирован из ДНК фрагмента кости возрастом 700 000 лет, найденного в вечной мерзлоте Аляски.

Таким образом, если его хранить в достаточно прохладном и сухом месте — скажем, спрятать на полке в глобальном хранилище семян на Шпицбергене недалеко от Северного полюса — архив данных ДНК может храниться в течение десятков тысяч лет без необходимости обслуживания.

Так что ДНК-копия «Smoke on the Water» прослужит долго, но как ученые вообще превратили песню в молекулу?» буквы алфавита ДНК, основания A, C, T и G — например, 00 для A, 01 для C, 10 для T и 11 для G. Затем последовательности букв были собраны в короткие фразы ДНК с добавлением индексной информации, чтобы сохранить все это в памяти. правильном порядке. Используя эти кодовые последовательности, ДНК была изготовлена ​​буква за буквой с помощью химических реакций, а затем сохранена в пробирке.

To retrieve the information, the DNA was run through a sequencing machine to read the exact order of the DNA bases. It was then decoded to produce the original binary data. Finally, the musical file was played back error-free to an audience of Montreux Jazz fans last September 29th in Lausanne, Switzerland.

«Дым над водой» — не первая цифровая информация, хранящаяся в виде ДНК.В 2012 и 2013 годах отдельные команды изHarvard, led by George Churchи Европейская молекулярная биология Лаборатория Европейского института биоинформатики(EMBL-EBI), led by Ewan Birney and Nick Goldman, независимо хранящие цифровые данные в ДНК. Образец из Гарварда содержал черновик из 50 000 слов. книга по синтетической биологии.Европейский образец содержал цветное изображение, 154 сонета Шекспира, отрывок из речи Мартина Лютера Кинга «У меня есть мечта» и классическую статью 1953 года о структуре ДНК Уотсона и Крика.

После этих двух основополагающих исследований стоимость значительно снизилась, особенно для секвенирования ДНК. Синтезу еще предстоит наверстать упущенное. Прямо сейчас синтез ДНК стоит 10 центов за букву (3, если вы покупаете оптом). Бионаука Генеральный директор Эмили ЛеПруст считает, что она должна упасть до 0,001 цента за букву, прежде чем ДНК сможет реально конкурировать с магнитной лентой для долговременного хранения.Большое вливание наличных денег и прибыльные перспективы рынка могут дать необходимый импульс.

The second barrier is technical: DNA synthesis and sequencing techniques can each introduce certain types of errors, and the code that translates the 1s and 0s into DNA letters needs to be crafted so as to eliminate these.

Ученые-компьютерщики поняли это и присоединились к драке.На ежегодном международном симпозиуме IEEE по теории информации (крупное собрание программистов) теперь есть сессия, специально посвященная кодированию для хранения ДНК.

In April 2016, a team of researchers at Microsoft and the University of Washington stored a record 200 megabytes of data- музыка Видео Группы ОК, Универсальная декларация о правах человека в более чем 100 языках, топ-100 книги проекта Гутенберг и база данных семян культуры окружающей среды - на ДНК, синтезированном при повороте биокаука.Their encoding approach employed common error correction schemes used in computing. They also devised a way to identify and sequence specific pieces of information without the having to sequence the entire record.

«Мы используем то, что знаем из компьютеров — как исправлять ошибки памяти — и применяем это к природе», — сказал профессор Вашингтонского университета Луис Сезе.

In March 2017, Yaniv Erlich from Columbia University and Dina Zielinski from the New York Genome Centre coded six data files data using a new algorithmтот смог кодировать значительно больше данных на нуклеотид, чем предыдущие методы, и по-прежнему возвращал исходные файлы со 100% точностью. Их метод «Фонтан ДНК» адаптировал алгоритм потокового видео на смартфонах и привел к рекордные 215 петабайт (215 миллионов гигабайт) на грамм ДНК.При такой плотности все данные, когда-либо записанные людьми, поместились бы в контейнере размером с два пикапа.

nearly half of all films made before 1951 have been lost because they were stored on celluloid.

Because writing and reading DNA is still relatively slow, early applications will be archival. But there are plenty of candidates for that, including scientific Big Data, legal and regulatory records, and archives like the UNESCO Memory of the World. Microsoft Research says it is planning to build a proto-commercial DNA storage system within three years. Technicolor, глобальный медиа- и развлекательная технологическая компания финансирует исследования группы Черча в Гарварде с целью архивирования; почти половина всех фильмов, снятых до 1951 года, были утеряны, потому что они хранились на целлулоиде.

Нетрудно представить универсальные системы данных ДНК, в которых двоичные данные вводятся с одного конца, синтезируются в ДНК и сохраняются, затем извлекаются, секвенируются и снова отправляются на другой конец в виде двоичных данных. «Мы работаем над архитектурой которые объединяют синтезатор, настоящую «библиотеку» и ридер/секвенсор с целью разработки законченной системы», — говорит Цезе.

Другие исследователи находят способы сохранить стабильность ДНК как можно дольше.Роберт Грасс, ученый из лаборатории функциональных материалов ETH Zurich, работает над методом инкапсуляции ДНК в крошечные шарики кремнезема.«Подобно окаменелым костям, мы хотели защитить ДНК, несущую информацию, с помощью синтетической «ископаемой» оболочки», — говорит он. около 10 градусов.

Это возвращает нас к музыке.Хранение важных архивов, таких как «Память мира ЮНЕСКО», в формате, который можно было бы спрятать на пару тысяч лет или больше, даже если это относительно дорого в краткосрочной перспективе, звучит как хорошая идея. «Архив ЮНЕСКО представляет собой идеальный пример для проверки нашего подхода, — говорит Сезе.

.