Сейчас на Земле около 10 триллионов гигабайт цифровых данных, и каждый день люди создают электронные письма, фотографии, твиты и другие цифровые файлы, которые в сумме составляют еще 2,5 миллиона гигабайт данных. Большая часть этих данных хранится в огромных объектах, известных как эксабайтные центры обработки данных (эксабайт составляет 1 миллиард гигабайт), которые могут быть размером с несколько футбольных полей и стоить около 1 миллиарда долларов на строительство и обслуживание.
Нужны новые технологические решения для хранения данных
Многие ученые считают, что альтернативное решение заключается в молекуле, которая содержит нашу генетическую информацию: ДНК, которая эволюционировала для хранения огромных объемов информации с очень высокой плотностью. По словам Марка Бата, профессора биологической инженерии Массачусетского технологического института, в кофейной кружке, полной ДНК, теоретически могут храниться все данные мира.
«Нам нужны новые решения для хранения огромных объемов данных, которые накапливаются в мире, особенно архивных данных», — говорит Бат, который также является ассоциированным членом Broad Institute of MIT и Гарвард. «ДНК в тысячу раз плотнее, чем даже флеш-память, и еще одно интересное свойство состоит в том, что, как только вы создаете полимер ДНК, он не потребляет никакой энергии. Вы можете записать ДНК, а затем хранить ее вечно».
Ученые уже продемонстрировали, что они могут кодировать изображения и страницы текста как ДНК. Однако также потребуется простой способ выбрать нужный файл из множества фрагментов ДНК. Батх и его коллеги продемонстрировали один способ сделать это, заключив каждый файл данных в 6-микрометровую частицу кремнезема, которая помечена короткими последовательностями ДНК, раскрывающими содержимое.
Используя этот подход, исследователи продемонстрировали, что они могут точно извлекать отдельные изображения, хранящиеся в виде последовательностей ДНК, из набора из 20 изображений. Учитывая количество возможных меток, которые можно использовать, этот подход позволяет масштабировать до 1020 файлов.
Батх — старший автор исследования, которое сегодня публикуется в журнале Nature Materials . Ведущими авторами статьи являются старший постдок MIT Джеймс Банал, бывший научный сотрудник MIT Тайсон Шеперд и аспирант MIT Джозеф Берлеант.
Стабильное хранение
Цифровые системы хранения кодируют текст, фотографии или любую другую информацию как последовательность нулей и единиц. Эта же информация может быть закодирована в ДНК с использованием четырех нуклеотидов, составляющих генетический код: A, T, G и C. Например, G и C могут использоваться для обозначения 0, в то время как A и T представляют 1.
ДНК имеет несколько других особенностей, которые делают ее желательной в качестве носителя информации: она чрезвычайно стабильна, ее довольно легко (но дорого) синтезировать и секвенировать. Кроме того, из-за его высокой плотности — каждый нуклеотид, эквивалентный двум битам, составляет около 1 кубического нанометра — экзабайт данных, хранящихся в виде ДНК, может уместиться на вашей ладони.
Одним из препятствий для такого типа хранения данных является стоимость синтеза таких больших объемов ДНК. В настоящее время запись одного петабайта данных (1 миллион гигабайт) будет стоить 1 триллион долларов. По оценке Бата, чтобы стать конкурентоспособным с магнитной лентой, которая часто используется для хранения архивных данных, стоимость синтеза ДНК должна снизиться примерно на шесть порядков. Бат говорит, что он ожидает, что это произойдет в течение одного-двух десятилетий, подобно тому, как стоимость хранения информации на флэш-накопителях резко упала за последние пару десятилетий.
Помимо стоимости, другим серьезным узким местом при использовании ДНК для хранения данных является сложность выбора нужного файла среди всех остальных.
«Если предположить, что технологии записи ДНК достигнут точки, когда экономически выгодно записать экзабайт или зеттабайт данных в ДНК, что тогда? У вас будет куча ДНК, которая представляет собой миллионы файлов, изображений или фильмы и другие вещи, и вам нужно найти ту картинку или фильм, который вы ищете », — говорит Бат. «Это похоже на попытку найти иголку в стоге сена».
В настоящее время файлы ДНК обычно получают с помощью ПЦР (полимеразной цепной реакции). Каждый файл данных ДНК включает последовательность, которая связывается с конкретным праймером ПЦР. Чтобы извлечь конкретный файл, этот праймер добавляется к образцу, чтобы найти и амплифицировать желаемую последовательность. Однако одним из недостатков этого подхода является то, что между праймером и последовательностями ДНК вне мишени может возникать перекрестное взаимодействие, что приводит к удалению нежелательных файлов. Кроме того, процесс получения ПЦР требует ферментов и в конечном итоге потребляет большую часть ДНК, которая была в пуле.
«Вы как бы сжигаете стог сена, чтобы найти иголку, потому что вся остальная ДНК не усиливается, и вы, по сути, выбрасываете ее», — говорит Бат.
Получение файла
В качестве альтернативного подхода команда Массачусетского технологического института разработала новую технику извлечения, которая включает в себя инкапсуляцию каждого файла ДНК в небольшую частицу кремнезема. Каждая капсула помечена одноцепочечными «штрих-кодами» ДНК, соответствующими содержимому файла. Чтобы продемонстрировать этот подход экономически эффективным способом, исследователи закодировали 20 различных изображений в фрагменты ДНК длиной около 3000 нуклеотидов, что эквивалентно примерно 100 байтам. (Они также показали, что в капсулы помещаются файлы ДНК размером до гигабайта.)
Каждый файл был помечен штрих-кодами, соответствующими таким ярлыкам, как «кошка» или «самолет». Когда исследователи хотят получить конкретное изображение, они удаляют образец ДНК и добавляют праймеры, соответствующие искомым ярлыкам, например, «кошка», «оранжевый» и «дикий» для обозначения изображение тигра, или «кота», «апельсина» и «домашнего кота» для домашней кошки.
Праймеры помечены флуоресцентными или магнитными частицами, что позволяет легко извлечь и идентифицировать любые совпадения из образца. Это позволяет удалить нужный файл, оставив остальную часть ДНК нетронутой, чтобы вернуть ее в хранилище. Их процесс поиска позволяет операторам логической логики, таким как «президент И 18 век», генерировать Джорджа Вашингтона в результате, аналогично тому, что получается при поиске изображений в Google.
«На текущем этапе проверки концепции скорость поиска составляет 1 килобайт в секунду. Скорость поиска нашей файловой системы определяется размером данных на капсулу, который в настоящее время ограничен непомерно высокой стоимостью записи даже 100 мегабайт данных о ДНК и количество сортировщиков, которые мы можем использовать параллельно. Если синтез ДНК станет достаточно дешевым, мы сможем максимально увеличить объем данных, которые мы можем хранить в одном файле с нашим подходом », — говорит Банал.
Для своих штрих-кодов исследователи использовали одноцепочечные последовательности ДНК из библиотеки из 100 000 последовательностей, каждая длиной около 25 нуклеотидов, разработанных Стивеном Элледжем, профессором генетики и медицины Гарвардской медицинской школы. Если вы поместите две из этих меток на каждый файл, вы можете однозначно пометить 1010 (10 миллиардов) различных файлов, а с четырьмя метками на каждом вы можете однозначно пометить 1020 файлов.
Бат предполагает, что этот вид инкапсуляции ДНК может быть полезен для хранения «холодных» данных, то есть данных, которые хранятся в архиве и к которым редко обращаются. Его лаборатория создает стартап Cache DNA, который сейчас разрабатывает технологию для долгосрочного хранения ДНК, как для хранения данных ДНК в долгосрочной перспективе, так и для клинических и других ранее существовавших образцов ДНК в ближайшем будущем.
«Хотя может пройти некоторое время, прежде чем ДНК станет жизнеспособной в качестве носителя данных, сегодня уже существует острая потребность в недорогих, массивных решениях для хранения уже существующих образцов ДНК и РНК, полученных в результате тестирования на Covid-19, секвенирования генома человека и др. области геномики «, — говорит Бат.

Очень интересное направление хранения любой информации. По сути это открытие в мире ДНК. Браво!