Frank Niedercorn
Face à l'accumulation des données numériques, les techniques de stockage atteignent leurs limites. Les espoirs se tournent vers l'archivage sur ADN, avec de premières applications qui verront le jour dans moins de dix ans.
C'est un petit cylindre en métal d'à peine un centimètre de long. A l'intérieur, sur un fragment d'ADN soigneusement protégé de l'air ambiant et de la lumière, on a enregistré… 100 milliards de copies de la Déclaration des droits de l'homme et du citoyen de 1789. Cette première mondiale a été réalisée en juin dernier par la start-up Biomemory en partenariat avec la Bibliothèque nationale de France. L'objectif était de montrer tout le potentiel du stockage numérique sur ADN. Cette technologie très récente, démontrée en laboratoire en 2012 aux Etats-Unis, fait désormais figure de solution providentielle.
Car sous l'effet de notre appétit insatiable pour le numérique, la quantité de données créées par l'humanité double tous les deux ou trois ans. On ne cesse de construire de nouveaux data centers qui consomment parfois autant d'électricité qu'une grande ville. Nos technologies actuelles, trop consommatrices d'espaces, trop voraces en énergie et en ressources rares comme le silicium, sont condamnées, et nous avec.
En mai 2022, la France s'est lancée dans la course avec MoleculArXiv, un programme et équipement prioritaire de recherche (PEPR) de sept ans doté de 20 millions d'euros. Piloté par le CNRS, il associe une vingtaine de laboratoires mais aussi de futurs utilisateurs comme l'INA (voir ci-dessous) ou la BNF. Aux Etats-Unis, deux programmes de recherche, Mist et SemiSynBio, sont financés par des agences publiques, la Darpa (défense) et Iarpa (renseignement) à hauteur de 150 millions de dollars. C'est sans compter les investissements réalisés par les entreprises privées, au premier rang desquelles Microsoft qui, avec Western Digital, Twist Bioscience et Illumina, a créé la DNA Data Storage Alliance.
Face aux limites des technologies actuelles, la nature est une incroyable source d'inspiration. L'ADN (acide désoxyribonucléique), support de notre patrimoine génétique, stocke ainsi l'information avec une densité dix millions de fois supérieure à celle de nos disques durs. « On peut imaginer stocker toutes les données d'un centre de données dans un seul gramme d'ADN », assure Marc Antonini, directeur de recherche au CNRS et coordinateur de MoleculArXiv. Quant à l'ensemble des données numériques de l'humanité, elle tiendrait dans les quelques mètres cubes d'une fourgonnette. De plus, alors que les supports actuels, mémoires, disques durs ou bandes magnétiques, ont une durée de vie d'une décennie, la longévité de l'ADN se compte en milliers d'années et se conserve à température ambiante, donc sans apport d'énergie.
Coder, écrire, lire et décoder
Stocker de l'information numérique sur de l'ADN passe par quatre étapes : coder, écrire, lire et enfin décoder. Pour le codage et le décodage, les informaticiens doivent passer du langage binaire utilisé au langage quaternaire utilisant l'alphabet à quatre lettres (A, T, C et G) de l'ADN. Pour l'écriture et la lecture, bienvenue dans la chimie et la biologie. « L'étape de l'écriture consiste à synthétiser de l'ADN en attachant un à un les nucléotides A, C, T et G dans le bon ordre, un peu comme on enfile des perles sur un collier. Pour la lecture, c'est l'opération inverse que permet le séquençage », résume François Képès, biologiste et coauteur d'un rapport de l'Académie des technologies sur le sujet.
Pour transformer les promesses en réalité, il faut désormais passer du laboratoire à l'échelle industrielle. Le défi numéro un reste celui de la vitesse de synthèse chimique de l'ADN. C'est le principal goulet d'étranglement du stockage sur ADN. « Notre objectif est de produire un bit par seconde d'ici à trois ans, soit 100 fois plus vite qu'aujourd'hui. Pour aller au-delà, il faudra travailler en parallèle sur des puces électroniques. On peut espérer aller à 1 mégabit par seconde, ce qui reste inférieur à la vitesse d'écriture sur un disque dur mais commence à être intéressant », explique Marc Antonini. L'objectif de MoleculArXiv est de pousser les travaux sur une approche plus performante : la chimie enzymatique. D'autres chercheurs travaillent sur la synthèse biologique.
Données patrimoniales
« Avec le stockage sur ADN, on est à la frontière de plusieurs domaines et l'un des enjeux est de savoir faire travailler ensemble des scientifiques venant à la fois des sciences de l'information, de la biologie et de la chimie, car toutes les recherches sont liées », résume Marc Antonini. Ainsi, on compte sur les informaticiens pour prendre en compte les insuffisances de la synthèse chimique à l'origine d'erreurs lors de la production de l'ADN. « L'un des défis du codage consiste à anticiper ces erreurs en proposant des codes correcteurs. Il faut aussi trouver des solutions de nettoyage des données à l'issue du séquençage, c'est-à-dire de la lecture », précise Marc Antonini. Autre défi, celui du décodage et de « l'adressage », autrement dit de l'accès à ces données une fois stockées. « Pour retrouver une donnée dans ce qui s'apparente à une soupe de brins d'ADN, il n'est pas question de procéder au séquençage de tout un centre de données. Il faudra donc dès la phase d'écriture inscrire sur les brins d'ADN des métadonnées pour s'y retrouver », insiste Marc Antonini.
Très futuriste il y a encore quelques années, le stockage sur ADN pourrait déboucher rapidement. « D'ici trois à huit ans, on devrait voir de premières applications pour des données patrimoniales auxquelles on n'a pas besoin d'accéder souvent mais qui doivent être conservées en sécurité. D'où l'intérêt de parler d'archivage de données plutôt que de stockage », insiste François Képes.
Le programme MoleculArXiv fait aussi une belle place à une approche alternative et encore plus récente, et cette fois-ci française puisque inventée par l'équipe de Jean-François Lutz à l'Institut Charles Sadron à l'université de Strasbourg : le stockage sur polymères synthétiques non-ADN. « Ce sera peut-être la technologie d'après l'ADN qui permettra des temps de conservation encore plus long. Imaginons que nous ayons besoin d'envoyer aux confins de l'univers une sonde porteuse d'informations sur notre civilisation. Elles pourraient être enregistrées sur des polymères synthétiques », prédit Jean-François Lutz.
En chiffres
120 zettaoctets, c'est la masse de données numériques créée par l'humanité qui double tous les deux à trois ans. Cela représente une quantité d'octets supérieure au nombre estimé de grains de sable sur la Terre ou au nombre d'étoiles dans l'univers observable.
5.000 Zo de données seront stockées sur Terre en 2040 si la croissance se poursuit à ce rythme.
400 heuresde vidéos supplémentaires (200 Go) sont stockées toutes les minutes.
De 1 % à 2 % de l'électricité mondiale serait consommée par les data centers, qui hébergent 40 % des données de l'humanité et dont le coût de construction et d'exploitation est de l'ordre de mille milliards d'euros (source Académie des technologies).
Les millions d'heures de la télé archivées
24 millions d'heures de documents télé et radio. C'est le trésor de l'Institut national de l'audiovisuel, essentiellement conservé sous forme de films vidéo. Il devrait s'enrichir de 15 millions d'heures dans la décennie à venir, notamment à cause de l'archivage du Web. Ce patrimoine est aujourd'hui sauvegardé sur des bandes magnétiques stockées dans des automates. Une technologie utilisée dans tous les data centers, qui permet à l'INA d'accéder à ses archives audiovisuelles en moins de 3 minutes. Les bandes magnétiques servant aussi de copie de sécurité. « Notre objectif est que ce patrimoine puisse un jour être dupliqué sur ADN comme dans un coffre-fort. C'est tout l'enjeu de notre participation à MoleculArXiv afin de voir quels seront les progrès réalisés en matière de stockage sur ADN et notamment sur la vitesse d'écriture. Cela ne remet pas en cause notre stockage sur bande qui permet, lui, un accès de qualité dans un délai court », résume Alann Hery, responsable du département des technologies à l'INA.
Comentarios