ADN, Génétique
Le stockage in vivo consiste à convertir des données en codage binaire, issues de l’informatique, en données biologiques qui peuvent être stockées dans des cellules vivantes de n’importe quel organisme.

À l’heure où nous produisons de plus en plus de données et où se pose la question de leur stockage, les biologistes s’intéressant à ce problème se sont tournés vers l’un des « disques durs » les plus compacts qui soient : l’ADN. On appelle cela le stockage in vitro et, par la suite, le stockage in vivo.

En effet, l’ADN qui est une macromolécule présente dans toutes les cellules, contient toute l’information nécessaire au bon fonctionnement et à la reproduction de celles-ci, encodées dans ses quatre bases A, C, G et T. Sur ce principe, ne pourrait-il pas contenir des données créées par l’être humain et utilisé comme un espace de stockage in vivo ? Avec des données encodées dans les bases de l’ADN comme elles le sont sous forme de 0 et de 1 dans un ordinateur, au sein du codage binaire ?

Depuis quelques années, de nombreuses recherches se penchent sur la possibilité de stocker des données dans l’ADN. Celui peut être in vivo (stockage au sein de la cellule vivante) ou in vitro (stockage en laboratoire dans des cellules vivantes de synthèse). Cette solution technologique serait, selon ses promoteurs, une piste pour répondre aux difficultés de stockage de données qui se poseront dans quelques années.

Les données numériques … place de stockage urgemment recherchée !

La quantité mondiale de données numériques explose

La quantité mondiale de données numériques était estimée en 2018 à 33 zettaoctets (mille milliards de milliards d’octets), et elle double tous les deux à trois ans. Le stockage de données sur des disques durs ou des bandes magnétiques nécessite ainsi de plus en plus de place. Il requiert ainsi des ressources toujours plus importantes en infrastructures et en énergie. Enfin, le stockage classique est peu durable, de sorte que des données archivées sur CD ou bandes magnétiques doivent être transférées tous les 10 ans environ.

La première démonstration de stockage de données dans l’ADN date des années 1980 avec l’œuvre de Joe Davis, qui avait alors encodé la représentation d’une rune germanique dans le génome d’une bactérie. Mais les développements de techniques autour de cette idée n’ont connu leur essor que depuis le début des années 2010.

L’ADN devient un support de stockage grâce à la technologie des ciseaux génétiques 

Selon une étude parue dans la revue Nature Chemical Biology, une équipe de scientifiques américaine a réussi à stocker des données dans de l’ADN de cellules vivantes.

L’ADN peut techniquement être considéré comme le premier support naturel de stockage d’informations en biologie. Ces scientifiques et chercheurs ont converti des données numériques en données biologiques, grâce à la technologie des ciseaux génétiques Crispr-Cas9. Jusqu’à présent, les différentes tentatives se sont faites avec de l’ADN de synthèse, in vitro. 

Mais ces chercheurs américains sont allés un peu plus loin. Ils ont réussi à stocker des données numériques directement, in vivo, dans les chromosomes d’une bactérie : E. coli. Le stockage in vivo a vu le jour !

Bactérie E. Coli
Les scientifiques ont réussi à stocker des données dans l’ADN de la bactérie E. Coli : le stockage in vivo a vu le jour.

Pour le faire, ils ont utilisé les quatre bases de l’ADN : adénine, cytosine, thymine et guanine. A l’aide de ces bases, ils ont attribué différents arrangements de ces séquences d’ADN à différentes lettres de l’alphabet. Ils ont ainsi pu coder à l’intérieur des cellules des bactérie E. coli un message texte de 12 octets.

Par la suite, après avoir séquencé le génome de la bactérie, les scientifiques ont réussi à décoder ce message. L’avantage de ce processus est que ces données, placées dans de l’ADN, sont soigneusement protégées par la cellule elle-même.

On est encore loin d’avoir trouvé un système de stockage à long terme qui remplacerait nos disques durs, mais ce procédé peut être considéré comme un premier pas vers cette voie.

Comment fonctionne-t-il le codage de l’ADN ?

Le stockage de données – qui peuvent être des textes, images ou toutes autres données numériques – dans l’ADN in vitro convertit donc les données en séquences de 0 et de 1, un codage bien connu des informaticiens, appelé codage binaire. Ce dernier sera après transposé en séquences de nucléotides A, C, G et T.

La molécule d’ADN est ensuite synthétisée par des appareils dédiés.

Ils ajoutent les nucléotides souhaités les uns à la suite des autres, pour former des brins d’ADN, le plus souvent longs de quelques dizaines à deux cents paires de bases. A titre de comparaison, les bactéries ont généralement un génome de quelques millions de paires de base, et les humains 3,2 milliards de bases par cellule. Une information assez volumineuse sera ainsi répartie sur plusieurs brins d’ADN, mais elle sera reconstituée à la lecture.

Les molécules peuvent ensuite être stockées, souvent dans une solution aqueuse. L’accès à l’information se fait par séquençage et interprétation des séquences obtenues.

Les limites du stockage in vitro 

L’information génétique est stockée dans l’ADN grâce à des bases chimiques notées A, C, G et T. Le stockage de données dans l’ADN in vitro propose notamment d’utiliser ces bases comme unités de stockage de l’information, à la manière des 0 et des 1 en informatique.

Le coût est l’une des limites principales du stockage in vitro : la synthèse de l’ADN, donc l’écriture des données, est très chère.

Pour contourner les coûts liés à cette synthèse, des méthodes alternatives sont explorées. Par exemple, il est envisagé d’utiliser un encodage fondé sur des structures physiques de l’ADN. Dans ce cas, le repliement ou non de l’ADN correspond alors à un 0 ou à un 1 selon le code binaire informatique.

Une autre option pourrait être l’encodage via des modifications épigénétiques. En utilisant cette solution, les bits sont encodés grâce à la présence ou l’absence de modifications chimiques le long de la molécule l’ADN, et non via les bases.

Autre limitation à l’heure actuelle : l’étape de synthèse peut être longue et générer des erreurs, tout comme l’étape de séquençage nécessaire à la lecture des données.

Pour pallier aux éventuelles erreurs, l’encodage des données doit inclure une redondance de l’information, et des codes correcteurs sont utilisés. Ce sont des séquences ajoutées à la suite des données d’intérêt, permettant de reconstituer l’information en cas d’erreur ou d’effacement lors de l’écriture ou de la lecture. Ces codes de correction d’erreurs sont issus des travaux sur le codage de l’information. Des informations redondantes, c’est-à-dire déjà présentes dans le message, sont ajoutées autour de l’information à transmettre. Cela permet au système qui la décode de détecter et de remanier les erreurs. Un des codes de correction d’erreurs les plus utilisés, le code de Reed-Solomon, est d’ailleurs présent dans les CD et les QR codes pour y éviter les pertes d’informations.

Vos données dans des bactéries : le stockage in vivo

Il est donc également possible de stocker des données in vivo, dans le génome d’organismes vivants.

En 2017, un gif animé fut encodé dans le génome d’une bactérie, les bases constituant le code étant intégrées dans un endroit précis du génome. Un triplet de nucléotides codait alors pour une couleur de pixel, permettant une reconstitution en 21 niveaux de gris.

Séquenced’animation montrant un cheval de course au galop. Photos prises par Edward Muybridge (mort en 1904), publiées en 1887 à Philadelphia sous le titre d’« Animal Locomotion ». Ce petit film fut encodé dans le génome d’_E. coli_ en 2017. 

Une nouvelle technologie du stockage in vivo : l’enregistrement moléculaire électrobiologique

Plus récemment, en 2021, des chercheurs de l’université de Columbia ont mis en place un système permettant de transférer les données directement d’un format numérique à un stockage biologique.

Dans ce nouveau système, dit « enregistrement moléculaire électrobiologique », le format numérique, composé de 0 et de 1, est exprimé en signal électrique. Ainsi, pour coder un 0, il n’y a pas de signal électrique et une séquence issue du génome originel de la bactérie est intégrée dans le génome. En revanche, pour coder un 1, donc en présence d’un signal électrique, une séquence exogène – étrangère au génome de la bactérie – est intégrée dans le génome.

Les chercheurs ont ainsi encodé le fameux message « hello world » (premier message figurant automatiquement lors de la création d’un blog sous le CMS WordPress) dans le génome de la bactérie.

Si la quantité de données encodées est encore faible, c’est la première démonstration d’une écriture de données directement de l’ordinateur vers un organisme vivant. On pourrait le voir comme une sorte de magnétoscope cellulaire, capable d’enregistrer les données sur l’équivalent biologique de la bande magnétique qui est l’ADN.

La division cellulaire et le stockage in vivo – Données plus faciles à copier, mais erreurs possibles dues aux mutations cellulaires  

Division cellulaire
Division cellulaire

Il est plus difficile de manipuler l’ADN in vivo qu’in vitro. Pour les méthodes d’« enregistrement moléculaire », la densité d’espace de stockage (ici, la quantité d’information par nucléotide) y est plus faible, l’encodage d’un 0 ou d’un 1 nécessitant pour l’instant environ 50 nucléotides.

Cependant, le stockage in vivo a pour avantage d’être facile à copier, grâce à la division cellulaire, contrairement aux données stockées in vitro. Ces dernières doivent être répliquées par des PCR (Polymerase Chain Reaction). C’est une technique qui permet de dupliquer en grand nombre l’ADN ou l’ARN à partir de faibles quantités de matériau génétique et d’amorces spécifiques. Elle est désormais connue grâce à son rôle dans le dépistage du SARS-Cov-2, mais en même temps, elle est plus coûteuse que les cultures pendant lesquelles les cellules se divisent.

Par contre, la réplication de l’ADN est souvent mentionnée comme problème du stockage in vivo. Elle est susceptible de générer des mutations qui pourraient endommager les données en introduisant des erreurs de codage. Néanmoins, les erreurs de réplication de l’ADN sont plus rares in vivo que pendant une PCR.

Pour quelles données ?

Le stockage de données dans l’ADN semble plutôt être indiqué pour l’archivage de données dites « froides », c’est-à-dire des données auxquelles l’accès est peu fréquent. Mais d’autres applications sont envisagées.

Ce type de stockage pourrait également être utilisé en stéganographie, c’est-à-dire pour dissimuler un message dans un autre message. Par exemple, les cellules stockant l’ADN porteur d’informations pourraient être mélangées à des bactéries issues d’un environnement naturel pour aider à la dissimulation d’une information.

L’authentification d’objets grâce à des codes-barres nucléotidiques est également examinée, par exemple dans cette étude, qui propose d’utiliser de l’ADN encapsulé dans de la silice et mélangé à des huiles d’olive pour qu’il soit possible de vérifier leur authenticité.

Et quel futur ?

Même si le stockage de données dans l’ADN n’appartient plus tout à fait à la science-fiction, il lui reste un long chemin à faire avant de devenir grand public. L’ADN se conserve bien et est très compact, des millions de nucléotides n’occupant que quelques micromètres. Il aurait ainsi une densité de stockage un million de fois plus importante que celle des disques durs. Ce sont ses avantages par rapport aux méthodes de stockage classiques, comme le stockage magnétique (utilisé dans les disques durs) ou optique (les CDs et DVDs).

Néanmoins, les différents coûts impliqués, notamment pour écrire les données, sont encore de plusieurs ordres de grandeur plus élevés que ceux du stockage classique. La vitesse de lecture des données – souvent, la vitesse de séquençage de l’ADN – est également un obstacle à lever, même si des progrès considérables ont été réalisés dans ce domaine ces dernières années, et que de nouvelles améliorations restent à venir, comme des méthodes de séquençage ne nécessitant qu’une seule molécule d’ADN, là où les méthodes classiques en exigent plusieurs.

Même s’il n’est pas impossible d’imaginer, d’ici quelques décennies, un rayon des archives remplies de tubes à essai contenant des livres sous forme d’ADN, il est néanmoins peu probable que vous puissiez bientôt regarder votre film préféré en glissant un échantillon dans un lecteur DVD génétique.

The Conversation

 

Autres articles qui pourraient vous intéresser :

La cellule – Introduction et structure

 

En cas de malaise ou de maladie, nous vous prions de consulter en tout cas un médecin ou un professionnel de la santé en mesure d’évaluer correctement votre état de santé. Le contenu de ce site https://naturolistique.fr et de ses pages annexées ne remplace en aucun cas le diagnostic d’un médecin.

https://naturolistique.fr ne permet pas de faire de diagnostic médical ou une recommandation de traitement médical pour aucune pathologie ou affection quelconque. Nous déclinons toute responsabilité en cas de mauvaise interprétation des conseils donnés.

En utilisant ce site https://naturolistique.fr , vous reconnaissez avoir pris connaissance de l’avis de désengagement de responsabilité et vous consentez à ses modalités.

 

Sources :

Credits images et vidéos :

  • Vidéo Youtube : L’ADN – Un média de stockage pour le Big Date, by Slice.com
  • Bactérie E. Coli : Flickr, by Niaid, CC-BY 2.0
  • Sequenced Animation (cheval en galop) : Wikimedia, Creative Commons
  • Autres : Pixabay, Creative Commons

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

En soumettant ce formulaire, j'accepte la Politique de Confidentialité de  NHA Naturolistique. Je prends connaissance que le site utilise des Cookies pour le bon fonctionnement de ce formulaire. J'autorise NHA Naturolistique à saisir et à enregistrer mes informations ; après approbation manuelle par l'administration, mes commentaires seront visibles sur le site pour tout le monde.