Thanks to Tumisu

A (adenosina), T (timidina), C (citidina), G (guanosina) i 4 nucleosidi dell'alfabeto del DNA.

Se non vedi il video ( --> youtube

il metodo aveva un punto debole fondamentale

E' come se volendo leggere la prima terzina del canto X dell'Inferno di Dante, uno dovesse leggere (anche se a velocità supersonica) l'intera Divina Commedia fino a incappare nella frase cercata. O anche leggere un intero disco rigido prima di trovare il file cercato. In un certo senso è quello che capita con i bambini quando si chiede loro di iniziare a recitare la poesia imparata a memoria da una strofa centrale mezzo; per farlo partono dall'inizio.

200 MB potranno sembrare risibili per le necessità attuali ma tutto deve essere contestualizzato nell'ambito di una tecnologia emergente. Per mettere tutto in prospettiva, ricordiamoci che il primo disco rigido sul mercato, sviluppato da IBM negli anni '50, era in grado di memorizzare circa 4 megabyte su un dispositivo che pesava più di una tonnellata! Ancora a fine anni 80 il disco rigido fantascientifico a cui uno poteva ambire era di qualche decina di MB)

Il principio dell'organizzazione dell'informazione sviluppato nel lavoro di Lee Organick

(credit: Organick et al, 2018)

Lee Organick et al, (2018) Nature Biotechnology, 36, pp242–248

***

Nota 1. Da un punto di vista biologico è stato verosimilmente l'RNA il primo depositario di una informazione codificata e trasmissibile e solo in un secondo momento la selezione ha preferito "traslocare" l'informazione sul più stabile DNA. Non a caso molti virus sono basati solo sul RNA.

Nota 2. Rimanendo al primo livello di complessità (trascurando quindi regolazione trascrizionale ed epigenetica), l'informazione genica è codificata da una sequenza di nucleotidi (A, C, G e T) letti come triplette non sovrapposte, delimitate da un segnale di inizio e da uno di termine (tre sono le possibili triplette di "STOP messaggio"). Le triplette possibili sono 64 (4 3 ) di cui 61 sono "codificanti", cioè definiscono quale aminoacido dovrà essere inserito durante la sintesi di una data proteina (un gene codifica l'informazione per una proteina). Visto che gli aminoacidi sono 20 e le triplette "utili" 61 ne consegue che alcuni aminoacidi sono codificati da più triplette.

Per quanto riguarda la densità informativa considerate che una cellula umana contiene poco più di 6 picogrammi di DNA (diploide, cioè in doppia copia, ciascuna delle quali originata da un genitore) Di questi in realtà solo l'1,6% è codificante; sebbene un tempo si ipotizzasse che tutto il resto del DNA avesse solo un ruolo strutturale o di "parafulmine" (in cui era più facile che le mutazioni avvenissero lasciando inalterato la parte "utile"), questa idea è stata ampiamente ridimensionata negli ultimi anni grazie alla scoperta del suo ruolo nella regolazione dell'espressione genica (se, quando e dove un dato gene deve essere espresso). Tuttavia per semplificare al massimo il concetto e prendendo per buona la vecchia idea che solo l'1,6% del genoma è utile e dividendolo a metà (genoma aploide, cioè una sola copia di ciascun gene) potrei dire che il nostro "programma" è contenuto in 52 femtogrammi di DNA. Pensate per contrasto quanto "codice" e memoria fisica ci vuole per muovere un robottino capace solo di fare due passi.

Nota 3. Oltre agli errori di lettura bisogna considerare anche le alterazioni a cui il pur stabile DNA può andare incontro con il passare del tempo,

Nota 4. Altro problema è nella non "neutralità" dell'informazione scritta sul DNA rispetto a quella digitale. Per capirci ipotizzando l'associazione C-01 e G-10, non c'è alcun problema in un file 010101010101101010101010. Tuttavia l'analogo CCCCCCGGGGGG (o ogni altra sequenza ricca di CG) pone problemi strutturali a causa della formazione di "forcine per l'appaiamento tra C e G. Stesso discorso per qualunque DNA con lunghe sequenze di nucleotidi identici che pongono un problema in fase di lettura (e anche copiatura/sintesi) noto come "slippage" (scivolamento dell'enzima deputato) che porta alla perdita/aggiunta di nucleotidi e quindi alla modifica dell'informazione

Un modo per evitare la creazione di sequenze ripetute di uno stesso nucleotide (quindi il rischio di "slippage") è quello di usare prima un passaggio intermedio nella codifica da binario a DNA mediante il codice di Huffman e poi una codifica variabile ma predefinita. (credit: University of Washington via computerworld.com)

