GLY ASP ILU GLU LYS …

IPAZIA – Immaginate di trovarvi tra le mani un libro intero scritto così. Decine e decine di pagine contenenti sequenze di lettere raggruppate in modo incomprensibile. Potrebbe essere uno scherzo, un elenco privo di senso oppure una sorta di lunghissimo messaggio in codice. In un certo senso si tratta proprio di questo. Il codice in questione è quello della vita: indecifrabile per la maggior parte delle persone, ma non per biochimici e biologi molecolari. Quelle lettere raggruppate e concatenate sono infatti le sequenze di amminoacidi che determinano le proteine.

Un libro del genere esiste? Sì. Pubblicato nel 1965, Atlas of protein sequence and structure è stata la prima raccolta pubblicamente accessibile di tutte le sequenze proteiche conosciute fino a quel momento. Il confronto e il calcolo delle sequenze proteiche e nucleotidiche rappresenta una delle pratiche più diffuse nella ricerca biomolecolare contemporanea. La bioinformatica – disciplina che combina biologia, informatica, matematica e statistica allo scopo di analizzare e interpretare i dati biologici – è costruita a partire da ampi database di sequenze nucleotidiche e proteiche consultabili liberamente online, come GenBank, che oggi contiene più nucleotidi del numero di stelle presenti nella Via Lattea.

Atlas of protein sequence and structure – prima banca dati molecolare della storia, realizzata su supporto cartaceo – è l’antenato dei database informatici di oggi. L’idea che all’origine della bioinformatica ci sia un libro può apparire bizzarra, eppure le cose sono andate proprio così. A volere quel libro è stata la fisica e biochimica statunitense Margaret Oakley Dayhoff. Considerata la fondatrice della bioinformatica, a partire dall’Atlas ha messo a punto il Protein Information Resource (PIR), primo database molecolare accessibile tramite computer, ha introdotto metodi matematici e computazionali per il sequenziamento di proteine ​​e acidi nucleici, ha inventato un codice a lettera singola per gli amminoacidi (precedentemente codificati con tre lettere) grazie al quale è stato possibile ridurre notevolmente le dimensioni dei file contenenti le sequenze proteiche, ha scritto programmi per calcolare le concentrazioni dei gas nelle atmofere planetarie e ha sviluppato alberi filogenetici a partire da sequenze molecolari. Un curriculum di tutto rispetto.

I primi anni e l’idea di un database cartaceo

Nata a Filadelfia nel 1925, Margaret Oakley si trasferisce a New York all’età di dieci anni. Dopo il diploma alla Bayside High School ottiene una borsa di studio grazie alla quale si iscrive al Washington Square College della New York University, dove nel 1945 si laurea in matematica col massimo dei voti. Grazie ai suoi risultati entra a far parte del Phi Beta Kappa, la più antica e prestigiosa associazione studentesca americana. Tre anni dopo, sotto la supervisione di George Kimball, si specializza in chimica quantistica alla Columbia University. Durante la stesura della tesi di dottorato, è tra i primi studenti in assoluto a utilizzare gli elaboratori a schede perforate per calcolare le energie di risonanza di diverse molecole organiche policicliche, tanto da ricevere una borsa di studio da parte del Watson Computing Laboratory e la possibilità di utilizzare i computer IBM presenti all’interno del laboratorio. Nel 1948 sposa il fisico Edward Dayhoff e ottiene un incarico come assistente di ricerca in elettrochimica al Rockefeller Institute. Negli anni successivi lavora come ricercatrice all’Università del Maryland, dove ha l’opportunità di utilizzare un modello di elaboratore elettronico IBM di ultima generazione, e poi come professoressa di fisiologia e biofisica al Georgetown University Biomedical Center. A partire dal 1960 è direttrice associata della National Biomedical Research Foundation (NBRF) di Washington, dove resterà sino alla fine della sua carriera.

Dopo la determinazione della sequenza degli amminoacidi dell’insulina – compiuta dal chimico britannico Frederick Sanger all’inizio degli anni Cinquanta – e la scoperta della struttura del DNA a opera di Watson, Crick e Franklin nel 1953 – diventa sempre più importante poter disporre di strumenti che consentano di analizzare e confrontare la crescente mole di dati biomolecolari. Consapevole della necessità di mettere a punto una vera e propria banca dati, Dayhoff decide di raccogliere le sequenze proteiche in un volume cartaceo. Pubblicato per la prima volta nel 1965, Atlas of protein sequence and structure conoscerà diverse edizioni e sarà ristampato fino alla fine degli anni Settanta.

Alcune tappe fondamentali per la bioinformatica

Parallelamente alla pubblicazione dell’Atlas, la scienziata sviluppa metodi computazionali per la determinazione e il confronto di sequenze di amminoacidi. Sin dai primi anni al NBRF inizia a collaborare con Robert Ledley, un fisico interessato a sfruttare le potenzialità offerte dagli strumenti informatici in ambito biomedico. Nel 1962 i due pubblicano un articolo in cui descrivono le caratteristiche di un programma per computer in grado di determinare la struttura delle proteine. Nello stesso periodo Dayhoff lavora anche con Carl Sagan e Ellis Lippincott, con cui realizza un modello termodinamico della composizione chimica dei corpi celesti e sviluppa un programma per computer in grado di calcolare le concentrazioni di equilibrio dei gas nell’atmosfera di un pianeta.

Dayhoff è interessata soprattutto a quello che le sequenze proteiche possono raccontare in merito all’evoluzione della vita sulla Terra, e in questo senso l’informatica si rivela lo strumento perfetto per individuare allineamenti e cambiamenti nelle sequenze grazie a cui è possibile ricostruire la loro storia evolutiva. Nel 1966 scrive il primo programma per computer in grado di dare forma a un albero filogenetico a partire da sequenze molecolari. Partendo da questo lavoro, Dayhoff metterà a punto una serie di matrici, denominate PAM, utilizzate ancora oggi in ambito bioinformatico per confrontare e allineare le sequenze di amminoacidi. Per realizzare queste matrici, la scienziata confronta le sequenze di settantuno famiglie di proteine tra loro correlate e prende nota delle mutazioni presenti negli amminoacidi, ovvero delle sostituzioni di un amminoacido con un altro nella struttura primaria della proteina; riesce così a calcolare la probabilità di scambi, durante l’evoluzione, fra coppie di amminoacidi in sequenze correlate.

Nel corso degli anni Settanta, Dayhoff e il suo team mettono a punto il Protein Information Resource (PIR), evoluzione informatica dell’Atlas, il primo sistema di database accessibile tramite computer. Nel settembre del 1980 viene realizzata la versione dimostrativa di un altro progetto della scienziata, simile al PIR: il Nucleic Acid Sequence Database Computer System. Per ridurre le dimensioni dei file di dati utilizzati per le sequenze, troppo ingombranti per le capacità di calcolo dei computer dell’epoca, Dayhoff sviluppa un codice in cui i venti amminoacidi sono rappresentati con una sola lettera anziché tre, riconosciuto dalla IUPAC (International Union of Pure and Applied Chemistry).

L’eredità di Margaret

David Lipman, direttore del National Center for Biotechnology Information, ha definito Margaret Oakley Dayhoff “madre e padre della bioinformatica”. Purtroppo la scienziata – morta prematuramente nel 1983, a soli 57 anni – non ha avuto la possibilità di toccare con mano l’enorme sviluppo conosciuto negli ultimi trent’anni dalla disciplina che lei ha contribuito a fondare.

Consapevole delle molte sfide che le donne devono affrontare per ritagliarsi uno spazio nella scienza, Dayhoff si è adoperata per far crescere l’uguaglianza di genere nel mondo accademico. Nel 1984 la Biophysical Society – di cui lei è stata la prima presidente donna – ha istituito in suo onore il Margaret Oakley Dayhoff Award, consegnato ogni anno a una giovane ricercatrice in biofisica come incoraggiamento a intraprendere una carriera in questo settore.

Segui Simone Petralia su Twitter

Leggi anche: Sheila Sherlock, pioniera dell’epatologia

Pubblicato con licenza Creative Commons Attribuzione-Non opere derivate 2.5 Italia.