Pangenoma umano: pubblicato un nuovo riferimento. Un grosso passo avanti per scienza e salute
Una raccolta più completa e sofisticata di sequenze di genomi che rivela una diversità umana significativamente maggiore
[11 Maggio 2023]
Gli scienziati dall’International Human Pangenome Reference Consortium, un gruppo finanziato dal National Human Genome Research Institute (NHGRI), che fa parte del National Institutes of Health (NIH), hanno reso nota una nuova raccolta di alta qualità di sequenze di genoma umano di riferimento che riguarda diverse popolazioni umane, una maggiore diversità rispetto a quanto era precedentemente disponibile. Il lavoro, pubblicato su Nature, è uno dei numerosi studi pubblicati dai membri del consorzio.
Un genoma è l’insieme di istruzioni del DNA che aiuta ogni creatura vivente a svilupparsi e funzionare. Le sequenze del genoma differiscono leggermente tra gli individui. Nel caso degli esseri umani, i genomi di due persone qualsiasi sono, in media, identici per oltre il 99%. Le piccole differenze contribuiscono all’unicità di ogni persona e possono fornire informazioni sulla sua salute, aiutando a diagnosticare la malattia, prevedere gli esiti e guidare i trattamenti medici. Per comprendere queste differenze genomiche, gli scienziati creano sequenze di genoma umano di riferimento da utilizzare come “standard”, una fusione digitale di sequenze di genoma umano che può essere utilizzata come confronto per allineare, assemblare e studiare altre sequenze di genoma umano. La sequenza originale del genoma umano di riferimento ha quasi 20 anni ed è stata regolarmente aggiornata man mano che la tecnologia avanza e i ricercatori correggono gli errori e scoprono più regioni del genoma umano. Tuttavia, è fondamentalmente limitato nella sua rappresentazione della diversità della specie umana, poiché consiste di genomi di sole 20 persone circa e la maggior parte della sequenza di riferimento proviene da una sola persona.
Il nuovo “pangenoma” pubblicato include le sequenze del genoma di 47 persone provenienti da Africa, Asia, Americhe ed Europa, un bel passo avanti per l’obiettivo dei ricercatori di aumentare le sequenze del genoma a 350 persone entro la metà del 2024.
Al NIH evidenziano che «Con ogni persona che porta un insieme accoppiato di cromosomi, l’attuale riferimento include in realtà 94 distinte sequenze di genoma, con l’obiettivo di raggiungere 700 distinte sequenze di genoma entro il completamento del progetto».
Uno degli autori dello studio principale – “A draft human pangenome reference” – pubblicato su Nature, Adam Phillippy, ricercatore senior al Computational and Statistical Genomics Branch del programma di ricerca NHGRI, spiega: «Ognuno ha un genoma unico, quindi l’utilizzo di una singola sequenza del genoma di riferimento per ogni persona può portare a disuguaglianze nelle analisi genomiche. Ad esempio, la previsione di una malattia genetica potrebbe non funzionare altrettanto bene per qualcuno il cui genoma è più diverso dal genoma di riferimento».
L’attuale sequenza del genoma umano di riferimento presenta lacune che riflettono informazioni mancanti, specialmente in aree ripetitive e difficili da leggere. I recenti progressi tecnologici come il sequenziamento del DNA a lettura lunga, che legge tratti più lunghi del DNA, hanno aiutato i ricercatori a colmare queste lacune per creare la prima sequenza completa del genoma umano . Questa sequenza completa del genoma umano, resa nota nel 2022 dal consorzio Telomere-to-Telomere (T2T) finanziato dal NIH, è inserita nell’attuale riferimento al pangenoma. Infatti, molti dei ricercatori di T2T fanno parte anche dell’Human Pangenome Reference Consortium.
Finora, il 70% del genoma proveniva da un singolo individuo: un americano con origini europee e africane. «Questo quindi manca di importanti differenze genetiche che svolgono un ruolo importante nelle malattie nelle persone con altri background – fa notare Karen Miga dell’Università della California a Santa Cruz – Avere una mappa di un singolo genoma umano non può rappresentare adeguatamente tutta l’umanità. Questo riavvio può essere la base per la comunità scientifica per avere un’assistenza sanitaria più equa in futuro».
Sebbene la mappa del genoma umano attualmente utilizzata dai ricercatori contenga molto DNA africano, controintuitivamente, quella africana è una delle popolazioni più carenti. Eppure, come ha detto alla BBC Ewan Birney, vicedirettore generale dell’European Molecular Biology Lab, «Il posto più importante al mondo da cui ottenere genomi è l’Africa sub-sahariana. E’ dove abbiamo iniziato come specie e ha la più grande diversità genetica. Quindi, un genoma afroamericano non è sufficiente per rappresentare quella diversità». Il nuovo pangenoma è composto da 47 persone, la metà delle quali ha origini nell’Africa sub-sahariana, un terzo dalle Americhe, il 13% dalla Cina e il 2% dall’Europa, con una rappresentanza di popolazioni indigene.
Al NIH spiegano ancora: «Utilizzando tecniche computazionali avanzate per allineare le varie sequenze del genoma, i ricercatori hanno costruito un nuovo riferimento del pangenoma umano con ogni assemblaggio nel pangenoma che copre oltre il 99% della sequenza prevista con una precisione superiore al 99%. Si basa anche sulla precedente sequenza del genoma di riferimento, aggiungendo oltre 100 milioni di nuove basi o “lettere” nel DNA. Mentre la precedente sequenza del genoma di riferimento era singola e lineare, il nuovo pangenoma rappresenta contemporaneamente molte versioni diverse della sequenza del genoma umano. Questo offre ai ricercatori una gamma più ampia di opzioni per l’utilizzo del pangenoma nell’analisi di altre sequenze del genoma umano.
Mobin Asri, Dell’università della California Santa Cruz e co-autore principale dello studio, sottolinea che «Utilizzando il riferimento al pangenoma, possiamo identificare più accuratamente varianti genomiche più grandi chiamate varianti strutturali. Siamo in grado di trovare varianti che non sono state identificate utilizzando metodi precedenti che dipendono da sequenze di riferimento lineari».
Le varianti strutturali possono coinvolgere migliaia di basi. Fino ad ora, a causa della distorsione dell’utilizzo di una singola sequenza di riferimento, i ricercatori non sono stati in grado di identificare la maggior parte delle varianti strutturali che esistono in ciascun genoma umano utilizzando il sequenziamento a lettura breve.
Wen-Wei Liao, della Washington University di St. Louis e della Yale University e co-autore principale dello studio, è convinto che «Il riferimento al pangenoma umano ci consentirà di rappresentare decine di migliaia di nuove varianti genomiche in regioni del genoma precedentemente inaccessibili. Con un riferimento al pangenoma, possiamo accelerare la ricerca clinica migliorando la nostra comprensione del legame tra geni e tratti delle malattie».
Il costo totale per sostenere il lavoro del Human Pangenome Reference Consortium dovrebbe essere di circa 40 milioni di dollari in 5 anni, una cifra che include il lavoro per creare il riferimento per il pangenoma umano, migliorare la tecnologia di sequenziamento del DNA, gestire un centro di coordinamento, condurre attività di sensibilizzazione e creare risorse per la comunità di ricerca per utilizzare il riferimento al pangenoma.
Molti degli individui i cui genomi sono stati sequenziati per costruire il nuovo pangenoma umano di riferimento sono stati originariamente reclutati come parte del Progetto 1.000 Genomes, uno sforzo collaborativo e internazionale finanziato in parte dal NIH che mirava a migliorare il catalogo delle varianti genomiche in diverse popolazioni. Dato che il riferimento al pangenoma umano è un lavoro in corso, i ricercatori dell’International Human Pangenome Reference Consortium continuano ad aggiungere più sequenze di genoma per migliorare sempre più la qualità del riferimento al pangenoma.
Il direttore NHGRI Eric Green fa notare che «I ricercatori e i clinici di base che utilizzano la genomica hanno bisogno di accedere a una sequenza di riferimento che rifletta la notevole diversità della popolazione umana. Questo contribuirà a rendere il riferimento utile per tutte le persone, contribuendo così a ridurre le possibilità di propagazione delle disparità di salute. La creazione e il miglioramento di un riferimento al pangenoma umano è in linea con l’obiettivo di NHGRI di lottare per la diversità globale in tutti gli aspetti della ricerca genomica, che è fondamentale per far progredire la conoscenza genomica e implementare la medicina genomica in modo equo».
Muzlifah Haniffa, del Sanger Institute di Newcastle, che non faceva parte del team che ha pubblicato la nuovs mega-ricerca su Nature, avverte su BBC News che «La scienza non dovrebbe essere fraintesa. Le informazioni genetiche sulla diversità dovrebbero essere utilizzate in modo responsabile e non per fornire prove di differenze di razza, che è un costrutto sociale. Dobbiamo capire cosa mostrano e, soprattutto, cosa non mostrano. Dobbiamo assicurarci che non accada che vengano prese informazioni molto superficiali per stabilire false caratteristiche razziali».
Proprio per questo, dell’Human Pangenome Reference Consortium fa parte n gruppo etico che sta lavorando per anticipare problemi impegnativi e aiutare a portare a un onsenso informato, dare la priorità allo studio di diversi campioni, esplorare possibili problemi normativi relativi all’adozione clinica e lavorare con organizzazioni internazionali e Comunità indigene a incorporare le loro sequenze genomiche in questi sforzi più ampi.
incipale pubblicato su Nature, Adam Phillippy, ricercatore senior al Computational and Statistical Genomics Branch del programma di ricerca NHGRI, spiega: «Ognuno ha un genoma unico, quindi l’utilizzo di una singola sequenza del genoma di riferimento per ogni persona può portare a disuguaglianze nelle analisi genomiche. Ad esempio, la previsione di una malattia genetica potrebbe non funzionare altrettanto bene per qualcuno il cui genoma è più diverso dal genoma di riferimento».
L’attuale sequenza del genoma umano di riferimento presenta lacune che riflettono informazioni mancanti, specialmente in aree ripetitive e difficili da leggere. I recenti progressi tecnologici come il sequenziamento del DNA a lettura lunga, che legge tratti più lunghi del DNA, hanno aiutato i ricercatori a colmare queste lacune per creare la prima sequenza completa del genoma umano . Questa sequenza completa del genoma umano, resa nota nel 2022 dal consorzio Telomere-to-Telomere (T2T) finanziato dal NIH, è inserita nell’attuale riferimento al pangenoma. Infatti, molti dei ricercatori di T2T fanno parte anche dell’Human Pangenome Reference Consortium.
Finora, il 70% del genoma proveniva da un singolo individuo: un americano con origini europee e africane. «Questo quindi manca di importanti differenze genetiche che svolgono un ruolo importante nelle malattie nelle persone con altri background – fa notare Karen Miga dell’Università della California a Santa Cruz – Avere una mappa di un singolo genoma umano non può rappresentare adeguatamente tutta l’umanità. Questo riavvio può essere la base per la comunità scientifica per avere un’assistenza sanitaria più equa in futuro».
Sebbene la mappa del genoma umano attualmente utilizzata dai ricercatori contenga molto DNA africano, controintuitivamente, quella africana è una delle popolazioni più carenti. Eppure, come ha detto alla BBC Ewan Birney, vicedirettore generale dell’European Molecular Biology Lab, «Il posto più importante al mondo da cui ottenere genomi è l’Africa sub-sahariana. E’ dove abbiamo iniziato come specie e ha la più grande diversità genetica. Quindi, un genoma afroamericano non è sufficiente per rappresentare quella diversità». Il nuovo pangenoma è composto da 47 persone, la metà delle quali ha origini nell’Africa sub-sahariana, un terzo dalle Americhe, il 13% dalla Cina e il 2% dall’Europa, con una rappresentanza di popolazioni indigene.
Al NIH spiegano ancora: «Utilizzando tecniche computazionali avanzate per allineare le varie sequenze del genoma, i ricercatori hanno costruito un nuovo riferimento del pangenoma umano con ogni assemblaggio nel pangenoma che copre oltre il 99% della sequenza prevista con una precisione superiore al 99%. Si basa anche sulla precedente sequenza del genoma di riferimento, aggiungendo oltre 100 milioni di nuove basi o “lettere” nel DNA. Mentre la precedente sequenza del genoma di riferimento era singola e lineare, il nuovo pangenoma rappresenta contemporaneamente molte versioni diverse della sequenza del genoma umano. Questo offre ai ricercatori una gamma più ampia di opzioni per l’utilizzo del pangenoma nell’analisi di altre sequenze del genoma umano.
Mobin Asri, Dell’università della California Santa Cruz e co-autore principale dello studio, sottolinea che «Utilizzando il riferimento al pangenoma, possiamo identificare più accuratamente varianti genomiche più grandi chiamate varianti strutturali. Siamo in grado di trovare varianti che non sono state identificate utilizzando metodi precedenti che dipendono da sequenze di riferimento lineari».
Le varianti strutturali possono coinvolgere migliaia di basi. Fino ad ora, a causa della distorsione dell’utilizzo di una singola sequenza di riferimento, i ricercatori non sono stati in grado di identificare la maggior parte delle varianti strutturali che esistono in ciascun genoma umano utilizzando il sequenziamento a lettura breve.
Wen-Wei Liao, della Washington University di St. Louis e della Yale University e co-autore principale dello studio, è convinto che «Il riferimento al pangenoma umano ci consentirà di rappresentare decine di migliaia di nuove varianti genomiche in regioni del genoma precedentemente inaccessibili. Con un riferimento al pangenoma, possiamo accelerare la ricerca clinica migliorando la nostra comprensione del legame tra geni e tratti delle malattie».
Il costo totale per sostenere il lavoro del Human Pangenome Reference Consortium dovrebbe essere di circa 40 milioni di dollari in 5 anni, una cifra che include il lavoro per creare il riferimento per il pangenoma umano, migliorare la tecnologia di sequenziamento del DNA, gestire un centro di coordinamento, condurre attività di sensibilizzazione e creare risorse per la comunità di ricerca per utilizzare il riferimento al pangenoma.
Molti degli individui i cui genomi sono stati sequenziati per costruire il nuovo pangenoma umano di riferimento sono stati originariamente reclutati come parte del Progetto 1.000 Genomes, uno sforzo collaborativo e internazionale finanziato in parte dal NIH che mirava a migliorare il catalogo delle varianti genomiche in diverse popolazioni. Dato che il riferimento al pangenoma umano è un lavoro in corso, i ricercatori dell’International Human Pangenome Reference Consortium continuano ad aggiungere più sequenze di genoma per migliorare sempre più la qualità del riferimento al pangenoma.
Il direttore NHGRI Eric Green fa notare che «I ricercatori e i clinici di base che utilizzano la genomica hanno bisogno di accedere a una sequenza di riferimento che rifletta la notevole diversità della popolazione umana. Questo contribuirà a rendere il riferimento utile per tutte le persone, contribuendo così a ridurre le possibilità di propagazione delle disparità di salute. La creazione e il miglioramento di un riferimento al pangenoma umano è in linea con l’obiettivo di NHGRI di lottare per la diversità globale in tutti gli aspetti della ricerca genomica, che è fondamentale per far progredire la conoscenza genomica e implementare la medicina genomica in modo equo».
Muzlifah Haniffa, del Sanger Institute di Newcastle, che non faceva parte del team che ha pubblicato la nuovs mega-ricerca su Nature, avverte su BBC News che «La scienza non dovrebbe essere fraintesa. Le informazioni genetiche sulla diversità dovrebbero essere utilizzate in modo responsabile e non per fornire prove di differenze di razza, che è un costrutto sociale. Dobbiamo capire cosa mostrano e, soprattutto, cosa non mostrano. Dobbiamo assicurarci che non accada che vengano prese informazioni molto superficiali per stabilire false caratteristiche razziali».
Proprio per questo, dell’Human Pangenome Reference Consortium fa parte n gruppo etico che sta lavorando per anticipare problemi impegnativi e aiutare a portare a un onsenso informato, dare la priorità allo studio di diversi campioni, esplorare possibili problemi normativi relativi all’adozione clinica e lavorare con organizzazioni internazionali e Comunità indigene a incorporare le loro sequenze genomiche in questi sforzi più ampi.