Na década de 1990, a ciência deu um salto com o Projeto Genoma Humano, que construiu o sequenciamento de referência da espécie. Com um modelo usado para comparações, muito se descobriu sobre doenças e sobre a própria evolução do Homo sapiens. Porém, a ferramenta não é perfeita. Especialmente porque 70% dos dados vêm de uma única pessoa, de origem europeia.

A pouca representatividade foi atenuada agora. Cientistas do Consórcio de Referência do Pangenoma Humano publicaram, na revista Nature, um mapeamento mais inclusivo, com base em 47 indivíduos de todas as partes do mundo, ajudando a avançar na compreensão dos 0,2% de diferenças no DNA que fazem com que cada um dos 8 bilhões de habitantes da Terra sejam únicos. Entre outras coisas, o novo sequenciamento revelou 120 milhões de pares de base, o conjunto de letrinhas (A,T,G,C) que passam as instruções às células do organismo. Será possível, por exemplo, identificar variantes encontradas em populações não-europeias e que não foram contempladas no projeto anterior.

No pangenoma, mais de 99% das sequências têm alta precisão. Os dados vão aumentar, já que o trabalho continua em andamento, embora já esteja disponível para a utilização por cientistas como o novo padrão de referência do genoma humano. "Essa coleção genômica complexa representa uma diversidade genética humana significativamente mais precisa do que já foi capturada antes", disse, em uma coletiva de imprensa on-line, Enrich D.



Jarvis, pesquisador da Universidade de Rockfeller, nos Estados Unidos, e um dos principais cientistas envolvidos. "Com uma maior amplitude e profundidade de dados genéticos à sua disposição e maior qualidade dos conjuntos de genomas, os pesquisadores podem refinar sua compreensão da ligação entre genes e características de doenças e acelerar a pesquisa clínica", acrescentou.



Vertebrados

O Consórcio de Referência do Pangenoma Humano é uma colaboração de cientistas dos Estados Unidos e da Europa e foi lançado em 2019. Na época, Jarvis estava aprimorando a tecnologia de sequenciamento avançado e métodos computacionais no Projeto Genomas de Vertebrados, que visa sequenciar todas as 70 mil espécies desses animais. O laboratório dele e de colaboradores, então, decidiu aplicar os avanços para conjuntos de genoma de alta qualidade para revelar as variações no Homo sapiens.



Para aumentar a diversidade de amostras, os pesquisadores recorreram ao Projeto 1000 Genomas, um banco de dados público que inclui mais de 2,5 mil pessoas, representando 26 populações geográfica e etnicamente variadas. A maioria vem da África, que abriga a maior diversidade humana do planeta. "Em muitos outros grandes projetos de diversidade do genoma humano, os cientistas selecionaram principalmente amostras europeias", destacou Jarvis, assinalando: "Fizemos um esforço proposital para fazer o oposto. Estávamos tentando neutralizar os preconceitos do passado".



É provável que variantes genéticas que possam aumentar o conhecimento sobre doenças comuns e raras possam ser encontradas entre essas populações. "Todo mundo tem um genoma único, então, usar uma única sequência de genoma de referência para cada pessoa pode levar a desigualdades nas análises", observou, na entrevista, Adam Phillippy, pesquisador sênior no Ramo de Genômica Computacional e Estatística dos Institutos Nacionais de Saúde dos Estados Unidos, que financia o projeto. "Por exemplo, prever uma doença genética pode não funcionar tão bem para alguém cujo genoma é mais diferente daquele de referência."

Trio

Para ampliar a diversidade genética, os pesquisadores tiveram que criar sequências mais nítidas e claras de cada indivíduo, usando as abordagens desenvolvidas no projeto de sequenciamento de vertebrados. Jarvis lembrou que cada pessoa herda um genoma de cada progenitor, e é assim que se tem as duas cópias dos cromossomos, o que é conhecido como genoma diploide.



Quando o genoma de uma pessoa é sequenciado, separar o DNA dos pais pode ser um desafio. Técnicas e algoritmos mais antigos cometeram erros ao mesclar dados genéticos dos progenitores de um indivíduo, resultando em uma visão embaçada. "As diferenças entre os cromossomos da mãe e do pai são maiores do que a maioria das pessoas imagina", revelou Jarvis. "A mãe pode ter 20 cópias de um gene, e o pai, apenas duas", disse.



Para escapar dessas confusões, os pesquisadores utilizaram um método desenvolvido por Adam Phillippy e por Sergey Koren, também dos Institutos Nacionais de Saúde. Eles consideram os sequenciamentos totais dos trios (pai, mãe e filho), esclarecendo as linhas de herança até chegar a uma sequência de melhor qualidade da criança. Esses dados foram usados para a avaliação do pangenoma.



Com os dados dos 47 indivíduos, os cientistas chegaram a 94 sequências distintas, duas para cada conjunto de cromossomos, mais o Y nos homens. Então, usaram técnicas computacionais avançadas para alinhar e sobrepô-las. Dos 120 milhões de pares de bases de DNA que não foram vistos anteriormente, cerca de 90 milhões derivam de variações estruturais, diferenças genéticas que surgem quando pedaços de cromossomos são rearranjados — movidos, excluídos, invertidos ou com cópias extras de duplicações.



"É uma descoberta importante porque estudos nos últimos anos estabeleceram que as variantes estruturais desempenham um papel de destaque na saúde humana, bem como na diversidade específica da população", observa Jarvis. "Eles podem ter efeitos dramáticos nas diferenças de características, doenças e função genética. Com tantos novos identificados, haverá muitas novas descobertas que não eram possíveis antes", concluiu.