Genómica: conocimiento

Completar el genoma de referencia humano un cromosoma a la vez

Implicaciones para entender las enfermedades humanas y la variación genética

Julie Lake
September 28, 2020


El genoma de una persona influye mucho en su vida: puede afectar su apariencia, su forma de actuar y su susceptibilidad a enfermedades genéticas, entre otros aspectos. Una de las razones por las que sabemos tanto sobre la variación genética y su influencia en una persona es debido a que tenemos un genoma de referencia con el cual comparar. El primer borrador del genoma humano de referencia se publicó en 2001 como parte del Proyecto Genoma Humano, y la secuencia completa "finalizó" posteriormente en 2003 (1). Esta hazaña de $2,700 millones y 13 años fue asumida por un consorcio internacional de científicos que cuidadosamente ensambló el genoma de varios voluntarios hasta un grado que la comunidad científica consideró "finalizado". Este genoma "finalizado" no tenía más de un error en 100,000 bases con una secuencia casi continua (2).

El primer genoma humano de referencia ha servido como recurso para la comunidad científica al hacer avanzar nuestra comprensión de la susceptibilidad, la prevención y el tratamiento de las enfermedades (3). Por ejemplo, se han utilizado estudios de asociación de genoma completo (genome-wide association study, GWAS) para cribar el genoma en busca de polimorfismos de un solo nucleótido (single nucleotide polymorphisms, SNP). Los SNP son pequeños cambios en el código genético que pueden estar implicados como factores de riesgo de enfermedades. Además, el campo de la farmacogenómica ha permitido a los médicos adaptar el tratamiento de la enfermedad a pacientes individuales según su información genética, un componente central de la medicina de precisión. Aunque la referencia de 2003 abarcaba el 99 % de las regiones que contienen genes del genoma humano con una precisión del 99.99 %, dos décadas después, todavía tiene algunas deficiencias (4). Dado que el genoma humano consta de unos 3,000 millones de bases en un solo conjunto de cromosomas, la cobertura del 99 % y la precisión del 99.99 % todavía dejan espacio para miles de lagunas e inexactitudes en el ensamblaje. Hasta hace poco, no se había secuenciado ningún cromosoma humano de un extremo a otro.

Hasta hace poco, no se había secuenciado ningún cromosoma

humano de un extremo a otro.

La mejora del genoma humano de referencia (actualmente, GRCh38) tiene importantes implicaciones para la salud del paciente. Considere el cromosoma 21, por ejemplo, está involucrado en enfermedades que van desde el síndrome de Down (que afecta a 1 de cada 700 nacidos vivos) hasta varios tipos de cáncer (5). Sin embargo, la secuencia de referencia original del cromosoma 21 tiene varias brechas que comprenden alrededor de 100,000 pares de bases (5). Estas brechas podrían contener información clave sobre las causas de numerosas enfermedades y rasgos genéticos; y esto está en solo un cromosoma de los 23 pares que contiene el genoma humano.

Las tecnologías de secuenciación han recorrido un largo camino desde los días del Proyecto Genoma Humano. Los avances en las tecnologías de secuenciación han superado las mejoras en la computación, con el costo por genoma disminuyendo más rápido de lo esperado para la potencia informática (6). Con estas innovaciones en la secuenciación, los científicos han decidido volver a abordar la superación de brechas en el genoma humano y corregir las inexactitudes del último genoma de referencia. En una publicación reciente en Nature, un equipo de investigación multicéntrico dirigido por el Dr. Adam Phillipy del Instituto Nacional de Investigación del Genoma Humano alcanzó un hito importante al secuenciar el cromosoma X humano de "telómero a telómero", en otras palabras, de un extremo a otro (figura 7).

¿Cuál es la dificultad de secuenciar un cromosoma completo? Dado que las tecnologías de secuenciación actuales no pueden leer todo el genoma humano a la vez, debemos confiar en las computadoras para unir las piezas. Estas piezas, llamadas "lecturas" de secuenciación, son secuencias de pares de bases correspondientes a una parte o la totalidad de un fragmento de ADN. La longitud de la lectura de secuenciación puede variar mucho según el método de secuenciación: algunas tecnologías de secuenciación paralela masiva (pirosecuenciación y terminador reversible de Thermofisher e Illumina, respectivamente), por ejemplo, producen lecturas que tienen solo entre 150 y 200 pares de bases de longitud, mientras que la secuenciación Sanger, a menudo, genera alrededor de 500 lecturas de pares de bases y puede llegar hasta unos 800 bps. La secuenciación en tiempo real (PacBio y Oxford Nanopore) son tecnologías de secuenciación de lectura larga que pueden secuenciar más de cien mil fragmentos de pares de bases. La mayoría de las tecnologías disciernen la identidad de los pares de bases con buena precisión; el problema surge con el ensamblaje de secuencias repetitivas o reordenamientos estructurales complejos (p. ej., duplicaciones segmentarias, inversiones y eliminaciones). En particular, las regiones repetitivas son difíciles de secuenciar debido a errores informáticos y de secuenciación. Informáticamente, cuando se fusionan lecturas para formar un cóntigo, una secuencia de consenso de ADN formada por lecturas de secuenciación superpuestas, es difícil discernir dónde termina una repetición y comienza otra. Los algoritmos informáticos pueden determinar erróneamente que dos secuencias repetitivas contiguas son la misma secuencia, las fusionan y se genera un número menor de repeticiones en el ensamblaje del que realmente existe en esa posición del genoma. Desde una perspectiva de secuenciación, una secuencia repetitiva dará la misma señal, ya sea a través de un marcador fluorescente (Sanger), cambio en una corriente iónica (secuenciación de nanoporos y semiconductores de iones) o pulsos de luz emitidos por nucleótidos (PacBio). En consecuencia, puede resultar difícil discernir si la señal repetitiva es un error o una secuencia distinta.

Estos problemas se manifiestan al intentar ensamblar la región centromérica del cromosoma, la región central que es importante para la división celular. El centrómero se compone de matrices de ADN repetitivas que pueden abarcar megabases (Mbp). En el cromosoma X, el centrómero de 3.1 Mbp es esencialmente una gran matriz repetitiva llamada DXZ1. Para ensamblar esta enorme región repetitiva, un grupo de científicos aprovechó las "lecturas ultralargas" producidas por PacBio y Oxford Nanopore para identificar manualmente lecturas que abarcan grandes regiones de repetición, ancladas por regiones únicas de "marcadores". Para complementar estas lecturas largas, los científicos utilizaron otra técnica llamada mapeo óptico para validar que la estructura de las regiones repetidas era correcta. Los científicos han equiparado este desafío a resolver un rompecabezas. En este rompecabezas para armar el genoma humano, uno no sabe cuántas piezas hay; la mayoría de las piezas son idénticas y solo hay algunas características únicas en la imagen general. Si las piezas fueran pequeñas, este rompecabezas sería casi imposible de armar. Sin embargo, al usar lecturas ultralargas (PacBio/Nanopore), los científicos pudieron aumentar el tamaño de las piezas del rompecabezas para reducir la cantidad piezas en primer lugar. Luego, pudieron identificar características únicas, o "marcadores", en la imagen que anclan el ensamblaje de las piezas más grandes del rompecabezas. Una vez que los investigadores pensaron que habían armado el rompecabezas correctamente, pudieron usar el mapeo óptico para verificar que tenían la cantidad correcta de piezas en la orientación correcta. Mediante el uso de piezas más grandes, la identificación de características únicas y el aislamiento de regiones mal ensambladas con mapas ópticos finalmente se armó un rompecabezas que antes no se podía armar.

En este rompecabezas para armar el genoma humano, uno no sabe cuántas piezas hay; la mayoría de las piezas son idénticas y solo hay algunas características únicas en la imagen general.

¿Cómo afecta esto el futuro de la genética/genómica? Hasta la actualidad, todavía existen miles de brechas e inexactitudes en todo el genoma humano de referencia, que pueden albergar variantes asociadas con la salud y la enfermedad de los seres humanos. La finalización del primer ensamblaje de cromosomas humanos de un extremo a otro representa un logro histórico en la genética. Este logro dará a los científicos acceso a nueva información que podría mejorar nuestra comprensión de la patología de la enfermedad e informar mejor el desarrollo de la terapéutica. Con otros 23 cromosomas restantes para secuenciar de un extremo a otro (incluido Y, que solo está presente en los hombres), el Consorcio telómero a telómero se ha propuesto lanzar un genoma de referencia verdaderamente completo para aplicaciones de investigación, biotecnología y atención clínica. Más allá de la genética humana, las técnicas establecidas en este estudio podrían revolucionar la forma en que los científicos intentan reconstruir los conjuntos repetitivos más desafiantes en todas las ramas del árbol de la vida. En última instancia, tener un mejor genoma de referencia significa informar mejor a todos los campos que lo utilizan.

En última instancia, tener un mejor genoma de referencia significa informar mejor a todos los campos que lo utilizan.

Referencias
  1. Lander ES, Linton LM, Birren B, Nusbaum C, Zody MC, Baldwin J, et al. Initial sequencing and analysis of the human genome. Nature. 2001 Feb 15;409(6822):860–921.
  2. International Human Genome Sequencing Consortium. Finishing the euchromatic sequence of the human genome. Nature. 2004 Oct 21;431(7011):931–45.
  3. Bloss CS, Jeste DV, Schork NJ. Genomics for disease treatment and prevention. Psychiatr Clin North Am. 2011 Mar;34(1):147–66.
  4. 20 years later, genomicists remember the draft human genome sequence [Internet]. [cited 2020 Aug 11]. Available from: https://www.genome.gov/aboutnhgri/Director/genomics-landscape/July-2-2020-twenty-years-later-genomicists-rememberannouncement-of-draft-human-genome-sequence
  5. Hattori M, Fujiyama A, Taylor TD, Watanabe H, Yada T, Park HS, et al. The DNA sequence of human chromosome 21. Nature. 2000 May 18;405(6784):311–9.
  6. Kris WA. DNA Sequencing Costs: Data from the NHGRI Genome Sequencing Program (GSP). [cited 2020 Aug 10]; Available from: http://www.genome.gov/sequencingcostsdata
  7. Miga KH, Koren S, Rhie A, Vollger MR, Gershman A, Bzikadze A, et al. Telomere-totelomere assembly of a complete human X chromosome. Nature. 2020 Jul 14;
  8. Trost B, Engchuan W, Nguyen CM, Thiruvahindrapuram B, Dolzhenko E, Backstrom I, et al. Genome-wide detection of tandem DNA repeats that are expanded in autism. Nature. 2020 Jul 27;
  9. López Castel A, Cleary JD, Pearson CE. Repeat instability as the basis for human diseases and as a potential target for therapy. Nat Rev Mol Cell Biol. 2010 Mar;11(3):165–

Acerca del autor

Julie Lake

Julie Lake es becaria de posgrado en el Instituto Nacional de Trastornos Neurológicos y Accidentes Cerebrovasculares. Se graduó de la Universidad de California, Berkeley, en mayo de 2020 con un BS en Biología Microbiana y una especialización en Ciencia de Datos. Su investigación actual se enfoca en comprender la genética de enfermedades neurodegenerativas como la enfermedad de Parkinson y la demencia con cuerpos de Lewy.