Detección de loci repetidos terminales largos derivados de retrovirus endógenos en aves de la selva utilizando

Blog

HogarHogar / Blog / Detección de loci repetidos terminales largos derivados de retrovirus endógenos en aves de la selva utilizando

Nov 06, 2023

Detección de loci repetidos terminales largos derivados de retrovirus endógenos en aves de la selva utilizando

Informes científicos volumen 13,

Scientific Reports volumen 13, Número de artículo: 7380 (2023) Citar este artículo

556 Accesos

2 Altmetric

Detalles de métricas

Los retrovirus endógenos (ERV) son elementos genéticos presentes en el genoma que retienen rastros de infecciones virales pasadas. La caracterización de los ERV puede proporcionar información crucial sobre la evolución aviar. Este estudio tuvo como objetivo identificar nuevos loci de repetición terminal larga (LTR) derivados de ERV (ERV-LTR) ausentes en el genoma de referencia utilizando datos de secuenciación del genoma completo de aves de la jungla roja, aves de la jungla gris, aves de la jungla de Ceilán y aves de la jungla verde. En total, se identificaron 835 loci ERV-LTR en las cuatro especies de Gallus. El número de locus ERV-LTR detectados en aves de la jungla roja y sus subespecies, aves de la jungla gris, aves de la jungla de Ceilán y aves de la jungla verde, fueron 362, 216, 193 y 128, respectivamente. El árbol filogenético fue congruente con los árboles informados anteriormente, lo que sugiere la posibilidad de inferir relaciones entre las poblaciones de aves de la selva pasadas a partir de los loci ERV-LTR identificados. De los loci detectados, 306 ERV-LTR se identificaron cerca o dentro de los genes, y algunos se asociaron con la adhesión celular. Las secuencias ERV-LTR detectadas se clasificaron como familia de retrovirus aviares endógenos, subgrupo E del virus de la leucosis aviar, Ovex-1 y ERV relacionados con el virus de la leucemia murina. Además, la secuencia de la familia EAV se dividió en cuatro patrones mediante la combinación de las regiones U3, R y U5. Estos hallazgos contribuyen a una comprensión más completa de las características de los ERV de aves de la selva.

Tras la infección retroviral, el genoma viral se transcribe de forma inversa y se integra en el genoma del huésped como un provirus. En principio, el provirus tiene todos los requisitos para su replicación y consta de una región interna que codifica genes virales (gag, pro/pol y env), que están flanqueados por dos repeticiones terminales largas (LTR) reguladoras idénticas en la integración. Adyacente al provirus hay una duplicación de sitio diana corta (TSD) de 4 a 8 pb en la secuencia del genoma huésped generada durante la integración. La transmisión vertical puede hacer que dichos virus infecten las células germinales y los tejidos reproductivos, lo que da como resultado la formación de retrovirus endógenos (ERV) en la descendencia. Gradualmente, los ERV pueden alcanzar una alta frecuencia dentro de las poblaciones y eventualmente quedar fijos dentro de las especies1. Los ERV aviares típicos incluyen el virus de la leucosis aviar (ALV) y las familias de retrovirus aviares endógenos (EAV). La familia ALV comprende varios subgrupos, y los ERV del subgrupo E, denominados ALV-E, a menudo conservan una alta integridad estructural2. Una secuencia conocida como EAV-HP dentro de la familia EAV carece del gen pol, mientras que EAV-0 y EAV-51 tienen el gen pol pero carecen del gen env3. Se ha sugerido que ALV-E se detecta solo en Gallus gallus, incluidas las aves rojas de la jungla (G. gallus gallus) y los pollos comerciales, mientras que la familia EAV podría estar presente en diferentes especies de Gallus3.

Aproximadamente el 5 % del genoma humano se deriva de los ERV, mientras que los ERV constituyen aproximadamente el 3 % del genoma del pollo4,5. Sin embargo, es probable que haya una cantidad significativa de ERV que no se hayan descubierto en los pollos. Estos ERV han desempeñado un papel en la configuración de la diversidad de especies de aves y han causado pérdidas económicas a la industria avícola debido a enfermedades genéticas6,7,8. La caracterización de los ERV proporcionará información esencial sobre la evolución de las aves.

El análisis de ADN mitocondrial indica que la gallina roja de la selva es una especie ancestral de pollos9,10. Además de las aves rojas de la selva, se identificaron otras tres especies pertenecientes al género Gallus, las aves grises de la selva (G. sonneratii), las aves de la selva de Ceilán (G. lafayetii) y las aves verdes de la selva (G. varius). Las aves rojas de la jungla se distribuyen en gran parte del sudeste asiático y partes del sur de Asia, mientras que las otras tres especies tienen rangos más restringidos de la siguiente manera: aves grises de la jungla en el centro y sur de la India, aves de la jungla de Ceilán en Sri Lanka y aves verdes de la jungla en Java y las islas circundantes. Estudios genéticos moleculares recientes sugieren que varias especies de Gallus contribuyen a la composición genética del pollo. Sin embargo, el origen y la historia de la diversidad genética en los pollos aún se conocen parcialmente11,12,13. En este estudio, el objetivo fue identificar los loci de LTR derivados de ERV (ERV-LTR) en el genoma utilizando datos de genoma completo para el género Gallus, incluidas las subespecies. Además, al comparar los loci ERV-LTR entre especies y las secuencias detectadas de ERV-LTR, se aclararon las características de los ERV-LTR del género Gallus.

Aquí, las lecturas de extremos emparejados de 100 pb se mapearon utilizando BWA-MEM14, y la profundidad de secuencia media general fue de 30.6 × (13.5–42.9) para todas las aves de la jungla (Tabla S1). Los resultados del mapeo se presentan en la Tabla S1. Más del 95,3 % de las lecturas emparejadas para cada ave de la jungla se asignaron al genoma de Gallus de referencia, mientras que solo entre el 1,56 y el 31,59 % no se asignaron correctamente (lecturas incorrectas). Además, entre el 0,10% y el 1,86% de las lecturas fueron singletons que se asignaron a un solo lado. El proceso analítico (ver la sección "Métodos" para más detalles) se realizó de acuerdo con la metodología de estudios previos15,16. El número total de loci de inserción de ERV-LTR candidatos identificados para cada individuo osciló entre 39 y 2011 (Tabla S1) según el software RetroSeq17. A continuación, se empleó el Integrated Genome Viewer (IGV)18 para confirmar la presencia o ausencia de TSD para todos los loci detectados para cada individuo. Además, los contigs se construyeron usando las lecturas extraídas de los TSD y se analizaron usando blastn19. En total, se identificaron 835 loci ERV-LTR. La mayoría de los ERV-LTR identificados estaban relacionados con la región LTR de la familia EAV (EAV-HP, EAV-51, EAV-0, ev/J o LTR endógeno de pollo). Se identificaron veinte secuencias LTR de ALV-E, y estas secuencias estaban presentes solo en aves rojas de la selva y sus subespecies (Tabla S2). En chr2:133,314,053, todas las especies y subespecies tenían un cóntigo similar al LTR del retrovirus endógeno relacionado con el virus de la leucemia murina (MLV) (DQ280312). Además, en chr3:54,480,182, todas las especies y subespecies, excepto las aves de la jungla verde, tenían un Ovex1 (FJ406461). De los ERV detectados, 306 estaban presentes cerca o dentro del gen (Tabla S2). El análisis de Gene Ontology (GO) utilizando estos conjuntos de genes mostró seis términos GO (Tabla S3). La categoría GO mejor clasificada fue "adhesión celular" e incluyó genes como RELN, CNTN5, CDH20, CDH7, TENM1, SPON1, NRXN3 y CDH4.

El número de loci de ERV detectados en aves de la jungla rojas, aves de la jungla grises, aves de la jungla de Ceilán y aves de la jungla verdes combinadas fue 362, 216, 193 y 128, respectivamente (Tabla 1). El número de loci ERV detectados en aves rojas de la selva y sus subespecies osciló entre 61 y 123. El diagrama de Venn muestra los ERV con loci compartidos entre subespecies o especies (Fig. 1A y B). Entre las especies, se detectaron 50 loci como comunes entre dos o más especies, y las aves grises de la jungla y las aves de la jungla de Ceilán exhibieron el mayor grado de similitud entre las especies, con 36 loci en común. Por el contrario, no se detectaron loci comunes entre las aves de la selva verde y las aves de la selva roja. Entre las subespecies de aves de la selva roja, se detectaron 13 loci ERV comunes, con los loci más comunes identificados entre las aves de la selva roja y Gallus gallus spadiceus en Tailandia, con 57 ERV compartidos. El árbol de agrupamiento creado en base a todos los loci se muestra en la Fig. 1C. El árbol se ramificó en el siguiente orden: ave de la jungla verde, ave de la jungla de Ceilán, ave de la jungla gris y ave de la jungla roja.

Número de loci de retrovirus endógenos (ERV) detectados entre especies y subespecies y árbol filogenético. (A) Diagrama de Venn que indica el número de loci ERV en cuatro especies y la superposición entre cada loci ERV. (B) Diagrama de Venn que indica el número de loci ERV en aves de la selva roja y sus cinco subespecies y la superposición entre cada loci ERV. (C) Árbol filogenético construido en base a la presencia o ausencia de loci ERV. La barra indica cada distancia.

En total, se obtuvieron 367 loci que estaban ausentes en la referencia y poseían secuencias TSD en las secuencias contig flanqueantes 5' y 3'. De estos, 79 loci fueron identificados en múltiples especies o subespecies. Estos loci y secuencias se enumeran en la Tabla S4. Las secuencias obtenidas en la misma posición fueron muy similares. Por ejemplo, entre los grupos, se identificaron nueve sustituciones de nucleótidos en 346 pb en chr3:99,634,554. El análisis filogenético reveló que 362 de estas secuencias pertenecen a las LTR de la familia EAV. Simultáneamente, los cinco loci restantes eran LTR de los retrovirus endógenos relacionados con ALV-E, Ovex1 y MLV en tres, uno y un loci, respectivamente (Fig. 2A). Los LTR de la familia EAV se dividieron en cuatro grupos según sus patrones de secuencia, con las secuencias LTR divididas en las regiones U3, R y U5 (Fig. 2B y C). LTR-D fue consistente con EAV-21-3 (nº de acceso AJ6232390). LTR-A compartió las regiones R y U5 con LTR-D y U3 (de acuerdo con U3 de la adhesión AJ6232391) con LTR-B. LTR-C fue consistente con la secuencia de M31065 en todas las regiones. De manera similar, LTR-B y LTR-C compartían regiones R y U5 idénticas, pero las regiones U3 eran distintas.

Árbol filogenético y estructura de cada repetición terminal larga de retrovirus endógeno intacto (ERV-LTR). (A) Árbol filogenético construido en base a la secuencia de repetición terminal larga. (B) Alineación de la secuencia representativa de cuatro patrones de la familia de virus aviares endógenos (EAV). (C) Diagrama esquemático de la secuencia EAV-LTR detectada. Los patrones idénticos indican secuencias homólogas.

Después de recortar los datos de secuencia obtenidos en este estudio según criterios estrictos, más del 95 % de todos los pares de lectura se asignaron al genoma de referencia de Gallus, aunque se observó cierta variación en la profundidad. Por lo tanto, los datos de secuencia ensamblados se consideraron de alta calidad. Además, se intentó la detección de ERV-LTR de aves de la jungla utilizando pares inadecuados y lecturas de secuencias únicas que no se correspondían correctamente con el genoma de referencia. En total, se detectaron 835 loci ERV-LTR en el genoma de Gallus. Este resultado es altamente confiable porque la presencia de TSD se confirmó visualmente usando IGV para los puntos de corte detectados por RetroSeq, y el contig creado al recolectar las secuencias circundantes también contenía secuencias ERV-LTR. Estudios anteriores informaron el uso de genomas de G. gallus y datos de secuenciación de próxima generación para detectar ERV20,21. Por ejemplo, un estudio utilizó el software obsERVer junto con el genoma de referencia Galgal5 para detectar ALV-E en pollos comerciales, lo que resultó en la identificación de ALV-E en 20 loci20. De manera similar, se identificaron 75,22 ± 9,52 sitios de integración para EAV-HP en pollos comerciales, pollos nativos y aves rojas de la jungla utilizando Galgal421. Aunque las variaciones en las metodologías y los genomas de referencia dificultan las comparaciones directas, la acumulación de tales hallazgos sin duda contribuirá a una comprensión más completa de las características de los retrovirus de pollo endógenos. El método basado en RetroSeq utilizado en este estudio se dirige principalmente a loci ERV-LTR que no son de referencia y que, en teoría, están excluidos del genoma de G. gallus de referencia. Como resultado, se identificaron 835 ERV-LTR que no son de referencia en posiciones genómicas únicas.

El número de locus ERV-LTR identificados en las aves rojas de la selva y sus subespecies fue relativamente bajo en comparación con el número de ERV-LTR detectados en otras especies. Esta discrepancia podría atribuirse al uso del genoma de referencia de las aves rojas de la jungla, lo que podría haber resultado en una subestimación de la cantidad de ERV-LTR presentes, ya que no considera los ERV-LTR exclusivos de las aves rojas de la jungla que ya están presentes. en el genoma de referencia. Además, es posible que el método utilizado en este estudio aún no sea capaz de detectar todos los loci ERV-LTR que no sean de referencia, ya que es esencial para la detección una cantidad suficiente de pares inadecuados y singletons. En un ave de la selva verde específica, se observó un número significativamente alto de parejas impropias (31,59%). Este individuo exhibió un valor más alto (2011 loci) que otros individuos, incluso después del filtrado RetroSeq. Sin embargo, los loci finales de ERV-LTR identificados no fueron significativamente diferentes de los de los demás, lo que indica que cierto umbral de datos era adecuado para detectar ERV-LTR que no son de referencia. Sin embargo, de 835 ubicaciones obtenidas, solo se obtuvieron 367 contigs con TSD en ambos lados. Esta diferencia se debe en parte al número insuficiente de lecturas, que podría mejorarse en cierta medida aumentando el tamaño de los datos. Sin embargo, se ha observado que en humanos, los ERV tienen una tendencia a acumularse en regiones del genoma que son de baja complejidad y repetitivas22,23,24. Además, la detección de ERV que contienen regiones gag, pol y env, así como solo-LTR, plantea un desafío cuando se utiliza secuenciación de lectura corta. Por lo tanto, se debe considerar el uso de tecnologías de secuenciación de lectura larga, como la secuenciación en tiempo real de una sola molécula y la secuenciación de nanoporos, para determinar la secuencia de inserción completa.

La familia ALV es más joven que la familia EAV porque solo se encuentra en pollos domésticos y aves rojas de la selva, mientras que la familia EAV está restringida a todas las especies de Gallus25. Este estudio detectó el LTR derivado de la familia EAV en todas las especies, mientras que el ALV-E se detectó solo en las aves rojas de la selva y sus subespecies, lo cual es consistente con informes anteriores. Por lo tanto, se cree que ALV-E es una secuencia internalizada en el genoma de las aves rojas de la jungla después de la divergencia de la población de aves rojas de la jungla del género Gallus. Se cree que las especies con ERV en el mismo locus se separaron después de que su ancestro común se infectara con un retrovirus, que se internalizó. Un estudio previo26 estimó la edad aproximada de divergencia del género Gallus. Calcularon que las aves de la selva rojas y las aves de la selva grises divergieron hace 2,56 millones de años, las aves de la selva rojas y las aves de la selva de Ceilán divergieron hace 2,88 millones de años, las aves de la selva grises y las aves de la selva de Ceilán divergieron hace 1,77 millones de años, y las aves de la selva verdes y otras especies de Gallus divergieron aproximadamente entre 4,0 y 4,1 millones de años. En general, el árbol filogenético construido a partir de los loci ERV-LTR obtenidos en este estudio fue generalmente consistente con las relaciones filogenéticas informadas anteriormente. Sin embargo, no reflejó la edad de ramificación (Fig. 1C).

Tres loci (chr3:40,992,728, chr3:101,202,255 y chr11:7,946,729) no fueron consistentes con las relaciones filogenéticas reportadas previamente. Por ejemplo, en chr3:101,202,255, los ERV-LTR se detectaron solo en aves de la jungla roja, aves de la jungla de Ceilán y aves de la jungla verde, pero no en aves de la jungla gris. Dichos ERV-LTR podrían haberse perdido del locus a través de la recombinación u otros mecanismos durante la especiación. Alternativamente, podría haber habido casos de introgresión entre las especies evolutivamente distantes. Investigaciones anteriores sugirieron que la introgresión de las aves verdes de la jungla a los pollos domésticos podría haber ocurrido en el cromosoma 512. Además, el análisis de datos del genoma completo ha demostrado una mezcla entre las especies de aves verdes de la jungla y aves rojas de la jungla en Indonesia26.

Una comparación de las secuencias LTR en el mismo locus reveló sustituciones de nucleótidos entre especies y subespecies. Además, se observaron varios patrones de secuencia en las regiones U3, R y U5 de la LTR de la familia EAV en este estudio. Esta variación podría ser consecuencia de la recombinación intrafamiliar, como se informó previamente27. Aunque estas sustituciones y variaciones de LTR no reflejan necesariamente la divergencia genética, podrían respaldar la aproximación de la compleja historia de la introgresión pasada. Un examen más detallado de la difusión de los ERV en regiones contiguas podría mejorar nuestra comprensión de la especiación. A diferencia de los análisis filogenéticos anteriores basados ​​en secuencias asignadas a un genoma de referencia, este estudio empleó secuencias que no existen en el genoma de referencia, lo que podría facilitar análisis filogenéticos más detallados junto con métodos anteriores.

En el presente estudio, se detectaron 306 secuencias de ERV en los genes, algunas de las cuales estaban asociadas con la adhesión celular. La presencia de ERV en el genoma del pollo afecta al huésped. Por ejemplo, uno de los efectos conocidos de los ERV en pollos es el fenotipo de cáscara de huevo azul; el gen SLCO1B3 se expresa en el útero de gallinas que ponen huevos con cáscara azul pero no en gallinas sin cáscara azul8. Se identificó una inserción de EAV-HP en la región flanqueante 5' de SLCO1B3, y la hibridación in situ reveló EAV-HP en la región flanqueante 5' de SLCO1B38. La hibridación in situ mostró que la inserción de EAV-HP estaba asociada con el fenotipo de cáscara de huevo azul. En el presente estudio, se detectó la inserción de LTR en genes relacionados con la adhesión celular, como RELN, CNTN5, CDH20, CDH7, TENM1, SPON1, NRXN3 y CDH4. La región U3 de una LTR contiene secuencias potenciadoras y promotoras que impulsan la transcripción viral28. Contiene otras señales reguladoras de la transcripción, como la caja TATA29. La secuencia LTR insertada en CNTN5 y NRXN3 contenía la caja TATA, lo que sugiere que la inserción de ERV-LTR podría haber jugado un papel en la evolución de los procesos de adhesión celular. Se requiere más investigación para comprender completamente los mecanismos por los cuales los ERV-LTR influyen en la evolución de la adhesión celular y otros procesos biológicos. Además, si los ERV-LTR de los pollos comerciales son casi tan diversos, en términos de polimorfismos de ERV, como los ERV-LTR de las aves de la selva detectados en este estudio, los futuros análisis de ERV de pollos comerciales y nativos podrían ser una fuente importante de novedad genética. para programas de cría de pollos.

Los datos WGS obtenidos por Illumina HiSeq 2000 o 2500, de un total de 39 individuos12,30, incluidas 16 aves de la selva roja, aves de la selva de 8 Gy, 10 aves de la selva de Ceilán y 5 aves de la selva verde, se obtuvieron en formato fastq del Archivo Europeo de Nucleótidos (Estudio Las accesiones fueron PRJNA432200 y PRJNA552030). Las aves rojas de la jungla incluían las subespecies, tres Gallus gallus murghi, dos Gallus gallus bankiva y siete en total G. g. spadiceus individuos de poblaciones en India, Tailandia y Vietnam. Los ID de acceso se enumeran en la Tabla S1. Los nucleótidos con puntajes de baja calidad en estas lecturas se recortaron y los adaptadores se quitaron con Trimmomatic v.0.36 usando la configuración ILLUMINACLIP: TruSeq3-PE:2:30:10, LEADING:3, SLIDINGWINDOW:4:20 y MINLEN:3031 . Las lecturas se asignaron al genoma de referencia de G. gallus (GRCg6a, registro de ensamblaje de GenBank: GCF_000002315.6) utilizando los algoritmos Burrows-Wheeler Aligner y Mem. Los datos se produjeron en formato BAM.

La detección de ERV se realizó de acuerdo con un método anterior15,16. Se definieron los tipos de pares de lectura asignados al genoma de referencia y se extrajeron lecturas de secuencia que fueron útiles para este estudio. La mayoría de las lecturas de extremos emparejados se obtuvieron del mapa WGS del genoma de referencia. Sin embargo, los pares de lectura no coincidentes también pueden ocurrir con orientaciones y tamaños de intervalo inesperados. Los pares no propios son aquellos en los que el extremo 5' o 3' se mapea en una secuencia contig en el genoma de referencia y el otro extremo se mapea total o parcialmente en un locus inesperado. Un singleton se refiere al mapeo del genoma de referencia. Un singleton se refiere a un extremo de un par de lectura que no se asigna al genoma de referencia, mientras que un par de lectura no asignado se refiere a ambos extremos de un par de lectura que no se asigna al genoma de referencia (Fig. 3). Los pares de lectura no coincidentes pueden proporcionar información sobre los loci relacionados con LTR como anclas. El software RetroSeq se utilizó para detectar elementos de transposón (TE) que no son de referencia mediante lecturas no coincidentes17. El flujo del proceso se ilustra en la Fig. 3. Las secuencias de ERV utilizadas para RetroSeq se obtuvieron del Centro Nacional de Información Biotecnológica (NCBI, Bethesda, MD, EE. UU.) y se enumeran en la Tabla S5. El genoma de referencia fue GRCg6a, que contenía solo autosomas y cromosomas sexuales. En el paso de "llamada" de RetroSeq, las posiciones de inserción de TE (puntos de interrupción) se estimaron utilizando las lecturas detectadas en la fase de "descubrimiento", como se informó anteriormente. El paso de llamada se estableció en ≥ 10 para reducir los falsos positivos y la opción de profundidad de lectura máxima por llamada se estableció en 10 000 para aumentar la cobertura de BAM. Todas las demás opciones de RetroSeq se usaron con sus valores predeterminados. Se utilizó un mínimo de siete puntos de corte de nivel de filtro. Un punto de ruptura detectado dentro de los 500 pb se consideró idéntico y se excluyó. El IGV se usó para detectar loci que contenían TSD. Usando la funcionalidad de secuencia de comandos por lotes de IGV, se obtuvo una captura de pantalla en cada locus genómico detectado por la canalización de análisis RetroSeq y se examinó cuidadosamente. Se suponía que los loci eran TSD si se asignaban a lecturas detectadas durante la fase de "descubrimiento", ya sea desde el lado 5 'o 3', superpuestos de 1 a 10 pb (Fig. 3). Las lecturas de 5 'y 3' mapeadas dentro de 150 pb de TSD se extrajeron utilizando SAMtools32. El conjunto de lectura extraído se usó para generar el contig usando el software CAP333. Las secuencias contig obtenidas mediante CAP3 se utilizaron para una búsqueda blastn19. Se utilizó el valor e más bajo para determinar la clase de ERV. Cada secuencia de 200 pb aguas arriba y aguas abajo del punto de ruptura se extrajo del genoma de referencia y se sometió a blastn para eliminar la posibilidad de detectar secuencias de ERV en el genoma de referencia. Los loci que coincidían con los ERV se excluyeron del análisis. A partir de la secuencia contigua obtenida dentro de la región delimitada a ambos lados por la secuencia TSD o la secuencia de seis pares de bases en los lados 5' y 3' adyacentes de la TSD, se dedujo una secuencia que no existía en el genoma de referencia, respectivamente. si la longitud TSD era insuficiente.

Canalización para la detección de repeticiones terminales largas (ERV-LTR) de retrovirus endógenos Gallus que no son de referencia en datos de lectura de secuenciación del genoma completo (WGS). En el panel superior derecho, la línea negra indica la secuencia del genoma de referencia del pollo. Los cuadros azules y rojos conectados con líneas indican los extremos 5 'y 3' de una lectura de secuenciación de extremos emparejados. La mayoría de las lecturas de extremos emparejados se identificaron como un mapeo adecuado, mientras que un pequeño porcentaje de ellas era un mapeo incorrecto. Par propio: ambos extremos de la secuencia de extremos emparejados mapeados con precisión (a). Lectura discordante y lectura dividida: un extremo de la secuencia de extremos emparejados se asignó con precisión, mientras que el otro extremo solo se identificó parcialmente en el lugar esperado en el genoma de referencia. La secuencia no identificada podría mapearse en cualquier otro lugar del genoma de referencia (b, c). Singleton: un extremo de la secuencia de extremos emparejados mapeada con precisión, mientras que el otro extremo no se mapeó en el genoma de referencia (d). Pares de lectura no mapeados: ninguno de los dos mapeados al genoma de referencia (e). Se utilizaron lecturas discordantes, lecturas divididas y singletons para el análisis RetroSeq. En el panel central derecho, se usa una vista representativa del Integrative Genomics Viewer (IGV) para confirmar la presencia de duplicaciones del sitio de destino (TSD) en cada locus, detectadas con RetroSeq, extraer lecturas de soporte de los loci TSD, realizar ensamblaje local y analice los contigs para detectar la presencia de retrovirus endógenos (ERV) y uniones genómicas de ambos lados. "A" indica las personas que tienen TSD y "B" indica las personas que no tienen TSD. El panel inferior derecho muestra un diagrama conceptual del ensamblaje local de novo utilizando CAP3. Las secuencias en rojo indican secuencias que no están presentes en el genoma de referencia y las secuencias en púrpura indican TSD.

Los loci ERV identificados se examinaron en busca de inserciones dentro del gen usando IGV. Los análisis GO para cada gen con una secuencia ERV se realizaron utilizando el paquete R clusterProfiler34. La presencia o ausencia de ERV en cada locus se asumió como uno o cero para la agrupación entre especies y subespecies. El árbol filogenético basado en agrupamiento se generó utilizando la función "dist.binary" con ade435 y "hclust" utilizando el paquete ape36 del software R37. Las secuencias ERV-LTR de cada locus se alinearon usando ClustalW38 y se construyó un árbol filogenético usando el método de máxima verosimilitud en MEGA X39,40. Los árboles filogenéticos y las alineaciones se visualizaron utilizando FigtTee v1.4.4 (http://tree.bio.ed.ac.uk/software/figtree/) y Mview v1.6741, respectivamente.

Las secuencias LTR de cada locus y cada junglefowl se enumeran en la Tabla S4. Los conjuntos de datos utilizados y/o analizados durante el estudio actual están disponibles del autor correspondiente a pedido razonable.

Boeke, JD & Stoye, JP Retrotransposones, retrovirus endógenos y la evolución de los retroelementos. En Retrovirus (eds Hughes, S. & Varmus, H.) 343–435 (Cold Spring Harbor Laboratory Press, 1997).

Benkel, BF Pruebas de diagnóstico específicas de locus para loci virales endógenos de tipo leucosis aviar en pollos. Pavipollo. ciencia 77, 1027-1035 (1998).

Artículo CAS PubMed Google Académico

Sacco, MA & Nair, VK Prototipo de retrovirus aviares endógenos del género Gallus. J. Gen. Virol. 95, 2060–2070 (2014).

Artículo CAS PubMed Google Académico

Lander, ES et al. Secuenciación inicial y análisis del genoma humano. Naturaleza 409, 860–921 (2001).

Artículo ADS CAS PubMed Google Scholar

Huda, A., Polavarapu, N., Jordan, IK & McDonald, JF Retrovirus endógenos del genoma del pollo. Biol. Directo. 3, 1–5 (2008).

Artículo Google Académico

Bai, J., Payne, LN & Skinner, MA HPRS-103 (virus de la leucosis aviar exógeno, subgrupo J) tiene un gen env relacionado con los elementos endógenos EAV-0 y E51 y un elemento E encontrado previamente solo en virus de sarcoma. J.Virol. 69, 779–784 (1995).

Artículo CAS PubMed PubMed Central Google Scholar

Smith, LM et al. Nuevas secuencias retrovirales endógenas en el genoma del pollo estrechamente relacionadas con el virus de la leucosis aviar HPRS-103 (subgrupo J). J. Gen. Virol. 80, 261–268 (1999).

Artículo CAS PubMed Google Académico

Wang, Z. et al. Una inserción de EAV-HP en la región flanqueante 5 'de SLCO1B3 provoca una cáscara de huevo azul en el pollo. PLoS Genet. 9, e1003183. https://doi.org/10.1371/journal.pgen.1003183 (2013).

Artículo CAS PubMed PubMed Central Google Scholar

Fumihito, A. et al. Una subespecie del ave roja de la jungla (Gallus gallus gallus) es suficiente como antepasado matriarcal de todas las razas domésticas. proc. nacional Academia ciencia EE. UU. 91, 12505–12509 (1994).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Fumihito, A. et al. Origen monofilético y patrones de dispersión únicos de las aves domésticas. proc. nacional Academia ciencia USA 93, 6792–6795 (1996).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Eriksson, J. et al. La identificación del gen de la piel amarilla revela un origen híbrido del pollo doméstico. PLoS Genet. 4, e1000010. https://doi.org/10.1371/journal.pgen.1000010 (2008).

Artículo CAS PubMed PubMed Central Google Scholar

Lawal, RA et al. La ascendencia del genoma de las especies silvestres de los pollos domésticos. BMC Biol. 18, 13. https://doi.org/10.1186/s12915-020-0738-1 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Nishibori, M., Shimogiri, T., Hayashi, T. & Yasue, H. Evidencia molecular de hibridación de especies del género Gallus excepto Gallus varius. Animación Gineta. 36, 367–375 (2005).

Artículo CAS PubMed Google Académico

Li, H. Alineación de lecturas de secuencias, secuencias de clones y contigs de ensamblaje con BWA-MEM. arXiv:1303.3997v2; https://doi.org/10.48550/arXiv.1303.3997 (2013).

Ishihara, S. et al. Detección de loci de retrovirus endógenos porcinos no de referencia en el genoma del cerdo nativo vietnamita. ciencia Rep. 12, 10485. https://doi.org/10.1038/s41598-022-14654-4 (2022).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Wildschutte, JH et al. Descubrimiento de inserciones de retrovirus endógenos no fijados en diversas poblaciones humanas. proc. nacional Academia ciencia EE. UU. 113, E2326–E2334. https://doi.org/10.1073/pnas.1602336113 (2016).

Artículo CAS PubMed PubMed Central Google Scholar

Keane, TM, Wong, K. & Adams, DJ RetroSeq: Descubrimiento de elementos transponibles a partir de datos de secuenciación de próxima generación. Bioinformática 29, 389–390 (2013).

Artículo CAS PubMed Google Académico

Thorvaldsdóttir, H., Robinson, JT & Mesirov, JP Integrative Genomics Viewer (IGV): visualización y exploración de datos genómicos de alto rendimiento. Breve. Bioinformar. 14, 178–192 (2013).

Artículo PubMed Google Académico

Altschul, SF, Gish, W., Miller, W., Myers, EW & Lipman, DJ Herramienta básica de búsqueda de alineación local. J. Mol. Biol. 215, 403–410 (1990).

Artículo CAS PubMed Google Académico

Masón, AS et al. Identificación y caracterización de inserciones endógenas del subgrupo E del virus de la leucosis aviar (ALVE) en datos de secuenciación del genoma completo de pollo. Multitud. ADN 11, 22. https://doi.org/10.1186/s13100-020-00216-w (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Wragg, D. et al. El análisis de todo el genoma revela el grado de integración de EAV-HP en pollos domésticos. Genoma BMC. 16, 784. https://doi.org/10.1186/s12864-015-1954-x (2015).

Artículo CAS Google Académico

Gemmell, P., Hein, J. y Katzourakis, A. Los retrovirus endógenos ortólogos exhiben una selección direccional desde la división chimpancé-humano. Retrovirología 12, 52. https://doi.org/10.1186/s12977-015-0172-6 (2015).

Artículo CAS PubMed PubMed Central Google Scholar

Tokuyama, M. et al. El análisis de ERVmap revela la transcripción de todo el genoma de los retrovirus endógenos humanos. proc. nacional Academia ciencia EE. UU. 115, 12565–12572. https://doi.org/10.1073/pnas.1814589115 (2018).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Xiang, Y. & Liang, H. La regulación y funciones de los retrovirus endógenos en el desarrollo embrionario y la diferenciación de células madre. Células Madre Int. 2021, 6660936. https://doi.org/10.1155/2021/6660936 (2021).

Artículo PubMed PubMed Central Google Académico

Borisenko, L. & Rynditch, AV Secuencias de nucleótidos completas de retrovirus endógenos relacionados con ALV disponibles a partir del proyecto de secuencia del genoma de pollo. Folia Biol. 50, 136–141 (2004).

CAS Google Académico

Guo, Y. et al. La investigación sobre la estructura fina y la mezcla de la población de pollos en todo el mundo revela conexiones entre las poblaciones y eventos importantes en la historia de la cría. Evol. aplicación 15, 553–564 (2022).

Artículo PubMed Google Académico

Sanchez, DH, Gaubert, H., Drost, HG, Zabet, NR y Paszkowski, J. Recombinación de alta frecuencia entre miembros de una familia de retrotransposones LTR durante ráfagas de transposición. Nat. común 8, 1283. https://doi.org/10.1038/s41467-017-01374-x (2017).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Grandi, N. & Tramontano, E. Los retrovirus endógenos humanos son elementos adquiridos antiguos que aún dan forma a las respuestas inmunitarias innatas. Frente. inmunol. 9, 2039. https://doi.org/10.3389/fimmu.2018.02039 (2018).

Artículo CAS PubMed PubMed Central Google Scholar

Benachenhou, F. et al. Estructura conservada e historia evolutiva inferida de repeticiones terminales largas (LTR). Multitud. ADN 4, 5. https://doi.org/10.1186/1759-8753-4-5 (2013).

Artículo CAS PubMed PubMed Central Google Scholar

Mariadassou, M. et al. Desentrañando la historia del género Gallus a través de la secuenciación del genoma completo. mol. Filogeneta. Evol. 158, 107044. https://doi.org/10.1016/j.ympev.2020.107044 (2021).

Artículo PubMed Google Académico

Bolger, AM, Lohse, M. y Usadel, B. Trimmomatic: un recortador flexible para datos de secuencia de Illumina. Bioinformática 30, 2114–2120 (2014).

Artículo CAS PubMed PubMed Central Google Scholar

Li, H. et al. El formato de mapa/alineación de secuencias y SAMtools. Bioinformática 25, 2078–2079 (2009).

Artículo PubMed PubMed Central Google Académico

Huang, X. & Madan, A. CAP3: Un programa de ensamblaje de secuencias de ADN. Genoma Res. 9, 868–877 (1999).

Artículo CAS PubMed PubMed Central Google Scholar

Yu, G., Wang, LG, Han, Y. & He, QY ClusterProfiler: un paquete R para comparar temas biológicos entre grupos de genes. OMICS J. Integr. Biol. 16, 284–287 (2012).

Artículo CAS Google Académico

Dray, S. & Dufour, AB El paquete ade4: Implementando el diagrama de dualidad para ecologistas. Estado J. suave https://doi.org/10.18637/jss.v022.i04 (2007).

Artículo Google Académico

Paradis, E. & Schliep, K. ape 5.0: un entorno para la filogenética moderna y los análisis evolutivos en R. Bioinformatics 35, 526–528 (2019).

Artículo CAS PubMed Google Académico

Equipo central R. R: Un lenguaje y entorno para la computación estadística. R Fundación para la Informática Estadística, Viena. https://cran.r-project.org (2020).

Thompson, JD, Higgins, DG y Gibson, TJ CLUSTAL W: mejora de la sensibilidad de la alineación progresiva de secuencias múltiples a través de la ponderación de secuencias, penalizaciones de brecha específicas de posición y elección de matriz de ponderación. Ácidos Nucleicos Res. 22, 4673–4680 (1994).

Artículo CAS PubMed PubMed Central Google Scholar

Kumar, S., Stecher, G., Li, M., Knyaz, C. y Tamura, K. MEGA X: análisis de genética evolutiva molecular en plataformas informáticas. mol. Biol. Evol. 35, 1547-1549 (2018).

Artículo CAS PubMed PubMed Central Google Scholar

Stecher, G., Tamura, K. & Kumar, S. Análisis de genética evolutiva molecular (MEGA) para macOS. mol. Biol. Evol. 37, 1237–1239 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Brown, NP, Leroy, C. & Sander, C. MView: una búsqueda de base de datos compatible con la web o un visor de alineación múltiple. Bioinformática 14, 380–381 (1998).

Artículo CAS PubMed Google Académico

Descargar referencias

Este trabajo fue apoyado por la Sociedad Japonesa para la Promoción de la Ciencia Grant-in-Aid for Early-Career Scientists, Grant Number 22K14907. Los cálculos se realizaron parcialmente en la supercomputadora NIG en el Instituto Nacional de Genética ROIS. El autor desea agradecer a Editage (www.editage.com) por la edición en inglés.

Departamento de Ciencia Animal, Universidad Nippon Veterinary and Life Science, 1-7-1 Kyonancho, Musashino, Tokio, 180-8602, Japón

Shinya Ishihara

También puede buscar este autor en PubMed Google Scholar

SI realizó todos los experimentos, análisis de datos y redacción del manuscrito final.

Correspondencia a Shinya Ishihara.

El autor declara que no hay conflictos de intereses.

Springer Nature se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso abierto Este artículo tiene una licencia internacional Creative Commons Attribution 4.0, que permite el uso, el intercambio, la adaptación, la distribución y la reproducción en cualquier medio o formato, siempre que se otorgue el crédito correspondiente al autor o autores originales y a la fuente. proporcionar un enlace a la licencia Creative Commons e indicar si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la regulación legal o excede el uso permitido, deberá obtener el permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Ishihara, S. Detección de loci repetidos terminales largos derivados de retrovirus endógenos en aves de la jungla mediante secuenciación del genoma completo. Informe científico 13, 7380 (2023). https://doi.org/10.1038/s41598-023-34520-1

Descargar cita

Recibido: 26 enero 2023

Aceptado: 03 mayo 2023

Publicado: 06 mayo 2023

DOI: https://doi.org/10.1038/s41598-023-34520-1

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.

Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y Pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.