banner
Centro de Noticias
Elegante y moderno

Las metiltransferasas itinerantes generan un paisaje epigenético en mosaico e influyen en la evolución en el grupo Bacteroides fragilis

Aug 20, 2023

Nature Communications volumen 14, número de artículo: 4082 (2023) Citar este artículo

3773 Accesos

41 altmétrica

Detalles de métricas

Se han detectado tres tipos de modificaciones de metilo del ADN en genomas bacterianos, y estudios mecanicistas han demostrado funciones de la metilación del ADN en funciones fisiológicas que van desde la defensa de los fagos hasta el control transcripcional de la virulencia y las interacciones huésped-patógeno. A pesar de la ubicuidad de las metiltransferasas y la inmensa variedad de posibles patrones de metilación, la diversidad epigenómica permanece inexplorada para la mayoría de las especies bacterianas. Los miembros del grupo Bacteroides fragilis (BFG) residen en el tracto gastrointestinal humano como actores clave en comunidades simbióticas, pero también pueden establecer infecciones anaeróbicas que son cada vez más resistentes a múltiples fármacos. En este trabajo, utilizamos tecnologías de secuenciación de lectura larga para realizar análisis pangenómicos (n = 383) y panepigenómicos (n = 268) de aislados clínicos de BFG cultivados a partir de infecciones observadas en el Centro Clínico de los NIH durante cuatro décadas. Nuestro análisis revela que una sola especie de BFG alberga cientos de motivos de metilación del ADN, y la mayoría de las combinaciones de motivos individuales ocurren únicamente en aislados individuales, lo que implica una inmensa diversidad de metilación no muestreada dentro de los epigenomas de BFG. La extracción de genomas de BFG identificó más de 6000 genes de metiltransferasa, aproximadamente 1000 de los cuales estaban asociados con profagos intactos. El análisis de la red reveló un flujo genético sustancial entre genomas de fagos dispares, lo que implica un papel del intercambio genético entre fagos BFG como una de las fuentes principales que impulsan la diversidad del epigenoma BFG.

Se ha detectado metilación del ADN genómico en los tres dominios de la vida celular, así como en virus1,2,3. Los genomas eucariotas muestran metilación dinámica de la citosina en la posición C5 (5mC) dentro de ciertos contextos CpG (5'-CG-3'), y la regulación de esta metilación de CpG en sitios específicos afecta la transcripción4, la dinámica de reparación del genoma y la compactación del genoma5. Por el contrario, las bacterias muestran una metilación del ADN específica de un motivo (p. ej., 5'-CC-6mA-TGG-3'), donde casi todas las instancias de un motivo determinado pueden estar metiladas6. Al igual que en los genomas eucariotas, las modificaciones de 5 mC son comunes; sin embargo, los genomas bacterianos muestran metilación adicional en la posición N4 de las citosinas (4 mC) y, más comúnmente, en la posición N6 de las adeninas (6 mA)6. La metilación del ADN bacteriano se lleva a cabo mediante ADN metiltransferasas, algunas de las cuales parecen estar presentes y activas en todas las cepas de una especie determinada (p. ej., Dam, que modifica GATC en Escherichia coli), mientras que otras ADN metiltransferasas y los genes que las codifican son transitoriamente. se ganan y se pierden con el tiempo y no son esenciales para la viabilidad del cultivo7. Clásicamente, la metilación del ADN bacteriano se ha entendido principalmente como un subproducto de la defensa antifagos basada en sistemas de modificación de restricción8. Sin embargo, ahora han quedado claras otras consecuencias fisiológicas del mantenimiento del ADN metilado, a menudo en miles de loci. Los estudios han demostrado funciones de la metilación del ADN bacteriano en la regulación de la actividad transcripcional que controla los fenotipos de virulencia9,10,11 y otros programas fisiológicos12,13, la estabilidad del genoma14,15 y afecta la frecuencia de mutaciones dentro de motivos metilados16,17, similar a las observaciones en sistemas eucarióticos.

Las bacterias del grupo Bacteroides fragilis (BFG) representan más de una docena de especies de los géneros Bacteroides, Parabacteroides y Phocaeicola recientemente introducidos18. Estos abundantes simbiontes se pueden encontrar fácilmente viviendo anaeróbicamente en el tracto gastrointestinal humano y han sido implicados en muchas funciones metabólicas e inmunes importantes19,20,21. También se encuentran entre las bacterias que se recuperan con mayor frecuencia de infecciones anaeróbicas extraintestinales y son cada vez más resistentes a muchos antibióticos, incluidas las cefalosporinas y los carbapenémicos22,23. Su amplio ámbito fenotípico está permitido en parte por la variación de fase, una variedad de loci de utilización de polisacáridos y el uso de promotores invertibles24,25.

En este trabajo, se estudiaron aislados clínicos de una colección histórica de BFG que abarca cuatro décadas utilizando una combinación de secuenciación genómica de lectura corta y larga, análisis de metiloma y fenotipado de susceptibilidad a los antimicrobianos. El alcance integral del análisis de metiloma realizado en este estudio, en combinación con ensamblajes contiguos de lectura larga, reveló un panorama epigenético en aislados clínicos de BFG de una diversidad inmensa y previamente no apreciada. Se identificaron cientos de motivos de metilación del ADN que contienen 5 mC, 4 mC y 6 mA en todos los genomas, y casi todas las combinaciones de motivos se observaron solo en aislados únicos. Algunos motivos de metilación del ADN estaban fuertemente enriquecidos dentro de linajes particulares dentro de una especie, y con frecuencia se observó evidencia de agotamiento de estas secuencias de motivos en todo el genoma en estos mismos linajes, lo que sugiere selección y apunta a la metilación del ADN como un impulsor de la evolución del genoma en el BFG.

Se recolectaron y almacenaron criogénicamente más de 600 aislados clínicos de BFG cultivados durante el curso de la atención de rutina de pacientes en el Centro Clínico de los NIH en Bethesda, MD, EE. UU. entre 1973 y 2018. Se seleccionó un conjunto de 383 aislados de esta colección para representar un rango de fechas, especies y perfiles de resistencia a los antimicrobianos. Los genomas aislados se secuenciaron con secuenciación de nanoporos de lectura larga (n = 383), y un subconjunto representativo (n = 13) recibió secuenciación PacBio SMRT adicional (Datos complementarios 1). Se realizó un ensamblaje de novo de genomas, y en el 68,1% (261/383) de los aislados, los cromosomas se ensamblaron como un único cóntig circular (Figura complementaria 1A), con una longitud de 3,9 a 7,2 megabases. La evaluación de la calidad del ensamblaje indicó que en estos ensamblajes se podían resolver largas regiones repetitivas. Por ejemplo, algunos aislados contenían más de diez copias en tándem y no en tándem de Tn4555, un transposón de 12 kilobases (kb) que porta cfxA, un gen de beta lactamasa26, y el enfoque de lectura larga permitió la resolución del número de copias y las ubicaciones genómicas de estas repeticiones ( Figura complementaria 1B). Además, el análisis de genomas circularizados mostró que se podían detectar entre 3 y 7 operones de ARNr (>5 kb cada uno) en ensamblajes (Figura complementaria 1C). El número de operones de ARNr identificados por cromosoma circular correspondió a los valores esperados para la especie en casi todos los casos según los datos derivados de la base de datos de ARN ribosómico27.

La taxonomía de cada aislado se investigó con dos métodos. En primer lugar, se utilizó el Bruker Biotyper28,29 para analizar lisados ​​bacterianos mediante espectrometría de masas MALDI-TOF. Luego, se empleó el GTDB-Tk30 en secuencias del genoma para colocar cada una en un contenedor a nivel de especie (Fig. 1). Estos métodos fueron en gran medida congruentes, coincidiendo en 360/383 genomas aislados (94,0%), aunque se informaron números diferentes de designaciones de especies finales, con 15 identificados por MALDI-TOF y 21 por GTDB-Tk. Estas discrepancias se explican en parte por el hecho de que GTDB-Tk utiliza una estructura taxonómica más nueva que ha dividido algunas especies/géneros relevantes. Según la identificación de Bruker Biotyper, Bacteroides fragilis sensu estricto fue la especie más común en el conjunto de aislamientos, aportando 135 asignaciones únicas a nivel de especie, seguida de Bacteroiodes thetaiotaomicron (n = 80), Bacteroides ovatus (n = 51) y Bacteroides vulgatus (n = 32) (ver Métodos). La diversidad genética de este conjunto de datos se visualizó mediante las distancias de similitud de nucleótidos por pares entre todos los genomas aislados (Figura complementaria 2), lo que muestra una clara agrupación a nivel de especie. Cabe señalar que recientemente se ha propuesto y aceptado el nombre Phocaeicola vulgatus para Bacteroides vulgatus (B. vulgatus)29. El nombre B. vulgatus se conserva en todo este manuscrito para mantener la coherencia con la mayor parte de la literatura existente.

Cladograma del gen marcador MLST de genomas BFG secuenciados en este estudio complementados con genomas de referencia Genbank (n = 462 en total). Las asignaciones de taxonomía se definieron proteómicamente con espectrometría de masas MALDI-TOF (Bruker Biotyper) y genómicamente con GTDB-Tk. Los datos de “Fuente” y “Década” se extrajeron de registros de metadatos de laboratorios clínicos.

Se realizaron pruebas de susceptibilidad antimicrobiana para siete antibióticos (ampicilina, ampicilina/sulbactam, piperacilina/tazobactam, meropenem, metronidazol, moxifloxacina, clindamicina y tetraciclina) en 324 aislados secuenciados mediante el método de dilución en agar de referencia (Fig. 1 y Datos complementarios 2). Esta prueba demostró patrones de resistencia heterogéneos y complejos entre los aislados de cada especie y los aislados de la década más reciente exhibieron patrones de resistencia similares a otros trabajos publicados23,29. De acuerdo con estudios anteriores, encontramos que la resistencia a varios antibióticos, incluidos piperacilina-tazobactam y meropenem, parece haber aumentado en ciertas especies como B. fragilis y B. ovatus desde la década de 1980 hasta la de 2010 (Figura 3A complementaria). Esto fue respaldado hasta cierto punto por un aumento concomitante en ciertos genes de resistencia a los antimicrobianos durante el mismo período (Figura complementaria 3B).

El análisis del pangenoma31 de ocho especies del estudio actual complementado con genomas de referencia adicionales de GenBank reveló que las familias de genes accesorios (nube y caparazón) en cada especie variaban del 29,0% (Bacteroides faecis) al 42,2% (B. ovatus) del contenido genético total ( Figura 2a). Además, el análisis de rarefacción (Fig. 2b) y las estimaciones de la ley de Heap (Tabla complementaria 1) demostraron que el pangenoma de cada especie permaneció abierto y algunas especies contenían más de 20 000 genes muestreados dentro del conjunto de datos, lo que implica que un inmenso número de familias de genes adicionales esperan. descubrimiento dentro del BFG. Esta apertura del pangenoma es en gran medida consistente con los genomas ensamblados del metagenoma de Bacteroides derivados del intestino32.

a Gráficos de barras apilados que cuantifican el número promedio de genes persistentes, de caparazón y de nubes en ocho especies. b Análisis de pangenoma para un subconjunto de especies de BFG. Las curvas de rarefacción indican pangenomas abiertos en el conjunto secuenciado, y los tres pangenomas más grandes muestran más de 20.000 genes cada uno. c Análisis de contenido de región accesoria y elemento genético móvil. El panel superior muestra contenedores de distribución a nivel de especie para más de 33.000 regiones accesorias/elementos genéticos móviles. “Especie” indica el número de especies que comparten el número indicado de regiones accesorias o elementos genéticos móviles. El gráfico de barras del panel inferior emparejado indica las características anotadas de las regiones accesorias como porcentaje de cada contenedor de nivel extendido emparejado en el panel superior.

Para comprender el flujo de genes y elementos genéticos móviles entre genomas y especies, se extrajeron 31,436 regiones accesorias (secuencias de ADN de >3 kb de longitud que codifican solo genes accesorios, Datos complementarios 3) de 414 genomas que representan 13 especies para las cuales se utilizaron tres o más genomas. disponibles (378 genomas de este estudio y 36 genomas del NCBI)33. La comparación de cada secuencia de regiones accesorias con todas las demás en este conjunto demostró que> 10% de dichas regiones se compartían entre especies, lo que sugiere una transferencia horizontal (Fig. 2c). Se sondeó cada región accesoria en busca de una variedad de características y se encontró que los fagos, los sistemas de defensa de los fagos, las ADN metiltransferasas, la maquinaria conjugativa, los episomas/plásmidos y los genes de resistencia a los antimicrobianos (AMR) eran más comunes en las regiones accesorias detectadas en tres o más especies (Fig. 2c). Por ejemplo, se detectaron regiones accesorias que codifican el gen de resistencia a la tetraciclina tet(Q) y/o un casete con los genes tet(X)1, tet(X)2 y la enzima modificadora de aminoglucósidos aadS en 12 de 13 especies analizadas (Fig. 2 y Fig. complementaria 4), probablemente confirmando un historial de presión selectiva por compuestos de tetraciclina y aminoglucósidos.

Muchas bacterias patógenas de importancia médica, incluidas Enterobacterales y gammaproteobacterias relacionadas, portan una gran proporción de genes AMR extracromosómicamente en plásmidos34. El conjunto de datos analizado en este trabajo arrojó 575 plásmidos o episomas circulares completos en los 383 genomas aislados secuenciados (Datos complementarios 4), pertenecientes a 85 grupos de >95% de identidad de nucleótidos promedio (ver Métodos) (Figura complementaria 5A). La mayoría de los contigs circulares (550 de 575; 95,7%) tenían genes plásmidos reconocibles, como replicasas o relaxasas (ver Métodos), y una proporción del resto puede representar intermediarios replicativos de transposones, pero esto no se analizó más a fondo. A pesar de la ubicuidad de los plásmidos/episomas y los genes AMR en los datos de secuenciación, encontramos que la mayoría de estos genes AMR no estaban ubicados en plásmidos/episomas (53 de 1911 genes AMR estaban ubicados dentro de contigs circulares de plásmidos/episomas) entre las especies de BFG. . La abrumadora mayoría (>97,2%) de los genes de RAM parecían estar ubicados dentro de los cromosomas, y muchos estaban asociados con elementos integrativos23. Muchos de los genes AMR codificados por plásmidos/episomas también aparecieron asociados con la integración de elementos integrativos en las estructuras principales de los plásmidos, lo que coincide con el posible traslado de genes AMR entre cromosomas y plásmidos/episomas (Figura complementaria 5B).

Se plantea la hipótesis de que las ADN metiltransferasas pueden funcionar como una clase de reguladores globales en muchas especies bacterianas7. Las metiltransferasas generalmente modifican el ADN en motivos cortos presentes en miles de sitios dispersos ampliamente en regiones intragénicas y cuerpos genéticos de genomas bacterianos y, por lo tanto, la expresión de un solo gen de metiltransferasa puede a su vez controlar los estados de metilación globales. Se sabe que la metilación en sitios intra e intergénicos afecta los programas transcripcionales y sintoniza los fenotipos bacterianos9,10,11,12,13. A su vez, se ha observado una proporción significativa de genes de metiltransferasa bacteriana en asociación con elementos genéticos móviles, particularmente dentro de regiones accesorias de genomas bacterianos35,36. Para facilitar la identificación de metiltransferasas en datos genómicos de BFG, nos basamos en enfoques anteriores de modelos ocultos de Markov37 para desarrollar una herramienta de acceso público, DNA Mmethylase Finder, para detectar y anotar genes de DNA metiltransferasa y las vecindades genéticas a las que pertenecen (https://github .com/mtisza1/DNA_methylase_finder). Se observó una sensibilidad del 100% y una tasa de falsos positivos de hasta el 5,4% en un estudio comparativo de esta herramienta con un conjunto de datos REBASE de motivos de metilación anotados (ver Métodos).

Utilizando el Buscador de ADN metilasa, se detectaron 6011 genes de ADN metiltransferasa en 462 genomas de BFG (genomas de este estudio complementados con genomas de BFG adicionales descargados de GenBank) (Datos complementarios 5). Estos genes se agruparon en 536 familias (Datos complementarios 6) (ver Métodos), que representan todos los tipos conocidos (Tipo I, Tipo II, Tipo IIG, Tipo III, así como ADN metiltransferasas que no pudieron clasificarse, etiquetadas como "desconocidas"). ). Se detectaron entre dos y 38 genes de ADN metiltransferasa en cada genoma analizado, y se pudieron encontrar familias de genes de metiltransferasa en las particiones persistentes, de caparazón y de nubes de los pangenomas de estas especies, mostrando un amplio espectro de movilidad (Fig. 3). De los 5480 genes de ADN metiltransferasa pertenecientes a las 15 especies analizadas en la Fig. 3, 720 (13,1%) estaban en la partición central, 2385 (43,5%) estaban en la partición de la cáscara y 2375 (43,3%) estaban en la partición de la nube. .

Las especies hospedadoras se representan en la fila superior como cuadrados (área proporcional al número de genomas analizados). Las familias de genes de ADN metiltransferasa (80% AAI, 80% AF) se representan en cuadrículas rectangulares a continuación como círculos rellenos (con un área proporcional al número de genes de la familia) con los colores indicados en la clave. Los bordes conectan especies con familias de genes de ADN metiltransferasa que están codificados por uno o más genomas dentro de la especie. La ubicación de la familia de genes de metiltransferasa dada en el genoma del núcleo, la capa o la nube se indica mediante el color del borde, y el grosor del borde indica el número de veces que la familia de genes está codificada en el genoma de la especie. En este análisis, 'Núcleo' se definió como la presencia en >90% de los genomas de una especie, 'Cáscara' se definió como la presencia en >10% y ≤90% de los genomas de una especie, y 'Nube' se definió como la presencia en <10% de los genomas de una especie.

La cantidad de metiltransferasas que identificamos con este método puede ser mayor de lo que se anticiparía según informes anteriores. Esperamos que una fracción de las supuestas metiltransferasas identificadas estén probablemente inactivas y, además, el método demostró una tasa de descubrimiento de falsos positivos de hasta el 5,4% cuando se compara con la base de datos REBASE, por lo que un pequeño porcentaje puede ser identificaciones falsas positivas. Sin embargo, también observamos que muchos genomas contenían más de una metiltransferasa de secuencia casi idéntica, en muchos casos en asociación con el contexto de elementos genéticos móviles. Por lo tanto, el gran número puede deberse, en parte, a duplicaciones debidas a inserciones de transposones. Es muy posible que los estudios basados ​​en secuenciación de lectura corta subestimen el número de duplicados de metiltransferasa debido al colapso durante el ensamblaje. Las 38 supuestas metiltransferasas codificadas por el aislado BFG-632 (Datos complementarios 7), algunas de las cuales parecían ser inserciones duplicadas, se consultaron con BlastP y 37/38 devolvieron resultados con> 90% de identidad de aminoácidos a ADN metiltransferasas previamente identificadas. Curiosamente, en el curso de nuestro análisis, observamos que dentro de cada especie, existe una correlación positiva entre el tamaño del genoma y el número de supuestas ADN metiltransferasas (Figura 6 complementaria). BFG-632 es el genoma más largo de toda la colección, lo que coincide con la mayor cantidad de metiltransferasas.

La anotación adicional de genes aguas arriba y aguas abajo de las supuestas ADN metiltransferasas identificadas demostró que las subunidades de especificidad se detectan casi exclusivamente cerca de supuestas ADN metiltransferasas de tipo I (Figura complementaria 7A). Además, se detectaron endonucleasas de restricción en la vecindad del 100% de las supuestas metiltransferasas de ADN de tipo III, y la mayoría de las metiltransferasas de ADN de tipo II son aparentemente huérfanas, sin que se identifiquen endonucleasas de restricción vecinales (Figura complementaria 7B). Estas características adicionales aumentan la confianza en muchas de estas identificaciones de metiltransferasa.

La anotación de las vecindades genéticas de las ADN metiltransferasas indicadas anteriormente indicó que los genes de la ADN metiltransferasa a menudo se encontraban cerca de genes relacionados con fagos. Para examinar esta relación con mayor detalle, se extrajeron supuestas regiones de profago de cada genoma escaneando regiones accesorias con Cenote-Taker 238 y CheckV39, revelando 1255 regiones de profago candidatas, la mayoría de las cuales se predijo que eran genomas completos (Datos complementarios 8-10). . La mayoría (n = 824) de estos profagos codificaron al menos un gen de ADN metiltransferasa, lo que representa 1089 de los 6011 genes de ADN metiltransferasa en el conjunto del genoma. Los 1255 supuestos profagos podrían agruparse en 411 Unidades Taxonómicas Operativas de virus (vOTU) (Datos complementarios 9) (ver Métodos). En particular, hubo una diversidad sustancial del contenido del gen de la metiltransferasa dentro de vOTU individuales, en combinación con una amplia dispersión de familias de genes de metiltransferasa individuales en genomas de fagos dispares (Fig. 4 y Fig. 8 complementaria). En general, esto sugiere no sólo que existe un flujo sustancial de genes de metiltransferasa entre los genomas del fago BFG, sino también que genomas dispares del fago BFG pueden servir como fuentes importantes de diversidad genética entre sí, posiblemente permitiendo a los receptores subvertir los sistemas de modificación de restricción35.

Gráfico de red de grupos de unidades taxonómicas operativas virales (vOTU) de fagos y familias de genes de ADN metiltransferasa (80 % AAI, 80 % AF), indicados por nodos de diferentes formas como se define en la leyenda. El tamaño de la forma es proporcional al número de genomas de fagos dentro de un grupo vOTU determinado o genes de metiltransferasa dentro de una familia de genes. Los bordes conectan familias de genes de metiltransferasa y grupos de vOTU que contienen genomas de profagos que codifican un gen de metiltransferasa de esa familia de genes de metiltransferasa. El grosor del borde es proporcional al número de genomas que codifican la familia de genes correspondiente.

La tecnología de secuenciación Oxford Nanopore se ha utilizado para identificar modificaciones de 6 mA, 4 mC y 5 mC con métodos desarrollados recientemente. Nanodisco es un enfoque poderoso para la detección de patrones de metilación que funciona comparando trazas de secuenciación de nanoporos sin procesar a nivel de corriente para ADN genómico metilado nativo con ADN preparado no modificado40. Para comparar las llamadas de metilación realizadas por Nanopore y Nanodisco para este conjunto de datos con otro método, se realizó la identificación del motivo de metilación de PacBio y Nanodisco para un subconjunto de seis aislados que representan seis especies para las cuales se obtuvieron datos de secuenciación para ambos métodos (Métodos). Esta comparación reveló concordancia de resultados para 6 mA y 4 mC. La secuenciación PacBio SMRT identificó 29/33 llamadas de motivos de 6 mA y 2/2 llamadas de motivos de 4 mC realizadas por Nanodisco. Dos llamadas de 5 mC realizadas por Nanodisco no fueron identificadas mediante la secuenciación de PacBio, lo que es consistente con la menor sensibilidad observada del enfoque PacBio para 5 mC (Tabla complementaria 2).

Luego se aplicó el método Nanodisco a 268 genomas de la colección BFG que abarca cinco especies, con curación manual de motivos de metilación (como se describe en Métodos y figuras complementarias 9-10). Se detectaron un total de 639 motivos de metilación distintos mediante descubrimiento de novo (Fig. 5 y Datos complementarios 11). Sorprendentemente, la cantidad de motivos de metilación distintos parece lejos de la saturación en el conjunto de datos analizado según las curvas de rarefacción (Fig. 5a) y las estimaciones de la ley de Heap (Tabla complementaria 3), lo que sugiere una inmensa cantidad de motivos totales utilizados por el BFG. Además de esta diversidad de motivos de metilación individuales observados en este conjunto de muestras, la mayoría de las combinaciones de motivos eran únicas, presentes sólo en aislados individuales, generando una capa adicional de diversidad combinatoria y sugiriendo una gran cantidad de combinaciones de motivos dentro de BFG que aún no se han identificado. han sido muestreados (Fig. 11 complementaria). Aunque la mayoría de los motivos se detectaron en una sola especie, se detectaron dos motivos (CTGCAG y GATC) en al menos un aislado de las cinco especies analizadas. Un estudio de aislados de Bifidobacterium breve usando secuenciación PacBio y bisulfito41, y otro estudio que analizó Clostrioides difficile usando solo secuenciación PacBio SMRT (menor sensibilidad para 5mC sin modificación del método9), mostraron una mayor saturación del panepigenoma en esos taxones (los datos de estos estudios se representaron gráficamente en la figura 5a). Es posible que un conjunto de muestreo menos diverso o una menor sensibilidad para detectar motivos puedan generar una aparente saturación con una menor cobertura del genoma. Sin embargo, estos resultados sugieren que las especies de BFG pueden contener una mayor diversidad de motivos de metilación y combinaciones de motivos que otros anaerobios gastrointestinales.

a Curvas de rarefacción de motivos de metilación del ADN detectados en genomas de especies de BFG en este estudio y comparación con especies de C. difficile y B. breve de estudios externos (indicados con '*'; datos 9,41). Las curvas de rarefacción de BFG indican panepigenomas abiertos sobre el conjunto de aislados secuenciados. b – f Mapas de calor de motivos de metilación del ADN detectados en aislados de Parabacteroides distasonis, B. vulgatus, B. fragilis (sensu estricto), B. ovatus y B. thetaiotaomicron. Las filas indican aislados individuales con las correspondientes filogenias de genes marcadores MLST marginales. Las columnas indican distintos motivos de metilación. Los tres motivos más frecuentes en cada conjunto están etiquetados y las etiquetas se omiten para el resto. Las celdas se colorean cuando un motivo determinado está presente en el aislado correspondiente y los colores indican la clase de modificación de la base como se indica en la leyenda. Las secuencias de todos los motivos se pueden encontrar en los Datos complementarios 10.

Para cada especie en el análisis (B. fragilis, B. thetaiotaomicron, B. ovatus, B. vulgatus y P. distasonis), se investigó la presencia o ausencia de cada motivo de metilación del ADN en relación con un árbol filogenético de genes marcadores dentro la especie (Fig. 5b-f). Como se señaló anteriormente, la mayoría de los motivos metilados estaban presentes sólo en aislados únicos del conjunto. Se metiló un pequeño número de motivos de metilación del ADN en todos los aislados de una especie (p. ej., CTCAT en B. fragilis o CGCG, CCAGG y CCTGG en P. distasonis). Algunos motivos estaban metilados mayoritaria o totalmente dentro de un linaje de subespecie (p. ej., GATC en B. ovatus), mientras que otros motivos parecían distribuirse independientemente de la filogenia (p. ej., CCWGG en B. thetaiotaomicron). Se detectó al menos un motivo metilado en todos los genomas, excepto en dos aislados de B. thetaiotaomicron y un aislado de B. vulgatus.

Se sabe que la regulación transcripcional de los genes AMR desempeña un papel importante en la expresión de fenotipos de resistencia en muchas especies diferentes, y trabajos recientes han demostrado que la expresión de genes AMR y los fenotipos de resistencia pueden regularse específicamente mediante la metilación10,42. Por lo tanto, buscamos motivos de metilación del ADN en el cuerpo del gen y el promotor de los genes AMR en BFG que puedan influir en la transcripción. Para investigar la frecuencia y distribución de dichos motivos, se extrajeron y eliminaron los genes de AMR y sus regiones aguas arriba (200 nucleótidos) de los genomas de B. fragilis, B. thetaiotaomicron, B. ovatus, B. vulgatus y P. distasonis al 99% de nucleótidos. identidad (ver Métodos). Luego se perfilaron estas regiones del gen AMR para detectar la presencia de motivos que se encontraron en al menos un genoma de la especie correspondiente (Figuras complementarias 12A-E). Sorprendentemente, cada región AMR perfilada tenía múltiples motivos de metilación del ADN en el cuerpo del gen y en la región aguas arriba/promotora detectada en al menos algunos aislados.

Para plantear la pregunta adicional de si la densidad de motivos en los cuerpos de los genes AMR difiere de la del resto del genoma, realizamos un análisis de la metilación en genes AMR en relación con genes que no son AMR en las cinco especies principales para las cuales había números suficientes. de aislados. En este análisis se hizo evidente una correlación directa entre el contenido del motivo y el contenido de GC. Debido a esta correlación, la densidad del motivo se analizó en función del contenido de GC para genes AMR frente a genes no AMR. Este análisis no encontró diferencias sistemáticas agregadas entre la densidad de motivos (ajustada por contenido de GC) en genes AMR versus genes no AMR (Figura complementaria 13). Es necesario investigar más a fondo si la metilación en cualquiera de estos genes AMR o en las regiones promotoras asociadas tiene consecuencias para la resistencia a los antimicrobianos.

Un subconjunto de motivos de metilación del ADN mostró una fuerte señal filogenética, presente en la mayoría o en todos los genomas estrechamente relacionados, pero rara vez o ninguna en genomas más distantes de la misma especie. Se interpretó que este enriquecimiento indica que las posiciones genómicas con este motivo han sido metiladas en estos linajes desde el último ancestro común. Si existe un costo de aptitud negativo asociado con la tolerancia de estas modificaciones en algunos loci del genoma luego de la introducción de una metiltransferasa, se puede esperar ver un agotamiento de estos motivos en los genomas del linaje que contiene la metilasa debido a la selección. Además, en ciertos contextos, la metilación se ha relacionado con la hipermutación de la base modificada, lo que resulta en la autodestrucción programada del motivo16.

Identificamos 14 motivos específicos del linaje (ver Métodos), y 6 de estos 14 (42,9%) parecían estar significativamente agotados en los genomas del linaje después de múltiples correcciones de prueba, mientras que ninguno estaba enriquecido (Fig. 6). A modo de comparación, se calculó la densidad de motivos para 16 a 58 motivos de control de la misma longitud y composición de bases obtenidos mediante permutación (p. ej., los motivos de control GATC incluyen AGTC, ATCG y CTAG) para cada motivo específico del linaje. Si existían más de 58 motivos de control posibles, se elegían 50 mediante mezcla aleatoria. Entre el 0% y el 13,7% de los motivos permutados se agotaron (promedio de 3,8%) y entre el 0% y el 37,5% se enriquecieron (promedio de 5,1%) (Fig. 6, Figs. 14-21 complementarias, Tabla complementaria 4). En particular, de los seis motivos específicos del linaje que parecían estar agotados en un nivel significativo, cinco motivos eran palindrómicos de tal manera que cada locus con estos motivos tenía una base metilada en ambas hebras. El motivo no palindrómico que se agotó (TCAGG/CCTGA) es un motivo de tipo IIS, en el que los motivos son complementos inversos entre sí y, por tanto, ambas hebras de ADN en estos loci también están metiladas. Si la selección actúa de manera diferencial en motivos que están metilados en ambas cadenas es otra cuestión que no podemos evaluar definitivamente en este conjunto de datos. No observamos un enriquecimiento de motivos que resultaría de transiciones o transversiones en el sitio modificado para modificaciones de 5 mC y 4 mC que no pudieran explicar la magnitud de los agotamientos (Figura complementaria 21), lo que sugiere que la hipermutación por sí sola no puede explicar los hallazgos. 17.

(Arriba) Un gráfico de enjambre de puntuaciones Z de densidad (motivos/kilobase) de cada motivo en los genomas. Se realizaron pruebas T bilaterales para cada motivo objetivo junto con sus motivos de control y las pruebas de Benjamini-Hochberg se realizaron por separado con FDR <1%. Los valores de p no ajustados se informan de la siguiente manera: *p < = 0,05, **p < = 0,01, ***p < =1e-3, ****p < =1e-4; "ns" indica que se determinó que el valor de p informado no era significativo después de la prueba con Benjamini-Hochberg a FDR = 1%. (Centro) Datos mostrados como motivos por kilobase. Los cuadros muestran cuartiles de datos y los bigotes muestran un IQR de 1,5 veces y los diamantes representan valores atípicos. (Abajo) Cladogramas del gen marcador MLST por especie utilizando todos los genomas analizados con metiloma con mapa de calor de motivos de metilación del ADN específicos del linaje. (Todos) Genomas de B. fragilis, n = 108. Genomas de B. ovatus, n = 44. Genomas de B. vulgatus, n = 28.

El análisis global de metiloma realizado en este trabajo, en combinación con ensamblajes contiguos de lectura larga, reveló un panorama epigenético en aislados clínicos de BFG de una diversidad inmensa y previamente no apreciada. Se identificaron cientos de motivos de metilación del ADN y la mayoría de los motivos eran únicos. Aunque algunas especies (B. fragilis y P. distasonis) parecían contener motivos específicos de especie que podían detectarse en cada genoma analizado, esto era poco común y casi todas las combinaciones de motivos se observaron solo en aislados únicos. Además, la composición del motivo de metilación del ADN varió dramáticamente incluso en distancias filogenéticas cortas entre los genomas de una especie, lo que implica una profunda diversidad epigenética incluso entre linajes estrechamente relacionados dentro del BFG.

Si bien se ha observado una diversidad sustancial de patrones de metilación del ADN en especies dentro del dominio de la vida bacteriana43, nunca antes se habían realizado grandes estudios sobre la diversidad de metilación del ADN entre diferentes especies dentro de un género, y las especies estrechamente relacionadas no se han comparado de manera sistemática. Nuestro estudio presenta un análisis extenso de las relaciones entre el metiloma, la filogenia intra e interespecies y la diversidad dentro del BFG, basado en una colección histórica única de aislados clínicos de BFG. La colección aislada en la que se basa el estudio tiene características adicionales que agregan un valor significativo a nuestro conjunto de datos. En primer lugar, mientras que muchos estudios anteriores de BFG se han centrado en cepas recolectadas del microbioma gastrointestinal, nuestro conjunto contiene principalmente aislados clínicos de BFG cultivados en sitios de infección, cuyos genomas y metilomas pueden facilitar los estudios sobre cómo los aislados invasivos pueden diferir de las cepas gastrointestinales comensales. En segundo lugar, nuestro conjunto abarca cuatro décadas y se remonta a las eras anteriores y tempranas a los antibióticos para una serie de agentes de uso común, lo que permite examinar cómo evolucionaron tanto el resistoma como los metilomas bajo la selección de estos agentes durante un período de cuatro décadas.

Nuestros hallazgos plantean la cuestión de si las especies de BFG tienen epigenomas más diversos que otros patógenos y comensales que habitan el microbioma gastrointestinal humano. Responder a esta pregunta es un desafío dada la cantidad limitada de datos disponibles. El análisis de rarefacción demostró que los panepigenomas de las especies de BFG que estudiamos permanecieron abiertos sin signos de saturación asintótica en el conjunto secuenciado, lo que implica una diversidad sustancial sin muestrear. Comparación con análisis de rarefacción similares de datos publicados de C. difficile9. y B. breve41 sugirió algo menos de diversidad de motivos de metilación del ADN intraespecies que el BFG. Sin embargo, este análisis conlleva algunas advertencias importantes. En primer lugar, es posible que la diversidad subyacente del genoma del huésped en los estudios de B. breve y C. difficile fuera menor, lo que podría dar lugar a una subestimación de la diversidad de motivos de metilación. En segundo lugar, es posible que el presente estudio haya utilizado métodos más sensibles para la detección de motivos de metilación, lo que también daría como resultado una mayor diversidad aparente. Se necesitan investigaciones más exhaustivas sobre otras especies para establecer si la diversidad de los metilomas se ve realmente afectada por la filogenia o el estilo de vida.

Aunque no examinamos las consecuencias transcripcionales de la metilación en este estudio, trabajos anteriores han demostrado una regulación significativa de la transcripción mediante la metilación del ADN42. Puede ser razonable especular que la diversidad epigenómica que observamos puede generar una diversidad transcripcional proporcional dentro de las poblaciones con consecuencias de aptitud que dependen de la selección. Nuestro hallazgo de un aparente agotamiento de los motivos de metilación del ADN en todo el genoma dentro de linajes bacterianos individuales tiene implicaciones para la evolución del genoma de BFG. En estos casos, normalmente no hubo un aumento concomitante en los motivos que resultarían de mutaciones del nucleótido metilado de magnitud suficiente para explicar el agotamiento, lo que sugiere que la hipermutación inducida por la metilación no es la única responsable del cambio genómico impulsado por el epigenoma. Por otro lado, la selección que actúa para eliminar motivos metilados que tienen consecuencias nocivas para la aptitud física puede explicar estos hallazgos, ya que las mutaciones que eliminan el reconocimiento de la metiltransferasa no necesitan restringirse al nucleótido metilado. Se necesitarán más investigaciones para comprender los mecanismos subyacentes.

En nuestro conjunto de datos, examinamos la cuestión específica de si los motivos de metilación podrían afectar la transcripción de genes AMR e influir o controlar la expresión de los fenotipos AMR. Descubrimos que todas las clases de genes AMR que examinamos, incluido el importante gen cfiA que codifica una beta-lactamasa que media la resistencia a los carbapenémicos, contenían motivos de metilación tanto en las regiones intergénicas aguas arriba como en el cuerpo del gen. Además, la diversidad epigenómica general de motivos entre los aislados se reflejó en la diversidad de motivos de metilación adyacentes a y dentro de los cuerpos de genes AMR. Dados nuestros hallazgos de una metilación potencial extensa que involucra todas las clases de genes AMR que examinamos, puede ser razonable esperar que la transcripción de estos genes y los fenotipos de resistencia resultantes se vean influenciados por las metilasas presentes y su expresión. La heterogeneidad impulsada por la diversidad del epigenoma en el fenotipo de RAM puede resultar beneficiosa para las poblaciones de BFG, y la selección purificadora que a menudo ocurre con la exposición a antibióticos puede seleccionar ciertos patrones de metilación epigenómica sobre otros.

Vincular motivos de metilación del ADN con metiltransferasas de ADN afines basándose únicamente en el análisis genómico es un desafío. Muchas de las ADN metiltransferasas codificadas por genes ubicados en genomas bacterianos, especialmente dentro de elementos genéticos móviles, son funcionalmente silenciosas en la mayoría de las condiciones. Se ha sugerido que la inactivación de mutaciones en las ADN metiltransferasas u otros interruptores genéticos, como los promotores invertibles que controlan la expresión de las metiltransferasas, puede ser un mecanismo evolutivo común utilizado para variar los programas transcripcionales44. De hecho, casi todos los genomas de nuestro conjunto tenían una mayor cantidad de genes potenciales de ADN metiltransferasa que motivos de ADN metilados detectados, lo que sugiere la presencia de metiltransferasas silenciosas generalizadas dentro del BFG o, alternativamente, metiltransferasas que no se expresan en condiciones estándar de crecimiento. en medios enriquecidos. Si bien esto puede tener implicaciones evolutivas y funcionales interesantes, introduce desafíos técnicos adicionales al asociar metiltransferasas específicas a motivos específicos. Una complicación adicional en nuestro conjunto de datos es el hecho de que la mayoría de los motivos se detectaron en solo uno o unos pocos genomas, lo que impide un enfoque sistemático para establecer vínculos, dada la variedad de metilasas silenciosas concurrentes. Además, el método Nanodisco aplicado aquí tiene menos del 100% de sensibilidad, por lo que esperamos que algunos motivos de metilación no se detecten40.

De los más de 6.000 genes potenciales de metiltransferasa que descubrimos dentro de nuestro conjunto de datos genómicos, la mayoría estaban ubicados en los compartimentos de la capa o la nube, a menudo asociados con elementos genéticos móviles. Estos hallazgos son consistentes con los de otros estudios35,36 y también son consistentes con la suposición de que muchas de las metilasas son componentes de modificación de restricción u otros sistemas de defensa. Es importante destacar que encontramos que aproximadamente 1000 de los genes de metiltransferasa identificados estaban asociados con profagos intactos. El análisis de la red de estos genomas de profagos reveló un grado notable de flujo de genes de metiltransferasa entre fagos dispares con aparentes intercambios modulares de metiltransferasas, incluso de diferentes clases, entre genomas de fagos. Estos hallazgos sugieren un papel fundamental para el intercambio genético entre fagos BFG como una de las fuentes principales que impulsan la diversidad del epigenoma BFG. Se necesitarán estudios futuros para examinar las relaciones exactas entre las interacciones fago-fago en el contexto natural del microbioma gastrointestinal en el que ocurren y cómo estas interacciones pueden haber impulsado la diversificación del metiloma BFG.

Los aislados históricos de BFG originalmente cultivados a partir de material clínico entre 1973 y 2018 se almacenaron liofilizados o congelados en medios de leche descremada en el Departamento de Medicina de Laboratorio del Centro Clínico de los Institutos Nacionales de Salud (Bethesda, MD). Los aislados fueron anonimizados y se mantuvieron los metadatos, incluido el año y la fuente/sitio de cultivo. Debido a esta desidentificación, no fue posible descartar que algunos aislados de la colección puedan representar múltiples muestras de un solo paciente. El subconjunto de aislados elegido para la secuenciación del conjunto más grande se seleccionó para maximizar la diversidad en fechas, fuentes, especies y perfiles de RAM, y esta selección probablemente redujo la inclusión de aislados tomados de pacientes individuales. Cabe señalar que un subconjunto de aislamientos carecía de información precisa sobre la fecha y/o la fuente de cultivo. Los aislados seleccionados se recuperaron y se pasaron de sus existencias históricas originales para confirmar su identidad mediante espectrometría de masas Bruker Biotyper MALDI-TOF con la base de datos del fabricante (Datos complementarios 2). Todos los aislados se recuperaron en BD BBLTM CDC Anaerobe 5% Sheep Blood Agar (BD 221734, Becton, Dickinson and Company, Sparks, MD) o BD BBLTM Brucella Agar suplementado con 5% de sangre de oveja suplementada con hemina y vitamina K1 (BD 297716). La incubación generalmente se realizó durante 36 a 72 h en cámaras de gas anaeróbicas Mitsubishi Anaero con generadores de CO2 BD BBLTM GasPak (BD 261205) a 35 a 37 °C con un 6 % de CO2. Los aislados se manipularon en condiciones aeróbicas ambientales. Posteriormente, los aislados de BFG confirmados se reaislaron y almacenaron a -80 °C en crioviales de medios de leche descremada Cryosavers (Hardy Diagnostics, Santa Maria, CA) para su posterior cultivo y experimentación.

Las pruebas de susceptibilidad se realizaron utilizando el método de dilución en agar de referencia como se describe en las pautas del Clinical and Laboratory Standards Institute (CLSI) (9.ª edición, M11) o en el Manual de bacteriología anaeróbica Wadsworth-KTL (6.ª edición). Brevemente, todos los medios de prueba de susceptibilidad se prepararon recientemente en placas de Petri con rejillas cuadradas de 100 mm, se llenaron hasta 30 ml y se usaron dentro de una semana. Para la preparación del inóculo, las colonias aisladas recuperadas de reservas congeladas se volvieron a aislar en agar Brucella suplementado con sangre de oveja al 5%, hemina y vitamina K1 (BD 297716) para cultivarlas durante 40 a 48 h, constituyendo dos pases en serie. Luego se suspendió el crecimiento seleccionado en caldo Brucella (B3051, Sigma-Aldrich, St-Louis, MO) a una concentración de 0,5 McFarland medida utilizando un densitómetro DEN-1B (Grant Instruments, Cambridge, Reino Unido) o un medidor de turbidez Microscan (Dade Behring). (ahora Siemens) Munich, Alemania).

Luego se aplicaron dos microlitros de cada aislado de prueba (105 ufc/spot) a agar Brucella recién preparado suplementado con hemina, vitamina K1 (B2926, Sigma-Aldrich) y sangre de oveja lacada al 5% (Hemostat, Dixon, CA) que contenía el antibiótico. y concentración de elección. Las concentraciones de antibióticos probadas fueron consistentes con la concentración utilizada como puntos de corte clínicos según lo determinado por CLSI. Todas las placas fueron inoculadas con los siguientes organismos de control de calidad: E. coli 25922, B. thetaiotaomicron (ATCC 29741) y B. fragilis (ATCC 25285). Los criterios de interpretación se basaron en los puntos de corte anaerobios del CLSI de la siguiente manera (antibiótico seguido de CIM S:I:R en μg/ml): moxifloxacina 2:4:8; ampicilina 0,5:1:2; Ampicilina/Sulbactam: 8/4:16/8:32/16; Clindamicina: 2:4:8; metronidazol: 8:16:32; Meropenem: 4:8:16; Piperacilina/tazobactam: 32/4:64/4:128/4; Tetraciclina: 4:8:16. Las determinaciones de susceptibilidad se realizaron después de aproximadamente 48 h de crecimiento.

Se resuspendieron múltiples colonias de BFG de un único aislado en PBS o en agua estéril para la extracción. Las extracciones para la secuenciación de Illumina se realizaron con DNeasy Blood & Tissue (Qiagen, Frederick, MD) y NucliSENS easyMag (bioMerieux, Durham, NC). El ADN de alto peso molecular para secuenciación de lectura larga se extrajo con el kit Gentra Puregene Yeast and Bacteria (Qiagen) utilizando el protocolo Gram-negativo o con un protocolo personalizado del kit Maxwell HT gDNA Blood (Promega Corporation, Madison, WI) en el sistema Kingfisher Flex. (ThermoFisher, North Logan, UT) que implicó extraer ADN de un volumen de bacterias equivalente a 1/5 de un bucle de inoculación de 10 µl en la suspensión de PBS y utilizar un volumen de elución final de 120 µl. Las concentraciones de ADN se determinaron utilizando un fluorómetro Qubit 4 (ThermoFisher) y la pureza se evaluó para muestras seleccionadas con Nanodrop One (ThermoFisher).

El ADN para la secuenciación de Illumina se preparó con el kit de preparación rápida de bibliotecas de alto rendimiento RipTide (IGenomX, Carlsbad, CA). Las bibliotecas se secuenciaron para generar lecturas de PE de 150 pb en un Illumina HiSeq 2500 (Illumina, San Diego, CA) en el Centro de secuenciación intramural de los NIH (NISC) y en un instrumento Illumina NextSeq 550 en el Centro clínico de los NIH. Los datos de secuenciación se demultiplexaron con fgbio v 0.7.0 según el protocolo iGenomX (//fulcrumgenomics.github.io/fgbio/) y se fusionaron lecturas demultiplexadas de diferentes carriles. Se encontraron problemas de control de calidad de origen incierto con varias bibliotecas de Igenomix RipTide, lo que dio como resultado archivos de lectura demultiplexados con una mezcla significativa de código de barras entre bibliotecas en una ejecución de secuenciación determinada. Se utilizaron parámetros de control de calidad estrictos para seleccionar un subconjunto de estas bibliotecas para pulir ensamblajes de lectura larga en pasos posteriores (consulte Ensamblaje del genoma).

Para la secuenciación del genoma de Oxford Nanopore Technologies (ONT), se prepararon bibliotecas genómicas a partir de ADN extraído utilizando el kit de secuenciación rápida de códigos de barras ONT (SQK-RBK004) y el protocolo para las células de flujo ONT R9.4.1 (ONT, Oxford, Reino Unido). La secuenciación se realizó con un instrumento ONT GridION X5. Para la identificación del motivo de metilación del ADN, se prepararon bibliotecas pareadas libres de metilación utilizando el kit de codificación de barras de PCR rápida Oxford Nanopore (SQK-RPB004) y el protocolo (RPB_9059_v1_revL_14Aug2019) y se secuenciaron con celdas de flujo ONT R9.4.1 utilizando el instrumento ONT GridION Mk1. El protocolo SQK-RPB004 se modificó para utilizar 7,5 ng de ADN genómico de entrada y el paso de PCR se modificó para utilizar 7 min y 30 s para el paso de extensión.

Para la secuenciación del genoma de PacBio, se utilizó el protocolo de Pacific Biosciences "Preparación de bibliotecas SMRTbell microbianas multiplexadas para el sistema PacBio Sequel" para crear bibliotecas a partir de 3 μg de ADN. La secuenciación se realizó utilizando un secuenciador Sequel (Pacific Biosciences) utilizando células SMRT versión 3 y reactivos de secuenciación con películas de 10 h.

Los análisis bioinformáticos se realizaron principalmente en NIH HPC Cluster Biowulf utilizando módulos instalados y entornos administrados Conda v. 4.8.3. Se proporcionan scripts e instrucciones detalladas a través de Zenodo (https://zenodo.org/record/7510225). Las lecturas de Illumina se recortaron con Cutadapt v. 2.645 y se ensamblaron con SPAdes v. 3.13.146. Después de que se eliminaron los cóntigos de menos de 500 pb, se verificó que los ensamblajes estuvieran completos y contaminados con CheckM v 1.0.1847. Se utilizaron lecturas sin procesar de ensamblajes con más del 98 % de integridad y menos del 2 % de contaminaciones para pulir ensamblajes de lectura larga ONT con Pilon v 1.2348.

La llamada base ONT se realizó con Guppy v. 3.3.3 y 3.4.5 independiente usando demultiplexación qcat v.1.0.6. El instrumento ONT GridION MK1 también se utilizó para llamadas base y demultiplexación usando MinKnow 19.12.6 (Guppy v. 3.2.10+aabd4ec, equivalente a Guppy v. 3.4.5). El filtrado, montaje y pulido se gestionaron con Snakemake v 5.13.049. La calidad de las lecturas de ONT se controló utilizando Filtlong v. 0.2.0 (https://github.com/rrwick/Filtlong) con la configuración --min_length 1000 --keep_percent 95. Las lecturas filtradas se usaron para el ensamblaje con Flye v. 2.750 con el –meta indicador habilitado para la mayoría de los ensamblados, pero deshabilitado para optimizar un subconjunto de ensamblados donde se generaron numerosos contigs falsos. El indicador Flye –asm-coverage también se configuró en 100 para evitar la necesidad de tomar muestras de las lecturas de secuenciación ONT para retener la mayor cobertura posible para el pulido posterior. El pulido iterativo de Racon v. 1.14.351 se realizó cuatro veces antes de que se usara Medaka v. 0.12.1 (https://github.com/nanoporetech/medaka) para un paso final de corrección de errores seguido de Pilon cuando había lecturas breves disponibles. La opción “fixstart” de Circlator v. 1.5.5 se utilizó en ensamblajes para reorientar los cromosomas a un inicio de dnaA o para orientar los contigs al gen predicho más cercano al medio. Los ensambles pulidos de Medaka se evaluaron nuevamente con CheckM para verificar su integridad y los ensambles con más del 90 % de integridad y menos del 3 % de contaminación se retuvieron para análisis posteriores. Los operones de ARNr se cuantificaron utilizando Barrnap v0.9 (//github.com/tseemann/barrnap).

Para construir genomas de PacBio, se ensamblaron sublecturas desmultiplexadas de PacBio Sequel con el proceso de ensamblaje jerárquico del genoma (HGAP4) dentro del paquete PacBio SMRT Link versión 6.0.0 o con Canu (versión 1.6 o 1.8)52. Los contigs ensamblados se circularizaron utilizando Circlator 1.5.353 y las lecturas corregidas se generaron a partir de HGAP4 o Canu. En algunos casos, los borradores de contigs se circularizaron evaluando las superposiciones de contigs utilizando Gepard v1.3054 y uniendo secuencias manualmente. Las secuencias circularizadas de cromosomas y plásmidos se pulieron con el proceso de resecuenciación PacBio SMRTLink versión 6.0.0. El ensamblaje FASTA se anotó utilizando el pipeline Prokka (versión 1.13)55.

El análisis de secuencia de locus múltiples (MLSA) se realizó con ensamblajes de lectura larga de este estudio y referencias del NCBI56. La corrección del desplazamiento de marco fue necesaria con ensamblajes generados por ONT para facilitar la recuperación de genes completos para MLSA. MEGAN v.6.19.257 se utilizó en alineaciones DIAMOND v 0.9.3358 de ensamblajes ONT con un archivo de referencia de secuencias de proteínas de la misma especie, según lo determinado por Bruker Biotyper, para generar un archivo fasta corregido por desplazamiento de marco como se describió anteriormente59. Todos los ensamblajes y referencias se anotaron con Prokka v. 1.4.655 utilizando una base de datos de proteínas Bacteroides personalizada, disponible a través de Zenodo (https://zenodo.org/record/7510225). Etiquetas de locus que coincidieron con las consultas genéticas del esquema MLSA60 con BLAST v 2.10.0+. Se identificaron BLASTn61 y BLASTx contra los archivos de nucleótidos/proteínas fasta generados por Prokka para la recuperación de genes. Las anotaciones que aún estaban truncadas debido al cambio de marco se resolvieron mediante la adquisición manual de la anotación dividida y la región intergénica identificada con Prokka. Los genes se recuperaron mediante etiqueta de locus y se concatenaron (16S-dnaJ-gyrB-hsp60-recA-rpoB) para alinearlos con MEGA X v.10.1.8 usando MUSCLE62 con parámetros predeterminados. Las columnas con menos del 75 % de ocupación se eliminaron utilizando trimAL v. 1.4.rev1563. Se utilizó RaxML v. 8.2.1264 para generar un árbol filogenético utilizando 20 buscadores de árboles con el modelo GTRGAMMA y probado con 500 bootstraps. El árbol sin raíz se visualizó con ggtree65.

Se utilizó Mash v. 2.366 con un tamaño de boceto de 10.000 para comparaciones del genoma completo todos contra todos mediante ensamblajes, sin corrección de desplazamiento de fotogramas. La distancia 1-Mash se utilizó como estimación de la identidad de nucleótidos promedio (ANI) y en las comparaciones se incluyeron conjuntos de referencia adicionales recuperados del NCBI. El mapa de calor se generó usando R 4.2.1 con ComplexHeatmap v 2.14.067 con dendsort aplicado a las distancias hclust calculadas usando el método ward D2. Se utilizó Abricate (https://github.com/tseemann/abricate) con una cobertura mínima del 80% y una identidad mínima del 80% para consultar genes de RAM en una base de datos compuesta seleccionada para Bacteroides68,69,70,71 (https://github. com/thsyd/bfassembly), y se encontraron 1911 genes AMR. La tabla de resultados de Abricate se puede encontrar en Datos complementarios 12.

Se utilizó GTDB-Tk v2.0.0 con la configuración predeterminada con la base de datos de referencia r207 para clasificar todos los genomas en el conjunto30. El acuerdo entre GTDB-Tk y MALDI para la identificación de especies (acuerdo de 360/383 genomas o 94,0%) se basó en asumir la equivalencia de Bacteroides vulgatus (nombre anterior) y Phocaeicola vulgatus (nuevo nombre). Los metadatos resumidos para aislados y referencias de GenBank se pueden encontrar en Datos complementarios 2.

Para corregir los errores de ensamblaje asociados con la secuenciación de Nanopore, se utilizó Proovframe v0.9.7 (y Diamond v2.0.8) (https://github.com/thackl/proovframe) para corregir indeles alineando los genomas BFG pulidos con la base de datos Genbank nr ( versión 245) y reemplazando regiones indel con Ns para mejorar la contigüidad de ORF (disponible a través de Zenodo como https://zenodo.org/record/7510225). Si no se realiza este paso de corrección indel, los recuentos de ORF pueden inflarse artificialmente mediante ORF divididos y los cálculos de familias de genes pueden verse afectados. Luego se anotaron los genomas corregidos con Proovframe con Prokka. Todos los análisis basados ​​en el genoma, aparte de los asociados con la Fig. 1 y las figuras complementarias asociadas, se realizaron utilizando los genomas corregidos con Proovframe.

Se utilizó PPanGGOLiN v. 1.1.13631 para generar gráficos y estadísticas de pangenomas. Los genomas se agruparon por especies (método MALDI) y los genomas de la misma especie se utilizaron como entrada para PPanGGOLiN con la configuración predeterminada. Usando estas configuraciones, los genes se agruparon en familias dentro de un umbral de 80% de identidad de aminoácidos promedio y 80% de fracción de alineación. Para generar curvas de rarefacción para cada pangenoma, se ingresaron tablas de matrices de la familia de genes PPanGGOLiN en el módulo de rarefacción MicroPan72 con 50 permutaciones y en el módulo MicroPan Heaps con 100 permutaciones.

Los archivos de gráficos de pangenoma PPanGGOLiN para cada especie se utilizaron como entrada para PPanGGOLin rgp33 con configuraciones predeterminadas (longitud mínima de 3000 nucleótidos) para encontrar regiones accesorias ("regiones de plasticidad del genoma") y generar estas regiones como archivos fasta (Datos complementarios 3). Las secuencias de las regiones accesorias se alinearon "todos contra todos" utilizando BLASTN con el indicador "-perc_identity 90". Se utilizó Anicalc del paquete CheckV para calcular el ANI y AF (fracción de alineación) de cada alineación, y se contó el número de alineaciones para cada secuencia de región accesoria con ANI > = 95 y AF > = 85. Tenga en cuenta que las secuencias de regiones accesorias a menudo pueden consistir en múltiples elementos genéticos móviles o islas genómicas en conjunto, y no se intentó separar elementos individuales dentro de estas regiones con la excepción de los bacteriófagos.

Para encontrar sistemas de defensa de fagos en regiones accesorias, se utilizó Padloc v1.0.1 con la base de datos v1.1.0 con la configuración predeterminada73. Los genes AMR se identificaron usando Abricate como se describe anteriormente. Los genes de la ADN metiltransferasa se identificaron utilizando el buscador de ADN metilasa como se describe a continuación. Los bacteriófagos se identificaron utilizando Cenote-Taker 2 v2.1.3 (https://github.com/mtisza1/Cenote-Taker2) con banderas “-p false -db virion --lin_minimum_hallmark_genes 2 --circ_minimum_hallmark_genes 2”. Luego, se utilizó CheckV v0.7.0 con la base de datos v0.6 para encontrar los bordes del profago y estimar la integridad de cada secuencia de fago. Para encontrar genes de maquinaria conjugativa, se encontraron ORF para cada secuencia de región accesoria y se tradujeron con pródigo, usando el indicador "-p meta", luego todas las secuencias de aminoácidos se compararon con una base de datos HMM personalizada de modelos de maquinaria conjugativa extraída de PFAM (Datos complementarios 13). ) usando hmmer74 con la bandera “-E 1e-8”. Se requirieron coincidencias de dos o más genes para una identificación positiva en una secuencia de región accesoria determinada.

Para encontrar y caracterizar plásmidos/episomas circulares, se analizaron tablas de información de ensamblaje de Flye para extraer supuestas secuencias circulares de menos de 1,5 megabases de tamaño. En el conjunto de datos, algunos plásmidos/episomas cortos estaban presentes en números de copias altos (>50 copias por cromosoma) y, en algunos casos, estos plásmidos/episomas con números de copias altos estaban representados en números de copias más bajos en bibliotecas complementarias secuenciadas en la misma celda de flujo. . Evaluamos que esto era probablemente una contaminación cruzada de la biblioteca y, para reducir la probabilidad de una asignación artificial de plásmidos/episomas a la biblioteca incorrecta, excluimos los contigs circulares con una cobertura que era del 80 % del valor de cobertura del cromosoma bacteriano o menos, o si la cobertura fue inferior a 30 veces en promedio a lo largo de la secuencia. Esto puede haber dado lugar a una subestimación del número real de plásmidos/episomas. Además, el ensamblador Flye ocasionalmente ensambla secuencias de manera artificial como concatémeros de dos o más copias en tándem. Cada secuencia circular se alineó consigo misma con BLASTN y, si la longitud total de la alineación era mayor que el 140% de la longitud total de la secuencia, el episoma se recortó a una unidad de longitud para eliminar posibles duplicaciones en tándem artefactos. Para determinar si las secuencias filtradas tenían genes asociados a plásmidos, cada secuencia se ejecutó a través de MOBsuite75 seguido de RPS-BLAST contra la base de datos CDD76 con indicadores "-evalue 1e-2 -seg yes". Luego se compararon los resultados con una lista de modelos relacionados con replicasas de plásmidos, relaxasas, maquinaria conjugativa, integrasas y transpuestas (Datos complementarios 14). Además, Abricate se ejecutó como se describe anteriormente en cada secuencia. Los plásmidos/episomas se agruparon en unidades taxonómicas operativas (OTU) aproximadas utilizando anicalc y aniclust de CheckV con indicadores “--min_ani 95 --min_tcov 85” (ANI mínimo = 95 %, AF mínimo = 85 %). El gráfico de red se visualizó en Cytoscape77.

La identificación de genes de ADN metiltransferasa es difícil por al menos tres razones: (1) el espacio de secuencia de genes/dominios de ADN metiltransferasa es muy grande y diverso, (2) algunos dominios de ADN metiltransferasa tienen homología con otros dominios, principalmente dominios de ARN metiltransferasa, y (3) muchos genes de ADN metiltransferasa tienen múltiples dominios (p. ej., un dominio de ADN metiltransferasa y una ADN helicasa), lo que da como resultado una posible anotación únicamente por el gen comparador (no el gen de metiltransferasa) mediante herramientas de anotación estándar. Además, muchos genes anotados con Prokka o Prokaryotic Genome Annotation Pipeline (https://github.com/ncbi/pgap) están etiquetados como "metilasa", y no está claro si estos genes son ADN metiltransferasas, ARN metiltransferasas, proteínas metiltransferasas, o algo mas.

Para resolver estos problemas, se creó DNA Mmethylase Finder. Una descripción completa de todos los componentes del proceso con documentación, así como la versión completamente ejecutable utilizada en este trabajo, están disponibles en https://github.com/mtisza1/DNA_methylase_finder. Al comienzo del proceso, las secuencias de proteínas de entrada (o entradas de nucleótidos traducidas) se consultan utilizando hmmer en una base de datos personalizada de HMM de diversos dominios de ADN metiltransferasa de PFAM, CDD, PDB, el trabajo de Oliveira et al 2014, y modelos adicionales generados. interno (https://zenodo.org/record/6647341/)37. Las proteínas alineadas se recortan hasta solo la región alineada que representa el supuesto dominio de ADN metiltransferasa, y luego estas regiones se comparan con todo el CDD usando hmmer para ver si algún otro modelo (como los dominios de ARN metiltransferasa) coincide mejor. Si un modelo de ADN metiltransferasa sigue siendo el mejor, se tipifica la supuesta ADN metiltransferasa (es decir, Tipo I, Tipo II, Tipo IIG, Tipo III) utilizando modelos específicos de subtipo de Oliveira et al, 2014, y la especificidad del motivo prospectivo se infiere mediante Alineación de BLASTP con las ADN metilasas de la base de datos REBASE (http://rebase.neb.com/rebase/rebase.html) con especificidad de motivo conocida (umbral predeterminado de 80 % de AAI y 80 % de AF para informar la especificidad). Finalmente, si se utilizaron contigs/genomas de nucleótidos como entrada, los mapas de las “vecindades de genes” de la ADN metilasa (flanqueantes +/- 5 genes) se anotan con modelos para enzimas de restricción, genes de subunidades de especificidad, seguidos de todos los CDD. Esta herramienta y documentación están disponibles en GitHub (https://github.com/mtisza1/DNA_methylase_finder). Las bases de datos están disponibles en https://zenodo.org/record/6647341/.

Para evaluar la sensibilidad de DNA Mmethylase Finder, se utilizó la base de datos REBASE “estándar de oro” de DNA metiltransferasas (descargada el 21 de mayo de 2021). Estas secuencias de proteínas se ingresaron como entrada en DNA Mmethylase Finder con la configuración predeterminada. Por el contrario, para evaluar una tasa de falsos positivos, se extrajeron todas (6011) las supuestas secuencias de genes de ADN metiltransferasa de los genomas de BFG y se compararon, mediante BLASTP con un umbral de evaluación 1e-3, con la base de datos REBASE "estándar de oro" de ADN metiltransferasas.

En la prueba de sensibilidad, DNA Methylase Finder identificó el 100 % de las metiltransferasas microbianas del conjunto. Las únicas proteínas metiltransferasas putativas en esta base de datos REBASE que no fueron identificadas por DNA Mmethylase Finder fueron genes de metiltransferasa humana y de ratón, así como dos genes de sulfotransferasa (p. ej., M.SenCer87DndC) que pueden haberse agregado a la base de datos por error.

En la evaluación de las tasas de falsos positivos, encontramos que 329/6011 (5,4%) supuestos genes de metiltransferasa identificados no tuvieron acceso a la base de datos REBASE en este límite de valor e. Si bien varios motivos en el conjunto de 320 tenían aparentes dominios de ADN metiltransferasa de alta calidad basados ​​en búsquedas manuales de HHpred, otros parecían ser verdaderos falsos positivos. Por lo tanto, estimamos que la tasa de falsos positivos según esta comparación es de hasta el 5,4%.

Las secuencias de profago se extrajeron como se describió anteriormente, y las OTU de virus se generaron mediante agrupación usando anicalc y aniclust de CheckV con indicadores “--min_ani 95 --min_tcov 85” (ANI mínimo = 95 %, AF mínimo = 85 %). Los mapas del genoma se dibujaron con Cenote-Taker 2 y los genomas relacionados se visualizaron con Clinker v0.0.2178. Los genes de la ADN metilasa se identificaron con el Buscador de ADN metilasa y se agruparon con aniclust basándose en una identidad de aminoácidos promedio del 80 % y una fracción de alineación del 80 % con alineaciones derivadas de la búsqueda BLASTP “todos contra todos”.

Se preparó ADN genómico de 268 aislados de BFG de cinco especies (B. fragilis, B. ovatus, B. vulgatus, B. thetaiotaomicron y P. distasonis) con el kit Oxford Nanopore SQK-RPB004 como se describe anteriormente. Estos datos y los datos de la secuenciación de ADN genómico “nativo” emparejado con aislados (SQK-RBK004) se llamaron (re)base con el modo “hac/alta precisión” de Guppy 5.0.7. Se utilizó Nanodisco v1.0.340 según las instrucciones, analizándose 300 "fragmentos" para cada genoma (opción de diferencia de Nanodisco). Después del procesamiento de datos con Nanodisco, todos los genomas recibieron una curación manual de motivos, ya que una proporción significativa de los motivos potenciales que se dan como resultado inicial probablemente sean incorrectos (generalmente demasiado específicos o demasiado amplios). La curación experta fue realizada por un solo operador (MT) y se basó en un análisis detallado del resultado del programa. La curación por expertos implicó la identificación y corrección de dos tipos comunes de errores. Un error implicó la fusión de motivos similares y un segundo error implicó el truncamiento de motivos. La explicación completa de los pasos para identificar y corregir estos dos errores se muestra en los ejemplos de las figuras complementarias. 8–9.

Los motivos que finalmente se catalogaron debían demostrar una diferencia de señal obvia en casi todas las apariciones de motivos (según la inspección de los gráficos "Refine_motifs"). Esperamos que el método que aplicamos a la curación manual represente un enfoque conservador y es posible que excluya motivos de metilación reales que Nanodisco detectó mal. Tenga en cuenta que las ADN metiltransferasas de tipo I se dirigen a un motivo hueco y su complemento inverso (p. ej., TCANNNNNGTC/GACNNNNNNTGA). A los efectos del análisis, tomamos la decisión de contar los motivos no palindrómicos supuestamente dirigidos por la misma ADN metiltransferasa como motivos separados. Aplicamos la misma lógica de conteo a los datos externos que se utilizó en los análisis9,41.

Para los aislados con datos de secuenciación del genoma de Pacbio, Nanopore nativo y Nanopore PCR, tanto la canalización predeterminada de Pacbio como Nanodisco realizaron llamadas de motivos de novo. Se compararon las tablas de resultados (Tabla complementaria 2).

Para cada motivo, se utilizó seqkit localizar79 con banderas para permitir bases ambiguas, como N o W, para buscar todas las instancias de cada motivo en todos los genomas relevantes. La comparación de la abundancia de motivos entre los grupos internos y externos del linaje se realizó en Python con el paquete stats anotador v0.4.3 (https://github.com/trevismd/statannotations) utilizando pruebas T con corrección de Benjamini-Hochberg (1% FDR).

De manera similar, para evaluar la densidad de motivos en los genes (Figura 13 complementaria), se evaluaron secuencias de genes de salida de prokka con seqkit como se indicó anteriormente. Seqkit también se utilizó para determinar la longitud del gen y el% de GC. Abricate se ejecutó en todos los genes (como se describe anteriormente) para identificar y anotar genes AMR.

Como este estudio implicó la secuenciación retrospectiva de aislados clínicos almacenados disponibles, no se utilizó ningún método estadístico para predeterminar el tamaño de la muestra. Se descartaron y repitieron bibliotecas de secuenciación que demostraban evidencia de contaminación o mala calidad; no se excluyeron otros datos de los análisis. Este trabajo implicó únicamente la secuenciación, la determinación de metilomas y el análisis bioinformático de aislados bacterianos no identificados y, por lo tanto, no se requirió ni se realizó ninguna aleatorización. Los investigadores no estaban cegados para ninguno de los análisis. Los aislados de BFG no identificados se obtuvieron de una colección histórica congelada y almacenada y, por lo tanto, no hubo criterios prerregistrados para esta colección.

El trabajo presentado en este manuscrito involucró únicamente aislados bacterianos clínicos no identificados. Como tal, este trabajo fue excluido de la revisión del NIH IRB bajo la exención OHSRP 19-NIAID-00802.

Más información sobre el diseño de la investigación está disponible en el Resumen del informe de Nature Portfolio vinculado a este artículo.

Los datos de secuenciación sin procesar generados en este estudio se depositaron en la base de datos del NCBI con el código de acceso de BioProject PRJNA646575. El archivo de datos complementario 3, y los datos sin procesar para PacBio y la construcción del genoma de nanoporos y el análisis de nanodisco, y las instrucciones se encuentran en una base de datos de zenodo en https://zenodo.org/record/7510225 y https://zenodo.org/record/ 7548812. Los archivos de salida primarios FAST5 de la secuenciación de nanoporos están disponibles previa solicitud y no se han subido a un repositorio público debido al tamaño del archivo (>10 Tb). Las solicitudes de materiales asociados con este trabajo requieren un Acuerdo estándar de transferencia de materiales de los NIH con los NIH y el gobierno de EE. UU. Las solicitudes de materiales deben dirigirse a John Dekker en [email protected].

Methylase Gene Finder está disponible para la línea de comandos de Linux a través de GitHub https://github.com/mtisza1/DNA_methylase_finder, con una base de datos asociada depositada en https://zenodo.org/record/6647341/. Otros scripts se encuentran en https://zenodo.org/record/7510225.

Hotchkiss, RD La separación cuantitativa de purinas, pirimidinas y nucleósidos mediante cromatografía en papel. J. Biol. Química. 175, 315–332 (1948).

Artículo CAS PubMed Google Scholar

Palmer, BR y Marinus, MG Las cepas dam y dcm de Escherichia coli: una revisión. Gen 143, 1-12 (1994).

Artículo CAS PubMed Google Scholar

Hoelzer, K., Shackelton, LA y Parrish, CR Presencia y papel de la metilación de citosina en virus de ADN de animales. Ácidos nucleicos res. 36, 2825–2837 (2008).

Artículo CAS PubMed PubMed Central Google Scholar

Weber, M. y col. Distribución, potencial de silenciamiento e impacto evolutivo de la metilación del ADN promotor en el genoma humano. Nat. Genet 39, 457–466 (2007).

Artículo CAS PubMed Google Scholar

Jones, PA Funciones de la metilación del ADN: islas, sitios de inicio, cuerpos genéticos y más. Nat. Rev. Genet 13, 484–492 (2012).

Artículo CAS PubMed Google Scholar

Beaulaurier, J., Schadt, EE y Fang, G. Descifrando epigenomas bacterianos utilizando tecnologías de secuenciación modernas. Nat. Rev. Genet 20, 157–172 (2019).

Artículo CAS PubMed PubMed Central Google Scholar

Oliveira, PH & Fang, G. Metiltransferasas de ADN conservadas: una ventana a los mecanismos fundamentales de la regulación epigenética en bacterias. Tendencias Microbiol 29, 28–40 (2021).

Artículo CAS PubMed Google Scholar

Labrie, SJ, Samson, JE y Moineau, S. Mecanismos de resistencia a bacteriófagos. Nat. Rev. Microbiol. 8, 317–327 (2010).

Artículo CAS PubMed Google Scholar

Oliveira, PH et al. La caracterización epigenómica de Clostridioides difficile encuentra una ADN metiltransferasa conservada que media la esporulación y la patogénesis. Nat. Microbiol. 5, 166–180 (2020).

Artículo CAS PubMed Google Scholar

Carvalho, A., Mazel, D. y Baharoglu, Z. La deficiencia en la metilación del ADN de citosina conduce a una alta expresión de chaperoninas y tolerancia a los aminoglucósidos en Vibrio cholerae. PLoS Genet 17, e1009748 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Blyn, LB, Braaten, BA y Low, DA Regulación de la variación de la fase de pap pilin mediante un mecanismo que involucra estados diferenciales de metilación de la presa. EMBO J. 9, 4045–4054 (1990).

Artículo CAS PubMed PubMed Central Google Scholar

Kumar, S. y col. La metilación del ADN de N4-citosina regula la transcripción y la patogénesis en Helicobacter pylori. Ácidos nucleicos res. 46, 3429–3445 (2018).

Artículo CAS PubMed PubMed Central ADS Google Scholar

Seib, KL, Srikhanta, YN, Atack, JM & Jennings, MP Regulación epigenética de la virulencia y la inmunoevasión mediante sistemas de modificación de restricción de fase variable en patógenos bacterianos. Año. Rev. Microbiol. 74, 655–671 (2020).

Artículo CAS PubMed Google Scholar

Putnam, CD Evolución del sistema de reparación de errores de coincidencia dirigido por metilo en Escherichia coli. Reparación de ADN (Amst.) 38, 32–41 (2016).

Artículo CAS PubMed Google Scholar

Eutsey, RA y cols. Estabilización genética del linaje de neumococo PMEN1 resistente a los medicamentos mediante su distintivo sistema de modificación de restricción dpniii. mBio 6, e00173 (2015).

Artículo CAS PubMed PubMed Central Google Scholar

Cherry, JL Hipermutación inducida por metilación en poblaciones naturales de bacterias. J. Bacteriol. 200, https://doi.org/10.1128/JB.00371-18 (2018).

Cherry, JL Hipermutación extrema de C a A en un sitio de metilación de citosina-N4. mBio 12, https://doi.org/10.1128/mBio.00172-21 (2021).

Wexler, HM Bacteroides: lo bueno, lo malo y lo esencial. Clínico. Microbiol. Rev. 20, 593–621 (2007).

Artículo CAS PubMed PubMed Central Google Scholar

Louis, P. & Flint, HJ Formación de propionato y butirato por la microbiota del colon humano. Reinar. Microbiol. 19, 29–41 (2017).

Artículo CAS PubMed Google Scholar

Wexler, AG y Goodman, AL Una perspectiva interna: los bacteroides como una ventana al microbioma. Nat. Microbiol. 2, 17026 (2017).

Artículo CAS PubMed PubMed Central Google Scholar

Feng, J. y col. Los loci de utilización de polisacáridos en Bacteroides determinan la aptitud de la población y las interacciones a nivel comunitario. Microbio huésped celular 30, 200–215.e212 (2022).

Artículo CAS PubMed PubMed Central Google Scholar

Nagy, E., Urban, E., Nord, CE & Bacteria, ESGOARIA Susceptibilidad antimicrobiana de aislados del grupo Bacteroides fragilis en Europa: 20 años de experiencia. Clínico. Microbiol. Infectar. 17, 371–379 (2011).

Artículo CAS PubMed Google Scholar

Wallace, MJ, Jean, S., Wallace, MA, Burnham, CD y Dantas, G. La genómica comparativa de aislados del grupo bacteroides fragilis revela mecanismos de resistencia dependientes de las especies y valida herramientas clínicas para la predicción de la resistencia. mBio 13, e0360321 (2022).

Artículo PubMed Google Scholar

Jiang, X. y col. Los promotores reversibles median la variación de la fase bacteriana, la resistencia a los antibióticos y la adaptación del huésped en el intestino. Ciencia 363, 181–187 (2019).

Artículo CAS PubMed PubMed Central ADS Google Scholar

Grondin, JM, Tamura, K., Dejean, G., Abbott, DW y Brumer, H. Loci de utilización de polisacáridos: alimentando comunidades microbianas. J. Bacteriol. 199, https://doi.org/10.1128/JB.00860-16 (2017).

Tribble, GD, Parker, AC y Smith, CJ El transposón movilizable de Bacteroides Tn4555 se integra mediante un mecanismo de recombinación específico de sitio similar al del elemento bacteriano grampositivo Tn916. J. Bacteriol. 179, 2731–2739 (1997).

Artículo CAS PubMed PubMed Central Google Scholar

Stoddard, SF, Smith, BJ, Hein, R., Roller, BR y Schmidt, TM rrnDB: herramientas mejoradas para interpretar la abundancia de genes de ARNr en bacterias y arqueas y una nueva base para el desarrollo futuro. Ácidos nucleicos res. 43, D593–D598 (2015).

Artículo CAS PubMed Google Scholar

Saffert, RT y cols. Comparación del espectrómetro de masas de tiempo de vuelo de ionización por desorción láser asistida por matriz Bruker Biotyper con el sistema de microbiología automatizado BD Phoenix para la identificación de bacilos gramnegativos. J.Clin. Microbiol. 49, 887–892 (2011).

Artículo PubMed PubMed Central Google Scholar

Jean, S., Wallace, MJ, Dantas, G. & Burnham, CD Es hora de una terapia de grupo: actualización sobre la identificación, la resistencia a los antimicrobianos, la taxonomía y la importancia clínica del grupo Bacteroides fragilis. J.Clin. Microbiol 60, e0236120 (2022).

Artículo PubMed Google Scholar

Chaumeil, PA, Mussig, AJ, Hugenholtz, P. & Parks, DH GTDB-Tk: un conjunto de herramientas para clasificar genomas con la base de datos de taxonomía del genoma. Bioinformática 36, ​​1925-1927 (2019).

Artículo PubMed PubMed Central Google Scholar

Gautreau, G. y col. PPanGGOLiN: representa la diversidad microbiana mediante un gráfico de pangenoma dividido. PLoS Comput Biol. 16, e1007732 (2020).

Artículo PubMed PubMed Central Google Scholar

Pasolli, E. et al. Amplia diversidad de microbiomas humanos inexplorada revelada por más de 150.000 genomas de metagenomas que abarcan edades, geografías y estilos de vida. Celda 176, 649–662.e620 (2019).

Artículo CAS PubMed PubMed Central Google Scholar

Bazin, A., Gautreau, G., Medigue, C., Vallenet, D. & Calteau, A. panRGP: un método basado en pangenomas para predecir islas genómicas y explorar su diversidad. Bioinformática 36, ​​i651 – i658 (2020).

Artículo CAS PubMed Google Scholar

Rozwandowicz, M. et al. Plásmidos que portan genes de resistencia a los antimicrobianos en Enterobacteriaceae. J. Antimicrobios. Chemadre. 73, 1121-1137 (2018).

Artículo CAS PubMed Google Scholar

Murphy, J., Mahony, J., Ainsworth, S., Nauta, A. y van Sinderen, D. Metiltransferasas de ADN huérfano de bacteriófagos: conocimientos sobre su origen, función y aparición bacteriana. Entorno de aplicaciones. Microbiol 79, 7547–7555 (2013).

Artículo CAS PubMed PubMed Central ADS Google Scholar

Benler, S. y col. Los genes de carga de los transposones tipo Tn7 comprenden una enorme diversidad de sistemas de defensa, elementos genéticos móviles y genes de resistencia a los antibióticos. mBio 12, e0293821 (2021).

Artículo PubMed Google Scholar

Oliveira, PH, Touchon, M. & Rocha, EP La interacción de los sistemas de modificación de restricción con elementos genéticos móviles y sus huéspedes procarióticos. Ácidos nucleicos res. 42, 10618–10631 (2014).

Artículo CAS PubMed PubMed Central Google Scholar

Tisza, MJ, Belford, AK, Dominguez-Huerta, G., Bolduc, B. & Buck, CB Cenote-Taker 2 democratiza el descubrimiento de virus y la anotación de secuencias. Evolución del virus. 7, veaa100 (2021).

Artículo PubMed Google Scholar

Nayfach, S. et al. CheckV evalúa la calidad y la integridad de los genomas virales ensamblados en metagenomas. Nat. Biotecnología. https://doi.org/10.1038/s41587-020-00774-7 (2020).

Tourancheau, A., Mead, EA, Zhang, XS y Fang, G. Descubrimiento de múltiples tipos de metilación del ADN de bacterias y microbiomas mediante secuenciación de nanoporos. Nat. Métodos 18, 491–498 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Bottacini, F. y col. El análisis comparativo del genoma y el metiloma revela la diversidad del sistema de restricción/modificación en el comensal intestinal Bifidobacterium breve. Ácidos nucleicos res. 46, 1860–1877 (2018).

Artículo CAS PubMed Google Scholar

Ghosh, D., Veeraraghavan, B., Elangovan, R. y Vivekanandan, P. Resistencia a los antibióticos y epigenética: más de lo que parece. Antimicrobiano. Agentes Chemother. 64, https://doi.org/10.1128/AAC.02225-19 (2020).

Golpe, MJ et al. El paisaje epigenómico de los procariotas. PLoS Genet 12, e1005854 (2016).

Artículo PubMed PubMed Central Google Scholar

Modlin, SJ y cols. Impulsores y sitios de diversidad en los metilomas de adenina del ADN de 93 aislados clínicos del complejo Mycobacterium tuberculosis. Elife 9, https://doi.org/10.7554/eLife.58542 (2020).

Kechin, A., Boyarskikh, U., Kel, A. y Filipenko, M. cutPrimers: una nueva herramienta para el corte preciso de cebadores a partir de lecturas de secuenciación específica de próxima generación. J. Computación Biol. 24, 1138-1143 (2017).

Artículo CAS PubMed Google Scholar

Bankevich, A. y cols. SPAdes: un nuevo algoritmo de ensamblaje del genoma y sus aplicaciones a la secuenciación unicelular. J. Computación Biol. 19, 455–477 (2012).

Artículo MathSciNet CAS PubMed PubMed Central Google Scholar

Parks, DH, Imelfort, M., Sknnerton, CT, Hugenholtz, P. & Tyson, GW CheckM: evaluación de la calidad de los genomas microbianos recuperados de aislados, células individuales y metagenomas. Genoma Res. 25, 1043-1055 (2015).

Artículo CAS PubMed PubMed Central Google Scholar

Walker, BJ y cols. Pilon: una herramienta integrada para la detección integral de variantes microbianas y la mejora del ensamblaje del genoma. PLoS One 9, e112963 (2014).

Artículo PubMed PubMed Central ADS Google Scholar

Molder, F. y col. Análisis de datos sostenible con Snakemake. F1000Res 10, 33 (2021).

Artículo PubMed PubMed Central Google Scholar

Kolmogorov, M., Yuan, J., Lin, Y. y Pevzner, PA Montaje de lecturas largas y propensas a errores utilizando gráficos repetidos. Nat. Biotecnología. 37, 540–546 (2019).

Artículo CAS PubMed Google Scholar

Vaser, R., Sovic, I., Nagarajan, N. y Sikic, M. Ensamblaje del genoma de novo rápido y preciso a partir de lecturas largas sin corregir. Genoma Res. 27, 737–746 (2017).

Artículo CAS PubMed PubMed Central Google Scholar

Koren, S. y col. Canu: ensamblaje de lectura larga escalable y preciso mediante ponderación k-mer adaptativa y separación repetida. Genoma Res. 27, 722–736 (2017).

Artículo CAS PubMed PubMed Central Google Scholar

Hunt, M. y col. Circulator: circularización automatizada de ensamblajes de genomas mediante lecturas de secuenciación largas. Genoma Biol. 16, 294 (2015).

Artículo PubMed PubMed Central Google Scholar

Krumsiek, J., Arnold, R. y Rattei, T. Gepard: una herramienta rápida y sensible para crear diagramas de puntos a escala del genoma. Bioinformática 23, 1026–1028 (2007).

Artículo CAS PubMed Google Scholar

Seemann, T. Prokka: anotación rápida del genoma procariótico. Bioinformática 30, 2068–2069 (2014).

Artículo CAS PubMed Google Scholar

Sayers, EW y cols. Recursos de bases de datos del Centro Nacional de Información Biotecnológica. Ácidos nucleicos res. 49, D10-D17 (2021).

Artículo CAS PubMed Google Scholar

Huson, DH y cols. Edición comunitaria MEGAN: exploración y análisis interactivos de datos de secuenciación de microbiomas a gran escala. Computación PLoS. Biol. 12, e1004957 (2016).

Artículo PubMed PubMed Central Google Scholar

Buchfink, B., Xie, C. y Huson, DH Alineamiento de proteínas rápido y sensible utilizando DIAMOND. Nat. Métodos 12, 59–60 (2015).

Artículo CAS PubMed Google Scholar

Arumugam, K. y col. Cromosomas bacterianos anotados a partir de datos metagenómicos de lectura larga corregidos por cambio de marco. Microbioma 7, 61 (2019).

Artículo PubMed PubMed Central Google Scholar

Sakamoto, M. & Ohkuma, M. Identificación y clasificación del género Bacteroides mediante análisis de secuencia multilocus. Microbiol. (Leer) 157, 3388–3397 (2011).

Artículo de Google Scholar

Camacho, C. et al. BLAST+: arquitectura y aplicaciones. BMC Bioinforma. 10, 421 (2009).

Artículo de Google Scholar

Edgar, RC MUSCLE: alineación de secuencias múltiples con alta precisión y alto rendimiento. Ácidos nucleicos res. 32, 1792-1797 (2004).

Artículo CAS PubMed PubMed Central Google Scholar

Capella-Gutiérrez, S., Silla-Martinez, JM & Gabaldon, T. trimAl: una herramienta para el recorte de alineación automatizado en análisis filogenéticos a gran escala. Bioinformática 25, 1972-1973 (2009).

Artículo CAS PubMed PubMed Central Google Scholar

Stamatakis, A. RAxML versión 8: una herramienta para el análisis filogenético y el posanálisis de grandes filogenias. Bioinformática 30, 1312-1313 (2014).

Artículo CAS PubMed PubMed Central Google Scholar

Yu, G. Uso de ggtree para visualizar datos en estructuras en forma de árbol. actual. Protocolo. Bioinformación. 69, e96 (2020).

Google Académico

Ondov, BD y cols. Mash: estimación rápida de la distancia del genoma y metagenoma usando MinHash. Genoma Biol. 17, 132 (2016).

Artículo PubMed PubMed Central Google Scholar

Gu, Z., Eils, R. & Schlesner, M. Los mapas de calor complejos revelan patrones y correlaciones en datos genómicos multidimensionales. Bioinformática 32, 2847–2849 (2016).

Artículo CAS PubMed Google Scholar

Zankari, E. y col. Identificación de genes de resistencia antimicrobiana adquirida. J. Antimicrobios. Chemadre. 67, 2640–2644 (2012).

Artículo CAS PubMed PubMed Central Google Scholar

Sydenham, TV y otros. El ensamblaje completo del genoma híbrido de aislados clínicos de Bacteroides fragilis resistentes a múltiples fármacos permite la identificación integral de genes y plásmidos de resistencia a los antimicrobianos. Microbio. Genoma. 5. https://doi.org/10.1099/mgen.0.000312 (2019).

Feldgarden, M. y col. Validación de la herramienta AMRFinder y la base de datos de genes de resistencia mediante el uso de correlaciones genotipo-fenotipo de resistencia a los antimicrobianos en una colección de aislados. Antimicrobiano. Agentes Chemother. 63, https://doi.org/10.1128/AAC.00483-19 (2019).

Jia, B. y col. CARD 2017: expansión y curación centrada en modelos de la base de datos integral de resistencia a los antibióticos. Ácidos nucleicos res. 45, D566-D573 (2017).

Artículo CAS PubMed Google Scholar

Snipen, L. & Liland, KH micropan: un paquete R para pangenómica microbiana. BMC Bioinforma. 16, 79 (2015).

Artículo de Google Scholar

Payne, LJ y cols. La identificación y clasificación de sistemas de defensa antivirales en bacterias y arqueas con PADLOC revela nuevos tipos de sistemas. Ácidos nucleicos res. 49, 10868–10878 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Eddy, SR Búsquedas HMM de perfil aceleradas. PLoS Comput Biol. 7, e1002195 (2011).

Artículo MathSciNet CAS PubMed PubMed Central ADS Google Scholar

Robertson, J. & Nash, JHE MOB-suite: herramientas de software para agrupación, reconstrucción y tipificación de plásmidos a partir de borradores de ensamblajes. Microbio. Genoma. 4, https://doi.org/10.1099/mgen.0.000206 (2018).

Lu, S. y col. CDD/SPARCLE: la base de datos de dominio conservada en 2020. Nucleic Acids Res. 48, D265–D268 (2020).

Artículo CAS PubMed Google Scholar

Shannon, P. y col. Cytoscape: un entorno de software para modelos integrados de redes de interacción biomoleculares. Genoma Res. 13, 2498–2504 (2003).

Artículo CAS PubMed PubMed Central Google Scholar

Gilchrist, CLM & Chooi, YH Clinker & clustermap.js: generación automática de cifras de comparación de grupos de genes. Bioinformática, https://doi.org/10.1093/bioinformatics/btab007 (2021).

Shen, W., Le, S., Li, Y. & Hu, F. SeqKit: un conjunto de herramientas ultrarrápido y multiplataforma para la manipulación de archivos FASTA/Q. PLoS One 11, e0163962 (2016).

Artículo PubMed PubMed Central Google Scholar

Descargar referencias

Agradecemos al personal del Servicio de Microbiología del Departamento de Medicina de Laboratorio del Centro Clínico de los NIH por el apoyo técnico y reconocemos a Morgan Park del NISC por el ensamblaje de los genomas de PacBio. Este trabajo fue financiado por el Programa de Investigación Intramuros del Instituto Nacional de Alergias y Enfermedades Infecciosas (NIAID) y utilizó los recursos computacionales del grupo NIH HPC Biowulf. (http://hpc.nih.gov). El contenido y las opiniones expresadas en este trabajo son responsabilidad de los autores y no necesariamente representan las opiniones oficiales de los NIH o del gobierno de los EE. UU.

Financiamiento de acceso abierto proporcionado por los Institutos Nacionales de Salud (NIH).

Michael J. Tisza

Dirección actual: Centro Alkek de Investigación en Metagenómica y Microbioma, Departamento de Virología Molecular y Microbiol, Facultad de Medicina Baylor, Houston, TX, EE. UU.

Derek D. Smith

Dirección actual: Medio Ambiente y Cambio Climático de Canadá, División de Ecotoxicología y Salud de la Vida Silvestre, Sección de Investigación de Toxicología de la Vida Silvestre, Ottawa, ON, Canadá

Andrés E. Clark

Dirección actual: Departamento de Patología, Centro Médico Southwestern de la Universidad de Texas, Dallas, TX, EE. UU.

Estos autores contribuyeron igualmente: Michael J. Tisza, Derek DN Smith

Unidad de Patogénesis Bacteriana y Resistencia a los Antimicrobianos, LCIM, NIAID, NIH, Bethesda, MD, EE. UU.

Michael J. Tisza, Derek DN Smith, Pavel P. Khil y John P. Dekker

Centro Clínico de los Institutos Nacionales de Salud, NIH, Bethesda, MD, EE. UU.

Andrew E. Clark, Jung-Ho Youn, Pavel P. Khil y John P. Dekker

Instituto Nacional de Investigación del Genoma Humano, NIH, Bethesda, MD, EE. UU.

Beatrice B. Barnabas, Sean Black, Gerard G. Bouffard, Shelise Y. Brooks, Juyun Crawford, Holly Marfani, Lyudmila Dekhtyar, Joel Han, Shi-Ling Ho, Richelle Legaspi, Quino L. Maduro, Catherine A. Masiello, Jennifer C McDowell, Casandra Montemayor, James C. Mullikin, Morgan Park, Karen Schandler, Brian Schmidt, Christina Sison, Sirintorn Stantripop, James W. Thomas, Pamela J. Thomas, Meghana Vemulapalli y Alice C. Young

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

MJT, DDNS, AEC, PPK y JPD concibieron y diseñaron el estudio. JPD obtuvo y gestionó la financiación para el estudio. AEC seleccionó la colección aislada y gestionó la documentación de metadatos aislados. AEC y DDNS realizaron pruebas de susceptibilidad. MJT, DDNS, AEC y J.-HY realizaron la secuenciación genómica de Illumina y/o Nanopore. El Programa de secuenciación comparativa NISC de NHGRI, NIH realizó la secuenciación Illumina y PacBio de aislados seleccionados. Morgan Park del NISC realizó el ensamblaje de genomas microbianos a partir de lecturas de PacBio. MJT y JPD planearon experimentos de secuenciación de metiloma Nanopore. MJT realizó la secuenciación de metilomas de Nanopore y el análisis de datos de metilomas. MJT creó la herramienta DNA Mmethylase Finder y realizó la identificación y análisis de metiltransferasa. MJT, PPK y DDNS realizaron análisis computacionales de datos genómicos y realizaron gestión de datos críticos. MJT y DDNS generaron manuscritos primarios y figuras complementarias. JPD supervisó el estudio. MJT, DDNS, PPK y JPD realizaron una revisión crítica tanto de los datos experimentales como de los análisis computacionales. MJT, DDNS, AEC y JPD escribieron y revisaron el manuscrito. Todos los autores revisaron y/o editaron críticamente el manuscrito.

Correspondencia a John P. Dekker.

Los autores declaran no tener conflictos de intereses.

Nature Communications agradece a Pedro Oliveira y a los demás revisores anónimos por su contribución a la revisión por pares de este trabajo. Un archivo de revisión por pares está disponible.

Nota del editor Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado a los autores originales y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Tisza, MJ, Smith, DDN, Clark, AE et al. Las metiltransferasas itinerantes generan un paisaje epigenético en mosaico e influyen en la evolución en el grupo Bacteroides fragilis. Nat Comuna 14, 4082 (2023). https://doi.org/10.1038/s41467-023-39892-6

Descargar cita

Recibido: 24 de enero de 2023

Aceptado: 29 de junio de 2023

Publicado: 10 de julio de 2023

DOI: https://doi.org/10.1038/s41467-023-39892-6

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.

Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.