Los canales de elaboración de perfiles metagenómicos mejoran la clasificación taxonómica de los datos de secuenciación del amplicón 16S

Scientific Reports volumen 13, número de artículo: 13957 (2023) Citar este artículo

8834 Accesos

122 altmétrico

Detalles de métricas

La mayoría de los experimentos que estudian los microbiomas bacterianos se basan en la amplificación por PCR de todo o parte del gen de la subunidad de ARNr 16S, que sirve como biomarcador para identificar y cuantificar los diversos taxones presentes en una muestra de microbioma. Existen varios métodos computacionales para analizar la secuenciación de amplicones 16S. Sin embargo, las herramientas bioinformáticas más utilizadas no pueden producir llamadas taxonómicas de alta calidad a nivel de género o especie y pueden subestimar la precisión potencial de estas llamadas. Utilizamos datos de secuenciación 16S de comunidades bacterianas simuladas para evaluar la sensibilidad y especificidad de varios procesos bioinformáticos y bibliotecas de referencia genómica utilizadas para análisis de microbiomas, concentrándonos en medir la precisión de las asignaciones taxonómicas a nivel de especie de lecturas de amplicones 16S. Evaluamos las herramientas DADA2, QIIME 2, Mothur, PathoScope 2 y Kraken 2 junto con bibliotecas de referencia de Greengenes, SILVA, Kraken 2 y RefSeq. Las herramientas de elaboración de perfiles se compararon utilizando datos comunitarios simulados disponibles públicamente de varias fuentes, que comprenden 136 muestras con variada riqueza y uniformidad de especies, varias regiones amplificadas diferentes dentro del gen 16S rRNA y tanto picos de ADN como ADNc de colecciones de células en placas. PathoScope 2 y Kraken 2, ambas herramientas diseñadas para la metagenómica de todo el genoma, superaron a DADA2, QIIME 2 usando el complemento DADA2 y Mothur, que teóricamente están especializados en análisis 16S. Las evaluaciones de las bibliotecas de referencia identificaron las bibliotecas estándar SILVA y RefSeq/Kraken 2 como superiores en precisión en comparación con Greengenes. Estos hallazgos respaldan a PathoScope y Kraken 2 como opciones competitivas y totalmente capaces para el análisis de datos de secuenciación de amplicones 16S a nivel de género y especie, secuenciación del genoma completo y herramientas de datos metagenómicos.

La secuenciación de alto rendimiento ha acelerado enormemente el estudio de la microbiómica, es decir, el campo científico centrado en estudiar la composición, diversidad y función de las comunidades microbianas y sus interacciones con sus huéspedes o entornos1. La caracterización de la composición de muestras microbianas comúnmente se basa en la amplificación de secuencias de la subunidad ribosómica 16S, un gen ubicuo con regiones altamente conservadas. La subunidad simplifica los esfuerzos para aislar y amplificar el ARNr 16S con cebadores de PCR establecidos y regiones hipervariables para establecer la identidad y la filogenia. La secuenciación de ARNr y ADNr 16S se puede utilizar para identificar especies procarióticas conocidas y actuar como indicador para cuantificar la abundancia relativa de unidades taxonómicas operativas (OTU) dentro de muestras de microbioma.

Los métodos para el perfil taxonómico de secuencias de genes de ARN ribosómico permiten la identificación de OTU de muestras clasificando secuencias de ARNr en grupos taxonómicos. Si bien se puede lograr una precisión considerable en la identificación a nivel de especie con las herramientas disponibles2, el software de creación de perfiles actual para datos de secuenciación de amplicones 16S duda en identificar hasta el nivel de especie. En cambio, agrupan lecturas en función de la similitud de secuencias para asignar géneros o identificaciones de nivel superior para aumentar la especificidad y la sensibilidad, o utilizan directamente secuencias filtradas por errores para la clasificación taxonómica3,4. A medida que aumentan las capacidades de las plataformas de secuenciación modernas y que las bases de datos de genoma de referencia bacteriana se expanden y mejoran, surge más potencial para lograr un mejor rendimiento del análisis 16S con métodos alternativos que se aplican más comúnmente en la metagenómica del genoma completo.

Los paquetes de software más comunes empleados actualmente en el análisis de datos de secuenciación de amplicones 16S son DADA24, QIIME 25, su predecesor, QIIME 26 y Mothur7. QIIME 2 y Mothur se desarrollaron originalmente poco después de la invención de la secuenciación de próxima generación y, junto con QIIME 2, siguen esencialmente el mismo flujo de trabajo: las lecturas generalmente se agrupan de novo según la similitud de secuencia en unidades taxonómicas operativas (OTU) u OTU sin ruido. (muchos se refieren a ellas como variantes de secuencia de amplicón o ASV) dependiendo de si se desea una identidad de secuencia completa para la agrupación. El paso de agrupación inicial sirve para 1) mejorar la eficiencia computacional al limitar el número de secuencias que necesitan alineación con un gran conjunto de genomas de referencia y 2) acomodar los bajos niveles de variación genética presentes dentro de una cepa bacteriana determinada, mitigando así los errores de secuenciación. Durante casi una década, el límite para la inclusión de OTU fue del 97 % de identidad de secuencia8,9, pero las recomendaciones de límite actuales ahora rondan el 99-100% de identidad de secuencia3,10, generalmente después de alguna forma de eliminación de ruido u otra corrección de errores de secuenciación4,11.

Una alternativa a la agrupación OTU incluye alinear directamente las lecturas con una biblioteca de genoma de referencia, como lo hace PathoScope 2.012. PathoScope emplea un marco de modelado mixto bayesiano para reasignar lecturas alineadas ambiguamente, amortiguando posibles errores de secuenciación y variaciones genéticas menores13,14. Como otra alternativa, Kraken 2 realiza búsquedas de k-mer sin alineación en una biblioteca de genoma de referencia15 y realiza asignaciones taxonómicas a cada lectura en función del número acumulado de coincidencias de k-mer en una lectura completa de cada nodo taxonómico en su biblioteca de referencia. Al omitir un paso de agrupación de secuencias, PathoScope y Kraken 2 evitan individualmente los posibles problemas inherentes a la generación de OTU y los errores de eliminación de ruido16,17, aunque siguen siendo susceptibles a errores de secuenciación. Si bien DADA2, QIIME 2, Mothur, Greengenes y SILVA son herramientas diseñadas para abordar las necesidades específicas de la secuenciación de amplicones 16S, las mejoras en las tecnologías de secuenciación, la ampliación de las bases de datos de genoma de referencia bacteriana y la mayor disponibilidad y asequibilidad de los recursos computacionales han hecho que muchos de las cuestiones específicas abordadas por estas herramientas son irrelevantes. Mientras tanto, la mayor flexibilidad y potencia de una herramienta como PathoScope puede producir mejores resultados a pesar de ser computacionalmente intensiva y estar diseñada para cumplir un propósito metagenómico más general18,19.

Todos estos métodos de elaboración de perfiles dependen en gran medida de la calidad de la biblioteca de referencia utilizada, como se ha demostrado en estudios comparativos previos20,21,22,23. Las bases de datos de referencia más utilizadas para los análisis de amplicones 16S son Greengenes24, SILVA25 y Ribosomal Database Project (RDP)26. Cada base de datos contiene exclusivamente secuencias del gen 16S rRNA y ofrece información taxonómica para cada secuencia de referencia. SILVA está bien mantenido y publica actualizaciones periódicamente, aunque al momento de escribir este artículo, la actualización más reciente es SILVA 138.1 (publicada el 27 de agosto de 2020). Mientras tanto, Greengenes lleva años estancada; su actualización más reciente en el momento de la presentación fue Greengenes 13_8, publicada en agosto de 2013. Como resultado, Greengenes carece de varias bacterias esenciales, incluidas las especies de Dolosigranulum27, implicadas por desempeñar un papel protector en la prevención de enfermedades en las vías respiratorias humanas28,29. Vale la pena señalar que una nueva versión, Greengenes230, estuvo disponible en 2022 durante el proceso de revisión de este artículo y posteriormente no se incluyó en los análisis de este artículo. Aunque QIIME 2 y Mothur son compatibles con cualquier biblioteca de genoma de referencia, QIIME 2 usa Greengenes de forma predeterminada y la documentación de Mothur (consultada el 17 de mayo de 2022) recomienda SILVA. DADA2 mantiene bases de datos de referencia para SILVA, RDP y Greengenes, con la flexibilidad de crear bases de datos personalizadas. Kraken 2 tiene su propia biblioteca bacteriana "estándar" seleccionada, con un árbol taxonómico basado en la base de datos de taxonomía del NCBI de forma predeterminada31, y también ha lanzado versiones formateadas compatibles con Kraken 2 de Greengenes, SILVA y RDP. La recomendación actual de la biblioteca de referencia PathoScope es descargar la base de datos completa del genoma representativo de RefSeq32, una colección de ensamblajes y genomas bacterianos seleccionados de alta calidad. RefSeq se actualiza constantemente y, como tal, los resultados de cualquier análisis que utilice RefSeq como biblioteca de referencia pueden variar según la fecha de descarga de la biblioteca.

Dadas estas consideraciones, comparamos sistemáticamente varias herramientas actuales de elaboración de perfiles comunitarios y bibliotecas de referencia creadas para análisis metagenómicos y 16S. Evaluamos las herramientas QIIME 2, Mothur, PathoScope 2 y Kraken 2 junto con bibliotecas de referencia de Greengenes, SILVA, Kraken 2 y RefSeq. Utilizando varios conjuntos de datos de secuenciación 16S disponibles públicamente de comunidades simuladas sintéticas, analizamos específicamente el rendimiento a nivel de género y especie en pares de perfiladores y bibliotecas. Probamos 136 muestras que comprenden diferentes riquezas y uniformidad de especies, varias regiones amplificadas diferentes dentro del gen 16S rRNA y tanto picos de ADN como ADNc de colecciones de células en placas. Nuestras comparaciones evaluativas utilizaron una combinación de diversidad y medidas basadas en la precisión para determinar qué métodos y herramientas proporcionaron el mejor rendimiento en la elaboración de perfiles de conjuntos de datos de secuenciación de amplicones 16S.

Se recolectaron 136 muestras simuladas de secuenciación comunitaria en total de cuatro conjuntos de datos de secuenciación disponibles públicamente y se analizaron en nuestra evaluación. 69 muestras son de Lluch et al.33; 33 muestras son de Kozich et al.34; 29 muestras son de Fouhy et al.35; y 5 muestras son de Karstens36. Estos conjuntos de datos se denominarán en lo sucesivo muestras de Lluch, Kozich, Fouhy y Karstens. Las composiciones de especies para cada conjunto se detallan en la Tabla S1. Las muestras de Lluch incluyen una variedad de composiciones comunitarias, que van desde muestras de monocultivo compuestas por una sola especie hasta otras con 20 especies en concentraciones escalonadas. En conjunto, aparecen 34 especies en el conjunto de muestras de Lluch. Si bien los perfiles taxonómicos de las muestras de Lluch son diversos, las 69 muestras se produjeron utilizando un único protocolo unificado de extracción, amplificación y secuenciación de ADN que produjo lecturas de extremos emparejados de Illumina MiSeq de la región V4-V5 del gen 16S rRNA. Cada una de las muestras de Kozich comprende tres réplicas de secuenciación de 11 preparaciones diferentes de la comunidad simulada B (HM-278D) de BEI, que abarca 21 especies. Para las muestras de Kozich, se utilizaron tres pares de cebadores de PCR para amplificar tres porciones distintas del gen 16S rRNA (los rangos V3, V4 y V4-V5), lo que hace que los datos de secuenciación de estas muestras sean más complejos que los de las muestras de otras muestras. conjuntos de datos. Cada una de las muestras de Fouhy es una combinación única de la comunidad simulada B de BEI (picos de ADN 16S) o de la comunidad simulada C de BEI (células cultivadas), preparadas utilizando uno de los tres protocolos de preparación de la biblioteca, amplificadas con cebadores de PCR para V1-V2. o la región V4-V5 del gen 16S rRNA, y secuenciado en una máquina Illumina MiSeq o en un Thermo Fisher Ion Torrent. Finalmente, las cinco muestras de Karstens se originan a partir de una única biblioteca de ADN simulada personalizada de ocho especies, con la región V4 amplificada y secuenciada en un dispositivo Illumina MiSeq.

Evaluamos cinco canales de análisis aplicados a las 136 muestras comunitarias simuladas: DADA2, QIIME 2, Mothur, PathoScope y Kraken 2.

Para la implementación independiente de DADA2, todas las muestras se filtraron y recortaron, y se detectaron errores en las lecturas directa e inversa. Los errores aprendidos se utilizaron para realizar inferencias sobre la presencia de errores previstos en todas las lecturas como medida de eliminación de ruido. Se fusionaron lecturas emparejadas y se eliminaron las quimeras, y se asignó la taxonomía hasta el nivel de especie. Al filtrar y recortar, para la mayoría de las muestras utilizamos los parámetros maxN = 0, maxEE = c(3, 3), truncQ = 2, rm.phix = TRUE y tlength = 0. Para lecturas no emparejadas, configuramos maxEE = 3. Varias muestras de Kozich sufrieron una degradación extrema de la calidad en los extremos de lectura; para corregir esto, establecemos tlength = c(240, 200). Finalmente, al ejecutar las muestras de Fouhy Ion Torrent, configuramos los parámetros de la función DADA2 HOMOPOLYMER_GAP_PENALTY = − 1 y BAND_SIZE = 32. Para el paso de filtro y recorte, también configuramos trimLeft = 15. Estas configuraciones se basaron en recomendaciones para procesar datos de Ion Torrent. en las preguntas frecuentes de DADA2.

Para todos los análisis de QIIME 2, utilizamos el complemento DADA2 para agrupar secuencias y construir tablas de características. Decidimos probar el complemento DADA2 junto con su paquete independiente debido a la amplia base de usuarios de QIIME 2. Sin embargo, la implementación independiente utiliza una identidad de secuencia del 100 % sobre Mothur y QIIME 2 (con un 97 %) y utiliza una coincidencia de secuencia exacta en lugar de una k. Método basado en -mer (como en el clasificador de características q2 de QIIME 2). Todos los conjuntos de datos simulados podrían ejecutarse con lecturas de extremos emparejados además de los conjuntos de datos de Fouhy. En la mayoría de los casos, DADA2 no requirió truncamiento de secuencias de extremos emparejados y solo se recortaron los 6 pb iniciales de cada lectura. Sin embargo, los puntajes de calidad al final de nueve muestras del conjunto de datos de Kozich fueron universalmente lo suficientemente bajos (límite del puntaje de calidad medio <20) como para requerir un truncamiento a 240 pb para lecturas directas y 200 pb para lecturas inversas para muestras de Kozich. La taxonomía se asignó utilizando clasificadores Bayes ingenuos personalizados construidos para cada conjunto de muestras de comunidades simuladas en función de su región 16S amplificada. Los archivos de salida de artefactos QIIME 2 se convirtieron al formato BIOM y posteriormente al formato de texto delimitado por tabulaciones para análisis posteriores y comparaciones de canalizaciones.

Para los análisis de Mothur, siempre que fue posible, se siguieron todos los procedimientos recomendados de acuerdo con la documentación de Mothur. Para secuencias de extremos emparejados, se utilizó la función nativa make.contigs() para unir lecturas. En el paso pre.cluster() del análisis de Mothur, el parámetro "diffs" (el número de discrepancias permitidas entre la secuencia representativa de un grupo y cada secuencia miembro) se estableció en 2 para lecturas de secuenciación unidas de menos de 250 pb, 3 para lecturas unidas de longitud 250–349 pb y 4 para lecturas unidas más largas. Para cluster.split(), configuramos el parámetro "taxlevel" en 4, con un "límite" de 0,03.

Para los análisis de PathoScope 2.0, los parámetros de alineación de Bowtie2 se configuraron en “–local -R 2 -N 0 -L 25 -i S,1,0.75 -k 10 –score-min L,100,1.28”. Estos valores se optimizaron para las lecturas de secuenciación 16S, lo que requiere una mayor similitud con un genoma de referencia para considerarlo un éxito que la configuración predeterminada debido a la naturaleza altamente conservada de porciones del gen 16S rRNA. La filogenia de cada taxón se infirió a partir de la identificación del taxón NCBI (ti) para cada genoma de referencia utilizando la función entrez_fetch() del paquete R rentrez.

Para los análisis de Kraken 2, se crearon informes taxonómicos de Kraken 2 para cada muestra. Estos se analizaron en una matriz de recuento de taxones/características que incluía la filogenia completa de cada taxón identificado según lo informado por Kraken 2.

Utilizamos cinco bases de datos de referencia de secuencias bacterianas junto con los canales antes mencionados: Greengenes 13_8, SILVA 138, dos versiones de los genomas representativos de RefSeq y la biblioteca estándar Kraken 2 (descargada el 20 de agosto de 2020). Según el manual de Kraken 2, la biblioteca Kraken 2 Standard se compila utilizando la base de datos RefSeq, por lo que podría considerarse análoga a la biblioteca RefSeq2020. Las bibliotecas RefSeq se descargaron el 2 de noviembre de 2018 y el 23 de junio de 2020; estos se denominan “RefSeq2018” y “RefSeq2020”. Greengenes y SILVA son bases de datos de referencia específicamente 16S, ya que incluyen solo secuencias para el gen bacteriano 16S rRNA. RefSeq2018, RefSeq2020 y la base de datos Kraken 2 Standard son bibliotecas de genoma completo, sin modificaciones especiales para su uso con datos de secuenciación de amplicones 16S.

Analizamos 136 muestras de comunidades simuladas utilizando un total de 11 pares distintos de herramientas de análisis y bibliotecas de referencia: DADA2 solo con SILVA, QIIME 2 con Greengenes y SILVA, Mothur solo con SILVA (la biblioteca de referencia predeterminada), PathoScope usando Greengenes, SILVA, RefSeq2018 y RefSeq2020, y Kraken 2 con su biblioteca estándar, SILVA y Greengenes. Si bien la base de datos SILVA incluye información taxonómica a nivel de especie para la mayoría de sus secuencias 16S representativas, tenga en cuenta que Mothur colapsa los recuentos de características en clados a nivel de género y, por lo tanto, no realiza llamadas a nivel de especie. Las adaptaciones de SILVA utilizadas para Kraken 2 y QIIME 2 no proporcionaron llamadas a nivel de especie. Por tanto, sólo ocho de las 11 parejas realizan llamadas a nivel de especie. Los emparejamientos y los parámetros de la canalización se resumen en la Tabla 1.

Se creó una matriz de recuentos a partir de los resultados de cada uno de los 11 pares de canalización/referencia para cada unidad taxonómica operativa (OTU), OTU sin ruido y característica. A cada característica se le asignó información a nivel de filo, clase, orden, familia, género, especie y subespecie cuando estaba disponible. Para una base de datos determinada, siempre que faltaba una etiqueta taxonómica, se propagaba la taxonomía de nivel más bajo disponible para una característica utilizando la ruta taxonómica de esa base de datos, tomando nota de la granularidad disponible (mejor acierto taxonómico). Por ejemplo, una característica asignada solo como miembro del orden Bacillales recibiría los metadatos: “filo: Firmicutes, clase: Bacilli, orden: Bacillales, familia: o_Bacillales, género: o_Bacillales, especie: o_Bacillales”.

Se utilizaron varias métricas para evaluar la calidad general y el poder de cada proceso de análisis 16S y biblioteca de referencia en cada nivel taxonómico. Los resultados se evaluaron de forma independiente en cada nivel taxonómico. Cualquier lectura o característica no asignada a un taxón en un nivel filogenético determinado se excluyó del análisis, excepto que se especifique lo contrario.

La métrica de sensibilidad de detección de taxones se define aquí como la porción de taxones esperados en una muestra de comunidad simulada detectada por una tubería determinada, con un mínimo de 0,1% de abundancia relativa. Básicamente, examina con qué frecuencia un método determinado puede determinar correctamente la presencia de un organismo en la comunidad simulada.

La especificidad de la asignación de lectura se define aquí como la porción de lecturas de una muestra determinada asignada a taxones que realmente están presentes en la comunidad simulada de esa muestra. Esto equivale a 1 menos la porción de lecturas asignadas a taxones espurios. Esta métrica identifica la frecuencia de asignación de lectura a organismos incorrectos para un método determinado.

El error cuadrático medio normalizado (NRMSE) se calculó como el error cuadrático medio normalizado con el supuesto de que la varianza podría aumentar dados recuentos de lectura más altos. Para los resultados de cada muestra, dados por la ecuación

donde, para los taxones \(K\), wi y ti son respectivamente los recuentos de lectura medidos y verdaderos del taxón i. Evaluamos la unión de los taxones esperados y detectados para cada muestra, usando \({t}_{i}=0\) para recuentos de taxones teóricos que en realidad no se midieron en la comunidad simulada. Se excluyeron todos los taxones que estaban ausentes tanto en los resultados medidos como en la verdadera comunidad simulada (es decir, taxones que tenían valores de abundancia relativa de 0, tanto teóricos como medidos).

Para evaluar la capacidad de cada tubería para estimar la verdadera diversidad alfa dentro de una muestra, independientemente de la identificación precisa de las especies, calculamos el cambio logarítmico entre la diversidad alfa esperada y la medida según lo medido por el índice de Shannon, el índice de Simpson y el índice breakaway_nof15. . Se utilizó el paquete R vegan37 para calcular los índices de Shannon y Simpson. El paquete R breakaway se utilizó para calcular el índice breakaway_nof138, que predice tanto el número de taxones no observados como el número de singletons verdaderos en función de los recuentos de frecuencia de no singleton. Debido a la sensibilidad de las métricas de diversidad alfa a las diferencias de tamaño de biblioteca y recuento39, convertimos las abundancias relativas de las verdades fundamentales de las muestras de la comunidad simuladas en bibliotecas de secuenciación virtual de 1.000.000 de lecturas nuevamente utilizando el paquete vegan37. Se utilizó una profundidad de rarefacción de 10.000 lecturas por muestra para normalizar todas las muestras y bibliotecas de verdad sobre el terreno.

Se utilizó una serie de modelos lineales de efectos mixtos (LMM), junto con pruebas de medias de mínimos cuadrados post hoc y una corrección de comparación múltiple de Tukey, para determinar qué canalizaciones superaron entre sí en sensibilidad, especificidad, tasas de error y estimaciones de diversidad alfa. Los LMM se estimaron utilizando la función lmer() del paquete R lme440, y se realizaron comparaciones post hoc con la función lsmeans() del paquete R lsmeans41. Estos LMM examinan la métrica de rendimiento relevante como variable medida, utilizando las 136 muestras de comunidad simuladas como un efecto aleatorio y el par de canalización/biblioteca de referencia como un efecto fijo.

La Figura 1 muestra gráficos de barras apiladas de los resultados del conjunto de datos de Kozich para la verdad sobre el terreno versus todos los métodos a nivel de especie. En general, los oleoductos que utilizan la base de datos Greengenes (Kraken 2, QIIME 2 y Pathoscope) obtuvieron los peores resultados en la clasificación de especies, seguidos de DADA2 combinado con SILVA. PathoScope hizo el mejor uso de la base de datos Greengenes con la menor cantidad de lecturas erróneas y la detección más correcta a nivel de especie. Kraken 2 (junto con su biblioteca estándar) y PathoScope (junto con las bibliotecas RefSeq y SILVA) obtuvieron mejores resultados en estos conjuntos de datos. A continuación se realiza una evaluación más cuantitativa de estos métodos en el contexto de todas las muestras.

Abundancias relativas esperadas versus medidas de bacterias simuladas. Un gráfico de barras apiladas de las abundancias relativas medidas de especies bacterianas en 33 muestras de Kozich et al. Todas estas muestras eran concentraciones equimolares de ADNr 16S de 21 especies, como se muestra en la barra 'Ground Truth' a la izquierda. Todas las lecturas asignadas a especies bacterianas distintas de las 21 esperadas en la comunidad simulada están coloreadas en gris y están etiquetadas como "ID incorrecta". Las llamadas de Mothur no se incluyeron porque el oleoducto no realiza llamadas a nivel de especie, y lo mismo ocurre con QIIME 2 y Kraken 2 emparejados con la base de datos SILVA.

A nivel de género (Fig. 2A), DADA2 combinado con SILVA fue el menos sensible (media = 0,67, DE = 0,35), seguido colectivamente por los métodos que utilizaron Greengenes (QIIME 2: media = 0,73, DE = 0,16; Kraken 2 : media = 0,73, DE = 0,17; PathoScope: media = 0,78, DE = 0,24; consulte la Tabla S2 para los valores de p). Cuando se combinó con las bibliotecas de referencia SILVA, RefSeq2018 o RefSeq2020, PathoScope fue más sensible a la hora de detectar géneros que cualquier otro método, y alcanzó su punto máximo cuando se combinó con la biblioteca de referencia RefSeq 2018 (media = 0,88, DE = 0,14).

Sensibilidad de detección de taxones de tuberías de análisis 16S. Gráficos de violín de la sensibilidad, especificidad y log NRMSE de cada canal de análisis y par de bibliotecas de referencia utilizados para analizar muestras de 16S, calculados a nivel de género (A,C,E) y especie (B,D,F). La sensibilidad se calcula como la porción de taxones esperados en cada muestra de comunidad simulada que se detectó con al menos un 0,1% de abundancia relativa. La especificidad se calcula como la porción de lecturas asignadas a taxones que se espera que existan dentro de cada comunidad simulada.

Generalmente, la sensibilidad de detección de taxones fue menor a nivel de especie que a nivel de género (Fig. 2B). Los métodos que utilizan Greengenes tuvieron sensibilidades a nivel de especie extremadamente bajas (QIIME 2: media = 0,16, DE = 0,18; Kraken 2: media = 0,19, DE = 0,13; PathoScope: media = 0,28, DE = 0,21), al igual que DADA2 con SILVA ( media = 0,24, DE = 0,19). Todos estos fueron significativamente más bajos que todos los demás métodos (consulte la Tabla S3 para conocer los valores de p por pares). Entre los métodos que utilizaron Greengenes, PathoScope fue significativamente más sensible que QIIME 2 (p <0,001) o Kraken 2 (p <0,001). El método más sensible a nivel de especie fue PathoScope que utilizó la biblioteca de referencia SILVA (media = 0,86, DE = 0,15), seguido de PathoScope que utilizó RefSeq2018 (media = 0,67, DE = 0,16). PathoScope no detectó solo tres especies con un mínimo de 0,1% de abundancia relativa en ninguna muestra cuando se utilizó SILVA como biblioteca de referencia; estos fueron Bifidobacterium adolescenteis, Prosthecobacter fusiformis y Clostridium beijerinckii.

A nivel de género, la especificidad promedio de la asignación de lectura fue generalmente menor para Kraken 2 con su biblioteca estándar (media = 0,719, DE = 0,26); PathoScope y QIIME 2 con Greengenes (PathoScope: media = 0,72, DE = 0,26; QIIME 2: media = 0,73, DE = 0,28); y DADA2, Kraken 2 y Mothur con SILVA (DADA2: media = 0,75, DE = 0,37; Kraken 2: media = 0,75, DE = 0,2; Mothur: media = 0,76, DE = 0,22). (Figura 2C). Sin embargo, no surgieron tendencias generales en las pruebas por pares entre canalizaciones y pares de bases de datos (consulte la Tabla S4 para los valores p por pares). PathoScope con la biblioteca RefSeq2018 (media = 0,91, DE = 0,15) y Kraken 2 con Greengenes (media = 0,89, DE = 0,18) tuvieron la especificidad de asignación de lectura más alta en general.

A nivel de especie, tanto Kraken 2 como QIIME 2 emparejados con Greengenes tuvieron la especificidad de asignación de lectura más baja (Kraken 2: media = 0,21, DE = 0,17; QIIME 2: media = 0,23, DE = 0,2), que fueron significativamente más bajas que todas métodos (ver Tabla S5 para valores p por pares). PathoScope, cuando se combina con la biblioteca SILVA (media = 0,75, DE = 0,18), RefSeq2020 (media = 0,75, DE = 0,24) o RefSeq2018 (media = 0,86, DE = 0,18) fue significativamente más específico que QIIME 2 y Kraken 2 (figura 2D).

Kraken 2 tuvo las tasas de error más bajas, medidas como el log NRMSE de las lecturas sin procesar, de todos los métodos evaluados a nivel de género, independientemente de la biblioteca de referencia utilizada (SILVA: media = 3,78, DE = 0,58; Estándar: media = 4,02, DE = 0,52, Greengenes: media = 4,12, DE = 0,66). Estos fueron significativamente más bajos que todas las demás tasas de error (consulte la Tabla S6 para conocer los valores p de comparación por pares). QIIME 2 tuvo el NRMSE a nivel de género más alto para las bibliotecas SILVA y Greengenes de todos los métodos (SILVA: media = 5,36, DE = 0,54; Greengenes: media = 5,36, DE = 0,54), junto con DADA2 con SILVA (media = 0,35, DE = 0,55 (figura 2E).

A nivel de especie, Kraken 2 también tuvo el registro NRMSE más bajo para su base de datos estándar y SILVA, que fueron mejores que todos los demás métodos (Estándar: media = 3,77; DE = 0,5; SILVA: media = 3,95, DE = 0,55; consulte la Tabla S7 para comparación de valores p por pares). A esto le siguió PathoScope para la base de datos SILVA (media = 4,28, DE = 0,48) y Kraken 2 usando Greengenes (media = 4,38, DE = 0,8). El peor NRMSE lo tuvo nuevamente QIIME 2 con Greengenes y DADA2 usando SILVA (QIIME 2: media = 5,3, DE = 0,46; DADA2: media = 5,29, DE = 0,45), que fueron significativamente peores que todos los demás métodos (Fig. 2F). ).

De todos los métodos evaluados a nivel de especie, Kraken 2 combinado con Greengenes mostró las mayores desviaciones de los índices de diversidad alfa esperados de Shannon (desviación media = 1,05, DE = 1,06) y Simpson (desviación media = 0,25, DE = 0,27), con significativamente desviaciones más altas que todos los demás métodos (p < 0,001 ajustado por Tukey en todas las comparaciones por pares). PathoScope generalmente coincidió con los índices de Shannon verdaderos más estrechamente que todos los demás métodos (RefSeq2020: desviación media = 0,21, DE = 0,23; RefSeq2018: desviación media = 0,27, DE = 0,28; Fig. 3A). La misma tendencia se mantuvo para los índices de Simpson.

Desviación de las verdaderas métricas de diversidad alfa a nivel de especie. (A) La diferencia absoluta entre el índice de diversidad alfa de Shannon medido y el valor del índice de Shannon para la verdadera composición de la comunidad simulada, y B) el registro de la diferencia absoluta entre las estimaciones de riqueza de Breakaway_nof1 y el número real de especies presentes en cada comunidad simulada. En ambos casos, valores más cercanos a 0 indican una estimación más precisa de la diversidad alfa dentro de una muestra.

DADA2 informó los índices log breakaway_nof138 más coincidentes, con un promedio de desviación significativamente menor del número real de especies presentes que otros métodos (media = 1,37, DE = 3,07; p < 0,001 ajustado por Tukey en todas las comparaciones por pares). Por otro lado, Kraken 2 utilizando su biblioteca Estándar y SILVA frecuentemente sobrestimó el número de especies presentes en varios órdenes de magnitud (Estándar: media = 6,17, DE = 1,82; SILVA: media = 5,87, DE = 1,85), obteniendo peores resultados que todos los demás métodos (Fig. 3B).

En general, ningún proyecto o biblioteca de referencia obtuvo los mejores resultados en todas las métricas de evaluación, pero están presentes algunas tendencias holísticas, especialmente a nivel de especies. La Figura 4B muestra que la sensibilidad y la especificidad son rasgos correlacionados a nivel de especie (r de Spearman = 0,85) y que PathoScope (independientemente de la biblioteca de referencia) y Kraken 2 (con su biblioteca estándar) dominan el cuadrante superior derecho, donde la sensibilidad y la especificidad son ambas. alto. En particular, PathoScope destaca tanto en sensibilidad como en especificidad cuando se utiliza con SILVA o RefSeq2018. De manera similar, la Fig. 4C muestra que el error y la desviación estimada de la diversidad alfa están inversamente correlacionados (r de Spearman = − 0,57) y que ningún método por sí solo produce la desviación de diversidad alfa y las tasas de error más bajas. Las tendencias no están bien definidas a nivel de género (Fig. 4A).

Calidad combinada de los métodos de análisis 16S. Diagramas de dispersión de métricas relativas para cada proceso de análisis 16S, a nivel de género (A) y especie (B,C). Cada punto representa los resultados de un único método al analizar una única muestra de comunidad simulada. Los puntos se colorean según la canalización de análisis/biblioteca de referencia utilizada. Los centroides que representan los valores medios para cada par de canalización/biblioteca de referencia están marcados con diamantes en negrita.

Las comunidades bacterianas simuladas, ya sea derivadas de secuencias de ADN con picos o extraídas de mezclas de monocultivos de células bacterianas, proporcionan una apariencia de "verdad sobre el terreno" para evaluar los métodos de análisis de secuenciación de amplicones 16S. Idealmente, saber qué especies y en qué cantidades deberían estar presentes en cualquier muestra de microbioma genuina permitiría una identificación precisa en cada análisis. Por supuesto, existen complicaciones en los experimentos de secuenciación: sesgos técnicos y errores se introducen en las muestras en cada paso del experimento hasta que se sellan de forma segura como bits en un archivo FASTQ en un servidor. La abundancia relativa de especies simuladas puede verse afectada por variaciones sutiles en la técnica de pipeteo, ya que el ADN añadido se toma en alícuotas de fuentes individuales. El ADN con picos podría clonarse a partir de ADN mutado, o un error temprano de la PCR podría haberse propagado a través de toda una reserva comercial de ácidos nucleicos. Las diferentes especies de bacterias varían en cuanto a la dificultad de lisis42, lo que hace que algunas especies estén subrepresentadas o incluso ausentes en las bibliotecas de ADNc recolectadas de una placa43. Si bien los cebadores de amplificación 16S están diseñados para unirse a regiones conservadas universales del gen 16S rRNA, todavía existe claramente algún sesgo de amplificación durante la PCR44. La contaminación por reactivos45, bacterias locales en el aire, en guantes o en una caja de puntas de pipeta puede complicar aún más las cosas. Por lo tanto, las limitaciones de diferentes condiciones y métodos experimentales pueden afectar dramáticamente la calidad de los resultados obtenidos en comunidades simuladas. Los errores de secuenciación actuales y la contaminación sugieren que las lecturas de amplicones no se identificarán con los taxones con tanta precisión como lo haría un conjunto de secuencias ordenadas y uniformemente distribuidas extraídas de un conjunto cerrado de especies bien caracterizadas. Entonces debería ser evidente que, en teoría, no podría existir ningún canal de análisis para medir perfectamente una comunidad simulada. Tal hazaña requeriría identificar sólo las especies esperadas en sus proporciones exactas, sin observaciones superfluas. Como tal, el mejor método aproximado para analizar los datos de secuenciación del amplicón 16S es aquel que identifica la composición del microbioma de la manera más veraz posible. Las comunidades microbianas simuladas pueden proporcionar un campo de pruebas nivelado para que las herramientas existentes encuentren sus fortalezas y debilidades relativas en el rendimiento.

De los conductos probados, tanto QIIME 2 como Mothur fueron diseñados y construidos específicamente para el análisis de secuenciación de amplicones 16S. Cada uno tiene un conjunto de funciones de utilidad diseñadas para ayudar a los investigadores a procesar sus datos desde el secuenciador hasta visualizaciones y análisis de abundancia diferencial. Ambos generalmente se incluyen con una biblioteca de referencia de la base de datos de secuencia del gen 16S rRNA bacteriano dedicada para la alineación (es decir, Greengenes para QIIME 2, SILVA para Mothur). Sin embargo, nuestros resultados presentan pruebas sólidas de que PathoScope y Kraken 2 superan a QIIME 2, Mothur y DADA2, incluso cuando se comparan lecturas con bases de datos de referencia idénticas. Curiosamente, este fenómeno ocurre a pesar del estatus de Kraken 2 y PathoScope como herramientas más generales de secuenciación del genoma completo y datos metagenómicos. En comparaciones por pares, PathoScope es más sensible y específico en la detección de taxones y tiene una puntuación de error más baja que DADA2, QIIME 2 o Mothur, y tiene estimaciones de índice de diversidad alfa comparables tanto a nivel de género como de especie. En general, el rendimiento superior de SILVA a Greengenes confirmó los resultados encontrados en pruebas comparativas anteriores de métodos de análisis de secuenciación de amplicones 16S20,21,22,23,46. Es probable que esto se deba a varios factores, incluido el pequeño tamaño de la base de datos de Greengenes en comparación con SILVA (99.000 frente a 190.000) y el hecho de que esta versión de Greengenes no se había actualizado desde 201347.

Kraken 2, cuando se utilizaba con su biblioteca estándar, rara vez era el método analítico de mayor rendimiento en términos de sensibilidad o especificidad, aunque en general era menos propenso a errores que QIIME 2, Mothur o cualquier herramienta que utilizara Greengenes como biblioteca de referencia. Kraken 2 tiene la utilidad práctica añadida de ser extremadamente rápido y fácil de usar. Sin embargo, una limitación al analizar los resultados de Kraken 2 es que no se pueden muestrear a partir de un nivel de taxón determinado, mientras que PathoScope, QIIME 2 y Mothur permiten rastrear la jerarquía taxonómica de un microbio determinado. Tanto QIIME 2 como Mothur aprovechan los clasificadores Bayes ingenuos, que funcionan de manera más eficiente cuando se entrenan en la región específica del gen 16S rRNA amplificado por cebadores de PCR. En general, PathoScope fue la herramienta más sensible en la detección de taxones y específica en la asignación de lecturas, y la herramienta menos propensa a errores cuando se combina con SILVA o RefSeq2018. Sin embargo, no estuvo exento de limitaciones, ya que sus gastos computacionales parecían ser un orden de magnitud adicional por encima de los de otros métodos. Esto fue evidente por los grandes archivos SAM provisionales (> 128 GB) y los tiempos de ejecución del orden de varias horas, mientras que Kraken 2 en particular tomó solo unos minutos. Dejando a un lado los problemas, es probable que PathoScope supere a QIIME 2, DADA2 y Mothur en identificación, independientemente de la base de datos utilizada. Este hallazgo se debe en parte al algoritmo de identificación de modelado mixto bayesiano de PathoScope, que tiene en cuenta la posibilidad de que puedan estar presentes múltiples especies en la muestra o que la cepa objetivo no esté presente en la base de datos de referencia. PathoScope superó consistentemente a Kraken 2 en la mayoría de los casos, aunque la diferencia fue a menudo leve y no estadísticamente significativamente mejor. En general, estas comparaciones muestran que los métodos diseñados para análisis metagenómicos generales superan consistentemente a los métodos diseñados específicamente para analizar datos 16S.

Si bien muchas especies son identificables a partir de la secuencia del gen 16S rRNA o de una única región hipervariable, es importante señalar que la precisión imperfecta a este nivel no es únicamente una cuestión computacional. Por ejemplo, aunque el gen 16S rRNA tiene aproximadamente 1550 pb de largo, las lecturas de secuenciación cortas obtenidas en la mayoría de las secuenciaciones de próxima generación (NGS) solo abarcan alrededor de 250 a 500 bases y carecen de una resolución ideal a nivel de especie48. En comparación con NGS, se ha demostrado que las tecnologías de secuenciación de lectura larga funcionan mejor en la clasificación a nivel de género y especie49,50. También observamos diferencias en nuestro estudio entre los resultados de 15 muestras secuenciadas con Ion Torrent, en comparación con muestras de las mismas comunidades simuladas que fueron secuenciadas con Illumina Miseq. Además, una limitación importante de los estudios de amplicones 16S es que existen algunos clados de bacterias con ADN 16S idéntico en la región V4 comúnmente secuenciada. Estos clados de bacterias difíciles de identificar constituyen la mayor parte de las llamadas incorrectas de Kraken 2 y PathoScope. Por ejemplo, Bifidobacterium adolescenteis fue casi universalmente clasificado erróneamente mediante todos los métodos como otras especies de Bifidobacterium, y Prosthecobacter fusiformis fue frecuentemente identificado erróneamente como Prosthecobacter dejongeii, una especie con la que comparte más del 99% de su secuencia de ADN 16S51. Aún surgen más complicaciones cuando muchas bacterias tienen varias copias del gen 16S rRNA, que pueden no ser idénticas entre los operones dentro de un genoma52. Este último punto puede ser en parte la razón por la que métodos metagenómicos como Kraken 2 y PathoScope superan a métodos específicos como QIIME 2 y Mothur, especialmente a nivel de especie. Los métodos metagenómicos están mejor diseñados para tener en cuenta múltiples genes de ARNr 16S, si están presentes.

Una de las mayores fuentes de error y llamadas de sensibilidad de detección de taxones perdidas de PathoScope cuando se utiliza la biblioteca RefSeq2020 proviene de un andamiaje genómico de referencia aparentemente erróneo en los genomas representativos de RefSeq. En todas las muestras de comunidades simuladas que contienen Escherichia coli, PathoScope con RefSeq2020 informó la presencia de flagelados de Tumebacillus en abundancias relativas estrechamente correlacionadas con los valores esperados de E. coli (r de Pearson = 0,959). Las circunstancias implican fuertemente que las lecturas que en realidad se originan en E. coli se asignaron incorrectamente a T. flagellates. T. flagellates ni siquiera pertenece al mismo filo que E. coli, por lo que la asignación errónea casual de lecturas entre las especies sería extremadamente improbable basándose en la similitud de la secuencia 16S. En cambio, un BLAST por pares que comparó la secuencia del gen 16S rRNA de E. coli con los andamios de T. flagellates utilizando la entrada exacta de RefSeq a la que PathoScope había asignado esas lecturas (acceso: NZ_JMIR01000093)53 reveló que un andamio de T. flagellates tenía una alineación de identidad del 100 %. más de 911 pb. El hallazgo posiblemente represente un caso de transferencia genética horizontal del gen 16S rRNA, pero parece mucho más probable que existiera contaminación por E. coli en la biblioteca de ADN, que luego fue secuenciada y ensamblada en estructuras de T. flagellates. Tras estudios posteriores, se hizo evidente que este es simplemente un ejemplo de contaminación generalizada de secuencias, es decir, la inclusión accidental de secuencias de otros organismos o la clasificación errónea de secuencias en bases de datos públicas de genomas. Este fenómeno ha sido explorado recientemente en la base de datos NCBI RefSeq54,55,56. La reciente prevalencia de alto rendimiento y el bajo costo cada vez mayor de las tecnologías de secuenciación de próxima generación (NGS) ha llevado a un rápido aumento de los genomas publicados disponibles en las bibliotecas RefSeq, aunque los métodos y protocolos imperfectos para los datos de secuenciación están contribuyendo a las altas tasas de contaminación. La contaminación humana en los genomas publicados, si bien no es un problema en los análisis de 16S, es un problema particularmente frustrante cuando se analizan datos de metagenómica de escopeta. Claramente, los enfoques de mapeo de lectura metagenómico como Kraken 2 y PathoScope ofrecen el potencial para el desarrollo de nuevos procesos de control de calidad para RefSeq y otras bases de datos de secuencias del genoma.

La creciente prevalencia de un control de calidad de secuenciación deficiente ayuda a explicar por qué las bibliotecas RefSeq 2018 a menudo obtuvieron mejores resultados que las bibliotecas 2020. Se han desarrollado muchas herramientas para identificar y corregir errores de contaminación en secuencias y bases de datos públicas56,57,58,59,60, pero este es un problema continuo que exige esfuerzos adicionales de filtrado y corrección después de recuperar directamente las bibliotecas del repositorio público. Dada la mayor especificidad y sensibilidad de PathoScope cuando se utiliza la biblioteca RefSeq 2018 en comparación con la biblioteca 2020, recomendamos utilizar bibliotecas RefSeq más antiguas hasta que se hayan procesado versiones más nuevas para eliminar la contaminación. También es de interés la alta precisión de SILVA en las llamadas de especies cuando se usa PathoScope, aunque no se puede usar para realizar tales llamadas cuando se usa con QIIME 2, Mothur o Kraken 2. SILVA también presenta una alternativa viable a las bibliotecas RefSeq en evitando la contaminación.

Observamos que al realizar este punto de referencia, buscamos evaluar varios canales de análisis de secuenciación de amplicones 16S comunes junto con canales de análisis metagenómicos. Las tuberías 16S se eligieron en función del rendimiento y la prevalencia en puntos de referencia publicados anteriormente. Para identificar los canales de metagenómica, utilizamos un artículo de evaluación comparativa de metagenómica publicado previamente18. Miossec et al. descubrió que entre los pipelines probados, PathoScope 2.0 y Kraken representaban una alta sensibilidad y especificidad en los resultados de referencia. Sin embargo, enfatizamos que se debe realizar una comparación adicional de otras líneas de análisis metagenómico, como MetaMix61, Centrifuge62 y Metaxa263, para analizar su rendimiento diferencial, especialmente a medida que se desarrollan y publican nuevos métodos.

DADA2, QIIME 2 y Mothur luchan por mantener la precisión a nivel de género o de especie granular en los análisis taxonómicos. Kraken 2, a pesar de su propósito principal para análisis metagenómicos de secuenciación del genoma completo, ofrece más poder para analizar datos 16S sin ningún aumento en los costos computacionales. PathoScope, aunque computacionalmente es más costoso, produce los resultados más sensibles y precisos de todos los procesos evaluados cuando se utiliza en un conjunto diverso de muestras de comunidades bacterianas simuladas. Los canales de análisis que utilizaron SILVA como biblioteca de referencia superaron significativamente a los que utilizaron Greengenes, y PathoScope que utilizó SILVA produjo las mayores precisiones y sensibilidades. Si bien las bibliotecas de referencia de genoma completo, como Kraken 2's Standard o los genomas representativos de RefSeq, pueden proporcionar algunos beneficios sobre SILVA en términos de sensibilidad, pueden generar llamadas más falsas a nivel de especie. Según la investigación realizada aquí con comunidades microbianas simuladas, recomendamos SILVA y RefSeq por encima de otras bases de datos y desaconsejamos enfáticamente el uso de la biblioteca de referencia de Greengenes para análisis futuros. Si bien no se incluye en nuestro análisis debido a la fecha de lanzamiento, recomendamos a los usuarios que prueben la biblioteca de referencia Greengenes230 como una mejora basada en la filogenia con respecto a Greengenes. También recomendamos PathoScope y Kraken 2 como opciones competitivas y totalmente capaces para realizar análisis de datos de secuenciación de amplicones 16S a nivel de género y especie, además de superar a otras herramientas cuando se utilizan datos de metagenómica de escopeta.

18.

Las bibliotecas de referencia utilizadas en el análisis están disponibles en el siguiente repositorio de GitHub: https://github.com/aubreyodom/16SBenchmarking.

Kumar, PS Microbiómica: ¿Estábamos todos equivocados antes? Periodoncia 2000 85(1), 8–11 (2021).

Artículo PubMed Google Scholar

Johnson, JS y cols. Evaluación de la secuenciación del gen 16S rRNA para análisis de microbioma a nivel de especies y cepas. Nat. Comunitario. 10(1), 5029. https://doi.org/10.1038/s41467-019-13036-1 (2019).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Callahan, BJ, McMurdie, PJ y Holmes, SP Las variantes de secuencia exacta deberían reemplazar las unidades taxonómicas operativas en el análisis de datos de genes marcadores. ISME J. 11(12), 2639–2643. https://doi.org/10.1038/ismej.2017.119 (2017).

Artículo PubMed PubMed Central Google Scholar

Callahan, BJ y cols. DADA2: Inferencia de muestras de alta resolución a partir de datos de amplicones de Illumina. Nat. Métodos 13(7), 581–3. https://doi.org/10.1038/nmeth.3869 (2016).

Artículo CAS PubMed PubMed Central Google Scholar

Bolyen, E. y col. Ciencia de datos de microbiomas reproducible, interactiva, escalable y extensible utilizando QIIME 2. Nat. Biotecnología. 37(8), 852–857. https://doi.org/10.1038/s41587-019-0209-9 (2019).

Artículo CAS PubMed PubMed Central Google Scholar

Caporaso, JG et al. QIIME permite el análisis de datos de secuenciación comunitaria de alto rendimiento. Nat. Métodos. 7(5), 335–336. https://doi.org/10.1038/nmeth.f.303 (2010).

Artículo CAS PubMed PubMed Central Google Scholar

Schloss, PD y cols. Presentamos mothur: software de código abierto, independiente de la plataforma y respaldado por la comunidad para describir y comparar comunidades microbianas. Aplica. Reinar. Microbiol. 75(23), 7537–7541. https://doi.org/10.1128/AEM.01541-09 (2009).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Kopylova, E. y col. Los métodos de agrupación de secuencias de código abierto mejoran el estado del arte. mSystems https://doi.org/10.1128/mSystems.00003-15 (2016).

Artículo PubMed PubMed Central Google Scholar

Westcott, SL y Schloss, PD Los métodos de agrupamiento de novo superan a los métodos basados en referencias para asignar secuencias del gen 16S rRNA a unidades taxonómicas operativas. PeerJ 3, e1487. https://doi.org/10.7717/peerj.1487 (2015).

Artículo CAS PubMed PubMed Central Google Scholar

Edgar, RC Actualización del umbral de identidad del 97% para OTU de ARN ribosómico 16S. Bioinformática 34(14), 2371–2375. https://doi.org/10.1093/bioinformatics/bty113 (2018).

Artículo CAS PubMed Google Scholar

Amir, A. et al. Deblur resuelve rápidamente patrones de secuencia comunitaria de un solo nucleótido. mSystems https://doi.org/10.1128/mSystems.00191-16 (2017).

Artículo PubMed PubMed Central Google Scholar

Hong, C. y col. PathoScope 2.0: un marco computacional completo para la identificación de cepas en muestras de secuenciación clínica o ambiental. Microbioma 2, 33. https://doi.org/10.1186/2049-2618-2-33 (2014).

Artículo PubMed PubMed Central Google Scholar

Francisco, OE et al. Patoscopio: identificación de especies y atribución de cepas con datos de secuenciación no ensamblados. Genoma Res. 23(10), 1721-1729 (2013).

Artículo CAS PubMed PubMed Central Google Scholar

Byrd, AL y cols. PathoScope clínico: alineación y filtración rápidas para una identificación precisa de patógenos en muestras clínicas utilizando datos de secuenciación sin ensamblar. Bioinformación de BMC. 15(1), 1–14 (2014).

Artículo de Google Scholar

Wood, DE, Lu, J. & Langmead, B. Análisis metagenómico mejorado con Kraken 2. Genome Biol. 20(1), 257. https://doi.org/10.1186/s13059-019-1891-0 (2019).

Artículo CAS PubMed PubMed Central Google Scholar

Él, Y. et al. Estabilidad de unidades taxonómicas operativas: una propiedad importante pero descuidada para analizar la diversidad microbiana. Microbioma 3, 20. https://doi.org/10.1186/s40168-015-0081-x (2015).

Artículo PubMed PubMed Central Google Scholar

Nearing, JT, Douglas, GM, Comeau, AM y Langille, MGI Denoising the Denoisers: una evaluación independiente de los enfoques de corrección de errores en la secuencia del microbioma. PeerJ 6, e5364. https://doi.org/10.7717/peerj.5364 (2018).

Artículo CAS PubMed PubMed Central Google Scholar

Miossec, MJ y cols. Evaluación de métodos computacionales para el análisis del microbioma humano utilizando datos simulados. PeerJ 8, e9688 (2020).

Artículo PubMed PubMed Central Google Scholar

Miossec, MJ, Valenzuela, SL, Méndez, KN y Castro-Nallar, E. Métodos computacionales para el análisis del microbioma humano. actual. Protocolo. Microbiol. 47(1), 141-1417 (2017).

Google Académico

Dixit, K. y col. Evaluación comparativa de bases de datos del gen 16S rRNA utilizando secuencias de cepas conocidas. Bioinformación 17(3), 377–391. https://doi.org/10.6026/97320630017377 (2021).

Artículo PubMed PubMed Central Google Scholar

López-García, A. et al. Comparación de mothur y QIIME para el análisis de la composición de la microbiota ruminal basada en secuencias del amplicón 16S rRNA. Frente. Microbiol. 9, 3010. https://doi.org/10.3389/fmicb.2018.03010 (2018).

Artículo PubMed PubMed Central Google Scholar

Almeida, A., Mitchell, AL, Tarkowska, A. y Finn, RD Evaluación comparativa de asignaciones taxonómicas basadas en el perfil del gen 16S rRNA de la microbiota de entornos comúnmente muestreados. Gigaciencia https://doi.org/10.1093/gigascience/giy054 (2018).

Artículo PubMed PubMed Central Google Scholar

Lu, J. & Salzberg, SL Análisis de comunidad microbiana de ARNr 16S ultrarrápido y preciso utilizando Kraken 2. Microbioma. 8(1), 124. https://doi.org/10.1186/s40168-020-00900-2 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

DeSantis, TZ y cols. Greengenes, una base de datos del gen 16S rRNA verificado por quimeras y un banco de trabajo compatible con ARB. Aplica. Reinar. Microbiol. 72(7), 5069–5072. https://doi.org/10.1128/AEM.03006-05 (2006).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Quast, C. y col. El proyecto de base de datos de genes de ARN ribosómico SILVA: procesamiento de datos mejorado y herramientas basadas en web. Ácidos nucleicos res. 41, D590-6. https://doi.org/10.1093/nar/gks1219 (2013).

Artículo CAS PubMed Google Scholar

Cole, J.R. y col. Proyecto de base de datos ribosómica: datos y herramientas para análisis de ARNr de alto rendimiento. Ácidos nucleicos res. 42, D633-42. https://doi.org/10.1093/nar/gkt1244 (2014).

Artículo CAS PubMed Google Scholar

Lappan, R. y col. Un estudio de casos y controles del microbioma de otitis media aguda recurrente identificó géneros bacterianos potencialmente protectores. BMC Microbiol. 18(1), 13. https://doi.org/10.1186/s12866-018-1154-3 (2018).

Artículo CAS PubMed PubMed Central Google Scholar

De Boeck, I. et al. La comparación de la microbiota sana de la nariz y la nasofaringe revela continuidad y especificidad de nicho. Frente. Microbiol. 8, 2372. https://doi.org/10.3389/fmicb.2017.02372 (2017).

Artículo PubMed PubMed Central Google Scholar

Lapidot, R. y col. La disbiosis nasofaríngea precede al desarrollo de infecciones del tracto respiratorio inferior en bebés pequeños: un estudio longitudinal de cohortes infantiles. medRxiv 2, 1 (2021).

Google Académico

McDonald, D. y col. Greengenes2 permite un universo de datos compartido para estudios de microbiomas. bioRxiv https://doi.org/10.1101/2022.12.19.520774 (2023).

Artículo PubMed PubMed Central Google Scholar

Schoch, CL y cols. Taxonomía NCBI: una actualización completa sobre conservación, recursos y herramientas. Base de datos 01(01), 2020. https://doi.org/10.1093/database/baaa062 (2020).

Artículo CAS Google Scholar

O'Leary, NA et al. Base de datos de secuencias de referencia (RefSeq) en NCBI: estado actual, expansión taxonómica y anotación funcional. Ácidos nucleicos res. 44(D1), D733–D745. https://doi.org/10.1093/nar/gkv1189 (2016).

Artículo CAS PubMed Google Scholar

Lluch, J. et al. La caracterización de una nueva microbiota tisular utilizando un proceso de secuenciación metagenómica 16S optimizado. MÁS UNO 10(11), e0142334. https://doi.org/10.1371/journal.pone.0142334 (2015).

Artículo CAS PubMed PubMed Central Google Scholar

Kozich, JJ, Westcott, SL, Baxter, NT, Highlander, SK y Schloss, PD Desarrollo de una estrategia de secuenciación de índice dual y un proceso de curación para analizar datos de secuencia de amplicones en la plataforma de secuenciación MiSeq Illumina. Aplica. Reinar. Microbiol. 79(17), 5112–5120. https://doi.org/10.1128/AEM.01043-13 (2013).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Fouhy, F., Clooney, AG, Stanton, C., Claesson, MJ & Cotter, Secuenciación del gen PD 16S rRNA de poblaciones microbianas simuladas: impacto del método de extracción de ADN, elección del cebador y plataforma de secuenciación. BMC Microbiol. 16(1), 123. https://doi.org/10.1186/s12866-016-0738-z (2016).

Artículo CAS PubMed PubMed Central Google Scholar

Karstens, L. y col. Control de contaminantes en experimentos de secuenciación del gen 16S rRNA de baja biomasa. mSystems https://doi.org/10.1128/mSystems.00290-19 (2019).

Artículo PubMed PubMed Central Google Scholar

Oksanen, J. y col. El paquete vegano: paquete de ecología comunitaria, versión 1.13-1. https://www.veganr-forger-project.org (2008).

Willis, A. Estimación de la riqueza de especies con alta diversidad pero únicos espurios. arXiv preimpresión arXiv:160402598. 2016;

Lundin, D. y col. ¿Qué profundidad de secuenciación es suficiente para describir patrones en la diversidad α y β bacteriana? Reinar. Microbiol. Representante 4 (3), 367–372. https://doi.org/10.1111/j.1758-2229.2012.00345.x (2012).

Artículo CAS PubMed Google Scholar

Bates, D., Maechler, M., Bolker, B. y Walker, S. Ajuste de modelos lineales de efectos mixtos utilizando lme4. J. estadística. Software. 67, 1–48 (2015).

Artículo de Google Scholar

Lenth, RV Mínimos cuadrados significa: El paquete R significa. J. estadística. Software. 69, 1–33 (2016).

Artículo de Google Scholar

Gill, C., van de Wijgert, JH, Blow, F. & Darby, AC Evaluación de métodos de lisis para la extracción de ADN bacteriano para el análisis de la microbiota vaginal. MÁS UNO 11(9), e0163148. https://doi.org/10.1371/journal.pone.0163148 (2016).

Artículo CAS PubMed PubMed Central Google Scholar

Boers, SA, Jansen, R. & Hays, JP Comprensión y superación de los obstáculos y sesgos de los métodos de secuenciación de próxima generación (NGS) para su uso en el laboratorio de diagnóstico microbiológico clínico de rutina. EUR. J.Clin. Microbiol. Infectar. Dis. 38(6), 1059–1070. https://doi.org/10.1007/s10096-019-03520-3 (2019).

Artículo CAS PubMed PubMed Central Google Scholar

Sze, MA y Schloss, PD El impacto de la ADN polimerasa y el número de rondas de amplificación en PCR en los datos de la secuencia del gen 16S rRNA. mSphere https://doi.org/10.1128/mSphere.00163-19 (2019).

Artículo PubMed PubMed Central Google Scholar

Salter, SJ y cols. La contaminación de reactivos y laboratorios puede afectar críticamente los análisis de microbiomas basados en secuencias. BMC Biol. 12(1), 1–12 (2014).

Artículo de Google Scholar

Straub, D. y col. Las interpretaciones de los estudios de la comunidad microbiana ambiental están sesgadas por el proceso de secuenciación del amplicón 16S rRNA (gen) seleccionado. Frente. Microbiol. 11, 550420. https://doi.org/10.3389/fmicb.2020.550420 (2020).

Artículo PubMed PubMed Central Google Scholar

Park, S.-C. & Won, S. Evaluación de bases de datos de ARNr 16S para asignaciones taxonómicas utilizando una comunidad simulada. Genoma. Informar. 16(4), e24 (2018).

Artículo de Google Scholar

Yang, B., Wang, Y. y Qian, P.-Y. Sensibilidad y correlación de regiones hipervariables en genes de ARNr 16S en análisis filogenético. Bioinformación de BMC. 17(1), 1–8 (2016).

Artículo CAS Google Scholar

Nygaard, AB, Tunsjø, HS, Meisal, R. & Charnock, C. Un estudio preliminar sobre el potencial de la secuenciación del gen Nanopore MinION e Illumina MiSeq 16S rRNA para caracterizar los microbiomas del polvo de construcción. Ciencia. Rep. 10(1), 1-10 (2020).

Artículo de Google Scholar

Pearman, WS, Freed, NE y Silander, OK Prueba de las ventajas y desventajas de la metagenómica eucariota de lectura corta y larga mediante lecturas simuladas. Bioinformación de BMC. 21(1), 1-15 (2020).

Artículo de Google Scholar

Lee, J., Park, B., Woo, SG y Park, J. Prosthecobacter algae sp. nov., aislado de lodos activados utilizando metabolitos de algas. En t. J. Sistema. Evolución. Microbiol. 64 (Parte 2), 663–667. https://doi.org/10.1099/ijs.0.052787-0 (2014).

Artículo CAS PubMed Google Scholar

Louca, S., Doebeli, M. y Parfrey, LW La corrección del número de copias del gen 16S rRNA en estudios de microbioma sigue siendo un problema sin resolver. Microbioma 6(1), 41. https://doi.org/10.1186/s40168-018-0420-9 (2018).

Artículo PubMed PubMed Central Google Scholar

Wang, Q. y col. Tumebacillus flagellatus sp. Nov., una bacteria productora de α-amilasa/pululanasa aislada de aguas residuales de yuca. En t. J. Sistema. Evolución. Microbiol. 63 (parte 9), 3138–3142. https://doi.org/10.1099/ijs.0.045351-0 (2013).

Artículo CAS PubMed Google Scholar

Lupo, V. et al. Contaminación en bases de datos de secuencias de referencia: hora de tácticas de divide y vencerás. Frente. Microbiol. 12, 755101. https://doi.org/10.3389/fmicb.2021.755101 (2021).

Artículo PubMed PubMed Central Google Scholar

Breitwieser, FP, Pertea, M., Zimin, AV & Salzberg, SL La contaminación humana en genomas bacterianos ha creado miles de proteínas espurias. Genoma Res. 29(6), 954–960. https://doi.org/10.1101/gr.245373.118 (2019).

Artículo CAS PubMed PubMed Central Google Scholar

Steinegger, M. & Salzberg, SL Acabar con la contaminación: Búsqueda a gran escala identifica más de 2.000.000 de entradas contaminadas en GenBank. Genoma Biol. 21(1), 115. https://doi.org/10.1186/s13059-020-02023-1 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Lu, J. & Salzberg, SL Eliminación de contaminantes de bases de datos de borradores de genomas. Computación PLoS. Biol. 14(6), e1006277. https://doi.org/10.1371/journal.pcbi.1006277 (2018).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Cornet, L. & Baurain, D. Detección de contaminación en datos genómicos: más no es suficiente. Genoma Biol. 23(1), 60. https://doi.org/10.1186/s13059-022-02619-9 (2022).

Artículo PubMed PubMed Central Google Scholar

De Simone, G. y col. Contaminaciones en datos del (meta)genoma: un tema abierto para la comunidad científica. Vida IUBMB 72(4), 698–705. https://doi.org/10.1002/iub.2216 (2020).

Artículo CAS PubMed Google Scholar

Nasko, DJ, Koren, S., Phillippy, AM y Treangen, TJ El crecimiento de la base de datos RefSeq influye en la precisión de la identificación de especies de ancestros comunes más bajos basada en k-mer. Genoma Biol. 19(1), 1–10 (2018).

Artículo de Google Scholar

Morfopoulou, S. & Plagnol, V. Análisis de mezclas bayesianas para la elaboración de perfiles de comunidades metagenómicas. Bioinformática 31(18), 2930–2938 (2015).

Artículo CAS PubMed Google Scholar

Kim, D., Song, L., Breitwieser, FP y Salzberg, SL Centrífuga: Clasificación rápida y sensible de secuencias metagenómicas. Genoma Res. 26(12), 1721-1729 (2016).

Artículo CAS PubMed PubMed Central Google Scholar

Bengtsson-Palme, J. et al. METAXA2: Identificación y clasificación taxonómica mejoradas de ARNr de subunidades pequeñas y grandes en datos metagenómicos. Mol. Ecológico. Recurso. 15(6), 1403–1414 (2015).

Artículo CAS PubMed Google Scholar

Descargar referencias

TF y WEJ recibieron apoyo parcial del NIH mediante la subvención R01GM127430. ARO y WEJ fueron apoyados en parte por los NIH bajo la subvención R21AI154387.

Estos autores contribuyeron igualmente: Aubrey R. Odom y Tyler Faits.

División de Biomedicina Computacional, Facultad de Medicina de la Universidad de Boston, Boston, MA, EE. UU.

Aubrey R. Odom y Tyler Faits

Programa de Bioinformática, Universidad de Boston, Boston, MA, EE. UU.

Aubrey R. Odom y Tyler Faits

Departamento de Microbiología, Facultad de Ciencias de la Salud, Universidad de Talca, Campus Talca, Avda. Lircay S/N, Talca, Chile

Eduardo Castro-Nallar

Centro de Ecología Integrativa, Universidad de Talca, Campus Talca, Avda. Lircay S/N, Talca, Chile

Eduardo Castro-Nallar

Departamento de Bioestadística y Bioinformática, Instituto de Biología Computacional, Escuela de Salud Pública del Instituto Milken, Universidad George Washington, Washington, DC, EE. UU.

Keith A. Crandall

División de Enfermedades Infecciosas, Centro de Ciencia de Datos, Universidad de Rutgers – Facultad de Medicina de Nueva Jersey, Newark, Nueva Jersey, EE. UU.

W. Evan Johnson

También puedes buscar este autor en PubMed Google Scholar.

TF, EC, KAC y WEJ concibieron el diseño del estudio. TF y ARO realizaron el estudio de investigación, realizaron todo el trabajo computacional, escribieron el texto principal del manuscrito y prepararon figuras y tablas. WEJ también escribió el texto principal del manuscrito. Todos los autores leyeron y aprobaron el manuscrito final.

Correspondencia a W. Evan Johnson.

Los autores declaran no tener conflictos de intereses.

Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado a los autores originales y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Odom, AR, Faits, T., Castro-Nallar, E. et al. Los canales de elaboración de perfiles metagenómicos mejoran la clasificación taxonómica de los datos de secuenciación del amplicón 16S. Informe científico 13, 13957 (2023). https://doi.org/10.1038/s41598-023-40799-x

Descargar cita

Recibido: 14 de septiembre de 2022

Aceptado: 16 de agosto de 2023

Publicado: 26 de agosto de 2023

DOI: https://doi.org/10.1038/s41598-023-40799-x

Cualquier persona con la que comparta el siguiente enlace podrá leer este contenido:

Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.

Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.