Wei-Hsuan Chuang1*, Hsueh-Chien Cheng1, Yu-Jung Chang4, Pao-Yin Fu1, Yi-Chen Huang1, Ping-Heng Hsieh1, Shu-HwaChen2, Pui-Yan Kwok3, Chung-Yen Lin1 y Jan-Ming Ho1
En este artículo, presentamos una nueva herramienta de optimización del ensamblaje del genoma llamada LOCLA. Identifica lecturas alineadas localmente con alta calidad en flancos de brecha o límites de andamiaje, y las ensambla en contigs para el llenado de brechas o la conexión de andamiaje. LOCLA mejora la calidad de un ensamblaje basado en lecturas de diversas técnicas de secuenciación, ya sea 10x Genomics (10xG) Linked-Reads, lecturas PacBio HiFi o ambas. Por ejemplo, con 10xG Linked-Reads, la información de largo alcance proporcionada por los códigos de barras permite a LOCLA reclutar lecturas adicionales que pertenecen a la misma molécula de ADN genómico, lo que resulta en un llenado de brechas preciso y una mayor cobertura de secuencia.
En nuestros experimentos, comenzamos creando un borrador preliminar de ensamblaje para cada conjunto de datos utilizando herramientas de ensamblaje como Supernova y el ensamblador Canu en función del tipo de lecturas de secuenciación. El borrador preliminar de ensamblaje podría ser un ensamblaje de novo o un ensamblaje basado en referencia. Luego, realizamos LOCLA en el ensamblaje generalmente en el orden de llenado de espacios y luego andamiaje. Validamos LOCLA en cuatro conjuntos de datos, incluidas tres muestras humanas y un organismo no modelo. Para la primera muestra humana (LLD0021C) y el organismo no modelo ( B. sexangula ), los borradores de ensamblajes se generaron con el ensamblador Supernova utilizando solo 10xG Linked-Reads. Mostramos que LOCLA mejoró el borrador de ensamblaje de LLD0021C al agregar 23,3 millones de bases, que cubrieron 28 746 regiones codificantes de proteínas, particularmente en regiones pericentroméricas y teloméricas. En cuanto a B. sexangula , LOCLA mejoró el ensamblaje publicado por Pootakham W, et al. y disminuyendo en un 41,4% sus brechas.
Para la segunda muestra humana, la línea celular HG002 (NA24385), utilizamos principalmente lecturas de PacBio HiFi. A diferencia de la primera muestra humana, experimentamos con ensamblajes basados ??en referencia en lugar de ensamblajes de novo . Empleamos la herramienta de andamiaje guiada por referencia RagTag para generar dos ensamblajes preliminares y luego rellenamos los espacios vacíos con LOCLA. Los resultados indicaron que el algoritmo de detección de contigs candidatos de LOCLA en los flancos de los espacios vacíos era sólido, ya que pudo recuperar una cantidad de contigs que RagTag no había utilizado, que eran 27,9 millones de bases (22,26 %) y 35,7 millones de bases (30,93 %) para los dos ensamblajes respectivamente. Para evaluar la precisión de los ensamblajes rellenados con LOCLA, los alineamos con el ensamblaje haploide materno de HG002 publicado por el Consorcio de Referencia del Pangenoma Humano. Demostramos que el 95% de todas las secuencias completadas por LOCLA tienen más del 80% de similitud con la referencia.
El tercer conjunto de datos humanos incluyó lecturas 10x G Linked-Reads y lecturas PacBio HiFi de la línea celular CHM13. Al utilizar lecturas de ambas técnicas de secuenciación a través de módulos de relleno de espacios y de andamiaje de LOCLA, agregamos 46,2 millones de bases al conjunto Supernova. El contenido adicional nos permitió identificar genes vinculados a enfermedades complejas (por ejemplo, ARHGAP11A) y vías biológicas críticas.
Comparte este artículo