T4: Taller de NGS: Ensamble y Anotación de Genomas
Datos generales
Código: T4-NGS-E
Duración: 40 horas
Nivel: intermedio
Idioma: español
Fecha: del 30 de julio al 3 de agosto de 2018
Lugar: Aula 1 LCG
¿Qué aprenderás?
Al final del curso los participantes:
- Tendrán conocimientos teóricos sobre las principales tecnologías de secuenciación de DNA.
- Adquirirán conocimientos prácticos y teóricos sobre las metodologías para ensamblar y anotar genomas.
Pre-requisitos
Requisitos de conocimientos previos
- Unix a nivel intermedio. Todas las demostraciones de software se harán en este sistema operativo.
Los participantes necesitan tener conocimientos de nivel intermedio en la línea de comandos de UNIX/Linux lo que implica manejo de archivos y directorios (rm, mkdir, cd, less, cut, sort,uniq, etc), formateo de datos (awk o perl command line, sed). - Estadística básica.
Se requieren conocimientos básicos de estadística (conceptos básicos: media, mediana, desviación estándar, distribuciones estadísticas, pruebas de hipótesis, logaritmos).
Requisitos técnicos
- Ninguno
En el curso, cada alumno tendrá asignado una terminal para trabajar en un servidor común que tiene la paquetería instalada previamente. En caso de que el alumno quiera traer su computadora, ésta deberá tener instalado MobaXterm, Zoc7 o alguna herramienta que nos permita realizar conexión SSH al servidor.
Descripción
El taller presenta las tecnologías de NGS y las metodologías para el ensamblado de genomas, de novo y basados en referencia, así como su anotación. Este curso está enfocado primordialmente en el manejo práctico de las herramientas computacionales.
Contenido
El contenido del curso consiste en los siguientes temas:
- 1. Tecnologías de secuenciación de DNA
- Primera generación (Sanger)
- Segunda generación (454, Illumina, Ion Torrent)
- Tercera generación (PacBio)
- 2. Construcción y características de librerías
- shot-gun
- paired-end
- mate-pair
- 3. Manejo de datos de NGS. Formatos de archivo, identificadores, modelos de error y calidad. Herramientas de transformación y preprocesado. Control de calidad y filtrado de lecturas.
- Plataformas: Illumina, Ion Torrent y PacBio
- Lecturas tipo paired-end y mate-pair
- 4. Bases de datos genómicos
- NCBI
- EMBL
- DDBJ
- 5. Algoritmos para ensamble de genomas de novo
- Técnicas y algoritmos para lecturas de un solo tipo
- Técnicas y algoritmos para ensambles híbridos
- Análisis y limpieza de calidad de lecturas: FastQC, Trimmomatic, Trim_galore, DynamicTrim
- Ensambladores: Velvet (Illumina), IDBA_UD (Illumina), Spades (Illumina, PacBio), Unicycler (Illumina, PacBio), CANU (PacBio). Ejemplos de uso y características del output
- 6. Remapeo de lecturas y técnicas de validación de ensambles
- Comparación entre ensambles y con genomas de referencia – QUAST, MUMMER, Metassembler
- Alineadores: BOWTIE2, SMALT
- Visualización: BAMview, IGV, Artemis
- 7. Anotación de Genomas. Modelos de genes en procariontes y eucariontes
- rRNA y tRNA
- CDSs, intrones/exones
- Predictores de genes: AUGUSTUS, Glimmer3
- Anotaciones automáticas y manuales: Prokka y RAST
- Bases dedatos para anotación
- 8. Visualización de genomas
- Artemis, ACT
- Práctica Final. Conclusiones y Perspectivas
Software usado
- FastQC
- DynamicTrim
- Trimmomatic
- Trim_galore
- Velvet
- IDBA_UD
- Spades
- CANU
- Unicycler
- Metassambler
- Quast
- MUMMER
- BOWTIE2
- SMALT
- Artemis
- BAMview
- IGV
- AUGUSTUS
- Glimmer3
- Blast
- Prokka
- ACT
¿Quién es nuestra audiencia?
El curso va dirigido a estudiantes e investigadores en genómica, genética, bioinformática o ciencias computacionales, con especial interés en el manejo de datos genómicos y ensamblado de genomas, y/o que sus proyectos de investigación se vean beneficiados con este conocimiento.
Profesores

Dr. Luis Lozano
Unidad de Análisis Bioinformáticos, Centro de Ciencias Genómicas UNAM

Dr. Gamaliel López
Instituto de Biotecnología UNAM

Lucía Graña Miraglia
Centro de Ciencias Genómicas UNAM