T2: Introducción al Ensamble y Anotación de Genomas
Datos generales
Código: T2-NGS-E
Duración: 40 horas
Nivel: básico
Idioma: español
Fecha: del 29 de julio al 2 de agosto de 2019
Lugar: Aula 1 LCG
¿Qué aprenderás?
Al final del curso los participantes:
- Tendrán conocimientos teóricos sobre las principales tecnologías de secuenciación de DNA.
- Adquirirán conocimientos prácticos y teóricos sobre las metodologías para ensamblar y anotar genomas.
Pre-requisitos
Requisitos de conocimientos previos
- Unix a nivel intermedio. Todas las demostraciones de software se harán en este sistema operativo.
Los participantes necesitan tener conocimientos de nivel intermedio en la línea de comandos de UNIX/Linux lo que implica manejo de archivos y directorios (rm, mkdir, cd, less, cut, sort,uniq, etc), formateo de datos (awk o perl command line, sed). - Estadística básica.
Se requieren conocimientos básicos de estadística (conceptos básicos: media, mediana, desviación estándar, distribuciones estadísticas, pruebas de hipótesis, logaritmos).
Requisitos técnicos
-
Si el alumno quiere traer su computadora personal, ésta deberá tener instalado MobaXterm, o alguna otra herramienta que nos permita realizar conexión SSH al servidor.
En el aula habrá 30 terminales para conectarse a un servidor común que tiene la paquetería instalada previamente.
Descripción
El taller presenta las tecnologías de NGS y las metodologías para el ensamblado de genomas, de novo y basados en referencia, así como su anotación. Este curso está enfocado primordialmente en el manejo práctico de las herramientas computacionales.
Contenido
El contenido del curso consiste en los siguientes temas:
- 1. Tecnologías de secuenciación de DNA
- Primera generación (Sanger)
- Segunda generación (454, Illumina, Ion Torrent)
- Tercera generación (PacBio)
- 2. Construcción y características de librerías
- shot-gun
- paired-end
- mate-pair
- 3. Manejo de datos de NGS. Formatos de archivo, identificadores, modelos de error y calidad. Herramientas de transformación y preprocesado. Control de calidad y filtrado de lecturas.
- Plataformas: Illumina, Ion Torrent y PacBio
- Lecturas tipo paired-end y mate-pair
- 4. Bases de datos genómicos
- NCBI
- EMBL
- DDBJ
- 5. Algoritmos para ensamble de genomas de novo
- Técnicas y algoritmos para lecturas de un solo tipo
- Técnicas y algoritmos para ensambles híbridos
- Ensambladores: Velvet (Illumina), Newbler, Spades (Illumina, PacBio). Ejemplos de uso y características del output
- 6. Remapeo de lecturas y técnicas de validación de ensambles
- Comparación con genomas de referencia – MUMMER
- Alineadores: BOWTIE2, MAQ, SMALT
- Visualización: BAMview, IGV, Artemis
- 7. Anotación de Genomas. Modelos de genes en procariontes y eucariontes
- rRNA y tRNA
- CDSs, intrones/exones
- Predictores de genes: AUGUSTUS, Glimmer3
- Anotaciones automáticas y manuales
- Bases de datos para anotación
- 8. Visualización de genomas
- Artemis, ACT
- Práctica Final. Conclusiones y Perspectivas
Software usado
- Velvet
- Newbler
- Spades
- MUMMER
- BOWTIE
- MAQ
- SMALT
- Artemis
- BAMview
- IGV
- AUGUSTUS
- Glimmer3
- ACT
¿Quién es nuestra audiencia?
El curso va dirigido a estudiantes e investigadores en genómica, genética, bioinformática o ciencias computacionales, con especial interés en el manejo de datos genómicos y ensamblado de genomas, y/o que sus proyectos de investigación se vean beneficiados con este conocimiento.
Profesores
Dr. Luis Lozano
Unidad de Análisis Bioinformáticos, Centro de Ciencias Genómicas UNAM