T2: Análisis exploratorio y estadístico de datos biológicos usando R
Datos generales
Código: T2-RDataAnalysis
Duración: 40 horas
Nivel: intermedio
Idioma: español
Fecha: del 30 de julio al 3 de agosto de 2018
Lugar: Aula 2 LCG
¿Qué aprenderás?
- Conocerás funciones comúnmente usadas para el análisis exploratorio y estadístico de datos.
- Aprenderás a usar las funcionalidades de R para generar diferentes tipos de gráficas.
- Aprenderás a generar reportes en web.
Pre-requisitos
Requisitos de conocimientos previos
- Los participantes deberán tener conocimientos básicos del lenguaje de programación R: asignación de variables, lectura de archivos: read.csv, read.delim, read.table; estructuras de datos: matrix, dataframe, list; tipos de datos: character, numeric, factor, logical, etc; instalación y uso de paquetes.
- Saber usar RStudio.
Requisitos técnicos
- Computadora Personal
Un mínimo de 8 GB de RAM, un ratón y espacio de disco suficiente para archivos de texto y archivos de imagen. Privilegios de administrador para instalar y ejecutar utilidades de RStudio.
Descripción
El taller se enfoca al análisis exploratorio y estadístico de datos biológicos usando R. Se inicia con una revisión de paquetes y conceptos de R que serán útiles para manipular y graficar datos, así como para reportar los resultados. Posteriormente se revisarán los conceptos estadísticos fundamentales requeridos para el análisis de datos biológicos usando las librerías o paquetes previamente vistos de R. El taller ha sido concebido para enseñar la teoría y la aplicación práctica, de tal forma que el estudiante pueda relacionar los conceptos estadísticos con el análisis de datos biológicos.
Contenido
- Introducción
- Paquete dplyr
- Uso de pipes
- Paquete ggplot2
- Generando reportes con shiny
- Transformación y análisis exploratorio de datos
- Estadística descriptiva
- Medidas de tendencia central
- Medidas de dispersión
- Análisis gráfico básico (histogramas, boxplots, …) de los datos para detección de outliers y otros problemas
- Conceptos de probabilidad y distribuciones de probabilidad
- Espacios muestrales
- Eventos
- Propiedades de la probabilidad
- Números aleatorios en R
- Cálculo de probabilidades en R
- Distribuciones muestrales
- Usando gráficos básicos
- Distribución binomial
- Distribución normal
- Distribución hipergeométrica
- Distribución de Poisson
- Generación de distribuciones de probabilidad en R
- Estadística aplicada
- Estandarizacion
- Prueba z
- p-values y su interpretación
- Significancia estadística
- Tamaño de la muestra
- Intervalo de confianza
- Pruebas estadísticas básicas
- Pruebas paramétricas
- student
- student pareada
- T student muestras independientes
- Pruebas no paramétricas
- U de Mann Whitney
- Chi cuadrada
- Prueba exacta de Fisher
- Prueba de Wilkoxon
- Pruebas paramétricas
- Análisis de la varianza (ANOVA)
- Correlación en R
- El concepto de correlación
- Varianza, covarianza y el coeficiente de correlación de Pearson
- Correlaciones parciales
- Supuestos del estadístico de correlación de Pearson r
- El coeficiente de correlación no paramétrico de Kendall (Tau)
- Significancia del coeficiente de correlación de Pearson
- Análisis de potencia del coeficiente de correlación
- El cuarteto de Anscombe y la importancia de visualizar las relaciones entre variables mediante gráficos de dispersión
- Correlaciones prácticas
- Funciones del paquete de base stats para el cálculo de la correlación y su significancia en R
- Ejemplos de uso de los paquetes psych::corr.test(), corrplot::corrplot(), ggm::pcor.test(), pwr::pwr.r.test()
- Regresión lineal simple y regresión polinomial en R
- Introducción: el concepto de regresión y tipos de regresión
- Regresión lineal simple
- Diagnóstico del modelo de regresión y validación de supuestos
- Transformación de datos y selección de modelos
- Regresión polinomial y determinación de desviaciones de relación de linearidad entre variables
- AIC: Selección de modelos mediante el criterio de información de Akaike
- Predicciones usando el modelo seleccionado
- Graficado de bandas e intervalos de confianza
- Regresión lineal múltiple y selección de modelos
Software usado
- R
- Librerias dplyr, ggplot2, shiny
- RStudio
¿Quién es nuestra audiencia?
El curso va dirigido a personas que conocen los conceptos básicos de R y lo han usado, pero que se enfrentan al problema de análisis de datos biológicos y la aplicación de estadísticas para su interpretación.
Profesores

M. en C. Verónica Jiménez
Instituto de Biotecnología UNAM

Dr. Pablo Vinuesa
Centro de Ciencias Genómicas UNAM