T2: Análisis exploratorio y estadístico de datos biológicos usando R

R

Datos generales

Código: T2-RDataAnalysis
Duración: 40 horas
Nivel: intermedio
Idioma: español
Fecha: del 30 de julio al 3 de agosto de 2018
Lugar: Aula 2 LCG

A

¿Qué aprenderás?

  • Conocerás funciones comúnmente usadas para el análisis exploratorio y estadístico de datos.
  • Aprenderás a usar las funcionalidades de R para generar diferentes tipos de gráficas.
  • Aprenderás a generar reportes en web.
@

Pre-requisitos

Requisitos de conocimientos previos

  • Los participantes deberán tener conocimientos básicos del lenguaje de programación R: asignación de variables, lectura de archivos: read.csv, read.delim, read.table; estructuras de datos: matrix, dataframe, list; tipos de datos: character, numeric, factor, logical, etc; instalación y uso de paquetes.
  • Saber usar RStudio.

Requisitos técnicos

  • Computadora Personal
    Un mínimo de 8 GB de RAM, un ratón y espacio de disco suficiente para archivos de texto y archivos de imagen. Privilegios de administrador para instalar y ejecutar utilidades de RStudio.
h

Descripción

El taller se enfoca al análisis exploratorio y estadístico de datos biológicos usando R. Se inicia con una revisión de paquetes y conceptos de R que serán útiles para manipular y graficar datos, así como para reportar los resultados. Posteriormente se revisarán los conceptos estadísticos fundamentales requeridos para el análisis de datos biológicos usando las librerías o paquetes previamente vistos de R. El taller ha sido concebido para enseñar la teoría y la aplicación práctica, de tal forma que el estudiante pueda relacionar los conceptos estadísticos con el análisis de datos biológicos.

i

Contenido

  • Introducción
    • Paquete dplyr
    • Uso de pipes
    • Paquete ggplot2
    • Generando reportes con shiny
  • Transformación y análisis exploratorio de datos
    • Estadística descriptiva
    • Medidas de tendencia central
    • Medidas de dispersión
    • Análisis gráfico básico (histogramas, boxplots, …) de los datos para detección de outliers y otros problemas
  • Conceptos de probabilidad y distribuciones de probabilidad
    • Espacios muestrales
    • Eventos
    • Propiedades de la probabilidad
    • Números aleatorios en R
    • Cálculo de probabilidades en R
  • Distribuciones muestrales
    • Usando gráficos básicos
    • Distribución binomial
    • Distribución normal
    • Distribución hipergeométrica
    • Distribución de Poisson
    • Generación de distribuciones de probabilidad en R
  • Estadística aplicada
    • Estandarizacion
    • Prueba z
    • p-values y su interpretación
    • Significancia estadística
    • Tamaño de la muestra
    • Intervalo de confianza
  • Pruebas estadísticas básicas
    • Pruebas paramétricas
      • student
      • student pareada
      • T student muestras independientes
    • Pruebas no paramétricas
      • U de Mann Whitney
      • Chi cuadrada
      • Prueba exacta de Fisher
      • Prueba de Wilkoxon
  • Análisis de la varianza (ANOVA)
  • Correlación en R
    • El concepto de correlación
    • Varianza, covarianza y el coeficiente de correlación de Pearson
    • Correlaciones parciales
    • Supuestos del estadístico de correlación de Pearson r
    • El coeficiente de correlación no paramétrico de Kendall (Tau)
    • Significancia del coeficiente de correlación de Pearson
    • Análisis de potencia del coeficiente de correlación
    • El cuarteto de Anscombe y la importancia de visualizar las relaciones entre variables mediante gráficos de dispersión
    • Correlaciones prácticas
      • Funciones del paquete de base stats para el cálculo de la correlación y su significancia en R
      • Ejemplos de uso de los paquetes psych::corr.test(), corrplot::corrplot(), ggm::pcor.test(), pwr::pwr.r.test()
  • Regresión lineal simple y regresión polinomial en R
    • Introducción: el concepto de regresión y tipos de regresión
    • Regresión lineal simple
    • Diagnóstico del modelo de regresión y validación de supuestos
    • Transformación de datos y selección de modelos
    • Regresión polinomial y determinación de desviaciones de relación de linearidad entre variables
    • AIC: Selección de modelos mediante el criterio de información de Akaike
    • Predicciones usando el modelo seleccionado
    • Graficado de bandas e intervalos de confianza
  • Regresión lineal múltiple y selección de modelos
I

Software usado

  • R
  • Librerias dplyr, ggplot2, shiny
  • RStudio
l

¿Quién es nuestra audiencia?

El curso va dirigido a personas que conocen los conceptos básicos de R y lo han usado, pero que se enfrentan al problema de análisis de datos biológicos y la aplicación de estadísticas para su interpretación.

Profesores

M. en C. Verónica Jiménez

Instituto de Biotecnología UNAM

Dr. Pablo Vinuesa

Centro de Ciencias Genómicas UNAM