M5. Minería de datos para ciencias de la vida

La necesidad de procesamiento masivo de datos es una realidad que aprovecha la potencia de las infraestructuras de cómputo distribuido y la disponibilidad creciente de datos no estructurados o semi estructurados. Esta unión permite disponer de capacidad de análisis utilizando los algoritmos apropiados para extraer conclusiones a partir de grandes volúmenes de datos en períodos razonables de tiempo.
Este módulo presenta una estructura equilibrada entre los conceptos más importantes del tema y casos de uso prácticos orientados a realizar experiencias significativas sobre infraestructuras reales.
Así, el estudiante aprende los conceptos básicos sobre el procesamiento distribuido de grandes volúmenes de datos y recibe una introducción práctica a algunas de las tecnologías y herramientas utilizadas actualmente en este campo.

Parte I: Infraestructuras para el procesamiento distribuido de datos masivo

  • Infraestructuras por el procesamiento distribuido de datos masivos: tecnologías, arquitecturas y herramientas.
  • Principales actores y plataformas para el procesamiento masivo de datos en la nube: Google, Microsoft, Amazon, Cloudera.
  • Modelos para almacenamiento y procesamiento de datos masivos y entornos de procesamiento: Hadoop y Map-reduce, Spark, Crunch / Cascading / Pig, Giraph, Tez.

Parte II: Caso de uso
plataforma Hadoop
a) Map-Reduce utilizando datos sintéticos sobre infraestructura local.
b) Análisis de datos reales utilizando infraestructura remota.

Campus d'excel·lència internacional U A B