Profesor:      John Freddy Duitama (U. de A.)
Aula: 21-316 Lunes de 4PM a 8PM.

 

Propósito del curso Presentar los fundamentos computacionales para la gestión, análisis y modelamiento de grandes volúmenes de datos estructurados, semi-estructurados o no estructurados.
Justificación: La Web y el manejo de datos de diversa naturaleza generan retos al análisis de grandes volúmenes de datos en áreas poco exploradas: aplicaciones médicas, los gustos de los usuarios, las seguridad informática, la minería de datos, etc. Estas posibilidades plantean problemas en la computación tanto en la gestión como en el procesamiento y análisis de este tipo de datos.
Objetivo general: Presentar los fundamentos y las técnicas esenciales para la gestión computacional de grandes volúmenes de datos.
Objetivos especificos:
  • Conocer nuevos paradigmas computacionales para el manejo de grandes volúmenes de datos distribuidos.
  • Conocer las técnicas algorítmicas básicas para la búsqueda por similitud.
  • Conocer algunas técnicas de minería de datos.
Contenido resumido:
  • DFS (Distributed File Systems).
  • Map-Reduce – SPARK
  • Técnicas algorítmicas básicas para el análisis de información.
  • Técnicas de minería de datos.
Unidad No.1  John Freddy Duitama Muñoz
Tema a desarrollar Sistemas de Archivos distribuidos, Map-Reduce y Spark
Subtemas Big Data. [Descargar] [Descargar]
DFS. (Distributed File Systems). [Descargar]
Map-Reduce [Descargar]
El álgebra relacional y Map-Reduce. [Descargar]
Modelo de costos para Map-Reduce. [Descargar]
Eficiencia de un proceso Map-Reduce. [Descargar]
Spark - [Descargar]
Dataframe, SQL y Spark - [Descargar]
Evaluación Taller práctico de Map Reduce y Spark. [Descargar]
Ayudas Instalación Hadoop [Descargar]
Ejemplo Hadoop [Descargar]
Ejemplo Spark [Descargar]
No. de semanas que se le dedicarán a esta unidad  3 semanas.

BIBLIOGRAFIA BASICA correspondiente a esta unidad: 

  • Rajaraman, A., Ullman, J. (2014). Mining of Massive datasets. Cambridge: Cambridge University Press.
  • Ghemawat, S., Gobioff H., Tack-Leung S. (December, 2003). The Google File System. ACM SIGOPS Operating Systems Review – SOSP ’03. sigops. 37(5),29 -43
  • Afrati, Foto N. and Ullman, Jeffrey D. (March, 2010) Optimizing Joins in a Map-Reduce Environment. EDBT. Stanford InfoLab
  • Matei Zaharia, et. al (2012). Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing. NSDI’12 Proceedings of the 9th USENIX conference on Networked Systems Design and Implementation: pp. 15-28.
  • Holden Karau, Andy Konwinski, Patrick Wendell, Matei Zaharia (2015).  Learning Spark: Lightning-Fast Big Data Analysis. O’Reilly Media.
Unidad No.2  John Freddy Duitama Muñoz
Tema a desarrollar Búsqueda por similitud.
Subtemas
Conceptos Básicos (LSH) [Descargar]
Finding similar items. (LSH) [Descargar]
Locality Sensitive Hashing – Theory. [Descargar]
Evaluación Trabajo. Trabajo en grupos.
No. de semanas que se le dedicarán a esta unidad 3 semanas.

BIBLIOGRAFIA BASICA correspondiente a esta unidad: 

  • Rajaraman, A., Ullman, J. (2012). Mining of Massive datasets. Cambridge: Cambridge University Press.
  • Manning, C. D., & Raghavan, P. (2009). An Introduction to Information Retrieval.Cambrigde: Cambridge University Press.
Unidad No.3  John Freddy Duitama Muñoz
Tema a desarrollar Sistemas de Recomendación
Subtemas
Introducción [Descargar]
Recomendación basada en contenido [Descargar]
Filtro Colaborativo [Descargar]
Reducción de dimensión y sistemas de recomendación [Descargar]
Evaluación Trabajo. Trabajo en grupos.
Ayudas
5 7 Dimensionality Reduction 2124 [YouTube]
No. de semanas que se le dedicarán a esta unidad 3 semanas.

BIBLIOGRAFIA BASICA correspondiente a esta unidad: 

  • Rajaraman, A., Ullman, J. (2012). Mining of Massive datasets. Cambridge: Cambridge University Press.
  • Manning, C. D., & Raghavan, P. (2009). An Introduction to Information Retrieval.Cambrigde: Cambridge University Press.
Unidad No.4  Francisco Javier Moreno Arboleda
Tema a desarrollar Bodegas de Datos.
Subtemas Introducción. [Descargar]
Modelos multidimensionales. [Descargar]
[Descargar]
Operaciones OLAP.
Elementos espaciales y temporales en una bodega de datos. [Descargar]
[Descargar]
Evaluación Trabajo sobre Bodegas de Datos. [Descargar]
No. de semanas que se le dedicarán a esta unidad 3 semanas.

BIBLIOGRAFIA BASICA correspondiente a esta unidad: 

  • Malinowski, E., & Zimányi, E. (2008). Advanced Data Warehouse Design: From Conventional to Spatial and Temporal Applications.
  • M. J. Carey, S. Ceri, P. Bernstein, & et al., Eds. (2008) Data-Centric Systems and Applications Springer.
  • Jensen, C. S., Kligys, A., Pedersen, T. B., & Timko, I. (2002). Multidimensional data modeling for location-based services. Geographic Information Systems.
  • Imhoff C., Galemmo N. (2003). Mastering Data Warehouse Design: Relational and Dimensional Techniques. 1-438.
Unidad No.5  Francisco Javier Moreno Arboleda
Tema a desarrollar Minería de datos
Subtemas Introducción a la minería de datos [Descargar]
Reglas de asociación [Descargar]
Categorización y segmentación [Descargar]
Link Analysis [Descargar]
Clustering – Análisis de Sentimientos [Descargar]
Evaluación Trabajo
No. de semanas que se le dedicarán a esta unidad 3 semanas.

BIBLIOGRAFIA BASICA correspondiente a esta unidad: 

  • Rajaraman, A., Ullman, J. (2012). Mining of Massive datasets. Cambridge: Cambridge University Press.
  • Manning, C. D., & Raghavan, P. (2009). An Introduction to Information Retrieval.Cambrigde: Cambridge University Press.
Evaluaciones Porcentaje
Trabajo sobre Map-reduce y Spark 35 %
Trabajo de aplicación – (búsqueda por similitud – recomendador) 35 %
Exposición 30 %
Cronograma
Unidad 1
Unidad 2
Exposición Trabajo Práctico 30%
Unidad 3
Exposición Trabajo práctico de Map-Reduce 40%
Unidad 4
Exposición Trabajo práctico Minería de datos- Finding similar Items 30%