Da el salto a Big Data y aprende las tecnologías necesarias para procesar miles de millones de registros, usando esquemas map-reduce en SPARK
Interior Designer
En este curso profundizarás en los conceptos y metodologías de desarrollo de computación distribuida, que permite procesar datasets de tamaños grandes y muy grandes de forma paralelizada (Apache Hadoop y Spark).
Para ello, será necesario entender y practicar inicialmente con los conceptos de "map-reduce", sobre herramientas tipo Haddop. Realizaremos las prácticas con un dataset propio (1.000 millones de registros). Posteriormente, se profundiza en el Apache Spark, como framework de desarrollo para tratamiento masivo de datos.
Al final este curso, serás capaz de implementar soluciones de computación distribuida sobre los principales frameworks del mercadol
• Experiencia de 2 años en Data Engineering (ej. SQL, ETLs, Hadoop, etc)
• Experiencia de 2 años en desarrollo Java, Python o NodeJS (Back)
• Dedicación part-time
• Ordenador propio
La evolución de la ingeniería de datos continua imparable y cada vez es necesario desarrollar nuevas tecnologías que sean capaces de procesar bases de datos (estructuradas y no estructuradas) más y más grandes.
Para ello, las tecnologías de computación distribuida se están imponiendo como las únicas capaces de afrontar el reto de procesar bases de datos inmensas en tiempos y costes razonables.
El curso profundiza en la arquitectura y conocimiento de los procesos de tratamiento de estas bases de datos, superando el concepto de las ETLs hacia procesamiento computacional usando metodologías tipo map-reduce o spark.
• ... tienes experiencia como Data Engineer
• ... quieres dar el salto de ETLs a computación distribuida
• ... te apasiona aprender sobre el mundo de los datos