imagen porcentaje

Matricúlate con descuentos exclusivos

Programas Exclusivos UAH

imagen promoción

Matricúlate con descuentos exclusivos

¿Qué aporta el Data Lake al Big Data?

data-lake-big-data

En un Data Lake se almacenan todos los datos de una empresa sin ningún tipo de preprocesamiento (Raw Data). Una característica que tendrá sus ventajas en comparación con el habitual Data Warehouse.

¿Qué diferencias existen entre un Data Warehouse y un Data Lake?

En la Carrera Profesional de Big Data y Business Intelligence Oficial de BigML y Microstrategy de CICE, nuestros alumnos aprenden los cimientos de todo proyecto de Big Data moderno, incluyendo las principales tecnologías y herramientas que las grandes empresas de Big Data ya aplican en sus proyectos. En el módulo temático de Business Intelligence, uno de los términos que necesitan aprender es el de Data Warehouse, que viene a ser un repositorio central de datos integrados de una o más fuentes de información y que almacenan tanto datos actuales, como históricos, que pueden ser utilizados para realizar informes de gestión y mantenimiento, así como exhaustivas comparaciones entre periodos.


Un Data Warehouse es el primer paso natural para almacenar los datos de todo proyecto de Big Data, pero su efectividad se reduce cuando el proyecto madura y los datos comienzan a crecer y crecer. Todos los datos son estructurados y procesados de una determinada forma, reduciendo posteriormente su agilidad y coste al gestionar grandes volúmenes de información. La solución viene dada por la adopción de un Data Lake, que suele ser la opción elegida por defecto para campos científicos y que están diseñados para un almacenamiento de muy bajo coste, con datos que pueden estar estructurados, semi-estructurados, no estructurados y sin preprocesamiento (Raw Data).

En un Data Lake, al disponer de todos los datos en bruto (Raw Data), el acceso a la información original es más directa y reduce los pasos intermedios necesarios para su procesamiento (evitando la necesidad de cargar modelos previos, o como también se conoce schema-on-read), con una estructura de datos no definida hasta que los datos son necesarios.

Por tanto, la validez y necesidad de ambos sistemas dependerá, en buena medida, de las necesidades del proyecto. Por regla general, un Data Warehouse será válido para cualquier proyecto, salvo que sean del campo científico, cuyo volumen de datos generados puede crecer un ritmo muy superior al de otros campos profesionales como las finanzas.

Cada dato cuenta, quizás no hoy pero ¿y mañana?

A nivel de usuario doméstico, ¿cuántas veces te has arrepentido de eliminar un determinado fichero? Quizás no de forma inmediata, pero sí al cabo de un tiempo. Si te resulta familiar esta situación, imagina esa misma situación aplicada al Big Data. Datos que hoy quizás carezcan de utilidad, pueden tenerla al cabo de unos pocos años e incluso meses. Por esta razón, las grandes empresas deciden conservar todos los datos que generan sus diferentes fuentes de información. Y donde un sistema de almacenamiento de datos sin preprocesamiento como un Data Lake, marca las diferencias. Eso sí, a un mayor coste, tanto de medios técnicos, como de perfiles profesionales que sean capaces de gestionarlo.

En resumen, un sistema Data Lake permite:

  • Retener todos los datos sin preprocesamiento, en bruto. No descarta nada
  • Soporte para todos los tipos de datos existentes, aunque a día de hoy no puedan ser procesados
  • Soporte para todo tipo de perfiles de usuarios, tantos para modelos empresariales como científicos
  • Una mayor facilidad para cambiar y actualizar el sistema de datos utilizado
  • Proporcionar unos insights más detallados y rápidos (justamente por todo lo comentado anteriormente)

El Data Lake de Microsoft Azure

Microsoft Azure es la plataforma de cloud computing de Microsoft (también impartida en CICE), y entre sus numerosas prestaciones y tecnologías soportadas, se encuentra la solución de Data Lake. Enfocado a desarrolladores, científicos y analistas que requieran procesas grandes volúmenes de datos, Azure Data Lake facilita su gestión con un sistema multiplataforma, en múltiples idiomas, con pago por uso y totalmente escalable gracias a su naturaleza cloud.

Tecnologías como Apache Spark y Hadoop (incluido en la formación de Big Data de CICE), se ponen al servicio de cualquier proyecto de Big Data que sea gestionado con Azure Data Lake, dando soporte optimizado para sistemas open source como Hive, Map Reduce, HBase, Storm, Kafka y R-Server. Con un alto nivel de seguridad y monitorización.

Herramientas de diseño y gestión de peticiones de Big Data como Visual Studio, Eclipse o IntelliJ, ofrecen una total integración con Azure Data Lake, ofreciendo adicionalmente recomendaciones de optimización para reducir los costes.

Debido a su alto nivel de integración con servicios y tecnologías de terceros, la inversión para adaptar cualquier sistema existente de Big Data a la plataforma de cloud computing de Microsoft, se facilita enormemente. Además de poder afrontar cualquier dimensión o volumen, con trillones de ficheros con tamaños superior a 1 petabyte cada uno, lo que en palabras de la propia Microsoft, implica una capacidad de procesamiento 200x más amplia que otros sistemas cloud.

Todo ello con las máximas garantías de escabilidad y seguridad que proporciona Microsoft Azure.

El Big Data es un ser vivo que no para de evolucionar

Aunque empresas como Microsoft o Google llevan años de ventaja en la gestión de Big Data, no pocas empresas han tomado la decisión de adoptar e implementar soluciones de Big Data a su actividad. En unos casos para obtener una valiosa información de sus usuarios, que les ayude a mejorar su servicio o producto, y en otras, para tomar una decisión fundamentada considerando los grandes volúmenes de información analizados. Algo imposible de la forma “tradicional”.

En CICE llevamos ya un tiempo en la vanguardia de la formación de Big Data en España, con instructores que son reconocidos profesionales dentro de la especialidad, y con el soporte de empresas como BigML, todo un referente en el desarrollo de soluciones de Big Data y Machine Learning, de la que CICE es la primera y única escuela homologada en España.

Una formación que apenas lleva unos años en funcionamiento y que se actualiza a gran velocidad. Al mismo ritmo de lo que lo hace la tecnología implicada y las necesidades de las empresas que la solicitan. Una característica de renovación permanente que pone en mayor valor a nuestros alumnos de Big Data y Business Intelligence en el mercado laboral.

19/12/2016 | , , | Artículos BigData, BI y Marketing Online

Miguel Gómez

Miguel Gómez

Escribe tu comentario

Si quieres personalizar tu avatar, click aquí.
Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *
Recuerda que los comentarios deben ser revisados por un administrador.

O si lo prefieres, déjanos tus datos y nosotros te llamamos.

*Selecciona una titulación

Te llamamos sin compromiso

Puedes llamarnos al 91 401 07 02 (Centro Maldonado) o al 91 435 58 43 (Centro Povedilla).

Si lo prefieres, déjanos tus datos y nosotros te llamamos.

Solo hasta el 25 de marzo

¡MATRÍCULA

GRATIS!

Solo quedan


*Consulta condiciones aquí
¿Qué aporta el Data Lake al Big Data?
Buzón de quejas

*Por favor necesitamos que rellenes el formulario con tus datos reales.
Si prefieres escribir de forma anónima puedes hacerlo poniendo la palabra "anónimo" en cada campo.
Recuerda que para contestar tu queja necesitamos que nos facilites un email o teléfono de contacto real, ¡gracias!
SOLICITAR UNA CLASE DE PRUEBA GRATUITA
¿Qué aporta el Data Lake al Big Data?

Horario atención al cliente

  • Lunes a viernes

    • De 9 a 14 horas
    • De 16 a 21 horas
  • Sábados

    • De 9 a 14 horas

Teléfono de contacto: 91 435 58 43

Solicita información sobre
Envíanos tu opinión sobre CICE
Nosotros te asesoramos

¿No te decides?

Nosotros te ayudamos. Utiliza nuestro buscador avanzado para encontrar el curso que quieres.