CICE

¿Qué aporta el Data Lake al Big Data?

En un Data Lake se almacenan todos los datos de una empresa sin ningún tipo de preprocesamiento (Raw Data). Una caracte...

Click Here
Click Here
Click Here
Click Here
Click Here
Click Here
Click Here
Click Here
Click Here

En un Data Lake se almacenan todos los datos de una empresa sin ningún tipo de preprocesamiento (Raw Data). Una característica que tendrá sus ventajas en comparación con el habitual Data Warehouse.

¿Qué diferencias existen entre un Data Warehouse y un Data Lake?

En la Carrera Profesional de Big Data y Business Intelligence Oficial de BigML y Microstrategy de CICE, nuestros alumnos aprenden los cimientos de todo proyecto de Big Data moderno, incluyendo las principales tecnologías y herramientas que las grandes empresas de Big Data ya aplican en sus proyectos. En el módulo temático de Business Intelligence, uno de los términos que necesitan aprender es el de Data Warehouse, que viene a ser un repositorio central de datos integrados de una o más fuentes de información y que almacenan tanto datos actuales, como históricos, que pueden ser utilizados para realizar informes de gestión y mantenimiento, así como exhaustivas comparaciones entre periodos.

Un Data Warehouse es el primer paso natural para almacenar los datos de todo proyecto de Big Data, pero su efectividad se reduce cuando el proyecto madura y los datos comienzan a crecer y crecer. Todos los datos son estructurados y procesados de una determinada forma, reduciendo posteriormente su agilidad y coste al gestionar grandes volúmenes de información. La solución viene dada por la adopción de un Data Lake, que suele ser la opción elegida por defecto para campos científicos y que están diseñados para un almacenamiento de muy bajo coste, con datos que pueden estar estructurados, semi-estructurados, no estructurados y sin preprocesamiento (Raw Data).

En un Data Lake, al disponer de todos los datos en bruto (Raw Data), el acceso a la información original es más directa y reduce los pasos intermedios necesarios para su procesamiento (evitando la necesidad de cargar modelos previos, o como también se conoce schema-on-read), con una estructura de datos no definida hasta que los datos son necesarios.

Por tanto, la validez y necesidad de ambos sistemas dependerá, en buena medida, de las necesidades del proyecto. Por regla general, un Data Warehouse será válido para cualquier proyecto, salvo que sean del campo científico, cuyo volumen de datos generados puede crecer un ritmo muy superior al de otros campos profesionales como las finanzas.

Cada dato cuenta, quizás no hoy pero ¿y mañana?

A nivel de usuario doméstico, ¿cuántas veces te has arrepentido de eliminar un determinado fichero? Quizás no de forma inmediata, pero sí al cabo de un tiempo. Si te resulta familiar esta situación, imagina esa misma situación aplicada al Big Data. Datos que hoy quizás carezcan de utilidad, pueden tenerla al cabo de unos pocos años e incluso meses. Por esta razón, las grandes empresas deciden conservar todos los datos que generan sus diferentes fuentes de información. Y donde un sistema de almacenamiento de datos sin preprocesamiento como un Data Lake, marca las diferencias. Eso sí, a un mayor coste, tanto de medios técnicos, como de perfiles profesionales que sean capaces de gestionarlo.

En resumen, un sistema Data Lake permite:

  • Retener todos los datos sin preprocesamiento, en bruto. No descarta nada
  • Soporte para todos los tipos de datos existentes, aunque a día de hoy no puedan ser procesados
  • Soporte para todo tipo de perfiles de usuarios, tantos para modelos empresariales como científicos
  • Una mayor facilidad para cambiar y actualizar el sistema de datos utilizado
  • Proporcionar unos insights más detallados y rápidos (justamente por todo lo comentado anteriormente)

El Data Lake de Microsoft Azure

Microsoft Azure es la plataforma de cloud computing de Microsoft (también impartida en CICE), y entre sus numerosas prestaciones y tecnologías soportadas, se encuentra la solución de Data Lake. Enfocado a desarrolladores, científicos y analistas que requieran procesas grandes volúmenes de datos, Azure Data Lake facilita su gestión con un sistema multiplataforma, en múltiples idiomas, con pago por uso y totalmente escalable gracias a su naturaleza cloud.

Tecnologías como Apache Spark y Hadoop (incluido en la formación de Big Data de CICE), se ponen al servicio de cualquier proyecto de Big Data que sea gestionado con Azure Data Lake, dando soporte optimizado para sistemas open source como Hive, Map Reduce, HBase, Storm, Kafka y R-Server. Con un alto nivel de seguridad y monitorización.

Herramientas de diseño y gestión de peticiones de Big Data como Visual Studio, Eclipse o IntelliJ, ofrecen una total integración con Azure Data Lake, ofreciendo adicionalmente recomendaciones de optimización para reducir los costes.

Debido a su alto nivel de integración con servicios y tecnologías de terceros, la inversión para adaptar cualquier sistema existente de Big Data a la plataforma de cloud computing de Microsoft, se facilita enormemente. Además de poder afrontar cualquier dimensión o volumen, con trillones de ficheros con tamaños superior a 1 petabyte cada uno, lo que en palabras de la propia Microsoft, implica una capacidad de procesamiento 200x más amplia que otros sistemas cloud.

Todo ello con las máximas garantías de escabilidad y seguridad que proporciona Microsoft Azure.

El Big Data es un ser vivo que no para de evolucionar

Aunque empresas como Microsoft o Google llevan años de ventaja en la gestión de Big Data, no pocas empresas han tomado la decisión de adoptar e implementar soluciones de Big Data a su actividad. En unos casos para obtener una valiosa información de sus usuarios, que les ayude a mejorar su servicio o producto, y en otras, para tomar una decisión fundamentada considerando los grandes volúmenes de información analizados. Algo imposible de la forma “tradicional”.

En CICE llevamos ya un tiempo en la vanguardia de la formación de Big Data en España, con instructores que son reconocidos profesionales dentro de la especialidad, y con el soporte de empresas como BigML, todo un referente en el desarrollo de soluciones de Big Data y Machine Learning, de la que CICE es la primera y única escuela homologada en España.

Una formación que apenas lleva unos años en funcionamiento y que se actualiza a gran velocidad. Al mismo ritmo de lo que lo hace la tecnología implicada y las necesidades de las empresas que la solicitan. Una característica de renovación permanente que pone en mayor valor a nuestros alumnos de Big Data y Business Intelligence en el mercado laboral.



    ¿Más información?














    POSTS RELACIONADOS
    COMENTARIOS 0

    Deja una respuesta

    Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

    Suscríbete a nuestra Newsletter

      Te avisaremos de los nuevos Másteres, Webinars y Eventos.



      Resuelve tus dudas

      ¿Tienes alguna duda sobre nuestras carreras, metodología o proceso de matriculación?

      Contacta con nosotros

      CICE, La Escuela Profesional de Nuevas Tecnologías. - 13

      Único Centro de Formación Oficial de más de 20 Multinacionales en España, es ya una Comunidad con más de 60.000 alumnos procedentes de más de 30 países distintos. Con todas las Homologaciones de las Compañías Líderes a nivel mundial y con un plantel de profesionales docentes certificados procedentes de las más prestigiosas Compañías Nacionales e Internacionales.

      Síguenos

      © CICE 2021 – Todos los derechos reservados | Contacto | Aviso Legal | Política de Privacidad | Política de Cookies