5 herramientas que tienes que conocer en Big Data

El mercado del Big Data avanza a pasos agigantados; decidir cuál es la mejor herramienta a implementar es una decisión importante, ya que de ella dependerán muchas de las decisiones de negocio. Nosotros te lo ponemos fácil para que no te comas la cabeza. Estás son 5 de las mejores herramientas que puedes encontrar:
1. Apache Hadoop
- Tecnología escalable: permite un crecimiento fácil, sin estar atados a las características iniciales del diseño. Además gracias al procesamiento de MapReduce los archivos se pueden dividir en bloques de una forma fácil.
- Almacenamiento barato: los datos que maneja son categorizados a través de miles de computadoras baratas, lo que supone un ahorro considerable de los costes.
- Velocidad: permite ejecutar procesamientos y análisis muy rápidos.
- Tolerante a fallos: permite recuperar datos de forma segura, teniendo siempre una copia disponible.
2. Apache Spark
- Código abierto: formado por comunidad muy activa. 300 de líneas de código (2015).
- Rápida gestión y tolerancia a fallos: A pesar de ser de código abierto, su velocidad es grandísima y permite hacer cambios con una alta tolerancia a fallos.
- Plataforma unificada para gestionar datos: gracias a la combinación de Spark SQL, Spark Streaming, MLlib y GraphX.
- Consola interactiva: dispone de consolas interactivas para los lenguajes con los que se puede programar, Scala y Python.
3. Apache Flink
- Infraestructura simplificada: basada en conceptos de MapReduce, MPP Database y sistemas de flujo de datos. El procesamiento en streaming permite simplificar la infraestructura minimizando el número de componentes.
- Rapidez y consistencia: respuesta en milisegundos y resultado correcto en caso de errores.
- Tolerancia alta a los fallos: a través de un sistema de snapshots distribuidos.
- APIs intuitivas multilenguaje: Scala, Python y Java.
4. Apache HBase
- Análisis en tablas de HBase: mediante la integración con Apache Phoenix, Apache Hadoop, Apache Hive o Apache Pig se pueden ejecutar informes, consultas SQL y otros trabajos de análisis de forma masiva con datos ya almacenados.
- Ejecución rápida a escala: Apache HBase está diseñado para mantener la ejecución a la vez que escala cientos de nodos, respaldando miles de millones de filas y millones de columnas.
- Modelo de datos flexible: Es capaz de almacenar versiones anteriores y acceder con facilidad al historial. Además realiza el almacenamiento en columnas anchas permitiendo definir columnas arbitrarias para cada fila con fines de filtrado.
5. Presto
- Rendimiento de las consultas: ejecuta consultas en memoria, canalizadas mediante la red entre etapas. Ejecuta varias etapas en paralelo y transmite datos de una etapa a la siguiente a medida que están disponibles.
- Compatibilidad con ANSI SQL: compatible con el estándar ANSI SQL, que facilita a los desarrolladores y analistas de datos realizar consultas tanto en datos estructurados como no estructurados a escala.
- Facilidad de uso: posibilidad de usar herramientas como Amazon EMR o Airpal, una herramienta de ejecución de consultas basada en la Web que Airbnb suministra con código abierto.
- Capacidad analítica multiplataforma: Presto trabaja con diferentes distribuciones de Hadoop y puede ser localizado desde una plataforma Haddop para realizar consultas en bases de datos relacionales o almacenes de datos en propiedad.
Si quieres formarte en estas y otras herramientas imprescindibles en Big Data, puedes hacerlo a través de la Carrera Profesional de Big Data y Business Intelligence Oficial de BigML y Microstrategy, o el Máster en Big Data y Análisis de Datos – Oficial de BigML. ¡Infórmate y reserva tu plaza!
Fuente: bbvaopen4u.com
No se encontró el banner
11/09/2018 | Apache, big data, business inteligence, Hadoop, Presto | Big Data, BI y Marketing Online Blogs Destacadas