itrs

Hoy en día tenemos dos palabras que escuchamos cada vez más: lakes data y data stream. Ambas provocan actualmente debates entre expertos de esta materia sobre cuáles son sus utilidades, pero ¿cuál es mejor?

Lo más importante es saber primero que son los lakes data y los data stream.

Lake data es aún un concepto relativamente nuevo y hace referencia al almacenamiento de una gran cantidad de datos no estructurados y semiestructurados. Esta aplicación agrupa datos de manera más ágil en comparación con las bases de datos tradicionales, donde son necesarios una estructura rígida y definida de datos. Los datos están indexados normalmente para facilitar su búsqueda, ya sea como texto o por una etiqueta que forma parte del esquema. Es tal su flexibilidad que permite que cualquier dato que venga o no esquematizado se pueda añadir en el data lake para ser procesado en el futuro.

Technology horizon concept

¿Por qué es útil?

Básicamente gracias a que las empresas producen unas cantidades cada vez mayores de datos útiles en diversos formatos, velocidades y tamaños. Al almacenar de esta manera los datos, los usuarios pueden sumergirse y sacar lo que necesitan en el acto, sin tener que definir el diccionario de datos y la estructura relacional de estos con antelación. Por supuesto, el aumento de velocidad está garantizado, ya que los datos pueden ser capturados y analizados.  Esto hace que los lake data sean mucho más flexible que el almacenamiento tradicional para los programadores o analistas de negocios, que están constantemente buscando maneras de realizar sendas acciones con sus datos, e incluso verter de nuevo en el lago para crear nuevas fuentes en sus resultados. Cualquier usuario tiene la posibilidad de ejecutar un análisis para encontrar anomalías dentro de un subconjunto de los datos y luego ha convertido este análisis como una nueva fuente de datos en el lake data. Sin embargo, para sacar el máximo partido de un lago de datos complejos se recomienda crear constantemente y permitir uniones a través de datos de diferentes fuentes.

Por otro lado, el data stream es un concepto aún más reciente en el mundo de la ciencia general del data (excepto para las personas que utilizan los motores de procesamiento de eventos complejos que funcionan en la transmisión de datos). En contraste con el almacenamiento de profundidad, el data stream es resultado de la creciente exigencia para procesar y llevar a cabo análisis en tiempo real de transmisión de datos. El análisis en tiempo real de alta escalabilidad es una exigencia que muy pocas tecnologías son incapaces de cumplir aún. El valor del data stream (en comparación con el lake data) es la velocidad y la naturaleza continua del análisis, sin tener que almacenar los datos primero. Además, los datos se analizan ‘en movimiento’.

data_stream

El data stream también puede ser almacenada. Esto da la posibilidad de añadir más contexto o comparar los datos en tiempo real contra los datos históricos para ofrecer una visión de lo que ha cambiado. Y tal vez incluso por qué (que dependiendo de su solución, puede afectar la capacidad de respuesta). Por ejemplo, mediante la comparación de los datos en tiempo real sobre las operaciones por contraparte frente a los datos históricos, se podría mostrar que una contraparte, que por lo general presenta un número determinado de operaciones de un día, no ha presentado el mayor número de operaciones como se esperaba. Una empresa puede investigar por qué se ha dado ese caso y actuar en tiempo rea, en lugar de hacerlo retroactivamente o al final del día ¿Es un problema de conexión con la contraparte, es el problema por el lado del negocio ‘o el cliente de? ¿Es un problema con la relación? ¿Tal vez ellos tienen un mejor precio en otro lugar? Toda información útil cuando se trata de diseño de la estrategia de negociación y la gestión de relaciones de contrapartes.

La disponibilidad de estas nuevas formas de almacenamiento y gestión de datos ha creado la necesidad de elaborar sistemas más inteligentes, almacenamiento de datos y herramientas de análisis más rápido para mantenerse al día con la escala y la velocidad de los datos. También hay un conjunto mucho más amplio de usuarios que quieren ser capaces de hacer preguntas a sus propios datos para ayudar de esta forma a la toma de decisiones e impulsar su estrategia de negociación en tiempo real (en lugar de hacerlo semanal o trimestral). Cada vez menos gente desea no depender o esperar a otra persona, como un analista de negocio dedicado u otro recurso limitado, para hacer el análisis por ellos. Este aumento de la capacidad y la accesibilidad crea nuevos casos de usos para los usuarios, así como la transformación de los antiguos.

Como ejemplo tenemos la capacidad de gestión de TI: hasta entonces limitado a mirar los datos históricos de la muestra en una herramienta como una hoja de cálculo y tratando de identificar problemas y oportunidades en el polígono de TI. Ahora bien, es posible comparar los datos del servidor histórica en tiempo real con los datos de comercio, es decir, qué volumen de operaciones generó lo carga en las aplicaciones de procesamiento de las operaciones. También es posible detectar cargas de TI inusuales antes de que causen un problema. Imagína una actualización de una aplicación clave: las herramientas modernas de gestión de la capacidad puede detectar que los servidores están mostrando inusualmente una alta carga debido al volumen de las operaciones que pasan por la aplicación, la captura de una degradación en el rendimiento de las aplicaciones antes de que una alta carga de comercio provoca un corte de luz. En el futuro, por la alimentación de las fuentes más variadas y ricas de datos (en particular la combinación de TI y datos de la empresa) y la implementación de algoritmos de aprendizaje automático, será posible predecir con exactitud las interrupciones del servidor o los movimientos del mercado que podrían provocar pérdidas significativas si no se detecta rápidamente.

Por lo tanto, ¿qué es mejor?, ¿un lago de datos o un flujo de datos?

La respuesta es sencilla: ambas.Por un lado, las empresas tienen que ser capaces de procesar y analizar los datos en cada vez mayores volúmenes y la velocidad; y por otro, un número cada vez mayor de fuentes como los datos llegan a través de stream data, junto con la capacidad de acceso y analizar los datos de forma fácil y rápida desde un lake data. El problema es que las herramientas actuales no permiten fácilmente para la mezcla de estos dos paradigmas, pero ¡el mundo está cambiando!

Artículo traducido del original publicado por ITRS.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Time limit is exhausted. Please reload CAPTCHA.