El tiempo real es adecuado para que los equipos de datos adopten una perspectiva nativa de transmisión para la arquitectura de la analítica, dice Julia Brouillette, tecnóloga senior de Imply.
En 2022, comenzamos a ver que la transmisión de datos finalmente obtuvo el reconocimiento que merece. Lo que una vez se pensó como un elemento de nicho de la ingeniería de datos ahora se ha convertido en el status quo. Todos los principales proveedores de nube (Google Cloud Platform, Microsoft Azure y AWS) han lanzado su propio servicio de transmisión y más del 80% de las compañías Fortune 100 han adoptado Apache Kafka.
Liderando este cambio está la creciente necesidad de confiabilidad, entrega rápida y la capacidad de admitir una amplia gama de aplicaciones externas e internas a escala. Esto continúa se ejemplifica por el creciente número de casos de uso que dependen de actualizaciones de menos de un segundo, lo que sube la apuesta para el procesamiento y la difusión de datos en tiempo real.
Dicho esto, no hay duda de que la tecnología de transmisión experimentará un crecimiento continuo en 2023.
A medida que la transmisión avanza hacia la ubicuidad, se está produciendo otro cambio, específicamente en la forma en que las empresas usan los datos. Los eventos se analizan a medida que se crean para recopilar información en tiempo real. Con las herramientas adecuadas, las empresas pueden comparar instantáneamente lo que está sucediendo ahora con lo que ha sucedido anteriormente, tomar decisiones urgentes en un instante y clasificar los problemas a medida que ocurren.
Con el aumento de los flujos de datos viene un nuevo conjunto de requisitos y casos de uso para el análisis en tiempo real. Para desbloquear completamente el poder de la transmisión en 2023, los equipos de datos deberán mirar más allá de la pila tradicional orientada a lotes y adoptar una perspectiva nativa de transmisión para la arquitectura de análisis.
Cuando nos fijamos en las operaciones comerciales, históricamente hemos vivido en un mundo de datos dominante por lotes. El objetivo final de la infraestructura de datos era identificar los datos en un momento fijo en el tiempo y almacenarlos para su uso final. Pero en la evolución de los mainframes que usaban operaciones diarias por lotes hasta el mundo actual impulsado por Internet y siempre activo, lo que una vez fueron «datos en reposo» son reemplazados por datos en movimiento de rápido movimiento. Con la transmisión, la información fluye libremente entre aplicaciones y sistemas de datos dentro y entre organizaciones.
Si bien los «datos en reposo» todavía existen y continúan admitiendo una serie de casos de uso de informes, la realidad no es fija. Para satisfacer la necesidad de experiencias de datos auténticas y sin problemas, los sistemas que construimos deben estar diseñados para datos en movimiento.
Con la popularidad de la tecnología de transmisión en aumento, también lo es una nueva forma de pensar con respecto a los datos. Las plataformas de streaming se convirtieron en el centro de datos central para las organizaciones, conectando todas las funciones e impulsando las operaciones críticas. Los procesadores de flujo y las bases de datos de eventos son tecnologías en evolución diseñadas específicamente para admitir y manejar sistemas de datos en movimiento.
Como base de datos en tiempo real, Apache Druid encaja en la categoría especialmente diseñada. Está diseñado para permitir a los usuarios consultar eventos a medida que se unen al flujo de datos a una escala inmensa, al tiempo que permite consultas de subsegundos en una combinación de datos por lotes y de flujo.
Muchas empresas ya están utilizando procesadores de streaming como Amazon Kinesis y Kafka with Druid para hacer sistemas de vanguardia que hacen que los terabytes de datos de streaming sean accesibles para personas y aplicaciones en milisegundos. Reddit, Citrix y Expedia fueron algunas de las empresas destacadas en Current 2022, el evento anual de streaming organizado por Confluent, por hacer precisamente eso.
La capacidad de reaccionar a los eventos a medida que suceden es el siguiente paso de la evolución de los datos, y para algunos, ese siguiente paso ya está aquí. Aun así, solo estamos al comienzo de una curva ascendente donde el streaming y la tecnología construida para ello se convierten en la base de la arquitectura de datos de todos.
Ahora, cuando se trata de habilitar análisis escalables de menos de un segundo en datos de transmisión, muchos desarrolladores e innovadores de datos se preguntan ‘¿qué sigue?’
Mientras estábamos en Current, hablamos con cientos de usuarios de Kafka que tenían la misma pregunta.
A pesar de que la adaptación de streaming se está generalizando, la mayoría de las empresas todavía solo tienen uno o dos casos de uso que están utilizando una plataforma de streaming para resolver. Muchas personas en Current hablaron sobre cómo Kafka estaba poniendo sus datos en movimiento de manera efectiva, pero cuando llegó el momento de analizar o usar esos flujos en una aplicación orientada al usuario, sus «datos en movimiento» se convirtieron en «datos en espera» debido a que sus sistemas de análisis estaban diseñados para datos por lotes en lugar de datos de transmisión.
Para remediar esto, se necesitaba una nueva base de datos: ingresa Apache Druid.
Con la capacidad de convertir miles de millones de eventos en flujos que pueden ser consultados inmediatamente por miles de usuarios simultáneamente, Druid, en combinación con procesadores de flujo como Kafka, puede desbloquear un nuevo conjunto de casos de uso para aplicaciones de análisis creadas por desarrolladores.
Tomemos Reddit, por ejemplo. Reddit genera decenas de gigabytes de eventos por hora solo a partir de anuncios presentes en su plataforma. Para permitir a los anunciantes decidir cómo orientar sus gastos y comprender su impacto, Reddit necesitaría habilitar consultas interactivas a lo largo de los últimos seis meses de datos. También necesitarían capacitar a los anunciantes para ver tamaños y grupos de usuarios en tiempo real, ajustándose en función de los intereses y la ubicación, para encontrar cuántos usuarios de Reddit encajan en su grupo demográfico objetivo. Para hacer esto, construyeron una aplicación impulsada por Druid con la capacidad de ingerir datos de Kafka y permitieron a los socios publicitarios de Reddit tomar decisiones en tiempo real que producen el mejor ROI en sus campañas. Debido a su estrecha integración con Kafka y porque Druid fue diseñado para analizar e ingerir datos de transmisión, Reddit eligió Druid como la capa de base de datos de su aplicación. A diferencia de otras bases de datos analíticas que se crean para la ingesta por lotes, esto es lo que distingue a Druid.