2023 é o ano para transmitir e pensar grande

2023 é o ano para transmitir e pensar grande

O tempo real é ideal para que as equipes de dados adotem uma perspectiva nativa de streaming para a arquitetura analítica, diz Julia Brouillette, tecnóloga sênior da Imply

Julia Brouillette, tecnóloga sênior da Imply

Em 2022, começamos a ver o streaming de dados finalmente recebendo o reconhecimento que merece. O que antes era considerado um elemento de nicho da engenharia de dados agora se tornou o status quo. Todos os principais provedores de nuvem (Google Cloud Platform, Microsoft Azure e AWS) lançaram seu próprio serviço de streaming e mais de 80% das empresas da Fortune 100 adotaram o Apache Kafka.

Liderando essa mudança está a crescente necessidade de confiabilidade, entrega rápida e a capacidade de oferecer suporte a uma ampla variedade de aplicativos externos e internos em escala. Isso continua a ser exemplificado pelo crescente número de casos de uso que dependem de atualizações em subsegundos, o que aumenta a aposta para o processamento e disseminação de dados em tempo real. Dito isso, não há dúvida de que a tecnologia de streaming terá um crescimento contínuo em 2023.

À medida que o streaming se aproxima da onipresença, há outra mudança ocorrendo, especificamente na maneira como as empresas usam os dados. Os eventos estão sendo analisados à medida que são criados para coletar insights em tempo real. Com as ferramentas certas, as empresas podem comparar instantaneamente o que está acontecendo agora com o que aconteceu anteriormente, tomar decisões urgentes em um instante e triar problemas à medida que ocorrem.

Com o aumento dos fluxos de dados, surge um novo conjunto de requisitos e casos de uso para análise em tempo real. Para liberar totalmente o poder do streaming em 2023, as equipes de dados precisarão olhar além da pilha tradicional orientada a lotes e adotar uma perspectiva nativa de streaming para a arquitetura analítica.

Quando você olha para as operações de negócios, historicamente vivemos em um mundo de dados dominante em lote. O objetivo final da infraestrutura de dados era identificar os dados em um momento fixo no tempo e armazená-los para uso eventual. Mas na evolução dos mainframes que usavam operações diárias em lote para o mundo sempre ativo e orientado para a Internet de hoje, o que antes era “dados em repouso” é substituído por dados velozes em movimento. Com o streaming, as informações fluem livremente entre aplicativos e sistemas de dados dentro e entre as organizações.

Embora os “dados em repouso” ainda existam e continuem a oferecer suporte a vários casos de uso de relatórios, a realidade não é fixa. Para atender à necessidade de experiências de dados perfeitas e autênticas, os sistemas que construímos devem ser projetados para dados em movimento.

Com o aumento da popularidade da tecnologia de streaming, surge também uma nova maneira de pensar em relação aos dados. As plataformas de streaming tornaram-se o hub central de dados para as organizações, conectando todas as funções e conduzindo operações críticas. Processadores de fluxo e bancos de dados de eventos são tecnologias em evolução que são desenvolvidas especificamente para suportar e lidar com sistemas de dados em movimento.

Como um banco de dados em tempo real, o Apache Druid se encaixa na categoria de propósito específico. Ele foi projetado para permitir que os usuários consultem eventos à medida que se juntam ao fluxo de dados em uma escala imensa, ao mesmo tempo em que permitem consultas de subsegundos em uma mistura de dados em lote e fluxo.

Muitas empresas já estão usando processadores de streaming como Amazon Kinesis e Kafka com Druid para criar sistemas de ponta que tornam terabytes de dados de streaming acessíveis a pessoas e aplicativos em milissegundos. Reddit, Citrix e Expedia foram algumas das empresas destacadas no Current 2022, o evento anual de streaming organizado pela Confluent, por fazer exatamente isso.

A capacidade de reagir a eventos conforme eles estão acontecendo é a próxima etapa da evolução dos dados e, para alguns, essa próxima etapa já está aqui. Mesmo assim, estamos apenas no início de uma curva ascendente em que o streaming e a tecnologia criada para ele se tornam a base da arquitetura de dados de todos.

Agora, quando se trata de permitir análises escaláveis de subsegundos em dados de streaming, muitos desenvolvedores e inovadores de dados estão se perguntando “o que vem a seguir?” Enquanto estávamos na Current, conversamos com centenas de usuários do Kafka que tinham a mesma dúvida.

Embora a adaptação ao streaming esteja se tornando mais difundida, a maioria das empresas ainda tem apenas um ou dois casos de uso que estão usando uma plataforma de streaming para resolver. Muitas pessoas na Current falaram sobre como o Kafka estava efetivamente colocando seus dados em movimento, mas quando chegou a hora de analisar ou usar esses fluxos em um aplicativo voltado para o usuário, seus “dados em movimento” tornaram-se “dados em espera” devido à sua análise sistemas sendo projetados para dados em lote em vez de dados de streaming. Para remediar isso, era necessário um novo banco de dados – digite Apache Druid.

Com a capacidade de transformar bilhões de eventos em fluxos que podem ser imediatamente consultados por milhares de usuários simultaneamente, o Druid, em combinação com processadores de fluxo como o Kafka, pode desbloquear um novo conjunto de casos de uso para aplicativos analíticos criados por desenvolvedores.

Veja o Reddit, por exemplo. O Reddit gera dezenas de gigabytes de eventos por hora apenas a partir de anúncios presentes em sua plataforma. Para permitir que os anunciantes decidam como direcionar seus gastos e entender seu impacto, o Reddit precisaria permitir consultas interativas nos últimos seis meses de dados. Eles também precisariam capacitar os anunciantes para ver tamanhos e grupos de usuários em tempo real, ajustando com base em interesses e localização, para descobrir quantos usuários do Reddit se encaixam em seu público-alvo. Para fazer isso, eles criaram um aplicativo desenvolvido pelo Druid com a capacidade de ingerir dados do Kafka e permitiram que os parceiros de anúncios do Reddit tomassem decisões em tempo real que gerassem o melhor ROI em suas campanhas.

Devido à sua estreita integração com o Kafka e porque o Druid foi projetado para analisar e ingerir dados de streaming, o Reddit escolheu o Druid como a camada de banco de dados de seu aplicativo. Ao contrário de outros bancos de dados analíticos criados para ingestão em lote, é isso que diferencia o Druid.

Navegue por nossa
última edição

LATAM Portuguese

Veja todas as edições