Pular para o conteúdo principal

Engenheiro de Dados Sênior

Descrição da vaga

A Leega é uma empresa focada no atendimento eficiente e inovador em seus clientes. 

Isso não poderia ser diferente com o nosso principal combustível: as pessoas!  

Nossa cultura é inspiradora e nossos valores estão presentes no dia a dia: ética e transparência, excelência de qualidade, trabalho em equipe, responsabilidade econômica, social e ambiental, relações humanas e credibilidade.

Buscamos profissionais inovadores que sejam movidos por desafios e focados em resultados.

Se você busca uma empresa dinâmica e parceira e que investe em seus colaboradores através de capacitação constante, a Leega é o lugar para você!

>> A LEEGA É PARA TODOS, ficaremos muito felizes em ter você em nosso time. Venha fazer parte da nossa história e da construção do nosso futuro. 

Cadastre-se agora mesmo em nossas vagas!

Responsabilidades e atribuições

Sobre a oportunidade

Você vai arquitetar e evoluir o datalake que é o sistema nervoso de dados da companhia — a fundação que alimenta, em tempo real, o motor de precificação dinâmica, os modelos de ML e a inteligência comercial do grupo. É um papel de dono: você define a arquitetura Lakehouse multi-tenant, do streaming à camada semântica, e responde pela sua confiabilidade, governança e custo. 


Seus Desafios 

Arquitetura Lakehouse — desenhar e evoluir o data lake em Apache Iceberg sobre S3 — camadas bem definidas, particionamento e compaction, time-travel e suporte a DELETE/UPDATE para a LGPD. 

Streaming e CDC — construir ingestão em tempo real (Kafka, Flink, CDC com Debezium) com evolução de schema controlada (Schema Registry) e garantias de entrega. 

Transformação e orquestração — modelar a camada de transformação em dbt e orquestrar fluxos batch e de qualidade em Airflow, do crawler ao backfill. 

Camada semântica — manter as definições de métricas em Cube.js — a fonte única que alimenta o BI e os agentes de IA e garante consistência em toda a empresa. 

Acesso e performance — operar consulta federada e OLAP de baixa latência sobre o lake, com isolamento de custo e acesso por tenant e queries performáticas. 

Qualidade, linhagem e FinOps — assegurar testes de dados, lineage e eficiência de custo, mantendo a plataforma confiável à medida que escala. 


Você trabalha lado a lado com cientistas de dados, ML engineers e as áreas de negócio.

Requisitos e qualificações

Stack & Ferramentas 

  • Lakehouse & storage: Apache Iceberg, Amazon S3, Athena + Glue (Trino + Hive na evolução) 
  • Streaming & ingestão: Kafka (MSK), Apache Flink, Debezium (CDC), Schema Registry
  • Transformação & orquestração: dbt, Apache Airflow 
  • Semantic layer & OLAP: Cube.js, ClickHouse, Apache Pinot, Trino 
  • Governança & qualidade: OpenMetadata, Lake Formation, Great Expectations
  • Infra & dev: EKS/Kubernetes, ArgoCD, Crossplane, GitHub, Claude Code 

O que Buscamos 

Essenciais 

• Domínio de SQL e otimização de queries em ambientes distribuídos (Mínimo 5 anos).

• Python com experiência sólida em PySpark ou processamento distribuído.

• Orquestração (Airflow), ELT e dbt aplicados em larga escala (Mínimo 4 anos)

• Streaming (Kafka, Flink) e arquiteturas Lakehouse com Apache Iceberg (Mínimo 3 anos).

• Sólida noção de governança, qualidade e modelagem de dados. 

• Conforto com desenvolvimento assistido por IA (Claude Code). 


Diferenciais 

• CDC (Debezium) e OLAP de baixa latência (ClickHouse, Pinot, Trino/Athena).

• Semantic Layers (Cube.js, dbt) e arquiteturas Data Mesh.

• Governança e catálogo (OpenMetadata, Lake Formation). 

• Vector databases (Qdrant) e pipelines de dados para ML. 


Informações adicionais

Trabalho Remoto

Tempo de Projeto: 6 meses, com possibilidade de extensão/internalização.

Etapas do processo

  1. Etapa 1: Cadastro
  2. Etapa 2: Teste Coploy
  3. Etapa 3: Avaliação de Perfil
  4. Etapa 4: Entrevista Gestor
  5. Etapa 5: Entrevista Cliente
  6. Etapa 6: Contratação

Onde a inteligência humana amplifica o poder dos dados

Na Leega, não entregamos apenas linhas de código ou dashboards. Transformamos desafios tecnológicos complexos em impacto real. Com mais de 15 anos de estrada, unimos a profundidade da experiência humana à velocidade da Inteligência Artificial para criar soluções que mudam negócios e, acima de tudo, melhoram a vida das pessoas.

Somos uma consultoria de tecnologia, agnóstica e estratégica. Com escritórios no Brasil e na Europa, nosso time de mais de 580 talentos multidisciplinares vive e respira o ecossistema de Data Analytics, Cloud e IA. Dominamos a base, da Governança à Engenharia, para garantir que a tecnologia não seja apenas uma ferramenta, mas uma vantagem competitiva sustentável para os maiores players do mercado.