Descrição:
Como será seu dia a dia:
• Montar o fluxo de dados que alimenta as aplicações e o Datalake do time;
• Criar pipelines de dados extraídos de diversas fontes em diversos formatos;
• Transformar dados e preparar as bases em um formato que possibilite ao Cientista de Dados desenvolver suas demandas;
• Manter toda a infraestrutura dos pipelines em execução para que os dados coletados sejam disponibilizados no tempo adequado e com o nível de qualidade e segurança desejados.
O que buscamos em você:
• Experiência em construção de arquitetura e fluxo de ingestão de dados, para armazenamento de dados estruturados e semi-estruturados;
• Experiência com pipelines de dados (streaming e batch) e processos de ETL complexos;
• Experiência com modelagem de dados;
• Experiência com implementação e manutenção de Data Lakes;
• Proficiência em pelo menos uma linguagem de programação, preferencia em Python;
• Proficiência em linguagem SQL;
• Conhecimentos em Arquitetura Cloud;
• Conhecimento sobre Governança de Dados e LGPD;
• Experiência com bases de dados NoSQL.
Outros requisitos:
Será um diferencial
• Experiência com ferramentas de orquestração de fluxo de dados;
• Experiência com AWS;
• Conhecimento dos conceitos e tecnologias de Big Data e sistemas distribuídos;
• Ter mindset ágil (Scrum ou Kanban).
Local de trabalho
A nossa forma de trabalho é 100% remota, mas, sempre que precisar, você poderá utilizar nossa sala do co-working com agendamento prévio, que fica localizada na região da Berrini - São Paulo