Pipelines ETL
Os Pipelines automatizam importações recorrentes de dados de fontes externas para o seu armazém de dados. Configure uma conexão uma vez, defina um agendamento e seus dados se mantêm atualizados automaticamente.
Criando um Pipeline
- Navegue até Dados → aba Pipelines
- Clique em + Novo Pipeline
- Siga o assistente de 3 etapas

Etapa 1: Escolha uma Conexão
Selecione uma conexão existente ou crie uma nova:

Tipos de Conexão Suportados
| Fonte | O Que Você Precisa | Funcionalidades |
|---|---|---|
| PostgreSQL | Host, porta, banco de dados, usuário, senha | Consultas SQL completas, navegador de schema |
| MySQL | Host, porta, banco de dados, usuário, senha | Consultas SQL completas, navegador de schema |
| SQL Server | Host, porta, banco de dados, usuário, senha | Consultas SQL completas, navegador de schema |
| Google Sheets | ID da planilha, nome da aba, intervalo | Atualização automática de planilhas compartilhadas |
| SharePoint | (em breve) | — |
Navegador de Schema (Bancos de Dados)
Para conexões de banco de dados, a plataforma fornece um navegador visual de schema:

- Navegue pelas tabelas e colunas visualmente
- Clique nas colunas para adicioná-las à sua consulta
- Pré-visualize os dados antes de configurar o pipeline
Assistente de Configuração com IA
Não sabe como escrever a consulta SQL? Use o Assistente de IA:
Descreva quais dados você deseja em linguagem natural, e a IA gera a consulta SQL para você.
Exemplo: "Buscar todos os pedidos dos últimos 30 dias com nome do cliente, produto e valor total"
Etapa 2: Configurar Agendamento

| Frequência | Opções |
|---|---|
| Por hora | A cada N horas |
| Diário | Executar em horário(s) específico(s) — suporta múltiplos horários de execução |
| Semanal | Escolha dia(s) da semana + horário |
| Cron Personalizado | Insira uma expressão cron para total flexibilidade |
Fuso horário: Todos os agendamentos são executados no fuso horário configurado.
Importação Incremental
Para tabelas grandes, habilite a importação incremental para buscar apenas linhas novas/atualizadas:
- Selecione uma coluna de rastreamento de mudanças (ex.:
updated_at,id) - Defina o valor inicial (ex.:
2024-01-01ou0) - Cada execução busca apenas linhas onde a coluna de rastreamento > último valor sincronizado
Isso reduz drasticamente os tempos de carregamento e o impacto no banco de dados.
Etapa 3: Revisar Colunas

Mesma configuração de colunas do upload de arquivo:
- Renomear colunas, alterar tipos, marcar PII, definir chaves
- Aplicar transformações
- Escolher modo de escrita (Append / Replace / Merge)
Gerenciando Pipelines

Ações do Pipeline
| Ação | Descrição |
|---|---|
| Executar Agora | Dispara uma execução imediata |
| Pausar | Interrompe temporariamente as execuções agendadas |
| Retomar | Reativa as execuções agendadas |
| Parar | Cancela uma execução em andamento |
| Enviar Nova Versão | Faça upload de um arquivo para substituir os dados do pipeline |
| Excluir | Remove o pipeline permanentemente |
Histórico de Execução
Cada pipeline exibe seu histórico de execução com:
- Status: Sucesso ✅, Aviso ⚠️, Erro ❌
- Hora de início e duração
- Linhas ingeridas
- Detalhes do erro (se houver)
Dicas
Boas Práticas para Pipelines
- Use importação incremental para tabelas grandes para minimizar tempos de carregamento
- Defina nomes significativos para conexões e pipelines
- Teste sua consulta SQL com o Navegador de Schema antes de agendar
- Monitore a aba Qualidade para falhas de ingestão
- Use o modo merge com colunas-chave para comportamento de upsert