Pular para o conteúdo principal

Pipelines ETL

Os Pipelines automatizam importações recorrentes de dados de fontes externas para o seu armazém de dados. Configure uma conexão uma vez, defina um agendamento e seus dados se mantêm atualizados automaticamente.

Criando um Pipeline

  1. Navegue até Dados → aba Pipelines
  2. Clique em + Novo Pipeline
  3. Siga o assistente de 3 etapas

Captura de tela mostrando o assistente de criação de pipeline com as 3 etapas indicadas na barra de progresso

Etapa 1: Escolha uma Conexão

Selecione uma conexão existente ou crie uma nova:

Captura de tela mostrando o seletor de conexão com ícones dos tipos de banco de dados

Tipos de Conexão Suportados

FonteO Que Você PrecisaFuncionalidades
PostgreSQLHost, porta, banco de dados, usuário, senhaConsultas SQL completas, navegador de schema
MySQLHost, porta, banco de dados, usuário, senhaConsultas SQL completas, navegador de schema
SQL ServerHost, porta, banco de dados, usuário, senhaConsultas SQL completas, navegador de schema
Google SheetsID da planilha, nome da aba, intervaloAtualização automática de planilhas compartilhadas
SharePoint(em breve)

Para conexões de banco de dados, a plataforma fornece um navegador visual de schema:

Captura de tela mostrando o navegador de schema com tabelas expansíveis e listas de colunas

  • Navegue pelas tabelas e colunas visualmente
  • Clique nas colunas para adicioná-las à sua consulta
  • Pré-visualize os dados antes de configurar o pipeline

Assistente de Configuração com IA

Não sabe como escrever a consulta SQL? Use o Assistente de IA:

Descreva quais dados você deseja em linguagem natural, e a IA gera a consulta SQL para você.

Exemplo: "Buscar todos os pedidos dos últimos 30 dias com nome do cliente, produto e valor total"

Etapa 2: Configurar Agendamento

Captura de tela mostrando a configuração de agendamento com seletor de frequência e seletor de horário

FrequênciaOpções
Por horaA cada N horas
DiárioExecutar em horário(s) específico(s) — suporta múltiplos horários de execução
SemanalEscolha dia(s) da semana + horário
Cron PersonalizadoInsira uma expressão cron para total flexibilidade

Fuso horário: Todos os agendamentos são executados no fuso horário configurado.

Importação Incremental

Para tabelas grandes, habilite a importação incremental para buscar apenas linhas novas/atualizadas:

  1. Selecione uma coluna de rastreamento de mudanças (ex.: updated_at, id)
  2. Defina o valor inicial (ex.: 2024-01-01 ou 0)
  3. Cada execução busca apenas linhas onde a coluna de rastreamento > último valor sincronizado

Isso reduz drasticamente os tempos de carregamento e o impacto no banco de dados.

Etapa 3: Revisar Colunas

Captura de tela mostrando a tela de revisão de colunas similar à revisão de upload de arquivo

Mesma configuração de colunas do upload de arquivo:

  • Renomear colunas, alterar tipos, marcar PII, definir chaves
  • Aplicar transformações
  • Escolher modo de escrita (Append / Replace / Merge)

Gerenciando Pipelines

Captura de tela da lista de pipelines mostrando indicadores de status e botões de ação

Ações do Pipeline

AçãoDescrição
Executar AgoraDispara uma execução imediata
PausarInterrompe temporariamente as execuções agendadas
RetomarReativa as execuções agendadas
PararCancela uma execução em andamento
Enviar Nova VersãoFaça upload de um arquivo para substituir os dados do pipeline
ExcluirRemove o pipeline permanentemente

Histórico de Execução

Cada pipeline exibe seu histórico de execução com:

  • Status: Sucesso ✅, Aviso ⚠️, Erro ❌
  • Hora de início e duração
  • Linhas ingeridas
  • Detalhes do erro (se houver)

Dicas

info

Boas Práticas para Pipelines

  1. Use importação incremental para tabelas grandes para minimizar tempos de carregamento
  2. Defina nomes significativos para conexões e pipelines
  3. Teste sua consulta SQL com o Navegador de Schema antes de agendar
  4. Monitore a aba Qualidade para falhas de ingestão
  5. Use o modo merge com colunas-chave para comportamento de upsert