Saltar al contenido principal

Pipelines ETL

Los pipelines automatizan importaciones recurrentes de datos desde fuentes externas hacia tu almacén de datos. Configura una conexión una vez, establece un cronograma y tus datos se mantienen actualizados automáticamente.

Crear un Pipeline

  1. Navega a Datos → pestaña Pipelines
  2. Haz clic en + Nuevo Pipeline
  3. Sigue el asistente de 3 pasos

Captura de pantalla mostrando el asistente de creación de pipeline con los 3 pasos indicados en una barra de progreso

Paso 1: Elegir una Conexión

Selecciona una conexión existente o crea una nueva:

Captura de pantalla mostrando el selector de conexiones con íconos de tipos de base de datos

Tipos de Conexión Soportados

FuenteQué NecesitasFuncionalidades
PostgreSQLHost, puerto, base de datos, usuario, contraseñaConsultas SQL completas, explorador de esquema
MySQLHost, puerto, base de datos, usuario, contraseñaConsultas SQL completas, explorador de esquema
SQL ServerHost, puerto, base de datos, usuario, contraseñaConsultas SQL completas, explorador de esquema
Google SheetsID de la hoja de cálculo, nombre de la hoja, rangoActualización automática desde hojas compartidas
SharePoint(próximamente)

Explorador de Esquema (Bases de Datos)

Para conexiones a bases de datos, la plataforma proporciona un explorador visual de esquema:

Captura de pantalla mostrando el explorador de esquema con tablas expandibles y listas de columnas

  • Explora tablas y columnas de forma visual
  • Haz clic en columnas para agregarlas a tu consulta
  • Previsualiza datos antes de configurar el pipeline

Asistente de Configuración con IA

¿No estás seguro de cómo escribir la consulta SQL? Usa el Asistente de IA:

Describe qué datos necesitas en lenguaje natural, y la IA genera la consulta SQL por ti.

Ejemplo: "Obtener todos los pedidos de los últimos 30 días con nombre del cliente, producto y monto total"

Paso 2: Configurar Cronograma

Captura de pantalla mostrando la configuración de cronograma con selector de frecuencia y selector de hora

FrecuenciaOpciones
Cada horaCada N horas
DiarioEjecutar en horario(s) específico(s) — soporta múltiples horarios de ejecución
SemanalElige día(s) de la semana + hora
Cron PersonalizadoIngresa una expresión cron para flexibilidad total

Zona horaria: Todos los cronogramas se ejecutan en tu zona horaria configurada.

Importación Incremental

Para tablas grandes, habilita la importación incremental para obtener solo filas nuevas/actualizadas:

  1. Selecciona una columna de rastreo de cambios (ej., updated_at, id)
  2. Establece el valor inicial (ej., 2024-01-01 o 0)
  3. Cada ejecución obtiene solo las filas donde la columna de rastreo > último valor sincronizado

Esto reduce drásticamente los tiempos de carga y el impacto en la base de datos.

Paso 3: Revisar Columnas

Captura de pantalla mostrando la pantalla de revisión de columnas similar a la revisión de carga de archivos

Misma configuración de columnas que en la carga de archivos:

  • Renombra columnas, cambia tipos, marca PII, establece claves
  • Aplica transformaciones
  • Elige modo de escritura (Agregar / Reemplazar / Fusionar)

Administrar Pipelines

Captura de pantalla de la lista de pipelines mostrando indicadores de estado y botones de acción

Acciones del Pipeline

AcciónDescripción
Ejecutar AhoraActiva una ejecución inmediata
PausarDetiene temporalmente las ejecuciones programadas
ReanudarReactiva las ejecuciones programadas
DetenerCancela una ejecución en curso
Cargar Nueva VersiónCarga un archivo para reemplazar los datos del pipeline
EliminarElimina el pipeline permanentemente

Historial de Ejecución

Cada pipeline muestra su historial de ejecución con:

  • Estado: Éxito ✅, Advertencia ⚠️, Error ❌
  • Hora de inicio y duración
  • Filas ingeridas
  • Detalles del error (si los hay)

Consejos

info

Mejores Prácticas para Pipelines

  1. Usa importación incremental para tablas grandes y minimizar tiempos de carga
  2. Establece nombres significativos para conexiones y pipelines
  3. Prueba tu consulta SQL con el Explorador de Esquema antes de programar
  4. Monitorea la pestaña de Calidad para detectar fallos de ingesta
  5. Usa modo fusionar con columnas clave para comportamiento de upsert