DatabricksSFTPDatenpipelineAutomatisierung

SFTP-Daten automatisch in Databricks importieren – sicher, dedupliziert, vollautomatisch

Wie Unternehmen CSV-Dateien vom SFTP-Server automatisch in Databricks Delta Lake importieren – mit Duplikatschutz, Fehler-Routing und Notebook-Steuerung.

SFTP überwacht

Neue Dateien erkannt

Duplikat-Prüfung

MD5-Hash

Notebook-Routing

Automatisch zugeordnet

Delta Lake Import

Bronze Layer

Tracking-Tabelle

Status & Zeitstempel

SFTP-Daten automatisch in Databricks importieren

Viele Unternehmen liefern Daten noch per SFTP. CSV-Dateien, regelmäßig abgelegt, nach einem festen Schema. Das Problem: Databricks kann SFTP nicht nativ beobachten. Ohne Automatisierung sitzt jemand täglich am Schreibtisch und importiert manuell.

Das geht besser.

Das Problem vorher

Ein Betrieb bekam täglich Datendateien von externen Partnern per SFTP geliefert. Verschiedene Dateiarten, verschiedene Zuständigkeiten, verschiedene Notebooks in Databricks. Importiert wurde manuell – mit allen Risiken: vergessene Dateien, doppelte Importe, falsch zugeordnete Datensätze.

Der automatisierte Prozessablauf

Schritt 1 – SFTP-Überwachung Ein automatisierter Job überwacht den SFTP-Server und erkennt neue Dateien zuverlässig.

Schritt 2 – Duplikat-Schutz via Hash Jede Datei bekommt einen eindeutigen Fingerabdruck. Bereits verarbeitete Dateien werden übersprungen – auch wenn der Dateiname identisch ist, der Inhalt aber geändert wurde.

Schritt 3 – Automatisches Notebook-Routing Anhand des Dateinamens oder Dateityps wird automatisch das richtige Databricks-Notebook ausgewählt. Jede Datei landet genau dort, wo sie hingehört.

Schritt 4 – Import in Delta Lake Die Daten werden in die Bronze-Schicht importiert und von dort weiterverarbeitet. Vollständige Nachvollziehbarkeit, keine Datenverluste.

Schritt 5 – Tracking-Tabelle Jeder Import wird protokolliert: Dateiname, Zeitstempel, Status, verarbeitende Einheit. Fehler sind sofort sichtbar.

Das Ergebnis

Der manuelle SFTP-Import ist Geschichte. Neue Dateien werden automatisch erkannt, geprüft, zugeordnet und importiert. Das Team arbeitet morgens mit frischen Daten – ohne einen Handgriff.

Eingesetzt: n8n, Databricks, Delta Lake, Python, MD5-Hashing, Bronze-Silver-Gold-Architektur.

Du bekommst regelmäßig Dateien, die irgendwie in dein System müssen? Ich baue die Pipeline.

→ Kostenloses Erstgespräch buchen

Klingt nach deinem Problem?

Kurze Nachricht genügt – ich melde mich innerhalb von 24 Stunden.

Direkt Termin buchen

SFTP-Daten automatisch in Databricks importieren – sicher, dedupliziert, vollautomatisch

SFTP-Daten automatisch in Databricks importieren

Das Problem vorher

Der automatisierte Prozessablauf

Das Ergebnis

Verwandte Themen