SFTP-Daten automatisch in Databricks importieren – sicher, dedupliziert, vollautomatisch
Wie Unternehmen CSV-Dateien vom SFTP-Server automatisch in Databricks Delta Lake importieren – mit Duplikatschutz, Fehler-Routing und Notebook-Steuerung.
SFTP überwacht
Neue Dateien erkannt
Duplikat-Prüfung
MD5-Hash
Notebook-Routing
Automatisch zugeordnet
Delta Lake Import
Bronze Layer
Tracking-Tabelle
Status & Zeitstempel
SFTP-Daten automatisch in Databricks importieren
Viele Unternehmen liefern Daten noch per SFTP. CSV-Dateien, regelmäßig abgelegt, nach einem festen Schema. Das Problem: Databricks kann SFTP nicht nativ beobachten. Ohne Automatisierung sitzt jemand täglich am Schreibtisch und importiert manuell.
Das geht besser.
Das Problem vorher
Ein Betrieb bekam täglich Datendateien von externen Partnern per SFTP geliefert. Verschiedene Dateiarten, verschiedene Zuständigkeiten, verschiedene Notebooks in Databricks. Importiert wurde manuell – mit allen Risiken: vergessene Dateien, doppelte Importe, falsch zugeordnete Datensätze.
Der automatisierte Prozessablauf
Schritt 1 – SFTP-Überwachung Ein automatisierter Job überwacht den SFTP-Server und erkennt neue Dateien zuverlässig.
Schritt 2 – Duplikat-Schutz via Hash Jede Datei bekommt einen eindeutigen Fingerabdruck. Bereits verarbeitete Dateien werden übersprungen – auch wenn der Dateiname identisch ist, der Inhalt aber geändert wurde.
Schritt 3 – Automatisches Notebook-Routing Anhand des Dateinamens oder Dateityps wird automatisch das richtige Databricks-Notebook ausgewählt. Jede Datei landet genau dort, wo sie hingehört.
Schritt 4 – Import in Delta Lake Die Daten werden in die Bronze-Schicht importiert und von dort weiterverarbeitet. Vollständige Nachvollziehbarkeit, keine Datenverluste.
Schritt 5 – Tracking-Tabelle Jeder Import wird protokolliert: Dateiname, Zeitstempel, Status, verarbeitende Einheit. Fehler sind sofort sichtbar.
Das Ergebnis
Der manuelle SFTP-Import ist Geschichte. Neue Dateien werden automatisch erkannt, geprüft, zugeordnet und importiert. Das Team arbeitet morgens mit frischen Daten – ohne einen Handgriff.
Eingesetzt: n8n, Databricks, Delta Lake, Python, MD5-Hashing, Bronze-Silver-Gold-Architektur.
Du bekommst regelmäßig Dateien, die irgendwie in dein System müssen? Ich baue die Pipeline.
→ Kostenloses Erstgespräch buchen
Verwandte Themen: Legacy-Systeme anbinden · Datenpipeline für den Mittelstand · Fehler-Monitoring für Workflows
Klingt nach deinem Problem?
Kurze Nachricht genügt – ich melde mich innerhalb von 24 Stunden.
Direkt Termin buchen