Data & AI Summit 2025: Themen für Data Engineers im Überblick

Data & AI Summit 2025: Themen für Data Engineers im Überblick

Warum der Data & AI Summit für Data Engineers relevant ist

Im Juni 2025 steht der Data & AI Summit erneut im Fokus vieler Fachleute aus den Bereichen Datenanalyse, Data Engineering und künstliche Intelligenz. Die Konferenz bringt aktuelle Entwicklungen, Werkzeuge und erprobte Methoden rund um den Aufbau moderner Datenplattformen zusammen. Data Engineers erhalten hier die Möglichkeit, sich in einem internationalen Umfeld mit praxiserprobten Konzepten und der strategischen Ausrichtung auf moderne Datenarchitekturen auseinanderzusetzen. Das Event gilt als wichtiger Impulsgeber für all jene, die den technologischen Wandel aktiv begleiten möchten.

Im kommenden Jahr verlagert sich die Diskussion auf die Integration von Künstlicher Intelligenz in Datenpipelines, Automatisierung sowie auf Sicherheit und Governance im Umgang mit Daten. Anders als in der Vergangenheit stehen klassische ETL-Prozesse und Big-Data-Lösungen weniger im Vordergrund. Themen wie Data Lakehouse, produktiver Einsatz von Large Language Models (LLMs) und automatisierte Datenqualitätsprüfungen prägen zunehmend die Programmpunkte. Data Engineers erfahren vor Ort, wie sich diese Modelle konkret in bestehende Tech-Stacks integrieren lassen.

Schwerpunkte und Trends auf dem Data & AI Summit 2025

Das Programm des Summits spiegelt zentrale Branchentrends wider. Im Zentrum steht die Verbindung etablierter Data-Engineering-Konzepte mit neuartigen, KI-gestützten Prozessen. Unternehmen wie Databricks und Snowflake präsentieren Fortschritte in Lakehouse-Architekturen, die sowohl strukturierte als auch unstrukturierte Daten in einer einheitlichen Umgebung zusammenführen. In der Praxis sind Batch- und Streaming-Workflows Standard geworden. Zahlreiche Sessions und Workshops legen ihren Fokus auf die Verschmelzung von Data Lakes und Warehouses – eine Grenze, die im Alltag vieler Projekte längst verschwimmt.

Einen besonderen Schwerpunkt bildet Delta Lake sowie konkurrierende Technologien wie Apache Iceberg oder Hudi. Im Rahmen von Best Practices lernen Data Engineers, wie sich Datenqualität, Versionierung und Transaktionssicherheit in Data Pipelines dauerhaft gewährleisten lassen. Ein typisches Praxisbeispiel: Streaming-Daten aus IoT-Anwendungen werden mittels Delta Lake gespeichert, verarbeitet und für Machine-Learning-Zwecke bereitgestellt. Branchenführende Unternehmen demonstrieren, wie sie dabei täglich Milliarden von Ereignissen in nahezu Echtzeit überwachen. Produktionsszenarien vermitteln, wie Sensorwerte aus Fertigungsstraßen kontinuierlich erfasst und durch KI-basierte Anomalieerkennung analysiert werden – Abweichungen lassen sich so frühzeitig erkennen und Prozesse sichern.

Weiterentwicklungen im Bereich Feature Stores, DataOps-Plattformen und Self-Service-BI gewinnen gleichermaßen an Bedeutung. Data Engineers stehen vor der Aufgabe, effektive Schnittstellen zwischen Datenquellen und KI-basierten Anwendungen zu schaffen. Durch modulare, skalierbare Architekturansätze entstehen Plattformen, die diese Anforderungen unterstützen. Darüber hinaus zeigen Praxisbeispiele, wie optimierte Datenlayouts und fortschrittliche Caching-Strategien zur Reduzierung von Infrastrukturkosten beitragen können.

Best Practices für effiziente Data Pipelines

Im Fokus des Summits stehen nicht nur technologische Trends, sondern vor allem konkrete Lösungswege für den Arbeitsalltag von Data Engineers. Anwenderorientierte Workshops und Live-Demonstrationen machen transparent, welche praxiserprobten Methoden weltweit führende Unternehmen heute implementieren. Besonders nachgefragt sind Ansätze zur Automatisierung von Data Workflows mit orchestrierten Pipelines in Apache Airflow, DAGster oder Databricks Workflows. In Anwendungen wird gezeigt, wie sogenannte Self-Healing-Pipelines automatisiert auf Fehler reagieren und entsprechende Reports erzeugen.

Ein bewährter Ansatz sieht vor, für jede Pipeline CI/CD-Prozesse zu etablieren, die automatisiert Prüfungen auf Datenqualität und Performance durchführen. Im Folgenden ein Beispiel, wie solche Tests in PySpark erfolgen können:

from pyspark.sql.functions import col

def check_nulls(df, columns):
    for c in columns:
        if df.filter(col(c).isNull()).count() > 0:
            raise ValueError(f'Null values found in column {c}')

Solche Prüfmechanismen werden als Jobs direkt in die CI/CD-Pipeline integriert, beispielsweise durch GitHub Actions oder Jenkins. Der Data & AI Summit beleuchtet Anwendungen, wie Unternehmen Open-Source-Frameworks wie Great Expectations einsetzen, um automatisierte Data Contracts zu etablieren. So wird Data Drift schnell erkannt und an Entwickler gemeldet, wodurch qualitativ hochwertige Datengrundlagen sichergestellt werden.

Die Bedeutung von Infrastructure-as-Code (IaC) nimmt in diesem Kontext weiter zu. Tools wie Terraform oder Databricks-CLI ermöglichen es, komplette Dateninfrastrukturen per Skript reproduzierbar bereitzustellen und konsistent über verschiedene Umgebungen zu verwalten. Erfahrungsberichte auf dem Summit zeigen, wie Unternehmen durch den gezielten Einsatz von IaC die Einführung komplexer Machine-Learning-Pipelines deutlich beschleunigen.

Data Security, Observability und Governance: Herausforderungen und Lösungen

Mit modernen, breit angelegten Datenplattformen steigen die Anforderungen an Sicherheit, Compliance und die Überwachung von Prozessen. Gerade Panels und Deep-Dive-Talks zu Datensicherheit zählen zu den meistbesuchten Formatpunkten auf dem Data & AI Summit. Hier thematisieren Experten praxisnah, wie Data Lakes wirkungsvoll abgesichert werden. Es werden Techniken wie rollenbasierte Zugriffskontrolle, feingranulare Richtlinien und Datenmaskierung vorgestellt. Detaillierte Lösungsszenarien erläutern den Mehrwert von Tools wie Unity Catalog oder Open Policy Agent, insbesondere im Kontext vielschichtiger Cloud-Umgebungen.

Im Bereich Finance demonstrieren Unternehmen, wie sie sensible Kundendaten über den Unity Catalog in Databricks per SQL-basierten Zugriffspolicies absichern. Metadatenmanagement erfolgt dabei prüf- und revisionssicher, während Datenzugriffe kontinuierlich protokolliert werden. Die Anbindung an SIEM-Systeme sichert eine umfassende Auditfähigkeit, ohne die tägliche Arbeit der Data Engineers unnötig zu erschweren. Besonders eindrucksvoll sind Live-Demonstrationen zur KI-gestützten Erkennung von Zugriffsanomalien.

Observability in Data Pipelines

Für die Überwachung von Datenpipelines kommen zunehmend spezialisierte Werkzeuge wie Monte Carlo, Databand oder OpenLineage zum Einsatz. Detaillierte Reports geben Auskunft über den Zustand aller Datenflüsse, Probleme werden erfasst und lassen sich – im besten Fall – sogar proaktiv minimieren. Teilnehmende erfahren in praxisorientierten Sessions, wie sich Data Observability als integraler Bestandteil implementieren lässt. Vorgeschlagen wird beispielsweise, Business-Metriken direkt aus Rohdaten zu generieren und fortlaufend auszuwerten – ein Verfahren, das viele Data Engineers inzwischen fest im Methodenset etabliert haben.

AI-Integration und praktische LLM-Szenarien für Data Engineers

Mit der wachsenden Reife generativer KI-Technologien verändern sich auch das Aufgabenfeld und die täglichen Prozesse im Data Engineering. LLMs unterstützen nicht nur bei der automatischen Extraktion und Analyse von Metadaten, sondern ermöglichen es, komplexe Abfragen in natürlicher Sprache auszuführen. In einer beispielhaften Anwendung integriert ein Data Engineer ein LLM-basiertes Analysemodul, das Power-Usern ermöglicht, mittels Chatbot SQL-Queries als natürliche Sprache in ein Data Lakehouse-System einzubringen. Die Ergebnisse erscheinen unmittelbar als DataFrame-Visualisierung – eine enorme Vereinfachung für die Nutzer.

Ein weiteres Praxisbeispiel veranschaulicht die vollautomatisierte Anonymisierung personenbezogener Daten. Mittels LLM werden Dummy-Datasets analysiert, Namen, Adressen und Bankdaten erkannt, klassifiziert und vor dem nächsten Prozessschritt anonymisiert:

import openai

def anonymize(text):
    response = openai.ChatCompletion.create(
        model="gpt-4",
        messages=[{"role": "user", "content": f"Anonymisiere folgende Daten: {text}"}]
    )
    return response.choices[0].message['content']

Gleichzeitig wird die Generierung spezifischer Data Quality Rules durch LLMs vereinfacht: Analystinnen und Analysten formulieren Regeln, wie z.B. „Werte im Feld 'Revenue' dürfen nicht negativ sein“, der benötigte Prüf-Code wird automatisch erzeugt und in Spark- oder SQL-Tests integriert. Dieser Ansatz wird auf dem Gipfel als wegweisender Blueprint für produktive DataOps-Prozesse vorgestellt.

Empfehlungen für den Besuch und Ausblick auf die Datenzukunft

Teilnehmende Data Engineers profitieren besonders vom praxisorientierten Aufbau des Summits: Hands-on-Workshops, Deep Dives und zahlreiche Networking-Gelegenheiten prägen die Veranstaltung. Der Austausch mit internationalen Fachkollegen eröffnet wertvolle Einblicke in reale Produktionsumgebungen und ermöglicht, aus erprobten Best Practices und Fehlerquellen zu lernen. Empfehlenswert ist eine gezielte Auswahl relevanter Sessions – beispielsweise zu Streaming, AI, Security und Observability – sowie ausreichend Raum für den informellen Austausch einzuplanen.

Sowohl Einsteiger als auch Profis ziehen Nutzen aus dem vielfältigen Programm: Während weniger erfahrene Teilnehmende bewährte Architekturvorlagen kennenlernen, erhalten erfahrene Data Engineers Gelegenheit, architekturelle Entwurfsmuster zu diskutieren, bestehende Implementierungen gezielt zu verbessern und die neuesten Open-Source-Tools in konkrete Prototypen zu überführen.

Der Blick in die Zukunft zeigt: Data Engineering als Disziplin entwickelt sich kontinuierlich weiter. Automatisierung durch KI, Self-Service-Plattformen und robuste DataOps-Strukturen werden zunehmend zur Selbstverständlichkeit. Der Data & AI Summit 2025 illustriert die Richtung, in die sich die Branche bewegt – und vermittelt, mit welchen Kompetenzen Data Engineers die Gestaltung moderner Datenplattformen nachhaltig prägen können.