Big Data-Analyse mit PySpark - Skalierbare Datenverarbeitung auf dem Cluster
(2-tägiger iX-Workshop)
Apache Spark ist als Distributed Computing Engine fester Bestandteil vieler aktueller Big Data-Plattformen und -Strategien. Spark ermöglicht es Workflows der Datenanalyse durch die parallelisierte Ausführung auf einem Cluster beliebig zu skalieren. Dazu zählen Lösungen für die Verarbeitung von Textdaten, tabellarische Daten, Graph-Datensätze, Streaming-Anwendungen sowie Machine Learning-Algorithmen. Die PySpark-API verbindet die Spark Engine mit der Python-Welt.
Dieser zweitägige Intensivkurs bietet eine gründliche Einführung in das Framework und vermittelt grundlegende Paradigmen sowie die handwerklichen Fähigkeiten anhand von Praxisübungen. Produktivität im Umgang mit der Spark-API und Skalierbarkeit der entwickelten Lösungen gehören zu unseren Hauptzielen.
Zielgruppe
Der Kurs richtet sich an Softwareentwickler:innen, Data Scientists, Data Engineers und andere mit dem Ziel, die Plattform Spark für die Verarbeitung und Analyse großer Datenmengen zum Einsatz zu bringen. Wir betrachten Spark aus der Anwenderperspektive.
Vorraussetzungen
Praxisbezug zu Big Data-Anwendungen sowie sichere Grundkenntnisse in der Programmiersprache Python werden für den Einstieg benötigt.
Die Materalien des Workshops sind auf Englisch. Die Unterrichtssprache ist Deutsch.
Wir empfehlen Spark als Ergänzung zu den Werkzeugen, die wir im Grundkurs "Datenanalyse mit Python” vorstellen.
Für diesen Kurs verwenden wir die OpenSource Plattform BigBlueButton. Alles, was Sie dafür benötigen, ist ein Mikrofon oder Headset und einen aktuellen Browser (Firefox/ Chrome). Bitte nutzen Sie für den Ticketkauf eine E-Mail-Adresse, auf die Sie freien Zugriff haben.
Inhalte (für mehr Details auf die einzelnen Punkte klicken)
1) Grundlagen
-
1. Big Data-Verarbeitung
- Welche Strategien stehen uns zur Verfügung, um mit großen Datenmengen zu rechnen? Was ist ein Cluster? Und wann benötigen wir einen?
-
2. Spark - das Fundament
- Eine Einführung in Spark - das Framework für verteilte Datenverarbeitung - via PySpark, seiner Python-Programmierschnittstelle.
-
3. Spark-Jobs abschicken
- Wie schickt man einem Spark-Cluster einen Job für die Batch-Verarbeitung?
-
4. Strukturierte Daten
- Über die Arbeit mit tabellarischen Daten via Spark SQL.
-
5. Streaming-Daten
- Massive Datenströme mit der Spark Streaming API verarbeiten.
-
6. Graph-Daten
- Mit Netzwerken arbeiten via GraphX.
2) Maschinelles Lernen
-
1. Einführung Maschinelles Lernen
- Eine Übersicht.
-
2. ML zur Klassifikation
- Über Klassifizierer und die Qualität ihrer Entscheidungen
• Eine ML Pipeline für die Klassifikation
• Wir bauen ein Klassifikationsmodell mit den Bausteinen von Spark ML.
- Über Klassifizierer und die Qualität ihrer Entscheidungen
Trainer: Dr.rer.nat. Christian Staudt
unterstützt als Freelance Data Scientist Auftraggeber bei Herausforderungen rund um Data Mining, Big Data, Machine Learning und Artificial Intelligence. Als Referent ist er in der Community um Python und Data Science aktiv. Vor dem Wechsel in die Industrie war Christian in der Forschung zu Algorithmen für die skalierbare Datenanalyse tätig. Gemeinsam mit Point 8 realisiert er Data Science-Workshops für Einsteiger und Fortgeschrittene.
Leistungen Ihres Workshoptickets
- Workshopunterlagen
- Teilnahmebescheinigung
Durchführung
Ist die Durchführung der Veranstaltung aufgrund höherer Gewalt, wegen Verhinderung eines Referenten, wegen Störungen am Veranstaltungsort oder aufgrund zu geringer Teilnehmerzahl (weniger als 50%) nicht möglich, werden die Teilnehmer spätestens 7 Tage vorher durch das heise Events-Team informiert.
Online-Workshop, Workshop - Dauer: jeweils 10:00 - 17:00 Uhr
Nehmen Sie jetzt unkompliziert an unserem Online-Workshop teil.
Selbstverständlich sind die Inhalte online die gleichen wie in dem Präsenz-Workshop. Sie können Fragen stellen und sich mit dem Referenten und den anderen Teilnehmern austauschen. Die begrenzte Teilnehmerzahl garantiert ein effektives und abwechslungsreiches Lernerlebnis – sicher und bequem in Ihrem Arbeitsumfeld.
Preise
Frühbucherpreis: 825,00 € *
Standardpreis: 908,00 €
Alle Preise inkl. MwSt.
Kontakt
Haben Sie Fragen zu der Organisation oder der Veranstaltung? Gern beantworte ich Ihre Fragen per E-Mail!
Jennifer Rypalla // jery@heise.de