Newsletter

   Kontakt

Kompetentes und unabhängiges Wissen für IT-Profis. 

Konferenzen, Workshops und Webinare.

Big Data-Analyse mit PySpark - Skalierbare Datenverarbeitung auf dem Cluster

(2-tägiger iX-Workshop)

Apache Spark ist als Distributed Computing Engine fester Bestandteil vieler aktueller Big Data-Plattformen und -Strategien. Spark ermöglicht es Workflows der Datenanalyse durch die parallelisierte Ausführung auf einem Cluster beliebig zu skalieren. Dazu zählen Lösungen für die Verarbeitung von Textdaten, tabellarische Daten, Graph-Datensätze, Streaming-Anwendungen sowie Machine Learning-Algorithmen. Die PySpark-API verbindet die Spark Engine mit der Python-Welt. 


Dieser zweitägige Intensivkurs bietet eine gründliche Einführung in das Framework und vermittelt grundlegende Paradigmen sowie die handwerklichen Fähigkeiten anhand von Praxisübungen. Produktivität im Umgang mit der Spark-API und Skalierbarkeit der entwickelten Lösungen gehören zu unseren Hauptzielen.


Zielgruppe

 

Der Kurs richtet sich an Softwareentwickler, Data Scientists, Data Engineers und andere mit dem Ziel, die Plattform Spark für die Verarbeitung und Analyse großer Datenmengen zum Einsatz zu bringen. Wir betrachten Spark aus der Anwenderperspektive.

Vorraussetzungen

Praxisbezug zu Big Data-Anwendungen sowie sichere Grundkenntnisse in der Programmiersprache Python werden für den Einstieg benötigt.

Die Materalien des Workshops sind auf Englisch. Die Unterrichtssprache ist Deutsch. 

Wir empfehlen Spark als Ergänzung zu den Werkzeugen, die wir im Grundkurs "Datenanalyse mit Python vorstellen.

Für diesen Kurs verwenden wir die OpenSource Plattform BigBlueButton. Alles, was Sie dafür benötigen, ist ein Mikrofon oder Headset und einen aktuellen Browser (Firefox/ Chrome). Bitte nutzen Sie für den Ticketkauf eine E-Mail-Adresse, auf die Sie freien Zugriff haben.

Inhalte:

Grundlagen

1. Big Data-Verarbeitung

Welche Strategien stehen uns zur Verfügung, um mit großen Datenmengen zu rechnen? Was ist ein Cluster? Und wann benötigen wir einen?

2. Spark - das Fundament

Eine Einführung in Spark - das Framework für verteilte Datenverarbeitung - via PySpark, seiner Python-Programmierschnittstelle. 

3. Spark-Jobs abschicken

Wie schickt man einem Spark-Cluster einen Job für die Batch-Verarbeitung?

4. Strukturierte Daten

Über die Arbeit mit tabellarischen Daten via Spark SQL.

5.Streaming-Daten

Massive Datenströme mit der Spark Streaming API verarbeiten.

6. Graph-Daten

Mit Netzwerken arbeiten via GraphX.


Maschinelles Lernen

1. Einführung Maschinelles Lernen

Eine Übersicht.

2. ML zur Klassifikation

Über Klassifizierer und die Qualität ihrer Entscheidungen
• Eine ML Pipeline für die Klassifikation
• Wir bauen ein Klassifikationsmodell mit den Bausteinen von Spark ML.

Trainer: Dr.rer.nat. Christian Staudt

unterstützt als Freelance Data Scientist Auftraggeber bei Herausforderungen rund um Data Mining, Big Data, Machine Learning und Artificial Intelligence. Als Referent ist er in der Community um Python und Data Science aktiv. Vor dem Wechsel in die Industrie war Christian in der Forschung zu Algorithmen für die skalierbare Datenanalyse tätig. Gemeinsam mit Point 8 realisiert er Data Science-Workshops für Einsteiger und Fortgeschrittene.

Leistungen Ihres Workshoptickets

  • Workshopunterlagen
  • Teilnahmebescheinigung 

Durchführung

Ist die Durchführung der Veranstaltung aufgrund höherer Gewalt, wegen Verhinderung eines Referenten, wegen Störungen am Veranstaltungsort oder aufgrund zu geringer Teilnehmerzahl (weniger als 50%) nicht möglich, werden die Teilnehmer spätestens 7 Tage vorher durch das heise Events-Team informiert.

Termine & Preise

Online-Workshop, Workshop - Dauer: jeweils 09:00 - 17:00 Uhr

Nehmen Sie jetzt unkompliziert an unserem Online-Workshop teil. 

Selbstverständlich sind die Inhalte online die gleichen wie in dem Präsenz-Workshop. Sie können Fragen stellen und sich mit dem Referenten und den anderen Teilnehmern austauschen. Die begrenzte Teilnehmerzahl garantiert ein effektives und abwechslungsreiches Lernerlebnis – sicher und bequem in Ihrem Arbeitsumfeld.

Tickets Online-Workshop 25. - 26.01.21

Preise

Frühbucherpreis: 825,00 € *

Standardpreis: 908,00 €

Alle Preise inkl. MwSt.

Kontakt

Haben Sie Fragen zu der Organisation oder der Veranstaltung? Gern beantworte ich Ihre Fragen per E-Mail!

Jennifer Rypalla // jery@heise.de