Newsletter

   Kontakt

Big Data-Analyse mit PySpark - Skalierbare Datenverarbeitung auf dem Cluster

(2-tägiger iX-Workshop)

Apache Spark ist als Distributed Computing Engine fester Bestandteil vieler aktueller Big Data-Plattformen und -Strategien. Spark ermöglicht es Workflows der Datenanalyse durch die parallelisierte Ausführung auf einem Cluster beliebig zu skalieren. Dazu zählen Lösungen für die Verarbeitung von Textdaten, tabellarische Daten, Graph-Datensätze, Streaming-Anwendungen sowie Machine Learning-Algorithmen. Die PySpark-API verbindet die Spark Engine mit der Python-Welt. 


Dieser zweitägige Intensivkurs bietet eine gründliche Einführung in das Framework und vermittelt grundlegende Paradigmen sowie die handwerklichen Fähigkeiten anhand von Praxisübungen. Produktivität im Umgang mit der Spark-API und Skalierbarkeit der entwickelten Lösungen gehören zu unseren Hauptzielen.


Zielgruppe

Der Kurs richtet sich an Softwareentwickler, Data Scientists, Data Engineers und andere mit dem Ziel, die Plattform Spark für die Verarbeitung und Analyse großer Datenmengen zum Einsatz zu bringen. Wir betrachten Spark aus der Anwenderperspektive.

Vorraussetzungen

Praxisbezug zu Big Data-Anwendungen sowie sichere Grundkenntnisse in der Programmiersprache Python erleichtern den Einstieg.

Die Materalien des Workshops sind auf Englisch. Die Unterrichtssprache ist Deutsch. Praxisbezug zu Big Data-Anwendungen sowie sichere Grundkenntnisse in der Programmiersprache Python werden für den Einstieg benötigt. Wir empfehlen Spark als Ergänzung zu den Werkzeugen, die wir im Grundkurs "Datenanalyse mit Python vorstellen.

Leistungen Ihres Workshoptickets

  • Workshopunterlagen
  • Tagungsgetränke & Verpflegung (Präsenzveranstaltung)
  • Teilnahmebescheinigung 

Durchführung

Ist die Durchführung der Veranstaltung aufgrund höherer Gewalt, wegen Verhinderung eines Referenten, wegen Störungen am Veranstaltungsort oder aufgrund zu geringer Teilnehmerzahl (weniger als 50%) nicht möglich, werden die Teilnehmer spätestens 14 Tage vorher durch das heise Events-Team informiert.

Kontakt

Haben Sie Fragen zu der Organisation oder der Veranstaltung? Gern beantworte ich Ihre Fragen per E-Mail!

Jennifer Rypalla // jery@heise.de

Termine & Preise

Online-Workshop

Nehmen Sie jetzt unkompliziert am Workshop teil.

Alles, was Sie dafür benötigen, ist ein Mikrofon oder Headset an Ihrem Rechner oder Laptop und einen aktuellen Browser. Selbstverständlich sind die Inhalte online die gleichen wie in dem Präsenz-Workshop. Sie können Fragen stellen und sich mit dem Referenten und den anderen Teilnehmern austauschen. Die auf 15 Personen begrenzte Teilnehmerzahl garantiert ein effektives und abwechslungsreiches Lernerlebnis – sicher und bequem in Ihrem Arbeitsumfeld.

Nach dem Kauf eines Tickets erhalten Sie eine Bestätigung per Mail und kurz vor der Veranstaltung in einer separaten Mail Ihren Zugangslink. Bitte nutzen Sie daher für den Ticketkauf eine E-Mail-Adresse, auf die Sie freien Zugriff haben!

Für diesen Kurs verwenden wir BigBlueButton. Für die Teilnahme ist es nicht erforderlich, einen Account anzulegen. Die Teilnahme kann im Browser erfolgen.

Termin 2021 folgt

Preise

Frühbucherpreis: 825,00 € *

Standardpreis: 908,00 €

Alle Preise inkl. MwSt

Agenda & Trainer

Workshopzeit:

09:00 - 17:00 Uhr


Inhalte:

Grundlagen

1. Big Data-Verarbeitung
Welche Strategien stehen uns zur Verfügung, um mit großen Datenmengen zu rechnen? Was ist ein Cluster? Und wann benötigen wir einen?

2. Spark - das Fundament
Eine Einführung in Spark - das Framework für verteilte Datenverarbeitung - via PySpark, seiner Python-Programmierschnittstelle.

3. Spark-Jobs abschicken
Wie schickt man einem Spark-Cluster einen Job für die Batch-Verarbeitung?

4.Strukturierte Daten
Über die Arbeit mit tabellarischen Daten via Spark SQL.

5.Streaming-Daten
Massive Datenströme mit der Spark Streaming API verarbeiten.

6.Graph-Daten
Mit Netzwerken arbeiten via GraphX.

Maschinelles Lernen

1.Einführung Maschinelles Lernen
Eine Übersicht.

2. ML zur Klassifikation
Über Klassifizierer und die Qualität ihrer Entscheidungen

• Eine ML Pipeline für die Klassifikation

• Wir bauen ein Klassifikationsmodell mit den Bausteinen von Spark ML.

Dr.rer.nat. Christian Staudt

unterstützt als Freelance Data Scientist Auftraggeber bei Herausforderungen rund um Data Mining, 

Big Data, Machine Learning und Artificial Intelligence. Als Referent ist er in der Community um
Python und Data Science aktiv. Vor dem Wechsel in die Industrie war Christian in der Forschung zu 

Algorithmen für die skalierbare Datenanalyse tätig. Gemeinsam mit Point 8 realisiert er Data Science-Workshops 

für Einsteiger und Fortgeschrittene.