Course Outline

Εισαγωγή:

    Το Apache Spark στο Hadoop Ecosystem Σύντομη εισαγωγή για python, scala

Βασικά στοιχεία (θεωρία):

    Αρχιτεκτονική RDD Transformation and Actions Stage, Task, Dependencies

Χρησιμοποιώντας το περιβάλλον Databricks κατανοήστε τα βασικά (πρακτικό εργαστήριο):

    Ασκήσεις με χρήση RDD API Βασικές συναρτήσεις ενεργειών και μετασχηματισμού PairRDD Συμμετοχή σε στρατηγικές αποθήκευσης στην κρυφή μνήμη Ασκήσεις με χρήση DataFrame API SparkSQL DataFrame: επιλογή, φίλτρο, ομάδα, ταξινόμηση UDF (συνάρτηση καθορισμένη από το χρήστη) Εξέταση ροής API DataSet

Χρησιμοποιώντας το περιβάλλον AWS κατανοήστε την ανάπτυξη (πρακτικό εργαστήριο):

    Βασικά στοιχεία του AWS Glue Κατανόηση των διαφορών μεταξύ AWS EMR και AWS Glue Παράδειγμα εργασιών και στα δύο περιβάλλοντα Κατανόηση πλεονεκτημάτων και μειονεκτημάτων

Επιπλέον:

    Εισαγωγή στην ενορχήστρωση Apache Airflow

Requirements

Ικανότητες προγραμματισμού (κατά προτίμηση python, scala)

SQL βασικά

 21 Hours

Number of participants


Price per participant

Testimonials (3)

Upcoming Courses

Related Categories