Course Outline

Ενότητα 1: Εισαγωγή στο Hadoop

  • ιστορία hadoop, έννοιες
  • οικολογικό σύστημα
  • διανομές
  • αρχιτεκτονική υψηλού επιπέδου
  • μύθοι του hadoop
  • προκλήσεις hadoop
  • υλικό / λογισμικό
  • εργαστήριο : πρώτη ματιά στο Hadoop

Ενότητα 2: HDFS

  • Σχεδιασμός και αρχιτεκτονική
  • έννοιες (οριζόντια κλιμάκωση, αναπαραγωγή, εντοπιότητα δεδομένων, επίγνωση rack)
  • Δαίμονες : Όνομα, Δευτερεύων όνομα κόμβος, Κόμβος δεδομένων
  • επικοινωνίες / καρδιακοί παλμοί
  • ακεραιότητα δεδομένων
  • διαδρομή ανάγνωσης / εγγραφής
  • Όνομα Υψηλή Διαθεσιμότητα (HA), Ομοσπονδία
  • εργαστήρια: Αλληλεπίδραση με HDFS

Ενότητα 3: Μείωση χάρτη

  • έννοιες και αρχιτεκτονική
  • δαίμονες (MRV1) : ανιχνευτής εργασιών / παρακολούθησης εργασιών
  • φάσεις : πρόγραμμα οδήγησης, χαρτογράφηση, ανακάτεμα/ταξινόμηση, μειωτήρας
  • Σμίκρυνση χάρτη Έκδοση 1 και έκδοση 2 (YARN)
  • Εσωτερικά του Map Reduce
  • Εισαγωγή στο πρόγραμμα Java Map Reduce
  • labs: Εκτέλεση δείγματος προγράμματος MapReduce

Ενότητα 4 : Χοίρος

  • pig vs java map μείωση
  • ροή εργασίας χοίρου
  • γουρουνάκι λατινική γλώσσα
  • ETL με το Pig
  • Μεταμορφώσεις & Ενώσεις
  • Λειτουργίες καθορισμένες από το χρήστη (UDF)
  • εργαστήρια: σύνταξη σεναρίων Pig για ανάλυση δεδομένων

Ενότητα 5: Hive

  • αρχιτεκτονική και σχεδιασμός
  • τύπους δεδομένων
  • SQL υποστήριξη σε Hive
  • Δημιουργία Hive πινάκων και αναζήτηση
  • χωρίσματα
  • ενώνει
  • επεξεργασία κειμένου
  • εργαστήρια : διάφορα εργαστήρια για την επεξεργασία δεδομένων με Hive

Ενότητα 6: HBase

  • έννοιες και αρχιτεκτονική
  • hbase vs RDBMS vs cassandra
  • HBase Java API
  • Δεδομένα χρονοσειρών στο HBase
  • σχεδιασμός σχήματος
  • εργαστήρια : Αλληλεπίδραση με το HBase χρησιμοποιώντας κέλυφος. προγραμματισμός σε HBase Java API ; Άσκηση σχεδίασης σχήματος

Requirements

  • άνετα με Java γλώσσα προγραμματισμού (οι περισσότερες ασκήσεις προγραμματισμού είναι σε java)
  • άνετα σε περιβάλλον Linux (να είναι σε θέση να πλοηγηθεί στη γραμμή εντολών Linux, να επεξεργαστεί αρχεία χρησιμοποιώντας vi / nano)

Εργαστηριακό περιβάλλον

Zero Install : Δεν χρειάζεται να εγκαταστήσετε λογισμικό hadoop στα μηχανήματα των μαθητών! Θα παρέχεται ένα εργασιακό cluster hadoop για τους μαθητές.

Οι μαθητές θα χρειαστούν τα ακόλουθα

  • ένας πελάτης SSH (Linux και ο Mac έχουν ήδη προγράμματα-πελάτες ssh, για το Windows Putty συνιστάται)
  • ένα πρόγραμμα περιήγησης για πρόσβαση στο σύμπλεγμα. Συνιστούμε το πρόγραμμα περιήγησης Firefox
 28 Hours

Number of participants


Price per participant

Testimonials (5)

Upcoming Courses

Related Categories