Course Outline

1: HDFS (17%)

  • Jelaskan fungsi HDFS Daemons
  • Jelaskan operasi normal cluster Apache Hadoop, baik dalam penyimpanan data maupun dalam pemrosesan data.
  • Mengidentifikasi fitur-fitur terkini sistem komputasi yang memotivasi sistem seperti Apache Hadoop.
  • Klasifikasikan tujuan utama Desain HDFS
  • Mengingat suatu skenario, identifikasi kasus penggunaan yang tepat untuk Federasi HDFS
  • Mengidentifikasi komponen dan daemon cluster HDFS HA-Quorum
  • Menganalisis peran keamanan HDFS (Kerberos)
  • Tentukan pilihan serialisasi data terbaik untuk skenario tertentu
  • Jelaskan jalur baca dan tulis file
  • Mengidentifikasi perintah untuk memanipulasi file di Hadoop File System Shell

2: YARN dan MapReduce versi 2 (MRv2) (17%)

  • Memahami bagaimana peningkatan cluster dari Hadoop 1 ke Hadoop 2 memengaruhi pengaturan cluster
  • Memahami cara menyebarkan MapReduce v2 (MRv2 / YARN), termasuk semua daemon YARN
  • Memahami strategi desain dasar untuk MapReduce v2 (MRv2)
  • Tentukan bagaimana YARN menangani alokasi sumber daya
  • Identifikasi alur kerja pekerjaan MapReduce yang berjalan di YARN
  • Tentukan file mana yang harus Anda ubah dan bagaimana cara memigrasikan kluster dari MapReduce versi 1 (MRv1) ke MapReduce versi 2 (MRv2) yang berjalan di YARN.

3: Hadoop Perencanaan Klaster (16%)

  • Hal-hal utama yang perlu dipertimbangkan dalam memilih perangkat keras dan sistem operasi untuk menghosting kluster Apache Hadoop.
  • Menganalisis pilihan dalam memilih OS
  • Memahami penyetelan kernel dan pertukaran disk
  • Mengingat skenario dan pola beban kerja, identifikasi konfigurasi perangkat keras yang sesuai dengan skenario tersebut
  • Mengingat suatu skenario, tentukan komponen ekosistem yang perlu dijalankan oleh cluster Anda agar memenuhi SLA
  • Ukuran kluster: berdasarkan skenario dan frekuensi eksekusi, identifikasi spesifikasi untuk beban kerja, termasuk CPU, memori, penyimpanan, I/O disk
  • Ukuran dan Konfigurasi Disk, termasuk JBOD versus RAID, SAN, virtualisasi, dan persyaratan ukuran disk dalam kluster
  • Topologi Jaringan: memahami penggunaan jaringan di Hadoop (untuk HDFS dan MapReduce) dan mengusulkan atau mengidentifikasi komponen desain jaringan utama untuk skenario tertentu

4: Hadoop Instalasi dan Administrasi Cluster (25%)

  • Mengingat suatu skenario, identifikasi bagaimana cluster akan menangani kegagalan disk dan mesin
  • Menganalisis konfigurasi logging dan format file konfigurasi logging
  • Memahami dasar-dasar metrik Hadoop dan pemantauan kesehatan klaster
  • Mengidentifikasi fungsi dan tujuan alat yang tersedia untuk pemantauan klaster
  • Dapat menginstal semua komponen ekosistem di CDH 5, termasuk (tetapi tidak terbatas pada): Impala, Flume, Oozie, Hue, Manager, Sqoop, Hive, dan Pig
  • Identifikasi fungsi dan tujuan alat yang tersedia untuk mengelola sistem file Apache Hadoop

5: Sumber Daya Management (10%)

  • Memahami tujuan desain keseluruhan dari masing-masing Hadoop penjadwal
  • Mengingat skenario, tentukan bagaimana Penjadwal FIFO mengalokasikan sumber daya cluster
  • Mengingat suatu skenario, tentukan bagaimana Penjadwal Adil mengalokasikan sumber daya kluster di bawah YARN
  • Mengingat skenario tertentu, tentukan bagaimana Penjadwal Kapasitas mengalokasikan sumber daya kluster

6: Pemantauan dan Pencatatan (15%)

  • Memahami fungsi dan fitur kemampuan pengumpulan metrik Hadoop
  • Menganalisis UI Web NameNode dan JobTracker
  • Memahami cara memantau Daemon cluster
  • Mengidentifikasi dan memantau penggunaan CPU pada node master
  • Jelaskan cara memantau swap dan alokasi memori pada semua node
  • Identifikasi cara melihat dan mengelola file log Hadoop
  • Menafsirkan file log

Requirements

  • Keterampilan administrasi dasar Linux
  • Keterampilan pemrograman dasar
 35 Hours

Number of participants


Price per participant

Testimonials (3)

Upcoming Courses (Minimal 5 peserta)

Related Categories