Course Outline

  • Perkenalan
    • Hadoop sejarah, konsep
    • Ekosistem
    • Distribusi
    • Arsitektur tingkat tinggi
    • Hadoop mitos
    • Hadoop tantangan (perangkat keras / perangkat lunak)
    • Lab: diskusikan Big Data proyek dan masalah Anda
  • Perencanaan dan instalasi
    • Memilih perangkat lunak, Hadoop distribusi
    • Menentukan ukuran klaster, merencanakan pertumbuhan
    • Memilih perangkat keras dan jaringan
    • Topologi rak
    • Instalasi
    • Multi-penyewa
    • Struktur direktori, log
    • Pembandingan
    • Lab: instalasi cluster, menjalankan benchmark kinerja
  • Operasi HDFS
    • Konsep (skala horizontal, replikasi, lokalitas data, kesadaran rak)
    • Node dan daemon (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
    • Pemantauan kesehatan
    • Administrasi berbasis baris perintah dan browser
    • Menambah penyimpanan, mengganti drive yang rusak
    • Lab: membiasakan diri dengan baris perintah HDFS
  • Penyerapan data
    • Flume untuk log dan penyerapan data lainnya ke HDFS
    • Sqoop untuk mengimpor dari database SQL ke HDFS, serta mengekspor kembali ke SQL
    • Hadoop pergudangan data dengan Hive
    • Menyalin data antar cluster (distcp)
    • Menggunakan S3 sebagai pelengkap HDFS
    • Praktik terbaik dan arsitektur penyerapan data
    • Lab: menyiapkan dan menggunakan Flume, sama untuk Sqoop
  • Operasi dan administrasi MapReduce
    • Komputasi paralel sebelum mapreduce: bandingkan HPC vs administrasi Hadoop
    • Beban klaster MapReduce
    • Node dan Daemon (JobTracker, TaskTracker)
    • Panduan UI MapReduce
    • Konfigurasi Mapreduce
    • Konfigurasi pekerjaan
    • Mengoptimalkan MapReduce
    • MR yang anti-bodoh: apa yang harus diberitahukan kepada programmer Anda
    • Lab: menjalankan contoh MapReduce
  • YARN: arsitektur baru dan kemampuan baru
    • Tujuan desain YARN dan arsitektur implementasi
    • Aktor baru: ResourceManager, NodeManager, Application Master
    • Memasang YARN
    • Penjadwalan pekerjaan di bawah YARN
    • Lab: menyelidiki penjadwalan pekerjaan
  • Topik lanjutan
    • Pemantauan perangkat keras
    • Pemantauan klaster
    • Menambah dan menghapus server, meningkatkan Hadoop
    • Pencadangan, pemulihan, dan perencanaan kesinambungan bisnis
    • Alur kerja pekerjaan Oozie
    • Hadoop ketersediaan tinggi (HA)
    • Hadoop Federasi
    • Mengamankan kluster Anda dengan Kerberos
    • Lab: menyiapkan pemantauan
  • Trek opsional
    • Cloudera Manager untuk administrasi klaster, pemantauan, dan tugas rutin; instalasi, penggunaan. Dalam jalur ini, semua latihan dan lab dilakukan dalam lingkungan distribusi Cloudera (CDH5)
    • Ambari untuk administrasi klaster, pemantauan, dan tugas rutin; instalasi, penggunaan. Dalam jalur ini, semua latihan dan lab dilakukan dalam pengelola klaster Ambari dan Hortonworks Data Platform (HDP 2.0)

Requirements

  • nyaman dengan administrasi sistem dasar Linux
  • keterampilan skrip dasar

Pengetahuan tentang Hadoop dan Komputasi Terdistribusi tidak diperlukan, tetapi akan diperkenalkan dan dijelaskan dalam kursus.

Lingkungan laboratorium

Zero Install: Tidak perlu menginstal perangkat lunak hadoop di komputer siswa! Kluster hadoop yang berfungsi akan disediakan untuk siswa.

Siswa akan membutuhkan hal-hal berikut ini

  • klien SSH (Linux dan Mac sudah memiliki klien ssh, untuk Windows Putty direkomendasikan)
  • browser untuk mengakses cluster. Kami merekomendasikan browser Firefox dengan ekstensi FoxyProxy terpasang
 21 Hours

Number of participants


Price per participant

Testimonials (5)

Upcoming Courses (Minimal 5 peserta)

Related Categories