Course Outline
- Perkenalan
- Hadoop sejarah, konsep
- Ekosistem
- Distribusi
- Arsitektur tingkat tinggi
- Hadoop mitos
- Hadoop tantangan (perangkat keras / perangkat lunak)
- Lab: diskusikan Big Data proyek dan masalah Anda
- Perencanaan dan instalasi
- Memilih perangkat lunak, Hadoop distribusi
- Menentukan ukuran klaster, merencanakan pertumbuhan
- Memilih perangkat keras dan jaringan
- Topologi rak
- Instalasi
- Multi-penyewa
- Struktur direktori, log
- Pembandingan
- Lab: instalasi cluster, menjalankan benchmark kinerja
- Operasi HDFS
- Konsep (skala horizontal, replikasi, lokalitas data, kesadaran rak)
- Node dan daemon (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
- Pemantauan kesehatan
- Administrasi berbasis baris perintah dan browser
- Menambah penyimpanan, mengganti drive yang rusak
- Lab: membiasakan diri dengan baris perintah HDFS
- Penyerapan data
- Flume untuk log dan penyerapan data lainnya ke HDFS
- Sqoop untuk mengimpor dari database SQL ke HDFS, serta mengekspor kembali ke SQL
- Hadoop pergudangan data dengan Hive
- Menyalin data antar cluster (distcp)
- Menggunakan S3 sebagai pelengkap HDFS
- Praktik terbaik dan arsitektur penyerapan data
- Lab: menyiapkan dan menggunakan Flume, sama untuk Sqoop
- Operasi dan administrasi MapReduce
- Komputasi paralel sebelum mapreduce: bandingkan HPC vs administrasi Hadoop
- Beban klaster MapReduce
- Node dan Daemon (JobTracker, TaskTracker)
- Panduan UI MapReduce
- Konfigurasi Mapreduce
- Konfigurasi pekerjaan
- Mengoptimalkan MapReduce
- MR yang anti-bodoh: apa yang harus diberitahukan kepada programmer Anda
- Lab: menjalankan contoh MapReduce
- YARN: arsitektur baru dan kemampuan baru
- Tujuan desain YARN dan arsitektur implementasi
- Aktor baru: ResourceManager, NodeManager, Application Master
- Memasang YARN
- Penjadwalan pekerjaan di bawah YARN
- Lab: menyelidiki penjadwalan pekerjaan
- Topik lanjutan
- Pemantauan perangkat keras
- Pemantauan klaster
- Menambah dan menghapus server, meningkatkan Hadoop
- Pencadangan, pemulihan, dan perencanaan kesinambungan bisnis
- Alur kerja pekerjaan Oozie
- Hadoop ketersediaan tinggi (HA)
- Hadoop Federasi
- Mengamankan kluster Anda dengan Kerberos
- Lab: menyiapkan pemantauan
- Trek opsional
- Cloudera Manager untuk administrasi klaster, pemantauan, dan tugas rutin; instalasi, penggunaan. Dalam jalur ini, semua latihan dan lab dilakukan dalam lingkungan distribusi Cloudera (CDH5)
- Ambari untuk administrasi klaster, pemantauan, dan tugas rutin; instalasi, penggunaan. Dalam jalur ini, semua latihan dan lab dilakukan dalam pengelola klaster Ambari dan Hortonworks Data Platform (HDP 2.0)
Requirements
- nyaman dengan administrasi sistem dasar Linux
- keterampilan skrip dasar
Pengetahuan tentang Hadoop dan Komputasi Terdistribusi tidak diperlukan, tetapi akan diperkenalkan dan dijelaskan dalam kursus.
Lingkungan laboratorium
Zero Install: Tidak perlu menginstal perangkat lunak hadoop di komputer siswa! Kluster hadoop yang berfungsi akan disediakan untuk siswa.
Siswa akan membutuhkan hal-hal berikut ini
- klien SSH (Linux dan Mac sudah memiliki klien ssh, untuk Windows Putty direkomendasikan)
- browser untuk mengakses cluster. Kami merekomendasikan browser Firefox dengan ekstensi FoxyProxy terpasang
Testimonials (5)
The live examples
Ahmet Bolat - Accenture Industrial SS
Course - Python, Spark, and Hadoop for Big Data
During the exercises, James explained me every step whereever I was getting stuck in more detail. I was completely new to NIFI. He explained the actual purpose of NIFI, even the basics such as open source. He covered every concept of Nifi starting from Beginner Level to Developer Level.
Firdous Hashim Ali - MOD A BLOCK
Course - Apache NiFi for Administrators
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Course - Impala for Business Intelligence
That I had it in the first place.
Peter Scales - CACI Ltd
Course - Apache NiFi for Developers
practical things of doing, also theory was served good by Ajay