Course Outline
Hari 1: Pengolahan Data dan Python Dasar-dasar
Sesi 1: Spark DataFrames dan Operasi Dasar
- Bekerja dengan Spark DataFrames Menerapkan Operasi Dasar
- Operasi Groupby dan Agregat
- Menangani Cap Waktu dan Tanggal
- Latihan Praktis : Analisis data menggunakan Spark DataFrames
Sesi 2: Python Programming untuk Big Data
- Inti Python untuk Penanganan Data Menggunakan Variabel, Daftar, dan Fungsi
- Bekerja dengan Kelas dan File
- Mengintegrasikan API dan Data Eksternal
- Latihan Praktis : Membangun proyek Python yang memproses dan menganalisis data dengan PySpark
Hari 2: Lanjutan PySpark dan Machine Learning
Sesi 3: Machine Learning dengan PySpark
- Implementasi Machine Learning dengan Spark MLlib Regresi Linier dan Logistik
- Random Forest Model Klasifikasi
- Latihan Praktis : Membangun dan mengevaluasi model pembelajaran mesin menggunakan PySpark
Sesi 4: Sistem Pengelompokan dan Rekomendasi
- Teori Pengelompokan K-means dan Implementasi Praktisnya
- Latihan Praktis: Membangun model pengelompokan K-means
- Sistem Rekomendasi Membangun mesin rekomendasi dengan Spark MLlib
- Latihan Praktis: Proyek sistem rekomendasi
Sesi 5: Spark Streaming dan NLP
- Streaming Data Real-Time dengan Spark Menerapkan pemrosesan data real-time
- Latihan Praktis: Streaming data dengan Spark
- Natural Language Processing (NLP) dengan PySpark Menerapkan tugas NLP dasar
- Latihan Praktis: Pipeline NLP menggunakan PySpark
Requirements
Python adalah bahasa pemrograman tingkat tinggi yang terkenal karena sintaksisnya yang jelas dan keterbacaan kode. Spark adalah mesin pemrosesan data yang digunakan dalam kueri, analisis, dan transformasi data besar. PySpark memungkinkan pengguna untuk menghubungkan Spark dengan Python.
Target Pemirsa: Profesional tingkat menengah di industri perbankan yang familiar dengan Python dan Spark, yang ingin memperdalam keterampilan mereka dalam pemrosesan big data dan pembelajaran mesin.
Testimonials (1)
practice tasks