A Practical Introduction to Stream Processing Training Course
Stream Processing refers to the real-time processing of "data in motion", that is, performing computations on data as it is being received. Such data is read as continuous streams from data sources such as sensor events, website user activity, financial trades, credit card swipes, click streams, etc. Stream Processing frameworks are able to read large volumes of incoming data and provide valuable insights almost instantaneously.
In this instructor-led, live training (onsite or remote), participants will learn how to set up and integrate different Stream Processing frameworks with existing big data storage systems and related software applications and microservices.
By the end of this training, participants will be able to:
- Install and configure different Stream Processing frameworks, such as Spark Streaming and Kafka Streaming.
- Understand and select the most appropriate framework for the job.
- Process of data continuously, concurrently, and in a record-by-record fashion.
- Integrate Stream Processing solutions with existing databases, data warehouses, data lakes, etc.
- Integrate the most appropriate stream processing library with enterprise applications and microservices.
Audience
- Developers
- Software architects
Format of the Course
- Part lecture, part discussion, exercises and heavy hands-on practice
Notes
- To request a customized training for this course, please contact us to arrange.
Course Outline
Introduction
- Stream processing vs batch processing
- Analytics-focused stream processing
Overview Frameworks and Programming Languages
- Spark Streaming (Scala)
- Kafka Streaming (Java)
- Flink
- Storm
- Comparison of Features and Strengths of Each Framework
Overview of Data Sources
- Live data as a series of events over time
- Historical data sources
Deployment Options
- In the cloud (AWS, etc.)
- On premise (private cloud, etc.)
Getting Started
- Setting up the Development Environment
- Installing and Configuring
- Assessing Your Data Analysis Needs
Operating a Streaming Framework
- Integrating the Streaming Framework with Big Data Tools
- Event Stream Processing (ESP) vs Complex Event Processing (CEP)
- Transforming the Input Data
- Inspecting the Output Data
- Integrating the Stream Processing Framework with Existing Applications and Microservices
Troubleshooting
Summary and Conclusion
Requirements
- Programming experience in any language
- An understanding of Big Data concepts (Hadoop, etc.)
Open Training Courses require 5+ participants.
A Practical Introduction to Stream Processing Training Course - Booking
A Practical Introduction to Stream Processing Training Course - Enquiry
A Practical Introduction to Stream Processing - Consultancy Enquiry
Consultancy Enquiry
Testimonials (1)
Sufficient hands on, trainer is knowledgable
Chris Tan
Course - A Practical Introduction to Stream Processing
Upcoming Courses (Minimal 5 peserta)
Related Courses
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 HoursKursus ini ditujukan bagi pengembang dan ilmuwan data yang ingin memahami dan menerapkan kecerdasan buatan dalam aplikasi mereka. Fokus khusus adalah pada analisis data, kecerdasan buatan terdistribusi, dan pemrosesan bahasa alami.
Apache Kafka Connect
7 HoursThis instructor-led, live training in Indonesia (online or onsite) is aimed at developers who wish to integrate Apache Kafka with existing databases and applications for processing, analysis, etc.
By the end of this training, participants will be able to:
- Use Kafka Connect to ingest large amounts of data from a database into Kafka topics.
- Ingest log data generated by an application servers into Kafka topics.
- Make any collected data available for stream processing.
- Export data from Kafka topics into secondary systems for storage and analysis.
Unified Batch and Stream Processing with Apache Beam
14 HoursApache Beam adalah model pemrograman sumber terbuka dan terpadu untuk mendefinisikan dan menjalankan alur pemrosesan data paralel. Kekuatannya terletak pada kemampuannya untuk menjalankan alur batch dan streaming, dengan eksekusi yang dilakukan oleh salah satu back-end pemrosesan terdistribusi yang didukung Beam: Apache Apex, Apache Flink, Apache Spark, dan Google Cloud Dataflow. Apache Beam berguna untuk tugas ETL (Ekstrak, Transformasi, dan Muat) seperti memindahkan data antara media penyimpanan dan sumber data yang berbeda, mengubah data ke dalam format yang lebih diinginkan, dan memuat data ke sistem baru.
Dalam pelatihan langsung yang dipandu instruktur (di tempat atau jarak jauh) ini, peserta akan mempelajari cara mengimplementasikan Apache Beam SDK dalam aplikasi Java atau Python yang mendefinisikan jalur pemrosesan data untuk menguraikan kumpulan data besar menjadi potongan-potongan yang lebih kecil untuk pemrosesan paralel yang independen.
Pada akhir pelatihan ini, peserta akan dapat:
- Instal dan konfigurasikan Apache Beam.
- Gunakan model pemrograman tunggal untuk melakukan pemrosesan batch dan aliran dalam aplikasi Java atau Python mereka.
- Menjalankan jalur pipa di beberapa lingkungan.
Format Kursus
- Sebagian kuliah, sebagian diskusi, latihan dan praktik langsung yang berat
Catatan
- Kursus ini akan tersedia Scala di masa mendatang. Silakan hubungi kami untuk mengaturnya.
Building Kafka Solutions with Confluent
14 HoursThis instructor-led, live training (online or onsite) is aimed at engineers who wish to use Confluent (a distribution of Kafka) to build and manage a real-time data processing platform for their applications.
By the end of this training, participants will be able to:
- Install and configure Confluent Platform.
- Use Confluent's management tools and services to run Kafka more easily.
- Store and process incoming stream data.
- Optimize and manage Kafka clusters.
- Secure data streams.
Format of the Course
- Interactive lecture and discussion.
- Lots of exercises and practice.
- Hands-on implementation in a live-lab environment.
Course Customization Options
- This course is based on the open source version of Confluent: Confluent Open Source.
- To request a customized training for this course, please contact us to arrange.
Apache Flink Fundamentals
28 HoursPelatihan langsung yang dipandu instruktur di Indonesia (online atau di tempat) ini memperkenalkan prinsip dan pendekatan di balik pemrosesan data aliran dan batch terdistribusi, dan memandu peserta melalui pembuatan aplikasi streaming data waktu nyata di Apache Flink.
Pada akhir pelatihan ini, peserta akan dapat:
- Siapkan lingkungan untuk mengembangkan aplikasi analisis data.
- Pahami cara kerja pustaka pemrosesan grafik Apache Flink (Gelly).
- Mengemas, menjalankan, dan memantau aplikasi streaming data berbasis Flink yang toleran terhadap kesalahan.
- Kelola beban kerja yang beragam.
- Melakukan analisis tingkat lanjut.
- Siapkan klaster Flink multi-simpul.
- Mengukur dan mengoptimalkan kinerja.
- Integrasikan Flink dengan berbagai sistem Big Data.
- Bandingkan kemampuan Flink dengan kerangka kerja pemrosesan data besar lainnya.
Introduction to Graph Computing
28 HoursDalam pelatihan langsung yang dipandu instruktur di Indonesia ini, peserta akan mempelajari tentang penawaran teknologi dan pendekatan implementasi untuk memproses data grafik. Tujuannya adalah untuk mengidentifikasi objek dunia nyata, karakteristik dan hubungannya, kemudian memodelkan hubungan ini dan memprosesnya sebagai data menggunakan pendekatan Graph Computing (juga dikenal sebagai Analisis Grafik). Kami mulai dengan ikhtisar umum dan mempersempitnya pada alat tertentu saat kami melangkah melalui serangkaian studi kasus, latihan langsung, dan penerapan langsung.
Pada akhir pelatihan ini, peserta akan dapat:
- Memahami bagaimana data grafik dipertahankan dan dilintasi.
- Pilih kerangka kerja terbaik untuk tugas tertentu (dari basis data grafik hingga kerangka kerja pemrosesan batch.)
- Terapkan Hadoop, Spark, GraphX dan Pregel untuk melakukan komputasi grafik di banyak mesin secara paralel.
- Lihat masalah big data dunia nyata dalam bentuk grafik, proses, dan lintasan.
Apache Kafka for Python Programmers
7 HoursPelatihan langsung yang dipimpin instruktur di Indonesia (online atau di lokasi) ditujukan untuk teknisi data, ilmuwan data, dan pemrogram yang ingin menggunakan fitur Apache Kafka dalam streaming data dengan Python.
Di akhir pelatihan ini, peserta akan dapat menggunakan Apache Kafka untuk memantau dan mengelola kondisi aliran data berkelanjutan menggunakan pemrograman Python.
Stream Processing with Kafka Streams
7 HoursKafka Streams is a client-side library for building applications and microservices whose data is passed to and from a Kafka messaging system. Traditionally, Apache Kafka has relied on Apache Spark or Apache Storm to process data between message producers and consumers. By calling the Kafka Streams API from within an application, data can be processed directly within Kafka, bypassing the need for sending the data to a separate cluster for processing.
In this instructor-led, live training, participants will learn how to integrate Kafka Streams into a set of sample Java applications that pass data to and from Apache Kafka for stream processing.
By the end of this training, participants will be able to:
- Understand Kafka Streams features and advantages over other stream processing frameworks
- Process stream data directly within a Kafka cluster
- Write a Java or Scala application or microservice that integrates with Kafka and Kafka Streams
- Write concise code that transforms input Kafka topics into output Kafka topics
- Build, package and deploy the application
Audience
- Developers
Format of the course
- Part lecture, part discussion, exercises and heavy hands-on practice
Notes
- To request a customized training for this course, please contact us to arrange
Confluent KSQL
7 HoursPelatihan langsung yang dipimpin instruktur di Indonesia (online atau di tempat) ini ditujukan untuk pengembang yang ingin menerapkan pemrosesan aliran Apache Kafka tanpa menulis kode.
Pada akhir pelatihan ini, peserta akan dapat:
- Instal dan konfigurasikan Confluent KSQL.
- Siapkan alur pemrosesan aliran hanya menggunakan perintah SQL (tanpa pengkodean Java atau Python).
- Melakukan penyaringan data, transformasi, agregasi, gabungan, windowing, dan sesiisasi sepenuhnya di SQL.
- Rancang dan terapkan kueri interaktif dan berkelanjutan untuk streaming ETL dan analisis waktu nyata.
Apache NiFi for Administrators
21 HoursDalam pelatihan langsung yang dipandu instruktur di Indonesia (di tempat atau jarak jauh), peserta akan mempelajari cara menerapkan dan mengelola Apache NiFi di lingkungan lab langsung.
Pada akhir pelatihan ini, peserta akan dapat:
- Instal dan konfigurasikan Apachi NiFi.
- Sumber, transformasi, dan kelola data dari sumber data yang berbeda dan terdistribusi, termasuk basis data dan danau data besar.
- Mengotomatiskan aliran data.
- Aktifkan analitik streaming.
- Terapkan berbagai pendekatan untuk penyerapan data.
- Transformasi Big Data menjadi wawasan bisnis.
Apache NiFi for Developers
7 HoursDalam pelatihan langsung yang dipandu instruktur di Indonesia ini, peserta akan mempelajari dasar-dasar pemrograman berbasis aliran saat mereka mengembangkan sejumlah ekstensi demo, komponen, dan prosesor menggunakan Apache NiFi.
Pada akhir pelatihan ini, peserta akan dapat:
- Memahami arsitektur NiFi dan konsep aliran data.
- Mengembangkan ekstensi menggunakan NiFi dan API pihak ketiga.
- Mengembangkan prosesor Apache Nifi mereka sendiri.
- Menyerap dan memproses data secara real-time dari berbagai format file dan sumber data yang berbeda dan tidak umum.
Python and Spark for Big Data for Banking (PySpark)
14 HoursPython adalah bahasa pemrograman tingkat tinggi yang terkenal karena sintaksisnya yang jelas dan keterbacaan kode. Spark adalah mesin pemrosesan data yang digunakan dalam kueri, analisis, dan transformasi data besar. PySpark memungkinkan pengguna untuk menghubungkan Spark dengan Python.
Target Pemirsa: Profesional tingkat menengah di industri perbankan yang familiar dengan Python dan Spark, yang ingin memperdalam keterampilan mereka dalam pemrosesan big data dan pembelajaran mesin.
Python and Spark for Big Data (PySpark)
21 HoursDalam pelatihan langsung yang dipimpin instruktur di Indonesia ini, peserta akan mempelajari cara menggunakan Python dan Spark bersama-sama untuk menganalisis data besar saat mereka mengerjakan latihan langsung.
Pada akhir pelatihan ini, peserta akan mampu:
- Pelajari cara menggunakan Spark dengan Python untuk menganalisis Big Data.
- Kerjakan latihan yang meniru kasus dunia nyata.
- Gunakan alat dan teknik yang berbeda untuk analisis data besar menggunakan PySpark.
Spark Streaming with Python and Kafka
7 HoursPelatihan langsung yang dipimpin instruktur di Indonesia (online atau di lokasi) ditujukan untuk teknisi data, ilmuwan data, dan pemrogram yang ingin menggunakan fitur Spark Streaming dalam memproses dan menganalisis data waktu nyata.
Di akhir pelatihan ini, peserta akan dapat menggunakan Spark Streaming untuk memproses aliran data langsung untuk digunakan dalam database, sistem file, dan dasbor langsung.
Apache Spark MLlib
35 HoursMLlib is Spark’s machine learning (ML) library. Its goal is to make practical machine learning scalable and easy. It consists of common learning algorithms and utilities, including classification, regression, clustering, collaborative filtering, dimensionality reduction, as well as lower-level optimization primitives and higher-level pipeline APIs.
It divides into two packages:
-
spark.mllib contains the original API built on top of RDDs.
-
spark.ml provides higher-level API built on top of DataFrames for constructing ML pipelines.
Audience
This course is directed at engineers and developers seeking to utilize a built in Machine Library for Apache Spark