Home
Big Data Training
Apache Spark Training
SMACK Stack for Data Science Training Course

SMACK Stack for Data Science Training Course

SMACK is a collection of data platform softwares, namely Apache Spark, Apache Mesos, Apache Akka, Apache Cassandra, and Apache Kafka. Using the SMACK stack, users can create and scale data processing platforms.

This instructor-led, live training (online or onsite) is aimed at data scientists who wish to use the SMACK stack to build data processing platforms for big data solutions.

By the end of this training, participants will be able to:

Implement a data pipeline architecture for processing big data.
Develop a cluster infrastructure with Apache Mesos and Docker.
Analyze data with Spark and Scala.
Manage unstructured data with Apache Cassandra.

Format of the Course

Interactive lecture and discussion.
Lots of exercises and practice.
Hands-on implementation in a live-lab environment.

Course Customization Options

To request a customized training for this course, please contact us to arrange.

Thank you for sending your enquiry! One of our team members will contact you shortly.

Thank you for sending your booking! One of our team members will contact you shortly.

Course Outline

Introduction

SMACK Stack Overview

What is Apache Spark? Apache Spark features
What is Apache Mesos? Apache Mesos features
What is Apache Akka? Apache Akka features
What is Apache Cassandra? Apache Cassandra features
What is Apache Kafka? Apache Kafka features

Scala Language

Scala syntax and structure
Scala control flow

Preparing the Development Environment

Installing and configuring the SMACK stack
Installing and configuring Docker

Apache Akka

Using actors

Apache Cassandra

Creating a database for read operations
Working with backups and recovery

Connectors

Creating a stream
Building an Akka application
Storing data with Cassandra
Reviewing connectors

Apache Kafka

Working with clusters
Creating, publishing, and consuming messages

Apache Mesos

Allocating resources
Running clusters
Working with Apache Aurora and Docker
Running services and jobs
Deploying Spark, Cassandra, and Kafka on Mesos

Apache Spark

Managing data flows
Working with RDDs and dataframes
Performing data analysis

Troubleshooting

Handling failure of services and errors

Summary and Conclusion

Requirements

An understanding of data processing systems

Audience

Data Scientists

14 Hours

Number of participants

Online

Classroom

Select Location

Please select a Venue

Price per participant

Open Training Courses require 5+ participants.

SMACK Stack for Data Science Training Course - Booking

Full name *

Email *

Phone *

Job Title

Company Name

Address 1 *

City *

State / Province

Country *

Postcode *

Start Date

Tax ID

Dates are subject to availability and take place between 09:30 and 16:30.

Payment *

Bank Transfer (Invoice, PO)

Debit / Credit Card

Comments

Allow Publishing Certificate

If you check this box the participants will receive an option to publish their course certificate on the NobleProg Certified Professional Catalogue.

Terms and Conditions *

I am an authorised representative of the above named client and I wish to book the above courses or services in accordance with NobleProg Terms and Conditions and Privacy Policy.

Inform me about discounts and promotions

Please read our Privacy Policy to find out how we use your data

SMACK Stack for Data Science Training Course - Enquiry

Full name *

Email *

Phone *

Number of participants

Company Name

Company Address

How do you want to take the course?

Client Premises

Online

Classroom

Comments

Inform me about discounts and promotions

Please read our Privacy Policy to find out how we use your data

SMACK Stack for Data Science - Consultancy Enquiry

Consultancy Enquiry

Full name *

Phone *

Email *

Company Name

Consultancy Subject *

Consultancy Goal

Consultancy Duration

Number of Consultants

Suitable Date

Who will the consultant work with?

Consultancy Urgency *

Comments

Inform me about discounts and promotions

Please read our Privacy Policy to find out how we use your data

Testimonials (1)

very interactive...

Richard Langford

Course - SMACK Stack for Data Science

40305454 IDR (Classroom)

Related Courses

Introduction to Data Science and AI using Python

35 Hours

This is a 5 day introduction to Data Science and Artificial Intelligence (AI).

The course is delivered with examples and exercises using Python

Apache Airflow for Data Science: Automating Machine Learning Pipelines

21 Hours

Pelatihan langsung yang dipimpin instruktur di Indonesia (online atau di tempat) ini ditujukan untuk peserta tingkat menengah yang ingin mengotomatiskan dan mengelola alur kerja pembelajaran mesin, termasuk pelatihan model, validasi, dan penerapan menggunakan Apache Airflow.

Pada akhir pelatihan ini, peserta akan dapat:

Siapkan Apache Airflow untuk orkestrasi alur kerja pembelajaran mesin.
Otomatisasi praproses data, pelatihan model, dan tugas validasi.
Integrasikan Airflow dengan kerangka kerja dan alat pembelajaran mesin.
Terapkan model pembelajaran mesin menggunakan jalur otomatis.
Pantau dan optimalkan alur kerja pembelajaran mesin dalam produksi.

Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP

21 Hours

Kursus ini ditujukan bagi pengembang dan ilmuwan data yang ingin memahami dan menerapkan kecerdasan buatan dalam aplikasi mereka. Fokus khusus adalah pada analisis data, kecerdasan buatan terdistribusi, dan pemrosesan bahasa alami.

Anaconda Ecosystem for Data Scientists

14 Hours

Pelatihan langsung yang dipimpin instruktur di Indonesia (online atau di tempat) ini ditujukan untuk ilmuwan data yang ingin menggunakan ekosistem Anaconda untuk menangkap, mengelola, dan menyebarkan paket dan alur kerja analisis data dalam satu platform.

Pada akhir pelatihan ini, peserta akan dapat:

Instal dan konfigurasikan Anaconda komponen dan pustaka.
Memahami konsep inti, fitur, dan manfaat Anaconda.
Kelola paket, lingkungan, dan saluran menggunakan Anaconda Navigator.
Gunakan paket Conda, R, dan Python untuk ilmu data dan pembelajaran mesin.
Ketahui beberapa kasus penggunaan praktis dan teknik untuk mengelola berbagai lingkungan data.

AWS Cloud9 for Data Science

28 Hours

Pelatihan langsung yang dipimpin instruktur di Indonesia (online atau di tempat) ini ditujukan untuk ilmuwan data dan analis tingkat menengah yang ingin menggunakan AWS Cloud9 untuk alur kerja ilmu data yang efisien.

Pada akhir pelatihan ini, peserta akan dapat:

Siapkan lingkungan ilmu data di AWS Cloud9.
Lakukan analisis data menggunakan Python, R, dan Jupyter Notebook di Cloud9.
Integrasikan AWS Cloud9 dengan layanan data AWS seperti S3, RDS, dan Redshift.
Memanfaatkan AWS Cloud9 untuk pengembangan dan penerapan model pembelajaran mesin.
Optimalkan alur kerja berbasis cloud untuk analisis dan pemrosesan data.

Big Data Business Intelligence for Telecom and Communication Service Providers

35 Hours

Overview

Communications service providers (CSP) are facing pressure to reduce costs and maximize average revenue per user (ARPU), while ensuring an excellent customer experience, but data volumes keep growing. Global mobile data traffic will grow at a compound annual growth rate (CAGR) of 78 percent to 2016, reaching 10.8 exabytes per month.

Meanwhile, CSPs are generating large volumes of data, including call detail records (CDR), network data and customer data. Companies that fully exploit this data gain a competitive edge. According to a recent survey by The Economist Intelligence Unit, companies that use data-directed decision-making enjoy a 5-6% boost in productivity. Yet 53% of companies leverage only half of their valuable data, and one-fourth of respondents noted that vast quantities of useful data go untapped. The data volumes are so high that manual analysis is impossible, and most legacy software systems can’t keep up, resulting in valuable data being discarded or ignored.

With Big Data & Analytics’ high-speed, scalable big data software, CSPs can mine all their data for better decision making in less time. Different Big Data products and techniques provide an end-to-end software platform for collecting, preparing, analyzing and presenting insights from big data. Application areas include network performance monitoring, fraud detection, customer churn detection and credit risk analysis. Big Data & Analytics products scale to handle terabytes of data but implementation of such tools need new kind of cloud based database system like Hadoop or massive scale parallel computing processor ( KPU etc.)

This course work on Big Data BI for Telco covers all the emerging new areas in which CSPs are investing for productivity gain and opening up new business revenue stream. The course will provide a complete 360 degree over view of Big Data BI in Telco so that decision makers and managers can have a very wide and comprehensive overview of possibilities of Big Data BI in Telco for productivity and revenue gain.

Course objectives

Main objective of the course is to introduce new Big Data business intelligence techniques in 4 sectors of Telecom Business (Marketing/Sales, Network Operation, Financial operation and Customer Relation Management). Students will be introduced to following:

Introduction to Big Data-what is 4Vs (volume, velocity, variety and veracity) in Big Data- Generation, extraction and management from Telco perspective
How Big Data analytic differs from legacy data analytic
In-house justification of Big Data -Telco perspective
Introduction to Hadoop Ecosystem- familiarity with all Hadoop tools like Hive, Pig, SPARC –when and how they are used to solve Big Data problem
How Big Data is extracted to analyze for analytics tool-how Business Analysis’s can reduce their pain points of collection and analysis of data through integrated Hadoop dashboard approach
Basic introduction of Insight analytics, visualization analytics and predictive analytics for Telco
Customer Churn analytic and Big Data-how Big Data analytic can reduce customer churn and customer dissatisfaction in Telco-case studies
Network failure and service failure analytics from Network meta-data and IPDR
Financial analysis-fraud, wastage and ROI estimation from sales and operational data
Customer acquisition problem-Target marketing, customer segmentation and cross-sale from sales data
Introduction and summary of all Big Data analytic products and where they fit into Telco analytic space
Conclusion-how to take step-by-step approach to introduce Big Data Business Intelligence in your organization

Target Audience

Network operation, Financial Managers, CRM managers and top IT managers in Telco CIO office.
Business Analysts in Telco
CFO office managers/analysts
Operational managers
QA managers

Introduction to Google Colab for Data Science

14 Hours

Pelatihan langsung yang dipimpin instruktur di Indonesia (online atau di lokasi) ini ditujukan untuk ilmuwan data tingkat pemula dan profesional TI yang ingin mempelajari dasar-dasar ilmu data menggunakan Google Colab.

Pada akhir pelatihan ini, peserta akan mampu:

Siapkan dan navigasikan Google Colab.
Tulis dan jalankan kode dasar Python.
Impor dan tangani kumpulan data.
Buat visualisasi menggunakan Python perpustakaan.

A Practical Introduction to Data Science

35 Hours

Participants who complete this training will gain a practical, real-world understanding of Data Science and its related technologies, methodologies and tools.

Participants will have the opportunity to put this knowledge into practice through hands-on exercises. Group interaction and instructor feedback make up an important component of the class.

The course starts with an introduction to elemental concepts of Data Science, then progresses into the tools and methodologies used in Data Science.

Audience

Developers
Technical analysts
IT consultants

Format of the Course

Part lecture, part discussion, exercises and heavy hands-on practice

Note

To request a customized training for this course, please contact us to arrange.

Introduction to Graph Computing

28 Hours

Dalam pelatihan langsung yang dipandu instruktur di Indonesia ini, peserta akan mempelajari tentang penawaran teknologi dan pendekatan implementasi untuk memproses data grafik. Tujuannya adalah untuk mengidentifikasi objek dunia nyata, karakteristik dan hubungannya, kemudian memodelkan hubungan ini dan memprosesnya sebagai data menggunakan pendekatan Graph Computing (juga dikenal sebagai Analisis Grafik). Kami mulai dengan ikhtisar umum dan mempersempitnya pada alat tertentu saat kami melangkah melalui serangkaian studi kasus, latihan langsung, dan penerapan langsung.

Pada akhir pelatihan ini, peserta akan dapat:

Memahami bagaimana data grafik dipertahankan dan dilintasi.
Pilih kerangka kerja terbaik untuk tugas tertentu (dari basis data grafik hingga kerangka kerja pemrosesan batch.)
Terapkan Hadoop, Spark, GraphX dan Pregel untuk melakukan komputasi grafik di banyak mesin secara paralel.
Lihat masalah big data dunia nyata dalam bentuk grafik, proses, dan lintasan.

Kaggle

14 Hours

Pelatihan langsung yang dipimpin instruktur di Indonesia (online atau di tempat) ini ditujukan untuk ilmuwan data dan pengembang yang ingin belajar dan membangun karier mereka di Data Science menggunakan Kaggle.

Pada akhir pelatihan ini, peserta akan dapat:

Pelajari tentang ilmu data dan pembelajaran mesin.
Jelajahi analitik data.
Pelajari tentang Kaggle dan cara kerjanya.

Accelerating Python Pandas Workflows with Modin

14 Hours

Pelatihan langsung yang dipimpin instruktur di Indonesia (online atau di tempat) ini ditujukan untuk ilmuwan data dan pengembang yang ingin menggunakan Modin untuk membangun dan menerapkan komputasi paralel dengan Pandas untuk analisis data yang lebih cepat.

Pada akhir pelatihan ini, peserta akan dapat:

Siapkan lingkungan yang diperlukan untuk mulai mengembangkan Pandas alur kerja berskala dengan Modin.
Memahami fitur, arsitektur, dan keuntungan Modin.
Ketahui perbedaan antara Modin, Dask, dan Ray.
Lakukan operasi Pandas lebih cepat dengan Modin.
Terapkan seluruh API dan fungsi Pandas.

Python and Spark for Big Data for Banking (PySpark)

14 Hours

Python adalah bahasa pemrograman tingkat tinggi yang terkenal karena sintaksisnya yang jelas dan keterbacaan kode. Spark adalah mesin pemrosesan data yang digunakan dalam kueri, analisis, dan transformasi data besar. PySpark memungkinkan pengguna untuk menghubungkan Spark dengan Python.

Target Pemirsa: Profesional tingkat menengah di industri perbankan yang familiar dengan Python dan Spark, yang ingin memperdalam keterampilan mereka dalam pemrosesan big data dan pembelajaran mesin.

GPU Data Science with NVIDIA RAPIDS

14 Hours

Pelatihan langsung yang dipimpin instruktur di Indonesia (online atau di lokasi) ditujukan untuk ilmuwan data dan pengembang yang ingin menggunakan RAPIDS untuk membangun alur data, alur kerja, dan visualisasi yang dipercepat GPU, dengan menerapkan algoritme pembelajaran mesin, seperti XGBoost, cuML, dll.

Pada akhir pelatihan ini, peserta akan mampu:

Siapkan lingkungan pengembangan yang diperlukan untuk membangun model data dengan NVIDIA RAPIDS.
Memahami fitur, komponen, dan kelebihan RAPIDS.
Manfaatkan GPU untuk mempercepat jalur data dan analitik ujung ke ujung.
Menerapkan persiapan data yang dipercepat GPU dan ETL dengan cuDF dan Apache Arrow.
Pelajari cara melakukan tugas pembelajaran mesin dengan algoritma XGBoost dan cuML.
Bangun visualisasi data dan jalankan analisis grafik dengan cuXfilter dan cuGraph.

Python and Spark for Big Data (PySpark)

21 Hours

Dalam pelatihan langsung yang dipimpin instruktur di Indonesia ini, peserta akan mempelajari cara menggunakan Python dan Spark bersama-sama untuk menganalisis data besar saat mereka mengerjakan latihan langsung.

Pada akhir pelatihan ini, peserta akan mampu:

Pelajari cara menggunakan Spark dengan Python untuk menganalisis Big Data.
Kerjakan latihan yang meniru kasus dunia nyata.
Gunakan alat dan teknik yang berbeda untuk analisis data besar menggunakan PySpark.

Apache Spark MLlib

35 Hours

MLlib is Spark’s machine learning (ML) library. Its goal is to make practical machine learning scalable and easy. It consists of common learning algorithms and utilities, including classification, regression, clustering, collaborative filtering, dimensionality reduction, as well as lower-level optimization primitives and higher-level pipeline APIs.

It divides into two packages:

spark.mllib contains the original API built on top of RDDs.
spark.ml provides higher-level API built on top of DataFrames for constructing ML pipelines.

Audience

This course is directed at engineers and developers seeking to utilize a built in Machine Library for Apache Spark

Related Categories

SMACK Stack for Data Science Training Course

Course Outline

Requirements

Testimonials (1)

Richard Langford

Course - SMACK Stack for Data Science

Upcoming Courses (Minimal 5 peserta)

SMACK Stack for Data Science

SMACK Stack for Data Science

SMACK Stack for Data Science

SMACK Stack for Data Science

SMACK Stack for Data Science

Related Categories

This site in other countries/regions

Europe

Asia Pacific

North America

South America

Africa / Middle East

Other sites