Course Outline
Hari ke 01
Tinjauan Umum Big Data Business Intelligence untuk Analisis Intelijen Kriminal
- Studi Kasus dari Penegakan Hukum - Kepolisian Prediktif
- Big Data tingkat adopsi di Badan Penegak Hukum dan bagaimana mereka menyelaraskan operasi masa depan mereka di sekitar Big Data Predictive Analytics
- Solusi teknologi baru seperti sensor tembakan, video pengawasan, dan media sosial
- Menggunakan teknologi Big Data untuk mengurangi kelebihan informasi
- Berinteraksi Big Data dengan data lama
- Pemahaman dasar tentang teknologi pendukung dalam analitik prediktif
- Data Integration & Visualisasi dasbor
- Manajemen penipuan
- Business Rules dan Deteksi Penipuan
- Deteksi dan pembuatan profil ancaman
- Analisis biaya manfaat untuk implementasi Big Data
Pengantar Big Data
- Karakteristik utama Big Data -- Volume, Variasi, Kecepatan dan Kebenaran.
- Arsitektur MPP (Pemrosesan Paralel Masif)
- Data Warehouses – skema statis, kumpulan data yang berkembang perlahan
- MPP Databases: Greenplum, Exadata, Teradata, Netezza, Vertica dll.
- Hadoop Solusi Berbasis – tidak ada kondisi pada struktur dataset.
- Pola khas: HDFS, MapReduce (crunch), mengambil dari HDFS
- Apache Spark untuk pemrosesan aliran
- Batch- cocok untuk analitis/non-interaktif
- Volume : Data streaming CEP
- Pilihan umum – Produk CEP (misalnya Infostreams, Apama, MarkLogic dll)
- Kurang siap produksi – Storm/S4
- NoSQL Databases – (kolom dan nilai kunci): Paling cocok sebagai tambahan analitis untuk gudang data/basis data
NoSQL solusi
- Toko KV - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- Toko KV - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- Penyimpanan KV (Hierarkis) - GT.m, Cache
- Toko KV (Sudah Dipesan) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Cache - Memcached, Repcached, Koherensi, Infinispan, EXtremeScale, JBossCache, Kecepatan, Terracoqua
- Toko Tuple - Gigaspaces, Coord, Apache River
- Objek Database - ZopeDB, DB40, Shoal
- Penyimpanan Dokumen - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Penyimpanan Kolom Lebar - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Varietas Data: Pendahuluan pada Data Cleaning masalah dalam Big Data
- RDBMS – struktur/skema statis, tidak mendukung lingkungan yang tangkas dan eksploratif.
- NoSQL – semi terstruktur, struktur yang cukup untuk menyimpan data tanpa skema yang tepat sebelum menyimpan data
- Masalah pembersihan data
Hadoop
- Kapan harus memilih Hadoop?
- TERSTRUKTUR - Gudang data/basis data perusahaan dapat menyimpan data dalam jumlah besar (dengan biaya) tetapi memaksakan struktur (tidak baik untuk eksplorasi aktif)
- Data SEMI TERSTRUKTUR – sulit dilakukan menggunakan solusi tradisional (DW/DB)
- Pergudangan data = usaha BESAR dan statis bahkan setelah implementasi
- Untuk variasi & volume data, diproses pada perangkat keras komoditas – HADOOP
- Komoditas H/W yang dibutuhkan untuk membuat Cluster Hadoop
Pengantar Map Reduce /HDFS
- MapReduce – mendistribusikan komputasi ke beberapa server
- HDFS – membuat data tersedia secara lokal untuk proses komputasi (dengan redundansi)
- Data – bisa tidak terstruktur/tanpa skema (tidak seperti RDBMS)
- Tanggung jawab pengembang untuk memahami data
- Programming MapReduce = bekerja dengan Java (pro/kontra), memuat data secara manual ke HDFS
Hari ke 02
Big Data Ekosistem -- Membangun Big Data ETL (Ekstrak, Transformasi, Muat) -- Alat Big Data mana yang digunakan dan kapan?
- Hadoop vs. Solusi lain NoSQL
- Untuk akses data acak dan interaktif
- Hbase (database berorientasi kolom) di atas Hadoop
- Akses acak ke data tetapi ada pembatasan yang diberlakukan (maks 1 PB)
- Tidak bagus untuk analitik ad-hoc, bagus untuk pencatatan, penghitungan, deret waktu
- Sqoop - Impor dari database ke Hive atau HDFS (akses JDBC/ODBC)
- Flume – Mengalirkan data (misalnya data log) ke HDFS
Sistem Besar Data Management
- Komponen yang bergerak, node komputasi mulai/gagal :ZooKeeper - Untuk layanan konfigurasi/koordinasi/penamaan
- Alur kerja/pipa yang kompleks: Oozie – mengelola alur kerja, dependensi, rantai daisy
- Menyebarkan, mengonfigurasi, manajemen kluster, pemutakhiran, dll. (admin sistem) :Ambari
- Di Awan : Berputar
Predictive Analytics -- Teknik Dasar dan Machine Learning berdasarkan Business Intelligence
- Pengantar Machine Learning
- Mempelajari teknik klasifikasi
- Prediksi Bayesian -- menyiapkan file pelatihan
- Mesin Vektor Pendukung
- Aljabar Pohon-p KNN & penambangan vertikal
- Neural Networks
- Big Data masalah variabel besar -- Hutan acak (RF)
- Big Data Masalah otomatisasi – Multi-model ensemble RF
- Otomasi melalui Soft10-M
- Alat analisis teks-Treeminer
- Agile belajar
- Pembelajaran berbasis agen
- Pembelajaran terdistribusi
- Pengantar Alat Sumber Terbuka untuk Analisis Prediktif: R, Python, Rapidminer, Mahut
Predictive Analytics Ekosistem dan Aplikasinya dalam Analisis Intelijen Kriminal
- Teknologi dan proses investigasi
- Analisis wawasan
- Analisis visualisasi
- Analisis prediktif terstruktur
- Analisis prediktif tak terstruktur
- Profil ancaman/penipu/vendor
- Mesin Rekomendasi
- Deteksi pola
- Penemuan Aturan/Skenario – kegagalan, penipuan, pengoptimalan
- Penemuan akar penyebab
- Analisis sentimen
- Analisis CRM
- Analisis jaringan
- Analisis teks untuk memperoleh wawasan dari transkrip, pernyataan saksi, obrolan internet, dll.
- Tinjauan dengan bantuan teknologi
- Analisis penipuan
- Analisis Waktu Nyata
Hari ke 03
Analisis Real Time dan Scalable Selama Hadoop
- Mengapa algoritma analitik umum gagal di Hadoop/HDFS
- Apache Hama- untuk komputasi terdistribusi Sinkron Massal
- Apache SPARK- untuk komputasi cluster dan analitik waktu nyata
- CMU Graphics Lab2 - Pendekatan asinkron berbasis grafik untuk komputasi terdistribusi
- KNN p -- Pendekatan berbasis aljabar dari Treeminer untuk mengurangi biaya operasi perangkat keras
Alat untuk eDiscovery dan Forensik
- eDiscovery melalui Big Data vs. Data lama – perbandingan biaya dan kinerja
- Pengkodean prediktif dan Tinjauan Berbantuan Teknologi (TAR)
- Demo langsung vMiner untuk memahami bagaimana TAR memungkinkan penemuan yang lebih cepat
- Pengindeksan lebih cepat melalui HDFS – Kecepatan data
- NLP (Pemrosesan Bahasa Alami) – produk dan teknik sumber terbuka
- eDiscovery dalam bahasa asing -- teknologi untuk pemrosesan bahasa asing
Big Data BI untuk Cyber Security – Mendapatkan tampilan 360 derajat, pengumpulan data cepat, dan identifikasi ancaman
- Memahami dasar-dasar analitik keamanan -- permukaan serangan, kesalahan konfigurasi keamanan, pertahanan host
- Infrastruktur jaringan / Pipa data besar / Respons ETL untuk analitik waktu nyata
- Preskriptif vs prediktif – Aturan tetap vs penemuan otomatis aturan ancaman dari Meta data
Mengumpulkan data yang berbeda untuk Analisis Intelijen Kriminal
- Menggunakan IoT (Internet of Things) sebagai sensor untuk menangkap data
- Memanfaatkan Citra Satelit untuk Pengawasan Domestik
- Menggunakan pengawasan dan data gambar untuk identifikasi kriminal
- Teknologi pengumpulan data lainnya -- drone, kamera tubuh, sistem penandaan GPS, dan teknologi pencitraan termal
- Menggabungkan pengambilan data otomatis dengan data yang diperoleh dari informan, interogasi, dan penelitian
- Forecasting aktivitas kriminal
Hari ke 04
Pencegahan Penipuan BI dari Big Data di Analisis Penipuan
- Klasifikasi Dasar Analisis Penipuan -- Analisis Berbasis Aturan vs Analisis Prediktif
- Pembelajaran mesin yang diawasi vs tanpa pengawasan untuk deteksi pola penipuan
- Business untuk penipuan bisnis, penipuan klaim medis, penipuan asuransi, penghindaran pajak dan pencucian uang
Social Media Analisis -- Pengumpulan dan analisis intelijen
- Bagaimana Social Media digunakan oleh para penjahat untuk mengorganisasi, merekrut dan merencanakan
- Big Data ETL API untuk mengekstrak data media sosial
- Teks, gambar, metadata dan video
- Analisis sentimen dari umpan media sosial
- Pemfilteran kontekstual dan non-kontekstual dari umpan media sosial
- Social Media Dashboard untuk mengintegrasikan beragam media sosial
- Profiling otomatis profil media sosial
- Demo langsung setiap analitik akan diberikan melalui Alat Treeminer
Big Data Analisis dalam pemrosesan gambar dan umpan video
- Teknik Penyimpanan Gambar dalam Big Data -- Solusi penyimpanan untuk data yang melebihi petabyte
- LTFS (Sistem Berkas Pita Linier) dan LTO (Sistem Berkas Pita Linier Terbuka)
- GPFS-LTFS (General Parallel File System - Linear Tape File System) -- solusi penyimpanan berlapis untuk data gambar besar
- Dasar-dasar analisis gambar
- Pengenalan objek
- Segmentasi gambar
- Pelacakan gerakan
- Rekonstruksi gambar 3-D
Biometrik, DNA dan Program Identifikasi Generasi Berikutnya
- Selain sidik jari dan pengenalan wajah
- Pengenalan ucapan, penekanan tombol (menganalisis pola pengetikan pengguna) dan CODIS (Sistem Indeks DNA gabungan)
- Lebih dari sekadar pencocokan DNA: menggunakan fenotipe DNA forensik untuk membuat wajah dari sampel DNA
Big Data Dashboard untuk akses cepat berbagai data dan tampilan :
- Integrasi platform aplikasi yang ada dengan Big Data Dashboard
- Big Data manajemen
- Studi Kasus Dashboard Big Data: Tableau dan Pentaho
- Gunakan aplikasi Big Data untuk mendorong layanan berbasis lokasi di Govt.
- Sistem pelacakan dan manajemen
Hari ke 05
Bagaimana membenarkan Big Data implementasi BI dalam suatu organisasi:
- Menentukan ROI (Return on Investment) untuk penerapan Big Data
- Studi kasus untuk menghemat Waktu Analis dalam pengumpulan dan persiapan Data – meningkatkan produktivitas
- Keuntungan pendapatan dari biaya lisensi basis data yang lebih rendah
- Keuntungan pendapatan dari layanan berbasis lokasi
- Penghematan biaya dari pencegahan penipuan
- Pendekatan spreadsheet terintegrasi untuk menghitung perkiraan biaya vs. Keuntungan/penghematan pendapatan dari implementasi Big Data.
Prosedur Langkah demi Langkah untuk mengganti sistem data lama dengan Sistem Big Data
- Big Data Peta Jalan Migrasi
- Informasi penting apa yang dibutuhkan sebelum membangun arsitektur sistem Big Data?
- Apa saja cara menghitung Volume, Kecepatan, Variasi dan Kebenaran data?
- Cara memperkirakan pertumbuhan data
- Studi kasus
Ulasan Big Data Vendor dan ulasan produk mereka.
- Bahasa Indonesia: Accenture
- APTEAN (Sebelumnya Perangkat Lunak CDC)
- Cisco Sistem
- awan
- Dell
- EMC
- GoPerusahaan odData
- Jambu biji
- Sistem Data Hitachi
- Pabrik Horton
- HP
- Bahasa Indonesia: IBM
- Informatika
- Intel
- Jaspersoft
- Microsoft
- MongoDB (Sebelumnya 10Gen)
- MU Sigma
- Aplikasi NetApp
- Solusi Opera
- Oracle
- Pentaho
- Platform
- Qliktek
- Kuantum
- Ruang rak
- Analisis Revolusi
- Salesforce
- SAP
- SAS Institut
- Rasa sakit
- Perangkat Lunak AG/Terakota
- Otomatisasi Soft10
- Splunk
- Sqrrl
- Supermikro
- Tableau Perangkat Lunak
- Teradata
- Analisis Berpikir Besar
- Sistem Tanda Pasang Surut
- Penambang Pohon
- VMware (Bagian dari EMC)
Sesi Tanya Jawab
Requirements
- Pengetahuan tentang proses penegakan hukum dan sistem data
- Pemahaman dasar tentang SQL/Oracle atau database relasional
- Pemahaman dasar tentang statistik (pada tingkat Spreadsheet)
Hadirin
- Spesialis penegakan hukum dengan latar belakang teknis
Testimonials (1)
Deepthi sangat peka terhadap kebutuhan saya, dia bisa tahu kapan harus menambahkan lapisan kompleksitas dan kapan harus menahan diri dan mengambil pendekatan yang lebih terstruktur. Deepthi benar-benar bekerja sesuai dengan kecepatan saya dan memastikan saya dapat menggunakan fungsi/alat baru sendiri dengan terlebih dahulu menunjukkannya lalu membiarkan saya membuat ulang sendiri item-item tersebut yang benar-benar membantu menanamkan pelatihan. Saya sangat puas dengan hasil pelatihan ini dan dengan tingkat keahlian Deepthi!
Deepthi - Invest Northern Ireland
Course - IBM Cognos Analytics
Machine Translated