Pengantar Data Sains

12/16/2024

Minggu 2 3 ga masuk dosen

Tugas 30% Quiz 20% offline UTS 50% Absen 0


Table of Contents

UTS

Data preparation

Soal 5 essai

1. Konsep data sains

1) Big Data, Data Science, dan AI

Data adalah sekumpulan informasi yang terdiri dari beberapa fakta yang dapat berbentuk dari angka, kata-kata, atau simbol-simbol tertentu.

Dapat dikumpulkan lewat proses pencarian ataupun pengamatan menggunakan pendekatan yang tepat berdasarkan sumber-sumber tertentu.

Apa itu Big Data ?

Volume data yang tersedia dalam berbagai tingkat kompleksitas, dihasilkan pada kecepatan yang berbeda dan berbagai tingkat ambiguitas yang tidak dapat diproses.

Karakteristik Big Data (3V, 4V, 8V, 10V, 15V)

  • Volume, Besaran/Banyaknya data
  • Variety, Jenis data
  • Velocity, Frekuensi atau Data real-time
  • Veracity, Akurasi & berlakunya Data
Konsep Big Data

Mengumpulkan semua data yang dihasilkan dan memprosesnya dengan tepat untuk memberikan nilai yang diharapkan

Konsep Big Data dibagi tiga:

  1. Integrasi Data
  2. Pengelolaan Data
  3. Analisis Data

2) Stategi Nasional AI & Pengembangan Talenta

3) Jenis - Jenis Science

Jenis - Jenis Algoritma Data Science
  • Supervised Learning Model ini belajar (learning) dari dataset berlabel dan kemudian digunakan untuk memprediksi kejadian di masa depan Supervised model dapat dikelompokkan lebih lanjut ke dalam kasus regresi dan klasifikasi:

    • Klasifikasi: Masalah klasifikasi adalah ketika variabel output adalah kategori, mis. "penyakit" / "tidak ada penyakit".

    • Regresi: Masalah regresi adalah ketika variabel output adalah nilai kontinu yang nyata, mis. prediksi harga saham.

  • Unsupervised Learning Unsupervised learning menggunakan algoritma pembelajaran mesin untuk menganalisis dan mengelompokkan kumpulan data yang tidak berlabel. Algoritma ini menemukan pola tersembunyi dalam data tanpa perlu campur tangan manusia (oleh karena itu, mereka "tidak diawasi").

  • Reinforcement Learning Konsep pembelajaran yang melibatkan interaksi Agent dan lingkungan (Environment) untuk mencapai tujuan (Goal).

    • Agent: mempunyai tugas untuk mencapai tujuan (Goal)
    • Environment: memberikan umpan balik terhadap aksi yang dilakukan Agen.
    • Goal: memilih aksi yang memaksimalkan reward

4) Pemanfaatan Data Science

2. Manajemen proyek

1) Metodologi Data Science

Software Developement Life Cycle (SDLC)
  • Initiation
  • System COncept Development
  • Planning
  • Requirement Analysis
  • Design
  • Development
  • Integration and Test
  • Implementation
  • Operations & Maintanance
  • Disposition

2) Pengenalan Metode CRISP-DM

CRISP-DM: Cross Industry Standard Process for Data Mining

  • Business Understanding
  • Data Understanding
  • Data preparation
  • Modelling
  • Evaluation
  • Deployment

3) Manajemen Projek

Apa itu ?

Manajemen secara umum adalah suatu upaya untuk mencapai suatu tujuan dengan sumber daya seminimal mungkin (efisien). Sementara itu, Proyek adalah rencana pekerjaan dengan suatu target pencapaian tertentu yang diselesaikan dalam rentang waktu tertentu.

Tujuan:

  1. Menyelesaikan tepat waktu
  2. Menjaga anggaran
  3. Menjaga kualitas
  4. Melancarkan proyek
Sasaran Manajemen Projek
  • Menyelesaikan dan mengembangkan proyek sesuai dengan anggaran biaya dan tenggatwaktu yang telah ditentukan sekaligus dalam kualitas/spesifikasi sesuai dengan yang telah disepakati di awal.
  • Meningkatkan nama baik pelaksana proyek berdasarkan kualitas hasil proyek.
  • Menciptakan suasana kerja kondusif untuk mendukung kelancaran aktivitas proyek. Hal ini meliputi ketersediaan keadaan, sarana-prasarana, dan keselamatan kerja.
  • Menjaga keharmonisan antar pihak dalam proyek sehingga seluruh pihak terlibat akan memberikan yang terbaik untuk proyek yang sedang dijalankan.
Lingkup Manajemen Projek
  • Waktu projek dimulai
  • Pendefinisian ruang linkup projek
  • Perencanaan lingkup projek
  • Verifikasi projek dan kontrol ketika projek sedang dijalankan

4) Pengenalan Data Science dan Software Engineer

3. Tools for data science

Pengenalan Anaconda

  • Python Anaconda adalah platform bahasa pemrograman Python yang yang banyak digunakan untuk pengembangan aplikasi ilmiah, analisis data, dan pembelajaran mesin

  • Package Manager Anaconda mencakup manajer paket yang komprehensif, yaitu Conda, yang menyederhanakan instalasi dan pengelolaan data science libraries.

  • Virtual Environments Anaconda memudahkan untuk membuat dan mengelola lingkungan Python yang terisolasi, memastikan konsistensi dependensi di berbagai proyek.

Introducing Jupyter Notebook

  • Interactive Coding Jupyter Notebook memungkinkan Anda menulis dan menjalankan kode, melihat hasil, dan menambahkan teks naratif dalam satu dokumen.

  • Data Visualization Jupyter Notebook terintegrasi dengan lancar dengan pustaka visualisasi data seperti Matplotlib dan Plotly, memungkinkan Anda untuk membuat dan menampilkan plot interaktif.

  • Collaboration Notebook dapat dibagikan dan dikerjakan secara kolaboratif, memudahkan kerja sama dengan tim dalam proyek ilmu data.

Integrating Data Science Tools in Jupyter Notebook

  • Pandas Pandas adalah pustaka manipulasi dan analisis data yang kuat, yang terintegrasi dengan lancar dengan Jupyter Notebook.

  • Scikit-learn Scikit-learn adalah pustaka pembelajaran mesin yang populer dan dapat digunakan dalam Jupyter Notebook untuk pengembangan dan evaluasi model.

  • Matplotlib Matplotlib adalah pustaka visualisasi data yang komprehensif yang menyediakan berbagai opsi pemetaan di Jupyter Notebook

Advantages and Drawbacks of Anaconda

![[Pasted image 20241216185928.png]]

4. NLP dan Deep Learning

Apa itu NLP ?

Natural Language Processing (NLP) Sebuah teknologi machine learning yang memberi komputer kemampuan untuk menginterpretasikan, memanipulasi, dan memahami Bahasa manusia.

Mengapa Penting ?

NLP sangat penting untuk menganalisis data teks dan ucapan secara penuh dan efisien. Teknologi ini dapat menjelajahi berbagai perbedaan dalam dialek, bahasa gaul, dan penyimpangan tata bahasa yang khas dalam percakapan sehari-hari. Banyak perusahaan menggunakan teknologi ini untuk berbagai tugas otomatis, seperti untuk:

• Memproses, menganalisis, dan mengarsipkan dokumen besar • Menganalisis umpan balik pelanggan atau rekaman pusat panggilan • Menjalankan chatbot untuk layanan pelanggan otomatis • Menjawab pertanyaan seputar siapa-apa-kapan-di mana • Menglasifikasikan dan mengekstraksi teks

Cara kerja NLP

NLP menggabungkan model linguistik komputasional, machine learning, dan deep learning untuk memproses bahasa manusia.

  1. Linguistik Komputasional Linguistik komputasional adalah ilmu memahami dan membangun model bahasa manusia dengan alat komputer dan perangkat lunak. Contoh:

    • Analisis sintaksis
    • Analisis semantik
  2. Machine Learning Bahasa manusia memiliki sejumlah fitur seperti sarkasme, metafora, variasi dalam struktur kalimat, serta tata bahasa dan pengecualian penggunaan yang memerlukan waktu bertahun-tahun untuk dipelajari oleh manusia. Programmer menggunakan metode machine learning untuk mengajari aplikasi NLP mengenali dan memahami fitur-fitur ini secara akurat sejak awal.

  3. Deep Learning Deep learning adalah sebuah bidang machine learning spesifik yang mengajari komputer untuk belajar dan berpikir seperti manusia. Dengan deep learning, komputer mengenali, menglasifikasikan, dan menghubungkan pola kompleks dalam data input.

Langkah Langkah Implementasi NLP

  • Biasanya, implementasi NLP dimulai dengan mengumpulkan dan menyiapkan data teks atau ucapan yang tidak terstruktur dari banyak sumber seperti gudang data cloud, survei, email, atau aplikasi proses bisnis internal.

  • Preprocessing. Perangkat lunak NLP menggunakan teknik prapemrosesan seperti tokenisasi, stemming, lemmatisasi, dan penghapusan kata henti guna menyiapkan data untuk berbagai aplikasi.

  • Tokenisasi memecah sebuah kalimat menjadi unit kata atau frasa inividual.

  • Stemming dan lemmatisasi menyederhanakan kata ke dalam bentuk akarnya. Misalnya, proses ini mengubah “starting” menjadi “start”.

  • Penghapusan kata henti memastikan bahwa kata yang tidak menambahkan makna signifikan ke sebuah kalimat, seperti “for” dan “with”, dihapus.

  • Training. Menggunakan data yang diproses sebelumnya dan machine learning untuk melatih model NLP guna menjalankan aplikasi spesifik berdasarkan informasi tekstual yang disediakan. Pelatihan algoritma NLP memerlukan pemberian sampel data besar pada perangkat lunak untuk meningkatkan akurasi algoritma.

  • Deployment. Machine Learning Engineer kemudian melakukan deployment model atau mengintegrasikan model tersebut ke dalam lingkungan produksi yang sudah ada. Model NLP menerima input dan memprediksi output untuk kasus penggunaan spesifik yang didesain untuk model tersebut.

Deep Learning

Convolutional Neural Network (CNN) CNN merupakan metode Deep Learning yang merupakan salah satu jenis arsitektur

ANN Ada tiga layer utama yaitu convolutional layer, pooling layer, dan fully connected layer

  1. Convolutional Layer Convolutional layer merupakan proses konvolusi citra input dengan filter yang menghasilkan feature map Ukuran matrik citra dan ukuran matrik filter akan mempengaruhi ukuran matrik feature map

  2. Convolutional Layer Proses konvolusi citra dengan filter dilakukan sliding filter mulai dari kiri atas dari matirk citra sampai kanan bawah

Rumus konvolusi dari citra I dengan filter K sebagai berikut: ![[Pasted image 20241216184755.png]]

  1. Pooling Layer Pooling layer digunakan untuk mengurangi ukuran gambar menjadi lebih kecil (down sample) dan mengekstrak salient features. Pooling layer yang umum digunakan adalah Maximum pooling dan Average pooling

  2. Fully Connected Layer Fully connected layer merupakan arsitektur Multi-layer ANN Feature map hasil dari proses konvolusi dan pooling, selanjutnya dilakukan proses flatten yaitu merubah matrix menjadi vektor sebagai inputan fully connected layer

Recurrent Neural Network Recurrent Neural Netword (RNN) adalah salah satu arsitektur ANN yang mampu merepresentasikan data sequential misalnya teks, dna, suara, time series, dan sebagainya

5. Data Integration

Definisi Integrasi Data

Integrasi data adalah proses untuk menggabungkan data dari beberapa sumber yang berbeda untuk memberikan tampilan tunggal yang terpadu kepada pengguna.

Manfaat Integrasi Data

  • Data yang lebih baik
  • Kolaborasi yang lebih baik
  • Koneksi cepat antar penyimpanan data
  • Peningkatan efisiensi dan ROI
  • Pengalaman pelanggan dan mitra yang lebih baik
  • Tampilan komprehensif tentang bisnis

ETL

Satu tipe umum integrasi data adalah penyerapan data, yaitu data dari satu sistem diintegrasikan secara berkala ke sistem lain. Tipe integrasi data lain mengacu pada kumpulan proses tertentu untuk pergudangan data yang disebut ekstraksi, transformasi, dan pemuatan (ETL).

Desain ETL ![[Pasted image 20241216192406.png]]

Penggunaan ETL untuk Integrasi Data

  • ETL singkatan dari Extract, Transform and Load
  • ETL akan memuatkan data ke staging server dan kemudian ke target database
  • ETL digunakan dengan relational dan structured data
  • ETL mudah digunakan ketika data sudah dalam bentuk tabular
  • Untuk unstructured data menggunakan ELT