Pengantar Data Sains

12/16/2024

All Articles

Minggu 2 3 ga masuk dosen

Tugas 30% Quiz 20% offline UTS 50% Absen 0

UTS

Data preparation

Soal 5 essai

1. Konsep data sains

1) Big Data, Data Science, dan AI

Data adalah sekumpulan informasi yang terdiri dari beberapa fakta yang dapat berbentuk dari angka, kata-kata, atau simbol-simbol tertentu.

Dapat dikumpulkan lewat proses pencarian ataupun pengamatan menggunakan pendekatan yang tepat berdasarkan sumber-sumber tertentu.

Apa itu Big Data ?

Volume data yang tersedia dalam berbagai tingkat kompleksitas, dihasilkan pada kecepatan yang berbeda dan berbagai tingkat ambiguitas yang tidak dapat diproses.

Karakteristik Big Data (3V, 4V, 8V, 10V, 15V)

Volume, Besaran/Banyaknya data
Variety, Jenis data
Velocity, Frekuensi atau Data real-time
Veracity, Akurasi & berlakunya Data

Konsep Big Data

Mengumpulkan semua data yang dihasilkan dan memprosesnya dengan tepat untuk memberikan nilai yang diharapkan

Konsep Big Data dibagi tiga:

Integrasi Data
Pengelolaan Data
Analisis Data

2) Stategi Nasional AI & Pengembangan Talenta

3) Jenis - Jenis Science

Jenis - Jenis Algoritma Data Science

Supervised Learning Model ini belajar (learning) dari dataset berlabel dan kemudian digunakan untuk memprediksi kejadian di masa depan Supervised model dapat dikelompokkan lebih lanjut ke dalam kasus regresi dan klasifikasi:
- Klasifikasi: Masalah klasifikasi adalah ketika variabel output adalah kategori, mis. "penyakit" / "tidak ada penyakit".
- Regresi: Masalah regresi adalah ketika variabel output adalah nilai kontinu yang nyata, mis. prediksi harga saham.
Unsupervised Learning Unsupervised learning menggunakan algoritma pembelajaran mesin untuk menganalisis dan mengelompokkan kumpulan data yang tidak berlabel. Algoritma ini menemukan pola tersembunyi dalam data tanpa perlu campur tangan manusia (oleh karena itu, mereka "tidak diawasi").
Reinforcement Learning Konsep pembelajaran yang melibatkan interaksi Agent dan lingkungan (Environment) untuk mencapai tujuan (Goal).
- Agent: mempunyai tugas untuk mencapai tujuan (Goal)
- Environment: memberikan umpan balik terhadap aksi yang dilakukan Agen.
- Goal: memilih aksi yang memaksimalkan reward

4) Pemanfaatan Data Science

2. Manajemen proyek

1) Metodologi Data Science

Software Developement Life Cycle (SDLC)

Initiation
System COncept Development
Planning
Requirement Analysis
Design
Development
Integration and Test
Implementation
Operations & Maintanance
Disposition

2) Pengenalan Metode CRISP-DM

CRISP-DM: Cross Industry Standard Process for Data Mining

Business Understanding
Data Understanding
Data preparation
Modelling
Evaluation
Deployment

3) Manajemen Projek

Apa itu ?

Manajemen secara umum adalah suatu upaya untuk mencapai suatu tujuan dengan sumber daya seminimal mungkin (efisien). Sementara itu, Proyek adalah rencana pekerjaan dengan suatu target pencapaian tertentu yang diselesaikan dalam rentang waktu tertentu.

Tujuan:

Menyelesaikan tepat waktu
Menjaga anggaran
Menjaga kualitas
Melancarkan proyek

Sasaran Manajemen Projek

Menyelesaikan dan mengembangkan proyek sesuai dengan anggaran biaya dan tenggatwaktu yang telah ditentukan sekaligus dalam kualitas/spesifikasi sesuai dengan yang telah disepakati di awal.
Meningkatkan nama baik pelaksana proyek berdasarkan kualitas hasil proyek.
Menciptakan suasana kerja kondusif untuk mendukung kelancaran aktivitas proyek. Hal ini meliputi ketersediaan keadaan, sarana-prasarana, dan keselamatan kerja.
Menjaga keharmonisan antar pihak dalam proyek sehingga seluruh pihak terlibat akan memberikan yang terbaik untuk proyek yang sedang dijalankan.

Lingkup Manajemen Projek

Waktu projek dimulai
Pendefinisian ruang linkup projek
Perencanaan lingkup projek
Verifikasi projek dan kontrol ketika projek sedang dijalankan

4) Pengenalan Data Science dan Software Engineer

3. Tools for data science

Pengenalan Anaconda

Python Anaconda adalah platform bahasa pemrograman Python yang yang banyak digunakan untuk pengembangan aplikasi ilmiah, analisis data, dan pembelajaran mesin
Package Manager Anaconda mencakup manajer paket yang komprehensif, yaitu Conda, yang menyederhanakan instalasi dan pengelolaan data science libraries.
Virtual Environments Anaconda memudahkan untuk membuat dan mengelola lingkungan Python yang terisolasi, memastikan konsistensi dependensi di berbagai proyek.

Introducing Jupyter Notebook

Interactive Coding Jupyter Notebook memungkinkan Anda menulis dan menjalankan kode, melihat hasil, dan menambahkan teks naratif dalam satu dokumen.
Data Visualization Jupyter Notebook terintegrasi dengan lancar dengan pustaka visualisasi data seperti Matplotlib dan Plotly, memungkinkan Anda untuk membuat dan menampilkan plot interaktif.
Collaboration Notebook dapat dibagikan dan dikerjakan secara kolaboratif, memudahkan kerja sama dengan tim dalam proyek ilmu data.

Integrating Data Science Tools in Jupyter Notebook

Pandas Pandas adalah pustaka manipulasi dan analisis data yang kuat, yang terintegrasi dengan lancar dengan Jupyter Notebook.
Scikit-learn Scikit-learn adalah pustaka pembelajaran mesin yang populer dan dapat digunakan dalam Jupyter Notebook untuk pengembangan dan evaluasi model.
Matplotlib Matplotlib adalah pustaka visualisasi data yang komprehensif yang menyediakan berbagai opsi pemetaan di Jupyter Notebook

Advantages and Drawbacks of Anaconda

![[Pasted image 20241216185928.png]]

4. NLP dan Deep Learning

Apa itu NLP ?

Natural Language Processing (NLP) Sebuah teknologi machine learning yang memberi komputer kemampuan untuk menginterpretasikan, memanipulasi, dan memahami Bahasa manusia.

Mengapa Penting ?

NLP sangat penting untuk menganalisis data teks dan ucapan secara penuh dan efisien. Teknologi ini dapat menjelajahi berbagai perbedaan dalam dialek, bahasa gaul, dan penyimpangan tata bahasa yang khas dalam percakapan sehari-hari. Banyak perusahaan menggunakan teknologi ini untuk berbagai tugas otomatis, seperti untuk:

• Memproses, menganalisis, dan mengarsipkan dokumen besar • Menganalisis umpan balik pelanggan atau rekaman pusat panggilan • Menjalankan chatbot untuk layanan pelanggan otomatis • Menjawab pertanyaan seputar siapa-apa-kapan-di mana • Menglasifikasikan dan mengekstraksi teks

Cara kerja NLP

NLP menggabungkan model linguistik komputasional, machine learning, dan deep learning untuk memproses bahasa manusia.

Linguistik Komputasional Linguistik komputasional adalah ilmu memahami dan membangun model bahasa manusia dengan alat komputer dan perangkat lunak. Contoh:
- Analisis sintaksis
- Analisis semantik
Machine Learning Bahasa manusia memiliki sejumlah fitur seperti sarkasme, metafora, variasi dalam struktur kalimat, serta tata bahasa dan pengecualian penggunaan yang memerlukan waktu bertahun-tahun untuk dipelajari oleh manusia. Programmer menggunakan metode machine learning untuk mengajari aplikasi NLP mengenali dan memahami fitur-fitur ini secara akurat sejak awal.
Deep Learning Deep learning adalah sebuah bidang machine learning spesifik yang mengajari komputer untuk belajar dan berpikir seperti manusia. Dengan deep learning, komputer mengenali, menglasifikasikan, dan menghubungkan pola kompleks dalam data input.

Langkah Langkah Implementasi NLP

Biasanya, implementasi NLP dimulai dengan mengumpulkan dan menyiapkan data teks atau ucapan yang tidak terstruktur dari banyak sumber seperti gudang data cloud, survei, email, atau aplikasi proses bisnis internal.
Preprocessing. Perangkat lunak NLP menggunakan teknik prapemrosesan seperti tokenisasi, stemming, lemmatisasi, dan penghapusan kata henti guna menyiapkan data untuk berbagai aplikasi.
Tokenisasi memecah sebuah kalimat menjadi unit kata atau frasa inividual.
Stemming dan lemmatisasi menyederhanakan kata ke dalam bentuk akarnya. Misalnya, proses ini mengubah “starting” menjadi “start”.
Penghapusan kata henti memastikan bahwa kata yang tidak menambahkan makna signifikan ke sebuah kalimat, seperti “for” dan “with”, dihapus.
Training. Menggunakan data yang diproses sebelumnya dan machine learning untuk melatih model NLP guna menjalankan aplikasi spesifik berdasarkan informasi tekstual yang disediakan. Pelatihan algoritma NLP memerlukan pemberian sampel data besar pada perangkat lunak untuk meningkatkan akurasi algoritma.
Deployment. Machine Learning Engineer kemudian melakukan deployment model atau mengintegrasikan model tersebut ke dalam lingkungan produksi yang sudah ada. Model NLP menerima input dan memprediksi output untuk kasus penggunaan spesifik yang didesain untuk model tersebut.

Deep Learning

Convolutional Neural Network (CNN) CNN merupakan metode Deep Learning yang merupakan salah satu jenis arsitektur

ANN Ada tiga layer utama yaitu convolutional layer, pooling layer, dan fully connected layer

Convolutional Layer Convolutional layer merupakan proses konvolusi citra input dengan filter yang menghasilkan feature map Ukuran matrik citra dan ukuran matrik filter akan mempengaruhi ukuran matrik feature map
Convolutional Layer Proses konvolusi citra dengan filter dilakukan sliding filter mulai dari kiri atas dari matirk citra sampai kanan bawah

Rumus konvolusi dari citra I dengan filter K sebagai berikut: ![[Pasted image 20241216184755.png]]

Pooling Layer Pooling layer digunakan untuk mengurangi ukuran gambar menjadi lebih kecil (down sample) dan mengekstrak salient features. Pooling layer yang umum digunakan adalah Maximum pooling dan Average pooling
Fully Connected Layer Fully connected layer merupakan arsitektur Multi-layer ANN Feature map hasil dari proses konvolusi dan pooling, selanjutnya dilakukan proses flatten yaitu merubah matrix menjadi vektor sebagai inputan fully connected layer

Recurrent Neural Network Recurrent Neural Netword (RNN) adalah salah satu arsitektur ANN yang mampu merepresentasikan data sequential misalnya teks, dna, suara, time series, dan sebagainya

5. Data Integration

Definisi Integrasi Data

Integrasi data adalah proses untuk menggabungkan data dari beberapa sumber yang berbeda untuk memberikan tampilan tunggal yang terpadu kepada pengguna.

Manfaat Integrasi Data

Data yang lebih baik
Kolaborasi yang lebih baik
Koneksi cepat antar penyimpanan data
Peningkatan efisiensi dan ROI
Pengalaman pelanggan dan mitra yang lebih baik
Tampilan komprehensif tentang bisnis

ETL

Satu tipe umum integrasi data adalah penyerapan data, yaitu data dari satu sistem diintegrasikan secara berkala ke sistem lain. Tipe integrasi data lain mengacu pada kumpulan proses tertentu untuk pergudangan data yang disebut ekstraksi, transformasi, dan pemuatan (ETL).

Desain ETL ![[Pasted image 20241216192406.png]]

Penggunaan ETL untuk Integrasi Data

ETL singkatan dari Extract, Transform and Load
ETL akan memuatkan data ke staging server dan kemudian ke target database
ETL digunakan dengan relational dan structured data
ETL mudah digunakan ketika data sudah dalam bentuk tabular
Untuk unstructured data menggunakan ELT