12/16/2024
Minggu 2 3 ga masuk dosen
Tugas 30% Quiz 20% offline UTS 50% Absen 0
Soal 5 essai
Data adalah sekumpulan informasi yang terdiri dari beberapa fakta yang dapat berbentuk dari angka, kata-kata, atau simbol-simbol tertentu.
Dapat dikumpulkan lewat proses pencarian ataupun pengamatan menggunakan pendekatan yang tepat berdasarkan sumber-sumber tertentu.
Volume data yang tersedia dalam berbagai tingkat kompleksitas, dihasilkan pada kecepatan yang berbeda dan berbagai tingkat ambiguitas yang tidak dapat diproses.
Karakteristik Big Data (3V, 4V, 8V, 10V, 15V)
Mengumpulkan semua data yang dihasilkan dan memprosesnya dengan tepat untuk memberikan nilai yang diharapkan
Konsep Big Data dibagi tiga:
Supervised Learning Model ini belajar (learning) dari dataset berlabel dan kemudian digunakan untuk memprediksi kejadian di masa depan Supervised model dapat dikelompokkan lebih lanjut ke dalam kasus regresi dan klasifikasi:
Klasifikasi: Masalah klasifikasi adalah ketika variabel output adalah kategori, mis. "penyakit" / "tidak ada penyakit".
Regresi: Masalah regresi adalah ketika variabel output adalah nilai kontinu yang nyata, mis. prediksi harga saham.
Unsupervised Learning Unsupervised learning menggunakan algoritma pembelajaran mesin untuk menganalisis dan mengelompokkan kumpulan data yang tidak berlabel. Algoritma ini menemukan pola tersembunyi dalam data tanpa perlu campur tangan manusia (oleh karena itu, mereka "tidak diawasi").
Reinforcement Learning Konsep pembelajaran yang melibatkan interaksi Agent dan lingkungan (Environment) untuk mencapai tujuan (Goal).
CRISP-DM: Cross Industry Standard Process for Data Mining
Manajemen secara umum adalah suatu upaya untuk mencapai suatu tujuan dengan sumber daya seminimal mungkin (efisien). Sementara itu, Proyek adalah rencana pekerjaan dengan suatu target pencapaian tertentu yang diselesaikan dalam rentang waktu tertentu.
Tujuan:
Python Anaconda adalah platform bahasa pemrograman Python yang yang banyak digunakan untuk pengembangan aplikasi ilmiah, analisis data, dan pembelajaran mesin
Package Manager Anaconda mencakup manajer paket yang komprehensif, yaitu Conda, yang menyederhanakan instalasi dan pengelolaan data science libraries.
Virtual Environments Anaconda memudahkan untuk membuat dan mengelola lingkungan Python yang terisolasi, memastikan konsistensi dependensi di berbagai proyek.
Interactive Coding Jupyter Notebook memungkinkan Anda menulis dan menjalankan kode, melihat hasil, dan menambahkan teks naratif dalam satu dokumen.
Data Visualization Jupyter Notebook terintegrasi dengan lancar dengan pustaka visualisasi data seperti Matplotlib dan Plotly, memungkinkan Anda untuk membuat dan menampilkan plot interaktif.
Collaboration Notebook dapat dibagikan dan dikerjakan secara kolaboratif, memudahkan kerja sama dengan tim dalam proyek ilmu data.
Pandas Pandas adalah pustaka manipulasi dan analisis data yang kuat, yang terintegrasi dengan lancar dengan Jupyter Notebook.
Scikit-learn Scikit-learn adalah pustaka pembelajaran mesin yang populer dan dapat digunakan dalam Jupyter Notebook untuk pengembangan dan evaluasi model.
Matplotlib Matplotlib adalah pustaka visualisasi data yang komprehensif yang menyediakan berbagai opsi pemetaan di Jupyter Notebook
![[Pasted image 20241216185928.png]]
Natural Language Processing (NLP) Sebuah teknologi machine learning yang memberi komputer kemampuan untuk menginterpretasikan, memanipulasi, dan memahami Bahasa manusia.
NLP sangat penting untuk menganalisis data teks dan ucapan secara penuh dan efisien. Teknologi ini dapat menjelajahi berbagai perbedaan dalam dialek, bahasa gaul, dan penyimpangan tata bahasa yang khas dalam percakapan sehari-hari. Banyak perusahaan menggunakan teknologi ini untuk berbagai tugas otomatis, seperti untuk:
• Memproses, menganalisis, dan mengarsipkan dokumen besar • Menganalisis umpan balik pelanggan atau rekaman pusat panggilan • Menjalankan chatbot untuk layanan pelanggan otomatis • Menjawab pertanyaan seputar siapa-apa-kapan-di mana • Menglasifikasikan dan mengekstraksi teks
NLP menggabungkan model linguistik komputasional, machine learning, dan deep learning untuk memproses bahasa manusia.
Linguistik Komputasional Linguistik komputasional adalah ilmu memahami dan membangun model bahasa manusia dengan alat komputer dan perangkat lunak. Contoh:
Machine Learning Bahasa manusia memiliki sejumlah fitur seperti sarkasme, metafora, variasi dalam struktur kalimat, serta tata bahasa dan pengecualian penggunaan yang memerlukan waktu bertahun-tahun untuk dipelajari oleh manusia. Programmer menggunakan metode machine learning untuk mengajari aplikasi NLP mengenali dan memahami fitur-fitur ini secara akurat sejak awal.
Deep Learning Deep learning adalah sebuah bidang machine learning spesifik yang mengajari komputer untuk belajar dan berpikir seperti manusia. Dengan deep learning, komputer mengenali, menglasifikasikan, dan menghubungkan pola kompleks dalam data input.
Biasanya, implementasi NLP dimulai dengan mengumpulkan dan menyiapkan data teks atau ucapan yang tidak terstruktur dari banyak sumber seperti gudang data cloud, survei, email, atau aplikasi proses bisnis internal.
Preprocessing. Perangkat lunak NLP menggunakan teknik prapemrosesan seperti tokenisasi, stemming, lemmatisasi, dan penghapusan kata henti guna menyiapkan data untuk berbagai aplikasi.
Tokenisasi memecah sebuah kalimat menjadi unit kata atau frasa inividual.
Stemming dan lemmatisasi menyederhanakan kata ke dalam bentuk akarnya. Misalnya, proses ini mengubah “starting” menjadi “start”.
Penghapusan kata henti memastikan bahwa kata yang tidak menambahkan makna signifikan ke sebuah kalimat, seperti “for” dan “with”, dihapus.
Training. Menggunakan data yang diproses sebelumnya dan machine learning untuk melatih model NLP guna menjalankan aplikasi spesifik berdasarkan informasi tekstual yang disediakan. Pelatihan algoritma NLP memerlukan pemberian sampel data besar pada perangkat lunak untuk meningkatkan akurasi algoritma.
Deployment. Machine Learning Engineer kemudian melakukan deployment model atau mengintegrasikan model tersebut ke dalam lingkungan produksi yang sudah ada. Model NLP menerima input dan memprediksi output untuk kasus penggunaan spesifik yang didesain untuk model tersebut.
Convolutional Neural Network (CNN) CNN merupakan metode Deep Learning yang merupakan salah satu jenis arsitektur
ANN Ada tiga layer utama yaitu convolutional layer, pooling layer, dan fully connected layer
Convolutional Layer Convolutional layer merupakan proses konvolusi citra input dengan filter yang menghasilkan feature map Ukuran matrik citra dan ukuran matrik filter akan mempengaruhi ukuran matrik feature map
Convolutional Layer Proses konvolusi citra dengan filter dilakukan sliding filter mulai dari kiri atas dari matirk citra sampai kanan bawah
Rumus konvolusi dari citra I dengan filter K sebagai berikut: ![[Pasted image 20241216184755.png]]
Pooling Layer Pooling layer digunakan untuk mengurangi ukuran gambar menjadi lebih kecil (down sample) dan mengekstrak salient features. Pooling layer yang umum digunakan adalah Maximum pooling dan Average pooling
Fully Connected Layer Fully connected layer merupakan arsitektur Multi-layer ANN Feature map hasil dari proses konvolusi dan pooling, selanjutnya dilakukan proses flatten yaitu merubah matrix menjadi vektor sebagai inputan fully connected layer
Recurrent Neural Network Recurrent Neural Netword (RNN) adalah salah satu arsitektur ANN yang mampu merepresentasikan data sequential misalnya teks, dna, suara, time series, dan sebagainya
Integrasi data adalah proses untuk menggabungkan data dari beberapa sumber yang berbeda untuk memberikan tampilan tunggal yang terpadu kepada pengguna.
Satu tipe umum integrasi data adalah penyerapan data, yaitu data dari satu sistem diintegrasikan secara berkala ke sistem lain. Tipe integrasi data lain mengacu pada kumpulan proses tertentu untuk pergudangan data yang disebut ekstraksi, transformasi, dan pemuatan (ETL).
Desain ETL ![[Pasted image 20241216192406.png]]