30 JENIS ALGORITMA SUPERVISED LEARNING (PREDIKSI)

Penjelasan Tentang Pembelajaran Supervised Learning

Pembelajaran Supervised Learning adalah salah satu jenis metode pembelajaran mesin (machine learning) yang paling umum digunakan. Dalam pembelajaran terawasi, model dilatih menggunakan dataset yang sudah memiliki label atau jawaban yang benar. Tujuannya adalah untuk mengajarkan model agar dapat memprediksi output atau label yang benar untuk input baru yang belum pernah dilihat sebelumnya.

Komponen Utama dalam Supervised Learning:

  1. Data Pelatihan (Training Data):

    • Input (Fitur atau Variabel Independem): Merupakan atribut atau karakteristik yang digunakan untuk membuat prediksi. Biasanya dilambangkan dengan XX.
    • Output (Label atau Variabel Dependen): Merupakan hasil atau kategori yang ingin diprediksi oleh model. Biasanya dilambangkan dengan YY.
  2. Model Pembelajaran Mesin:

    • Model adalah algoritma yang digunakan untuk mempelajari hubungan antara input dan output dari data pelatihan. Model ini kemudian digunakan untuk memprediksi output untuk data baru yang belum pernah dilihat.
  3. Fungsi Kehilangan (Loss Function):

    • Fungsi yang digunakan untuk mengukur seberapa baik model memprediksi output yang benar selama pelatihan. Fungsi kehilangan membantu model dalam mengarahkan proses pelatihan untuk meminimalkan kesalahan.
  4. Algoritma Optimisasi:

    • Metode yang digunakan untuk meminimalkan fungsi kehilangan. Contohnya adalah gradient descent, yang memperbarui parameter model untuk mengurangi kesalahan prediksi.

Proses Pembelajaran Terawasi:

  1. Pengumpulan Data:

    • Data pelatihan dikumpulkan dan disiapkan dengan label yang benar. Data ini harus mencakup berbagai contoh yang representatif dari masalah yang ingin dipecahkan.
  2. Pembagian Data:

    • Data dibagi menjadi dua subset: data pelatihan (untuk melatih model) dan data pengujian (untuk mengevaluasi kinerja model).
  3. Pelatihan Model:

    • Model dilatih menggunakan data pelatihan. Proses ini melibatkan pengoptimalan parameter model untuk meminimalkan kesalahan prediksi pada data pelatihan.
  4. Evaluasi Model:

    • Setelah model dilatih, kinerjanya dievaluasi menggunakan data pengujian. Metode evaluasi umum termasuk akurasi, presisi, recall, dan F1-score.
  5. Prediksi:

    • Model yang telah terlatih digunakan untuk memprediksi label atau output untuk data baru yang tidak memiliki label.

Berikut 30 Jenis Algoritma Supervised Learning (Prediksi)

1. Regresi Linear

Regresi linear adalah metode statistik yang digunakan untuk memprediksi nilai target yang kontinu berdasarkan satu atau lebih variabel independen. Model regresi linear sederhana menggunakan satu variabel independen XX untuk memprediksi variabel dependen YY. Model ini dinyatakan dengan persamaan Y=β0+β1X+ϵY = \beta_0 + \beta_1X + \epsilon, di mana YY adalah variabel dependen, XX adalah variabel independen, β0\beta_0 adalah intersep, β1\beta_1 adalah koefisien kemiringan, dan ϵ\epsilon adalah error atau residu. Dalam regresi linear berganda, terdapat lebih dari satu variabel independen, dan modelnya dinyatakan sebagai Y=β0+β1X1+β2X2++βnXn+ϵY = \beta_0 + \beta_1X_1 + \beta_2X_2 + \ldots + \beta_nX_n + \epsilon.

2. Regresi Logistik

Regresi logistik adalah teknik statistik yang digunakan untuk memodelkan probabilitas dari suatu kejadian biner (dua kemungkinan). Model ini berguna dalam klasifikasi biner, seperti deteksi spam atau prediksi keanggotaan kelas. Persamaan regresi logistik adalah log(p1p)=β0+β1X\log(\frac{p}{1-p}) = \beta_0 + \beta_1X, di mana pp adalah probabilitas kejadian, β0\beta_0 adalah intersep, dan β1\beta_1 adalah koefisien variabel independen XX. Fungsi logit (log(p1p)\log(\frac{p}{1-p})) memetakan output dari interval 0-1 ke seluruh rentang nilai real.

3. Pohon Keputusan (Decision Trees)

Pohon keputusan adalah algoritma supervised learning yang digunakan untuk tugas klasifikasi dan regresi. Algoritma ini memecah dataset menjadi subset yang lebih kecil dan secara bertahap membangun struktur pohon dengan simpul internal yang mewakili atribut dataset dan cabang yang mewakili keputusan. Model pohon keputusan menggunakan metrik seperti Gini impurity atau entropy untuk menentukan pembagian optimal pada setiap simpul. Keputusan akhir dibuat pada simpul daun yang merepresentasikan hasil prediksi.

4. Support Vector Machines (SVM)

Support Vector Machines (SVM) adalah algoritma supervised learning yang digunakan untuk klasifikasi dan regresi. SVM bekerja dengan mencari hyperplane yang memaksimalkan margin antara dua kelas dalam data. Hyperplane adalah garis atau bidang yang memisahkan kelas-kelas dalam dataset. Dalam SVM linear, modelnya dinyatakan sebagai wx+b=0w \cdot x + b = 0, di mana ww adalah vektor bobot, xx adalah vektor fitur, dan bb adalah bias. SVM non-linear menggunakan kernel trik untuk memetakan data ke dimensi yang lebih tinggi sehingga data menjadi lebih mudah dipisahkan.

5. Naive Bayes

Naive Bayes adalah algoritma supervised learning berbasis probabilistik yang digunakan untuk klasifikasi. Algoritma ini didasarkan pada Teorema Bayes dengan asumsi independensi antar fitur. Teorema Bayes dinyatakan sebagai P(AB)=P(BA)P(A)P(B)P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}, di mana P(AB)P(A|B) adalah probabilitas kejadian AA terjadi jika BB benar. Dalam konteks klasifikasi, Naive Bayes menghitung probabilitas kelas tertentu berdasarkan nilai fitur yang diberikan dan memilih kelas dengan probabilitas tertinggi.

6. K-Nearest Neighbors (KNN)

K-Nearest Neighbors (KNN) adalah algoritma pembelajaran terawasi yang digunakan untuk klasifikasi dan regresi. KNN bekerja dengan mengklasifikasikan data baru berdasarkan mayoritas kelas dari kk tetangga terdekat dalam ruang fitur. Algoritma ini menghitung jarak antara data baru dan titik data dalam set latihan menggunakan metrik seperti jarak Euclidean. Hasil prediksi adalah kelas yang paling sering muncul di antara tetangga terdekat.

7. Jaringan Syaraf Tiruan (Neural Networks)

Jaringan Syaraf Tiruan (Neural Networks) adalah model supervised learning yang terinspirasi oleh cara kerja otak manusia. Model ini terdiri dari lapisan input, satu atau lebih lapisan tersembunyi, dan lapisan output. Setiap lapisan terdiri dari neuron yang terhubung satu sama lain dengan bobot tertentu. Fungsi aktivasi seperti sigmoid, ReLU, atau tanh digunakan untuk memperkenalkan non-linearitas dalam model. Output akhir dari jaringan syaraf adalah hasil dari kombinasi linear dari input yang diberi bobot yang diikuti oleh fungsi aktivasi.

8. Random Forest

Random Forest adalah metode ensemble yang digunakan untuk klasifikasi dan regresi. Algoritma ini menggabungkan prediksi dari beberapa pohon keputusan independen yang dibangun dari subset acak dari data pelatihan. Setiap pohon menghasilkan prediksi, dan Random Forest memilih prediksi yang paling umum (mode) dalam kasus klasifikasi atau rata-rata dalam kasus regresi. Teknik ini membantu mengurangi overfitting dan meningkatkan akurasi model.

9. Gradient Boosting Machines (GBM)

Gradient Boosting Machines (GBM) adalah teknik ensemble yang digunakan untuk meningkatkan kinerja model prediktif. Algoritma ini bekerja dengan membangun pohon keputusan secara bertahap, di mana setiap pohon baru mengurangi kesalahan dari pohon sebelumnya. Gradient Boosting meminimalkan fungsi loss dengan menggunakan teknik optimisasi gradien. Model akhir adalah kombinasi dari semua pohon yang dibangun, yang menghasilkan prediksi yang lebih akurat.

10. Metode Ensemble

Metode ensemble menggabungkan prediksi dari beberapa model dasar untuk meningkatkan akurasi dan generalisasi. Beberapa teknik ensemble yang populer termasuk Bagging, Boosting, dan Stacking. Bagging (Bootstrap Aggregating) bekerja dengan melatih beberapa model pada subset acak dari data pelatihan dan menggabungkan hasilnya. Boosting bekerja dengan melatih model secara berurutan, di mana setiap model baru fokus pada kesalahan dari model sebelumnya. Stacking menggabungkan prediksi dari beberapa model dasar menggunakan model meta-learner untuk menghasilkan prediksi akhir.

11. Ridge Regression

Ridge Regression, juga dikenal sebagai Tikhonov regularization, adalah teknik regresi yang memperkenalkan penalti pada ukuran koefisien untuk mencegah overfitting. Persamaan Ridge Regression adalah min(i=1n(yiβ0j=1pβjxij)2+λj=1pβj2)\min \left( \sum_{i=1}^{n} (y_i - \beta_0 - \sum_{j=1}^{p} \beta_j x_{ij})^2 + \lambda \sum_{j=1}^{p} \beta_j^2 \right), di mana λ\lambda adalah parameter regulasi yang mengontrol tingkat penalti.

12. Lasso Regression

Lasso Regression (Least Absolute Shrinkage and Selection Operator) adalah teknik regresi yang memperkenalkan penalti pada ukuran absolut koefisien, yang dapat menghasilkan beberapa koefisien menjadi nol, sehingga melakukan seleksi fitur. Persamaannya adalah min(i=1n(yiβ0j=1pβjxij)2+λj=1pβj)\min \left( \sum_{i=1}^{n} (y_i - \beta_0 - \sum_{j=1}^{p} \beta_j x_{ij})^2 + \lambda \sum_{j=1}^{p} |\beta_j| \right).

13. Elastic Net

Elastic Net menggabungkan penalti Ridge dan Lasso untuk memanfaatkan keuntungan dari keduanya. Persamaannya adalah min(i=1n(yiβ0j=1pβjxij)2+λ1j=1pβj+λ2j=1pβj2)\min \left( \sum_{i=1}^{n} (y_i - \beta_0 - \sum_{j=1}^{p} \beta_j x_{ij})^2 + \lambda_1 \sum_{j=1}^{p} |\beta_j| + \lambda_2 \sum_{j=1}^{p} \beta_j^2 \right).

14. Bayesian Regression

Bayesian Regression memperlakukan koefisien regresi sebagai variabel acak dan menggunakan distribusi probabilitas untuk membuat prediksi. Ini menggabungkan data dan informasi prior untuk menghasilkan distribusi posterior.

15. Partial Least Squares (PLS) Regression

PLS Regression mencari komponen latar belakang yang memaksimalkan kovariansi antara variabel independen dan dependen. Ini digunakan ketika terdapat banyak kolinearitas antara variabel independen.

16. Principal Component Regression (PCR)

PCR menggabungkan analisis komponen utama (PCA) dan regresi linear. PCA digunakan untuk mengurangi dimensi data, dan kemudian regresi linear dilakukan pada komponen utama yang dipilih.

17. Stochastic Gradient Descent (SGD)

SGD adalah metode optimisasi yang sering digunakan untuk mengoptimalkan fungsi loss model pembelajaran mesin. Ini mengupdate parameter model secara iteratif menggunakan subset acak dari data pelatihan.

18. Perceptron

Perceptron adalah algoritma pembelajaran terawasi yang digunakan untuk klasifikasi biner. Ini adalah unit dasar dari jaringan syaraf tiruan dan menggunakan fungsi aktivasi langkah untuk membuat keputusan.

19. AdaBoost

AdaBoost (Adaptive Boosting) adalah algoritma boosting yang menggabungkan prediksi dari beberapa model dasar (misalnya, pohon keputusan) untuk meningkatkan kinerja. Setiap model dasar dilatih dengan fokus pada kesalahan dari model sebelumnya.

20. XGBoost

XGBoost (Extreme Gradient Boosting) adalah implementasi yang dioptimalkan dari algoritma boosting, yang terkenal karena kinerja dan efisiensinya dalam kompetisi data. Ini menggunakan teknik regularisasi untuk mengurangi overfitting.

21. LightGBM

LightGBM (Light Gradient Boosting Machine) adalah algoritma boosting yang dioptimalkan untuk kecepatan dan efisiensi. Ini menggunakan teknik seperti Gradient-based One-Side Sampling (GOSS) dan Exclusive Feature Bundling (EFB) untuk meningkatkan kinerja.

22. CatBoost

CatBoost adalah algoritma boosting yang dirancang untuk menangani fitur kategorikal dengan lebih efisien. Ini menggunakan teknik pemrosesan data khusus untuk mengurangi bias dan overfitting.

23. H2O.ai

H2O.ai menyediakan berbagai algoritma pembelajaran mesin, termasuk H2O Gradient Boosting Machine (GBM) yang menggabungkan teknik gradient boosting dengan optimisasi dan regularisasi tambahan.

24. Neural Network dengan Dropout

Dropout adalah teknik regulasi dalam jaringan syaraf tiruan yang acak mematikan neuron selama pelatihan untuk mencegah overfitting dan meningkatkan generalisasi.

25. Long Short-Term Memory (LSTM)

LSTM adalah jenis jaringan syaraf berulang (RNN) yang dirancang untuk menangani masalah vanishing gradient dan mengingat informasi jangka panjang dalam data urutan.

26. Gated Recurrent Unit (GRU)

GRU adalah varian dari LSTM yang lebih sederhana dan kurang komputasi intensif, tetapi tetap efektif dalam menangani data urutan dan mengingat informasi jangka panjang.

27. Convolutional Neural Network (CNN)

CNN adalah jenis jaringan syaraf tiruan yang dirancang untuk pemrosesan data grid seperti gambar. CNN menggunakan lapisan konvolusi untuk mengekstrak fitur dari input dan lapisan pooling untuk mengurangi dimensi.

28. Recurrent Neural Network (RNN)

RNN adalah jenis jaringan syaraf tiruan yang dirancang untuk memproses data urutan. RNN memiliki koneksi berulang yang memungkinkan informasi untuk dipertahankan dalam memori internal.

29. Deep Belief Network (DBN)

DBN adalah jenis jaringan syaraf tiruan yang terdiri dari beberapa lapisan unit tersembunyi yang terlatih secara berurutan menggunakan algoritma supervised learning.

30. Boltzmann Machine

Boltzmann Machine adalah jenis jaringan syaraf tiruan berbasis probabilistik yang digunakan untuk pemodelan generatif dan supervised learning.

Komentar

Postingan populer dari blog ini

Studi Kasus Data Mining Dalam Menentukan Tingkat Kelulusan Mahasiswa

Apa Itu Entitas, Atribut dan Relasi Dalam ERD