APA SAJA TAHAPAN DALAM PRE-PROCESSING

 Penjelasan Tahapan Preprocessing Data


    Tahapan preprocessing data merupakan langkah-langkah penting dalam proses analisis data. Tujuan utama preprocessing data adalah untuk membersihkan, mengolah, dan memformat data agar siap untuk dianalisis. Berikut adalah penjelasan dari setiap tahapan preprocessing data:

1. Data Collection

Tahap pertama dalam preprocessing data adalah pengumpulan data. Data dapat diperoleh dari berbagai sumber, seperti:

  • Database internal: Data yang disimpan dalam database internal perusahaan, seperti data pelanggan, data penjualan, dan data transaksi.
  • Data eksternal: Data yang diperoleh dari sumber eksternal, seperti data publik, data web scraping, dan data media sosial.
  • Sumber data lainnya: Data yang diperoleh dari sumber lain, seperti survei, kuesioner, dan eksperimen.

2. Data Cleaning

Tahap selanjutnya adalah pembersihan data. Tujuan pembersihan data adalah untuk:

  • Menghapus data yang hilang atau tidak lengkap: Data yang hilang atau tidak lengkap dapat memengaruhi hasil analisis. Oleh karena itu, data ini perlu dihapus atau ditangani dengan teknik yang tepat.
  • Memperbaiki kesalahan data: Kesalahan data dapat berupa kesalahan ketik, format data yang tidak konsisten, dan outlier. Kesalahan data ini perlu diperbaiki agar tidak memengaruhi hasil analisis.
  • Menangani outlier: Outlier adalah data yang jauh dari nilai normal. Outlier dapat memengaruhi hasil analisis. Oleh karena itu, outlier perlu ditangani dengan teknik yang tepat.

3. Data Transformation

Tahap selanjutnya adalah transformasi data. Tujuan transformasi data adalah untuk:

  • Memformat data: Data perlu diformat agar sesuai dengan jenis analisis yang akan dilakukan. Contohnya, data numerik perlu diubah ke format yang sesuai untuk analisis statistik.
  • Menskalakan data: Data numerik perlu diskalakan agar nilainya berada dalam rentang yang sama. Hal ini penting agar semua variabel memiliki pengaruh yang sama terhadap hasil analisis.
  • Membuat variabel baru: Variabel baru dapat dibuat dari variabel yang ada. Contohnya, variabel usia dapat diubah menjadi variabel kategori usia.

4. Data Reduction

Tahap selanjutnya adalah reduksi data. Tujuan reduksi data adalah untuk:

  • Mengurangi jumlah data: Jumlah data yang besar dapat memperlambat proses analisis. Oleh karena itu, jumlah data perlu dikurangi dengan teknik yang tepat.
  • Meningkatkan performa model: Reduksi data dapat meningkatkan performa model pembelajaran mesin.

Contoh Data Collection


Contoh Data Cleaning




Contoh Data Transformation

Berikut contoh untuk data transformation, gambar  pertama menjelankan kode untuk mengganti jenis kelamin yang semula bernilai 1 dan 0 menjadi 1 untuk laki-laki dan 0 untuk perempuan. Gambar kedua menghapus data mahasiswa pindahan.



Contoh Data Reduction

Berikut contoh data reduction untuk menghapus nilai yang duplikat






Komentar

Postingan populer dari blog ini

Studi Kasus Data Mining Dalam Menentukan Tingkat Kelulusan Mahasiswa

30 JENIS ALGORITMA SUPERVISED LEARNING (PREDIKSI)

Apa Itu Entitas, Atribut dan Relasi Dalam ERD