APA SAJA TAHAPAN DALAM PRE-PROCESSING
Penjelasan Tahapan Preprocessing Data
Tahapan preprocessing data merupakan langkah-langkah penting dalam proses analisis data. Tujuan utama preprocessing data adalah untuk membersihkan, mengolah, dan memformat data agar siap untuk dianalisis. Berikut adalah penjelasan dari setiap tahapan preprocessing data:
1. Data Collection
Tahap pertama dalam preprocessing data adalah pengumpulan data. Data dapat diperoleh dari berbagai sumber, seperti:
- Database internal: Data yang disimpan dalam database internal perusahaan, seperti data pelanggan, data penjualan, dan data transaksi.
- Data eksternal: Data yang diperoleh dari sumber eksternal, seperti data publik, data web scraping, dan data media sosial.
- Sumber data lainnya: Data yang diperoleh dari sumber lain, seperti survei, kuesioner, dan eksperimen.
2. Data Cleaning
Tahap selanjutnya adalah pembersihan data. Tujuan pembersihan data adalah untuk:
- Menghapus data yang hilang atau tidak lengkap: Data yang hilang atau tidak lengkap dapat memengaruhi hasil analisis. Oleh karena itu, data ini perlu dihapus atau ditangani dengan teknik yang tepat.
- Memperbaiki kesalahan data: Kesalahan data dapat berupa kesalahan ketik, format data yang tidak konsisten, dan outlier. Kesalahan data ini perlu diperbaiki agar tidak memengaruhi hasil analisis.
- Menangani outlier: Outlier adalah data yang jauh dari nilai normal. Outlier dapat memengaruhi hasil analisis. Oleh karena itu, outlier perlu ditangani dengan teknik yang tepat.
3. Data Transformation
Tahap selanjutnya adalah transformasi data. Tujuan transformasi data adalah untuk:
- Memformat data: Data perlu diformat agar sesuai dengan jenis analisis yang akan dilakukan. Contohnya, data numerik perlu diubah ke format yang sesuai untuk analisis statistik.
- Menskalakan data: Data numerik perlu diskalakan agar nilainya berada dalam rentang yang sama. Hal ini penting agar semua variabel memiliki pengaruh yang sama terhadap hasil analisis.
- Membuat variabel baru: Variabel baru dapat dibuat dari variabel yang ada. Contohnya, variabel usia dapat diubah menjadi variabel kategori usia.
4. Data Reduction
Tahap selanjutnya adalah reduksi data. Tujuan reduksi data adalah untuk:
- Mengurangi jumlah data: Jumlah data yang besar dapat memperlambat proses analisis. Oleh karena itu, jumlah data perlu dikurangi dengan teknik yang tepat.
- Meningkatkan performa model: Reduksi data dapat meningkatkan performa model pembelajaran mesin.
Contoh Data Collection
Contoh Data Cleaning
Contoh Data Transformation
Berikut contoh untuk data transformation, gambar pertama menjelankan kode untuk mengganti jenis kelamin yang semula bernilai 1 dan 0 menjadi 1 untuk laki-laki dan 0 untuk perempuan. Gambar kedua menghapus data mahasiswa pindahan.
Contoh Data Reduction
Berikut contoh data reduction untuk menghapus nilai yang duplikat
Komentar
Posting Komentar