Cross-Industry Standard Process for Data Mining (CRISP-DM)

 Apa itu Cross-Industry Standard Process for Data Mining?

    Cross-Industry Standard Process for Data Mining atau CRISP-DM adalah suatu model proses data mining (Data mining framework) yang awalnya dibangun oleh 5 perusahaan pada tahun 1996. 5 perusahaan itu ialah Integral Solutions (ISL), Teradata, Daimler AG, NCR Corporation dan OHRA. Framework ini kemudian diadopsi oleh banyak organisasi dan perusahaan di Eropa sebagai metodologi standar non-proprietari untuk data mining. Presentasi pertama versi ini dilakukan dalam 4th CRISP-DM SIG Workshop di Brussels pada bulan Maret 1999 oleh Pete Chapman. Langkah-langkah proses data mining berdasarkan model ini kemudian dipublikasikan pada tahun berikutnya oleh Pete Chapman (2000).

    Antara tahun 2006 dan 2008, terbentuk grup CRISP-DM 2.0 SIG dengan tujuan untuk memperbarui model proses CRISP-DM (Colin Shearer, 2006). Namun, informasi terkait produk akhir dari inisiatif ini tidak tersedia.

    Sejumlah penelitian menunjukkan bahwa CRISP-DM tetap menjadi model data mining yang banyak digunakan dalam industri antara tahun 2006 dan 2008, sebagian besar karena keunggulannya dalam menangani berbagai tantangan dalam proyek data mining.

    Menurut Mariscal, Marban, dan Fernandez (2010), CRISP-DM diakui sebagai standar de facto untuk pengembangan proyek data mining dan penemuan pengetahuan karena paling banyak digunakan dalam praktik pengembangan data mining. Pernyataan ini diperkuat oleh survei yang menunjukkan tingkat adopsi yang tinggi, sebagaimana tergambar dalam Gambar 1, yang melibatkan penggunaan metodologi dalam proyek data mining.

    Hasil survei mengenai "Penggunaan Metodologi dalam Proyek Data Mining" menunjukkan bahwa pengguna CRISP-DM pada tahun 2002 mencapai 51%, meskipun kemudian mengalami penurunan menjadi 41% pada tahun 2004. Walaupun persentase penggunaan CRISP-DM mengalami penurunan sebesar 10%, jumlah pengguna metodologi ini masih lebih tinggi dibandingkan dengan metodologi lain.

    Model proses CRISP-DM memberikan pandangan menyeluruh terhadap siklus hidup proyek data mining, terdiri dari enam tahapan, yaitu Pemahaman Bisnis, Pemahaman Data, Persiapan Data, Pemodelan, Evaluasi, dan Implementasi.

        1. Business Understanding

    Tahap pertama dalam CRISP-DM adalah kritis dan memerlukan pemahaman mendalam tentang objek bisnis, strategi pengumpulan atau pemerolehan data, serta bagaimana mengaitkan tujuan pemodelan dengan kebutuhan bisnis untuk memastikan konstruksi model terbaik. Pada tahap ini, kegiatan melibatkan penetapan tujuan dan persyaratan secara komprehensif, mengartikan tujuan tersebut, menentukan batasan dalam perumusan masalah data mining, dan merancang strategi awal untuk mencapai tujuan tersebut.

        2. Data Understanding

    Secara keseluruhan, tahap ini bertujuan untuk melakukan pemeriksaan data guna mengidentifikasi potensi masalah yang mungkin ada. Proses ini menciptakan dasar analitik untuk penelitian dengan merangkum data dan menyoroti potensi masalah. Penting untuk melaksanakan tahap ini dengan hati-hati dan tanpa terburu-buru, khususnya dalam hal visualisasi data, di mana wawasan seringkali sulit ditemukan tanpa merujuk pada ringkasan data. Jika ada isu yang tidak terjawab pada tahap ini, hal tersebut dapat mengganggu proses pemodelan.

    Ringkasan atau simpulan dari data bermanfaat untuk memverifikasi sejauh mana distribusi data sesuai harapan atau mengungkapkan penyimpangan yang tak terduga yang perlu diatasi pada tahap berikutnya, yaitu Persiapan Data. Masalah dalam data, seperti nilai yang hilang, outlier, atau distribusi yang tidak standar, harus diidentifikasi dan diukur untuk kemudian diperbaiki pada tahap Persiapan Data.

        3. Data Preparation

    Secara umum, tahap ini bertujuan untuk mengatasi masalah dalam data dan menciptakan variabel turunan. Proses ini memerlukan pemikiran yang matang dan upaya yang signifikan untuk memastikan bahwa data sesuai dengan persyaratan algoritma yang akan digunakan.

    Tidaklah berarti bahwa setelah tahap Persiapan Data pertama kali dijalankan, semua masalah data sudah teratasi, dan data dapat langsung digunakan hingga tahap akhir. Tahap ini sering diperiksa ulang ketika masalah muncul selama pengembangan model, sehingga memerlukan iterasi hingga menemukan solusi yang cocok dengan data.

    Di tahap ini, proses sampling dapat dilakukan, dan data umumnya dibagi menjadi dua bagian, yaitu data pelatihan dan data pengujian. Kegiatan yang terlibat melibatkan pemilihan kasus dan parameter untuk dianalisis (Seleksi Data), melakukan transformasi pada parameter tertentu (Transformasi), dan membersihkan data agar siap untuk tahap pemodelan (Pembersihan).

        4. Modeling

    Secara keseluruhan, tahap ini menitikberatkan pada pembuatan model prediktif atau deskriptif. Metode statistika dan Machine Learning digunakan untuk memilih teknik, alat bantu, dan algoritma data mining yang paling sesuai. Selanjutnya, penerapan teknik dan algoritma ini dilakukan pada data dengan menggunakan alat bantu yang relevan. Jika diperlukan, penyesuaian data terhadap teknik data mining tertentu dapat mengakibatkan kembali ke tahap persiapan data.

    Beberapa modeling yang biasa dilakukan adalah classification, scoring, ranking, clustering, finding relation, dan characterization.

        5. Evaluation

    Interpretasi terhadap hasil data mining yang dihasilkan dalam proses pemodelan pada tahap sebelumnya menjadi fokus pada tahap evaluasi. Evaluasi bertujuan untuk memastikan bahwa model yang diterapkan pada tahap sebelumnya sesuai dengan tujuan yang ditetapkan pada tahap awal.    

        6. Deployment

    Tahap deployment atau pelaksanaan model dianggap sebagai tahap paling krusial dalam proses CRISP-DM. Perencanaan untuk implementasi dimulai sejak tahap Pemahaman Bisnis dan perlu mempertimbangkan tidak hanya cara menghasilkan nilai dari model, tetapi juga bagaimana menerjemahkan skor keputusan dan integrasi keputusan ke dalam sistem operasional.

    Pentingnya perencanaan sistem deployment juga mengakui sifat dinamis dari model. Model dibangun berdasarkan data yang mencerminkan kondisi pada waktu tertentu, sehingga perubahan seiring waktu dapat mempengaruhi karakteristik data. Oleh karena itu, monitoring model dan kemungkinan penggantian dengan model yang telah disesuaikan menjadi bagian integral dari rencana sistem deployment.

Komentar

Postingan populer dari blog ini

Studi Kasus Data Mining Dalam Menentukan Tingkat Kelulusan Mahasiswa

30 JENIS ALGORITMA SUPERVISED LEARNING (PREDIKSI)

Apa Itu Entitas, Atribut dan Relasi Dalam ERD