DATA MINING

Pengertian Data Mining

Data mining adalah proses pengumpulan dan pengolahan data yang bertujuan untuk mengekstrak informasi penting pada data. Pada proses pengumpulan informasi ini, metode atau teknik yang digunakan di antaranya ilmu matematika, statistika, ataupun pemanfaatan dalam teknologi kecerdasan buatan atau Artificial Intelligence (AI). Adapun pengertian data mining dikenal juga dengan istilah lain yaitu Knowledge Discovery in Databases (KDD) atau Data Analysis.

Tujuan Data Mining

Tujuan-tujuan dari data mining adalah :
  1. Sebagai sarana menjelaskan (Explanatory) : Data mining digunakan untuk menjelaskan kondisi penelitian atau fenomena tertentu dengan mengidentifikasi pola atau hubungan dalam data yang dapat memberikan pemahaman lebih dalam tentang penyebab atau faktor yang mempengaruhi suatu kejadian.
  2. Sebagai sarana konfirmasi (Confirmatory) : Data mining dapat digunakan untuk mengonfirmasi atau memvalidasi pernyataan atau hipotesis yang telah diajukan sebelumnya dengan menguji data terhadap pola atau hubungan yang diharapkan.
  3. Sebagai sarana eksplorasi (Exploratory) : Data mining digunakan sebagai alat untuk eksplorasi data guna menemukan pola atau hubungan baru yang sebelumnya tidak diketahui atau terdeteksi. Ini memungkinkan penemuan wawasan baru yang dapat menjadi dasar untuk penelitian lebih lanjut atau pengambilan keputusan yang lebih baik.
Tujuan utama dari data mining adalah untuk mengekstrak informasi yang berharga atau pengetahuan yang tersembunyi dari kumpulan data yang besar dan kompleks.

Tahapan Data Mining

Proses data mining terdiri dari beberapa tahapan, berikut tahapan-tahapan dalam data mining :

1. Pengumpulan Data

Tahap pengumpulan data merupakan tahap pertama dalam proses data mining, tahap ini adalah proses mengumpulkan data yang relevan dengan tujuan analisis. Data ini dapat berasal dari berbagai sumber seperti basis data perusahaan, data histori, atau data eksternal seperti media sosial. Data yang dikumpulkan wajib mencakup variabel yang relevan dan mencerminkan aspek yang ingin diteliti.

2. Pembesihan data (Data Cleaning)

Setelah dikumpulkan, akan dilakukan tahap Data Cleaning, yaitu membersihkan data dari kesalahan, duplikasi, atau nilai-nilai yang hilang. Proses ini melibatkan identifikasi dan penanganan nilai yang hilang, penghapusan entri duplikat, penanganan outlier, dan penanganan kesalahan atau ketidakakuratan dalam data.

3. Integrasi Data

Integrasi data adalah data yang berhasil di bersihkan akan diintegrasi atau digabungkan menjadi satu set data lengkap. Proses ini dapat melibatkan penggabungan data berdasarkan kunci utama atau atribut yang unik, atau penggabungan data menggunakan metode lain yang sesuai.

4. Transformasi Data

Pada tahap transformation data akan dipilih dan diubah formatnya agar sesuai dengan teknik atau metode yang dipakai. Proses transformasi data dapat mencakup normalisasi data untuk menghilangkan bias skala, pengkodean variabel kategorikal menjadi format yang cocok untuk analisis, pemilihan dan penyesuaian fitur, atau transformasi lainnya yang diperlukan. Pada tahap ini kualitas data mining akan terlihat. 

5. Mining Data

Tahapan data mining selanjutnya adalah penambangan data itu sendiri. Perlu penentuan metode penambangan yang tepat. Berbagai teknik dan algoritma data mining diterapkan pada data yang telah dipersiapkan sebelumnya. Teknik data mining meliputi eksplorasi data, pengelompokan (clustering), klasifikasi, regresi, asosiasi, dan lainnya. Tujuan dari tahap ini adalah mengidentifikasi pola, hubungan, atau wawasan yang tersembunyi dalam data yang dapat digunakan untuk tujuan analisis atau pengambilan keputusan yang lebih baik.

6. Evaluasi dan Interpretasi Hasil

Setelah selesai melakukan proses data mining, hasilnya dievaluasi dan diinterpretasikan. Evaluasi dilakukan untuk mengukur kualitas model atau temuan yang diperoleh dari data mining. Hal ini melibatkan penggunaan metrik evaluasi yang sesuai, seperti akurasi, presisi, recall, atau metrik lain yang relevan tergantung pada jenis analisis yang dilakukan.

CRISP-DM (Cross-Industry Standard Process For Data Mining)


Cross-Industry Standard Process for Data Mining atau CRISP-DM merupakan satu model proses datamining (datamining framework) yang awalnya (1996) dibangun oleh 5 perusahaan yaitu Itegral Solutions Ltd (ISL), Teradata, Daimler AG, NCR Corporation dan OHRA. Framework ini kemudian dikembangkan oleh ratusan organisasi dan perusahaan di Eropa untuk dijadikan methodology standard non-propietary bagi data mining. CRISP-DM adalah sebuah model proses yang populer dan diakui secara internasional untuk proyek data mining. Model ini menyediakan kerangka kerja yang terstruktur untuk mengelola proyek data mining dari awal hingga akhir. Model proses CRISP-DM memberikan gambaran tentang siklus hidup proyek data mining. CRISP-DM memiliki 6 tahapan yaitu :

1. Pemahaman Bisnis / Business Understanding

Ini adalah tahap pertama dalam CRISP-DM dan termasuk bagian yang cukup vital. Tahap pertama ini melibatkan pemahaman terhadap tujuan bisnis proyek data mining dan kebutuhan informasi dari sudut pandang bisnis. Hal ini membantu dalam menentukan tujuan yang spesifik untuk analisis data.

2. Pemahaman Data / Data Understanding

Di tahap ini, data yang tersedia dianalisis lebih lanjut. Ini melibatkan pengumpulan data, pemahaman terhadap struktur data, dan identifikasi potensi masalah atau kekurangan dalam data. Tahap ini memberikan fondasi analitik untuk sebuah penelitian dengan membuat ringkasan (summary) dan mengidentifikasi potensi masalah dalam data.

3. Persiapan Data / Data Preparation

Data yang telah dikumpulkan dipersiapkan untuk analisis lebih lanjut. Ini melibatkan pembersihan data, transformasi, integrasi, dan pemilihan fitur. Secara garis besar tahap ini untuk memperbaiki masalah dalam data, kemudian membuat variabel derived.

4. Modeling

Tahap ini adalah saat dimana model data mining sebenarnya dikembangkan menggunakan teknik-teknik yang tepat. Ini dapat mencakup pengujian beberapa model dan pemilihan yang paling sesuai. Pada tahap ini dilakukan metode statistika dan Machine Learning untuk penentuan terhadap teknik data mining, alat bantu data mining, dan algoritma data mining yang akan diterapkan.

5. Evaluasi

Model yang dikembangkan dievaluasi lebih lanjut untuk memastikan kualitasnya. Evaluasi dilakukan dengan menggunakan data yang tidak terlibat dalam pembangunan model untuk menguji kinerja model.

6. Implementasiv/ Deployment

Setelah model dievaluasi dan disetujui, langkah terakhir adalah mengimplementasikan solusi data mining ke dalam lingkungan bisnis.

SEMMA 

SEMMA adalah singkatan dari Sample, Explore, Modify, Model, dan Assess. SEMMA merupakan proses yang diperkenalkan oleh SAS Institude sebagai kerangka kerja yang digunakan untuk proyek analisis data. Berikut adalah langkah langkah dalam proses SEMMA :

  1. Sample : Tahap pertama melibatkan pemilihan sample data yang akan digunakan untuk analisis. Hal ini sering kali melibatkan pengambilan sample yang representatif dan kumpulan data yang lebih besar untuk mempercepat proses analisis.
  2. Explore Pada tahap ini, data dieksplorasi secara mendalam untuk memahami pola dan hubungan di dalamnya. Ini termasuk visualisasi data, anlisis statistik deskriptif, dan identifikasi potensi anomali atau tren yang menarik.
  3. Modify Tahap ini melibatkan pemrosesan data lebih lanjut, seperti pembersihan data, penghapusan nilai yang hilang, transformasi variabel, atau penggabungan variabel untuk mempersiapkan data untuk analisis lebih lanjut.
  4. Model Di tahap ini, model atau algoritma statistik diterapkan ke data untuk mengidentifikasi pola atau membuat prediksi. Ini bisa mencakup penggunaan berbagai teknik seperti regresi, klasifikasi, clustering, dll, tergantung pada tujuan analisis.
  5. Assess : Tahap terakhir adalah mengevaluasi kinerja model atau hasil analisis. Ini melibatkan pengujian model menggunakan data yang tidak terlibat dalam pembangunan model untuk memastikan keakuratannya. Evaluasi juga dapat mencakup analisis  tentang apakah hasilnya memenuhi tujuan awal proyek.

Proses SEMMA mirip dengan CRISP-DM dalam banyak hal, tetapi lebih terfokus pada aspek analisis data dari awal hingga akhir. Ini adalah kerangka kerja yang cukup terstruktur dan flesibel, yang dapat digunakan dalam berbagai proyek analisis data.

CCC ( Computational, Cognitive, and Communication )

CCC ( Computational, Cognitive, and Communication ) adalah konsep yang menggabungkan tiga elemen kunci dalam pemecahan masalah dan pengembangan solusi yang efektif :

1. Computational

Berkaitan dengan penggunaan algoritma, teknik pemrograman, dan komputasi untuk memproses informasi, mengeksekusi tugas, dan memecahkan masalah. Komputasi sangat penting dalam berbagai bidang, termasuk ilmu komputer, ilmu data, dan teknologi informasi.

2. Cognitive

Merujuk pada proses berpikir, analisis, dan pemahaman konsep. Ini melibatkan penggunaan pengetahuan, logika, dan pemikiran kritis untuk memahami masalah, mengidentifikasi solusi potensial, dan membuat keputusan yang tepat.

3. Communiation

Merujuk pada kemampuan untuk menyampaikan ide, informasi, dan hasil kepada orang lain secara jelas, efektif, dan persuatif. Komunikasi yang baik penting dalam berkolaborasi, mempresentasikan solusi, dan mempengaruhi orang lain.

Referensi
https://www.dicoding.com/blog/apa-itu-data-mining/
https://dibimbing.id/blog/detail/tahapan-proses-data-mining-yang-perlu-diikuti-dengan-hati-hati
https://mmsi.binus.ac.id/2020/09/18/cross-industry-standard-process-for-data-mining-crisp-dm/
https://www.starburst.io/learn/data-fundamentals/semma-crisp-dm/

Komentar

Postingan Populer