PREPROCESSING DATA
Anggota Kelompok
- Aldimas Laksono
- Ira Sutirahayu
- Risma Marina
Point Pembahasan :
Data Cleaning, Data Transformasi, dan Data reduction
Pendahuluan
Dalam pengolahan data, tahapan pra-pemrosesan atau preprocessing seperti data cleaning, data transformasi, dan data reduction menjadi kunci untuk memastikan kualitas dan relevansi data yang akan digunakan. Data cleaning bertujuan untuk membersihkan data dari kesalahan, data transformasi mengubah format data sesuai kebutuhan analisis, dan data reduction mengurangi kompleksitas dataset tanpa kehilangan informasi penting. Dalam pembahasan ini, kami akan membahas masing-masing tahapan ini secara singkat serta mengimplementasikannya terhadap suatu dataset.
Data Yang Digunakan :
Data yang akan digunakan pada tugas ini adalah data kelulusan dan transkip nilai mahasiswa Universitas Buanan Perjuangan Karawang, berupa link API yang tersedia pada tugas.
Pembahasan
1. Data Cleaning
Data Cleaning adalah proses memperbaiki atau menghapus data yang salah, rusak, formatnya salah, duplikat, atau tidak lengkap dalam kumpulan data. Data cleaning sangat penting dalam pra-pemrosesan data yang bertujuan untuk membersihkan data dari kesalahan atau ketidaksesuaian yang dapat mempengaruhi kualitas analisis. Data cleaning membantu memastikan bahwa data yang digunakan untuk analisis atau pemodelan akurat, konsisten, dan dapat dipercaya, sehingga memberikan dasar yang solid untuk pengambilan keputusan yang tepat.
2. Data Transformasi
Data Transformasi adalah proses mengubah data dari suatu format atau struktur ke format atau struktur lainnya. Proses transformasi juga bisa disebut sebagai data wrangling, atau data munging, mentransformasikan dan memetakan data dari satu bentuk data "mentah" ke dalam format lain untuk disimpan dan dianalisis. Tujuan utama dari data transformasi adalah untuk meningkatkan interprestasi dan kinerja analisis. Proses ini mencakup berbagai teknik, termasuk normalisasi, encoding kategori, dan transformasi distribusi data.
3. Data Reduction
Data Reduction adalah proses mengurangi jumlah atribut atau fitur dalam dataset sambil mempertahankan sebagian besar informasi yang relevan. Tujuannya adalah untuk mengatasi masalah seperti kompleksitas komputasi, overfiting, atau untuk memfasilitasi pemahaman dan interpretasi ayang lebih mudah. Terdapat dua pendekatan umum dalam data reduction :
- Pemilihan Fitur : Pemilihan fitur melibatkan identifikasi dan pemilihan subset yang paling relevan dari semua fitur yang tersedia dalam dataset. Langkah ini dilakukan dengan mempertimbangkan korelasi antar fitur, signifikansi terhadap target, atau dengan menggunakan teknik pemilihan fitur seperti Recursive Feature Elimination (RFE) atau analisis komponen utama (PCA).
- Ekstraksi Fitur : Ekstraksi fitur melibatkan tranformasi dataset ke ruang fitur yang lebih rendah dimensi. Ini dilakukan dengan menggabungkan beberapa fitur menjadi satu fitur baru yang lebih representatif, yang mengandung sebagian besar informasi dari fitur asli.
Hasil Implementasi Menggunakan Google Collab
1. Data Cleaning
A. Missing Value
Dari hasil visualisasi dan penghitungan jumlah missing value pada setiap kolom, didapatkan bahwa untuk variabel IPS_Semester_0 dan IPS_Semester_9 memiliki jumlah nilai hilang yang sangat tinggi, masing-masing 4501 dan 4511. Ini mungkin menunjukan bahwa data tersebut tidak lengkap atau tidak terekam dengan baik. Penanganan yang dilakukan yaitu dengan drop atau penghapusan kolom tersebut, karena proporsi missing value sangat tinggi, dan mungkin tidak memberikan kontribusi yang signifikan terhadap analisis keseluruhan. Untuk atribute IPS_Semester_1, IPS_Semester_2, dan IPS_Semester_8 memiliki jumlah missing value yang relatif kecil dibandingkan dengan jumlah total entri dalam kolom. Penaganan yang dilakukan yaitu dengan teknik imputasi atau melakukan pengisian dengan menggunakan nilai mean atau median dari kolom tersebut.
B. Duplikasi Data
Pengecekan duplikasi data bertujuan untuk memeriksa jumlah duplikasi data dalam DataFrame, proses ini menggunakan metode '.duplicated()'. Metode tersebut berfungsi untuk mengidentifikasi baris-baris yang memiliki nilai yang sama dengan baris lainnya. Kemudian dari hasil identifikasi menggunakan '.duplicated()' dilakukan penjumlah menggunakan '.sum()' untuk menjumlahkan semua nilai yang dihasilkan.
Jika dilihat dari hasil identifikasi duplikasi data diatas, didapatkan jumlah total duplikasi yang ditemukan dalam DataFrame adalah '0', artinya tidak ada duplikasi yang terdeteksi dalam data tersebut. Hal ini menunjukan bahawa setiap baris dalam DataFrame bersifat unik, tidak ada baris yang sama persis sama dengan baris lainnya.
C. Penanganan Error atau Inconsistencies
Jika kita lihat kode diatas, metode yang digunakan yaitu select_dtype untuk mendapatkan nama kolom yang memiliki tipe data numerik. kemudian, menggunakan loop untuk menginterasi melalui setiap kolom numerik dan menerapkan fungsi pd.to_numerik untuk mengonversi nilai dalam kolom tersebut menjadi numerik. Fungsi 'fix_data_type_erros' dirancang untuk menangani kesalahan tipe data dalam suatu DataFrame, secara khusus berfokus pada kolom-kolom numerik.
D. Mendeteksi Outlier
Berdasarkan bocplot yang menggambarkan persebaran data, terutama pada kolom IPS tiap semester dan tahun lahir, terlihat adanya outlier-outlier yang cukup mencolok. Namun, evaluasi terhadap keberadaan outlier tersebut menunjukan bahwa persebarannya tidak terlalu luas dan data tersebut masih tergolong valid tanpa adanya anomali yang mencolok. Dalam situasi seperti ini, mempertahankan outlier-outlier tersebut dapat menjadi pilihan yang rasional karena menghapus atau mengubahnya dapat menghilangkan informasi yang penting atau mengubah karakteristik dataset secara keseluruhan.
E. Normalisasi / Standarisasi
Standarisasi yang dilakukan pada tahap ini yaitu mengkoversi kolom tanggal_lulus dan tgl_masuk ke tipe data datetime, kemudian distandarisasi format tanggal sesuai dengan format 'dd-mm-yy'. Kemudian menangani nilai data yang tidak konsisten pada kolom predikat. Tujuannya adalah untuk mengganti nilai yang tidak konsisten dalam kolom predikat dengan nilai yang konsisten yaitu nilai yang sudah di tentukan diantaranya 'Pujian', 'Memuaskan', dan 'Sangat Memuaskan'. Selanjutnya yaitu melakukan standarisasi nilai pada kolom jenis kelamin, menggantikan nilai 0 dengan "L" (laki-laki) dan nilai 1 dengan "P" (Perempuan), setelah dilakukan pemeriksaan apakah hanya ada dua nilai unik dalam kolom 'jenis_kelamin' yitu 'L' dan 'P'.
2. Data Transformasi
Pada tahap data transformasi, akan dilakukan proses untuk menentukan durasi kuliah setiap mahasiswa dan nilai IPK setiap mahasiswa. Hal ini termasuk dalam langkah-langkah data transformasi karena mengubah atau mengolah data mentah menjadi bentuk atau representasi yang lebih bermakna dan relevan untuk analisis yang akan dilakukan.
A. Menentukan Durasi Kuliah Setiap Mahasiswa
Pada proses ini, menghitung durasi kuliah dari tanggal masuk dan tanggal lulus melibatkan pengolahan data pada kolom tanggal_lulus dan tgl_masuk untuk mendapatkan informasi yang lebih bermakna, yaitu durasi studi. Hal ini melibatkan perhitungan atau manipulasi data tanggal untuk menghasilkan durasi yang diinginkan, seperti menghitung selissih antara dua tanggal.
B. Menentukan Nilai IPK Setiap Mahasiswa
Menentukan nilai IPK setiap mahasiswa menggunakan data pada IPS_Semester_1 hingga 8, merupakan bagian dari data transformasi. Ini melibatkan pengolahan data nilai IPS tiap semester untuk menghasilkan nilai IPK yang mewakili kinerja akademik keseluruhan mahasiswa. Proses ini berupa perhitungan rata-rata nilai IPS dari semua semester. Hasil perhitungan tersebut kemudian disimpan pada kolom baru yaitu IPK.
3. Data Reduction
Pada tahap reduction, kami mimilih atribut yang dianggap penting untuk analisi lebih lanjut. Atribut yang dipilih termasuk NIM, Predikat, Jenis kelamin, Durasi kuliah, Keterangan lulus, dan IPK. Pemilihan atribut didasarkan pada relevansi dan kontribusi mereka terhadap pemahaman kinerja akademik dan karakteristik mahasiswa. Langkah ini membantu mengurangi kompleksitas dataset dan fokus pada informasi yang paling relevan, memudahkan analisis dan interpretasi data.
Kesimpulan
Kesimpulan dari laporan ini, tahapan pra-pemrosesan data, termasuk data cleaning, transformasi dan reduction, berperan penting dalam memastikan kebersihan, keakuratan, dan keterandalan data untuk analisis yang efektif. Data cleaning membersihkan data dari kesalahan atau ketidaksesuaian, sementara transformasi mengubah format data untuk meningkatkan interpretasi dan kinerja analaisis. selanjutnya, data reduction menyederhanakan dataset dengan memilih atribute yang paling relevan. Dengan menerapkan tahapan-tahapan ini secara efektif, kita dapat memastikan bahwa data yang telah diproses dengan baik dapat digunakan untuk analisis yang akurat dan mendalam.
Link Google Collab :
Link Video Presentasi :
Komentar
Posting Komentar