Data Preparation & Data Visualization

 


Mengenal tentang Data Preparation

Data preparation atau data preprocessing adalah teknik yang digunakan untuk mengubah data mentah dalam format yang berguna dan efisien (input yang baik untuk data mining tools). Pengertian lainnya, data preparation merupakan proses pengumpulan, penggabungan, dan pengorganisasian data sehingga dapat digunakan dalam aplikasi business (BI), analitik, dan visualisasi data.

Mengapa harus dilakukan data preparation

Mengapa perlu dilakukan preparition data sebelum di proses, karena dalam data metah terdapat daya yang incomplete, contohnya yaitu :
  1. Data yang kekurangan nilai atribut atau hanya mengandung agregat data.
  2. Noisy, yaitu data yang masih mengandung error dan outliers.
  3. Inconsistent, yaitu data yang mengandung discrepansi dalam code dan nama atau singkatnya tidak konssten.
fungsi utama data preparation adalah memastikan keakurantan dan konsistensi data mentah yang disiapkan untu pemrosesan dan anlisis. Jika data masukan tidak berkualitas, maka hasil data mining juga tidak akan berkualitas. kualitas data sendiri memiliki korelasi langsung dengan keberhasilan setiap proyek yang melibatan analisis data.

Tahap Kerja Data Preprocession

1. Data Cleaning
Dalam tahap kerja ini, data dibersihkan melalui beberapa proses seperti mengisi nilai yang hilang, menghaluskan noisy data, dan menyelesaikan inkonsistensi yang ditemukan.

2. Data Integration
Data integration adalah suatu langkah untuk menggabungkan data dari beberapa sumber. data integration hanya dilakukan jika data berasal dari tempat yang berbeda-beda. Langkah yang dilakukan antara lain mengintegrasikan skema, mengidentifikasi masalah entitas, dan mendeteksi sekaligur menyelesaikan konflik pada nilai data.

3. Data Transformasi
Data transformation yaitu mengubah suatu data supaya diperoleh data yang lebih berkualitas. Yang akan dilakukan antara lain menghilangkan noise dari data (smoothing), meng-agregasi data, generalisasi data, normalisasi data, dan pembentukan atribut / fitur.

4. Data reduction
Data reduction yaitu langkah untuk mereduksi dimensi, atribut ataupun jumlah data. yang akan dilakukan antara lain agregasi data cube, reduksi dimensi, diskretisasi data.

Contoh Penerapan Data Preparation

Import Library Python guna menampilkan data

Library pada Python merupakan sebutan untuk kumpulan fungsi dan metode kode program yang digunakan dalam kebutohan tertentu. dibawah ini library yang digunakan untuk preprocessing data diantara Pandas dan Numpy digunakan untuk menganalisis dan memanipulasi data serta komputasi.

Prepare/collect data. 

Setelah mengimpor library Python, langkah selanjutnya adalah memuat data. Dalam contoh kali ini, data tersimpan pada penyimpanan data secara daring Google drive.



Mengidentifikasi fitur dan sumber label. 

Untuk mengidentifikasi dan  memahami jenis data dan distribusi data dalam dataset dapat menggunakna library Panda. dengan metode ini dapat memberikan gambaran umum dari dataset dan menunjukan potensi masalah seperti fitur dan adanya beberapa nilai yang kosong atau hilang.


Mengatasi nilai yang hilang atau kosong.

Tujuan langkah ini adalah membuat fitur data yang terpenuhi sehingga dapat meningkatkan kualitas data sebelum dilakukan pengolahan atau analisis.





Data Visualization


Apa Itu Visualisasi Data?

Visualisasi data adalah proses menggunakan elemen visual seperti diagram, grafik, atau peta untuk merepresentasikan data. Pada dasarnya visualisasi data adalah suatu cara untuk mengubah data yang rumit menjadi bentuk yang lebih sederhana dan mudah dipahami, sehingga dapat membantu kita untuk mengidentifikasi pola, tren, atau hubungan antara data yang tersembunyi. Validasi data juga dapat membantu dalam pengambilan keputusan, karena dapat memberikan gambaran yang lebih jelas dan mudah dipahami tentang data yang dianalisis.

Apa Saja Fungsi Visualisasi Data?

Visualisasi data memiliki banyak sekali fungsi penting, berikut ini adalah beberapa fungsi visualisasi data :

1. Mempermudah Pemahaman Data
Visualisasi data memungkinkan kita untuk melihat dan memahami data dengan lebih mudah dari pada hanya dengan melihat angka-angka mentah. Grafik dan plot memperlihatkan pola, distribusi, dan hubungan antara variabel dengan cara yang mudah dipahami.

2. Membantu Identifikasi Pola dan Tren
Dengan visualisasi data, pola dan tren yang mungkin sulit dilihat dalam data mentah dapat dengan cepat teridentifikasi. Misalnya, grafik garis dapat menunjukan tren waktu, sementara diagram pencar dapat mengungkapkan hubungan antara dua variabel.

3. Meningkatkan Efektivitas Komunikasi Data
Visualisasi data adalah alat komunikasi yang kuat. Grafik dan plot memungkinkan kita untuk menyampaikan informasi dan temuan dari data dengan jelas.

4. Meningkatkan Efisiensi dalam Analisis Data
Dengan mewakili data dalam bentuk visual, kita dapat dengan cepat menganalisis informasi dan menarik kesimpulan. ini memungkinkan analisis data menjadi lebih efisien dari pada hanya mengandalkan tabel atau daftar angka.

5. Memungkinkan Pengambilan Keputusan yang lebih Baik
Dengan memahami data melalui visualisasi, kita dapat membuat keputusan yang lebih baik dan lebih terinformasi. visualisasi data membantu kita untuk melihat gambaran besar, mengidentifikasi pola yang mendasari, dan menyajikan informasi dengan cara yang memungkinkan pengambilan keputusan yang tepat.

Apa Saja Tipe Visualisasi Data Dan Penerapannya?

Terdapat berbagai tipe visualisasi data yang dapat digunakan tergantung pada tujuan dan jenis data yang akan ditampilkan. berikut ini adalah beberapa tipe visualisasi data yang paling umum digunakan.

1. Diagram Garis (Line Chart)


Grafik Garis / Diagram Garis adalah tipe visualisasi data yang digunakan untuk menunjukan perubahn data dari waktu ke waktu. Data tersebut dapat berupa data penjualan bulanan, jumlah pengunjung website per bulan, dan lain sebagainya. Dalam grafik garis, sumbu horizontal (x) menunjukan waktu dan sumbu vertikal (y) menunjukan skala nilai. Berikut contoh visualisasi data line chart dengan Python menggunakan library Matplotlib.


2. Diagram Batang (Bar Chart)

Diagram batang adalah tipe visualisasi data yang paling umum digunakan untuk menunjukan perbandingan antara beberapa kategori. Data tersebut dapat berupa data penjualan toko, jumlah karyawan per divisi, dan lain sebagainya. Berikut contoh visualisasi data tipe diagram batang dengan Python menggunakan library Matplotlib.


3. Diagram Pie (Pie Chart)


Diagram pie adalah tipe visualisasi data yang digunakan untuk menunjukan proporsi nilai dalam satu kategori. data tersebut dapat berupa proporsi penduduk dari suatu wilayah, proporsi penjualan dari suatu produk, dan lain sebagainya. Berikut contoh visualisasi data tipe diagram pie dengan Python menggunakan library Matplotlib.


4. Diagram Pencar (Scatter Plot)

Diagram pencar (scatter plot) adalah jenis visualisasi data yang digunakan untuk menunjukan hubungan antara dua variabel. setiap titik dalam diagram pencar mewakili satu pengamatan atau data, dengan sumbu x dan y mewakili nilai dari dua variabel yang berbeda. sactter plot sering digunakan untuk menemukan pola, hubungan atau tren dalam data. Berikut contoh penerapan visualisasi scatter plot pada Python menggunakan library Matplotlib.


5. Histogram 





Histogram adalah jenis visualisasi data yang digunakan untuk menampilkan distribusi frekuensi dari suatu data numerik. Histogram terdiri dari serangkaian persegi panjang (bin) yang mewakili rentang nilai dari data, dengan tinggi setiap bin menunjukan frekuensi kemunculan nilai di dalam rentang tersebut. Histogram membantu dalam memahami distribusi data, termasuk apakah data cenderung condong ke suatu nilai tertentu (modus), memiliki distribusi normal, atau memiliki pola tertentu lainnya. Berikut contoh penerapan visualisasi Histogram pada Python menggunakan library Matplotlib.



Referensi :
https://glints.com/id/lowongan/data-preprocessing-adalah/
https://greatnusa.com/artikel/visualisasi-data-adalah/
https://aws.amazon.com/id/what-is/data-visualization/































Komentar

Postingan Populer