Apa itu Data Preparation ?

Data preparation atau data wrangling adalah proses yang memakan waktu dan tenaga paling besar bagi seorang data analyst/scientist, yaitu sampai 80 %. Detailnya, pembacaan sumber data memakan waktu sampai 20 %, dan mengorganisasikan dan membersihkan data memakan waktu sampai 60 %.

Konsep Data Preparation

Dengan demikian, keterampilan untuk melakukan data preparation atau saat ini sering disebut sebagai data wrangling adalah mutlak untuk seluruh data scientist maupun data analyst.

Lalu apa saja yang dilakukan di proses ini?

Data wrangling adalah proses membaca data dari berbagai sumber dan mengubah isi dan struktur sehingga dapat digunakan untuk analisa.

Data cleansing biasanya melibatkan isi yang perlu diubah karena kadang data dimasukkan dari sistem yang berbeda. Bertolak belakang dengan anggapan bahwa dengan sistem, data akan bersih dan standar. Pada kenyataannya, bisnis berkembang lebih cepat dibandingkan dengan pembuatan sistem sehingga banyak design diubah di tengah jalan untuk mengakomodir hal ini, dan isi menjadi “berantakan”. Penyebab utama lainnya tentunya adalah sistem entri data yang manual.

Back to top