Pengertian Data Cleaning Penyebab data menjadi Unclean dan Teknik

7 min read

apa itu data cleaning/cleansing

Pengertian Data Cleaning penyebab data menjadi Unclean dan teknik – Kita bisa dengan mudah mengumpulkan data dengan cara apapun. namun Data yang berhasil dikumpulkan tidak 100% hasilnya sesuai dengan apa yang dibutuhkan. disitulah data cleaning dilakukan.lalu apa pengertian data cleaning? apa penyebab data menjadi unclean? dan apa saja teknik yang dilakukan? mari kita bahas.

Pengertian data cleaning

Apa itu Data Cleaning? pengertian Data Cleaning/ Data cleansing adalah proses menyiapkan data untuk dilakukan analisis dengan cara menghapus atau memodifikasi data salah, tidak relevan, duplikat, dan tidak terformat.

dibeberapa artikle belakangan saya sering berkata bahwa salah satu proses dari pengolahan data adalah melakukan data cleaning/cleansing. tapi apa itu sebenarnya data cleaning? lalu apa saja teknik yang digunakan?

baca :apa itu data science?

Kenapa kita harus melakukan Data Cleaning/Cleansing

Data yang buruk akan menyebabkan hasil yang buruk. Ungkapan “garbage in, garbage out” sudah sangat dikenal di dalam dunia Data Science. Komputer bukanlah ahli segalanya, mereka adalah mesin yang melakukan perhitungan dengan sangat cepat. Mereka tidak memiliki wawasan atau intuisi, mereka juga tidak memiliki kecerdasan atau perasaan Untuk menentukan mana yang masuk akal dan mana yang tidak

Untuk menghasilkan output yang di inginkan, kita harus mencegah kesalahan input data dan masalah yang akan mengacaukan algoritma . Pembersihan data (Data Cleaning/Data Cleansing) adalah cara untuk melakukan hal ini. Pembersihan data adalah aspek analisis data yang memakan waktu cukup lama dan wajib untuk dilakukan sebelum data tersebut diolah.

Penyebab data Menjadi unclean/kotor

Data dari dunia nyata mungkin tidak terstruktur dan diambil secara otomatis.Hal ini menyebabkan data tersebut tudak konsisten dan memiliki kualitas yang rendah.

Kadang-kadang data set yang dikumpulkan dari berbagai sumber juga memiliki masalah lain.seperti data tersebut rusak, tidak dapat dipercaya, berasal dari sensor yang rusak, dsb . Ada banyak alasan mengapa data tidak bisa langsung diterapkan dalam algoritma.

kesalahan input

Ada banyak kemungkinan manusia melakukan kesalahan input. Mereka mungkin kesalahan ketik, salah perhitungan, atau salah membaca. untuk form terbuka, seperti teks yang tidak terdeteksi, mungkin ada kesalahan ketik yang tidak akan di kenali oleh komputer sebagai data yang identik misalnya kita menginputkan 3 jenis data yang memiliki arti yang sama yaitu(“Ya,” ,”Iya”, “Y”) maka komputer tetap mengenali data tersebut sebagai data yang berbeda.

Untuk bidang numerik, mungkin ada kebingungan tentang besarnya (000s atau 000,000s). Saya yakin Anda dapat memikirkan berbagai cara lain yang bisa dilakukan oleh satu orang memasukkan data tersebut.

Sensor yang tidak bekerja

Mesin juga bisa salah. sensor dalam mesin cuci mungkin tidak dapat mendeteksi suhu diatas 50C untuk suhu air. Manusia dengan mudah menangkap kesalahan ini, tetapi komputer mungkin tidak akan menangkap kesalahan tersebut.

Data hancur/rusak

Ketika sensor tidak berfungsi, sensor cenderung menghasilkan nilai-nilai luar rentang yang dapat diterima (seperti bobot negatif). Kadang-kadang sensor juga menghasilkan data yang valid, namun data hancur dalam perjalanan ke tempat penyimpanan. format data eksklusif mungkin tidak dapat dibaca oleh program yang berbeda. Gangguan selama transmisi publik internet dapat menyebabkan paket yang hancur dan dengan demikian masukan input error.

Duplikat

pada awalnya data dikumpulkan dari berbagai sumber, ada kemungkinan besar data tersebut ada yang duplikat. Kadang-kadang hal ini tidak dapat diidentifikasi dengan pemeriksaan sederhana, maka perlu dilakukan penghapusan data yang duplikat menggunakan mesin agar hail prediksi dapat sesuai yang diharapkan.

Kekurangan Standardisasi

Bila kita menggunakan berbagai sumber data, kurangnya standarisasi adalah normal. Untuk mencapai hasil yang benar, semua data yang serupa harus diwakili dengan input yang sama. Hal ini wajib, tetapi untuk mencapai hasil ini kita harus melakukan berbagai macam cara.

Bahkan dalam sebuah single data source projects, masalah standarisasi masih bisa timbul. Beberapa orang mungkin memiliki kebiasaan ejaan atau huruf kapital yang berbeda, dan orang-orang di tim yang berbeda dalam sebuah organisasi bahkan mungkin menggunakan nama yang berbeda untuk topik yang sama atau produk! untuk itu kita memerlukan standarisasi untuk penamaan tertentu.

Cara Mengidentifikasi Masalah Pada Data

data cleaning cleansing

Pada bagian ini, mari kita menjelajahi beberapa kendala data dan bagaimana cara memperbaikinya.

1. Memberikan Batas pada suatu input

cara untuk memudahkan pengecekan, adalah memahami, rentang batas. Air hanya memiliki batas suhu antara 0 dan 100 derajat Celsius. Jika data Anda menghasilkan data bahwa air tersebut memiliki suhu 435 C, itu bukan air, mungkin itu adalah uap-uap yang dapat membuat mesin cuci anda meledak. Jika hasil pengukuran ternyata suhunya -30 C, mesin cuci Anda mungkin beku.

kamu bisa menentukan fungsi “max” dan “min” dalam radius yang anda butuhkan. Anda dapat dengan cepat memeriksa kisaran batas dengan cara ini. Hal ini umumnya dioptimalkan sebagai fungsi mendasar juga, sehingga mereka akan berjalan cepat bahkan pada set data yang sangat besar. Cara lain adalah dengan menggunakan Boolean masker dan memeriksa nilai-nilai yang melanggar kendala, atau grafik data dan tampilan untuk distribusi normal.

2. Pastikan Semua Kategori Data Sesuai

variabel nilai kategoris hanya dapat dipilih dari satu set pilihan tertentu.misalnya sebuah Perangkat hanya dapat diaktifkan atau dinonaktifkan. Status pernikahan mungkin hanya satu, menikah atau bercerai. Hewan mungkin hanya satu spesies, dan itu harus menjadi spesies yang valid.

Anda dapat memeriksa dan menjalankan semacam batas kategoris fungsi pencarian unik (Python, SQL) dan lihat hasilnya. Jika ada delapan kategori mungkin, pencarian unik Anda akan menghasilkan delapan atau lebih sedikit hasil. Anda dapat dengan mudah memeriksa bahwa semua kategori yang diidentifikasi adalah sah.

Jika ada terlalu banyak kategori yang bisa di pecah mungkin kamu bisa\menggunakan sesuatu seperti regex (ekspresi reguler).

baca : 6 skill yang dibutuhkan untuk menjadi data scientist

3. Konsistensi data

String “ya,” “iya”, dan “Y” tidak dapat di indentifikasi sebagai identik. dan hal ini akan berakibat buruk untuk informasi yang akan dihasilkan, jadi sebaiknya anda harus menetapkan standarisasi data atau melakukan pengecekan untuk menyamakan beberapa data identik tersebut.

4. Kendala Lintas Sektor

yang paling sulit adalah mengecek kesalahan yang melibatkan lebih dari 1 sector. Keterbatasan ini berkaitan dengan validitas cross rows atau cols. Sebagai contoh, $ 100.000 mungkin merupakan penghasilan yang valid, dan angka 3 mungkin adalah input yang valid untuk kategori usia , namun bagaimana jika sebuah datab menunjukan Alex berusia 3 tahun dan memiliki pendapatan $ 100.000 sangat tidak mungkin. Itu bisa lebih rumit, seperti dalam contoh ini:

Jika proyek Anda sangat bergantung pada kebenaran informasi cross-kolom (usia, pendapatan) atau lintas-line (1234/9876), Anda perlu untuk mengembangkan kode untuk menangkap jenis kesalahan ini. Mungkin di sini Anda hanya bisa mengulang setiap ID dan pastikan memiliki hubungan timbal balik. id 1234 harus menikah dengan id 9876 dan id 9876 harus menikah dengan id 1234. Hal yang sama harus muncul untuk id 4233/9324 dan id 9324 / 4233. Setiap penyimpangan dapat dikumpulkan dalam daftar dan Ulasan manual.

5. visualisasi

Visualisasi adalah cara yang baik untuk menemukan outlier, distribusi aneh, dan masalah lainnya dengan mudah. mungkin anda mengetahui tentang distribusi normal, tetapi faktanya terkadang kita juga memiliki distribusi bimodal, Anda harus menyesuaikan asumsi awal Anda. teknik visualisasi, seperti box and whiskerplot, histogram, dan scatterplot, bisa sangat membantu dalam cepat menangkap beberapa masalah.

Visualisasi juga akan membantu Anda mengidentifikasi trend, yang dapat membantu dalam scaling. Excel memiliki beberapa tool yang memiliki kemampuan visualisasi yang kuat, tetapi ada banyak library dalam bahasa lain seperti Python yang juga dapat membantu anda.

baca juga: apa itu visualisasi data

6. Kesalahan penghitungan

Jika Anda menemukan pelanggaran batas, Anda ingin menghitung itu. Hanya satu mungkin kebetulan. Jika 50% dari titik data dalam pelanggaran, mungkin ada kendala atau input data tidak dapat diterapkan. Bahkan jika Anda menggunakan visualisasi, pastikan Anda juga menghitung kesalahan. Jika contoh sensor yang dikeluarkan 500 identik dan tidak valid, itu akan tersembunyi di balik titik data visual yang sama pada layar.

7. Missing Values

Missing Values mungkin adalah masalah data cleaning yang paling sering ditemui. Nilai mungkin hilang karena Anda menggabungkan dua set data dari sumber yang berbeda, dengan proses entri entah bagaimana anda mungkin kehilangan row, atau nilai dihapus sengaja.

Satu atau dua nilai yang hilang mungkin tidak masalah, tetapi bagaimana jika anda memiliki banyak data yang hilang? Anda harus menyelidiki apa yang terjadi. apakah ada kerusakan pada sensor?, apakah data tersebut hilang saat proses transmisi, apakah format data tidak sesua? dsb.

Kehilangan nilai dan menandakan bahwa anda kehilangan banyak informasi, Miss Values tidak bisa anda abaikan

Macam-Macam Teknik Data Cleaning

teknik & cara melakukan data cleaning cleansing

Setelah Anda mengidentifikasi data apa yang akan dibersihkan dan apa saja yang menyebabkan data menjadi kotor, sekarang anda butuh cara yang tepat untuk membersikan data tersebut.

1.data removal

teknik data cleaning yang pertama adalah data removal. Ini adalah metode yang paling banyak digunakan. Untuk nilai yang hilang, lebih baik untuk menyelidiki alasan bukan hanya menghilangkan baris atau kolom yang berisi nilai-nilai yang hilang. Jika seluruh kolom yang hilang cukup banyak maka data tersebut juga menjadi tidak valid.

Sebelum menghapus banyak titik data, penting untuk mendapatkan masukan dari para ahli di bidang ini. Hal ini berlaku jika Anda ingin menghapus seluruh kolom. seperti misalnya anda akan menyiapkan data tentang penyakit jantung, lalu banyak data dari kolom usia yang hilang, anda harus menanyakan kembali kepada pakar ahli jantung untuk bertanya apakah data tersebut berpengaruh besar pada hasil prediksi atau tidak.

Selain itu anda juga bisa melakukan penghapusan terhadap data yang duplikat agar outputnya sesuai dengan yang di inginkan.

2.koreksi Langsung

cara ini lebih baik dibanding menghapus data secata langsung,cara ini juga biasa dilakukan untuk mengatasi masalah kosistensi data yang mana masalah kedua hal tersebut harus di identifikasi terlebih dahulu.

Untuk mengatasi masalah konsistensi dalam data categorical sekala kecil, mungkin mudah untuk dilakukan, anda hanya perlu menjalankan pencarian nilai unik dan kemudian mengedit beberapa value untuk mengatasi errornya, Jika Anda memiliki sesuatu seperti nama kota, mungkin sulit untuk menggunakan jika pernyataannya bersifat eksplisit. Anda mungkin membutuhkan fuzzy search untuk melakukan koreksi seperti itu.

kesalahan konsistensi numerik, seperti urutan yang tidak sesuai, mudah dikoreksi dengan perkalian atau pembagian. masalah konsistensi biner dapat diperbaiki jika Anda secara akurat dapat menentukan masukan non-biner ke salah satu kategori biner.

Kesalahan yang timbul dari sensor tidak berfungsi atau kesalahan input manusia juga harus diperbaiki pada sumbernya (hanya jika langkah tersebut bisa dilakukan). Jika Anda menggunakan salah satu pengumpulan data set yang tersedia untuk umum atau skala besar, tidak bisa memperbaikinya dari sumbernya.

3.scaling

teknik data cleaning scalling dilakukan dengan cara mengubah sekala suatu data sehingga beberapa value tidak mendominasi value lainnya hanya karena data tsb secara alami menghasilkan nilai yang lebih besar. Sebagai contoh, suhu kota cenderung memiliki jangkauan jauh lebih kecil(-5c samapi 35c) daripada populasi kota yang bisa mecapai jutaan. Distance-Based algorithm akan menetapkan banyak fokus untuk data yang lebih besar yaitu variabel populasi, bahkan dapat mengabaikan variabel suhu. Scaling membawa variabel sejalan satu sama lain sambil mempertahankan hubungan proporsional dalam variabel. Ini terlihat ketika Anda mengubahnya menjadi persentase atau garis dasar untuk 100.

4.Imputation

Teknik ini paling hampit mirip dengan mengisi missung values, tetapi metode ini juga dapat dilakukan untuk value yang salah apalagi ketika metode koreksi tidak dapat dilakukan.

Imputasi adalah cara yang paling disukai untuk menebak. Namun, karena kita berada dalam bidang data science,kita akan menebak berdasarkan data, bukan hanya menebak acak. Anda dapat menyangkal nilai indikator statistik (seperti mean, median, modus), hot-decking, stratifications , dan banyak lagi.

caranya adalah dengan mengganti setiap nilai yang hilang dengan indikator statistik. Namun, hati-hati di sini. Anda dapat memperkuat pola yang telah diperoleh dari data diketahui, berpotensi meliputi pola penting yang dikelola oleh fakta.misal, Dalam sebuah survei sampel dari luas suatu bangunan yang di gunakan hilang, jika Anda hanya menggunakan nilai rata-rata untuk semua data yang hilang, Anda mungkin mengabaikan nilai negatif yang kuat di bangunan tsb.

5.Hot Decking

Hot-decking mengisi nilai-nilai yang hilang dengan secara acak memilih nilai yang sudah ada sebelumnya. Sekali lagi, ini dapat menyebabkan Anda mengabaikan informasi penting dari data yang hilang, Namun, Hot-decking tidak akan menjadikan semua value yang hilang menjadi sama seperti anda mengisinya berulang kali.

stratification berguna jika Anda sudah tahu beberapa pola dalam data Anda.seperti Ketinggian wanita, rata-rata, lebih pendek dari tinggi manusia. Anda dapat membagi kumpulan data Anda ke dalam pria dan wanita, kemudian menggunakan sub-indikator untuk penggantian atau dek bagian dari pria dan wanita. Apakah yang cara ini sempurna? Tidak, tapi ini lebih baik daripada menggunakan indicator atau hot-decking dari seluruh populasi.

Jika Anda memiliki proyek mission-critical dan sangat sulit untuk mengambil data yang benar, disarankan untuk mencari pola yang dikenal dalam kumpulan data dan nilai-nilai tersirat konsisten dengan pola dikenal. Anda ingin menghindari memberikan bias Anda sendiri atau laten sebanyak mungkin saat memasukkan data, sehingga mendapatkan pendapat kedua jika Anda bisa.

cara ini biasa dilakukan oleh expertist data scientist karena diperlukan intuisi yang tinggi terhadap data.

6.Flaging

metode data cleansing satu ini sangat berguna untuk missing values ketika Anda tidak ingin membuang value tersebut. Untuk data numerik, Anda dapat menambahkan kolom lain untuk pengumpulan data dan menandai semua nilai yang hilang di sana. Algoritma ini akan menginformasikan tentang nilai-nilai yang hilang, yang dapat membuktikan pengaruh dari value tersebut. Untuk variabel kategori, cukup membuat kelas “Hilang” atau “Unknown”.

Jika variabel yang ditandai menjadi penting, Anda mungkin perlu memperbaiki data yang sudah ditandai tersbut untuk medapat informasi yang sesuai. Jika Anda tidak dapat melakukan hal ini, pastikan untuk menyebutkan hal ini di dalam laporan.

itulah beberapa penjelasan yang bisa saya sampaikan seputar data cleaning, data cleaning adalah hal yang wajib dilakukan oleh data scientist saat melakukan pemrosesan data.

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *