Apa Itu Data Preprocessing & Bagaimana Langkah-Langkahnya? (Bagian 2)

Apa Itu Data Preprocessing & Bagaimana Langkah-Langkahnya? (Bagian 2)
Apa Itu Data Preprocessing & Bagaimana Langkah-Langkahnya?

Di Googling - Perusahaan dapat menggunakan data dari sumber yang hampir tak terbatas-informasi internal, interaksi layanan pelanggan, dan seluruh internet, untuk membantu menginformasikan pilihan mereka dan meningkatkan bisnis mereka.

Tetapi anda tidak bisa begitu saja mengambil data mentah dan langsung menjalankannya melalui machine learning  dan analytics program. Pertama-tama anda harus memproses data anda terlebih dahulu, sehingga dapat berhasil "dibaca" atau dipahami oleh mesin.

Dalam panduan ini, pelajari apa itu data preprocessing, mengapa ini merupakan langkah penting dalam data mining, dan bagaimana melakukannya.

Mari kita mulai...!

Apa Itu Data Preprocessing?

       Data preprocessing adalah langkah dalam proses data mining dan analytics program yang mengambil data mentah dan mengubahnya menjadi format yang dapat dipahami dan dianalisis oleh komputer dan machine learning.

Data mentah dunia nyata dalam bentuk teks, gambar, video, dll., yang masih berantakan. Tidak hanya mengandung kesalahan dan ketidakkonsistenan, tetapi seringkali tidak lengkap, dan tidak memiliki desain yang teratur dan seragam.

Mesin suka memproses informasi yang bagus dan rapi-mereka membaca data sebagai 1 dan 0. Jadi menghitung data terstruktur, seperti bilangan bulat dan persentase itu mudah. Namun, data yang tidak terstruktur , berupa teks dan gambar harus dibersihkan dan diformat terlebih dahulu sebelum dianalisis.

Pentingnya Data Preprocessing

       Saat menggunakan kumpulan data untuk melatih model machine learning, Anda akan sering mendengar frasa "sampah masuk, buang sampah". Artinya, jika Anda menggunakan data buruk atau "kotor" untuk melatih model, Anda akan mendapatkan hasil yang buruk, model yang tidak terlatih dengan benar yang sebenarnya tidak relevan dengan analisis anda.

Data yang baik dan telah diproses sebelumnya bahkan lebih penting dari pada algoritma yang paling canggih, sampai-sampai model pembelajaran mesin yang dilatih dengan data buruk sebenarnya dapat membahayakan analisis yang anda coba lakukan-memberi anda hasil "sampah".

Apa Itu Data Preprocessing

Bergantung pada teknik dan sumber pengumpulan data anda, anda mungkin akan mendapatkan data yang berada di luar jangkauan atau menyertakan fitur yang salah, seperti pendapatan rumah tangga di bawah nol atau gambar dari kumpulan "hewan kebun binatang" yang sebenarnya adalah pohon. Anda mungkin memiliki nilai atau sesuatu bidang yang hilang. Atau data teks, misalnya, sering kali memiliki kata yang salah eja dan simbol yang tidak relevan, URL, dll.

Saat anda melakukan preprocessing dan pembersihan data dengan benar, anda akan mempersiapkan diri untuk proses yang jauh lebih akurat. Kita sering mendengar tentang pentingnya "pengambilan keputusan berdasarkan data", tetapi jika keputusan ini didorong oleh data yang buruk, itu hanyalah keputusan yang buruk.

Memahami Fitur Data Machine Learning

       Kumpulan data dapat dijelaskan dengan atau dikomunikasikan sebagai "fitur" yang menyusunnya. Ini bisa berdasarkan ukuran, lokasi, usia, waktu, warna, dll. Fitur muncul sebagai kolom dalam kumpulan data dan juga dikenal sebagai atribut, variabel, bidang, dan karakteristik.
       
Penting untuk memahami "fitur" apa yang dimaksud saat melakukan data preprocessing karena anda harus memilih mana yang akan difokuskan bergantung pada tujuan bisnis anda. Nanti, kami akan menjelaskan bagaimana anda dapat meningkatkan kualitas fitur kumpulan data dan wawasan yang anda peroleh dengan proses seperti pemilihan fitur.

       Pertama, mari kita membahas dua jenis fitur berbeda yang digunakan untuk mendeskripsikan data: Categorical dan numerik:

  • Fitur Categorical: Fitur yang penjelasan atau nilainya diambil dari serangkaian penjelasan atau nilai yang mungkin. Nilai kategoris bisa berupa warna rumah; jenis binatang; bulan dalam setahun; Benar salah; positif, negatif, netral, dll. Kumpulan kemungkinan kategori yang dapat dicocokkan dengan fitur telah ditentukan sebelumnya.
  • Fitur Numerical: Fitur dengan nilai yang kontinu dalam skala, statistik, atau terkait bilangan bulat. Nilai numerik diwakili oleh bilangan bulat, pecahan, atau persentase. Fitur numerik dapat berupa harga rumah, jumlah kata dalam dokumen, waktu yang dibutuhkan untuk bepergian ke suatu tempat, dll.

       Diagram di bawah menunjukkan bagaimana fitur digunakan untuk melatih model analisis teks machine learning . Teks dijalankan melalui ekstraktor fitur (untuk mengeluarkan atau menyorot kata atau frasa) dan potongan teks ini diklasifikasikan atau diberi tag berdasarkan fiturnya. Setelah model dilatih dengan benar, teks dapat dijalankan melaluinya, dan itu akan membuat prediksi pada fitur teks atau "menandai" teks itu sendiri.

machine-learning

Langkah-langkah Data Preprocessing

       Mari kita lihat langkah-langkah yang ditetapkan yang harus Anda lalui untuk memastikan data anda berhasil diproses sebelumnya.

1. Data quality assessment/Penilaian kualitas data

       Perhatikan baik-baik data anda dan dapatkan gambaran tentang kualitasnya secara keseluruhan, relevansinya dengan proyek anda, dan konsistensinya. Ada sejumlah anomali data dan masalah bawaan yang harus diwaspadai di hampir semua kumpulan data, misalnya:

  • Jenis data yang tidak cocok: Saat anda mengumpulkan data dari berbagai sumber, data tersebut mungkin datang kepada anda dalam format yang berbeda. Meskipun tujuan akhir dari keseluruhan proses ini adalah untuk memformat ulang data anda untuk mesin, anda tetap harus memulai dengan data yang diformat serupa. Misalnya, jika bagian dari analisis anda melibatkan pendapatan keluarga dari berbagai negara, anda harus mengubah setiap jumlah pendapatan menjadi satu mata uang.
  • Nilai data campuran: Mungkin sumber yang berbeda menggunakan deskriptor yang berbeda untuk fitur-misalnya, man atau male. Deskriptor nilai ini semua harus dibuat seragam.
  • Outliers data: Outliers dapat berdampak besar pada hasil analisis data. Misalnya, jika anda menghitung rata-rata nilai ujian untuk suatu kelas, dan satu siswa tidak menjawab pertanyaan apa pun, 0% mereka dapat sangat mendistorsi hasilnya.
  • Data yang hilang: Lihat bidang data yang hilang, spasi kosong di teks, atau pertanyaan survei yang belum terjawab. Hal ini bisa terjadi karena human error atau data yang tidak lengkap. Untuk menjaga data yang hilang, Anda harus melakukan pembersihan data.

2. Data cleaning/Pembersihan data

       Pembersihan data adalah proses menambahkan data yang hilang dan mengoreksi, memperbaiki, atau menghapus data yang salah atau tidak relevan dari kumpulan data. Pembersihan kencan adalah langkah paling penting dari prapemrosesan karena ini akan memastikan bahwa data anda siap digunakan untuk kebutuhan anda.

Pembersihan data akan memperbaiki semua data tidak konsisten yang anda temukan dalam penilaian kualitas data. Bergantung pada jenis data yang anda gunakan, ada beberapa kemungkinan pembersih yang Anda perlukan untuk menjalankan data Anda.

A. Missing data/Data hilang

       Ada sejumlah cara untuk mengoreksi data yang hilang, tetapi dua yang paling umum adalah:

  • Abaikan tuple: Tuple adalah daftar atau urutan angka atau entitas yang diurutkan. Jika beberapa nilai hilang di dalam tupel, anda dapat membuang tupel dengan informasi yang hilang itu. Ini hanya disarankan untuk kumpulan data besar, ketika beberapa tupel yang diabaikan tidak akan mengganggu analisis lebih lanjut.
  • Isi data yang hilang secara manual: Ini bisa membosankan, tetapi pasti diperlukan saat bekerja dengan kumpulan data yang lebih kecil.

B. Noisy data/Data berisik

       Pembersihan data juga termasuk memperbaiki data yang “Noisy”. Ini adalah data yang menyertakan poin data yang tidak perlu, data yang tidak relevan, dan data yang lebih sulit untuk dikelompokkan bersama.

  • Binning: Binning mengurutkan data dari kumpulan data yang luas ke dalam kelompok yang lebih kecil dari data yang lebih mirip. Ini sering digunakan saat menganalisis demografi. Penghasilan, misalnya, dapat dikelompokkan: 35.000-50.000, 50.000-75.000, dst.
  • Regression: Regression digunakan untuk memutuskan variabel mana yang benar-benar berlaku untuk analisis Anda. Analisis regression digunakan untuk menghaluskan data dalam jumlah besar. Ini akan membantu Anda menangani data anda, sehingga anda tidak terbebani dengan data yang tidak perlu.
  • Clustering: Algoritma clustering digunakan untuk mengelompokkan data dengan benar, sehingga dapat dianalisis dengan data serupa. Mereka umumnya digunakan dalam  unsupervised learning, ketika tidak banyak yang diketahui tentang hubungan dalam data anda.

       Jika Anda bekerja dengan data teks, misalnya, beberapa hal yang harus anda pertimbangkan saat membersihkan data adalah:

  • Hapus URL, simbol, emoji, dll., yang tidak relevan dengan analisis anda
  • Terjemahkan semua teks ke dalam bahasa yang akan anda gunakan
  • Hapus tag HTML
  • Hapus teks email boilerplate
  • Hapus teks kosong yang tidak perlu di antara kata-kata
  • Hapus data duplikat

Setelah pembersihan data, Anda mungkin menyadari bahwa anda tidak memiliki cukup data untuk tugas yang sedang dikerjakan. Pada titik ini anda juga dapat melakukan perselisihan data atau pengayaan data untuk menambahkan set data baru dan menjalankannya melalui penilaian kualitas dan pembersihan lagi sebelum menambahkannya ke data asli anda.

C. Data transformation/Transformasi data

       Dengan pembersihan data, kami sudah mulai memodifikasi data kami, tetapi transformasi data akan memulai proses mengubah data menjadi format yang tepat yang anda perlukan untuk analisis dan proses lainnya.

Hal ini umumnya terjadi pada satu atau beberapa hal di bawah ini:

  1. Aggregation
  2. Normalization
  3. Feature selection
  4. Discreditization
  5. Concept hierarchy generation
  • Aggregation: Aggregation data menggabungkan semua data anda menjadi satu dalam format yang seragam.
  • Normalization: Normalization menskalakan data anda ke rentang yang diatur sehingga anda dapat membandingkannya dengan lebih akurat. Misalnya, jika anda membandingkan kerugian atau keuntungan karyawan dalam sejumlah perusahaan, Anda harus menskalakannya dalam rentang tertentu, seperti -1,0 hingga 1,0 atau 0,0 ke 1.0.
  • Feature selection: Pemilihan fitur adalah proses memutuskan variabel mana (fitur, karakteristik, kategori, dll.) yang paling penting untuk analisis anda. Fitur ini akan digunakan untuk melatih model machine learning. Penting untuk diingat, bahwa semakin banyak fitur yang anda pilih untuk digunakan, semakin lama proses pelatihan dan, terkadang, hasil anda kurang akurat, karena beberapa karakteristik fitur mungkin tumpang tindih atau kurang ada dalam data.

feature

  • Discreditization: Discreditization mengumpulkan data ke dalam interval yang lebih kecil. Ini agak mirip dengan binning, tetapi biasanya terjadi setelah data dibersihkan. Misalnya, saat menghitung latihan harian rata-rata, alih-alih menggunakan menit dan detik yang tepat, anda dapat menggabungkan data menjadi 0-15 menit, 15-30, dll.
  • Concept hierarchy generation: Concept hierarchy generation dapat menambahkan hierarki di dalam dan di antara fitur anda yang tidak ada di data asli. Jika analisis anda mengandung wolves dan coyotes, misalnya, anda dapat menambahkan hierarki untuk genusnya: canis .

D.  Data reduction/Reduksi data

       Semakin banyak data yang anda gunakan, semakin sulit untuk dianalisis, bahkan setelah dibersihkan dan diubah. Bergantung pada tugas anda, anda mungkin sebenarnya memiliki lebih banyak data dari pada yang anda butuhkan. Terutama saat bekerja dengan analisis teks, banyak ucapan manusia biasa yang tidak berguna atau tidak relevan dengan kebutuhan peneliti. Pengurangan data tidak hanya membuat analisis menjadi lebih mudah dan lebih akurat, tetapi juga menghemat penyimpanan data.

       Ini juga akan membantu mengidentifikasi fitur yang paling penting untuk proses yang ada.

  • Attribute selection: Mirip dengan Discreditization, pemilihan atribut dapat memasukkan data anda ke dalam kumpulan yang lebih kecil. Ini, pada dasarnya, menggabungkan tag atau fitur, sehingga tag seperti male/female dan professor dapat digabungkan menjadi male professor/female professor .
  • Numerosity reduction: Ini akan membantu penyimpanan dan transmisi data. Anda dapat menggunakan model regression, misalnya, hanya menggunakan data dan variabel yang relevan dengan analisis anda.
  • Pengurangan dimensi: Ini, sekali lagi, mengurangi jumlah data yang digunakan untuk membantu memfasilitasi analisis dan proses hilir. Algoritme seperti K-nearest neighbor menggunakan pengenalan pola untuk menggabungkan data serupa dan membuatnya lebih mudah dikelola.

Contoh Data Preprocessin

       Lihat tabel di bawah ini untuk melihat cara kerja preprocessing. Dalam contoh ini, kami memiliki tiga variabel: name, age, and company. Dalam contoh pertama kita dapat mengetahui bahwa #2 dan #3 telah diberikan perusahaan yang salah.

Data Preprocessin

Kami dapat menggunakan pembersihan data untuk menghapus baris-baris ini, karena kami tahu bahwa data dimasukkan dengan tidak benar atau rusak.

Data Preprocessin

Atau, kita dapat melakukan data transformation, dalam hal ini secara manual, untuk memperbaiki masalah tersebut:

Data Preprocessin

Setelah masalah diperbaiki, kita dapat melakukan data reduction, dalam hal ini dengan menurunkan usia, untuk memilih rentang usia mana yang ingin kita fokuskan.

Jadi, pada pengambilan keputusan menggunakan data yang bagus membutuhkan data yang baik dan telah disiapkan. Setelah anda memutuskan analisis yang perlu anda lakukan dan di mana menemukan data yang anda perlukan, cukup ikuti langkah-langkah di atas dan data anda akan siap untuk sejumlah proses selanjutnya.

 

       Demikian pembahasan digoogling.com terkait Apa Itu Data Preprocessing & Bagaimana Langkah-Langkahnya?. Preprocessing awal data bisa menjadi tugas yang membosankan, tentu saja, tetapi begitu anda menyiapkan metode dan prosedur, anda akan mendapatkan keuntungan di kemudian hari.