Apa itu Regression dalam Data Mining? (Bagian 3)

Di Googling - Ada kumpulan data besar yang digunakan untuk berbagai aplikasi. Praktek penggalian informasi yang berguna dari volume data yang sangat besar dikenal sebagai data mining. Anda dapat menggunakan informasi ini untuk meningkatkan penjualan, menurunkan biaya, memperkuat koneksi pelanggan, mengurangi risiko, dan lainnya menggunakan berbagai pendekatan.
Untuk mendeteksi hubungan dan menganalisis fitur antara titik data, data mining memainkan peran kunci. Untuk menangani masalah dalam data mining, berbagai teknik digunakan. Di antaranya yaitu regression memainkan peran penting dalam data mining. Mari kita bahas regression dalam data mining secara detail.
Apa itu regression?
Regression adalah teknik statistik yang digunakan di berbagai bidang untuk mengidentifikasi kekuatan dan sifat hubungan antara satu variabel dependen (biasanya ditunjukkan dengan Y) dan sekumpulan variabel lain yang disebut variabel independen.
Atribut bernilai kontinu apa pun dapat diprediksi menggunakan regression, yang merupakan bentuk pendekatan machine learning yang diawasi. Setiap organisasi bisnis dapat menggunakan regression untuk menguji korelasi antara variabel target dan variabel prediktor. Ini adalah alat penting untuk analisis data yang dapat diterapkan pada penilaian bisnis dan peramalan kumpulan data.
Proses pemasangan garis lurus sempurna atau kurva ke sekumpulan titik data dikenal sebagai regression. Ini disusun sedemikian rupa sehingga jarak menjadi yang terpendek.
Linier regression dan logistic regressions adalah jenis regressions yang paling umum dan populer. Selain itu, banyak bentuk regressions lain yang dapat digunakan, tergantung pada seberapa baik mereka bekerja pada kumpulan data tertentu. Dalam modul ini, anda akan melihat berbagai konsep yang terkait dengan regression.
Regression dalam Data Mining
Istilah 'regression' mengacu pada pendekatan data mining untuk memprediksi nilai numerik dalam pengumpulan data. Regression dapat digunakan untuk meramalkan biaya suatu produk atau layanan, serta variabel lainnya. Ini juga digunakan untuk perilaku bisnis dan pemasaran, pemodelan lingkungan, penelitian tren, dan peramalan keuangan di berbagai sektor. regression adalah salah satu teknik data mining.
Jenis-jenis Regression
Jenis regression dapat dikategorikan sebagai berikut:
1. Linear Regression
Misalnya. Mengukur dampak usia/jenis kelamin pada tinggi badan
2. Polynomial Regression
Misalnya. Tingkat penularan COVID-19 dan banyak penyakit menular lainnya akan diprediksi
3. Logistic Regression
Misalnya. Jajak pendapat dilakukan-apakah seorang politisi akan kalah atau memenangkan pemilu
4. Ridge Regression
Misalnya. Antigen spesifik prostat dianalisis, serta tindakan klinis, pada pria yang siap untuk dipotong prostatnya.
5. Lasso Regression
Misalnya. Estimasi matriks variance-covariance yang kuat untuk harga aset adalah salah satu topik di bidang keuangan.
Jenis Regression | Persamaan Regression | Definisi |
Linear Regression | Persamaan Linier, Y = a + b*X + e. Di mana, a: intercept b: kemiringan garis e: error X: predictor Y: Variabel target |
|
Polynomial Regression | Y = a + b * x |
|
Logistic Regression | link fungction adalah log(p/1-p). Ini didasarkan pada yes or no |
|
Ridge Regression | H ridge = X(X′X + λI) -1 X Matriks HAT dengan penalti regularization |
|
Lasso Regression | Minimization objective = LS Obj + α * (jumlah nilai absolut dari koefisien) |
|
Jenis regression lainnya adalah sebagai berikut:
- Decision tree / Regression tree - Dalam bentuk struktur pohon, pohon keputusan membangun model regression atau classification. Ini secara bertahap sangat mengurangi kumpulan data menjadi bagian yang semakin kecil dan juga mengembangkan pohon keputusan terkait. Sebuah pohon yang berisi kumpulan simpul dengan simpul daun adalah hasil akhirnya. Misalnya. Perencanaan sipil
- Support vector regression - Teknik supervised learning Mendukung model Regression Vektor untuk memprediksi nilai yang berbeda. SVM dan Support Vector Regression keduanya didasarkan pada premis yang sama. Misalnya. Mengidentifikasi klasifikasi gen, orang dengan kelainan genetik, dan masalah biologis lainnya.
- Random forest regression - Untuk regression, ini adalah teknik pembelajaran terawasi yang menggunakan pendekatan pembelajaran ensemble. Pendekatan pembelajaran ensemble menggabungkan prediksi dari beberapa teknik machine learning untuk mendapatkan perkiraan yang lebih akurat dari pada single model. Misalnya. Prediksi pasar saham, Rekomendasi produk
- ElasticNet regression - adalah sejenis Linier regression teregulasi yang mencakup dua penalty terkenal, L2 dan L1 penalty . ElasticNet adalah modifikasi linier regression yang memasukkan penalties regularization ke dalam penurunan gradien selama pelatihan. Misalnya. Analisis data genomic.
Selain itu, kami memiliki berbagai bentuk regression yang dapat dibagi lagi menjadi:
- Standard multiple regression - Jenis analisis multiple regression yang paling populer adalah yang ini. Persamaan diisi dengan semua variabel independen pada waktu yang sama. Kemampuan prediktif untuk setiap variabel independen dinilai. Misalnya. Tekanan darah dapat diprediksi menggunakan faktor independen seperti tinggi badan, berat badan, usia, dan jam aktivitas mingguan.
- Stepwise multiple regression - Teknik regression bertahap akan memeriksa predictors mana yang paling efektif dalam memprediksi pilihan lingkungan - yaitu, model bertahap akan memeringkat variabel predictors dalam urutan relevance sebelum memilih subset yang bermakna. Persamaan regression dikembangkan dalam masalah regression semacam ini. Semua variabel bahkan mungkin tidak ada dalam model regression keseluruhan dalam analisis semacam ini. Misalnya. Untuk merancang mesin listrik yang dioptimalkan - desain optimisasi multiobjektif.
- Hierarchical regression - Setelah mengendalikan semua faktor lain, regression hierarkis dapat digunakan untuk melihat apakah variabel yang diminati menggambarkan varian yang signifikan secara statistik dalam Exogenous Variables anda (Variabel Terikat). Alih-alih statistical procedur, ini adalah paradigma untuk perbandingan model. Misalnya. Riset layanan kesehatan.
- Set-wise regression - Ini adalah pembuatan berulang dari model regression di mana poin data yang akan digunakan dalam model akhir dipilih langkah demi langkah. Ini memerlukan penambahan atau penghapusan faktor penjelas yang mungkin secara bertahap, dengan setiap iterasi membutuhkan penilaian signifikansi statistik. Misalnya. Memanfaatkan Kasus/Kontrol atau Data Induk untuk Menilai Dampak Komparatif varian Genetik dalam Gen
Penerapan regression
- Pemodelan Respon Obat
- Merencanakan bisnis dan pemasaran
- Peramalan atau prediksi keuangan
- Mengamati dan menganalisis pola atau kecenderungan
- Pemodelan lingkungan
- Respon farmakologis dari waktu ke waktu
- Kalibrasi data statistik
- Hubungan fisikokimia
- Analisis citra satelit
- Estimasi hasil panen
Perbedaan antara regression, klasifikasi dan pengelompokan dalam Data Mining seperti pada tabel berikut, menunjukkan poin-poin penting perbedaan antara ketiga teknik data mining tersebut:
Overfitting
Ketika ukuran sampel terlalu kecil, model menjadi terlalu canggih untuk data, sehingga terjadi overfitting. Akan diperoleh model yang tampak signifikan jika variabel predictor yang cukup dimasukkan dalam model regression.
Dengan meningkatkan ukuran sampel, overfitting dapat dihindari.
Overfitting dapat dideteksi dengan,
- Cross-validation - adalah alat yang efektif untuk menghindari overfitting. Buat beberapa pemisahan uji latih kecil menggunakan data pelatihan awal Anda. Pembagian ini dapat digunakan untuk menyempurnakan model anda. Kami membaginya menjadi k himpunan bagian, atau lipatan, dalam cross-validation k-fold biasa.
- Data augmentation - Data augmentation, yang lebih murah dari pada pelatihan dengan data tambahan, merupakan alternatif dari yang sebelumnya. Anda dapat membuat kumpulan data yang diberikan terlihat bervariasi jika anda tidak dapat memperoleh data baru secara teratur. Data augmentation mengubah tampilan kumpulan data sampel setiap kali dianalisis oleh model. Proses tersebut membuat setiap kumpulan data terlihat unik untuk algoritma dan mencegahnya mempelajari properties kumpulan data.
- Regularization - Regularization adalah strategi untuk mengurangi reducing model. Hal ini dicapai dengan mengurangi loss function. Ini membantu dalam penyelesaian masalah overfitting
Mengevaluasi regression model
Ada 3 matrix performance utama untuk mengevaluasi regression model
- R Square atau adjusted R square - Adjusted R-squared hanyalah varian dari R-squared yang memperhitungkan tingkat variabel predictor. Ketika kata tambahan meningkatkan persamaan lebih dari yang diharapkan secara kebetulan, R-kuadrat yang disesuaikan naik. Ketika prediksi meningkatkan model dari kurang dari yang diprediksi.
- Root Mean Square Error(RMSE) atau Mean Square Error(MSE) - Root mean square error adalah standar deviasi residual (kesalahan prediksi). Residu adalah pengukuran seberapa jauh titik data dari garis regression; RMSE adalah perkiraan seberapa luas residuals ini. Dengan kata lain, ini menunjukkan seberapa erat data dikelompokkan di sekitar garis yang paling sesuai.
- Mean Absolute Error (MAE) - Ini adalah statistik penilaian model regression. Rata-rata kesalahan absolut dari predictor yang berkaitan dengan perangkat pengujian adalah rata-rata dari semua kesalahan prediksi spesifik pada semua kejadian dalam perangkat pengujian.
Algoritma Regression di Oracle Data Mining
Regression didukung oleh dua metode di Oracle Data Mining. Kedua algoritma unggul dalam mining kumpulan data dengan dimensi besar (jumlah karakteristik), seperti informasi komersial dan informasi tidak terstruktur.
- Generalized Linear Models (GLMs): adalah jenis model linier dan banyak digunakan sebagai pendekatan statistik untuk pemodelan linier. GLM digunakan oleh Oracle Data Mining untuk regression dan classification biner. GLM memiliki berbagai koefisien dan statistik model, dan juga diagnostik baris. Batas kepercayaan juga didukung oleh GLM. Misalnya. Untuk memprediksi afinitas pelanggan, model logistic regression pemodelan cuaca pertanian menggunakan GLM.
- Support Vector Machines (SVM): SVM adalah teknik Linier regression dan nonlinier yang canggih. SVM digunakan oleh Oracle Data Mining untuk regression serta aktivitas mining lainnya. Kernel Gaussian untuk regression nonlinier dan kernel linier untuk linier regression didukung oleh SVM regression. Active learning juga didukung oleh SVM. Misalnya. Pengenalan wajah, Pengenalan ucapan, Klasifikasi teks
Perbedaan antara Regression dan Classification dalam Data Mining
Regression dan Classification sangat mirip satu sama lain. Regression dan Classification adalah dua jenis significant prediction yang digunakan dalam data mining.
Regression | Classification |
Regression mengacu pada jenis teknik supervised machine learning yang digunakan untuk memprediksi atribut continuous-valued apa pun. | Klasifikasi mengacu pada proses pemberian label kelas yang telah ditentukan sebelumnya ke instance berdasarkan atributnya. |
Dalam Regression, sifat data yang diprediksi diurutkan. | Dalam klasifikasi, sifat data predikat adalah tidak terurut. |
Regression dapat dibagi lagi menjadi linear regression dan non-linear regression. | Klasifikasi dibagi menjadi dua kategori: binary classifier dan multi-class classifier. |
Dalam proses regresi, perhitungan pada dasarnya dilakukan dengan memanfaatkan root mean square error. | Dalam proses klasifikasi, perhitungan pada dasarnya dilakukan dengan mengukur efisiensi. |
Dalam proses klasifikasi, perhitungan pada dasarnya dilakukan dengan mengukur efisiensi. Contoh regression adalah regression tree, linier regression, dll. | Contoh klasifikasi adalah decision tree. |
Analisis regresi biasanya memungkinkan kita untuk membandingkan efektifitas dari berbagai jenis variabel fitur yang diukur pada berbagai skala. Seperti prediksi harga tanah berdasarkan likasi, luas total, lingkungan sekitar, dll. Hasil ini membantu analisis pasar atau analis data untuk menghapus fitur yang tidak berguna dan mengevaluasi fitur terbaik untuk menghitung model yang efisien.
Pada artikel digoogling.com ini, kami telah membahas konsep dasar di balik regression, jenisnya, penerapan, dan algoritma regression, yang memiliki kesimpulan tentang analisis regression memainkan peran utama dalam data mining.