Activation Functions Sigmoid, tanh, ReLU, Leaky ReLU, PReLU, ELU, Threshold ReLU dan Softmax

Activation Functions Sigmoid, tanh, ReLU, Leaky ReLU, PReLU, ELU, Threshold ReLU dan Softmax for Deep Learning.

Activation Functions Sigmoid, tanh, ReLU, Leaky ReLU, PReLU, ELU, Threshold ReLU dan Softmax
Activation Functions Sigmoid, tanh, ReLU, Leaky ReLU, PReLU, ELU, Threshold ReLU dan Softmax

Di Googling - Salah satu alasan Deep learning menjadi lebih populer dalam beberapa tahun terakhir adalah algoritma pembelajaran yang lebih baik yang harus mengarah pada konvergensi yang lebih cepat atau kinerja jaringan saraf yang lebih baik secara umum. Seiring dengan algoritma pembelajaran yang lebih baik, Pengenalan fungsi aktivasi yang lebih baik, dan metode inisialisasi yang lebih baik membantu membuat jaringan saraf yang lebih baik.

Sering kita bertanya-tanya sendiri mengapa kita memiliki begitu banyak fungsi aktivasi?”, “mengapa yang satu bekerja lebih baik daripada yang lain?”, ”bagaimana kita tahu yang mana yang harus digunakan?”, “ apakah ini adalah matematika hardcore?. Catatan: Artikel ini mengasumsikan anda terlebih dahulu memiliki pemahaman dasar tentang Neural Network, bobot, bias, dan backpropagation.

Mari kita mulai dengan dasar-dasar Neuron dan Neural Network dan Apa itu Fungsi Aktivasi dan Mengapa kita membutuhkannya:

Sejarah

        Pertama kali diusulkan pada tahun 1944 oleh Warren McCullough dan Walter Pitts, Neural Networks adalah teknik yang mendukung pengenal suara dan penerjemah terbaik di ponsel cerdas kita, melalui sesuatu yang disebut "deep learning" yang menggunakan beberapa lapisan jaring saraf.

Neural Nets dimodelkan secara teratur berdasarkan otak manusia, di mana terdapat ribuan atau bahkan jutaan node yang terhubung secara padat satu sama lain. Sama seperti bagaimana otak, di Artificial Neural Networks (ANN) sebuah Neuron Buatan diaktifkan dengan mengirimkan sinyal dari node yang masuk dikalikan dengan beberapa bobot, node ini dapat divisualisasikan sebagai sesuatu yang memegang nomor yang berasal dari cabang akhir (Synapses) yang disediakan di Neuron itu, yang terjadi adalah untuk Lapisan Neural Network (NN) kita mengalikan input ke Neuron dengan bobot yang dipegang oleh sinapsis itu dan menjumlahkan semuanya untuk mendapatkan output kita.

Sejarah Activation Functions

Misalnya (lihat D pada gambar di atas), jika bobotnya adalah w1, w2, w3 …. wN dan inputnya adalah i1, i2, i3 …. iN kita dapatkan penjumlahan dari : w1*i1 + w2*i2 + w3*i3 …. wN*iN

Untuk beberapa lapisan Neural Networks dan Koneksi kita dapat memiliki nilai wX dan iX yang bervariasi dan penjumlahan S yang bervariasi sesuai dengan apakah Neuron tertentu diaktifkan atau tidak, jadi untuk menormalkan ini dan mencegah rentang nilai yang berbeda secara drastis, kita menggunakan apa yang disebut Activation Function untuk Neural networks yang mengubah nilai-nilai ini menjadi sesuatu yang setara antara 0,1 atau -1,1 untuk membuat seluruh proses seimbang secara statistik.

Activation functions

        Fungsi aktivasi adalah fungsi non-linier yang kita terapkan atas data input yang datang ke neuron tertentu dan output dari fungsi tersebut akan dikirim ke neuron yang ada di lapisan berikutnya sebagai input.Dalam percobaan kami, kami akan membandingkan fungsi aktivasi yang termasuk dalam Keras, khususnya:

  1. Sigmoid
  2. tanh
  3. ReLU
  4. Leaky ReLU
  5. PReLU
  6. ELU
  7. Threshold ReLU
  8. Softmax

Pengenalan

        Fungsi aktivasi yang umum digunakan berdasarkan beberapa properti yang diinginkan seperti:

  1. Nonlinier -Ketika fungsi aktivasi non-linier, maka jaringan saraf dua lapis dapat dibuktikan sebagai aproksimator fungsi universal. Fungsi aktivasi identitas tidak memenuhi properti ini. Ketika beberapa lapisan menggunakan fungsi aktivasi identitas, seluruh jaringan setara dengan model lapisan tunggal.
  2. Rentang - Ketika rentang fungsi aktivasi terbatas, metode pelatihan berbasis gradien cenderung lebih stabil, karena presentasi pola secara signifikan hanya memengaruhi bobot terbatas. Ketika jangkauannya tidak terbatas, pelatihan umumnya lebih efisien karena presentasi pola secara signifikan mempengaruhi sebagian besar bobot. Dalam kasus terakhir, tingkat pembelajaran yang lebih kecil biasanya diperlukan.
  3. Diferensiasi terus menerus - Properti ini diinginkan (ReLU tidak terdiferensiasi terus menerus dan memiliki beberapa masalah dengan optimasi berbasis gradien, tetapi masih memungkinkan) untuk mengaktifkan metode optimasi berbasis gradien. Fungsi aktivasi langkah biner tidak terdiferensiasi pada 0, dan terdiferensiasi menjadi 0 untuk semua nilai lainnya, sehingga metode berbasis gradien tidak dapat membuat kemajuan dengannya.

1. Fungsi Sigmoid

        Fungsi sigmoid digunakan dalam pembelajaran mesin untuk regresi logistik dan implementasi jaringan saraf dasar dan mereka adalah unit aktivasi pengantar. Tetapi untuk fungsi Neural Network Sigmoid tingkat lanjut tidak disukai karena berbagai kelemahan (masalah gradien menghilang). Ini adalah salah satu fungsi aktivasi yang paling sering digunakan untuk pemula dalam Pembelajaran Mesin dan Ilmu Data saat memulai.

Fungsi Sigmoid

Meskipun fungsi sigmoid dan turunannya sederhana dan membantu dalam mengurangi waktu yang dibutuhkan untuk membuat model, ada kelemahan utama hilangnya info karena turunannya memiliki jangkauan yang pendek.

Jadi, semakin banyak lapisan di Neural Network kami (atau semakin dalam Neural Network kami), semakin banyak informasi kami dikompresi dan hilang di setiap lapisan dan ini menguat di setiap langkah dan menyebabkan hilangnya data besar secara keseluruhan. Masalah gradien Vanishing and Exploding hadir, dengan fungsi sigmoid karena outputnya positif, semua neuron output kami memiliki output positif juga yang tidak ideal. Tidak dipusatkan pada 0 membuat fungsi sigmoid kita bukan pilihan yang baik untuk dijalankan pada lapisan awal, meskipun pada lapisan terakhir fungsi sigmoid dapat digunakan.

2. Fungsi Tanh

        Dalam fungsi tanh, kelemahan yang kita lihat pada fungsi sigmoid diatasi (tidak seluruhnya), di sini satu-satunya perbedaan dengan fungsi sigmoid adalah kurvanya simetris melintasi titik asal dengan nilai mulai dari -1 hingga 1.

Fungsi Tanh

Rumus untuk tangen hiperbolik (tanh) dapat diberikan sebagai berikut:

Fungsi Tanh

Namun ini tidak berarti bahwa tanh tidak memiliki masalah gradien yang hilang atau meledak, ini tetap ada bahkan dalam kasus tanh tetapi tidak seperti Sigmoid karena berpusat di Nol, ini lebih optimal daripada Fungsi Sigmoid. Oleh karena itu, fungsi lain lebih sering digunakan yang akan kita lihat di bawah untuk pembelajaran mesin.

3. ReLU (Rectified Linear Units) and Leaky ReLU

        Pada 2018, fungsi aktivasi paling populer untuk jaringan saraf dalam.

Sebagian besar aplikasi Deep Learning saat ini menggunakan ReLU alih-alih fungsi Aktivasi Logistik untuk Computer Vision, Speech Recognition, Natural Language Processing dan Deep Neural Networks, dll. ReLU juga memiliki tingkat konvergensi berlipat ganda pada aplikasi jika dibandingkan dengan fungsi tanh atau sigmoid.

Beberapa varian ReLU antara lain : Softplus (SmoothReLU), Noisy ReLU, Leaky ReLU, Parametric ReLU dan ExponentialReLU (ELU). Beberapa di antaranya akan kita bahas di bawah ini.

 ReLU (Rectified Linear Units) and Leaky ReLU

ReLU : Sebuah Unit Linear Rectified (Sebuah unit yang menggunakan penyearah juga disebut ReLU unit linier yang diperbaiki) memiliki output 0 jika input kurang dari 0, dan output mentah sebaliknya. Artinya, jika input lebih besar dari 0, output sama dengan input. Pengoperasian ReLU lebih dekat dengan cara kerja neuron biologis kita.

 ReLU (Rectified Linear Units) and Leaky ReLU

ReLU non-linear dan memiliki keuntungan karena tidak memiliki kesalahan backpropagation tidak seperti fungsi sigmoid, juga untuk Neural Network yang lebih besar, kecepatan membangun model berdasarkan ReLU sangat cepat dibandingkan dengan menggunakan Sigmoid :

  •  Masuk akal biologis: Satu sisi, dibandingkan dengan antisimetri tanh.
  • Aktivasi jarang: Misalnya, dalam jaringan yang diinisialisasi secara acak, hanya sekitar 50% unit tersembunyi yang diaktifkan (memiliki keluaran bukan nol).
  • Propagasi gradien yang lebih baik: Lebih sedikit masalah gradien hilang dibandingkan dengan fungsi aktivasi sigmoidal yang jenuh di kedua arah.
  • Perhitungan yang efisien: Hanya perbandingan, penambahan dan perkalian.
  • Skala-invarian: max ( 0, a x ) = a max ( 0 , x ) untuk a 0

ReLU bukannya tanpa kekurangan, beberapa di antaranya adalah bahwa ReLU tidak berpusat pada Nol dan tidak dapat dibedakan di Nol, tetapi dapat dibedakan di tempat lain.

Salah satu syarat pada ReLU adalah penggunaan, hanya dapat digunakan di lapisan tersembunyi dan tidak di tempat lain. Ini karena batasan yang disebutkan di bawah ini:

 ReLU (Rectified Linear Units) and Leaky ReLU

Masalah lain yang kita lihat di ReLU adalah masalah ReLU Dying di mana beberapa Neuron ReLU pada dasarnya mati untuk semua input dan tetap tidak aktif tidak peduli input apa yang diberikan, di sini tidak ada aliran gradien dan jika sejumlah besar neuron mati ada di Neural Network, kinerjanya terpengaruh, hal ini dapat diperbaiki dengan menggunakan apa yang disebut ReLU Leaky di mana kemiringan diubah ke kiri x=0 pada gambar di atas dan dengan demikian menyebabkan kebocoran dan memperluas jangkauan ReLU.

 ReLU (Rectified Linear Units) and Leaky ReLU

Dengan Leaky ReLU ada kemiringan negatif kecil, jadi alih-alih tidak menembak sama sekali untuk gradien besar, neuron kami menghasilkan beberapa nilai dan itu membuat lapisan kami jauh lebih optimal juga.

4. PReLU (Parametric ReLU) Function

        Dalam ReLU Parametrik seperti yang terlihat pada gambar di atas, alih-alih menggunakan kemiringan tetap seperti 0,01 yang digunakan dalam ReLU Leaky, dibuat parameter 'a' yang akan berubah tergantung pada model, untuk x < 0

Dengan menggunakan bobot dan bias, kami menyetel parameter yang dipelajari dengan menggunakan propagasi balik di beberapa lapisan.

PReLU (Parametric ReLU) Function

Oleh karena itu karena PRELU berkaitan dengan nilai maksimum, kami menggunakannya dalam sesuatu yang disebut jaringan "maxout" juga.

5. ELU (Exponential LU) Function

        Satuan Linear Eksponensial digunakan untuk mempercepat proses deep learning, hal ini dilakukan dengan membuat aktivasi rata-rata mendekati Nol, disini digunakan konstanta alfa yang harus berupa bilangan positif.

ELU (Exponential LU) Function

ELU telah terbukti menghasilkan hasil yang lebih akurat daripada ReLU dan juga konvergen lebih cepat. ELU dan ReLU sama untuk input positif, tetapi untuk input negatif ELU halus (ke -alpha) perlahan sedangkan ReLU halus tajam.

ELU (Exponential LU) Function

6. Threshold ReLU Function

        Sebagai hasil dari menggabungkan ReLU dan FTSwish, Threshold ReLU atau hanya TReLU dibuat, TReLU mirip dengan ReLU tetapi dengan dua perubahan penting, di sini nilai negatif diperbolehkan tetapi dibatasi, ini sangat meningkatkan akurasi. Berikut ini: f(x) = x  untuk  x > theta, f(x) = 0 sebaliknya, di mana theta adalah float >= 0 (Lokasi Threshold activation).

7. Softmax Function

        Softmax adalah fungsi aktivasi yang sangat menarik karena tidak hanya memetakan output kita ke kisaran [0,1] tetapi juga memetakan setiap output sedemikian rupa sehingga jumlah totalnya adalah 1. Oleh karena itu, output Softmax merupakan distribusi probabilitas.

Fungsi softmax sering digunakan pada lapisan terakhir dari classifier berbasis jaringan saraf. Jaringan seperti itu biasanya dilatih di bawah rezim log loss (atau cross-entropy), memberikan varian non-linier dari regresi logistik multinomial.

Softmax Function

Secara matematis Softmax adalah fungsi berikut di mana z adalah vektor input ke lapisan output dan j mengindeks unit output dari 1,2, 3 …. k :

Softmax Function

Kesimpulannya, Softmax digunakan untuk multiklasifikasi dalam model regresi logistik (multivariat) sedangkan Sigmoid digunakan untuk klasifikasi biner dalam model regresi logistik.


       Semoga bermanfaat anda menyukai artikel Activation Functions Sigmoid, tanh, ReLU, Leaky ReLU, PReLU, ELU, Threshold ReLU dan Softmax untuk dan Deep Learning ini, dan trimakasih telah berkunjung di website digoogling.com.