ML'de Aktivasyon Fonksiyonu hakkında bilmeniz gereken her şey

Yayınlanan: 2022-11-08

İçindekiler

Makine Öğreniminde Aktivasyon Fonksiyonu Nedir?

Makine Öğrenimi etkinleştirme işlevleri , tüm ağırlıklarını ve önyargılarını içeren bir ML modelinde çok önemli unsurlar olduğunu kanıtlıyor. Sürekli gelişen ve Derin Sinir Ağı eğitimini gerçeğe dönüştürmede önemli bir rol oynamış bir araştırma konusudur. Özünde, bir nöronu uyarma kararını onlar belirler. Bir nöronun aldığı bilgi, halihazırda mevcut olan bilgiyle ilgiliyse veya göz ardı edilmesi gerekiyorsa. Giriş sinyaline uyguladığımız doğrusal olmayan modifikasyona aktivasyon fonksiyonu denir. Aşağıdaki nöron katmanı, bu değiştirilmiş çıktıyı girdi olarak alır.

Aktivasyon işlevleri, bir Sinir Ağının girdisi üzerinde doğrusal olmayan hesaplamalar yaptığından, onlarsız öğrenmesine ve daha karmaşık görevleri yapmasına izin verir; bu, esasen Makine Öğreniminde doğrusal bir regresyon modelidir.

Aktivasyon fonksiyonlarının uygulamalarını anlamak ve belirli bir Sinir Ağı modelinde doğrusal olmama ve kesinlik sunabilecek uygun aktivasyon fonksiyonu tipini seçmek için her aktivasyon fonksiyonunun avantaj ve dezavantajlarını tartmak esastır.

Dünyanın En İyi Üniversitelerinden Makine Öğrenimi Kursuna Kaydolun . Kariyerinizi hızlandırmak için Master, Executive PGP veya Gelişmiş Sertifika Programları kazanın.

Makine Öğrenimi etkinleştirme işlevi modelleri temel olarak iki türdür –

  • Gizli Katmanlar
  • Çıktı Katmanları

Gizli Katmanlar

Sinir modellerinin gizli katmanlarında kullanılan aktivasyon fonksiyonları birincil rolü, sinir ağlarının doğrusal olmayan etkileşimleri simüle etmek için ihtiyaç duyduğu doğrusal olmayanlığı sağlamaktır.

Çıktı Katmanları

Machine Learning modellerinin çıktı katmanları tarafından kullanılan Aktivasyon yöntemlerinin belirli bir ana amacı vardır: değeri 0'dan 1'e kadar sınırlı bir aralıkta sıkıştırmak.

Önce Makine Öğreniminde farklı Aktivasyon İşlevleri türlerini anlayalım

1. İkili Adım Fonksiyonu

Bir aktivasyon fonksiyonuna sahip olduğumuzda akla ilk gelen şey, nöronun devreye girip girmeyeceğini belirleyen eşik tabanlı bir sınıflandırıcıdır. Y değeri belirli bir eşik değerinden büyükse nöron tetiklenir; yoksa atıl durumda bırakılır.

Genellikle şu şekilde tanımlanır -

f(x) = 1, x>=0

f(x) = 0, x<0

İkili işlev basittir. İkili bir sınıflandırıcı geliştirirken uygulanabilir. Tek bir sınıf için evet veya hayır cevabını vermemiz gerektiğinde ideal seçenekler olan değerlendirmelere ihtiyaç vardır, çünkü onlar nöronu açar veya sıfır bırakır.

2. Doğrusal İşlev

Pozitif bir eğim, giriş hızı arttıkça ateşleme hızında bir artışa neden olabilir. Doğrusal etkinleştirme işlevleri, geniş bir etkinleştirme yelpazesi sağlamada üstündür.

Fonksiyon, doğrudan yatay aktivasyon fonksiyonumuzdaki ağırlıklı nöron kombinasyonu veya girdi ile tam olarak orantılıdır.

Bir nöron ikili olarak ateşleniyor veya ateşlenmiyor olabilir. Makine öğreniminde gradyan inişine aşina iseniz, bu fonksiyonun türevinin sabit olduğunu not edebilirsiniz.

En İyi Makine Öğrenimi Kursları ve Çevrimiçi Yapay Zeka Kursları

LJMU'dan Makine Öğrenimi ve Yapay Zeka Bilim Ustası IIITB'den Makine Öğrenimi ve Yapay Zeka alanında Yönetici Yüksek Lisans Programı
IIITB'den Makine Öğrenimi ve NLP'de İleri Düzey Sertifika Programı IIITB'den Makine Öğrenimi ve Derin Öğrenmede Gelişmiş Sertifika Programı Maryland Üniversitesi'nden Veri Bilimi ve Makine Öğrenimi alanında Yönetici Yüksek Lisans Programı
Tüm kurslarımızı keşfetmek için aşağıdaki sayfamızı ziyaret edin.
Makine Öğrenimi Kursları

3. Doğrusal Olmayan İşlev

  1. ReLU

Aktivasyon fonksiyonları açısından, Rektifiye Doğrusal Birim en iyisidir. Bu, çoğu sorun için en popüler ve varsayılan etkinleştirme işlevidir. Negatif olduğunda 0 ile sınırlıdır, pozitif olduğunda ise sınırsızdır. Derin bir sinir ağı, bu sınırlılık ve sınırsızlık kombinasyonunun yarattığı içsel düzenlemeden yararlanabilir. Düzenleme, eğitim ve çıkarımı hesaplama açısından etkili kılan seyrek bir temsil oluşturur.

Pozitif sınırsızlık, doğrusal regresyonun yakınsamasını hızlandırırken hesaplama basitliğini korur. ReLU'nun önemli bir dezavantajı var: ölü nöronlar. Bazı ölü nöronlar, eğitim aşamasında erken kapanır ve 0'a negatif olarak bağlı asla yeniden etkinleştirilmez. Fonksiyon, x > 0 olduğunda sınırsızdan x ≤ 0 olduğunda sınırlıya hızlı bir şekilde geçtiğinden, sürekli türevlenemez. Bununla birlikte, uygulamada, düşük bir öğrenme oranı ve önemli bir olumsuz önyargı varsa, performans üzerinde kalıcı bir etki olmadan bunun üstesinden gelinebilir.

Artıları:

  • ReLU, diğer doğrusal olmayan işlevlerden daha az matematiksel işlem gerektirir, bu da onu hesaplama açısından daha az maliyetli ve doğrusal hale getirir.
  • Ufuk Gradyan sorununu önler ve düzeltir.

Kullanmak:

  • RNN, CNN ve diğer makine öğrenimi modellerinde kullanılır.

ReLU'nun farklı modifikasyonları –

Sızdıran ReLU

ReLU işlevinin daha iyi bir çeşidi Leaky ReLU işlevidir. ReLU fonksiyonunun gradyanı 0 olduğundan, burada x<0, o bölgedeki aktivasyonlar nöronların ölmesine neden olur ve sızdıran ReLU bu tür sorunları çözmek için en faydalı olduğunu kanıtlar. ReLU işlevini, x<0 olmak üzere 0 yerine x'in küçük bir doğrusal bileşeni olarak tanımlarız.

Şu şekilde görülebilir -

f(x)=ax, x<0

f(x)=x, x>=0

Artıları –

  • Biraz negatif eğime sahip olan Sızdıran ReLU, “ölmekte olan ReLU” sorununu (0,01 ya da öylesine) ele alma girişimiydi.

Kullanmak -

  • GAN gibi gradyanları içeren görevlerde kullanılır.

Parametrik ReLU

Bu, skaler çoklunun rastgele seçilmek yerine veriler üzerinde eğitildiği Leaky ReLU'ya göre bir gelişmedir. Model veriler kullanılarak eğitildiğinden, ölçekleme parametresine (a) duyarlıdır ve a değerine bağlı olarak farklı şekilde sayar.

Kullanmak -

  • Sızdıran ReLU başarısız olduğunda, ölü nöronlar sorununu çözmek için bir Parametrik ReLU kullanılabilir.

GeLU (Gauss Hatası Doğrusal Birimi)

Bloktaki en yeni çocuk ve tartışmasız NLP (Doğal Dil İşleme) ile ilgili görevlerin galibi, transformatör tabanlı sistemlerde ve GPT-3 ve BERT gibi SOTA algoritmalarında kullanılan Gauss Hatası Doğrusal Birimidir. GeLU, ReLU, Zone Out ve Dropout'u birleştirir (seyrek bir ağ için nöronları rastgele sıfırlar). ReLU, girişleri kapılar yerine yüzdelik dilimlere göre ağırlıklandırdığı için GeLU ile daha pürüzsüz hale getirilir.

Kullanmak -

  • Bilgisayarla Görme, NLP, Konuşma Tanıma

ELU (Üslü Doğrusal Birim)

2015'te tanıtılan ELU, pozitif olarak sınırsızdır ve negatif değerler için bir log eğrisi kullanır. Leaky ve Parameter ReLU ile karşılaştırıldığında, ölü nöron problemini çözmek için bu strateji biraz farklıdır. ReLU'nun aksine, negatif değerler yavaş yavaş yumuşar ve ölü nöronları önlemek için kısıtlanır. Bununla birlikte, negatif eğimi tanımlamak için üstel bir fonksiyon kullanıldığından pahalıdır. İdeal olmayan bir başlangıç ​​tekniği kullanıldığında, üstel fonksiyon bazen genişleyen bir gradyanla sonuçlanır.

Swish

İlk olarak 2017'de tanıtılan Swish'in küçük negatif değerleri, altta yatan kalıpları yakalamada hala yardımcı olurken, büyük negatif değerlerin 0 türevi olacaktır. Swish, ilgi çekici formu nedeniyle ReLU'nun yerini almak için kolaylıkla kullanılabilir.

Artıları –

  • Sonuç, Sigmoid işlevi ile RELU arasında sonucu normalleştirmeye yardımcı olan bir geçici çözümdür.
  • Ufuk Gradyan Problemi ile başa çıkma yeteneğine sahiptir.

Kullanmak -

  • Resim kategorizasyonu ve makine çevirisi açısından ReLU ile eşit hatta ondan daha üstündür.

İsteğe Bağlı Makine Öğrenimi Becerileri

Yapay Zeka Kursları Tablo Kursları
NLP Kursları Derin Öğrenme Kursları

4. Softmax Aktivasyon Fonksiyonu

Sigmoid aktivasyon fonksiyonları gibi, softmax da karar vermek için çoğunlukla son katmanda veya çıktı katmanında kullanılır. Softmax, girdi değişkenlerine ağırlıklarına göre değerler atar ve bu ağırlıkların toplamı sonunda bire eşittir.

Artıları –

  • RELU işleviyle karşılaştırıldığında, Softmax'ta gradyan yakınsaması daha yumuşaktır.
  • Vanishing Gradient sorununu çözme yeteneğine sahiptir.

Kullanmak -

  • Multiclass ve Multinomina sınıflandırması.

5. Sigmoid

Makine Öğreniminde Sigmoid İşlevi , en popüler etkinleştirme işlevlerinden biridir. Denklem -

f(x)=1/(1+e^-x)

Bu aktivasyon fonksiyonları, girdileri 0 ile 1 arasında değişen bir değere indirgeme avantajına sahiptir, bu da onları olasılık modellemesi için ideal kılar. Derin bir sinir ağına uygulandığında, fonksiyon türevlenebilir hale gelir, ancak sınırlılık nedeniyle hızla doygun hale gelir ve azalan bir gradyanla sonuçlanır. Yüzlerce katmana ve nörona sahip bir modelin eğitilmesi gerektiğinde üstel hesaplamanın maliyeti artar.

Türev, -3 ile 3 arasında sınırlandırılırken, fonksiyon 0 ile 1 arasında sınırlandırılmıştır. Çıktı sıfır civarında simetrik olmadığından, eğitim sırasında tüm nöronların aynı işareti benimsemesine neden olacağından, gizli katmanları eğitmek için ideal değildir. .

Artıları –

  • Yakınsama sırasında düzgün bir gradyan sağlar.
  • Genellikle 0 ve 1 ile kesin bir tahmin sınıflandırması verir.

Kullanmak -

  • Makine Öğrenimindeki Sigmoid işlevi , tipik olarak çıktı katmanındaki ikili sınıflandırma ve lojistik regresyon modellerinde kullanılır.

Popüler Makine Öğrenimi ve Yapay Zeka Blogları

IoT: Tarih, Bugün ve Gelecek Makine Öğrenimi Eğitimi: Makine Öğrenimi Öğrenin Algoritma nedir? Basit ve Kolay
Hindistan'da Robotik Mühendisi Maaşı : Tüm Roller Bir Makine Öğrenimi Mühendisinin Hayatından Bir Gün: Ne yapıyorlar? IoT (Nesnelerin İnterneti) Nedir?
Permütasyon ve Kombinasyon: Permütasyon ve Kombinasyon Arasındaki Fark Yapay Zeka ve Makine Öğreniminde En İyi 7 Trend R ile Makine Öğrenimi: Bilmeniz Gereken Her Şey

6. Tanh – Hiperbolik Tanjant Aktivasyon Fonksiyonu

Makine Öğrenimindeki Sigmoid İşlevine benzer şekilde , bu etkinleştirme işlevi, yalnızca negatif girdiyi negatif niceliklere aktarması ve -1 ila 1 aralığı olması dışında, iki sınıfı tahmin etmek veya ayırt etmek için kullanılır.

tanh(x)=2sigmoid(2x)-1

veya

tanh(x)=2/(1+e^(-2x)) -1

Esasen aynı işarete sahip değerlerle ilgili sorunumuzu çözüyor. Diğer özellikler sigmoid fonksiyonununkilerle aynıdır. Herhangi bir noktada, sürekli ve farklıdır.

Artıları –

  • Sigmoidden farklı olarak sıfır merkezli bir işlevi vardır.
  • Bu fonksiyon aynı zamanda düzgün bir degradeye sahiptir.

Makine Öğrenimindeki Tahn ve Sigmoid işlevleri , pozitif sınırlılıkları nedeniyle gizli katmanlarda kullanılabilse de, derin sinir ağları, eğitim doygunluğu ve kaybolan gradyanlar nedeniyle bunları kullanamaz.

Makine Öğrenimi Kariyerinize Doğru Kursla Başlayın

Aktivasyon işlevlerine daha derinlemesine dalmak ve Makine Öğrenimini geliştirmedeki yardımlarıyla ilgileniyor musunuz? WES tarafından tanınan UpGrad Masters of Science in Machine Learning ve AI kursuyla Yapay Zeka, Derin Öğrenme, NLP ve Güçlendirme Öğrenimi gibi tüm ayrıntılarla Makine Öğrenimi'ne genel bir bakış edinin . Bu kurs, 12'den fazla proje üzerinde çalışırken, araştırma yaparken, yüksek kodlama sınıflarında ve en iyi profesörlerden bazılarıyla koçluk yaparken uygulamalı deneyimler sağlar.

Daha fazlasını öğrenmek için kaydolun !

Çözüm

Aktivasyon işlevleri olarak bilinen kritik işlemler, girişi doğrusal olmayan bir şekilde değiştirerek daha karmaşık görevleri anlamasını ve gerçekleştirmesini sağlar. En popüler etkinleştirme işlevlerine ve geçerli olabilecek kullanımlarına değindik; bu etkinleştirme işlevleri aynı işlevi sağlar, ancak çeşitli koşullar altında uygulanır.

Hangi aktivasyon fonksiyonunun en iyi olduğuna nasıl karar verebilirsiniz?

Bir etkinleştirme işlevi seçmek, tamamen eldeki konuya bağlı olan karmaşık bir karardır. Ancak, diğerlerine devam etmeden önce makine öğreniminde yeniyseniz sigmoid işleviyle başlamak isteyebilirsiniz.

Aktivasyon fonksiyonu lineer mi yoksa lineer olmayan mı olmalı?

Tasarım ne kadar karmaşık olursa olsun, doğrusal bir aktivasyon işlevi yalnızca bir katman derinliğine kadar etkilidir. Dolayısıyla aktivasyon katmanı lineer olamaz. Ek olarak, günümüz dünyası ve zorlukları çok doğrusal değildir.

Hangi aktivasyon fonksiyonu kolayca öğrenilebilir?

Tanh. Aralığı -1'den 1'e kadar genişleterek, sigmoid aktivasyon fonksiyonunun dezavantajını giderir. Bu, sıfır merkezlilikle sonuçlanır, bu da gizli katmanın ağırlıklarının ortalamasının 0'a yaklaşmasına neden olur. Sonuç olarak öğrenme daha hızlı ve daha kolay hale gelir.