ML'de Takviyeli Öğrenme: Nasıl Çalışır, Öğrenme Modelleri ve Türleri

Yayınlanan: 2021-06-11

İçindekiler

Pekiştirmeli Öğrenme Nedir?
Pekiştirmeli Öğrenme Nasıl Çalışır?
Pekiştirmeli Öğrenme Algoritması
- 1. Değere dayalı
- 2. Politikaya dayalı
- 3. Model tabanlı
Pekiştirmede Öğrenme Modelleri
Takviyeli öğrenme ve Denetimli öğrenme arasındaki fark
Takviye Çeşitleri
- 1. Olumlu
- 2. Negatif
Pekiştirmeli Öğrenmedeki Zorluklar
- Takviye Uygulamaları
Pekiştirmeli Öğrenme ne işe yarar?
Çözüm
Makine öğrenimi işleri için gelecek nasıl görünüyor?
Yapay zeka bulutu nedir?
Takviyeli öğrenme algoritması nerede kullanılır?

Pekiştirmeli Öğrenme Nedir?

Takviyeli öğrenme, uygun makine öğrenimi modelleri aracılığıyla uygun kararlar alma sürecini ifade eder. Bir makine öğrenimi yönteminin eğitim sürecine dayanmaktadır. Bu, bir aracının hatalarını gözlemleyerek ve eylemleri gerçekleştirerek bir ortamda davranmayı öğrendiği geri bildirime dayalı bir makine öğrenme tekniğidir.

Takviyeli öğrenme, Etkileşim ve geri bildirim yoluyla öğrenme yöntemini uygular. Takviyeli öğrenmede kullanılan terminolojilerden bazıları şunlardır:

Ajan : Bir ödül almak için eylemleri gerçekleştiren öğrenen veya karar vericidir.
Çevre : Bir aracının gelecekteki görevleri öğrendiği ve gerçekleştirdiği senaryodur.
Eylem : Aracı tarafından gerçekleştirilen eylemler.
Devlet : mevcut durum
Politika : Bir temsilcinin, mevcut duruma dayalı olarak gelecekteki eyleme karar verdiği bir karar verme işlevi.
Ödül : Her bir eylemi gerçekleştirmesi için ortam tarafından bir aracıya sağlanan iade.
Değer : Ödül ile karşılaştırıldığında, bir indirim ile beklenen uzun vadeli getiridir.
Değer fonksiyonu : Bir durumun değerini yani toplam getiri miktarını ifade eder.
Fonksiyon tahmincisi : Eğitim örneklerinden bir fonksiyon türetme.
Çevre modeli: çıkarımları tahmin etmek için gerçek ortamı taklit eden bir modeldir.
Model tabanlı yöntemler : Takviye tabanlı modellerin çözümü için kullanılır.
Q değeri veya eylem değeri : değere benzer ancak ek parametreler mevcut eylem olarak kabul edilir.
Markov karar süreci : Sıralı karar probleminin olasılıksal bir modeli.
Dinamik programlama : Sıralı karar problemlerini çözmek için yöntemler sınıfı.

Takviyeli öğrenme, çoğunlukla yazılım aracılarının bir ortamda nasıl hareket etmesi gerektiği gerçeğiyle ilgilenir. Sinir ağlarına dayalı öğrenme, karmaşık bir hedefe ulaşmayı sağlar.

Pekiştirmeli Öğrenme Nasıl Çalışır?

Takviyeli öğrenmenin nasıl çalıştığını gösteren bir pekiştirmeli öğrenme örneği aşağıda gösterilmiştir.

Kediler herhangi bir dil biçimini anlamazlar ve bu nedenle kediyle iletişim kurmak için farklı bir strateji izlenmelidir.
Kedinin çeşitli şekillerde hareket ettiği bir durum yaratılır. Kedi, istenildiği takdirde balıkla ödüllendirilir. Bu nedenle kedi, ödül olarak daha fazla yiyecek bekleyen bu durumla karşılaştığında aynı şekilde davranır.
Senaryo, olumlu deneyimlerden öğrenme sürecini tanımlar.
Son olarak kedi, olumsuz deneyimler yoluyla ne yapmaması gerektiğini de öğrenir.

Bu, aşağıdaki açıklamaya yol açar

Kedi, bir ortama maruz kaldığında ajan gibi davranır. Yukarıda bahsedilen örnekte ev, çevredir. Durumlar, oturan veya yürüyen kedi gibi herhangi bir şey olabilir.
Etmen, oturma pozisyonundan yürüme pozisyonuna geçmek gibi bir durumdan diğerine geçerek bir eylem gerçekleştirir.
Etki, maddenin tepkisidir. Politika, gelecekteki durumda daha iyi bir sonuç beklerken belirli bir durumda bir eylem seçme yöntemini içerir.
Devletlerin geçişi bir ödül veya ceza sağlayabilir.

Takviye öğreniminde dikkat edilmesi gereken birkaç nokta

Modelin başlayacağı ilk girdi durumu sağlanmalıdır.
Belirli bir soruna çeşitli çözümler yoluyla birçok olası çıktı üretilir.
RL yönteminin eğitimi girdiye dayalıdır. Çıktı üretildikten sonra model, modeli ödüllendirip ödüllendirmemeye karar verecektir. Bu nedenle, model eğitilmeye devam ediyor.
Model sürekli öğrenmeye devam eder.
Bir problem için en iyi çözüm, alacağı maksimum ödüle göre belirlenir.

Pekiştirmeli Öğrenme Algoritması

Bir pekiştirmeli öğrenme yöntemini uygulamak için üç yaklaşım vardır.

1. Değere dayalı

Değere dayalı yöntem, değer fonksiyonunu V(s) maksimize etmeyi içerir. Mevcut durumun uzun vadeli getiri beklentisi bir politika altında beklenir. SARSA ve Q Learning, değer tabanlı algoritmalardan bazılarıdır. Değer temelli yaklaşımlar, sürekli bir ortamı modelleyemediği için oldukça kararlıdır. Her iki algoritmanın da uygulanması kolaydır, ancak görünmeyen bir durumun değerlerini tahmin edemezler.

2. Politikaya dayalı

Bu tür bir yöntem, her eylemin performansı aracılığıyla maksimum bir ödül verilmesine yardımcı olan bir politika geliştirmeyi içerir.

İki tür politika tabanlı yöntem vardır:

Deterministik: Bu, herhangi bir durumda politikanın aynı eylemi ürettiği anlamına gelir.
Stokastik: Denklem tarafından tanımlanan her eylem için bir olasılık vardır

n{a\s) = P\A, = a\S, =S]

Politika tabanlı algoritmalar, Monte Carlo politika gradyanı (REINFORCE) ve deterministik politika gradyanıdır (DPG). Politikaya dayalı öğrenme yaklaşımları, yüksek varyanstan muzdarip oldukları için istikrarsızlıklar yaratır.

Hem değere dayalı hem de politikaya dayalı yaklaşımların bir kombinasyonu yoluyla bir “aktör-eleştirmen” algoritması geliştirilir. Hem değer fonksiyonunun (kritik) hem de politikanın (aktör) parametreleştirilmesi, eğitim verilerinin etkin kullanımı yoluyla istikrarlı yakınsama sağlar.

3. Model tabanlı

Her ortam için bir sanal model oluşturulur ve aracı bu modele göre öğrenir. Model oluşturma, durumların örneklenmesi, aksiyon alınması ve ödüllerin gözlemlenmesi adımlarını içerir. Bir ortamdaki her durumda, model gelecekteki durumu ve beklenen ödülü tahmin eder. RL tabanlı modelin kullanılabilirliği ile bir aracı, eylemleri planlayabilir. Temsilci, planlama süreci politika tahmini ile iç içe geçtiğinde öğrenme becerisi kazanır.

Takviyeli öğrenme, bilinmeyen bir ortamda bir ajanın keşfi yoluyla bir hedefe ulaşmayı amaçlar. RL'nin bir hipotezi, hedeflerin ödüllerin maksimizasyonu olarak tanımlanabileceğini belirtir. Ajan, eylemlerin biçimindeki durumların bozulması yoluyla maksimum ödülü elde edebilmelidir. RL algoritmaları genel olarak model tabanlı ve modelsiz olarak sınıflandırılabilir.

Pekiştirmede Öğrenme Modelleri

1. Markov karar süreci

Markov karar sürecinde kullanılan parametre seti:

Eylem Seti-A

Durum kümesi-S

Ödül-R

İlke-n

Değer-V

Markov karar süreci, pekiştirmeli öğrenmede bir çözümün haritalandırılması için matematiksel yaklaşımdır.

2. Q öğrenme

Bu süreç, aracıya hangi eyleme geçileceğini bildiren bilgi sağlar. Modelden bağımsız bir yaklaşım biçimidir. Q değerleri güncellenmeye devam eder ve “s” durumunda “a” eylemi gerçekleştirmenin değerini belirtir.

Takviyeli öğrenme ve Denetimli öğrenme arasındaki fark

Denetimli öğrenme, bir süpervizörün bilgiyi bir öğrenme algoritmasına beslemesini gerektiren bir makine öğrenimi sürecidir. Süpervizörün ana işlevi, görüntüler, ses klipleri vb. eğitim verilerinin toplanmasını içerir.

RL'de ise eğitim veri kümesi çoğunlukla durum ve eylemler kümesini içerir. Makine öğreniminde pekiştirmeli öğrenme, herhangi bir denetim biçimi gerektirmez. Ayrıca, pekiştirmeli öğrenme ve derin öğrenmenin birleşimi, derin pekiştirmeli öğrenme alt alanını üretir.

RL ve Denetimli Öğrenme arasındaki temel farklar aşağıda tablolanmıştır.

Pekiştirmeli Öğrenme	Denetimli Öğrenme
Kararlar sırayla alınır. Sürecin çıktısı, mevcut girdinin durumuna bağlıdır. Bir sonraki girdi, önceki girdinin çıktısına bağlı olacaktır ve bu böyle devam edecektir.	Karar, ilk girdide veya sürecin başlangıcında beslenen girdide verilir.
Kararlar bağımlıdır. Bu nedenle, bağımlı karar dizilerine etiketleme yapılır.	Kararlar birbirinden bağımsızdır. Bu nedenle, tüm kararların etiketlenmesi yapılır.
Çevre ile etkileşim RL'de gerçekleşir.	Çevre ile etkileşim yok. İşlem, mevcut veri kümesi üzerinde çalışır.
Bir RL'nin karar verme süreci, bir insan beyninin karar verme sürecine benzer.	Karar verme süreci, insan beyninin bir rehber gözetiminde verdiği karara benzer.
Etiketli veri kümesi yok.	Etiketli veri kümesi.
Öğrenim aracısı için önceki eğitim gerekli değildir.	Çıktı tahmini için önceki eğitim sağlanır.
RL, insan etkileşiminin yaygın olduğu AI ile en iyi şekilde desteklenir.	Denetimli öğrenme, çoğunlukla uygulamalarla veya etkileşimli yazılım sistemleriyle çalıştırılır.
Örnek: Satranç oyunu	Örnek: Nesne tanıma

Takviye Çeşitleri

İki tür pekiştirmeli öğrenme vardır

1. Olumlu

Olumlu pekiştirmeli öğrenme, belirli bir davranıştan üretilen bir olay olarak tanımlanır. Bu, öğrenmenin gücünü ve sıklığını arttırdığı için temsilci üzerinde olumlu bir etkiye sahiptir. Sonuç olarak, performans maksimize edilir. Bu nedenle, değişiklikler daha uzun süre devam eder. Ancak, durumların aşırı optimizasyonu öğrenmenin sonuçlarını etkileyebilir. Bu nedenle pekiştirmeli öğrenme çok fazla olmamalıdır.

Olumlu pekiştirmenin avantajları şunlardır:

Performans maksimizasyonu.
Değişiklikler daha uzun süre devam etti.

2. Negatif

Olumsuz pekiştirme, olumsuz koşul koşulları altında davranış güçlendirildiğinde tanımlanır. Asgari performans standardı, olumsuz pekiştirme yoluyla tanımlanır

Negatif pekiştirmeli öğrenmenin avantajları şunlardır:

Davranışı artırır.
Asgari performans standardına meydan okuma sağlamak

Takviyeli öğrenmenin dezavantajı

Yalnızca minimum davranışı karşılayacak kadar sağlar.

Pekiştirmeli Öğrenmedeki Zorluklar

Takviyeli öğrenme, modelin denetimini gerektirmese de bir denetimsiz öğrenme türü değildir. Ancak, makine öğreniminin farklı bir parçasıdır.

Takviyeli öğrenme ile ilgili birkaç zorluk şunlardır:

Simülasyon ortamının hazırlanması. Bu, gerçekleştirilecek göreve bağlıdır. Gerçekçi bir simülatörün oluşturulması zorlu bir iştir. Model, çevrenin her dakikasını ve önemli ayrıntılarını çözmelidir.
Özellik ve ödül tasarımının katılımı son derece önemlidir.
Öğrenme hızı parametrelerden etkilenebilir.
Modelin eğitim ortamına aktarılması.
Ajanı sinir ağları aracılığıyla kontrol etmek başka bir zorluktur, çünkü sinir ağlarıyla tek iletişim ödül ve ceza sistemi aracılığıyladır. Bazen bu, yeni bilgi edinirken eski bilgilerin silinmesi gibi felaket bir unutmaya neden olabilir.
Yerel bir minimuma ulaşmak, pekiştirmeli öğrenme için bir meydan okumadır.
Gerçek bir ortamın koşulları altında, kısmi gözlem mevcut olabilir.
Takviyeli öğrenme uygulaması düzenlenmelidir. Fazla miktarda RL durumların aşırı yüklenmesine yol açar. Bu, sonuçların azalmasına neden olabilir.
Gerçek ortamlar durağan değildir.

Takviye Uygulamaları

Endüstriyel otomasyon için Robotik alanında.
RL, işletmelerin stratejik planlamasında kullanılabilir.
RL, makine öğrenme algoritmalarını içeren veri işleme tekniklerinde kullanılabilir.
Öğrencilerin ihtiyaçlarına göre eğitim materyallerinin özel olarak hazırlanmasında kullanılabilir.
RL, uçakların kontrolünde ve robotların hareketinde uygulanabilir.

Geniş ortamlarda aşağıdaki durumlarda Takviye uygulanabilir.

Bilinen bir ortam modeli için analitik bir çözüm mevcut değilse.
Sadece ortamın bir simülasyon modeli sağlanırsa.
Verileri toplamanın tek bir yolu olduğunda, ortamla etkileşime girer.

Pekiştirmeli Öğrenme ne işe yarar?

Takviyeli Öğrenme, bir eylem gerektiren durumu belirlemeye yardımcı olur.
RL uygulaması, hangi eylemin en yüksek ödülü verdiğini bilmeye yardımcı olur.
RL'nin faydası, aracıya bir ödül işlevi sağlamasında yatmaktadır.
Son olarak, RL, daha büyük ödüllere yol açan yöntemin belirlenmesine yardımcı olur.

Çözüm

RL her duruma uygulanamaz. Kullanımında bazı sınırlamalar vardır.

Yeterli verinin mevcudiyeti, bir RL yöntemi yerine denetimli bir öğrenme yaklaşımının kullanılmasına izin verir.
RL'nin hesaplanması, özellikle geniş bir ortamın düşünüldüğü durumlarda oldukça zaman alıcıdır.

Makine öğrenimi hakkında daha fazla bilgi edinmek istiyorsanız, çalışan profesyoneller için tasarlanmış ve 450+ saat zorlu eğitim, 30'dan fazla vaka çalışması ve ödev, IIIT sunan IIIT-B & upGrad'ın Makine Öğrenimi ve Yapay Zeka alanında Yönetici PG Programına göz atın. -B Mezunu statüsü, 5'ten fazla pratik uygulamalı bitirme projesi ve en iyi firmalarla iş yardımı.

Makine öğrenimi işleri için gelecek nasıl görünüyor?

Makine öğreniminin benimsenmesi, günümüzde farklı endüstri sektörlerinde hızla arttı. Finans ve yatırım sektörlerinden eğlence, medya, otomobil, sağlık ve oyun sektörlerine kadar – bugün yapay zeka ve makine öğrenimi kullanmayan herhangi bir sektör bulmak zor. Sonuç olarak, makine öğrenimi işlerinin kapsamı, diğer birçok teknoloji işinden önemli ölçüde daha yüksektir. Gartner'ın raporlarına göre, 2022 yılının sonunda, tahmini 2,3 milyon makine öğrenimi ve yapay zeka işi piyasada olacak. Ayrıca, bu alandaki profesyonellere sunulan tazminatın da önemli ölçüde daha yüksek olması bekleniyor ve başlangıç maaşları yılda 9 lakh INR arasında değişiyor.

Yapay zeka bulutu nedir?

AI bulut, kuruluşların son zamanlarda almaya başladığı nispeten yeni bir kavramdır. Bu konsept, yapay zeka ve bulut bilişimi birleştirir ve iki faktör tarafından yönlendirilir. Yapay zeka yazılımları ve araçları, artık yapay zekanın benimsenmesinde giderek daha önemli bir rol oynayan bulut bilişime yeni ve gelişmiş değer katıyor. Yapay zeka bulutu, çeşitli projeler ve iş yükleri tarafından aynı anda yararlanılan belirli kullanım durumları için paylaşılan altyapıdan oluşur. AI bulutunun en büyük avantajı, müşterilere (işletmelere) bir hibrit bulut kurulumunda AI SaaS sağlamak için AI donanımını ve açık kaynaklı yazılımı başarıyla bir araya getirmesidir.

Takviyeli öğrenme algoritması nerede kullanılır?

Takviyeli öğrenme algoritmaları, iş stratejisi planlaması, endüstriyel süreç otomasyonu için robotik, uçak kontrolü ve robotik hareket kontrolü, makine öğrenimi, öğrenciler için özel bir eğitim sistemi geliştirme, veri işleme ve çok daha fazlası gibi çeşitli uygulamalarla birlikte gelir. Bir pekiştirmeli öğrenme algoritması kullanmak, gerçekten eylem gerektiren durumları ve belirli bir süre içinde en yüksek ödüllerle gelen eylemleri kolayca keşfetmeye yardımcı olabileceğinden, bu durumlarda özellikle etkilidir. Ancak, denetimli öğrenme yöntemi kullanılarak bir çözüm sunacak yeterli veri olduğunda pekiştirmeli öğrenme uygulanmamalıdır.