ML 中的強化學習：它是如何工作的、學習模型和類型

已發表: 2021-06-11

什麼是強化學習？

強化學習是指通過合適的機器學習模型做出合適決策的過程。它基於訓練機器學習方法的過程。它是一種基於反饋的機器學習技術，通過觀察他的錯誤並執行動作，代理可以學習在環境中的行為。

強化學習應用通過交互和反饋進行學習的方法。強化學習中使用的一些術語是：

代理：學習者或決策者執行動作以獲得獎勵。
環境：這是代理學習和執行未來任務的場景。
操作：代理執行的操作。
狀態：現狀
策略：代理的決策功能，代理根據當前狀態決定未來的行動。
獎勵：環境提供給執行每個動作的代理的回報。
價值：與獎勵相比，它是帶有折扣的預期長期回報。
價值函數：表示一個狀態的價值，即回報總額。
函數逼近器：從訓練示例中歸納出一個函數。
環境模型：它是一個模擬真實環境來預測推理的模型。
基於模型的方法：用於求解基於強化的模型。
Q 值或動作值：類似於值，但附加參數被視為當前動作。
馬爾可夫決策過程：順序決策問題的概率模型。
動態規劃：解決順序決策問題的方法類。

強化學習主要關注軟件代理應如何在環境中採取行動的事實。基於神經網絡的學習可以實現複雜的目標。

強化學習如何工作？

下面顯示了一個強化學習示例，展示了強化學習的工作原理。

貓不懂任何形式的語言，因此必須遵循不同的策略與貓交流。
創造了一種貓以各種方式行動的情況。如果它是所需的方式，貓會得到魚獎勵。因此，貓在面對這種情況時會以同樣的方式表現，期待更多的食物作為獎勵。
該情景定義了從積極經驗中學習的過程。
最後，貓還通過負面經歷學會了不該做什麼。

這導致以下解釋

貓在暴露於環境時充當代理。在上面提到的例子中，房子就是環境。狀態可能就像貓坐著或走路一樣。
代理通過從一種狀態轉換到另一種狀態來執行動作，例如從坐姿移動到行走姿勢。
動作是代理的反應。該策略包括在特定狀態下選擇操作同時期望在未來狀態下獲得更好結果的方法。
狀態的轉換可能會提供獎勵或懲罰。

強化學習需要注意的幾點

應提供模型將從其開始的初始輸入狀態。
許多可能的輸出是通過對特定問題的不同解決方案產生的。
RL 方法的訓練基於輸入。產生輸出後，模型將決定是否獎勵模型。因此，模型不斷得到訓練。
該模型不斷地學習。
問題的最佳解決方案取決於它獲得的最大獎勵。

強化學習算法

有三種方法可以實現強化學習方法。

1. 基於價值

基於價值的方法涉及最大化價值函數 V(s)。在一項政策下，對當前狀態的長期回歸的預期是預期的。 SARSA 和 Q Learning 是一些基於價值的算法。基於價值的方法非常穩定，因為它不能模擬一個連續的環境。這兩種算法都易於實現，但它們無法估計未見狀態的值。

2. 基於政策

這種類型的方法涉及開發一種策略，該策略有助於通過執行每個操作來返回最大獎勵。

有兩種基於策略的方法：

確定性：這意味著在任何狀態下，策略都會產生相同的動作。
隨機：每個動作的概率存在由等式定義

n{a\s) = P\A, = a\S, =S]

基於策略的算法是蒙特卡洛策略梯度（REINFORCE）和確定性策略梯度（DPG）。基於策略的學習方法會產生不穩定性，因為它們受到高方差的影響。

通過結合基於價值和基於策略的方法來開發“演員-評論家”算法。價值函數（critic）和策略（actor）的參數化通過有效使用訓練數據實現了穩定的收斂。

3. 基於模型

為每個環境創建一個虛擬模型，並且代理基於該模型進行學習。模型構建包括狀態採樣、採取行動和觀察獎勵的步驟。在環境中的每個狀態下，模型都會預測未來狀態和預期回報。借助基於 RL 的模型的可用性，代理可以計劃行動。當規劃過程與策略估計交織在一起時，代理就能夠學習。

強化學習旨在通過在未知環境中探索代理來實現目標。 RL 的一個假設指出，目標可以描述為獎勵的最大化。智能體必須能夠通過以動作的形式擾動狀態來獲得最大的獎勵。 RL 算法可以大致分為基於模型和無模型。

強化學習模型

1.馬爾可夫決策過程

馬爾可夫決策過程中使用的參數集是

一組動作-A

狀態集-S

獎勵-R

政策-n

價值-V

馬爾可夫決策過程是在強化學習中映射解決方案的數學方法。

2.Q學習

此過程向代理提供信息，告知要繼續執行哪個操作。這是一種無模型方法。 Q 值不斷更新，表示在狀態“s”中執行動作“a”的值。

強化學習和監督學習的區別

監督學習是機器學習的過程，監督者需要將知識輸入到學習算法中。監督者的主要功能包括圖像、音頻片段等訓練數據的收集。

而在 RL 中，訓練數據集主要包括一組情境和動作。 機器學習中的強化學習不需要任何形式的監督。 此外，強化學習和深度學習的結合產生了深度強化學習子領域。

RL 和監督學習之間的主要區別如下表所示。

強化學習	監督學習
決策是按順序做出的。過程的輸出取決於當前輸入的狀態。下一個輸入將取決於前一個輸入的輸出，依此類推。	決定是在初始輸入上還是在過程開始時饋入的輸入上做出。
決定是依賴的。因此，對相關決策序列進行標記。	決策是相互獨立的。因此，完成了所有決策的標記。
與環境的交互發生在 RL 中。	與環境無交互。該過程適用於現有數據集。
RL 的決策過程類似於人腦的決策過程。	決策過程類似於人腦在嚮導的監督下做出的決策。
沒有標記的數據集。	標記數據集。
學習代理不需要以前的培訓。	為輸出預測提供了先前的訓練。
人工智能最能支持強化學習，在這種情況下，人類互動很普遍。	監督學習主要通過應用程序或交互式軟件系統進行操作。
示例：國際象棋遊戲	示例：對象識別

加固類型

強化學習有兩種類型

1.積極

積極強化學習被定義為由特定行為產生的事件。這對代理產生積極影響，因為它增加了學習的強度和頻率。結果，性能被最大化。因此，變化會持續較長時間。但是，狀態的過度優化會影響學習的結果。因此，強化學習不應該太多。

正強化的優點是：

性能最大化。
變化持續了較長時間。

2. 負面

負強化定義為在負麵條件下，行為得到加強。績效的最低標準是通過負強化來定義的

負強化學習的優點是：

增加行為。
無視最低績效標準

強化學習的缺點

僅提供足以滿足最低限度的行為。

強化學習的挑戰

強化學習雖然不需要模型的監督，但不是一種無監督學習。但是，它是機器學習的不同部分。

與強化學習相關的一些挑戰是：

模擬環境的準備。這取決於要執行的任務。創建逼真的模擬器是一項具有挑戰性的任務。該模型必須弄清楚環境的每一分鐘和重要的細節。
特徵和獎勵設計的參與非常重要。
學習速度可能受參數影響。
將模型轉移到訓練環境中。
通過神經網絡控制代理是另一個挑戰，因為與神經網絡的唯一通信是通過獎勵和懲罰系統。有時這可能會導致災難性的遺忘，即在獲得新知識的同時刪除舊知識。
達到局部最小值是強化學習的挑戰。
在真實環境條件下，可能存在部分觀察。
強化學習的應用應該受到規範。過多的 RL 會導致狀態過載。這可能會導致結果的減少。
真實環境是非平穩的。

加固的應用

在工業自動化機器人領域。
RL 可用於企業的戰略規劃。
RL 可用於涉及機器學習算法的數據處理技術。
它可用於根據學生的要求為學生定制培訓材料。
RL 可以應用於飛機的控制和機器人的運動。

在大型環境中，可以在以下情況下應用加固

如果分析解決方案不適用於已知的環境模型。
如果只提供環境的仿真模型。
當只有一種方法可以收集與環境交互的數據時。

強化學習有什麼用？

強化學習有助於識別需要採取行動的情況。
RL 的應用有助於了解哪個動作產生了最高的回報。
RL 的用處在於為代理提供獎勵功能。
最後，RL 有助於識別導致更大回報的方法。

結論

RL 不能適用於所有情況。它的使用存在一定的局限性。

足夠數據的可用性允許使用監督學習方法而不是 RL 方法。
RL 的計算非常耗時，尤其是在考慮大型環境的情況下。

如果您有興趣了解有關機器學習的更多信息，請查看 IIIT-B 和 upGrad 的機器學習和 AI 執行 PG 計劃，該計劃專為工作專業人士設計，提供 450 多個小時的嚴格培訓、30 多個案例研究和作業、IIIT -B 校友身份，5 個以上實用的實踐頂點項目和頂級公司的工作協助。

機器學習工作的未來是什麼樣的？

如今，機器學習的採用在不同的垂直行業中迅速增加。從金融和投資領域到娛樂、媒體、汽車、醫療保健和遊戲——今天很難找到任何不使用人工智能和機器學習的行業。因此，機器學習工作的範圍明顯高於許多其他技術工作。根據 Gartner 的報告，到 2022 年底，市場上估計將有 230 萬個機器學習和 AI 工作。此外，預計該領域專業人士的薪酬也將顯著提高，起薪為每年 90 萬印度盧比。

什麼是人工智能雲？

人工智能雲是組織最近開始接受的一個相對較新的概念。這個概念結合了人工智能和雲計算，由兩個因素驅動。人工智能軟件和工具正在為雲計算提供新的和增強的附加值，而云計算現在在人工智能的採用中發揮著越來越重要的作用。人工智能雲包含特定用例的共享基礎架構，各種項目和工作負載同時利用這些基礎架構。 AI雲的最大優勢在於它成功地將AI硬件和開源軟件結合在一起，在混合雲設置上為客戶（企業）提供AI SaaS。

強化學習算法用在哪裡？

強化學習算法具有各種應用，如商業戰略規劃、工業過程自動化機器人、飛機控制和機器人運動控制、機器學習、為學生開發定制培訓系統、數據處理等等。在這些情況下，使用強化學習算法特別有效，因為它可以輕鬆幫助發現實際需要採取行動的情況以及在一段時間內獲得最高回報的行動。但是，當有足夠的數據可以使用監督學習方法提供解決方案時，不應應用強化學習。