2022 年您必須了解的 6 種監督學習類型

已發表: 2021-01-10

機器學習是人工智能最常見的應用之一。機器學習從輸入的數據中執行任務。隨著經驗的積累，它在給定任務中的表現會有所提高。機器學習包括有監督、無監督和強化學習技術。閱讀有關機器學習類型的更多信息。

在本文中，我們將研究不同類型的監督學習。

什麼是監督學習？

在監督學習中，使用“標記”數據訓練機器。當數據集同時包含輸入和輸出參數時，我們就說它們被標記了。換句話說，數據已經被標記了正確的答案。

因此，該技術模仿了學生在主管或老師在場的情況下學習的課堂環境。另一方面，無監督學習算法讓模型發現信息並自行學習。

監督機器學習對於解決現實世界的計算問題非常有幫助。該算法通過從標記的訓練數據中學習來預測不可預見數據的結果。因此，需要高技能的數據科學家來構建和部署此類模型。隨著時間的推移，數據科學家還利用他們的技術專長來重建模型，以保持給出的見解的完整性。

它是如何工作的？

例如，您想訓練一台機器預測您在辦公室和家之間的通勤時間。首先，您將創建一個帶標籤的數據集，例如天氣、一天中的時間、選擇的路線等，這些數據集將包含您的輸入數據。輸出將是您在特定日期回家的估計旅程時間。

一旦你根據相應的因素創建了一個訓練集，機器就會看到數據點之間的關係，並用它來確定你開車回家所需的時間。例如，一個移動應用程序可以告訴您，當有大雨時，您的旅行時間會更長。

機器還可能會在您的標記數據中看到其他聯繫，例如您下班的時間。如果您在高峰時段交通上路之前開始，您可以提前回家。如果您想了解無監督機器學習的工作原理，請閱讀更多內容。

現在，讓我們嘗試借助另一個現實生活中的例子來理解監督學習。假設你有一個水果籃，你用各種不同的水果訓練機器。訓練數據可能包括以下場景：

如果物體呈紅色、圓形且頂部有凹陷，則將其標記為“Apple”
如果該物品呈黃綠色並且形狀像一個彎曲的圓柱體，則將其標記為“香蕉”

接下來，你給一個新對象（測試數據）並讓機器識別它是香蕉還是蘋果。它將從訓練數據中學習並應用知識根據輸入的顏色和形狀對水果進行分類。

不同類型的監督學習

1.回歸

在回歸中，使用訓練數據產生單個輸出值。該值是概率解釋，在考慮輸入變量之間的相關強度後確定。例如，回歸可以幫助根據位置、大小等預測房屋的價格。

在邏輯回歸中，輸出具有基於一組自變量的離散值。在處理非線性和多決策邊界時，這種方法可能會陷入困境。此外，它還不夠靈活，無法捕捉數據集中的複雜關係。

2.分類

它涉及將數據分組到類中。如果您正在考慮向某人提供信貸，您可以使用分類來確定某人是否會拖欠貸款。當監督學習算法將輸入數據標記為兩個不同的類時，稱為二元分類。多重分類意味著將數據分類為兩個以上的類別。

3.樸素貝葉斯模型

貝葉斯分類模型用於大型有限數據集。它是一種使用有向無環圖分配類標籤的方法。該圖包括一個父節點和多個子節點。並且假設每個子節點都是獨立的並且與父節點分開。

決策樹

決策樹是一個類似於流程圖的模型，其中包含條件控制語句，包括決策及其可能的後果。輸出與不可預見數據的標記有關。

在樹表示中，葉子節點對應於類標籤，內部節點表示屬性。決策樹可用於解決具有離散屬性和布爾函數的問題。一些著名的決策樹算法是 ID3 和 CART。

4. 隨機森林模型

隨機森林模型是一種集成方法。它通過構建大量決策樹並輸出單個樹的分類來進行操作。假設您想預測哪些本科生將在 GMAT 中表現出色——這是一項為進入研究生管理課程而進行的考試。考慮到一組以前參加過考試的學生的人口統計和教育因素，隨機森林模型將完成這項任務。

5. 神經網絡

該算法旨在對原始輸入進行聚類、識別模式或解釋感官數據。儘管有多種優勢，但神經網絡需要大量的計算資源。當有數千個觀察值時，擬合神經網絡可能會變得複雜。它也被稱為“黑盒”算法，因為解釋其預測背後的邏輯可能具有挑戰性。

閱讀：2020 年十大神經網絡架構

6. 支持向量機

支持向量機 (SVM) 是 1990 年開發的一種監督學習算法。它藉鑑了 Vap Nick 開發的統計學習理論。

SVM 分離超平面，使其成為判別分類器。輸出以對新示例進行分類的最優超平面的形式產生。 SVM 與內核框架緊密相連，並用於不同的領域。一些例子包括生物信息學、模式識別和多媒體信息檢索。

監督學習的優缺點

幾種類型的監督學習允許您從以前的經驗中收集和生成數據。從優化性能標準到處理現實世界的問題，監督學習已經成為人工智能領域的強大工具。與無監督學習相比，它也是一種更值得信賴的方法，無監督學習在某些情況下計算複雜且準確性較低。

然而，監督學習並非沒有局限性。訓練分類器需要具體的例子，如果沒有正確的例子，決策邊界可能會被過度訓練。在大數據分類方面也可能遇到困難。

加起來

監督學習的長短在於它使用標記數據來訓練機器。回歸技術和分類算法有助於開發高度可靠且具有多種應用的預測模型。

監督學習需要專家來構建、擴展和更新模型。在缺乏技術熟練程度的情況下，可以應用蠻力來確定輸入變量。這可能會導致不准確的結果。因此，選擇相關數據特徵對於監督學習的有效工作至關重要。

應該首先決定訓練集需要哪些數據，繼續構建學習的函數和算法，並收集專家和測量的結果。這樣的最佳實踐可以大大支持模型的準確性。

隨著人工智能和機器學習在當今以技術為導向的世界中加快步伐，了解監督學習的類型可能是任何領域的重要差異化因素。上面的解釋將幫助您邁出第一步！

如果您有興趣了解有關機器學習的更多信息，請查看 IIIT-B 和 upGrad 的機器學習和人工智能 PG 文憑，該文憑專為工作專業人士設計，提供 450 多個小時的嚴格培訓、30 多個案例研究和作業、IIIT- B 校友身份、5 個以上實用的實踐頂點項目和頂級公司的工作協助。

從世界頂級大學學習ML 課程。獲得碩士、Executive PGP 或高級證書課程以加快您的職業生涯。

監督學習的意義是什麼？

機器使用監督學習中的“標記”數據進行學習。當一個數據集同時具有輸入和輸出參數時，它被認為是有標籤的。換句話說，信息已經被標記為正確的響應。在現實世界的計算挑戰中，監督機器學習非常有用。該系統從標記的訓練數據中學習，以預測意外數據的結果。因此，構建和部署此類模型需要高技能數據科學家的專業知識。數據科學家利用他們的技術知識隨著時間的推移構建模型，以保持所提供見解的有效性。

分類和回歸有什麼區別？

使用訓練數據，回歸產生單個輸出值。這是一種概率解釋，通過考慮輸入變量之間的相關強度來確定。例如，回歸可以幫助根據房屋的位置、大小和其他因素預測房屋的價格。對數據進行分類的行為需要將其劃分為類別。如果您正在考慮向他們提供信貸，您可以使用分類來評估一個人是否會拖欠貸款。當監督學習算法將輸入數據分類為兩個單獨的類時，就會發生二元分類。多重分類是指將信息分為兩組以上。

什麼是隨機森林？

一種集成方法是隨機森林模型。它的工作原理是創建大量決策樹，然後對各個樹進行分類。假設您想知道哪些大學生會在 GMAT 中表現出色，這是進入研究生管理課程所需的考試。鑑於之前參加過測試的一組學生的人口統計和教育特徵，隨機森林模型可以完成任務。