什麼是監督機器學習? 算法,示例
已發表: 2021-06-22機器學習無處不在——從政府機構、零售服務和金融機構到醫療保健、娛樂和交通行業。 它與我們的日常生活息息相關,無論是 Netflix 或亞馬遜提供在線推薦,還是您的智能手機通過面部檢測技術解鎖,機器學習和人工智能都獲得了前所未有的發展勢頭。
隨著機器學習成為現在最流行的技術趨勢之一,了解創建人工智能的關鍵方法之一——監督機器學習變得勢在必行。
目錄
什麼是監督機器學習?
監督機器學習是一種機器學習,其中使用標記的輸入數據訓練計算機算法,然後計算機預測不可預見數據的輸出。 在這裡,“標記”意味著一些數據已經被標記了正確的答案,以幫助機器學習。 在監督學習中,輸入到計算機的輸入數據就像主管或老師一樣工作,通過檢測輸入數據和輸出標籤之間的潛在模式和相關性來訓練機器產生準確的結果。
監督學習算法的類型
有不同類型的監督學習算法來實現特定的結果。 讓我們來看看一些最常見的類型。
一、分類
分類算法使用標記的訓練數據將輸入分類到給定數量的類或類別中。 這裡,輸出變量是一個類別,例如“是”或“否”以及“真”或“假”。 將醫療報告分類為陽性(疾病)或陰性(無疾病),或將電影分類為不同類型是分類算法適用的一些實例。
2.回歸
當輸入和輸出變量之間存在數值關係時,使用回歸模型。 屬於監督學習範圍的回歸算法包括線性回歸、非線性回歸、回歸樹、多項式回歸和貝葉斯線性回歸。 此類模型主要用於預測連續變量,例如推測市場趨勢、天氣預報或預先確定全天特定時間在線廣告的點擊率。
加入來自世界頂級大學的機器學習在線課程——碩士、高管研究生課程和 ML 和 AI 高級證書課程,以加快您的職業生涯。
3. 神經網絡
神經網絡算法用於解釋感官數據、識別模式或對原始輸入進行聚類。 雖然該算法有幾個優點,但當觀察值過多時,使用神經網絡可能會非常具有挑戰性。 神經網絡在現實生活中的流行應用包括信息提取、文本分類、語音和字符識別、多文檔摘要、語言生成等。
4.樸素貝葉斯模型
樸素貝葉斯分類器不是單一算法,而是基於貝葉斯定理的算法集合。 這些算法的標準原理是每對分類特徵相互獨立。 使用包含幾個子節點和一個父節點的直接無環圖來分配類標籤。 每個子節點都被認為是獨立於父節點的。 樸素貝葉斯算法在現實生活中的流行應用包括垃圾郵件過濾和情感分析。
5. 決策樹
決策樹是類似於流程圖的模型,其中包含用於比較決策及其可能後果的條件控制語句。 決策樹需要一個樹狀圖,其中內部節點代表我們選擇屬性並提出問題的點,葉節點代表類標籤或實際輸出,邊緣代表問題的答案。
6.支持向量機
支持向量機 (SVM) 基於 Vap Nick 給出的統計學習理論,開發於 1990 年。簡單來說,支持向量機是一組用於回歸、分類和異常值檢測的監督學習方法。 它們與內核網絡密切相關,在模式識別、生物信息學和多媒體信息檢索等不同領域都有應用。
7. 隨機森林模型
隨機森林模型由一組單獨的決策樹組成,其中每棵單獨的樹都給出一個類預測,而投票數最高的類是模型的預測。 隨機森林模型概念背後的想法是,大量相對不相關的樹或在集成中運行的模型將產生比任何單個預測更準確的預測。 這是因為樹相互保護免受獨立錯誤的影響。
它是如何工作的?
監督學習涉及使用標記數據集訓練模型,以便它們可以了解每種類型的數據。 訓練完成後,給模型提供測試數據來識別和預測輸出。
讓我們看一個簡單的例子來進一步闡明這個概念。
假設給你一個由不同種類的蔬菜組成的板條箱。 在有監督的機器學習方法中,您的第一步是讓機器以這種方式逐個熟悉所有不同的蔬菜:
- 如果物體像燈泡和紫粉紅色,它將被標記為 - 洋蔥。
- 如果該物體是多葉的且顏色為綠色,那麼它將被標記為 - 菠菜。
一旦你訓練了機器,你就給它一個與板條箱分開的蔬菜(比如洋蔥)並要求識別它。 現在,由於機器已經從之前的數據中了解了蔬菜,它會根據新物體的形狀和顏色對新物體進行分類,並確認結果是洋蔥。 通過這種方式,機器從訓練數據(裝有蔬菜的箱子)中學習或訓練,並將知識應用於新的、不可預見的數據(新蔬菜)。
就像我們上面使用的蔬菜示例一樣,讓我們看另一個監督學習示例來了解它是如何工作的。
假設我們有一個由各種形狀組成的數據集,例如三角形、正方形和五邊形。 第一步是通過以下方式為每個圖形訓練模型:
- 如果形狀有三個邊,那麼它將被標記為 - 三角形
- 如果形狀有四個相等的邊,那麼它將被標記為 - Square
- 如果形狀有五個邊,那麼它將被標記為 - 五角形
訓練完成後,我們使用測試數據對模型進行測試,模型的工作就是根據訓練知識識別形狀。 因此,當模型找到新形狀時,它會根據邊數對其進行分類並給出輸出。
優勢與挑戰
不用說,監督學習在實現機器學習模型方面有幾個優勢。 下面列出了它的一些好處:
- 監督學習模型可以根據先前的經驗準確地預測輸出。
- 監督學習有助於利用經驗優化性能。
- 監督學習為我們提供了關於對像類別的清晰而精確的概念。
- 最後但並非最不重要的一點是,監督學習算法對於解決各種現實世界問題和在不同領域找到應用至關重要。
毫無疑問,監督學習算法非常有益,尤其是在實時應對挑戰方面。 然而,建立一個可持續和高效的監督學習模型也面臨著一系列挑戰。 那麼讓我們來看看:
- 訓練監督學習模型的整個過程是一個耗時的過程。
- 監督學習模型通常需要一定水平的專業知識和資源才能準確地構建和運行。
- 與無監督學習模型相比,監督學習模型不能自行對數據進行分類或聚類。
- 人為錯誤潛入數據集的可能性非常高,這可能導致算法訓練不正確。
帶示例的最佳實踐
在開始使用監督機器學習的項目之前,您應該記住哪些最佳實踐? 看看下面。
- 確保您清楚將用作訓練數據集的數據類型。
- 從標準測量或人類專家那裡收集相應的輸出。
- 決定學習算法的結構。
值得最後談談監督機器學習的一些最好和最流行的現實生活示例。
- 預測分析:使用監督學習模型進行預測分析的一個廣泛用例是為各種業務數據點提供有意義且可操作的見解。 因此,企業可以根據給定的輸出變量預見某些結果,以證明和支持決策。
- 對象和圖像識別:監督學習算法可用於定位和分類圖像和視頻中的對象——圖像分析和各種計算機視覺技術的常見要求。
- 垃圾郵件檢測:垃圾郵件檢測和過濾技術使用有監督的分類算法來訓練數據庫,以便它們能夠識別新數據中的模式,從而有效地分離垃圾郵件和非垃圾郵件。
- 情感分析:提高品牌參與度的一個好方法是了解客戶互動。 監督機器學習可以通過從大型數據集中提取和分類關鍵信息(例如客戶的情緒、意圖、偏好等)來提供幫助。
通過 upGrad 學習機器學習
希望在機器學習和人工智能領域大展拳腳? 從 upGrad 的機器學習和人工智能執行 PG 計劃開始您的旅程。 這是一門綜合性在線認證課程,專為希望學習深度學習、強化學習、NLP 和圖形模型等熱門技能的專業人士而設計。
以下是您不能錯過的一些課程亮點:
- IIIT班加羅爾的課程結業證書。
- 超過 450 小時的學習時間包括現場會議、編碼作業、案例研究和項目。
- 全面涵蓋 20 種工具、編程語言和庫。
- 實時編碼課程和配置文件構建研討會。
結論
Technavio 最新的市場研究報告《最終用戶和地理機器學習市場 - 2020-2024 年預測和分析》預測,在 2020-2024 年的預測期內,全球機器學習市場規模將增長 111.6 億美元。 更重要的是,穩定的同比增長將推動市場的增長動力。
目前的趨勢和未來的預測都表明機器學習將繼續存在。 監督學習算法是任何主要涉及分類和回歸問題的機器學習項目的基礎。 儘管存在挑戰,但監督學習算法對於根據經驗預測結果最有用。