機器學習中的假設是什麼? 如何形成假設?

已發表: 2021-03-12

假設檢驗是一門廣泛的學科,適用於許多領域。 當我們研究統計數據時,那裡的假設檢驗涉及來自多個人群的數據,並且測試是查看對人群的影響有多顯著。

這涉及計算 p 值並將其與臨界值或 alpha 進行比較。 在機器學習方面,假設檢驗處理的是找到最接近目標的獨立特徵的函數。 換句話說,將輸入映射到輸出。

在本教程結束時,您將了解以下內容:

  • 什麼是統計與機器學習中的假設
  • 什麼是假設空間?
  • 形成假設的過程

目錄

統計學假設

假設是對可證偽結果的假設,這意味著可以通過一些證據證明它是錯誤的。 假設可以被拒絕或無法被拒絕。 我們從不接受統計學中的任何假設,因為這完全是關於概率的,我們永遠不會 100% 確定。 在實驗開始之前,我們定義了兩個假設:

1. Null Hypothesis:表示沒有顯著影響

2.替代假設:說有一些顯著的影響

在統計學中,我們將 P 值(使用不同類型的統計檢驗計算得出)與臨界值或 alpha 進行比較。 P 值越大,可能性越高,這反過來表示效果不顯著,我們得出結論,我們無法拒絕原假設

換句話說,這種影響很可能是偶然發生的,沒有統計學意義。 另一方面,如果我們得到一個非常小的 P 值,則意味著可能性很小。 這意味著事件偶然發生的概率非常低。

加入來自世界頂級大學的ML 和 AI在線課程——碩士、高級管理人員研究生課程和 ML 和 AI 高級證書課程,以加快您的職業生涯。

顯著性水平

在開始實驗之前設置顯著性水平。 這定義了誤差的容忍度以及在哪個級別可以認為影響是顯著的。 顯著性水平的一個常見值是 95%,這也意味著我們有 5% 的機會被測試愚弄並犯錯誤。 換句話說,臨界值是 0.05,它充當閾值。 同樣,如果顯著性水平設置為 99%,則意味著臨界值為 0.01%。

P值

對總體和样本進行統計檢驗,找出 P 值,然後將其與臨界值進行比較。 如果 P 值小於臨界值,那麼我們可以得出結論,該影響是顯著的,因此拒絕零假設(即沒有顯著影響)。 如果 P 值大於臨界值,我們可以得出結論,沒有顯著影響,因此無法拒絕零假設。

現在,由於我們永遠無法 100% 確定,我們的測試總是有可能是正確的,但結果卻具有誤導性。 這意味著要么我們拒絕空值,但它實際上並沒有錯。 這也可能意味著我們不會拒絕實際上為假的空值。 這些是假設檢驗的類型 1 和類型 2 錯誤。

例子

假設您正在為一家疫苗製造商工作,而您的團隊正在為 Covid-19 開發疫苗。 要證明這種疫苗的功效,需要統計證明它對人類有效。 因此,我們取兩組大小和屬性相同的人。 我們給 A 組打疫苗,給 B 組打安慰劑。我們進行分析,看看 A 組有多少人被感染,B 組有多少人被感染。

我們對此進行了多次測試,以查看 A 組是否對 Covid-19 產生了任何顯著的免疫力。 我們計算所有這些測試的 P 值,並得出結論 P 值總是小於臨界值。 因此,我們可以安全地拒絕原假設並得出結論確實存在顯著影響。

閱讀:機器學習模型解釋

機器學習中的假設

在監督機器學習中使用機器學習中的假設,我們需要找到最能將輸入映射到輸出的函數。 這也可以稱為函數逼近,因為我們正在逼近一個目標函數,該目標函數最能將特徵映射到目標。

1.假設(h):假設可以是將特徵映射到目標的單個模型,但是,可以是結果/度量。 假設由“ h ”表示。

2.假設空間(H):假設空間是可用於對數據進行建模的模型及其可能參數的完整範圍。 用“ H ”表示。 換句話說,假設是假設空間的一個子集。

形成假設的過程

本質上,我們有訓練數據(獨立特徵和目標)和一個將特徵映射到目標的目標函數。 然後使用不同類型的超參數空間配置在不同類型的算法上運行這些算法,以檢查哪種配置產生最佳結果。 訓練數據用於製定並從假設空間中找到最佳假設。 測試數據用於驗證或驗證假設產生的結果。

考慮一個示例,我們有一個包含 10000 個實例的數據集,其中包含 10 個特徵和一個目標。 目標是二元的,這意味著它是一個二元分類問題。 現在,比如說,我們使用邏輯回歸對這些數據進行建模,並獲得 78% 的準確率。 我們可以繪製將兩個類分開的回歸線。 這是一個假設(h)。 然後我們在測試數據上檢驗這個假設,得到 74% 的分數。

現在,再次假設我們在相同數據上擬合 RandomForests 模型並獲得 85% 的準確度得分。 這已經是對邏輯回歸的一個很好的改進。 現在我們決定調整 RandomForests 的超參數,以便在相同數據上獲得更好的分數。 我們進行網格搜索並在數據上運行多個 RandomForest 模型並檢查它們的性能。 在這一步中,我們實質上是在搜索假設空間(H)以找到更好的函數。 完成網格搜索後,我們得到了 89% 的最佳分數,我們結束了搜索。

現在我們還嘗試了更多模型,例如 XGBoost、支持向量機和朴素貝葉斯定理,以測試它們在相同數據上的性能。 然後我們選擇性能最好的模型並在測試數據上對其進行測試以驗證其性能並獲得 87% 的分數。

結帳:機器學習項目和主題

在你走之前

該假設是機器學習和數據科學的一個重要方面。 它存在於所有分析領域,是是否應引入更改的決定因素。 無論是製藥、軟件、銷售等。假設涵蓋了完整的訓練數據集,以檢查假設空間中模型的性能。

假設必須是可證偽的,這意味著如果結果與假設相反,則必須可以測試並證明它是錯誤的。 當需要驗證許多不同的配置時,搜索模型的最佳配置的過程非常耗時。 還有一些方法可以通過使用超參數的隨機搜索等技術來加速這個過程。

如果您有興趣了解有關機器學習的更多信息,請查看 IIIT-B 和 upGrad 的機器學習和 AI 執行 PG 計劃,該計劃專為工作專業人士設計,提供 450 多個小時的嚴格培訓、30 多個案例研究和作業、IIIT -B 校友身份,5 個以上實用的實踐頂點項目和頂級公司的工作協助。

我們為什麼要做開源項目?

做開源項目的原因有很多。 你正在學習新事物,你正在幫助他人,你正在與他人建立聯繫,你正在創造聲譽等等。 開源很有趣,最終你會有所收穫。 最重要的原因之一是它建立了一個偉大的工作組合,你可以向公司展示並被錄用。 開源項目是學習新事物的好方法。 您可能正在增強您的軟件開發知識,或者您可能正在學習一項新技能。 沒有比教更好的學習方法了。

作為初學者,我可以為開源做出貢獻嗎?

是的。 開源項目不歧視。 開源社區由喜歡編寫代碼的人組成。 新手總有一個地方。 您將學到很多東西,也有機會參與各種開源項目。 您將了解哪些有效,哪些無效,您還將有機會讓大型開發人員社區使用您的代碼。 有一個一直在尋找新貢獻者的開源項目列表。

GitHub 項目如何運作?

GitHub 為開發人員提供了一種管理項目和相互協作的方式。 它還可以作為開發人員的一種簡歷,列出項目的貢獻者、文檔和版本。 對項目的貢獻向潛在的雇主表明您具有在團隊中工作的技能和動力。 項目通常不僅僅是代碼,因此 GitHub 有一種方法可以讓您像構建網站一樣構建項目。 您可以通過分支機構管理您的網站。 分支就像一個實驗或您網站的副本。 當您想嘗試新功能或修復某些內容時,您可以創建一個分支並在那裡進行實驗。 如果實驗成功,您可以將分支合併回原網站。