卡方檢驗:簡介、如何計算、何時使用

已發表: 2022-11-09

在統計學中,卡方檢驗用於分析來自正態分佈變量集合的觀察數據。 通常,這涉及對比兩組數字信息。 Karl Pearson 首先提出了這種分析和分佈分類數據的方法,將其命名為 Pearson 卡方檢驗。

Pearson 開發的卡方檢驗用於列聯表中,以評估卡方表的一個或多個類別中的預測頻率和實際頻率之間是否存在顯著的統計差異。

在統計學上,統計學家使用卡方檢驗來確定模型與數據的擬合程度。 卡方統計需要足夠大小的隨機、互斥、原始、自變量數據樣本。

報名參加世界頂尖大學機器學習課程獲得碩士、Executive PGP 或高級證書課程以加快您的職業生涯。

目錄

卡方檢驗基本術語

計算卡方檢驗的標準公式是平方誤差或誤報的總和除以樣本方差。 使用卡方檢驗時會實施一些術語。 這些術語的定義如下:

p 值

p 值是實現等於或大於當前實驗中的卡方的可能性,並且數據仍然支持該假設。 該概率以百分比表示。 它指的是預期變化僅由隨機事件引起的可能性。
如果 p 值小於等於 0.05,則接受所考慮的假設。 如果該值大於 0.05,則拒絕該假設。

自由度

估計問題具有一定的自由度,等於自變量的數量。 儘管對這些變量的值沒有硬性限制,但如果我們希望我們的數據集與估計的參數一致,它們確實會對其他變量施加限制。

“自由度”的一種定義是數據集中在邏輯上相互獨立並因此可能發生變化的最大數量的值。 從數據集中的觀察總數中減去 1 得到自由度。

解決自由度概念的一個突出背景是在卡方等統計假設檢驗的背景下。

理解卡方統計量的重要性和原假設的穩健性在很大程度上依賴於準確計算自由度。

方差

隨機數樣本的方差是衡量其在均值附近的離散度。 它是通過平方標準偏差的值來計算的。

執行卡方檢驗的屬性

卡方檢驗具有以下性質:

  • 平均分佈等於自由度的數量。
  • 方差應該等於自由度的兩倍。
  • 隨著自由度的增加,卡方分佈曲線開始類似於正態分佈曲線,即鐘形曲線。

最佳機器學習課程和在線人工智能課程

LJMU 機器學習與人工智能理學碩士 來自 IIITB 的機器學習和人工智能高級研究生課程
IIITB 機器學習和自然語言處理高級證書課程 IIITB 機器學習和深度學習高級證書課程 馬里蘭大學數據科學與機器學習高級管理研究生課程
要探索我們所有的課程,請訪問下面的頁面。
機器學習課程

如何進行卡方檢驗?

使用以下公式計算分佈的卡方:

2 = [(觀察值 - 預期值 2 / 預期值]

計算卡方統計量的步驟

  1. 計算觀察值和期望值。
  2. 從分佈表中的觀察值中減去每個期望值。
  3. 將您在步驟 2 中獲得的每個觀察值平方。
  4. 將這些平方值中的每一個除以其對應的期望值。
  5. 將我們在第 4 步中獲得的所有值相加,得到一個定義卡方統計量的值。
  6. 計算自由度以檢查上述卡方檢驗的屬性滿意度。

卡方檢驗的類型

擬合優度

如果您想了解總體樣本代表整體的程度,您可以應用卡方擬合優度檢驗。 使用這種技術比較樣本總體和預測的樣本總體。

獨立測試

此卡方檢驗用於確定一個群體的獨立性,以確定兩個分類變量之間是否存在相關性。 獨立檢驗不同於擬合優度檢驗,因為它不會將單個觀察到的參數與理論總體進行比較。 相反,獨立性檢驗將樣本集中的兩個值相互比較。

測試同質性

與獨立性測試一樣,同質性測試遵循相同的格式和程序。 兩者之間的關鍵區別在於,同質性檢驗檢查變量是否在許多人群中具有相同的分佈。 相反,獨立性檢驗檢查相似人群中兩個分類變量之間是否存在聯繫。

什麼時候應該使用卡方檢驗?

卡方檢驗確定實際值是否與理論概率一致。 當被分析的數據來自隨機樣本並且有問題的變量是分類變量時,卡方是最可靠的測試。

需求機器學習技能

人工智能課程 畫面課程
自然語言處理課程 深度學習課程

卡方檢驗在哪裡使用?

讓我們以營銷公司為例。
一家營銷公司正在研究消費者地理和品牌選擇之間的相關性。 因此,卡方發揮了重要作用,統計數據的價值將告知公司如何調整其跨地域的營銷方法以實現收入最大化。
在分析數據時,卡方檢驗可用於檢查分類變量的一致性或獨立性,以及所考慮的擬合優度模型。

同樣,卡方統計量可能會在醫學專業中得到使用。 卡方檢驗適用於確定藥物與對照組相比的療效。

流行的機器學習和人工智能博客

物聯網:歷史、現在和未來 機器學習教程:學習機器學習 什麼是算法? 簡單易行
印度機器人工程師的薪水:所有角色 機器學習工程師的一天:他們在做什麼? 什麼是物聯網(物聯網)
排列與組合:排列與組合之間的區別 人工智能和機器學習的 7 大趨勢 使用 R 進行機器學習:您需要知道的一切

結論

在本文中,您了解了卡方統計以及如何計算其值。 由於卡方適用於分類變量,因此它經常被研究調查響應數據的學者使用。 這種研究形式在許多領域都很常見,包括社會學、心理學、經濟學、政治學和市場營銷。

通過 upGrad 獲得機器學習和 AI 理學碩士學位

您是否最終希望獲得理學碩士學位? upGrad 與 IIIT-B 和利物浦約翰摩爾斯大學合作,為您帶來最精心策劃的課程。 通過機器學習和人工智能理學碩士,您將學習機器學習和人工智能領域所需的每一項技能,例如自然語言處理、深度學習、強化學習等。

資格標準:

  • 以 50% 完成學士學位
  • IIIT-B完成機器學習和人工智能高級管理人員研究生課程
  • 至少一年工作經驗者優先

本課程為您提供什麼:

  • 超過 750 小時的課程資料可供學習
  • 專為工作專業人士設計
  • 超過 15 個作業和案例研究
  • 超過 12 個項目,其中 6 個是頂點項目
  • 實時編碼課程
  • 型材建設車間
  • 職業訓練營
  • 一對一高效指導
  • 一對一的職業指導課程
  • 獨家工作機會
  • 個性化的行業會議

p 值與卡方檢驗有何關係?

p 值是卡方密度曲線下位於檢驗統計量值右側的區域。 卡方檢驗統計量是否足夠大以拒絕原假設是卡方顯著性檢驗的最後一步。 p 值用於此目的。

使用卡方檢驗是否有任何限製或缺點?

所有被研究的個體必須是獨一無二的; 否則,結果將毫無意義。 如果給定的受訪者可能分為兩個不同的組,則不應使用卡方檢驗。 卡方的另一個限制是它只能用於頻率數據。 此外,所有類別中所有預測人員的總和應大於 5。

卡方檢驗的優勢是什麼?

它的主要優勢之一是可以快速輕鬆地計算卡方。 使用這種方法也可以使用標稱數據。 它也可用於比較多於兩組的分類變量的統計顯著性。