統計中的功率分析:它是什麼以及如何進行?
已發表: 2021-01-08假設檢驗是任何統計分析的重要方面。 但是,有很多事情需要預先定義,以便我們進行的測試盡可能正確。 這就是權力概念發揮作用的地方,它定義了統計檢驗的啟發式方法。
在本教程結束時,您將了解:
- 統計檢驗的啟發式
- 測試的力量是什麼?
- 功率分析需要什麼?
- 如何進行功率分析
目錄
統計檢驗的啟發式
在進行測試之前需要預設的幾個啟發式進行正確的統計測試。 設置正確的啟發式非常重要,因為一旦開始測試,這些就無法更改。 讓我們來看看其中的幾個。
1. 顯著性水平和置信區間
在開始任何統計測試之前,需要設置一個概率閾值。 這個閾值或顯著性水平稱為臨界值 (alpha)。 概率曲線下超出 alpha 值的完整區域稱為臨界區域。
alpha 值告訴我們樣本數據點(或實驗點)必須與原假設(原始平均點)相距多遠,然後才能得出結論認為它是不尋常的足以拒絕原假設。 常用的 alpha 值是 0.05 或 95% 置信區間。
2. P值
為了評估我們得到的測試結果是否具有統計顯著性,我們將測試前設置的臨界值 (alpha) 與測試的 P 值進行比較。 p 值是獲得與我們正在測試的值一樣極端甚至更極端的值的概率。
3. 類型 1 和類型 2 錯誤
統計檢驗永遠不可能 100% 確定。 總是有錯誤的餘地,並被結果誤導。 如上所述,如果我們將 alpha 值設置為 0.05,則置信區間為 95%。 因此,您得到的結果有 5% 的可能性是不正確和具有誤導性的。 這些不正確的結果就是我們所說的錯誤。 有兩種類型的錯誤——類型 1 和類型 2。
顯著性水平值 0.05 意味著您的統計檢驗將正確率為 95%。 這也意味著它有 5% 的可能性是不正確的! 這將是您在原假設正確時拒絕原假設的情況。 這是 1 類錯誤的示例。 我們也可以說 alpha( α ) 是犯第 1 類錯誤的概率。
當您斷定原假設為真或在它為假時接受它時,也可能出現這種情況。 從技術上講,我們永遠不能接受零假設。 我們只能拒絕它。 這就是我們所說的類型 2 錯誤。 同樣,您犯第 2 類錯誤的概率由 Beta - β給出。
閱讀:數據分析師:掌握的頂級技能和工具
統計檢驗的功效是什麼?
檢驗的功效是當零假設為假時正確拒絕它的概率。 或者換句話說,功率與犯第 2 類錯誤的概率成反比。 因此,功率 = 1- β。 例如,如果我們將功效設置為 80%,那麼我們的意思是 80% 的統計測試是正確的,而不是虛假的。 因此,功率值越高,犯第 2 類錯誤的概率就越小。
但為什麼結果會是假的呢? 這是因為我們在這里處理的是隨機樣本。 有時所取的樣本與分佈的平均值相差太遠,因此會給出不切實際的結果,迫使我們做出錯誤的決定。 功效分析的全部目的是防止我們做出這些錯誤的決定。
我們是 P-Hacking 嗎?
讓我們舉一個例子,我們已經為 COVID-19 製造了疫苗,我們非常確信該疫苗會產生顯著的效果。 我們繼續進行統計測試,看看我們的信念在統計上是否也成立。 因此將 alpha 設置為 0.05 並使用 100 個樣本進行測試。

測試後,我們得到一個 P 值為 0.06。 我們看到它非常接近我們的 alpha 但不小於它,因此我們可以安全地拒絕原假設。 如果我們增加樣本並重做測試,我們很想看看會發生什麼。
所以我們再添加 50 個樣本,看到 P 值現在為 0.045。 我們是否只是證明了我們的疫苗具有統計學意義? 不! 在獲得第一個結果後,我們增加了樣本數量,因此我們只是進行了 P-hack。 詳細了解什麼是 P-Hacking 以及如何避免它?
什麼是功率分析?
正如我們在上面的例子中看到的,我們發現樣本量很小,後來我們增加了它。 這是錯誤的,永遠不應該這樣做。 樣本量值應在開始測試之前預設。 但是樣本量的什麼值適合我們呢?
讓我們考慮一個示例,其中我們使用樣本大小僅為 1 進行多次測試。因此,當我們從總體中隨機抽取 1 個數據點時,它可以在正確代表我們數據的平均值附近,也可以很多遠離均值,不能很好地代表數據。
當我們使用這些遙遠的數據點進行統計測試時,就會出現問題。 我們將得到的 P 值將是不正確的。 我們現在進行另一系列測試,以 2 作為樣本量。 現在,即使一個值遠離數據平均值,分佈另一側的另一個值也會將它們的平均值拉到中心,從而減少該遠離值的影響。 因此,樣本大小為 2 時,如果 P 值正確,我們的結果將更加真實。
功效分析是一種用於找出盡可能好地進行測試所需的樣本量的技術。 我們需要的更高的功率是需要的樣本量。 所以你可能會想,為什麼不直接採用大樣本量,因為大樣本量意味著更好、更可靠的結果。 這是不對的,因為收集數據的成本很高,而且了解所需的樣本量是必不可少的。
如何進行功率分析?
測試的力量取決於一些因素。 執行功效分析的第一步是設置功效值。 假設您設置了 0.8 的共同功效,這意味著您希望至少有 80% 的機會正確拒絕原假設。 如果我們要驗證 COVID-19 疫苗對一組人的影響,我們想證明接種疫苗的人的數據點分佈與接受安慰劑的人的數據點分佈不同。
1. 重疊量
我們需要考慮我們正在比較的兩個分佈之間的重疊量。 重疊越多,我們就越難以安全地拒絕空值,因此我們需要更多的樣本量。 但是,如果重疊非常少,那麼我們可以很容易地安全地拒絕 null。 而且我們需要的樣本量要少得多。 重疊取決於兩個分佈的均值及其標準差之間的距離。
2.效果大小
效應量是一種組合總體均值和標準差之間差異的影響的方法。 效應大小 (d) 計算為均值之間的估計差異除以合併的估計標準偏差。 計算合併估計標準偏差的最簡單方法之一是標準偏差的平方和除以 2 的平方根。
因此,一旦我們有了 Power 值、alpha 值和效果大小,我們就可以將這些值插入到 Statistics Power Calculator 並獲得樣本大小值。 這種統計功率計算器很容易在互聯網上獲得。
獲得世界頂尖大學的數據科學認證。 學習行政 PG 課程、高級證書課程或碩士課程,以加快您的職業生涯。
在你走之前
我們通過使用功效、阿爾法和效應大小進行功效分析來計算樣本量。 因此,如果我們的樣本量值為 7,則意味著我們需要 7 的樣本量才能有 80% 的機會正確拒絕零假設。 擁有適量的領域專業知識對於估計總體均值及其重疊以及所需的功率也至關重要。
如果您想了解數據科學,請查看 IIIT-B 和 upGrad 的數據科學 PG 文憑,該文憑專為在職專業人士而設,提供 10 多個案例研究和項目、實用的實踐研討會、與行業專家的指導、1-與行業導師面對面交流,400 多個小時的學習和頂級公司的工作協助。
什麼是功率分析?
檢驗或功效分析的功效是當零假設為假時正確拒絕它的概率。 或者換句話說,功率與犯第 2 類錯誤的概率成反比。 因此,功率 = 1-β。 例如,如果我們將功效設置為 80%,那麼我們的意思是 80% 的統計測試是正確的,而不是虛假的。 因此,功率值越高,犯第 2 類錯誤的概率就越小。 功效分析是關於防止錯誤決策,因為我們正在處理各種隨機樣本,並且它們的平均值很可能會給出不切實際的平均值並導致我們做出錯誤的決策。
進行功率分析時會考慮哪些因素?
有一些因素會影響功效分析的檢驗。 第一步是設置功率值。 假設我們的冪值為 0.7,這意味著您有 70% 的機會拒絕原假設。 下面是Power分析的影響因素。 重疊量是被比較的兩個分佈之間的重疊。 重疊應該盡可能小,因為重疊量與計算空值的難度成正比。 效應量是一種計算總體平均值和標準差之間差異的方法。 它用“d”表示,計算為均值之間的估計差除以合併估計標準差。 由於現在我們有了功效值、alpha 值(重疊量)和效果大小,我們可以輕鬆地進行功效分析。
什麼是 P-Hacking?
P-Hacking 或數據挖掘是一種濫用數據分析技術來查找數據中看似重要但實際上並不重要的模式的方法。 這種方法對研究產生了負面影響,因為它提供了提供重要數據模式的虛假承諾,這反過來又會導致誤報數量急劇增加。 P-hacking 無法完全防止,但有一些方法可以肯定地減少它並幫助避免陷阱。