如何進行多元回歸分析？

已發表: 2021-11-23

在統計分析中，回歸模型主要用於在必要時開發所考慮變量之間的關係。通過在所有變量之間擬合一條線來建立關係。為了理解因變量的行為，使用回歸模型。它們讓用戶知道因變量如何隨著自變量的變化而變化。

多元線性回歸是一種這樣的技術，可以幫助我們估計這些變量之間的關係，即因變量和自變量。本文將重點介紹多元線性回歸的技術及其實現方式。

多元線性回歸

多元線性回歸是一種統計技術，用於預測任何響應變量的結果。該技術的目標之一是在自變量和因變量之間建立線性關係。 多元線性回歸分析是多變量分析的一種形式，涉及不止一種觀察形式。

如果您想了解以下內容，大多數情況下可以執行該技術：

了解變量之間的關係有多強。此外，如果您想了解自變量和因變量之間的關係，那麼在這些情況下，我們可以使用多元線性回歸技術。
該技術可用於預測與自變量相對應的因變量的值。

多元線性回歸中考慮的假設

在多元線性回歸技術中考慮了某些假設。 以下是 MLR 的一些列出的假設：

1. 方差齊性

它也被稱為同方差性。這意味著在預測結果時，與通過自變量值預測結果相關的誤差沒有顯著變化。該方法假設誤差量在整個 MLR 模型中是相同的。分析師必鬚根據預測值繪製標準化的殘差。這有助於確定自變量之間的點是否公平分佈。散點圖可用於繪製數據。

2. 觀察的獨立性

多元線性回歸中考慮的觀察結果是通過有效的統計技術收集的。這意味著收集的變量之間沒有隱藏或現有的關係。有時，在這種技術中，存在一些變量與其他變量相關的情況。因此，在開發回歸模型之前，檢查這些相關變量始終很重要。對於顯示出高相關性的變量，從模型開發中刪除其中一個變量總是更好。

3、自變量之間不存在相關性

換句話說，可以提到數據中不應該存在任何多重共線性。如果存在任何多重共線性，分析人員會發現很難識別對因變量方差有貢獻的變量。因此，被認為是檢驗假設的最佳方法之一是變異膨脹因子的方法。

4. 常態：

這意味著數據集遵循正態分佈。

5. 線性

在搜索變量之間的關係時，嘗試在變量之間擬合一條直線。人們普遍認為自變量和因變量之間存在線性關係。檢查線性關係的一種方法是創建散點圖，然後可視化散點圖。它使用戶能夠觀察觀察中存在的線性。如果萬一沒有線性關係，那麼分析師必須重複他的分析。諸如 SPSS 之類的統計軟件可用於執行 MLR。

多元線性回歸的數學表示

多元線性回歸模型的數學圖如下所示：

在上述等式中，

Y代表輸出變量，
X 代表輸入變量，
Β 表示與每一項相關的係數。
B0 是 y-intercept 的值，這意味著當所有其他預測變量都不存在時 Y 的值。

有時，MLR 的方程由一個誤差項組成，該誤差項在方程項的末尾用“e”表示。

在找到線的最佳擬合時， MLR 方程用於計算以下內容：

計算導致 MLR 方程出現最小誤差的回歸係數。
對於整體模型，方程計算 t 統計值。
模型的 P 值。

普通最小二乘

多元線性回歸的方法也稱為普通最小二乘法 (OLS)。這是因為 MLR 的方法試圖找到最小平方和。因此，也稱為 OLS 方法。編程語言 python 可用於實現這些方法。 在python中可以應用OLS方法的兩種方法是：

1. SciKit 學習

這是一個可用的 Python 編程語言包。線性回歸模塊將從 Scikit Learn 的包中導入。然後用數據擬合模型。這是一種簡單的方法，可以廣泛使用。

2. 統計模型

python 編程語言中使用的其他方法之一是 Statsmodels 包。這個包可以幫助實現 OLS 技術。

多元線性回歸示例

下面列出了 MLR 的一些示例：

多元線性回歸模型可用於預測作物產量。這是因為，在 MLR 中，因變量和自變量之間存在關聯。在此類研究中，可以考慮其他因素，例如氣候因素、降雨量、肥料水平和溫度。
如果必須在所進行研究的小時數和班級 GPA 之間建立聯繫，則可以使用 MLR 方法。在這種情況下，GPA 將是因變量，而其他變量，例如學習時間，將是解釋變量。
MLR技術可用於根據高管的經驗和年齡確定公司高管的薪水。在這種情況下，工資將成為因變量，而年齡和經驗將成為自變量。

MLR 的工作流程

在進入回歸模型之前，需要準備和分析數據。主要分析數據是否存在任何錯誤、異常值、缺失值等。這裡列出了幾個步驟，向您展示如何實施或應用多元線性回歸技術。

1. 選擇變量

MLR 需要一個數據集，其中包含與響應變量關係最密切的預測變量值。這意味著應該從最少數量的變量中提取最大信息。 變量的選擇可以從以下過程中進行。

可以選擇自動程序來搜索變量。工具可以與 R 和 Python 的編程包一起使用，以確定 MLR 研究的最佳變量。
可以選擇全可能回歸來檢查任何自變量的任何子部分的存在。
可以考慮 R2 的值來分析最佳變量。那些具有較大 R2 值的變量被認為是模型中的最佳擬合。 R2 的值可以是 0 和 1 這兩個數字。值 0 表示沒有一個自變量可以預測因變量的結果。值 1 表示通過自變量進行的預測且沒有錯誤。
還有另一個術語是預測平方和（PRESSp）。如果 MLR 的模型具有較小的 PRESSp，則認為該模型具有更好的預測強度。

2.模型細化

MLR的模型可以通過檢查以下標準來改進：

全局 F 檢驗的值。這用於測試通過自變量預測因變量結果的重要性。
調整後的 R2 用於檢查參數和样本大小調整後的完整樣本的變化。該項的值越大表明變量與數據的擬合效果越好。
均方根偏差或 RMSE 用於估計隨機誤差的標準偏差。
如果變異係數的值小於或等於 10%，則認為 MLR 模型給出了準確的預測。

3. 測試模型假設

所考慮的假設在線性回歸模型中進行了測試。應該滿足這些假設。

4. 解決與模型相關的問題

如果違反了模型中考慮的某些假設，則應採取措施盡量減少此類問題。

5. 模型驗證

這是 MLR 模型生成的最後一步，被認為是重要的一步。模型生成後，需要對模型進行驗證。一旦經過驗證，它就可以用於任何多元線性回歸分析。

結論

多元線性回歸是任何研究中用於建立變量之間相關性的最廣泛使用的技術之一。它也被認為是機器學習領域的重要算法。但是，如果您不熟悉回歸分析，最好了解回歸模型和簡單的線性回歸。

從世界頂級大學獲取機器學習課程。獲得行政 PG 課程、高級證書課程或碩士課程，以加快您的職業生涯。

提升您在機器學習和人工智能方面的職業生涯

立即申請 IIITB 的 AI-ml 執行認證