用示例解釋線性回歸
已發表: 2021-10-13線性回歸是建立數據集變量之間關係的最常用算法之一。 數學模型是數據科學家進行預測分析的必要工具。 該博客將向您介紹基本概念,並討論線性回歸示例。
目錄
什麼是回歸模型?
回歸模型通過將一條線擬合到觀察到的數據來描述數據集變量之間的關係。 這是一種數學分析,可以找出哪些變量最有影響和最重要。 它還決定了我們對所涉及的因素的確定程度。 這兩種變量是:
- Dependent:您試圖預測或理解的因素。
- 獨立:您懷疑對因變量有影響的因素。
當因變量是定量的時,使用回歸模型。 在邏輯回歸的情況下,它可能是二元的。 但在這篇博客中,我們將主要關注兩個變量都是定量的線性回歸模型。
假設您有過去三年的月銷售額和月平均降雨量數據。 假設您將這些信息繪製在圖表上。 y 軸表示銷售數量(因變量),x 軸表示總降雨量。 圖表上的每個點都會顯示特定月份的降雨量以及相應的銷售數字。
如果您再看一眼數據,您可能會注意到一種模式。 假設在下雨的日子裡銷售額會更高。 但是要估計在下雨一定量(比如 3 或 4 英寸)時您通常會賣多少是很棘手的。 如果您在圖表上所有數據點的中間畫一條線,您可以獲得一定程度的確定性。
如今,Excel 和 SPSS、R 或 STATA 等統計軟件可以幫助您繪製一條最適合手頭數據的線。 此外,您還可以輸出解釋直線斜率的公式。
考慮上面例子的這個公式:Y = 200 + 3X。 它告訴您,當根本不下雨時(即 X=0 時),您賣出了 200 個單位。 假設變量在我們前進時保持不變,每增加一英寸的降雨將導致平均銷售量增加三個單位。 如果下雨 1 英寸,您將銷售 203 個單位,如果下雨 2 英寸,則銷售 206 個單位,如果下雨 3 英寸,則銷售 209 英寸,依此類推。
通常,回歸線公式還包括一個誤差項(Y = 200 + 3 X + 誤差項)。 它考慮到獨立預測變量可能並不總是因變量的完美預測變量這一現實。 該行僅根據可用數據為您提供估計。 誤差項越大,您的回歸線就越不確定。
線性回歸基礎
簡單的線性回歸模型使用一條直線來估計兩個定量變量之間的關係。 如果您有多個自變量,則將使用多元線性回歸。
簡單的線性回歸分析涉及兩件事。 首先,它告訴您歷史數據的相關因素和獨立因素之間的關係強度。 其次,它在自變量的某個值處為您提供因變量的值。
考慮這個線性回歸示例。 一位有興趣了解個人收入如何影響他們的幸福水平的社會研究人員執行了一個簡單的回歸分析,以查看是否存在線性關係。 研究人員通過調查特定地理位置的人來獲取因變量(幸福)和自變量(收入)的定量值。
例如,數據包含來自印度馬哈拉施特拉邦的 500 人的收入數據和幸福水平(從 1 到 10 排名)。 然後,研究人員將繪製數據點並擬合回歸線,以了解受訪者的收入對其幸福感的影響程度。
線性回歸分析基於對數據的一些假設。 有:
- 因變量和自變量之間關係的線性,即最佳擬合線是直的,而不是彎曲的。)
- 方差的同質性,即預測誤差的大小,在自變量的不同值之間沒有顯著變化。
- 數據集中觀察的獨立性,指的是沒有隱藏的關係。
- 因變量的數據分佈的正態性。 您可以使用 R 中的 hist() 函數進行檢查。
線性回歸背後的數學
y = c + ax 是一個標準方程,其中 y 是輸出(我們想要估計),x 是輸入變量(我們知道),a 是直線的斜率,c 是常數。
在這裡,輸出根據輸入線性變化。 斜率決定了 x 對 y 值的影響程度。 當 x 為 nil 時,常數是 y 的值。
讓我們通過另一個線性回歸示例來理解這一點。 假設您在一家汽車公司工作,想研究印度的乘用車市場。 假設國家 GDP 影響乘用車銷售。 為了更好地規劃業務,您可能需要找出在該國銷售的汽車數量與 GDP 之間的線性方程
為此,您需要逐年乘用車銷售的樣本數據和每年的 GDP 數據。 你可能會發現,當年的 GDP 會影響明年的銷量:哪一年 GDP 越低,第二年的汽車銷量就越低。
要為機器學習分析準備這些數據,您需要做更多的工作。
- 請從方程 y = c + ax 開始,其中 y 是一年內售出的汽車數量,x 是前一年的 GDP。
- 要找出上述問題中的 c 和 an,可以使用 Python 創建模型。
查看本教程以了解分步方法
如果您要在 R 中執行簡單的線性回歸,則解釋和報告結果會變得更加容易。
對於相同的線性回歸示例,讓我們將等式更改為 y=B0 + B1x + e。 同樣,y 是因變量,x 是自變量或已知變量。 B0 是常數或截距,B1 是回歸係數的斜率,e 是估計的誤差。
像 R 這樣的統計軟件可以通過數據找到最佳擬合線,並蒐索使模型總誤差最小的 B1。
請按照以下步驟開始:
- 將乘用車銷售數據集加載到 R 環境中。
- 運行命令生成描述乘用車銷量與 GDP 之間關係的線性模型。
- sales.gdp.lm <- lm(gdp ~ sales, data = sales.data)
- 使用 summary() 函數以表格形式查看最重要的線性模型參數。
- 摘要(sales.gdp.lm)
注意:輸出將包含調用、殘差和係數等結果。 “調用”表說明了使用的公式。 “殘差”詳細說明了中位數、四分位數、最小值和最大值,以表明模型與真實數據的擬合程度。 “係數”表的第一行估計 y 截距,第二行給出回歸係數。 此表的列具有 Estimate、Std 等標籤。 誤差、t 值和 p 值。
向世界頂尖大學學習機器學習課程。 獲得碩士、Executive PGP 或高級證書課程以加快您的職業生涯。
- 將(截距)值代入回歸方程,以預測整個 GDP 數字範圍內的銷售額。
- 調查(估計)列以了解效果。 回歸係數將告訴您銷售額隨 GDP 的變化而變化。
- 從(標準誤差)標籤中找出您對銷售額與 GDP 之間關係的估計值的變化。
- 查看 (t-value) 下的檢驗統計量,以了解結果是否偶然發生。 t 值越大,可能性越小。
- 如果原假設為真,通過 Pr(>|t|) 列或 p 值查看 GDP 對銷售額的估計影響。
- 用估計的效果、標準誤差和 p 值呈現您的結果,清楚地傳達回歸係數的含義。
- 在報告中包含圖表。 簡單的線性回歸可以顯示為帶有回歸線和函數的繪圖圖。
- 通過測量觀察到的和預測的 y 值的距離、在 x 的每個值處對距離進行平方併計算它們的平均值來計算誤差。
結論
通過上面的線性回歸示例,我們為您提供了生成簡單線性回歸模型、找到回歸係數和計算估計誤差的概述。 我們還談到了 Python 和 R 在預測數據分析和統計方面的相關性。 此類工具的實用知識對於今天從事數據科學和機器學習的職業至關重要。
如果您想磨練自己的編程技能,請查看IIT Madras 和 upGrad的機器學習高級證書課程。 在線課程還包括案例研究、項目和專家指導課程,以將行業導向帶入培訓過程。