25 個機器學習面試問題和答案——線性回歸
已發表: 2022-09-08在面試中用常用的機器學習算法測試數據科學有志者是一種常見的做法。 這些傳統算法是線性回歸、邏輯回歸、聚類、決策樹等。數據科學家應該對這些算法有深入的了解。
我們諮詢了來自不同組織的招聘經理和數據科學家,以了解他們在面試中提出的典型機器學習問題。 根據他們的廣泛反饋,準備了一組問題和答案,以幫助有抱負的數據科學家進行對話。 線性回歸面試問題是機器學習面試中最常見的問題。 這些算法的問答將在一系列四篇博客文章中提供。
最佳機器學習課程和在線人工智能課程
LJMU 機器學習與人工智能理學碩士 | 來自 IIITB 的機器學習和人工智能高級研究生課程 | |
IIITB 機器學習和自然語言處理高級證書課程 | IIITB 機器學習和深度學習高級證書課程 | 馬里蘭大學數據科學與機器學習高級管理研究生課程 |
要探索我們所有的課程,請訪問下面的頁面。 | ||
機器學習課程 |
每篇博文都將涵蓋以下主題:-
- 線性回歸
- 邏輯回歸
- 聚類
- 與所有算法有關的決策樹和問題
讓我們開始線性回歸吧!
1. 什麼是線性回歸?
簡單來說,線性回歸是一種尋找與給定數據擬合的最佳直線的方法,即尋找自變量和因變量之間的最佳線性關係。
用技術術語來說,線性回歸是一種機器學習算法,可以在任何給定數據上找到自變量和因變量之間的最佳線性擬合關係。 它主要通過殘差平方和方法完成。
需求機器學習技能
人工智能課程 | 畫面課程 |
自然語言處理課程 | 深度學習課程 |
2. 陳述線性回歸模型中的假設。
線性回歸模型中有三個主要假設:
- 關於模型形式的假設:
假設因變量和自變量之間存在線性關係。 它被稱為“線性假設”。 - 關於殘差的假設:
- 正態假設:假設誤差項 ε (i)是正態分佈的。
- 零均值假設:假設殘差的均值為零。
- 恆定方差假設:假設殘差項具有相同(但未知)的方差,σ 2此假設也稱為同質性或同方差性假設。
- 獨立誤差假設:假設殘差項彼此獨立,即它們的成對協方差為零。
- 關於估計量的假設:
- 自變量的測量沒有誤差。
- 自變量彼此線性獨立,即數據中不存在多重共線性。
解釋:
- 這是不言自明的。
- 如果殘差不是正態分佈的,它們的隨機性就會丟失,這意味著模型無法解釋數據中的關係。
此外,殘差的平均值應為零。
Y (i)i = β 0 + β 1 x (i) + ε (i)
這是假設的線性模型,其中 ε 是殘差項。
E(Y) = E( β 0 + β 1 x (i) + ε (i) )
= E( β 0 + β 1 x (i) + ε (i) )
如果殘差的期望(均值) E(ε (i) ) 為零,則目標變量和模型的期望變得相同,這是模型的目標之一。
殘差(也稱為誤差項)應該是獨立的。 這意味著殘差和預測值之間或殘差本身之間沒有相關性。 如果存在某種相關性,則意味著存在回歸模型無法識別的某種關係。 - 如果自變量彼此不是線性獨立的,則最小二乘解(或正態方程解)的唯一性就喪失了。
加入來自世界頂級大學的在線人工智能課程——碩士、高管研究生課程和 ML 和 AI 高級證書課程,以加快您的職業生涯。
3.什麼是特徵工程? 在建模過程中如何應用它?
特徵工程是將原始數據轉換為特徵的過程,這些特徵可以更好地代表預測模型的潛在問題
,從而提高了對看不見的數據的模型準確性。
通俗地說,特徵工程意味著開發新特徵,可以幫助您以更好的方式理解和建模問題。 特徵工程有兩種類型——業務驅動和數據驅動。 業務驅動的特徵工程從業務角度圍繞包含特徵展開。 這裡的工作是將業務變量轉換為問題的特徵。 在數據驅動的特徵工程的情況下,您添加的特徵沒有任何重要的物理解釋,但它們有助於模型預測目標變量。
僅供參考:免費的 nlp 課程!
要應用特徵工程,必須完全熟悉數據集。 這涉及了解給定數據是什麼,它表示什麼,原始特徵是什麼等。您還必須對問題有一個清晰的概念,例如哪些因素會影響目標變量,變量的物理解釋是什麼, ETC。
4. 正則化有什麼用? 解釋 L1 和 L2 正則化。
正則化是一種用於解決模型過度擬合問題的技術。 當在訓練數據上實現一個非常複雜的模型時,它會過擬合。 有時,簡單模型可能無法概括數據並且複雜模型會過擬合。 為了解決這個問題,使用了正則化。
正則化只不過是將係數項(beta)添加到成本函數中,以使這些項受到懲罰並且幅度很小。 這本質上有助於捕捉數據中的趨勢,同時通過不讓模型變得過於復雜來防止過度擬合。
- L1 或 LASSO 正則化:在這裡,係數的絕對值被添加到成本函數中。 這可以從以下等式中看出; 突出顯示的部分對應於 L1 或 LASSO 正則化。 這種正則化技術給出了稀疏的結果,這也導致了特徵選擇。
- L2 或 Ridge 正則化:在這裡,係數的平方被添加到成本函數中。 這可以在以下等式中看到,其中突出顯示的部分對應於 L2 或 Ridge 正則化。
5、如何選擇參數學習率(α)的取值?
選擇學習率的值是一件棘手的事情。 如果值太小,梯度下降算法需要很長時間才能收斂到最優解。 另一方面,如果學習率的值很高,梯度下降將超過最優解,並且很可能永遠不會收斂到最優解。
為了克服這個問題,您可以在一系列值上嘗試不同的 alpha 值,並繪製成本與迭代次數的關係圖。 然後,基於圖表,可以選擇與顯示快速下降的圖表對應的值。
上述圖表是理想成本與迭代次數的關係曲線。 請注意,成本最初隨著迭代次數的增加而降低,但在某些迭代之後,梯度下降收斂並且成本不再降低。
如果你看到成本隨著迭代次數的增加而增加,那麼你的學習率參數很高,需要降低它。
6、如何選擇正則化參數(λ)的取值?
選擇正則化參數是一件棘手的事情。 如果 λ 的值過高,會導致回歸係數 β 的值過小,從而導致模型欠擬合(高偏差 - 低方差)。 另一方面,如果 λ 的值為 0(非常小),則模型將傾向於過度擬合訓練數據(低偏差 - 高方差)。
沒有合適的方法來選擇 λ 的值。 您可以做的是擁有一個數據子樣本,並在不同的集合上多次運行該算法。 在這裡,人們必須決定可以容忍多少變化。 一旦用戶對方差感到滿意,就可以為整個數據集選擇 λ 值。
需要注意的一點是,此處選擇的 λ 值對於該子集是最佳的,而不是對於整個訓練數據。
7. 我們可以使用線性回歸進行時間序列分析嗎?
可以使用線性回歸進行時間序列分析,但結果並不樂觀。 因此,一般不建議這樣做。 這背後的原因是——
- 時間序列數據主要用於預測未來,但線性回歸很少為未來預測提供好的結果,因為它並不意味著外推。
- 大多數情況下,時間序列數據具有某種模式,例如在高峰時段、節日季節等,這很可能在線性回歸分析中被視為異常值。
8. 線性回歸的殘差之和接近什麼值? 證明合法。
Ans線性回歸的殘差之和為 0。線性回歸的工作假設是誤差(殘差)呈正態分佈,均值為 0,即
Y = β T X + ε
這裡,Y 是目標或因變量,
β是回歸係數的向量,
X 是包含所有特徵作為列的特徵矩陣,
ε 是殘差項,使得ε ~ N(0,σ 2 )。
因此,所有殘差的總和是殘差的期望值乘以數據點的總數。 由於殘差的期望為 0,因此所有殘差項的總和為零。
注:N(μ,σ 2 ) 是具有均值 μ 和標準偏差 σ 2的正態分佈的標準符號。
9. 多重共線性如何影響線性回歸?
Ans多重共線性發生在一些自變量彼此高度相關(正或負)時。 這種多重共線性會導致一個問題,因為它違背了線性回歸的基本假設。 多重共線性的存在不會影響模型的預測能力。 因此,如果您只需要預測,多重共線性的存在不會影響您的輸出。 但是,如果您想從模型中汲取一些見解並將其應用到某些業務模型中,則可能會出現問題。
多重共線性導致的主要問題之一是它會導致錯誤的解釋並提供錯誤的見解。 如果一個特徵改變一個單位,線性回歸的係數表明目標值的平均變化。 因此,如果存在多重共線性,這並不成立,因為改變一個特徵會導致相關變量發生變化,從而導致目標變量發生變化。 這會導致錯誤的見解,並可能對企業產生危險的結果。
處理多重共線性的一種非常有效的方法是使用 VIF(方差膨脹因子)。 特徵的 VIF 值越高,該特徵的線性相關性越高。 只需刪除 VIF 值非常高的特徵,然後在剩餘的數據集上重新訓練模型。
10.線性回歸的範式(方程)是什麼? 什麼時候應該優先於梯度下降法?
線性回歸的正規方程是 -
β=(X T X) -1 。 X T Y
這裡, Y=β T X是線性回歸的模型,
Y是目標或因變量,
β是回歸係數的向量,使用正規方程得出,
X是包含所有特徵作為列的特徵矩陣。
請注意, X矩陣的第一列由全 1 組成。 這是為了合併回歸線的偏移值。
梯度下降與正規方程的比較:
梯度下降 | 正規方程 |
需要對 alpha 進行超參數調整(學習參數) | 沒有這種需要 |
這是一個迭代的過程 | 這是一個非迭代過程 |
O(kn 2 )時間複雜度 | 由於X T X的評估, O(n 3 ) 時間複雜度 |
當 n 非常大時首選 | 對於較大的 n 值變得非常慢 |
這裡,“ k ”是梯度下降的最大迭代次數,“ n ”是訓練集中數據點的總數。
顯然,如果我們有大量訓練數據,則不推薦使用正規方程。 對於' n '的小值,正規方程比梯度下降更快。
什麼是機器學習及其重要性
11. 你在數據的不同子集上運行回歸,在每個子集中,某個變量的 beta 值變化很大。 這裡可能是什麼問題?
這種情況意味著數據集是異構的。 因此,為了克服這個問題,應該將數據集聚類為不同的子集,然後為每個聚類構建單獨的模型。 處理這個問題的另一種方法是使用非參數模型,例如決策樹,它可以非常有效地處理異構數據。
12. 你的線性回歸沒有運行,並表明回歸係數的最佳估計數是無限的。 有什麼問題?
當某些變量之間存在完美的相關性(正或負)時,就會出現這種情況。 在這種情況下,係數沒有唯一值,因此出現了給定條件。
13. 調整後的 R 2是什麼意思? 它與 R 2有何不同?
調整後的 R 2與 R 2一樣,代表回歸線周圍的點數。 也就是說,它顯示了模型對訓練數據的擬合程度。 調整後的 R 2的公式 是 -
這裡,n 是數據點的數量,k 是特徵的數量。
R 2的一個缺點 是它總是會隨著新功能的添加而增加,無論新功能是否有用。 調整後的 R 2 克服了這個缺點。 僅當新添加的特徵在模型中發揮重要作用時,調整後的 R 2的值才會增加。
14. 你如何解釋殘差與擬合值曲線?
殘差與擬合值圖用於查看預測值和殘差是否具有相關性。 如果殘差呈正態分佈,均值圍繞擬合值且方差恆定,則我們的模型運行良好; 否則,模型存在一些問題。
在大範圍的數據集上訓練模型時最常見的問題是異方差性(這在下面的答案中進行了解釋)。 通過繪製殘差與擬合值曲線可以很容易地看出異方差的存在。
15.什麼是異方差? 後果是什麼,如何克服?
當不同的子群體具有不同的變異性(標準差)時,隨機變量被稱為異方差。
異方差的存在在回歸分析中引起了某些問題,因為假設表明誤差項是不相關的,因此方差是恆定的。 異方差的存在通常可以通過殘差與擬合值的錐形散點圖的形式看到。
線性回歸的基本假設之一是數據中不存在異方差性。 由於違反假設,普通最小二乘 (OLS) 估計器不是最佳線性無偏估計器 (BLUE)。 因此,與其他線性無偏估計器 (LUE) 相比,它們沒有給出最小的方差。
沒有固定的程序來克服異方差性。 但是,有一些方法可能會導致異方差性降低。 他們是 -
- 對數據進行對數化:呈指數增長的序列通常會導致變異性增加。 這可以使用對數轉換來克服。
- 使用加權線性回歸:這裡,OLS 方法應用於 X 和 Y 的加權值。一種方法是附加與因變量的大小直接相關的權重。
16. 什麼是 VIF? 你是怎麼計算的?
方差膨脹因子 (VIF) 用於檢查數據集中是否存在多重共線性。 計算如下——
這裡,VIF j是第 j個變量的 VIF 值,
Rj 2 是當該變量針對所有其他自變量進行回歸時模型的 R 2值。
如果變量的 VIF 值較高,則意味著 R 2 相應模型的值很高,即其他自變量能夠解釋該變量。 簡單來說,變量線性依賴於其他一些變量。
17. 你怎麼知道線性回歸適用於任何給定的數據?
要查看線性回歸是否適用於任何給定數據,可以使用散點圖。 如果關係看起來是線性的,我們可以選擇線性模型。 但如果不是這樣,我們必須應用一些變換來使關係線性化。 在簡單或單變量線性回歸的情況下,繪製散點圖很容易。 但在多元線性回歸的情況下,可以繪製二維成對散點圖、旋轉圖和動態圖。
18. 如何在線性回歸中使用假設檢驗?
假設檢驗可以在線性回歸中進行,目的如下:
- 檢查預測變量對目標變量的預測是否顯著。 兩種常見的方法是——
- 通過使用 p 值:
如果變量的 p 值大於某個限制(通常為 0.05),則該變量在目標變量的預測中不顯著。 - 通過檢查回歸係數的值:
如果一個預測變量對應的回歸係數的值為零,則該變量在目標變量的預測中不顯著,與其沒有線性關係。
- 通過使用 p 值:
- 檢查計算的回歸係數是否是實際係數的良好估計量。
19. 解釋關於線性回歸的梯度下降。
梯度下降是一種優化算法。 在線性回歸中,它用於優化成本函數並找到與成本函數的優化值對應的βs(估計量)的值。
梯度下降就像一個球滾下圖形(忽略慣性)。 球沿著最大坡度的方向移動並停在平坦表面(最小值)。
在數學上,線性回歸的梯度下降的目的是找到
ArgMin J(Θ 0 ,Θ 1 ),其中 J(Θ 0 ,Θ 1 ) 是線性回歸的成本函數。 它是由——
這裡, h是線性假設模型,h=Θ 0 + Θ 1 x, y是真實輸出, m是訓練集中數據點的個數。
梯度下降從一個隨機解開始,然後根據梯度的方向,將解更新為成本函數具有較低值的新值。
更新是:
重複直到收斂
20. 你如何解釋線性回歸模型?
線性回歸模型很容易解釋。 該模型具有以下形式:
這個模型的意義在於人們可以很容易地解釋和理解邊際變化及其後果。 例如,如果x 0的值增加 1 個單位,保持其他變量不變,則y值的總增加量將是β i 。 在數學上,截距項 ( β 0 ) 是當所有預測項都設置為零或不考慮時的響應。
這 6 種機器學習技術正在改善醫療保健
21. 什麼是穩健回歸?
回歸模型本質上應該是穩健的。 這意味著隨著一些觀察值的變化,模型不應發生劇烈變化。 此外,它不應該受到異常值的太大影響。
具有 OLS(普通最小二乘法)的回歸模型對異常值非常敏感。 為了克服這個問題,我們可以使用 WLS(加權最小二乘法)方法來確定回歸係數的估計量。 在這裡,擬合中的離群值或高槓桿點被賦予較少的權重,從而降低了這些點的影響。
22. 模型擬合前建議觀察哪些圖表?
在擬合模型之前,必須對數據有充分的了解,比如變量中的趨勢、分佈、偏度等是什麼。 可以使用直方圖、箱線圖和點圖等圖形來觀察變量的分佈。 除此之外,還必須分析因變量和自變量之間的關係。 這可以通過散點圖(在單變量問題的情況下)、旋轉圖、動態圖等來完成。
23. 什麼是廣義線性模型?
廣義線性模型是普通線性回歸模型的導數。 GLM 在殘差方面更靈活,可用於線性回歸似乎不合適的地方。 GLM 允許殘差分佈不同於正態分佈。 它通過允許線性模型使用鏈接函數鏈接到目標變量來概括線性回歸。 模型估計是使用最大似然估計的方法完成的。
24. 解釋偏差-方差權衡。
偏差是指模型預測的值與實際值之間的差異。 這是一個錯誤。 ML 算法的目標之一是具有低偏差。
方差是指模型對訓練數據集中小波動的敏感度。 ML 算法的另一個目標是具有低方差。
對於不完全線性的數據集,不可能同時具有低偏差和方差。 直線模型將具有低方差但高偏差,而高次多項式將具有低偏差但高方差。
在機器學習中,偏差和方差之間的關係是不可避免的。
- 減少偏差會增加方差。
- 減小方差會增加偏差。
因此,兩者之間存在權衡; ML 專家必鬚根據分配的問題決定可以容忍多少偏差和方差。 在此基礎上,構建最終模型。
25. 學習曲線如何幫助創建更好的模型?
學習曲線表明存在過擬合或欠擬合。
在學習曲線中,針對訓練數據點的數量繪製了訓練誤差和交叉驗證誤差。 典型的學習曲線如下所示:
如果訓練誤差和真實誤差(交叉驗證誤差)收斂到相同的值,並且對應的誤差值很高,則表明模型欠擬合,存在高偏差。
機器學習面試以及如何應對
機器學習面試可以根據類型或類別而有所不同,例如一些招聘人員會問許多線性回歸面試問題。 在面試機器學習工程師的角色時,他們可以專注於編碼、研究、案例研究、項目管理、演示、系統設計和統計等類別。 我們將重點介紹最常見的類別類型以及如何為它們做準備。
- 編碼
編碼和編程是機器學習面試的重要組成部分,經常用於篩選申請人。 要在這些面試中表現出色,您需要具備紮實的編程能力。 編碼面試通常需要 45 到 60 分鐘,並且只有兩個問題。 面試官提出這個話題,並預計申請人會在盡可能短的時間內解決這個問題。
如何準備——您可以通過充分了解數據結構、時間和空間的複雜性、管理技能以及理解和解決問題的能力來為這些面試做準備。 upGrad有一門很棒的軟件工程課程,可以幫助您提高編碼技能並在面試中取得成功。
2.機器學習
您對機器學習的理解將通過面試進行評估。 根據就業需要,可能會涵蓋卷積層、循環神經網絡、生成對抗網絡、語音識別和其他主題。
如何準備 - 為了能夠在這次面試中取得好成績,您必須確保您對工作角色和職責有透徹的了解。 這將幫助您確定必須研究的 ML 規範。 但是,如果您沒有遇到任何規範,則必須深入了解基礎知識。 upGrad提供的深度學習 ML 課程可以幫助您。 您還可以研究有關 ML 和 AI 的最新文章以了解它們的最新趨勢,並且您可以定期將它們納入其中。
3.篩選
這次採訪有點非正式,通常是採訪的初始點之一。 未來的雇主通常會處理它。 這次面試的主要目標是讓申請人了解業務、角色和職責。 在更非正式的氣氛中,候選人也會被詢問他們的過去,以確定他們感興趣的領域是否與職位相匹配。
如何準備——這是面試中非常非技術性的部分。 所有這一切都需要你的誠實和你在機器學習方面的專業基礎。
4. 系統設計
這樣的訪談從頭到尾測試一個人創建完全可擴展的解決方案的能力。 大多數工程師都專注於一個問題,以至於他們經常忽略更廣泛的情況。 系統設計面試要求了解結合起來產生解決方案的眾多元素。 這些元素包括前端佈局、負載平衡器、緩存等。 當這些問題得到充分理解時,一個有效且可擴展的端到端系統就更容易開發。
如何準備——了解系統設計項目的概念和組件。 使用現實生活中的例子向面試官解釋結構,以便更好地理解項目。
流行的機器學習和人工智能博客
物聯網:歷史、現在和未來 | 機器學習教程:學習機器學習 | 什麼是算法? 簡單易行 |
印度機器人工程師的薪水:所有角色 | 機器學習工程師的一天:他們在做什麼? | 什麼是物聯網(物聯網) |
排列與組合:排列與組合之間的區別 | 人工智能和機器學習的 7 大趨勢 | 使用 R 進行機器學習:您需要知道的一切 |
如果訓練和交叉驗證誤差的收斂值之間存在顯著差距,即交叉驗證誤差顯著高於訓練誤差,則表明模型過度擬合訓練數據並且存在高方差.
機器學習工程師:神話與現實
這就是本系列的第一部分的結尾。 繼續閱讀本系列的下一部分,其中包括基於邏輯回歸的問題。 隨時發表您的評論。
合著者 – Ojas Agarwal
您可以查看我們的機器學習和人工智能執行 PG 計劃,該計劃提供實用的實踐研討會、一對一的行業導師、12 個案例研究和作業、IIIT-B 校友身份等。
你對正則化的理解是什麼?
正則化是處理模型過擬合問題的一種策略。 當將復雜的模型應用於訓練數據時,就會發生過擬合。 基本模型有時可能無法泛化數據,複雜模型可能會過度擬合數據。 正則化用於緩解這個問題。 正則化是將係數項(beta)添加到最小化問題的過程,以使這些項受到懲罰並具有適度的幅度。 這本質上有助於識別數據模式,同時還通過防止模型變得過於復雜來防止過度擬合。
你對特徵工程了解多少?
將原始數據更改為能夠更好地描述預測模型的潛在問題的特徵的過程,從而提高了對看不見的數據的模型準確性,稱為特徵工程。 通俗地說,特徵工程是指創建額外的特徵,這些特徵可能有助於更好地理解和建模問題。 特徵工程有兩種類型:業務驅動和數據驅動。 從商業角度整合特徵是業務驅動的特徵工程的重點。
什麼是偏差-方差權衡?
模型預測值與實際值之間的差距稱為偏差。 這是一個錯誤。 低偏差是 ML 算法的目標之一。 模型對訓練數據集微小變化的脆弱性稱為方差。 低方差是 ML 算法的另一個目標。 在不是完全線性的數據集中不可能同時具有低偏差和低方差。 直線模型的方差低,但偏差大,而高次多項式的方差低,但偏差大。 在機器學習中,偏差和變異之間的聯繫是不可避免的。