25 기계 학습 인터뷰 질문 및 답변 - 선형 회귀

게시 됨: 2022-09-08

인터뷰에서 일반적으로 사용되는 기계 학습 알고리즘에 대해 데이터 과학 지망생을 테스트하는 것은 일반적인 관행입니다. 이러한 기존 알고리즘은 선형 회귀, 로지스틱 회귀, 클러스터링, 의사 결정 트리 등입니다. 데이터 과학자는 이러한 알고리즘에 대한 심층 지식을 보유해야 합니다.

다양한 조직의 고용 관리자 및 데이터 과학자에게 문의하여 인터뷰에서 묻는 일반적인 ML 질문에 대해 알아보았습니다. 그들의 광범위한 피드백을 바탕으로 데이터 과학자 지망생의 대화를 돕기 위해 일련의 질문과 답변이 준비되었습니다. 선형 회귀 인터뷰 질문 은 기계 학습 인터뷰에서 가장 일반적입니다. 이러한 알고리즘에 대한 Q&A는 4개의 블로그 게시물 시리즈로 제공됩니다.

목차

최고의 기계 학습 과정 및 AI 과정 온라인

LJMU의 기계 학습 및 AI 과학 석사 IIITB의 기계 학습 및 AI 대학원 대학원 프로그램
IIITB의 기계 학습 및 NLP 고급 인증 프로그램 IIITB의 머신 러닝 및 딥 러닝 고급 인증 프로그램 메릴랜드 대학교 데이터 과학 및 머신 러닝의 경영자 포스트 대학원 프로그램
모든 과정을 살펴보려면 아래 페이지를 방문하십시오.
기계 학습 과정

각 블로그 게시물은 다음 주제를 다룹니다.

  1. 선형 회귀
  2. 로지스틱 회귀
  3. 클러스터링
  4. 모든 알고리즘과 관련된 의사결정 트리 및 질문

선형 회귀를 시작하겠습니다!

1. 선형 회귀란 무엇입니까?

간단히 말해서 선형 회귀는 주어진 데이터에 가장 잘 맞는 직선을 찾는 방법입니다. 즉, 독립 변수와 종속 변수 간의 최상의 선형 관계를 찾는 것입니다.
기술적인 측면에서 선형 회귀는 독립 변수와 종속 변수 사이의 주어진 데이터에서 최상의 선형 맞춤 관계를 찾는 기계 학습 알고리즘입니다. 그것은 주로 Sum of Squared Residuals 방법에 의해 수행됩니다.

주문형 머신 러닝 기술

인공 지능 과정 Tableau 과정
NLP 과정 딥 러닝 코스

2. 선형 회귀 모델에서 가정을 명시합니다.

선형 회귀 모델에는 세 가지 주요 가정이 있습니다.

  1. 모델의 형태에 대한 가정:
    종속변수와 독립변수 사이에 선형 관계가 있다고 가정합니다. 그것은 '선형성 가정'으로 알려져 있습니다.
  2. 잔차에 대한 가정:
    1. 정규성 가정: 오차 항 ε (i) 가 정규 분포를 따른다고 가정합니다.
    2. 0 평균 가정: 잔차의 평균 값이 0이라고 가정합니다.
    3. 일정한 분산 가정: 잔차 항이 동일한(그러나 알려지지 않은) 분산, σ 2 를 갖는다 고 가정합니다. 이 가정은 동질성 또는 등분산성 가정으로도 알려져 있습니다.
    4. 독립 오류 가정: 잔차 항이 서로 독립적이라고 가정합니다. 즉, 쌍별 공분산이 0입니다.
  3. 추정량에 대한 가정:
    1. 독립변수는 오차 없이 측정됩니다.
    2. 독립 변수는 서로 선형적으로 독립적입니다. 즉, 데이터에 다중 공선성이 없습니다.

설명:

  1. 이것은 자명합니다.
  2. 잔차가 정규 분포를 따르지 않으면 임의성이 손실되어 모델이 데이터의 관계를 설명할 수 없음을 의미합니다.
    또한 잔차의 평균은 0이어야 합니다.
    Y (i)i = β 0 + β 1 x (i) + ε (i)
    이것은 ε이 잔차 항인 가정된 선형 모델입니다.
    E(Y) = E( β 0 + β 1 x (i) + ε (i) )
    = E( β 0 + β 1 x (i) + ε (i) )
    잔차의 기대치(mean) E(ε (i) )가 0이면 목표변수와 모델의 기대치가 동일해지며 이는 모델의 목표 중 하나이다.
    잔차(오차 항이라고도 함)는 독립적이어야 합니다. 이는 잔차와 예측 값 사이 또는 잔차 자체 간에 상관 관계가 없음을 의미합니다. 상관관계가 있는 경우 회귀 모델이 식별할 수 없는 관계가 있음을 의미합니다.
  3. 독립 변수가 서로 선형으로 독립하지 않으면 최소 제곱 솔루션(또는 정규 방정식 솔루션)의 고유성이 손실됩니다.

세계 최고의 대학에서 온라인으로 인공 지능 과정(석사, 대학원 대학원 프로그램, ML 및 AI 고급 인증 프로그램)에 참여하여 경력을 빠르게 추적하십시오.

3. 피쳐 엔지니어링이란 무엇입니까? 모델링 과정에서 어떻게 적용하나요?

기능 엔지니어링은 원시 데이터를 예측 모델에 기본 문제를 더 잘 나타내는 기능으로 변환하는 프로세스입니다.

, 결과적으로 보이지 않는 데이터에 대한 모델 정확도가 향상되었습니다.
일반 용어로 기능 엔지니어링은 문제를 더 나은 방식으로 이해하고 모델링하는 데 도움이 될 수 있는 새로운 기능의 개발을 의미합니다. 기능 엔지니어링은 비즈니스 중심과 데이터 중심의 두 가지 종류가 있습니다. 비즈니스 중심 기능 엔지니어링은 비즈니스 관점에서 기능을 포함하는 것을 중심으로 이루어집니다. 여기서 해야 할 일은 비즈니스 변수를 문제의 특징으로 변환하는 것입니다. 데이터 기반 기능 엔지니어링의 경우 추가하는 기능은 물리적으로 중요한 해석이 없지만 모델이 대상 변수를 예측하는 데 도움이 됩니다.

참고: 무료 nlp 과정!
피처 엔지니어링을 적용하려면 데이터 세트에 대해 완전히 알고 있어야 합니다. 여기에는 주어진 데이터가 무엇인지, 데이터가 의미하는 바, 원시 기능이 무엇인지 등을 아는 것이 포함됩니다. 또한 대상 변수에 영향을 미치는 요인, 변수의 물리적 해석이 무엇인지와 같은 문제에 대한 명확한 아이디어가 있어야 합니다. , 등.

기계 학습의 5가지 획기적인 응용 프로그램

4. 정규화의 용도는 무엇입니까? L1 및 L2 정규화를 설명합니다.

정규화는 모델의 과적합 문제를 해결하는 데 사용되는 기술입니다. 매우 복잡한 모델이 훈련 데이터에 구현되면 과적합됩니다. 때때로 단순 모델은 데이터를 일반화할 수 없고 복잡한 모델은 과적합될 수 있습니다. 이 문제를 해결하기 위해 정규화가 사용됩니다.
정규화는 비용 함수에 계수 항(베타)을 추가하여 항이 불이익을 받고 크기가 작도록 하는 것입니다. 이것은 본질적으로 데이터의 추세를 포착하는 데 도움이 되며 동시에 모델이 너무 복잡해지지 않도록 하여 과적합을 방지합니다.

  • L1 또는 LASSO 정규화: 여기에서 계수의 절대값이 비용 함수에 추가됩니다. 이것은 다음 방정식에서 볼 수 있습니다. 강조 표시된 부분은 L1 또는 LASSO 정규화에 해당합니다. 이 정규화 기술은 희소한 결과를 제공하여 기능 선택으로도 이어집니다.

  • L2 또는 릿지 정규화: 여기에서 계수의 제곱이 비용 함수에 추가됩니다. 이것은 강조 표시된 부분이 L2 또는 Ridge 정규화에 해당하는 다음 방정식에서 볼 수 있습니다.

5. 매개변수 학습률(α) 값을 선택하는 방법은 무엇입니까?

학습률 값을 선택하는 것은 까다로운 작업입니다. 값이 너무 작으면 경사하강법 알고리즘이 최적의 솔루션으로 수렴하는 데 시간이 걸립니다. 반면에 학습률 값이 높으면 경사 하강법이 최적의 솔루션을 초과하여 최적의 솔루션으로 수렴하지 않을 가능성이 높습니다.
이 문제를 극복하기 위해 값 범위에 대해 다른 알파 값을 시도하고 비용 대 반복 횟수를 표시할 수 있습니다. 그런 다음 그래프를 기반으로 급격한 감소를 나타내는 그래프에 해당하는 값을 선택할 수 있습니다.

앞서 언급한 그래프는 이상적인 비용 대 반복 횟수 곡선입니다. 비용은 처음에는 반복 횟수가 증가함에 따라 감소하지만 특정 반복 후에는 경사 하강법이 수렴되고 비용이 더 이상 감소하지 않습니다.
반복 횟수에 따라 비용이 증가하는 것을 보면 학습률 매개변수가 높으므로 줄여야 합니다.

6. 정규화 매개변수(λ)의 값을 선택하는 방법은 무엇입니까?

정규화 매개변수를 선택하는 것은 까다로운 작업입니다. λ 값 이 너무 높으면 회귀 계수 β의 값이 매우 작아 모델이 과소적합됩니다(높은 편향 – 낮은 분산). 반면에 λ 값 이 0(매우 작음)이면 모델은 훈련 데이터에 과적합되는 경향이 있습니다(낮은 편향 – 높은 분산).
λ 값을 선택하는 적절한 방법이 없습니다 . 당신이 할 수 있는 일은 데이터의 하위 샘플을 갖고 다른 세트에서 알고리즘을 여러 번 실행하는 것입니다. 여기에서 사람은 얼마나 많은 편차를 허용할 수 있는지 결정해야 합니다. 사용자가 분산에 만족 하면 전체 데이터 세트에 대해 해당 λ 값을 선택할 수 있습니다.
한 가지 주목해야 할 점은 여기에서 선택한 λ 값이 전체 훈련 데이터가 아니라 해당 하위 집합에 대해 최적이라는 것입니다.

7. 시계열 분석에 선형 회귀를 사용할 수 있습니까?

시계열 분석에 선형 회귀를 사용할 수 있지만 결과는 좋지 않습니다. 따라서 일반적으로 그렇게 하는 것은 바람직하지 않습니다. 그 이유는 -

  1. 시계열 데이터는 주로 미래 예측에 사용되지만 선형 회귀는 외삽을 의미하지 않기 때문에 미래 예측에 좋은 결과를 거의 제공하지 않습니다.
  2. 대부분 시계열 데이터에는 피크 시간, 축제 시즌 등과 같은 패턴이 있으며 선형 회귀 분석에서 이상값으로 처리될 가능성이 가장 높습니다.

8. 선형 회귀에 가까운 잔차의 합은 얼마입니까? 신이 옳다고 하다.

Ans 선형 회귀의 잔차의 합은 0입니다. 선형 회귀는 오류(잔차)가 평균이 0인 정규 분포라는 가정에서 작동합니다. 즉,

Y = β T X + ε

여기서 Y는 목표 변수 또는 종속 변수입니다.
β 는 회귀 계수의 벡터이고,
X는 모든 특징을 열로 포함하는 특징 행렬이고,
ε은 ε ~ N(0,σ 2 )인 잔차 항입니다.
따라서 모든 잔차의 합은 잔차의 기대값에 총 데이터 포인트 수를 곱한 것입니다. 잔차의 기대치가 0이므로 모든 잔차 항의 합은 0입니다.
참고 : N(μ,σ 2 )은 평균 μ와 표준편차 σ 2 를 갖는 정규 분포에 대한 표준 표기법입니다 .

9. 다중 공선성은 선형 회귀에 어떤 영향을 줍니까?

Ans 다중 공선성은 일부 독립 변수가 서로 높은 상관 관계(양 또는 음)일 때 발생합니다. 이러한 다중공선성은 선형회귀의 기본가정에 어긋나는 문제이다. 다중 공선성의 존재는 모델의 예측 능력에 영향을 미치지 않습니다. 따라서 예측만 원하는 경우 다중 공선성의 존재는 출력에 영향을 미치지 않습니다. 그러나 모델에서 일부 통찰력을 끌어내고 이를 일부 비즈니스 모델에 적용하려는 경우 문제가 발생할 수 있습니다.
다중공선성으로 인해 발생하는 주요 문제 중 하나는 잘못된 해석으로 이어지며 잘못된 통찰력을 제공한다는 것입니다. 선형 회귀 계수는 특성이 한 단위 변경될 경우 목표 값의 평균 변화를 나타냅니다. 따라서 다중 공선성이 존재하는 경우 하나의 특성을 변경하면 상관 변수가 변경되고 결과적으로 대상 변수가 변경되므로 이는 사실이 아닙니다. 이는 잘못된 통찰력으로 이어지고 비즈니스에 위험한 결과를 초래할 수 있습니다.
다중 공선성을 처리하는 매우 효과적인 방법은 VIF(Variance Inflation Factor)를 사용하는 것입니다. 기능에 대한 VIF 값이 높을수록 해당 기능은 더 선형적으로 상관됩니다. VIF 값이 매우 높은 기능을 제거하고 나머지 데이터 세트에서 모델을 다시 훈련시키기만 하면 됩니다.

10. 선형 회귀의 정규형(방정식)은 무엇입니까? 경사하강법보다 언제 선호해야 합니까?

선형 회귀에 대한 정규 방정식은 다음과 같습니다.

β=( XTX ) -1 . X T Y

여기서 Y=β T X 는 선형회귀모형이고,
Y 는 목표 또는 종속 변수이고,
β 는 정규식을 이용하여 구한 회귀계수의 벡터이며,
X 는 모든 기능을 열로 포함하는 기능 행렬입니다.
여기서 X 행렬의 첫 번째 열은 모두 1로 구성됩니다. 회귀선에 대한 오프셋 값을 통합하기 위한 것입니다.
경사하강법과 일반 방정식의 비교:

경사하강법 정규 방정식
알파에 대한 하이퍼파라미터 튜닝 필요(학습 파라미터) 그런 필요 없음
반복적인 과정이다 비반복적인 과정이다
O(kn 2 ) 시간 복잡도 O(n 3 ) X T X 평가로 인한 시간 복잡도
n이 매우 클 때 선호 n의 큰 값에 대해 상당히 느려집니다.

여기서 ' k '는 경사하강법의 최대 반복 횟수이고 ' n '은 훈련 세트의 총 데이터 포인트 수입니다.
분명히 큰 훈련 데이터가 있는 경우 정규 방정식을 사용하는 것이 선호되지 않습니다. ' n ' 값이 작으면 정규 방정식이 경사하강법보다 빠릅니다.
머신 러닝이란 무엇이며 중요한 이유

11. 데이터의 여러 하위 집합에 대해 회귀 분석을 실행하고 각 하위 집합에서 특정 변수의 베타 값이 크게 다릅니다. 여기서 문제가 될 수 있는 것은 무엇입니까?

이 경우는 데이터세트가 이질적임을 의미합니다. 따라서 이 문제를 극복하기 위해서는 데이터셋을 서로 다른 부분집합으로 클러스터링한 다음 클러스터별로 별도의 모델을 구축해야 합니다. 이 문제를 처리하는 또 다른 방법은 이기종 데이터를 매우 효율적으로 처리할 수 있는 의사결정나무와 같은 비모수 모델을 사용하는 것입니다.

12. 선형 회귀가 실행되지 않고 회귀 계수에 대한 최상의 추정치가 무한하다는 것을 알립니다. 무엇이 잘못되었을 수 있습니까?

이 조건은 일부 변수 간에 완벽한 상관 관계(양수 또는 음수)가 있을 때 발생합니다. 이 경우 계수에 고유한 값이 없으므로 주어진 조건이 발생합니다.

13. 조정된 R 2 는 무엇을 의미 합니까? R2와 어떻게 다른 가요 ?

조정된 R 2 는 R 2 와 마찬가지로 회귀선 주위에 있는 점의 수를 나타냅니다. 즉, 모델이 훈련 데이터에 얼마나 잘 맞는지를 보여줍니다. 조정된 R 2 의 공식 이다 -

여기서 n은 데이터 포인트의 수이고 k는 특징의 수입니다.
R 2 의 한 가지 단점 새로운 기능이 유용한지 여부에 관계없이 새로운 기능이 추가되면 항상 증가한다는 것입니다. 조정된 R 2 이 단점을 극복합니다. 수정된 R 2 의 값은 새로 추가된 기능이 모델에서 중요한 역할을 하는 경우에만 증가합니다.

14. 잔차 대 적합치 곡선을 어떻게 해석합니까?

잔차 대 적합치 도표는 예측된 값과 잔차가 상관관계가 있는지 여부를 확인하는 데 사용됩니다. 잔차가 적합치 주변의 평균과 일정한 분산으로 정상적으로 분포하면 모델이 제대로 작동하는 것입니다. 그렇지 않으면 모델에 문제가 있습니다.
광범위한 데이터 세트에 대해 모델을 훈련할 때 찾을 수 있는 가장 일반적인 문제는 이분산성 입니다(아래 답변에 설명되어 있음). 이분산성의 존재는 잔차 대 적합치 곡선을 도표화하여 쉽게 볼 수 있습니다.

15. 이분산성이란 무엇입니까? 그 결과는 무엇이며 어떻게 극복할 수 있습니까?

다른 하위 모집단이 다른 변동성을 가질 때 확률 변수는 이분산적이라고 합니다(표준 편차).
이분산성의 존재는 오차항이 상관관계가 없고 따라서 분산이 일정하다는 가정에 따라 회귀 분석에서 특정 문제를 야기합니다. 이분산성의 존재는 종종 잔차 대 적합값에 대한 원뿔형 산점도의 형태로 볼 수 있습니다.
선형 회귀의 기본 가정 중 하나는 데이터에 이분산성이 존재하지 않는다는 것입니다. 가정 위반으로 인해 OLS(Ordinary Least Squares) 추정량은 BLUE(Best Linear Unbiased Estimators)가 아닙니다. 따라서 다른 LUE(Linear Unbiased Estimator)보다 최소 분산을 제공하지 않습니다.
이분산성을 극복하기 위한 고정된 절차는 없습니다. 그러나 이분산성을 감소시킬 수 있는 몇 가지 방법이 있습니다. 그들은 -

  1. 데이터 대수화: 기하급수적으로 증가하는 계열은 종종 변동성을 증가시킵니다. 이것은 로그 변환을 사용하여 극복할 수 있습니다.
  2. 가중 선형 회귀 사용: 여기에서 OLS 방법은 X와 Y의 가중 값에 적용됩니다. 한 가지 방법은 종속 변수의 크기와 직접 관련된 가중치를 첨부하는 것입니다.
비지도 머신 러닝은 어떻게 작동합니까?

16. VIF란 무엇입니까? 어떻게 계산합니까?

VIF(Variance Inflation Factor)는 데이터 세트에서 다중 공선성의 존재를 확인하는 데 사용됩니다. 다음과 같이 계산됩니다.
여기서 VIF j 는 j 번째 변수에 대한 VIF의 값이고,
R j 2 해당 변수가 다른 모든 독립 변수에 대해 회귀될 때 모델 의 R 2 값입니다.
VIF 값이 변수에 대해 높으면 R 2 해당 모델의 값이 높음, 즉 다른 독립 변수가 해당 변수를 설명할 수 있습니다. 간단히 말해서 변수는 일부 다른 변수에 선형적으로 종속됩니다.

17. 선형 회귀가 주어진 데이터에 적합하다는 것을 어떻게 알 수 있습니까?

선형 회귀가 주어진 데이터에 적합한지 확인하기 위해 산점도를 사용할 수 있습니다. 관계가 선형으로 보이면 선형 모델을 사용할 수 있습니다. 그러나 그렇지 않은 경우 관계를 선형으로 만들기 위해 몇 가지 변환을 적용해야 합니다. 단순 또는 일변량 선형 회귀의 경우 산점도를 그리는 것은 쉽습니다. 그러나 다변량 선형 회귀의 경우 2차원 쌍별 산점도, 회전 플롯 및 동적 그래프를 그릴 수 있습니다.

18. 선형 회귀에서 가설 테스트는 어떻게 사용됩니까?

가설 검정은 다음 목적을 위해 선형 회귀에서 수행할 수 있습니다.

  1. 예측 변수가 목표 변수의 예측에 유의한지 여부를 확인합니다. 이에 대한 두 가지 일반적인 방법은 다음과 같습니다.
    1. p-값을 사용하여:
      변수의 p-값이 특정 한계(보통 0.05)보다 크면 대상 변수의 예측에서 변수가 중요하지 않습니다.
    2. 회귀 계수 값을 확인하여:
      예측변수에 해당하는 회귀계수의 값이 0이면 그 변수는 목표변수의 예측에서 중요하지 않고 선형관계가 없다.
  2. 계산된 회귀 계수가 실제 계수의 좋은 추정량인지 확인합니다.

19. 선형 회귀에 대한 경사하강법을 설명하십시오.

경사하강법은 최적화 알고리즘입니다. 선형 회귀에서는 비용 함수를 최적화하고 비용 함수의 최적화된 값에 해당하는 β(추정기) 값을 찾는 데 사용됩니다.
경사하강법은 그래프를 굴러가는 공처럼 작동합니다(관성은 무시). 공은 가장 큰 기울기 방향을 따라 이동하고 평평한 표면(최소값)에 정지합니다.

수학적으로 선형 회귀에 대한 경사하강법의 목적은 다음의 해를 찾는 것입니다.
ArgMin J(Θ 0 1 ), 여기서 J(Θ 0 1 )는 선형 회귀의 비용 함수입니다. 그것은에 의해 주어진다 -

여기서 h 는 선형 가설 모델입니다. h=Θ 0 + Θ 1 x, y 는 실제 출력 이고 m 은 훈련 세트의 데이터 포인트 수입니다.
Gradient Descent는 임의의 솔루션으로 시작한 다음 그래디언트의 방향에 따라 비용 함수가 더 낮은 값을 갖는 새 값으로 솔루션이 업데이트됩니다.
업데이트는 다음과 같습니다.
수렴될 때까지 반복

20. 선형 회귀 모델을 어떻게 해석합니까?

선형 회귀 모델은 해석하기가 매우 쉽습니다. 모델은 다음과 같은 형식입니다.

이 모델의 중요성은 한계 변화와 그 결과를 쉽게 해석하고 이해할 수 있다는 사실에 있습니다. 예를 들어, 다른 변수를 일정하게 유지하면서 x 0 값이 1단위 증가하면 y 값의 총 증가량은 β i 가 됩니다 . 수학적으로 절편 항( β 0 )은 모든 예측 변수가 0으로 설정되거나 고려되지 않을 때의 응답입니다.
이 6가지 머신 러닝 기술은 의료 서비스를 개선합니다

21. 로버스트 회귀란 무엇입니까?

회귀 모델은 본질적으로 강건해야 합니다. 이것은 몇 가지 관측값이 변경되더라도 모델이 크게 변경되지 않아야 함을 의미합니다. 또한 이상치의 영향을 많이 받지 않아야 합니다.
OLS(Ordinary Least Squares)가 있는 회귀 모델은 이상값에 매우 민감합니다. 이 문제를 극복하기 위해 WLS(Weighted Least Squares) 방법을 사용하여 회귀 계수의 추정치를 결정할 수 있습니다. 여기에서 피팅의 이상치 또는 높은 레버리지 포인트에 더 적은 가중치가 부여되어 이러한 포인트가 덜 영향을 받습니다.

22. Model Fitting 전에 관찰할 것을 제안하는 그래프는?

모델을 피팅하기 전에 변수의 추세, 분포, 왜도 등이 무엇인지와 같은 데이터를 잘 알고 있어야 합니다. 히스토그램, 상자 그림 및 점 그림과 같은 그래프를 사용하여 변수의 분포를 관찰할 수 있습니다. 이 외에도 종속변수와 독립변수의 관계가 무엇인지도 분석해야 합니다. 이것은 산점도(일변량 문제의 경우), 회전 플롯, 동적 플롯 등으로 수행할 수 있습니다.

23. 일반화 선형 모델이란 무엇입니까?

일반화 선형 모델은 일반 선형 회귀 모델의 파생물입니다. GLM은 잔차 측면에서 더 유연하며 선형 회귀가 적절하지 않은 경우 사용할 수 있습니다. GLM을 사용하면 정규 분포가 아닌 잔차 분포를 사용할 수 있습니다. 연결 기능을 사용하여 선형 모델이 대상 변수에 연결되도록 하여 선형 회귀를 일반화합니다. 모델 추정은 최대 우도 추정 방법을 사용하여 수행됩니다.

24. 편향-분산 트레이드오프를 설명하십시오.

편향은 모델에서 예측한 값과 실제 값의 차이를 나타냅니다. 오류입니다. ML 알고리즘의 목표 중 하나는 낮은 편향을 갖는 것입니다.
분산은 훈련 데이터 세트의 작은 변동에 대한 모델의 민감도를 나타냅니다. ML 알고리즘의 또 다른 목표는 낮은 분산을 갖는 것입니다.
정확히 선형이 아닌 데이터 세트의 경우 바이어스와 분산이 동시에 낮을 수 없습니다. 직선 모델은 분산은 낮지만 편향이 높은 반면, 고차 다항식은 편향은 낮지만 분산은 높습니다.
기계 학습에서 편향과 분산 사이의 관계는 피할 수 없습니다.

  1. 편향을 줄이면 분산이 증가합니다.
  2. 분산을 줄이면 편향이 증가합니다.

따라서 둘 사이에는 트레이드 오프가 있습니다. ML 전문가는 할당된 문제를 기반으로 얼마나 많은 편향과 분산을 허용할 수 있는지 결정해야 합니다. 이를 기반으로 최종 모델이 구축됩니다.

25. 학습 곡선이 더 나은 모델을 만드는 데 어떻게 도움이 됩니까?

학습 곡선은 과적합 또는 과소적합의 존재를 나타냅니다.
학습 곡선에서 학습 오류 및 교차 검증 오류는 학습 데이터 포인트 수에 대해 표시됩니다. 일반적인 학습 곡선은 다음과 같습니다.

훈련 오차와 참 오차(교차 검증 오차)가 같은 값으로 수렴하고 해당 오차 값이 높으면 모델이 과소적합되고 높은 편향을 겪고 있음을 나타냅니다.

머신 러닝 인터뷰 및 이를 에이스하는 방법

기계 학습 인터뷰는 유형이나 범주에 따라 다를 수 있습니다. 예를 들어 소수의 채용 담당자가 많은 선형 회귀 인터뷰 질문 을 합니다. 기계 학습 엔지니어 인터뷰의 역할을 할 때 코딩, 연구, 사례 연구, 프로젝트 관리, 프레젠테이션, 시스템 설계 및 통계와 같은 범주를 전문으로 할 수 있습니다. 우리는 가장 일반적인 유형의 범주와 범주를 준비하는 방법에 중점을 둘 것입니다.

  1. 코딩

코딩 및 프로그래밍은 기계 학습 인터뷰의 중요한 구성 요소이며 지원자를 선별하는 데 자주 사용됩니다. 이 인터뷰에서 잘 하려면 탄탄한 프로그래밍 능력이 필요합니다. 코딩 인터뷰는 일반적으로 45~60분 동안 진행되며 단 2개의 질문으로 구성됩니다. 면접관은 주제를 제시하고 지원자가 가능한 한 최소한의 시간에 그 주제를 다룰 것이라고 예상합니다.

준비 방법 – 데이터 구조, 시간과 공간의 복잡성, 관리 기술, 문제를 이해하고 해결하는 능력에 대한 충분한 이해를 통해 이러한 인터뷰를 준비할 수 있습니다. upGrad 에는 코딩 기술을 향상하고 면접에 성공하는 데 도움이 되는 훌륭한 소프트웨어 엔지니어링 과정이 있습니다.

2. 머신러닝

기계 학습에 대한 이해도는 인터뷰를 통해 평가됩니다. 컨볼루션 계층, 순환 신경망, 생성적 적대 네트워크, 음성 인식 및 기타 주제는 고용 필요에 따라 다룰 수 있습니다.

준비 방법 – 이 인터뷰에 성공하려면 직무와 책임을 철저히 이해해야 합니다. 이것은 공부해야 하는 ML의 사양을 식별하는 데 도움이 됩니다. 그러나 어떤 사양도 만나지 않으면 기본 사항을 깊이 이해해야 합니다. upGrad가 제공하는 ML에 대한 심층 과정이 도움이 될 수 있습니다. 또한 ML 및 AI에 대한 최신 기사연구하여 최신 동향을 이해하고 정기적으로 통합할 수 있습니다.

3. 심사

이 인터뷰는 다소 비공식적이며 일반적으로 인터뷰의 초기 포인트 중 하나입니다. 장래 고용주가 종종 그것을 처리합니다. 이 인터뷰의 주요 목표는 지원자에게 비즈니스, 역할 및 의무에 대한 감각을 제공하는 것입니다. 보다 비공식적인 분위기에서 후보자는 자신의 관심 분야가 직위와 일치하는지 여부를 결정하기 위해 과거에 대해서도 질문을 받습니다.

준비 방법 – 이것은 인터뷰에서 매우 비기술적인 부분입니다. 이 모든 것은 귀하의 정직성과 기계 학습 전문 분야의 기초입니다.

4. 시스템 설계

이러한 인터뷰는 처음부터 끝까지 완전히 확장 가능한 솔루션을 만드는 개인의 능력을 테스트합니다. 대부분의 엔지니어는 문제에 너무 몰두하여 더 큰 그림을 간과하는 경우가 많습니다. 시스템 설계 인터뷰에서는 솔루션을 생성하기 위해 결합되는 수많은 요소에 대한 이해가 필요합니다. 이러한 요소에는 프런트 엔드 레이아웃, 로드 밸런서, 캐시 등이 포함됩니다. 이러한 문제를 잘 이해하면 효과적이고 확장 가능한 종단 간 시스템을 개발하기가 더 쉽습니다.

준비 방법 – 시스템 설계 프로젝트의 개념과 구성 요소를 이해합니다. 실제 사례를 사용하여 프로젝트를 더 잘 이해할 수 있도록 면접관에게 구조를 설명합니다.

인기 있는 기계 학습 및 인공 지능 블로그

IoT: 역사, 현재 및 미래 기계 학습 자습서: ML 배우기 알고리즘이란 무엇입니까? 간단하고 쉬운
인도 로봇 공학 엔지니어 급여 : 모든 역할 기계 학습 엔지니어의 하루: 그들은 무엇을 하나요? 사물인터넷(IoT)이란
순열 대 조합: 순열과 조합의 차이점 인공 지능 및 기계 학습의 상위 7가지 트렌드 R을 사용한 기계 학습: 알아야 할 모든 것

훈련의 수렴 값과 교차 검증 오류 사이에 상당한 차이가 있는 경우, 즉 교차 검증 오류가 훈련 오차보다 훨씬 높으면 모델이 훈련 데이터에 과적합되고 높은 분산을 겪고 있음을 나타냅니다. .
기계 학습 엔지니어: 신화 대 현실

이것이 이 시리즈의 첫 번째 섹션의 끝입니다. 로지스틱 회귀 를 기반으로 하는 질문으로 구성된 시리즈의 다음 부분을 기다리 십시오. 귀하의 의견을 자유롭게 게시하십시오.
공동 저자 – Ojas Agarwal

실제 실습 워크샵, 일대일 업계 멘토, 12개의 사례 연구 및 과제, IIIT-B 동문 자격 을 제공하는 Machine Learning & AI 의 Executive PG 프로그램을 확인할 수 있습니다 .

정규화로 무엇을 이해합니까?

정규화는 모델 과적합 문제를 해결하기 위한 전략입니다. 과적합은 훈련 데이터에 복잡한 모델을 적용할 때 발생합니다. 기본 모델은 때때로 데이터를 일반화하지 못할 수 있으며 복잡한 모델은 데이터를 과적합할 수 있습니다. 이 문제를 완화하기 위해 정규화가 사용됩니다. 정규화는 항에 패널티가 적용되고 적당한 크기를 갖도록 최소화 문제에 계수 항(베타)을 추가하는 프로세스입니다. 이는 기본적으로 데이터 패턴을 식별하는 데 도움이 되는 동시에 모델이 너무 복잡해지는 것을 방지하여 과적합을 방지합니다.

기능 엔지니어링에 대해 무엇을 이해합니까?

원래 데이터를 예측 모델에 대한 기본 문제를 더 잘 설명하는 기능으로 변경하여 보이지 않는 데이터에 대한 모델 정확도를 향상시키는 프로세스를 기능 엔지니어링이라고 합니다. 일반 용어로 기능 엔지니어링은 문제를 더 잘 이해하고 모델링하는 데 도움이 될 수 있는 추가 기능의 생성을 의미합니다. 기능 엔지니어링에는 비즈니스 기반 및 데이터 기반의 두 가지 유형이 있습니다. 상업적인 관점에서 기능을 통합하는 것은 비즈니스 중심 기능 엔지니어링의 초점입니다.

편향-분산 트레이드오프는 무엇입니까?

모델의 예측 값과 실제 값 사이의 차이를 편향이라고 합니다. 실수야. 낮은 편향은 ML 알고리즘의 목표 중 하나입니다. 훈련 데이터 세트의 작은 변화에 대한 모델의 취약성을 분산이라고 합니다. 낮은 분산은 ML 알고리즘의 또 다른 목표입니다. 완벽하게 선형이 아닌 데이터 세트에서 낮은 편향과 낮은 분산을 모두 갖는 것은 불가능합니다. 직선 모델의 분산은 낮지만 편향이 큰 반면 고차 다항식의 분산은 낮지만 편향이 높습니다. 기계 학습에서 편향과 변이 사이의 연결은 피할 수 없습니다.