다중 회귀 분석을 수행하는 방법?

게시 됨: 2021-11-23

통계 분석에서 회귀 모델은 고려되는 변수 간의 관계를 개발할 필요가 있을 때마다 주로 사용됩니다. 관계는 모든 변수 사이에 선을 맞춤으로써 설정됩니다. 종속 변수의 동작을 이해하기 위해 회귀 모델이 사용됩니다. 독립변수의 변화에 ​​따라 종속변수가 어떻게 변하는지 사용자에게 알려줍니다.

다중 선형 회귀는 이러한 변수, 즉 종속 변수와 독립 변수 간의 관계를 추정하는 데 도움이 되는 기술 중 하나입니다. 이 기사에서는 다중 선형 회귀의 기술과 수행 방법에 중점을 둘 것입니다.

목차

다중 선형 회귀

다중 선형 회귀는 모든 응답 변수의 결과를 예측하는 데 사용되는 통계 기법의 한 형태입니다. 이 기술의 목표 중 하나는 독립 변수와 종속 변수 간의 선형 관계를 설정하는 것입니다. 다중 선형 회귀 분석 둘 이상의 관찰 형태를 포함하는 다변수 분석 의 한 형태입니다.

다음 사항에 대해 알고 싶다면 대부분 이 기술을 수행할 수 있습니다.

  • 변수 간의 관계가 얼마나 강한지 이해합니다. 또한 독립 변수와 종속 변수 간의 관계를 이해하려는 경우 다중 선형 회귀 기법을 사용할 수 있습니다.
  • 이 기술은 독립 변수에 해당하는 종속 변수의 값을 예측하는 데 사용할 수 있습니다.

다중 선형 회귀에서 고려되는 가정

다중 선형 회귀 기법에서 특정 가정이 고려됩니다. 다음은 MLR에 대한 몇 가지 가정입니다.

1. 분산의 동질성

등분산성이라고도 합니다. 이는 결과를 예측하는 동안 독립변수의 값을 통해 결과를 예측하는 것과 관련된 오류에 큰 변화가 없음을 의미합니다. 이 방법은 오류량이 MLR 모델 전체에서 동일하다고 가정합니다. 분석가는 예측된 값에 대해 표준화된 잔차를 표시해야 합니다. 이는 독립 변수에 걸쳐 포인트가 공정하게 분포되어 있는지 확인하는 데 도움이 됩니다. 산점도는 데이터를 그리는 데 사용할 수 있습니다.

2. 관찰의 독립성

다중 선형 회귀 분석에서 고려되는 관찰은 유효한 통계 기술을 통해 수집됩니다. 이는 수집된 변수 간에 숨겨진 또는 기존 관계가 없음을 의미합니다. 때때로 이 기술에는 일부 변수가 다른 변수와 상관 관계가 있는 시나리오가 있습니다. 따라서 회귀 모델을 개발하기 전에 항상 이러한 상관 변수를 확인하는 것이 중요합니다. 모델 개발에서 변수 중 하나를 제거하는 것은 상관 관계가 높은 변수에 대해 항상 더 좋습니다.

3. 독립변수들 사이에는 상관관계가 없다

다른 방법으로, 데이터에 다중 공선성이 없어야 한다고 언급할 수 있습니다. 다중 공선성이 있는 경우 분석가는 종속 변수 분산에 기여하는 변수를 식별하기가 어렵다는 것을 알게 됩니다. 따라서 가정을 테스트하는 데 가장 적합한 것으로 간주되는 방법 중 하나는 변동 인플레이션 계수 방법입니다.

4. 정상:

이는 데이터 세트가 정규 분포를 따른다는 것을 의미합니다.

5. 선형성

변수들 간의 관계를 찾는 과정에서 변수들 사이에 직선을 맞추려고 한다. 독립 변수와 종속 변수 사이에 선형 관계가 존재한다고 널리 가정됩니다. 선형 관계를 확인하는 한 가지 방법은 산점도를 만든 다음 산점도를 시각화하는 것입니다. 사용자는 관찰에 존재하는 선형성을 관찰할 수 있습니다. 선형 관계가 없는 경우 분석가는 분석을 반복해야 합니다. SPSS와 같은 통계 소프트웨어는 MLR을 수행하는 데 사용할 수 있습니다.

다중 선형 회귀의 수학적 표현

다중 선형 회귀 모델의 수학적 그림은 아래 방정식으로 표시됩니다.

위의 방정식에서,

  • Y는 출력 변수를 나타내고,
  • X는 입력 변수를 나타내고,
  • Β는 각 항과 관련된 계수를 나타냅니다.
  • B0는 다른 모든 예측 변수가 없을 때 Y 값을 의미하는 y 절편의 값입니다.

때때로 MLR의 방정식은 방정식의 용어 끝에 "e"라는 용어로 표시되는 오류 용어로 구성됩니다.

최적의 선을 찾는 동안 MLR 방정식은 다음을 계산하는 데 사용됩니다.

  • MLR 방정식에서 가장 작은 오류를 초래하는 회귀 계수 계산.
  • 전체 모델의 경우 방정식은 t-통계량 값을 계산합니다.
  • 모델의 P-값입니다.

일반 최소제곱

다중 선형 회귀 방법은 OLS(Ordinary Least Squares)라고도 합니다. 이것은 MLR 방법이 최소 제곱합을 찾으려고 시도하기 때문입니다. 따라서 OLS 방법이라고도 합니다. 프로그래밍 언어 파이썬은 이러한 방법을 구현하는 데 사용할 수 있습니다. 파이썬에서 OLS 방법을 적용할 수 있는 두 가지 방법은 다음과 같습니다.

1. 사이킷 런

이것은 파이썬 프로그래밍 언어로 사용 가능한 패키지입니다. 선형 회귀 모듈은 Scikit Learn 패키지에서 가져와야 합니다. 그런 다음 모델에 데이터가 적합합니다. 그것은 간단한 방법이며 널리 사용할 수 있습니다.

2. 통계 모델

파이썬 프로그래밍 언어에서 사용되는 다른 방법 중 하나는 Statsmodels 패키지입니다. 이 패키지는 OLS 기술을 구현하는 데 도움이 될 수 있습니다.

다중 선형 회귀 예제

다음은 MLR에 대한 몇 가지 예입니다.

  • 다중 선형 회귀 모델 은 작물 수확량 예측에 사용할 수 있습니다. 이것은 MLR에서 종속 변수와 독립 변수 사이에 연관이 있기 때문입니다. 이러한 유형의 연구에서는 기후 요인, 강우량, 비료 수준 및 온도와 같은 추가 요인을 고려할 수 있습니다.
  • 수행한 연구 시간과 수업 GPA 사이에 연결을 설정해야 하는 경우 MLR 방법을 사용할 수 있습니다. 이 경우 GPA는 종속변수가 되고 학습시간과 같은 다른 변수는 설명변수가 됩니다.
  • MLR 기법은 경영진의 경험과 연령을 기반으로 회사에서 경영진의 급여를 결정하는 데 사용할 수 있습니다. 이 경우 급여는 종속변수가 되고 나이와 경력은 독립변수가 됩니다.

MLR의 작업 흐름

회귀 모델에 들어가기 전에 데이터를 준비하고 분석해야 합니다. 데이터는 대부분 오류, 이상값, 누락된 값 등의 존재 여부에 대해 분석됩니다. 다음은 다중 선형 회귀 기술을 구현하거나 적용하는 방법을 보여주기 위해 나열된 몇 가지 단계입니다.

1. 변수 선택

MLR에는 응답 변수와 가장 많은 관계가 있는 예측 변수를 포함하는 데이터 세트가 있어야 합니다. 즉, 최소한의 변수에서 최대한의 정보를 추출해야 합니다. 변수의 선택은 다음과 같은 과정을 통해 수행할 수 있습니다.

  • 변수 검색을 위해 자동 절차를 선택할 수 있습니다. 도구를 R 및 Python의 프로그래밍 패키지와 함께 사용하여 MLR 연구에 가장 적합한 변수를 결정할 수 있습니다.
  • 모든 독립 변수의 하위 부분이 있는지 확인하기 위해 모든 가능한 회귀를 선택할 수 있습니다.
  • R2의 값은 최상의 변수를 분석하는데 고려될 수 있다. R2 값이 더 큰 변수는 모델에 가장 적합한 것으로 간주됩니다. R2의 값은 0과 1의 두 숫자 중 하나일 수 있습니다. 값 0은 독립 변수가 종속 변수의 결과를 예측할 수 없음을 나타냅니다. 값 1은 독립 변수에 의한 예측을 오류 없이 나타냅니다.
  • 예측 제곱합(PRESSp)인 또 다른 항이 있습니다. MLR 모델의 PRESSp가 더 작으면 모델이 더 나은 예측 강도를 갖는 것으로 간주됩니다.

2. 모델 개선

MLR의 모델은 다음 기준을 검토하여 개선할 수 있습니다.

  • 글로벌 F-검정의 값입니다. 독립변수로 종속변수의 결과를 예측하는 것의 유의성을 테스트하는 데 사용됩니다.
  • 매개변수 및 샘플 크기가 조정된 후 전체 샘플의 변동을 확인하기 위해 조정된 R2. 항의 값이 클수록 변수가 데이터에 더 적합하다는 것을 나타냅니다.
  • 제곱 평균 제곱근 편차 또는 RMSE는 무작위 오류에 대한 표준 편차를 추정하는 데 사용됩니다.
  • MLR의 모델은 변동계수의 값이 10% 이하일 때 정확한 예측을 제공하는 것으로 간주됩니다.

3. 모델 가정 테스트

고려된 가정은 선형 회귀 모델에서 테스트됩니다. 이러한 가정이 충족되어야 합니다.

4. 모델과 관련된 문제 해결

모델에서 고려된 일부 가정이 위반되는 경우 그러한 문제를 최소화하기 위한 조치를 취해야 합니다.

5. 모델 검증

이것은 MLR 모델 생성의 마지막 단계이며 중요한 단계로 간주됩니다. 모델 생성 후 모델의 유효성을 검사해야 합니다. 유효성이 검사되면 모든 다중 선형 회귀 분석 에 사용할 수 있습니다 .

결론

다중 선형 회귀는 모든 연구에서 변수 간의 상관 관계를 설정하는 데 가장 널리 사용되는 기술 중 하나입니다. 또한 머신 러닝 세계에서 중요한 알고리즘으로 간주됩니다. 그러나 회귀 분석이 처음이라면 회귀 모델과 단순 선형 회귀에 대한 아이디어를 얻는 것이 항상 더 좋습니다.

세계 최고의 대학에서 기계 학습 과정을 받으십시오. 이그 제 큐 티브 PG 프로그램, 고급 인증 프로그램 또는 석사 프로그램을 획득하여 경력을 빠르게 추적하십시오.

기계 학습 및 인공 지능 분야에서 경력 향상

IIITB에서 Ai-ml의 임원 인증을 지금 신청하십시오