기계 학습의 다변수 회귀 소개: 전체 가이드

게시 됨: 2021-09-15

오늘날의 기술이 데이터 중심이라는 것은 비밀이 아닙니다. 데이터는 수치의 편집일 수 있지만 기업이 장기적으로 경쟁력과 지속 가능성을 유지하기 위해 생산성과 자원을 추출하기 위해 의미 있게 처리될 수 있습니다. 그럴 때, 데이터 분석은 원시 정보에서 정확한 추정치를 도출하는 해답입니다.

데이터 분석은 데이터를 조사, 처리 및 사용 가능한 형식으로 변환하기 위한 통계적 및 논리적 아이디어를 포함하는 기술입니다. 데이터 분석을 통해 도출된 솔루션은 비즈니스에서 중요한 결정을 내리는 데 사용됩니다. 데이터 분석과 함께 데이터 과학은 높은 정확도로 미래 결과를 예측하는 데 사용됩니다. 데이터 풀에서 실행 가능한 정보를 확보하기 위해 과학적 기술과 알고리즘을 사용하는 프로세스입니다.

데이터 전문가가 직면한 일반적인 문제는 응답 변수(Y로 표시)와 설명 변수(X로 표시) 사이에 통계적 관계가 존재하는지 확인하는 방식입니다.

이 문제에 대한 답은 회귀 분석입니다. 이것을 더 자세히 이해합시다.

회귀 분석이란 무엇입니까?
다변수 회귀란 무엇입니까?
다변수 회귀의 비용 함수
다변수 회귀 분석을 사용하는 방법은 무엇입니까?
- 1. 다변수 선형 회귀
  - 선형 회귀는 언제 사용할 수 있습니까?
- 2. 다변수 로지스틱 회귀
  - 로지스틱 회귀는 어디에 사용할 수 있습니까?
다변량 회귀 모델의 가정
다변량 로지스틱 회귀 모델의 가정
다변수 회귀의 장점
다변수 회귀의 단점
- 다변수 회귀 모델이란 무엇입니까?
- 다변수 회귀의 용도는 무엇입니까?
- 가장 일반적인 두 가지 다변량 분석 방법은 무엇입니까?

회귀 분석이란 무엇입니까?

회귀 분석은 제어되거나 감독되는 기계 학습 알고리즘을 따르는 데이터 분석에서 널리 사용되는 방법 중 하나입니다. 데이터에서 변수 간의 관계를 식별하고 설정하는 효과적인 기술입니다.

회귀 분석에는 정렬된 변수에 대해 매우 정확한 결론을 도출하기 위해 수학적 전략을 사용하여 실행 가능한 변수를 정렬하는 작업이 포함됩니다.

다변수 회귀란 무엇입니까?

다변수는 여러 데이터 변수를 분석하는 제어되거나 감독되는 기계 학습 알고리즘입니다. 하나의 종속 변수와 많은 독립 변수를 포함하는 다중 회귀의 연속입니다. 출력은 독립 변수의 수를 기반으로 예측됩니다.

다변량 회귀는 다른 변수의 변화에 대한 변수에 존재하는 요인의 동시 반응을 설명하는 공식을 알아냅니다. 그들은 다양한 분야의 데이터를 연구하는 데 사용됩니다. 예를 들어, 부동산에서 다변수 회귀는 위치, 방 수 및 사용 가능한 편의 시설과 같은 여러 요소를 기반으로 주택 가격을 예측하는 데 사용됩니다.

다변수 회귀의 비용 함수

비용 함수는 모델의 결과가 관찰된 데이터와 다를 때 샘플에 비용을 할당합니다. 비용 함수 방정식은 예측 값과 실제 값의 차이를 제곱한 값을 데이터 세트 길이의 2배로 나눈 값입니다.

다음은 예 입니다 .

결과 :

원천

다변수 회귀 분석을 사용하는 방법은 무엇입니까?

다변량 회귀 분석과 관련된 프로세스에는 특징 선택, 특징 엔지니어링, 특징 정규화, 선택 손실 함수, 가설 분석 및 회귀 모델 생성이 포함됩니다.

특징 선택: 다변수 회귀에서 가장 중요한 단계입니다. 변수 선택이라고도 하는 이 프로세스에는 효율적인 모델을 구축하기 위해 실행 가능한 변수를 선택하는 작업이 포함됩니다.
기능 정규화: 여기에는 간소화된 배포 및 데이터 비율을 유지하기 위한 기능 확장이 포함됩니다. 이것은 더 나은 데이터 분석에 도움이 됩니다. 모든 기능의 값은 요구 사항에 따라 변경될 수 있습니다.
손실 함수 및 가설 선택 : 손실 함수는 오류 예측에 사용됩니다. 손실 함수는 가설 예측이 실제 수치와 다를 때 작동합니다. 여기서 가설은 특성 또는 변수로부터 예측된 값을 나타냅니다.
고정 가설 매개변수 : 가설의 매개변수는 손실 함수를 최소화하고 더 나은 예측을 향상시키는 방식으로 고정되거나 설정됩니다.
손실 함수 감소 : 데이터 세트에 대한 손실 최소화를 위한 알고리즘을 생성하여 손실 함수를 최소화하여 가설 매개변수의 변경을 용이하게 합니다. 기울기 하강법은 손실 최소화를 위해 가장 일반적으로 사용되는 알고리즘입니다. 알고리즘은 손실 최소화가 완료되면 다른 작업에도 사용할 수 있습니다.
가설 함수 분석 : 가설의 함수는 값을 예측하는 데 매우 중요하므로 분석이 필요합니다. 기능이 분석된 후 테스트 데이터에서 테스트됩니다.

이제 다변수 회귀를 사용할 수 있는 두 가지 방법을 살펴보겠습니다.

1. 다변수 선형 회귀

다변량 선형 회귀는 다변량 선형 회귀 분석에서 여러 독립 변수가 종속 변수에 기여하므로 계산에 여러 계수가 사용된다는 점을 제외하고는 단순 선형 회귀와 유사합니다.

여러 확률 변수 간의 수학적 관계를 도출하는 데 사용됩니다. 하나의 종속 변수와 연결된 여러 독립 변수의 수를 설명합니다.
다중 독립 변수의 세부 정보는 결과 변수에 미치는 영향을 정확하게 예측하는 데 사용됩니다.
다변량 선형 회귀 모델은 각 데이터 포인트에 가장 근접한 선형 형태(직선 형태)의 관계를 생성합니다.
다변량 선형 회귀 모델의 방정식은 다음과 같습니다.

yi=β0+β1xi1+β2xi2+…+βpxip+

여기서 i=n 관측치:

원천

선형 회귀는 언제 사용할 수 있습니까?

선형 회귀 모델은 하나는 종속이고 다른 하나는 독립인 두 개의 연속 변수가 있는 경우에만 사용할 수 있습니다.

독립변수는 종속변수의 값이나 결과를 결정하는 매개변수로 사용됩니다.

2. 다변수 로지스틱 회귀

로지스틱 회귀는 여러 독립 변수를 기반으로 이진 결과를 예측하는 데 사용되는 알고리즘입니다. 이진 결과에는 두 가지 가능성이 있습니다. 시나리오는 발생(1으로 표시)하거나 발생하지 않습니다(0으로 표시).

로지스틱 회귀는 결과(또는 종속 변수)가 이분법적인 데이터인 이진 데이터에 대해 작업하는 동안 사용됩니다.

로지스틱 회귀는 어디에 사용할 수 있습니까?

로지스틱 회귀는 주로 분류 문제를 처리하는 데 사용됩니다. 예를 들어 이메일이 스팸인지 여부와 특정 거래가 악의적인지 여부를 확인합니다. 데이터 분석에서 손실을 최소화하고 이익을 늘리기 위해 계산된 결정을 내리는 데 사용됩니다.

다변수 로지스틱 회귀는 종속변수가 하나이고 결과가 여러 개일 때 사용됩니다. 가능한 결과가 두 개 이상 있다는 점에서 로지스틱 회귀와 다릅니다.

X1 ~ Xp는 별개의 독립 변수입니다.

b0 ~ bp는 회귀 계수입니다.

다중 로지스틱 회귀 모델은 다른 형식으로 작성할 수도 있습니다. 아래 형식에서 결과는 결과가 존재할 확률의 예상 로그이며,

다중 로지스틱 회귀 모델은 다른 형식으로 작성할 수도 있습니다. 아래 형식에서 결과는 결과가 존재할 확률의 예상 로그입니다.

위 식의 우변은 선형회귀식과 유사하지만 회귀계수를 구하는 방법이 다르다.

다변량 회귀 모델의 가정

종속변수와 독립변수는 선형 관계를 갖습니다.
독립변수들 간에는 강한 상관관계가 없습니다.
yi의 관측치는 모집단에서 무작위로 개별적으로 선택됩니다.

다변량 로지스틱 회귀 모델의 가정

종속 변수는 명목 또는 순서입니다. 명목변수는 의미 있는 조직 없이 둘 이상의 범주를 갖는다. 순서형 변수는 두 개 이상의 범주를 가질 수도 있지만 구조가 있고 순위가 매겨질 수 있습니다.
순서, 연속 또는 명목일 수 있는 단일 또는 다중 독립 변수가 있을 수 있습니다. 연속 변수는 특정 범위 내에서 무한한 값을 가질 수 있는 변수입니다.
종속 변수는 상호 배타적이며 완전합니다.
독립변수들 간에는 강한 상관관계가 없습니다.

다변수 회귀의 장점

다변수 회귀는 데이터 세트의 여러 변수 간의 관계를 연구하는 데 도움이 됩니다.
종속변수와 독립변수 간의 상관관계는 결과를 예측하는 데 도움이 됩니다.
머신 러닝에서 사용되는 가장 편리하고 대중적인 알고리즘 중 하나입니다.

다변수 회귀의 단점

다변수 기술의 복잡성은 복잡한 수학적 계산을 필요로 합니다.
손실과 오차 출력에 불일치가 있기 때문에 다변량 회귀 모델의 출력을 해석하기가 쉽지 않습니다.
다변수 회귀 모델은 더 작은 데이터 세트에 적용할 수 없습니다. 더 큰 데이터 세트와 관련하여 정확한 출력을 생성하도록 설계되었습니다.

다변량 회귀 및 기타 복잡한 데이터 과학 주제에 대해 더 자세히 알고 싶다면 upGrad가 당신을 위한 솔루션을 제공합니다. 리버풀 존 무어스 대학교(Liverpool John Moores University) 의 18개월 데이터 과학 석사 과정은 500개 이상의 엄격한 학습 시간, 25개의 코칭 세션(1:8 기반) 및 20개 이상의 라이브 세션을 다룹니다. upGrad는 또한 1:1 교육 지원과 360° 진로 지도 지원을 제공하여 학생들이 진로를 바꿀 수 있도록 지원합니다. 학습자는 40,000명 이상의 유료 학습자가 있는 글로벌 플랫폼에서 P2P 학습을 활용하고 6개 기능 전문 분야에서 협업 프로젝트를 수행하여 학습 경험을 극대화할 수 있습니다.

다변수 회귀 모델이란 무엇입니까?

다변수 회귀 모델은 하나의 종속 변수와 여러 독립 변수 간의 통계적 관계를 결정하도록 설계된 기계 학습 알고리즘입니다.

다변수 회귀의 용도는 무엇입니까?

다변량 회귀 모델은 데이터의 보다 효율적인 분석을 위한 연구 연구에서 충분히 사용됩니다. 일반적으로 여러 독립 변수 또는 기능이 있는 곳에 적용됩니다.

가장 일반적인 두 가지 다변량 분석 방법은 무엇입니까?

두 가지 주요 다변량 분석 방법은 공통 요인 분석과 주성분 분석입니다.