알아야 할 다양한 유형의 회귀 모델
게시 됨: 2022-01-07회귀 문제는 머신 러닝에서 흔히 볼 수 있으며 이를 해결하는 가장 일반적인 기술은 회귀 분석입니다. 데이터 모델링을 기반으로 하며 모든 데이터 포인트를 통과하는 최적의 선을 찾는 작업을 포함하므로 선과 각 데이터 포인트 사이의 거리가 최소화됩니다. 다양한 회귀 분석 기술이 존재하지만 선형 및 로지스틱 회귀가 가장 두드러집니다. 우리가 사용하는 회귀 분석 모델의 유형은 결국 관련된 데이터의 특성에 따라 달라집니다.
회귀 분석 및 다양한 유형의 회귀 분석 모델에 대해 자세히 알아보겠습니다.
목차
회귀 분석이란 무엇입니까?
회귀 분석은 데이터 세트에서 종속(목표) 변수와 독립 변수 간의 관계를 결정하기 위한 예측 모델링 기술입니다. 일반적으로 대상 변수가 연속 값을 포함하고 종속 변수와 독립 변수가 선형 또는 비선형 관계를 공유할 때 사용됩니다. 따라서 회귀 분석 기술은 변수, 시계열 모델링 및 예측 간의 인과 관계를 결정하는 데 사용됩니다. 예를 들어, 회사의 판매와 광고 지출 간의 관계는 회귀 분석을 사용하여 가장 잘 연구할 수 있습니다.
회귀 분석 유형
예측을 하는 데 사용할 수 있는 다양한 유형의 회귀 분석 기술이 있습니다. 또한 각 기법의 사용은 독립변수의 수, 회귀선의 모양, 종속변수의 유형과 같은 요인에 따라 결정됩니다.
가장 일반적으로 사용되는 회귀 분석 방법 중 일부를 이해하겠습니다.
1. 선형 회귀
선형 회귀는 가장 널리 알려진 모델링 기술이며 종속 변수(Y)와 독립 변수(X) 간의 선형 관계를 가정합니다. 최적선이라고도 하는 회귀선을 사용하여 이 선형 관계를 설정합니다. 선형 관계는 Y = c+m*X + e 방정식으로 표시됩니다. 여기서 'c'는 절편, 'm'은 선의 기울기, 'e'는 오차항입니다.
선형 회귀 모델은 단순(하나의 종속 변수와 하나의 독립 변수 포함) 또는 다중(하나의 종속 변수와 하나 이상의 독립 변수 포함)일 수 있습니다.
원천
2. 로지스틱 회귀
로지스틱 회귀 분석 기법은 종속 변수가 이산적일 때 사용합니다. 즉, 이 기법은 합격/불합격, 참/거짓, 0/1 등과 같이 상호 배타적인 사건의 확률을 추정하는 데 사용됩니다. 따라서 목표 변수는 두 값 중 하나만 가질 수 있으며 시그모이드 곡선은 다음을 나타냅니다. 독립변수와의 관계. 확률 값의 범위는 0과 1 사이입니다.
원천
3. 다항식 회귀
다항 회귀 분석 기법은 종속 변수와 독립 변수 간의 비선형 관계를 모델링합니다. 다중선형회귀모형을 변형한 형태이지만, 모든 데이터 포인트를 통과하는 최적선은 직선이 아닌 곡선이다.
원천
4. 능선 회귀
능선 회귀 분석 기법은 데이터가 다중 공선성을 나타낼 때 사용됩니다. 즉, 독립 변수는 높은 상관 관계가 있습니다. 다중 공선성의 최소 제곱 추정치는 편향되지 않지만, 그 분산은 관측된 값을 실제 값에서 벗어날 만큼 충분히 큽니다. 능선 회귀는 회귀 추정치에 어느 정도의 편향을 도입하여 표준 오차를 최소화합니다.
능선 회귀 방정식의 람다(λ)는 다중 공선성 문제를 해결합니다.
원천
원천
5. 올가미 회귀
능선 회귀와 마찬가지로 올가미(최소 절대 수축 및 선택 연산자) 회귀 기술은 회귀 계수의 절대 크기에 불이익을 줍니다. 또한 올가미 회귀 기술은 변수 선택을 사용하므로 계수 값이 절대 0으로 축소됩니다.
원천
6. 분위수 회귀
분위수 회귀 분석 기법은 선형 회귀 분석의 확장입니다. 선형회귀의 조건이 충족되지 않거나 데이터에 이상치가 있을 때 사용합니다. 분위수 회귀는 통계 및 계량 경제학에서 응용 프로그램을 찾습니다.
원천
7. 베이지안 선형 회귀
베이지안 선형 회귀는 베이지안 정리를 활용하여 회귀 계수의 값을 결정하는 머신 러닝의 회귀 분석 기술 유형 중 하나입니다. 최소제곱을 찾는 대신 이 기술은 특징의 사후 분포를 결정합니다. 결과적으로 이 기법은 단순 선형 회귀보다 안정성이 높습니다.
원천
8. 주성분 회귀
주성분 회귀 기법은 일반적으로 다중 공선성이 있는 다중 회귀 데이터를 분석하는 데 사용됩니다. 능선 회귀 기법과 마찬가지로 주성분 회귀 기법은 회귀 추정치에 어느 정도 편향을 부여하여 표준 오차를 최소화합니다. 이 기술에는 두 단계가 있습니다. 첫째, 주성분 분석이 훈련 데이터에 적용되고 변환된 샘플이 회귀자를 훈련하는 데 사용됩니다.
9. 부분 최소 제곱 회귀
편최소자승법은 공분산을 기반으로 하는 빠르고 효율적인 회귀분석 기법 중 하나이다. 독립 변수의 수가 많고 변수 간에 다중 공선성이 있는 회귀 문제에 유용합니다. 이 기술은 변수를 더 작은 예측 변수 집합으로 축소한 다음 회귀를 수행하는 데 사용됩니다.
10. 탄력적 순 회귀
탄력적 순 회귀 기법은 능선 회귀 모델과 올가미 회귀 모델을 혼합한 것으로 상관 관계가 높은 변수를 다룰 때 유용합니다. 능선 및 올가미 회귀 방법의 패널티를 사용하여 회귀 모델을 정규화합니다.
원천
요약
여기서 논의한 회귀 분석 기술 외에도 생태 회귀, 단계적 회귀, 잭나이프 회귀 및 강력한 회귀와 같은 몇 가지 다른 유형의 회귀 모델이 기계 학습에 사용됩니다. 이러한 다양한 유형의 회귀 기술의 구체적인 사용 사례는 사용 가능한 데이터의 특성과 달성할 수 있는 정확도 수준에 따라 다릅니다. 전반적으로 회귀 분석에는 두 가지 핵심 이점이 있습니다. 다음과 같습니다.
- 종속변수와 독립변수의 관계를 나타냅니다.
- 독립변수가 종속변수에 미치는 영향의 강도를 보여줍니다.
앞으로의 길: 기계 학습 및 AI에서 이학 석사 학위 취득
기계 학습 및 인공 지능 경력을 준비할 수 있는 종합적인 온라인 프로그램을 찾고 계십니까?
upGrad는 다재다능한 AI 전문가 및 데이터 과학자를 양성하기 위해 리버풀 존 무어스 대학교 및 IIIT 방갈로르와 협력하여 기계 학습 및 AI 과학 석사 학위를 제공합니다.
포괄적인 20개월 온라인 프로그램은 딥 러닝, NLP, 그래픽 모델, 강화 학습 등과 같은 고급 개념과 기술을 마스터하려는 실무 전문가를 위해 특별히 설계되었습니다. 또한 이 프로그램은 Python, Keras, TensorFlow, Kubernetes, MySQL 등과 같은 주요 프로그래밍 언어 및 도구와 함께 통계에 대한 견고한 기반을 제공하고자 합니다.
프로그램 하이라이트:
- 리버풀 존 무어스 대학교 석사
- IIT 방갈로르의 임원 PGP
- 40개 이상의 라이브 세션, 12개 이상의 사례 연구 및 프로젝트, 11개의 코딩 과제, 6개의 캡스톤 프로젝트
- 업계 전문가와 함께하는 25개 이상의 멘토링 세션
- 360도 진로 지원 및 학습 지원
- P2P 네트워킹 기회
세계적 수준의 교수진, 교육학, 기술 및 업계 전문가와 함께 upGrad는 남아시아 최대의 고등 교육 기술 플랫폼으로 부상했으며 전 세계적으로 500,000명 이상의 작업 전문가에게 영향을 미쳤습니다. 오늘 가입 80개 이상의 국가에 걸쳐 upGrad의 40,000명 이상의 글로벌 학습자 기반의 일부가 되기 위해!
1. 회귀 테스트 정의는 무엇입니까?
회귀 테스트는 소프트웨어의 코드 변경이 기존 제품의 기능에 영향을 미치지 않았는지 확인하기 위해 수행되는 소프트웨어 테스트 유형으로 정의됩니다. 이는 제품이 새로운 기능이나 기존 기능에 대한 변경 사항으로 잘 작동하는지 확인합니다. 회귀 테스트에는 기존 기능의 작업 조건을 확인하기 위해 다시 실행되는 이전에 실행된 테스트 케이스의 부분 또는 전체 선택이 포함됩니다.
회귀 모델의 목적은 무엇입니까?
회귀 분석은 독립 변수에 대한 일부 정보를 사용할 수 있는 경우 종속 변수의 값을 예측하거나 종속 변수에 대한 독립 변수의 영향을 예측하는 두 가지 목적으로 수행됩니다.
회귀 분석은 독립 변수에 대한 일부 정보를 사용할 수 있는 경우 종속 변수의 값을 예측하거나 종속 변수에 대한 독립 변수의 영향을 예측하는 두 가지 목적으로 수행됩니다.
결과의 정확성과 유효성을 보장하려면 적절한 표본 크기가 필수적입니다. 회귀 분석에서 적절한 표본 크기를 결정하는 경험 법칙은 없지만 일부 연구자는 변수당 최소 10개의 관찰을 고려합니다. 따라서 세 개의 독립 변수를 사용하면 최소 표본 크기는 30이 됩니다. 많은 연구자들도 표본 크기를 결정하기 위해 통계 공식을 따릅니다.