예제와 함께 설명된 선형 회귀

게시 됨: 2021-10-13

선형 회귀는 데이터 세트의 변수 간의 관계를 설정하기 위한 가장 일반적인 알고리즘 중 하나입니다. 수학적 모델은 데이터 과학자가 예측 분석을 수행하는 데 필요한 도구입니다. 이 블로그에서는 기본 개념을 설명하고 선형 회귀 예제에 대해서도 설명합니다.

회귀 모델이란 무엇입니까?

회귀 모델은 관찰된 데이터에 선을 맞추는 방식으로 데이터 세트 변수 간의 관계를 설명합니다. 어떤 변수가 가장 영향을 미치고 가장 중요한지를 분류하는 수학적 분석입니다. 또한 관련된 요인에 대해 우리가 얼마나 확신하는지를 결정합니다. 두 가지 종류의 변수는 다음과 같습니다.

종속: 예측하거나 이해하려고 하는 요소입니다.
독립: 종속 변수에 영향을 미칠 것으로 의심되는 요소.

회귀 모델은 종속 변수가 양적일 때 사용됩니다. 로지스틱 회귀의 경우 이진법일 수 있습니다. 그러나 이 블로그에서는 두 변수가 모두 정량적인 선형 회귀 모델에 주로 초점을 맞출 것입니다.

지난 3년 동안의 월별 판매 및 평균 월별 강우량에 대한 데이터가 있다고 가정합니다. 이 정보를 차트에 표시했다고 가정해 보겠습니다. y축은 판매량(종속변수)을 나타내고, x축은 총 강우량을 나타냅니다. 차트의 각 점은 특정 월에 비가 얼마나 많이 내렸는지와 해당 판매 수를 보여줍니다.

데이터를 다시 한 번 살펴보면 패턴을 발견할 수 있습니다. 비가 더 많이 내리는 날에 매출이 더 높다고 가정합니다. 그러나 3인치 또는 4인치와 같은 특정 양의 비가 올 때 일반적으로 얼마를 판매할 것인지 추정하는 것은 까다로울 것입니다. 차트의 모든 데이터 포인트의 중간에 선을 그으면 어느 정도 확신을 얻을 수 있습니다.

오늘날 Excel 및 SPSS, R 또는 STATA와 같은 통계 소프트웨어를 사용하면 현재 데이터에 가장 적합한 선을 그릴 수 있습니다. 또한 선의 기울기를 설명하는 공식을 출력할 수도 있습니다.

위의 예에 대해 다음 공식을 고려하십시오. Y = 200 + 3X. 비가 오지 않았을 때(즉, X=0일 때) 200개를 판매했다고 알려줍니다. 변수가 계속 진행되는 동안 동일하게 유지된다고 가정하면 비가 1인치 추가될 때마다 평균 3개 단위의 추가 판매가 발생합니다. 비가 1인치이면 203단위, 비가 2인치이면 206단위, 비가 3인치이면 209인치 등의 방식으로 판매할 것입니다.

일반적으로 회귀선 공식에는 오차항(Y = 200 + 3 X + 오차항)도 포함됩니다. 독립 예측 변수가 종속 변수의 완벽한 예측 변수가 아닐 수도 있다는 현실을 고려합니다. 그리고 라인은 사용 가능한 데이터를 기반으로 추정치를 제공합니다. 오차항이 클수록 회귀선이 덜 확실해집니다.

선형 회귀의 기초

단순 선형 회귀 모델은 직선을 사용하여 두 양적 변수 간의 관계를 추정합니다. 둘 이상의 독립 변수가 있는 경우 대신 다중 선형 회귀를 사용합니다.

단순 선형 회귀 분석은 두 가지와 관련이 있습니다. 첫째, 과거 데이터의 종속 요인과 독립 요인 간의 관계의 강도를 알려줍니다. 둘째, 독립 변수의 특정 값에서 종속 변수의 값을 제공합니다.

이 선형 회귀 예제를 고려하십시오. 개인의 소득이 행복 수준에 미치는 영향을 알고자 하는 사회 연구원은 선형 관계가 발생하는지 확인하기 위해 간단한 회귀 분석을 수행합니다. 연구자는 특정 지리적 위치에 있는 사람들을 조사하여 종속변수(행복)와 독립변수(소득)의 양적 값을 취합니다.

예를 들어, 데이터에는 인도 마하라슈트라 주에서 온 500명의 소득 수치와 행복도(1에서 10까지의 척도로 순위 지정)가 포함되어 있습니다. 그런 다음 연구원은 데이터 포인트를 표시하고 회귀선을 맞춰 응답자의 수입이 웰빙에 얼마나 영향을 미치는지 알 수 있습니다.

선형 회귀 분석은 데이터에 대한 몇 가지 가정을 기반으로 합니다. 다음이 있습니다.

종속변수와 독립변수 간의 관계의 선형성, 즉 가장 잘 맞는 선은 곡선이 아니라 직선입니다.)
예측 오차의 크기를 의미하는 분산의 동질성은 독립 변수의 다른 값에서 크게 변하지 않습니다.
숨겨진 관계가 없음을 참조하여 데이터 세트에서 관찰의 독립성.
종속 변수에 대한 데이터 분포의 정규성입니다. R에서 hist() 함수를 사용하여 동일한 것을 확인할 수 있습니다.

선형 회귀의 수학

y = c + ax는 표준 방정식입니다. 여기서 y는 출력(추정하려는), x는 입력 변수(우리가 알고 있는), a는 선의 기울기, c는 상수입니다.

여기서 출력은 입력에 따라 선형적으로 변합니다. 기울기는 x가 y 값에 미치는 영향을 결정합니다. 상수는 x가 nil일 때 y의 값입니다.

다른 선형 회귀 예제를 통해 이것을 이해합시다. 당신이 자동차 회사에 근무하고 있고 인도의 승용차 시장을 연구하고 싶다고 상상해 보십시오. 국가 GDP가 승용차 판매에 영향을 미친다고 가정해 봅시다. 비즈니스를 위해 더 나은 계획을 세우기 위해 GDP와 관련하여 해당 국가에서 판매된 차량 수의 선형 방정식을 찾고 싶을 수 있습니다.

이를 위해서는 연도별 승용차 판매에 대한 샘플 데이터와 연간 GDP 수치가 필요합니다. 올해의 GDP가 다음 해의 판매에 영향을 미친다는 사실을 발견할 수 있습니다.

기계 학습 분석을 위해 이 데이터를 준비하려면 더 많은 작업을 수행해야 합니다.

방정식 y = c + ax로 시작하십시오. 여기서 y는 한 해에 판매된 차량의 수이고 x는 전년도의 GDP입니다.
위의 문제에서 c와 를 찾기 위해 Python을 사용하여 모델을 만들 수 있습니다.

단계별 방법을 이해하려면 이 튜토리얼 을 확인하십시오.

R에서 단순 선형 회귀를 수행한다면 결과를 해석하고 보고하는 것이 훨씬 쉬워집니다.

동일한 선형 회귀 예제에서 방정식을 y=B0 + B1x + e로 변경해 보겠습니다. 다시 말하지만, y는 종속 변수이고 x는 독립 변수 또는 알려진 변수입니다. B0는 상수 또는 절편, B1은 회귀 계수의 기울기, e는 추정치의 오차입니다.

R과 같은 통계 소프트웨어는 데이터를 통해 가장 잘 맞는 선을 찾고 모델의 총 오차를 최소화하는 B1을 찾을 수 있습니다.

시작하려면 다음 단계를 따르세요.

승용차 판매 데이터 세트를 R 환경에 로드합니다.
명령을 실행하여 승용차 판매와 GDP 간의 관계를 설명하는 선형 모델을 생성합니다.
- sales.gdp.lm <- lm(gdp ~ 매출, 데이터 = sales.data)
summary() 함수를 사용하여 가장 중요한 선형 모델 매개변수를 표 형식으로 봅니다.
- 요약(sales.gdp.lm)

참고: 출력에는 호출, 잔차 및 계수와 같은 결과가 포함됩니다. '통화' 표에는 사용된 공식이 나와 있습니다. '잔차'는 중앙값, 사분위수, 최소값 및 최대값을 자세히 설명하여 모델이 실제 데이터에 얼마나 잘 맞는지 나타냅니다. '계수' 테이블의 첫 번째 행은 y절편을 추정하고 두 번째 행은 회귀 계수를 제공합니다. 이 테이블의 열에는 Estimate, Std와 같은 레이블이 있습니다. 오류, t 값 및 p-값.

세계 최고의 대학에서 기계 학습 과정 을 배우십시오 . 석사, 이그 제 큐 티브 PGP 또는 고급 인증 프로그램을 획득하여 경력을 빠르게 추적하십시오.

(절편) 값을 회귀 방정식에 연결하여 GDP 수치 범위에서 판매 가치를 예측합니다.
효과를 알아보려면 (추정) 열을 조사하십시오. 회귀 계수는 GDP의 변화에 따라 매출이 얼마나 변하는지 알려줍니다.
(표준 오차) 레이블에서 매출과 GDP 간의 관계 추정치의 변동을 찾으십시오.
결과가 우연히 발생했는지 여부를 알아보려면 (t-값) 아래의 검정 통계량을 확인합니다. t-값이 클수록 확률이 낮아집니다.
귀무 가설이 참인 경우 Pr(>|t|) 열 또는 p-값으로 이동하여 매출에 대한 GDP의 예상 효과를 확인합니다.
추정된 효과, 표준 오차 및 p-값으로 결과를 제시하고 회귀 계수가 의미하는 바를 명확하게 전달합니다.
보고서에 그래프를 포함합니다. 단순 선형 회귀는 회귀선과 함수가 있는 플롯 차트로 표시할 수 있습니다.
관측된 y 값과 예측된 y 값의 거리를 측정하고 x의 각 값에서 거리를 제곱하고 평균을 계산하여 오차를 계산합니다.

결론

위의 선형 회귀 예제를 통해 간단한 선형 회귀 모델 생성, 회귀 계수 찾기 및 추정치의 오류 계산에 대한 개요를 제공했습니다. 또한 예측 데이터 분석 및 통계를 위한 Python과 R의 관련성에 대해서도 다루었습니다. 이러한 도구에 대한 실용적인 지식은 오늘날 데이터 과학 및 기계 학습 분야에서 경력을 쌓는 데 매우 중요합니다.

프로그래밍 기술을 연마하고 싶다면 IIT Madras 및 upGrad 의 기계 학습 고급 인증 프로그램을 확인하십시오. 또한 온라인 과정에는 사례 연구, 프로젝트 및 전문가 멘토링 세션이 포함되어 있어 교육 과정에 산업 지향성을 부여합니다.

기계 학습 및 인공 지능 분야에서 경력 향상

LJMU에서 기계 학습 및 인공 지능 과학 석사 지원 신청