기계 학습을 위한 통계: 알아야 할 모든 것

게시 됨: 2021-03-12

통계 및 확률은 기계 학습 및 데이터 과학의 핵심을 형성합니다. 머신 러닝이 오늘날 달성할 수 있는 것은 컴퓨팅 성능 및 최적화와 결합된 통계 분석입니다. 확률의 기초에서 기술 및 추론 통계에 이르기까지 이러한 주제는 기계 학습의 기초를 만듭니다.

이 튜토리얼을 마치면 다음을 알게 될 것입니다.

  • 확률 기초
  • 확률 분포
  • 정규 분포
  • 중심 경향의 측정
  • 중심극한정리
  • 표준편차 및 표준오차
  • 왜도 및 첨도

목차

확률 기초

독립 및 종속 이벤트

사건 A와 사건 B의 두 가지 사건을 생각해 봅시다. 사건 A의 발생 확률이 사건 B의 발생에 의존하지 않을 때 A와 B는 독립 사건입니다. 예를 들어, 2개의 공정한 동전이 있는 경우 두 동전 모두 앞면이 나올 확률은 둘 다 0.5입니다. 따라서 이벤트는 독립적입니다.

이제 5개의 공(검은색 2개와 빨간색 3개)이 들어 있는 상자를 고려하십시오. 검은 공을 먼저 뽑을 확률은 2/5입니다. 이제 나머지 4개의 공에서 다시 검은 공을 뽑을 확률은 1/4이 됩니다. 이 경우 두 번째로 검은 공을 뽑을 확률은 첫 번째 시도에서 어떤 공을 뽑았는지에 따라 달라지므로 두 이벤트가 종속됩니다.

한계 확률

다른 확률 변수(예: P(A) 또는 P(B))의 결과에 관계없이 이벤트의 확률입니다.

공동 확률

두 개의 다른 이벤트가 동시에 발생할 확률입니다. 즉, 두 개(또는 그 이상)의 동시 이벤트(예: P(A 및 B) 또는 P(A, B))입니다.

조건부 확률

다른 이벤트의 발생을 고려할 때 하나(또는 그 이상의) 이벤트의 확률입니다. 즉, 보조 이벤트 B가 참일 때 이벤트 A가 발생할 확률입니다. 예를 들어 P(A 주어진 B) 또는 P(A | B).

세계 최고의 대학에서 온라인으로 ML 과정 에 참여하십시오. 석사, 대학원 대학원 과정, ML 및 AI 고급 인증 프로그램을 통해 빠르게 경력을 쌓을 수 있습니다.

확률 분포

확률 분포는 표본 공간에서 데이터 포인트의 분포를 나타냅니다. 모집단에서 무작위로 샘플링할 때 특정 데이터 포인트를 샘플링할 확률을 확인하는 데 도움이 됩니다. 예를 들어 모집단이 학교 학생의 점수로 구성된 경우 확률 분포는 X축에 점수를 표시하고 Y축에 해당 점수를 가진 학생 수를 갖습니다. 이것을 히스토그램 이라고도 합니다 . 히스토그램은 이산 확률 분포 의 한 유형입니다 . 이산 분포의 주요 유형은 이항 분포, 포아송 분포 및 균일 분포입니다.

한편, 연속 적인 값을 가지는 데이터에 대해서는 연속확률분포 를 한다. 즉, 높이, 속도, 온도 등과 같은 무한한 값 집합을 가질 수 있는 경우입니다. 연속 확률 분포는 기능 중요도, 데이터 분포, 통계 테스트 등을 확인하기 위해 데이터 과학 및 통계 분석에서 엄청나게 사용됩니다.

또한 기계 학습 이면의 수학 읽기

정규 분포

가장 잘 알려진 연속 분포는 가우스 분포 또는 "종 모양 곡선"이라고도 하는 정규 분포입니다.

사람들의 키의 정규 분포를 고려하십시오. 대부분의 높이는 중간 부분에 클러스터링되어 더 크고 왼쪽과 오른쪽 극단으로 점차 감소하여 해당 값을 무작위로 얻을 확률이 더 낮음을 나타냅니다.

이 곡선은 평균의 중심에 있으며 키가 크고 가늘거나 짧고 퍼질 수 있습니다. 얇은 값은 샘플링할 수 있는 고유한 값의 수가 적다는 것을 나타냅니다. 그리고 더 넓게 펼쳐진 곡선은 더 큰 범위의 값이 있음을 보여줍니다. 이 스프레드는 표준 편차 로 정의됩니다 .

표준 편차가 클수록 데이터가 더 많이 퍼집니다. 표준 편차는 데이터가 '변하는' 정도를 정의하는 분산이라는 또 다른 속성의 수학적 파생입니다. 분산은 데이터의 전부이고 분산은 정보입니다. 차이 없음, 정보 없음. 정규 분포는 통계에서 중요한 역할을 합니다 - 중심 극한 정리.

중심 경향의 측정

중심 경향 측정은 단일 값을 취하여 데이터 세트를 요약할 수 있는 방법입니다. 주로 3가지 경향 측정이 있습니다.

1. 평균: 평균은 산술 평균 또는 데이터/특성 값의 평균입니다. 모든 값의 합을 값의 수로 나누어 평균을 구합니다. 평균은 일반적으로 모든 데이터의 중심을 측정하는 가장 일반적인 방법이지만 경우에 따라 오해의 소지가 있습니다. 예를 들어, 많은 이상값이 있는 경우 평균은 이상값으로 이동하기 시작하고 데이터 중심의 잘못된 측정값이 됩니다.

2. 중앙값 : 중앙값은 데이터를 오름차순 또는 내림차순으로 정렬할 때 정확히 중앙에 있는 데이터 포인트입니다. 데이터 포인트의 수가 홀수이면 중앙값이 가장 중심에 있는 포인트로 쉽게 선택됩니다. 데이터 포인트의 수가 짝수이면 중앙값은 가장 중앙에 있는 2개의 데이터 포인트의 평균으로 계산됩니다.

3. 모드: 모드는 데이터 세트에서 가장 자주 존재하는 데이터 포인트입니다. 모드는 여전히 가장 빈번한 지점에서 고정된 상태로 유지되므로 이상값에 대해 가장 강력하게 유지됩니다.

중심극한정리

통계의 중심극한정리는 표본 크기가 충분히 크면 표본 분포가 해당 변수의 분포에 관계없이 정규 분포에 가깝다는 것을 나타냅니다. 위의 문장의 핵심을 쉬운 말로 가져오겠습니다.

데이터는 임의의 분포일 수 있습니다. 완벽하거나 왜곡된 정규 분포일 수도 있고 지수 분포일 수도 있고 (거의) 생각할 수 있는 모든 분포일 수도 있습니다. 그러나 모집단에서 반복적으로 표본을 추출하고 평균의 히스토그램을 계속 그리면 결국 모든 평균의 이 새로운 분포가 정규 분포와 유사하다는 것을 알게 될 것입니다!

본질적으로 데이터가 어떤 분포에 있는지는 중요하지 않으며 평균 분포는 항상 정상입니다.

그러나 CLT를 참으로 유지하려면 얼마나 많은 샘플이 필요합니까? 엄지 규칙에 따르면 >30이어야 합니다. 따라서 분포에서 30개 이상의 표본을 추출하면 기본 분포 유형에 관계없이 평균이 정규 분포를 따릅니다.

표준편차 및 표준오차

표준 편차와 표준 오차는 종종 서로 혼동됩니다. 알다시피 표준 편차는 분포의 양쪽에 있는 데이터의 변동을 설명하거나 수량화합니다. 즉, 평균보다 낮고 평균보다 큽니다. 데이터 포인트가 넓은 범위의 값에 분산되어 있으면 표준 편차가 높아집니다.

이제 위에서 논의한 것처럼 중심 극한 정리에 따라 모집단의 모든 표본 평균을 플로팅하면 해당 평균의 분포가 다시 정규 분포가 됩니다. 따라서 자체 표준 편차가 있을 것입니다. 맞습니까?

모집단의 모든 표본 평균의 표준 편차를 표준 오차라고 합니다. 표준 오차 값은 일반적으로 평균의 표준 편차를 계산할 때 표준 편차보다 작으며 평균 값은 집계로 인해 개별 데이터 포인트보다 덜 퍼집니다.

중앙값의 표준 편차, 모드 또는 표준 편차의 표준 편차도 계산할 수 있습니다!

가기 전에

통계 개념은 데이터 과학 및 ML의 진정한 핵심을 형성합니다. 유효한 추론을 하고 손에 있는 데이터를 효과적으로 이해할 수 있으려면 이 튜토리얼에서 논의된 통계 및 확률 개념에 대한 확실한 이해가 필요합니다.

upGrad는 기계 학습 및 인공 지능 분야의 PG 프로그램과 기계 학습 및 인공 지능 분야 석사 과정을 제공하여 경력을 쌓도록 안내합니다. 이 과정에서는 기계 학습의 필요성과 경사 하강법에서 기계 학습에 이르는 다양한 개념을 다루는 이 영역에서 지식을 수집하기 위한 추가 단계를 설명합니다.

기계 학습을 잘하려면 통계 지식이 필수입니까?

통계는 매우 방대한 분야입니다. 기계 학습에서 통계는 기본적으로 데이터를 깊이 이해하는 데 도움이 됩니다. 확률, 데이터 해석 등과 같은 일부 통계 개념은 여러 기계 학습 알고리즘에 필요합니다. 그러나 기계 학습을 잘하기 위해 통계의 모든 주제에 대한 전문가일 필요는 없습니다. 기본 개념만 알면 효율적으로 수행할 수 있습니다.

미리 코딩을 아는 것이 머신 러닝에 도움이 될까요?

코딩은 기계 학습의 핵심이며, 코딩을 잘하는 프로그래머는 알고리즘이 어떻게 작동하는지 깊이 이해하고, 따라서 이러한 알고리즘을 보다 효과적으로 모니터링하고 최적화할 수 있습니다. 사전 지식이 있으면 도움이 되지만 프로그래밍 언어의 전문가가 될 필요는 없습니다. 초보자인 경우 Python은 배우기 쉽고 사용자 친화적인 구문을 가지고 있기 때문에 좋은 선택입니다.

우리는 일상 생활에서 미적분을 어떻게 사용합니까?

일기 예보는 풍속, 수분 함량 및 온도와 같은 여러 변수를 기반으로 하며 이는 미적분을 통해서만 계산할 수 있습니다. 미적분의 사용은 항공 공학에서도 다양한 방식으로 볼 수 있습니다. 미적분은 또한 차량 산업에서 차량의 우수한 안전성을 개선하고 보장하는 데 사용됩니다. 신용카드 회사에서도 결제 목적으로 사용합니다.