카이 제곱 테스트: 소개, 계산 방법, 사용 시기

게시 됨: 2022-11-09

통계에서 카이제곱 검정은 정규 분포 변수 집합의 관찰 데이터를 분석하는 데 사용됩니다. 일반적으로 여기에는 두 세트의 숫자 정보를 대조하는 작업이 포함됩니다. Karl Pearson은 범주형 데이터를 분석하고 배포하는 이 방법을 처음 제안했으며 이를 Pearson의 카이-제곱 검정이라고 명명했습니다.

Pearson이 개발한 카이-제곱 검정은 카이-제곱 테이블의 범주 중 하나 이상에서 예측 빈도와 실제 빈도 사이에 유의미한 통계적 차이가 있는지 여부를 평가하기 위해 분할표에서 사용됩니다.

통계적으로 통계학자는 카이-제곱 검정을 사용하여 모델이 데이터에 얼마나 잘 맞는지 확인합니다. 카이제곱 통계에는 충분한 크기의 상호 배타적인 원시 독립 변수 데이터 샘플이 필요합니다.

세계 최고의 대학에서 기계 학습 과정 에 등록하십시오 . 석사, 이그 제 큐 티브 PGP 또는 고급 인증 프로그램을 획득하여 경력을 빠르게 추적하십시오.

목차

카이제곱 검정 기본 용어

카이제곱 검정을 계산하기 위한 표준 공식은 제곱 실수 또는 거짓 긍정의 합을 표본 분산으로 나눈 것입니다. 카이제곱 검정을 사용할 때 구현되는 몇 가지 용어가 있습니다. 이러한 용어는 다음과 같이 정의됩니다.

p-값

p-값은 현재 실험에서와 같거나 더 큰 카이제곱을 달성할 가능성이며 데이터는 여전히 가설을 지지합니다. 이 확률은 백분율로 표시됩니다. 예상되는 변동이 임의의 발생에 의해 발생할 가능성을 나타냅니다.
p-값이 0.05보다 작으면 고려한 가설이 채택됩니다. 값이 0.05보다 크면 가설이 기각됩니다.

자유도

추정 문제는 독립 변수의 수와 동일한 자유도를 갖습니다. 이러한 변수의 값에 대한 엄격한 제한은 없지만 데이터 세트가 추정된 매개변수와 일치하도록 하려면 다른 변수에 대한 제한을 부과합니다.

"자유도"의 한 가지 정의는 데이터 세트에서 논리적으로 서로 독립적이어서 변경될 수 있는 값의 최대 수입니다. 데이터 세트의 총 관측값 수에서 하나를 빼면 자유도가 산출됩니다.

자유도의 개념이 다루어지는 한 가지 두드러진 맥락은 카이-제곱과 같은 통계적 가설 검정의 맥락에서입니다.

카이제곱 통계량의 중요성과 귀무 가설의 견고성을 이해하는 것은 자유도를 정확하게 계산하는 데 크게 의존합니다.

변화

난수 샘플의 분산은 평균 주변의 분산 측정값입니다. 표준편차의 값을 제곱하여 계산합니다.

카이제곱 검정을 수행하기 위한 속성

카이제곱 검정에는 다음과 같은 속성이 있습니다.

  • 평균 분포는 자유도의 수와 같습니다.
  • 분산은 자유도의 두 배와 같아야 합니다.
  • 자유도가 증가함에 따라 카이-제곱 분포 곡선은 정규 분포 곡선, 즉 종형 곡선과 유사해지기 시작합니다.

최고의 기계 학습 과정 및 AI 과정 온라인

LJMU의 기계 학습 및 AI 과학 석사 IIITB의 기계 학습 및 AI 대학원 대학원 프로그램
IIITB의 기계 학습 및 NLP 고급 인증 프로그램 IIITB의 머신 러닝 및 딥 러닝 고급 인증 프로그램 메릴랜드 대학교 데이터 과학 및 머신 러닝의 경영자 포스트 대학원 프로그램
모든 과정을 살펴보려면 아래 페이지를 방문하십시오.
기계 학습 과정

카이제곱 검정을 수행하는 방법은 무엇입니까?

분포에 대한 카이제곱은 아래 공식을 사용하여 계산됩니다.

2 = [(관측값 – 기대값 ) 2 / 기대값]

카이제곱 통계를 계산하기 위해 따라야 할 단계

  1. 관측값과 기대값을 계산합니다.
  2. 분포표의 관측값에서 각 기대값을 뺍니다.
  3. 2단계에서 얻은 각 관측치의 값을 제곱합니다.
  4. 이러한 각 제곱 값을 해당하는 예상 값으로 나눕니다.
  5. 4단계에서 얻은 모든 값을 더하면 카이제곱 통계를 정의하는 값이 됩니다.
  6. 앞서 설명한 카이제곱 검정의 속성 만족을 확인하기 위한 자유도를 계산합니다.

카이-제곱 검정의 유형

핏의 장점

모집단의 표본이 전체를 얼마나 잘 나타내는지 확인하려면 카이제곱 적합도 검정을 적용할 수 있습니다. 이 기법을 사용하여 표본 모집단과 예상 표본 모집단을 비교합니다.

독립 테스트

이 카이제곱 검정은 두 개의 범주형 변수 간에 상관 관계가 있는지 여부를 확인하기 위해 한 모집단의 독립성에 대한 검정입니다. 독립 검정은 관측된 단일 매개변수를 이론적인 모집단과 비교하지 않는다는 점에서 적합도 검정과 다릅니다. 대신 독립성 테스트는 샘플 세트 내의 두 값을 서로 비교합니다.

균질성 테스트

독립성 검정과 마찬가지로 동질성 검정도 동일한 형식과 절차를 따릅니다. 둘 사이의 중요한 차이점은 동질성 검정이 변수가 많은 모집단에 걸쳐 동일한 분포를 갖는지 여부를 검사한다는 것입니다. 대조적으로 독립성 검정은 유사한 모집단 내에서 두 범주형 변수 간의 연결이 있는지를 조사합니다.

카이제곱 검정은 언제 사용해야 합니까?

카이제곱 검정은 실제 값이 이론적 확률과 일치하는지 여부를 확인합니다. 카이제곱은 분석 중인 데이터가 무작위 표본에서 추출되고 문제의 변수가 범주형일 때 사용할 수 있는 가장 신뢰할 수 있는 검정입니다.

주문형 머신 러닝 기술

인공 지능 과정 Tableau 과정
NLP 과정 딥 러닝 코스

카이제곱 검정은 어디에 사용됩니까?

마케팅 회사의 예를 들어보겠습니다.
한 마케팅 회사에서 소비자 지역과 브랜드 선택 간의 상관 관계를 살펴보고 있습니다. 결과적으로 카이-제곱은 중요한 역할을 하며, 통계의 가치는 기업이 수익을 극대화하기 위해 지역 전반에 걸쳐 마케팅 접근 방식을 조정할 수 있는 방법을 알려줄 것입니다.
데이터를 분석할 때 카이제곱 검정은 고려 중인 적합도 모형뿐만 아니라 범주형 변수의 일관성이나 독립성을 확인하는 데 유용합니다.

유사하게, 카이-제곱 통계는 의료 분야에서 사용될 수 있습니다. 카이제곱 검정은 대조군과 비교하여 약의 효능을 판단하는 데 적합합니다.

인기 있는 기계 학습 및 인공 지능 블로그

IoT: 역사, 현재 및 미래 기계 학습 자습서: ML 배우기 알고리즘이란 무엇입니까? 간단하고 쉬운
인도 로봇 공학 엔지니어 급여 : 모든 역할 기계 학습 엔지니어의 하루: 그들은 무엇을 하나요? 사물인터넷(IoT)이란
순열 대 조합: 순열과 조합의 차이점 인공 지능 및 기계 학습의 상위 7가지 트렌드 R을 사용한 기계 학습: 알아야 할 모든 것

결론

이 기사에서는 카이제곱 통계량과 그 값을 계산하는 방법에 대해 배웠습니다. 카이제곱은 범주형 변수와 함께 작동하므로 설문 응답 데이터를 조사하는 학계에서 자주 사용합니다. 이러한 형태의 연구는 사회학, 심리학, 경제학, 정치학 및 마케팅을 포함한 많은 분야에서 일반적입니다.

upGrad로 기계 학습 및 AI 과학 석사 학위 취득

당신은 마침내 과학 석사를 취득하기 위해 찾고 있습니까? upGrad는 IIIT-B 및 리버풀 존 무어스 대학교와 협력하여 가능한 한 가장 선별된 과정을 제공합니다. 기계 학습 및 AI의 과학 석사 과정을 통해 자연어 처리, 딥 러닝, 강화 학습 등과 같은 ML 및 AI 분야에서 요구되는 모든 기술을 배우게 됩니다.

자격 기준:

  • 학사 학위 50% 수료
  • IIIT-B 의 기계 학습 및 AI 대학원 대학원 과정 수료
  • 최소 1년 경력자 우대

이 과정이 제공하는 것:

  • 배울 수 있는 750시간 이상의 코스 자료
  • 일하는 전문가를 위해 설계
  • 15개 이상의 과제 및 사례 연구
  • 12개 이상의 프로젝트 중 6개는 캡스톤 프로젝트
  • 라이브 코딩 수업
  • 프로필 구축 워크샵
  • 커리어 부트캠프
  • 일대일 고성능 코칭
  • 일대일 진로 멘토링 세션
  • 독점 취업 기회
  • 맞춤형 산업 세션

p-값은 카이-제곱 검정과 어떤 관련이 있습니까?

p-값은 검정 통계량 값의 오른쪽에 있는 카이제곱 밀도 곡선 아래 영역입니다. 카이-제곱 검정 통계량이 귀무 가설을 기각할 만큼 충분히 큰지 여부는 카이-제곱 유의성 검정의 마지막 단계입니다. 이를 위해 p-값이 사용됩니다.

카이제곱 검정을 사용하는 데 제한 사항이나 단점이 있습니까?

연구 대상인 모든 개인은 고유해야 합니다. 그렇지 않으면 결과가 의미가 없습니다. 주어진 응답자가 두 개의 별개 그룹으로 분류될 수 있는 경우 카이-제곱 검정을 사용해서는 안 됩니다. 카이제곱의 또 다른 제한은 주파수 데이터에만 사용할 수 있다는 것입니다. 또한 모든 클래스에서 예측된 모든 사람의 합계는 5보다 커야 합니다.

카이제곱 검정의 장점은 무엇입니까?

주요 장점 중 하나는 카이제곱을 빠르고 쉽게 계산할 수 있다는 것입니다. 이 방법을 사용하여 명목 데이터를 사용할 수도 있습니다. 또한 통계적 유의성을 위해 범주형 변수 그룹을 두 개 이상 비교하는 데 사용할 수도 있습니다.