기계 학습의 가설이란 무엇입니까? 가설을 세우는 방법?

게시 됨: 2021-03-12

가설 검정은 많은 분야에 적용할 수 있는 광범위한 주제입니다. 통계를 연구할 때 가설 검정에는 여러 모집단의 데이터가 포함되며 검정은 그 효과가 모집단에 얼마나 중요한지 확인하는 것입니다.

여기에는 p-값을 계산하고 이를 임계값 또는 알파와 비교하는 작업이 포함됩니다. 기계 학습과 관련하여 가설 테스트는 대상에 대한 독립 기능에 가장 근접한 기능을 찾는 작업을 처리합니다. 즉, 입력을 출력에 매핑합니다.

이 튜토리얼을 마치면 다음을 알게 될 것입니다.

통계 대 기계 학습의 가설이란 무엇입니까?
가설 공간이란 무엇입니까?
가설을 형성하는 과정

통계의 가설

가설은 반증할 수 있는 결과에 대한 가정입니다. 즉, 일부 증거에 의해 잘못된 것으로 입증될 수 있습니다. A 가설은 기각되거나 기각되지 않을 수 있습니다. 통계의 가설은 모두 확률에 관한 것이고 100% 확실하지 않기 때문에 결코 받아들이지 않습니다. 실험을 시작하기 전에 두 가지 가설을 정의합니다.

1. 귀무가설 : 유의한 영향이 없다고 함

2. 대립가설: 유의미한 영향이 있음을 나타냄

통계에서 우리는 P-값(다양한 유형의 통계 테스트를 사용하여 계산됨)을 임계값 또는 알파와 비교합니다. P-값이 클수록 가능성이 높아져 효과가 유의하지 않음을 나타내며 귀무 가설을 기각하지 못한다 는 결론을 내립니다 .

즉, 효과는 우연히 발생했을 가능성이 높고 통계적 유의성이 없습니다. 반면에 P-값이 매우 작다는 것은 가능성이 작다는 것을 의미합니다. 즉, 사건이 우연히 발생할 확률은 매우 낮습니다.

세계 최고의 대학에서 온라인으로 ML 및 AI 과정 (석사, 대학원 대학원 프로그램, ML 및 AI 고급 인증 프로그램)에 참여하여 경력을 빠르게 추적하십시오 .

유의수준

유의 수준은 실험을 시작하기 전에 설정됩니다. 이것은 오류 허용 범위가 어느 정도인지 정의하고 어느 수준에서 효과가 유의미하다고 간주될 수 있는지 정의합니다. 유의 수준의 일반적인 값은 95%이며 이는 테스트에 속아 오류를 범할 확률이 5%임을 의미합니다. 즉, 임계값은 임계값으로 작용하는 0.05입니다. 마찬가지로 유의 수준을 99%로 설정하면 임계값 0.01%를 의미합니다.

P-값

모집단과 표본에 대해 통계적 테스트를 수행하여 P-값을 찾은 다음 임계값과 비교합니다. P-값이 임계값보다 작으면 효과가 유의하다는 결론을 내릴 수 있으므로 귀무 가설(유의한 효과가 없다는)을 기각할 수 있습니다. P-Value가 임계값 이상으로 나오면 유의미한 영향이 없다고 결론지을 수 있어 귀무가설을 기각할 수 없다.

이제 우리는 100% 확신할 수 없기 때문에 테스트가 정확하지만 결과가 오도될 가능성이 항상 있습니다. 이것은 null이 실제로 틀리지 않을 때 null을 거부한다는 것을 의미합니다. 또한 null이 실제로 false일 때 null을 거부하지 않는다는 의미일 수도 있습니다. 이것은 가설검정의 제1종 오류와 제2종 오류입니다.

예시

당신이 백신 제조업체에서 일하고 있고 당신의 팀이 Covid-19용 백신을 개발하고 있다고 생각해 보십시오. 이 백신의 효능을 입증하기 위해서는 사람에게 효과가 있음을 통계적으로 입증해야 합니다. 따라서 우리는 크기와 속성이 같은 두 그룹의 사람들을 선택합니다. A그룹에는 백신을 접종하고 B그룹에는 위약을 투여합니다. A그룹에 몇 명, B그룹에 몇 명이나 감염되었는지 분석을 합니다.

우리는 그룹 A가 코로나19에 대해 상당한 면역을 발달시켰는지 여부를 확인하기 위해 이것을 여러 번 테스트합니다. 이러한 모든 검정에 대해 P-값을 계산하고 P-값이 항상 임계값보다 작다는 결론을 내립니다. 따라서 귀무 가설을 안전하게 기각하고 실제로 유의한 효과가 있다는 결론을 내릴 수 있습니다.

읽기: 기계 학습 모델 설명

기계 학습의 가설

머신 러닝의 가설은 지도 머신 러닝에서 입력을 출력으로 가장 잘 매핑하는 함수를 찾아야 할 때 사용됩니다. 이는 기능을 대상에 가장 잘 매핑하는 대상 함수를 근사화하고 있기 때문에 함수 근사라고도 할 수 있습니다.

1. 가설(h): 가설은 기능을 대상에 매핑하는 단일 모델일 수 있지만 결과/메트릭이 될 수 있습니다. 가설은 " h "로 표시됩니다.

2. 가설 공간(H): 가설 공간은 데이터를 모델링하는 데 사용할 수 있는 모델 및 가능한 매개변수의 완전한 범위입니다. " H "로 표시됩니다. 즉, 가설은 가설 공간의 하위 집합입니다.

가설을 형성하는 과정

본질적으로 우리는 훈련 데이터(독립적인 특징과 목표)와 특징을 목표에 매핑하는 목표 함수를 가지고 있습니다. 그런 다음 하이퍼파라미터 공간의 다양한 구성 유형을 사용하여 다양한 유형의 알고리즘에서 실행되어 최상의 결과를 생성하는 구성을 확인합니다. 학습 데이터는 가설 공간에서 최상의 가설을 공식화하고 찾는 데 사용됩니다. 테스트 데이터는 가설에 의해 생성된 결과를 검증하거나 검증하는 데 사용됩니다.

10개의 기능과 하나의 대상이 있는 10000개의 인스턴스 데이터 세트가 있는 예를 생각해 보십시오. 대상은 이진 분류 문제임을 의미하는 이진입니다. 이제 Logistic Regression을 사용하여 이 데이터를 모델링하고 78%의 정확도를 얻습니다. 두 클래스를 구분하는 회귀선을 그릴 수 있습니다. 이것은 가설(h)이다. 그런 다음 테스트 데이터에서 이 가설을 테스트하고 74%의 점수를 얻습니다.

이제 동일한 데이터에 대해 RandomForests 모델을 적합하고 85%의 정확도 점수를 얻었다고 다시 가정합니다. 이것은 이미 Logistic Regression보다 좋은 개선 사항입니다. 이제 동일한 데이터에서 더 나은 점수를 얻기 위해 RandomForests의 하이퍼파라미터를 조정하기로 결정했습니다. 그리드 검색을 수행하고 데이터에 대해 여러 RandomForest 모델을 실행하고 성능을 확인합니다. 이 단계에서는 본질적으로 더 나은 기능을 찾기 위해 가설 공간(H)을 검색합니다. 그리드 검색을 완료한 후 최고점수 89%를 얻어 검색을 종료합니다.

이제 XGBoost, Support Vector Machine 및 Naive Bayes 정리와 같은 더 많은 모델을 사용하여 동일한 데이터에서 성능을 테스트합니다. 그런 다음 가장 성능이 좋은 모델을 선택하고 테스트 데이터에서 테스트하여 성능을 검증하고 87%의 점수를 얻습니다.

체크아웃: 기계 학습 프로젝트 및 주제

가기 전에

가설은 기계 학습 및 데이터 과학의 중요한 측면입니다. 이는 분석의 모든 영역에 존재하며 변경을 도입해야 하는지 여부를 결정하는 요소입니다. 제약, 소프트웨어, 판매 등이 될 수 있습니다. 가설은 가설 공간에서 모델의 성능을 확인하기 위해 전체 교육 데이터 세트를 다룹니다.

가설은 반증 가능해야 합니다. 즉, 결과가 반대되는 경우 테스트하고 틀렸음을 증명할 수 있어야 합니다. 모델의 최상의 구성을 검색하는 프로세스는 다양한 구성을 확인해야 하는 경우 시간이 많이 걸립니다. 하이퍼파라미터의 랜덤 검색과 같은 기술을 사용하여 이 프로세스의 속도를 높이는 방법도 있습니다.

머신 러닝에 대해 자세히 알아보려면 IIIT-B & upGrad의 기계 학습 및 AI 경영자 PG 프로그램을 확인하세요. 이 프로그램은 일하는 전문가를 위해 설계되었으며 450시간 이상의 엄격한 교육, 30개 이상의 사례 연구 및 과제, IIIT를 제공합니다. -B 동문 자격, 5개 이상의 실용적인 실습 캡스톤 프로젝트 및 최고의 기업과의 취업 지원.

왜 우리는 오픈 소스 프로젝트를 해야 합니까?

오픈 소스 프로젝트를 하는 데에는 여러 가지 이유가 있습니다. 당신은 새로운 것을 배우고, 다른 사람들을 돕고, 다른 사람들과 네트워킹하고, 평판을 만들고 있습니다. 오픈 소스는 재미있고 결국에는 무언가를 얻게 될 것입니다. 가장 중요한 이유 중 하나는 회사에 발표하고 고용할 수 있는 훌륭한 작업 포트폴리오를 구축하기 때문입니다. 오픈 소스 프로젝트는 새로운 것을 배울 수 있는 훌륭한 방법입니다. 소프트웨어 개발에 대한 지식을 향상시키거나 새로운 기술을 배울 수 있습니다. 가르치는 것보다 더 좋은 학습 방법은 없습니다.

초보자로서 오픈 소스에 기여할 수 있습니까?

네. 오픈 소스 프로젝트는 차별하지 않습니다. 오픈 소스 커뮤니티는 코드 작성을 좋아하는 사람들로 구성되어 있습니다. 뉴비를 위한 자리는 항상 있습니다. 많은 것을 배우게 될 것이며 다양한 오픈 소스 프로젝트에 참여할 기회도 갖게 될 것입니다. 작동하는 것과 작동하지 않는 것을 배우고 대규모 개발자 커뮤니티에서 코드를 사용할 수 있는 기회도 갖게 됩니다. 항상 새로운 기여자를 찾고 있는 오픈 소스 프로젝트 목록이 있습니다.

GitHub 프로젝트는 어떻게 작동합니까?

GitHub는 개발자에게 프로젝트를 관리하고 서로 협업할 수 있는 방법을 제공합니다. 또한 프로젝트의 기여자, 문서 및 릴리스가 나열된 일종의 개발자 이력서 역할을 합니다. 프로젝트에 대한 기여는 잠재적인 고용주에게 귀하가 팀에서 일할 수 있는 기술과 동기를 가지고 있음을 보여줍니다. 프로젝트는 종종 코드 그 이상이므로 GitHub에는 웹 사이트를 구성하는 것처럼 프로젝트를 구성할 수 있는 방법이 있습니다. 지점으로 웹사이트를 관리할 수 있습니다. 브랜치는 웹사이트의 실험이나 사본과 같습니다. 새로운 기능을 실험하거나 수정하고 싶을 때 분기를 만들고 그곳에서 실험합니다. 실험이 성공하면 분기를 원래 웹 사이트에 다시 병합할 수 있습니다.