2022년에 반드시 알아야 할 지도 학습의 6가지 유형

게시 됨: 2021-01-10

머신 러닝은 인공 지능의 가장 일반적인 응용 프로그램 중 하나입니다. 기계는 제공된 데이터에서 작업을 실행하는 방법을 학습합니다. 그리고 경험을 통해 주어진 작업에서 성능이 향상됩니다. 머신 러닝에는 지도, 비지도 및 강화 학습 기술이 포함됩니다. 기계 학습 유형에 대해 자세히 알아보세요.

이 기사에서는 다양한 유형의 지도 학습 살펴보겠습니다 .

목차

지도 학습이란 무엇입니까?

지도 학습에서 기계는 '레이블이 지정된' 데이터를 사용하여 학습됩니다. 데이터 세트는 입력 및 출력 매개변수를 모두 포함할 때 레이블이 지정된다고 합니다. 즉, 데이터에 이미 정답이 태그되어 있습니다.

따라서 이 기술은 학생이 감독자나 교사 앞에서 배우는 교실 환경을 모방합니다. 반면에 비지도 학습 알고리즘은 모델이 스스로 정보를 발견하고 학습하도록 합니다.

지도 머신 러닝은 실제 계산 문제를 해결하는 데 매우 유용합니다. 이 알고리즘은 레이블이 지정된 훈련 데이터에서 학습하여 예상치 못한 데이터의 결과를 예측합니다. 따라서 이러한 모델을 구축하고 배포하려면 고도로 숙련된 데이터 과학자가 필요합니다. 시간이 지남에 따라 데이터 과학자들은 주어진 통찰력의 무결성을 유지하기 위해 모델을 재구축하기 위해 기술 전문성을 사용합니다.

어떻게 작동합니까?

예를 들어 사무실과 집 사이의 통근 시간을 예측하는 기계를 훈련하려고 합니다. 먼저 날씨, 시간, 선택한 경로 등과 같이 입력 데이터를 구성하는 레이블이 지정된 데이터 세트를 생성합니다. 그리고 출력은 특정 날짜에 집으로 돌아가는 예상 소요 시간이 될 것입니다.

훈련 세트를 생성하면 해당 요소를 기반으로 하며, 기계는 데이터 포인트 간의 관계를 확인하고 이를 사용하여 집으로 운전하는 데 걸리는 시간을 확인합니다. 예를 들어, 모바일 애플리케이션은 폭우가 내리면 이동 시간이 더 길어질 것이라고 알려줄 수 있습니다.

기계는 퇴근 시간과 같이 레이블이 지정된 데이터에서 다른 연결을 볼 수도 있습니다. 러시아워 교통량이 도로에 도달하기 전에 출발하면 더 일찍 집에 도착할 수 있습니다. 비지도 머신 러닝이 어떻게 작동하는지 알고 싶다면 더 읽어보세요.

이제 다른 실제 사례를 통해 지도 학습을 이해하려고 노력해 보겠습니다. 과일 바구니가 있고 모든 종류의 과일로 기계를 훈련시킨다고 가정합니다. 훈련 데이터에는 다음 시나리오가 포함될 수 있습니다.

  • 물체가 빨간색이고 모양이 둥글며 상단에 움푹 들어간 부분이 있는 경우 '사과'라는 레이블을 지정합니다.
  • 품목이 녹색을 띤 노란색이고 구부러진 원통 모양인 경우 '바나나'로 표시하십시오.

다음으로, 새로운 물체(테스트 데이터)를 주고 기계에게 그것이 바나나인지 사과인지 식별하도록 요청합니다. 훈련 데이터를 학습하고 지식을 적용하여 입력된 색상과 모양에 따라 과일을 분류합니다.

다양한 유형의 지도 학습

1. 회귀

회귀에서는 훈련 데이터를 사용하여 단일 출력 값이 생성됩니다. 이 값은 확률적 해석으로 입력변수 간의 상관관계의 강도를 고려하여 결정한다. 예를 들어 회귀는 지역, 크기 등을 기반으로 주택 가격을 예측하는 데 도움이 될 수 있습니다.

로지스틱 회귀 분석에서 출력에는 독립 변수 집합을 기반으로 하는 이산 값이 있습니다. 이 방법은 비선형 및 다중 결정 경계를 처리할 때 허울 수 있습니다. 또한 데이터 세트에서 복잡한 관계를 캡처할 만큼 유연하지 않습니다.

2. 분류

여기에는 데이터를 클래스로 그룹화하는 작업이 포함됩니다. 한 사람에게 신용을 연장하려는 경우 분류를 사용하여 해당 사람이 대출 불이행자가 될 것인지 여부를 결정할 수 있습니다. 지도 학습 알고리즘이 입력 데이터를 두 개의 개별 클래스로 레이블링할 때 이진 분류라고 합니다. 다중 분류는 데이터를 두 개 이상의 클래스로 분류하는 것을 의미합니다.

3. 나이브 베이지안 모델

베이지안 분류 모델은 대규모 유한 데이터 세트에 사용됩니다. 직접 비순환 그래프를 사용하여 클래스 레이블을 할당하는 방법입니다. 그래프는 하나의 상위 노드와 여러 하위 노드로 구성됩니다. 그리고 각 자식 노드는 부모와 독립적이고 분리된 것으로 가정합니다.

의사결정나무

의사 결정 트리는 의사 결정 및 가능한 결과로 구성된 조건부 제어 문을 포함하는 순서도와 같은 모델입니다. 출력은 예상치 못한 데이터의 레이블 지정과 관련됩니다.

트리 표현에서 리프 노드는 클래스 레이블에 해당하고 내부 노드는 속성을 나타냅니다. 의사 결정 트리를 사용하여 불연속 속성과 부울 함수 문제를 해결할 수 있습니다. 주목할만한 결정 트리 알고리즘 중 일부는 ID3 및 CART입니다.

4. 랜덤 포레스트 모델

랜덤 포레스트 모델은 앙상블 방법입니다. 그것은 다수의 결정 트리를 구성하여 작동하고 개별 트리의 분류를 출력합니다. 대학원 관리 프로그램에 입학하기 위해 치르는 시험인 GMAT에서 어떤 학부생이 좋은 성적을 낼지 예측하고 싶다고 가정해 보겠습니다. 무작위 포리스트 모델은 이전에 시험을 치른 학생 집합의 인구 통계학적 및 교육적 요인을 고려하여 작업을 수행합니다.

5. 신경망

이 알고리즘은 원시 입력을 클러스터링하거나 패턴을 인식하거나 감각 데이터를 해석하도록 설계되었습니다. 여러 장점에도 불구하고 신경망에는 상당한 계산 리소스가 필요합니다. 수천 개의 관찰이 있는 경우 신경망을 맞추는 것이 복잡해질 수 있습니다. 예측 이면의 논리를 해석하는 것이 어려울 수 있으므로 '블랙박스' 알고리즘이라고도 합니다.

읽기 : 2020년 상위 10개의 신경망 아키텍처

6. 서포트 벡터 머신

SVM(Support Vector Machine)은 1990년에 개발된 지도 학습 알고리즘입니다. Vap Nick이 개발한 통계 학습 이론을 기반으로 합니다.

SVM은 초평면을 분리하여 판별 분류기로 만듭니다. 출력은 새로운 예를 분류하는 최적의 초평면 형태로 생성됩니다. SVM은 커널 프레임워크와 밀접하게 연결되어 다양한 분야에서 활용되고 있습니다. 몇 가지 예로는 생물정보학, 패턴 인식 및 멀티미디어 정보 검색이 있습니다.

지도 학습의 장단점

여러 유형의 지도 학습 을 통해 이전 경험에서 데이터를 수집하고 생성할 수 있습니다. 성능 기준 최적화에서 실제 문제 처리에 이르기까지 지도 학습은 AI 분야에서 강력한 도구로 부상했습니다. 또한 비지도 학습과 비교하여 더 신뢰할 수 있는 방법입니다. 이 방법은 경우에 따라 계산이 복잡하고 덜 정확할 수 있습니다.

그러나 지도 학습에 한계가 없는 것은 아닙니다. 분류기를 훈련하려면 구체적인 예가 필요하며 올바른 예가 없을 경우 결정 경계가 과도하게 훈련될 수 있습니다. 빅 데이터를 분류하는 데 어려움을 겪을 수도 있습니다.

합산

지도 학습의 길고 짧은 것은 레이블이 지정된 데이터를 사용하여 기계를 훈련한다는 것입니다. 회귀 기술과 분류 알고리즘은 신뢰성이 높고 여러 응용 프로그램이 있는 예측 모델을 개발하는 데 도움이 됩니다.

지도 학습을 위해서는 전문가가 모델을 구축, 확장 및 업데이트해야 합니다. 기술적인 숙련도가 없는 경우 입력 변수를 결정하기 위해 무차별 대입이 적용될 수 있습니다. 이는 부정확한 결과를 초래할 수 있습니다. 따라서 지도 학습이 효과적으로 작동하려면 관련 데이터 기능을 선택하는 것이 중요합니다.

먼저 훈련 세트에 필요한 데이터를 결정하고 학습된 기능과 알고리즘을 계속 구조화하고 전문가 및 측정 결과를 수집해야 합니다. 이러한 모범 사례는 모델의 정확성을 지원하는 데 큰 도움이 될 수 있습니다.

인공 지능과 기계 학습이 오늘날의 기술 지향적인 세계에서 속도를 내기 시작하면서 지도 학습의 유형에 대해 아는 것은 모든 분야에서 중요한 차별화 요소가 될 수 있습니다. 위의 설명은 첫 번째 단계를 수행하는 데 도움이 될 것입니다!

기계 학습에 대해 자세히 알아보려면 IIIT-B 및 upGrad의 기계 학습 및 AI PG 디플로마를 확인하세요. 이 PG 디플로마는 일하는 전문가를 위해 설계되었으며 450시간 이상의 엄격한 교육, 30개 이상의 사례 연구 및 과제, IIIT- B 동문 자격, 5개 이상의 실용적인 실습 캡스톤 프로젝트 및 최고의 기업과의 취업 지원.

세계 최고의 대학에서 ML 과정배우십시오 . 석사, 이그 제 큐 티브 PGP 또는 고급 인증 프로그램을 획득하여 경력을 빠르게 추적하십시오.

지도 학습의 의미는 무엇입니까?

머신러닝은 지도 학습에서 '레이블이 지정된' 데이터를 사용하여 학습합니다. 데이터세트에 입력 및 출력 매개변수가 모두 있는 경우 레이블이 지정된 것으로 간주됩니다. 다시 말해서 정보에는 이미 올바른 응답으로 레이블이 지정되어 있습니다. 실제 계산 문제에서 지도 머신 러닝은 매우 유용합니다. 시스템은 레이블이 지정된 훈련 데이터에서 학습하여 예상치 못한 데이터의 결과를 예측합니다. 결과적으로 이러한 모델을 구축하고 배포하려면 고도로 숙련된 데이터 과학자의 전문성이 필요합니다. 데이터 과학자는 제공된 통찰력의 유효성을 유지하기 위해 시간이 지남에 따라 모델을 구성하는 데 기술 지식을 활용합니다.

분류와 회귀의 차이점은 무엇입니까?

훈련 데이터를 사용하여 회귀는 단일 출력 값을 생성합니다. 이것은 입력 변수 간의 상관 강도를 고려하여 결정된 확률론적 해석입니다. 예를 들어 회귀는 위치, 크기 및 기타 요소를 기반으로 주택 가격을 예측하는 데 도움이 될 수 있습니다. 데이터를 분류하는 행위는 데이터를 범주로 나누는 것을 수반합니다. 범주화를 사용하여 신용 제공을 고려 중인 경우 해당 개인이 대출을 불이행할지 여부를 평가할 수 있습니다. 이진 분류는 지도 학습 알고리즘이 입력 데이터를 두 개의 개별 클래스로 분류할 때 발생합니다. 다중 분류는 정보를 두 개 이상의 그룹으로 나누는 것을 말합니다.

랜덤 포레스트란?

앙상블 방법은 랜덤 포레스트 모델입니다. 많은 수의 의사 결정 트리를 만든 다음 개별 트리를 분류하여 작동합니다. 관리 대학원 입학에 필요한 시험인 GMAT에서 어떤 대학생이 좋은 성적을 낼지 알고 싶다고 가정해 보겠습니다. 이전에 시험을 치른 학생 그룹의 인구통계학적 및 교육적 특성을 감안할 때 임의의 숲 모델은 작업을 완료할 수 있습니다.