데이터 마이닝에서 의사 결정 트리란 무엇입니까? 유형, 실제 사례 및 응용 프로그램

게시 됨: 2021-06-15

목차

데이터 마이닝 소개

데이터는 종종 유용한 정보로 변환하기 위해 효과적으로 처리되어야 하는 원시 데이터로 존재합니다. 결과 예측은 데이터 내에서 패턴, 이상 또는 상관 관계를 찾는 프로세스에 의존하는 경우가 많습니다. 이 과정을 "데이터베이스의 지식 발견"이라고 했습니다.

1990년대에 들어서야 데이터 마이닝이라는 용어가 만들어졌습니다. 데이터 마이닝은 통계, 인공 지능 및 기계 학습의 세 가지 분야에 걸쳐 설립되었습니다. 자동화된 데이터 마이닝은 분석 프로세스를 지루한 접근 방식에서 더 빠른 접근 방식으로 전환했습니다. 데이터 마이닝을 통해 사용자는

    • 모든 시끄럽고 혼란스러운 데이터 제거
    • 관련 데이터를 이해하고 유용한 정보 예측에 활용합니다.
    • 정보에 입각한 결정을 예측하는 프로세스가 가속화 됩니다.

데이터 마이닝은 분류가 필요한 정보의 숨겨진 패턴을 식별하는 프로세스라고도 할 수 있습니다. 그래야만 데이터를 유용한 데이터로 변환할 수 있습니다. 유용한 데이터는 데이터 웨어하우스, 데이터 마이닝 알고리즘, 의사 결정을 위한 데이터 분석에 제공될 수 있습니다.

데이터 마이닝의 의사 결정 트리

데이터 마이닝 기법의 일종인 데이터 마이닝의 의사결정나무는 데이터 분류 모델을 구축합니다. 모델은 트리 구조의 형태로 구축되므로 지도 학습 형태에 속합니다. 분류 모델 외에 의사 결정 트리는 의사 결정 프로세스를 지원하는 클래스 레이블 또는 값을 예측하기 위한 회귀 모델을 구축하는 데 사용됩니다. 성별, 연령 등과 같은 수치 및 범주 데이터는 모두 의사 결정 트리에서 사용할 수 있습니다.

의사 결정 트리의 구조

의사 결정 트리의 구조는 루트 노드, 분기 및 리프 노드로 구성됩니다. 분기 노드는 트리의 결과이고 내부 노드는 속성에 대한 테스트를 나타냅니다. 리프 노드는 클래스 레이블을 나타냅니다.

의사 결정 트리 작업

1. 의사 결정 트리는 이산 및 연속 변수 모두에 대해 지도 학습 접근 방식에서 작동합니다. 데이터세트는 데이터세트의 가장 중요한 속성을 기준으로 하위 집합으로 분할됩니다. 속성 식별 및 분할은 알고리즘을 통해 수행됩니다.

2. 의사결정 트리의 구조는 중요한 예측 노드인 루트 노드로 구성됩니다. 분할 프로세스는 트리의 하위 노드인 결정 노드에서 발생합니다. 더 이상 분할되지 않는 노드를 리프 또는 터미널 노드라고 합니다.

3. 데이터 세트는 하향식 접근 방식에 따라 동종 영역과 겹치지 않는 영역으로 나뉩니다. 맨 위 레이어는 단일 위치에서 관찰을 제공한 다음 분기로 나뉩니다. 이 과정은 미래 노드가 아닌 현재 노드에만 집중하기 때문에 "그리디 접근"이라고 합니다.

4. 중지 기준에 도달할 때까지 의사결정 트리는 계속 실행됩니다.

5. 의사 결정 트리를 구축하면 많은 노이즈와 이상치가 생성됩니다. 이러한 이상치와 잡음이 있는 데이터를 제거하기 위해 "나무 가지치기(Tree pruning)" 방법이 적용됩니다. 따라서 모델의 정확도가 높아집니다.

6. 테스트 튜플과 클래스 레이블로 구성된 테스트 세트에서 모델의 정확도를 확인합니다. 정확한 모델은 모델별 분류 테스트 세트 튜플 및 클래스의 백분율을 기반으로 정의됩니다.

그림 1 : 가지치기되지 않은 나무와 가지치기된 나무의 예

원천

의사결정나무의 유형

의사결정나무는 나무와 같은 구조를 기반으로 한 분류 및 회귀 모델의 개발로 이어집니다. 데이터는 더 작은 하위 집합으로 나뉩니다. 결정 트리의 결과는 결정 노드와 리프 노드가 있는 트리입니다. 두 가지 유형의 의사 결정 트리가 아래에 설명되어 있습니다.

1. 분류

분류에는 중요한 클래스 레이블을 설명하는 모델 구축이 포함됩니다. 그들은 기계 학습 및 패턴 인식 분야에 적용됩니다. 분류 모델을 통한 머신 러닝의 의사 결정 트리는 사기 탐지, 의료 진단 등으로 이어집니다. 분류 모델의 두 단계 프로세스에는 다음이 포함됩니다.

  • 학습: 학습 데이터를 기반으로 분류 모델이 구축됩니다.
  • 분류: 모델 정확도를 확인한 후 새로운 데이터의 분류에 사용합니다. 클래스 레이블은 "예" 또는 "아니오" 등과 같은 이산 값의 형태입니다.

그림 2 : 분류 모델의 예 .

원천

2. 회귀

회귀 모델은 데이터의 회귀 분석, 즉 수치적 속성의 예측에 사용됩니다. 이를 연속 값이라고도 합니다. 따라서 회귀 모델은 클래스 레이블을 예측하는 대신 연속 값을 예측합니다.

사용된 알고리즘 목록

"ID3"으로 알려진 결정 트리 알고리즘은 J. Ross Quinlan이라는 기계 연구원이 1980년에 개발했습니다. 이 알고리즘은 그가 개발한 C4.5와 같은 다른 알고리즘에 의해 계승되었습니다. 두 알고리즘 모두 탐욕적인 접근 방식을 적용했습니다. 알고리즘 C4.5는 역추적을 사용하지 않으며 트리는 하향식 재귀 분할 및 정복 방식으로 구성됩니다. 알고리즘은 트리가 구성될 때 더 작은 하위 집합으로 분할되는 클래스 레이블이 있는 훈련 데이터 세트를 사용했습니다.

  • 속성 목록, 속성 선택 방법 및 데이터 파티션의 세 가지 매개변수가 초기에 선택됩니다. 훈련 세트의 속성은 속성 목록에 설명되어 있습니다.
  • 속성 선택 방법에는 튜플 간의 구별을 위한 최상의 속성을 선택하는 방법이 포함됩니다.
  • 트리 구조는 속성 선택 방법에 따라 다릅니다.
  • 트리 구성은 단일 노드에서 시작됩니다.
  • 튜플 분할은 서로 다른 클래스 레이블이 튜플에 표시될 때 발생합니다. 이것은 나무의 가지 형성으로 이어질 것입니다.
  • 분할 방법에 따라 데이터 파티션에 대해 선택해야 하는 속성이 결정됩니다. 이 방법을 기반으로 테스트 결과에 따라 노드에서 분기가 성장합니다.
  • 분할 및 분할 방법은 재귀적으로 수행되어 궁극적으로 훈련 데이터 세트 튜플에 대한 의사 결정 트리가 생성됩니다.
  • 트리 형성 과정은 남아 있는 튜플을 더 이상 분할할 수 없을 때까지 계속 진행됩니다.
  • 알고리즘의 복잡성은 다음과 같이 표시됩니다.

n * |D| * 로그 |D|

여기서 n은 훈련 데이터 세트 D 및 |D|의 속성 수입니다. 튜플의 수입니다.

원천

그림 3: 이산 값 분할

의사 결정 트리에 사용되는 알고리즘 목록은 다음과 같습니다.

ID3

전체 데이터 집합 S는 의사결정 트리를 구성하는 동안 루트 노드로 간주됩니다. 그런 다음 모든 속성에 대해 반복을 수행하고 데이터를 조각으로 분할합니다. 알고리즘은 반복된 속성 이전에 가져오지 않은 속성을 확인하고 가져옵니다. ID3 알고리즘에서 데이터를 분할하는 것은 시간이 많이 걸리고 데이터를 과적합하므로 이상적인 알고리즘이 아닙니다.

C4.5

데이터를 샘플로 분류하여 알고리즘의 고급 형태입니다. 연속 값과 불연속 값 모두 ID3와 달리 효율적으로 처리할 수 있습니다. 불필요한 가지를 제거하는 가지 치기 방법이 있습니다.

카트

분류 및 회귀 작업은 모두 알고리즘으로 수행할 수 있습니다. ID3, C4.5와 달리 결정 포인트는 지니 지수를 고려하여 생성됩니다. 비용 함수를 줄이는 것을 목표로 하는 분할 방법에 탐욕 알고리즘이 적용됩니다. 분류 작업에서 Gini 인덱스는 리프 노드의 순도를 나타내는 비용 함수로 사용됩니다. 회귀 작업에서 합계 제곱 오차는 최상의 예측을 찾기 위한 비용 함수로 사용됩니다.

차이드

이름에서 알 수 있듯이 모든 유형의 변수를 처리하는 프로세스인 Chi-square Automatic Interaction Detector의 약자입니다. 명목형, 순서형 또는 연속형 변수일 수 있습니다. 회귀 트리는 F-검정을 사용하는 반면 카이-제곱 검정은 분류 모델에서 사용됩니다.

화성

다변수 적응 회귀 스플라인을 나타냅니다. 알고리즘은 데이터가 대부분 비선형인 회귀 작업에서 특별히 구현됩니다.

욕심 많은 재귀 이진 분할

이진 분할 방법이 발생하여 두 개의 분기가 생성됩니다. 튜플의 분할은 분할 비용 함수의 계산으로 수행됩니다. 가장 낮은 비용 분할이 선택되고 프로세스가 재귀적으로 수행되어 다른 튜플의 비용 함수를 계산합니다.

실제 사례가 있는 의사결정나무

주어진 데이터에서 대출 자격 프로세스를 예측합니다.

1단계: 데이터 로드

null 값은 삭제하거나 일부 값으로 채울 수 있습니다. 원래 데이터 세트의 모양은 (614,13)이었고 null 값을 삭제한 후 새 데이터 세트는 (480,13)입니다.

2 단계: 데이터세트를 살펴봅니다.

3단계: 데이터를 훈련 세트와 테스트 세트로 분할합니다.

4단계: 모델 구축 및 기차 세트 맞추기

시각화하기 전에 몇 가지 계산을 해야 합니다.

계산 1: 전체 데이터 세트의 엔트로피를 계산합니다.

계산 2: 모든 열에 대한 엔트로피와 이득을 찾습니다.

  1. 성별 열
  • 조건 1: 모든 남성이 포함된 데이터 세트,

p = 278, n=116, p+n=489

엔트로피(G=남성) = 0.87

  • 조건 2: 모든 여성이 포함된 데이터 세트,

p = 54 , n = 32 , p+n = 86

엔트로피(G=여성) = 0.95

  • 성별 열의 평균 정보

  1. 기혼 칼럼
  • 조건 1: 기혼 = 예(1)

이 분할에서 결혼 상태가 예인 전체 데이터 세트

p = 227 , n = 84 , p+n = 311

E(기혼 = 예) = 0.84

  • 조건 2: 기혼 = 아니오(0)

이 분할에서 결혼 상태가 아니오인 전체 데이터 세트

p = 105 , n = 64 , p+n = 169

E(기혼 = 아니오) = 0.957

  • 기혼 열의 평균 정보:
  1. 교육 칼럼
  • 조건 1: 학력 = 대학원(1)

p = 271 , n = 112 , p+n = 383

E(학력 = 대학원) = 0.87

  • 조건 2: 학력 = 대학원생 아님(0)

p = 61 , n = 36 , p+n = 97

E(교육 = 대학원 아님) = 0.95

  • 평균 교육 정보 열 = 0.886

이득 = 0.01

4) 자영업 칼럼

  • 조건 1: 자영업 = 예(1)

p = 43 , n = 23 , p+n = 66

E(자영업=예) = 0.93

  • 조건 2: 자영업 = 아니오(0)

p = 289 , n = 125 , p+n = 414

E(자영업=아니오) = 0.88

  • 교육 칼럼의 자영업 평균 정보 = 0.886

이득 = 0.01

  1. 신용 점수 열: 열에는 0과 1 값이 있습니다.
  • 조건 1: 신용 점수 = 1

p = 325 , n = 85 , p+n = 410

E(학점 = 1) = 0.73

  • 조건 2: 신용 점수 = 0

p = 63 , n = 7 , p+n = 70

E(학점 = 0) = 0.46

  • 신용 점수 열의 평균 정보 = 0.69

이득 = 0.2

모든 게인 값 비교

신용 점수가 가장 높습니다. 따라서 루트 노드로 사용됩니다.

5단계: 의사 결정 트리 시각화

그림 5: Gini 기준이 있는 의사결정나무

원천

그림 6: 기준 엔트로피가 있는 의사 결정 트리

원천

6단계: 모델의 점수 확인

거의 80%의 정확도를 기록했습니다.

신청 목록

의사 결정 트리는 주로 정보 전문가가 분석 조사를 수행하는 데 사용합니다. 그들은 어려움을 분석하거나 예측하기 위해 비즈니스 목적으로 광범위하게 사용될 수 있습니다. 의사결정 트리의 유연성 덕분에 다음과 같은 다른 영역에서 사용할 수 있습니다.

1. 헬스케어

의사결정나무를 사용하면 환자가 연령, 체중, 성별 등의 조건으로 특정 질병을 앓고 있는지 여부를 예측할 수 있습니다. 다른 예측에는 구성, 제조 기간 등과 같은 요인을 고려하여 약의 효과를 결정하는 것이 포함됩니다.

2. 은행 부문

의사 결정 트리는 재정 상태, 급여, 가족 구성원 등을 고려하여 대출 자격 여부를 예측하는 데 도움이 됩니다. 또한 신용 카드 사기, 대출 불이행 등을 식별할 수도 있습니다.

3. 교육 부문

학생의 장점 점수, 출석 등을 기반으로 한 학생의 후보자 명단은 결정 트리를 통해 결정할 수 있습니다.

장점 목록

  • 의사 결정 모델의 해석 가능한 결과는 고위 경영진과 이해 관계자에게 표시될 수 있습니다.
  • 의사 결정 트리 모델을 구축하는 동안 데이터의 전처리(예: 정규화, 크기 조정 등)가 필요하지 않습니다.
  • 수치형 데이터와 범주형 데이터의 두 가지 유형 모두 다른 알고리즘보다 사용 효율성이 더 높은 의사결정 트리에서 처리할 수 있습니다.
  • 데이터의 누락된 값은 의사결정 트리의 프로세스에 영향을 미치지 않으므로 유연한 알고리즘이 됩니다.

다음은?

데이터 마이닝에 대한 실무 경험을 얻고 전문가에게 교육을 받는 데 관심이 있다면 upGrad의 데이터 과학 PG 프로그램을 확인하십시오. 이 과정은 최소 자격 기준이 50%이거나 졸업 시 이에 상응하는 합격 점수를 받은 21-45세 내의 모든 연령대를 대상으로 합니다. 일하는 전문가라면 누구나 IIT Bangalore에서 인증한 이 PG 프로그램에 참여할 수 있습니다.

데이터 마이닝에서 의사 결정 트리란 무엇입니까?


의사 결정 트리는 데이터 마이닝에서 모델을 구축하는 방법입니다. 역 이진 트리로 이해할 수 있습니다. 루트 노드, 일부 분기 및 끝에 리프 노드가 포함됩니다.
의사 결정 트리의 각 내부 노드는 속성에 대한 연구를 나타냅니다. 각 구분은 해당 특정 연구 또는 시험의 결과를 나타냅니다. 마지막으로 각 리프 노드는 클래스 태그를 나타냅니다.
의사 결정 트리를 구축하는 주요 목적은 이전 데이터에 대한 판단 절차를 사용하여 특정 클래스를 예측하는 데 사용할 수 있는 이상을 만드는 것입니다.
루트 노드에서 시작하여 루트 변수와 일부 관계를 만들고 해당 값에 동의하는 구분을 만듭니다. 기본 선택에 따라 다음 노드로 이동합니다.

의사 결정 트리에서 사용되는 중요한 노드는 무엇입니까?

데이터 마이닝의 의사 결정 트리는 매우 복잡한 데이터를 처리할 수 있습니다. 모든 의사 결정 트리에는 3개의 중요한 노드 또는 부분이 있습니다. 아래에서 각각에 대해 논의해 보겠습니다.

  • 결정 노드 – 각 결정 노드는 특정 결정을 나타내며 일반적으로 사각형의 도움으로 표시됩니다.
  • 기회 노드 – 일반적으로 기회 또는 혼란을 나타내며 원의 도움으로 표시됩니다.
  • 끝 노드 – 삼각형의 도움으로 표시되며 결과 또는 클래스를 나타냅니다.

이 모든 노드를 연결하면 분할이 생깁니다. 우리는 이러한 노드와 분할을 무한한 횟수로 사용하여 다양한 어려움을 가진 나무를 형성할 수 있습니다.

의사 결정 트리를 사용하면 어떤 이점이 있습니까?

이제 의사결정 트리의 작동을 이해했으므로 데이터 마이닝에서 의사결정 트리를 사용할 때의 몇 가지 이점을 살펴보겠습니다.
1. 다른 방법과 비교할 때 의사 결정 트리는 전처리 중에 데이터 교육을 위해 많은 계산이 필요하지 않습니다.
2. 정보의 안정화는 의사결정나무와 관련이 없습니다.
3. 또한 정보의 확장도 필요하지 않습니다.
4. 데이터셋에서 일부 값이 생략되어도 트리 구성에 지장을 주지 않는다.
5. 이 모델들은 본능적으로 동일합니다. 설명에도 스트레스가 없습니다.