Ce este Decision Tree în Data Mining? Tipuri, exemple din lumea reală și aplicații

Publicat: 2021-06-15

Cuprins

Introducere în Data Mining

Datele sunt adesea prezente ca date brute care trebuie procesate eficient pentru a le converti în informații utile. Predicția rezultatelor se bazează adesea pe procesul de găsire a modelelor, anomaliilor sau corelațiilor în cadrul datelor. Procesul a fost numit „descoperirea cunoștințelor în baze de date”.

Abia în anii 1990 a fost inventat termenul „mining de date”. Miningul de date a fost fondat pe trei discipline: statistică, inteligență artificială și învățare automată. Exploatarea automată a datelor a schimbat procesul de analiză de la o abordare plictisitoare la una mai rapidă. Exploatarea datelor permite utilizatorului

    • Eliminați toate datele zgomotoase și haotice
    • Înțelegeți datele relevante și utilizați-le pentru prezicerea informațiilor utile.
    • Procesul de predicție a deciziilor informate este accelerat .

Exploatarea datelor poate fi denumită și procesul de identificare a tiparelor ascunse de informații care necesită clasificare. Numai atunci datele pot fi convertite în date utile. Datele utile pot fi introduse într-un depozit de date, algoritmi de extragere a datelor, analiza datelor pentru luarea deciziilor.

Arborele de decizie în data mining

Un tip de tehnică de data mining, Arborele de decizie în data mining construiește un model pentru clasificarea datelor. Modelele sunt construite sub forma structurii arborescente și, prin urmare, aparțin formei de învățare supravegheată. În afară de modelele de clasificare, arborii de decizie sunt utilizați pentru a construi modele de regresie pentru prezicerea etichetelor de clasă sau a valorilor care ajută procesul de luare a deciziilor. Atât datele numerice, cât și cele categoriale, cum ar fi sexul, vârsta etc., pot fi utilizate de un arbore de decizie.

Structura unui arbore de decizie

Structura unui arbore de decizie constă dintr-un nod rădăcină, ramuri și noduri frunză. Nodurile ramificate sunt rezultatele unui arbore, iar nodurile interne reprezintă testul asupra unui atribut. Nodurile frunză reprezintă o etichetă de clasă.

Funcționarea unui arbore de decizie

1. Un arbore de decizie funcționează sub abordarea învățării supravegheate atât pentru variabile discrete, cât și pentru variabile continue. Setul de date este împărțit în subseturi pe baza celui mai semnificativ atribut al setului de date. Identificarea atributului și împărțirea se face prin algoritmi.

2. Structura arborelui de decizie constă din nodul rădăcină, care este nodul predictor semnificativ. Procesul de divizare are loc din nodurile de decizie care sunt sub-nodurile arborelui. Nodurile care nu se împart în continuare sunt denumite noduri de frunză sau terminale.

3. Setul de date este împărțit în regiuni omogene și care nu se suprapun în urma unei abordări de sus în jos. Stratul superior oferă observațiile într-un singur loc care apoi se împarte în ramuri. Procesul este denumit „Abordare lacomă” datorită concentrării sale doar asupra nodului actual, mai degrabă decât asupra nodurilor viitoare.

4. Până când și dacă nu se atinge un criteriu de oprire, arborele de decizie va continua să ruleze.

5. Odată cu construirea unui arbore de decizie, se generează mult zgomot și valori aberante. Pentru a elimina aceste valori aberante și date zgomotoase, se aplică o metodă de „Tăiere a copacilor”. Prin urmare, acuratețea modelului crește.

6. Acuratețea unui model este verificată pe un set de testare format din tupluri de testare și etichete de clasă. Un model precis este definit pe baza procentelor de tuplu și clase ale setului de test de clasificare de către model.

Figura 1 : Un exemplu de copac netuns și tăiat

Sursă

Tipuri de arbore decizional

Arborele de decizie duc la dezvoltarea modelelor de clasificare și regresie bazate pe o structură asemănătoare arborelui. Datele sunt împărțite în subseturi mai mici. Rezultatul unui arbore de decizie este un arbore cu noduri de decizie și noduri de frunze. Două tipuri de arbori de decizie sunt explicate mai jos:

1. Clasificare

Clasificarea include construirea de modele care descriu etichete importante de clasă. Ele sunt aplicate în domeniile învățării automate și recunoașterii modelelor. Arborele de decizie în învățarea automată prin modele de clasificare duc la detectarea fraudei, diagnosticarea medicală etc. Procesul în două etape a unui model de clasificare include:

  • Învățare: se construiește un model de clasificare bazat pe datele de antrenament.
  • Clasificare: acuratețea modelului este verificată și apoi utilizată pentru clasificarea noilor date. Etichetele de clasă sunt sub formă de valori discrete precum „da” sau „nu”, etc.

Figura 2 : Exemplu de model de clasificare .

Sursă

2. Regresia

Modelele de regresie sunt folosite pentru analiza de regresie a datelor, adică predicția atributelor numerice. Acestea se mai numesc și valori continue. Prin urmare, în loc să prezică etichetele clasei, modelul de regresie prezice valorile continue.

Lista algoritmilor utilizați

Un algoritm de arbore de decizie cunoscut sub numele de „ID3” a fost dezvoltat în 1980 de un cercetător de mașini pe nume, J. Ross Quinlan. Acest algoritm a fost succedat de alți algoritmi precum C4.5 dezvoltat de el. Ambii algoritmi au aplicat abordarea greedy. Algoritmul C4.5 nu folosește backtracking și copacii sunt construiți într-o manieră recursivă de sus în jos împărți și cuceri. Algoritmul a folosit un set de date de antrenament cu etichete de clasă care sunt împărțite în subseturi mai mici pe măsură ce arborele este construit.

  • Sunt selectați inițial trei parametri: lista de atribute, metoda de selecție a atributelor și partiția de date. Atributele setului de antrenament sunt descrise în lista de atribute.
  • Metoda de selecție a atribuirii include metoda de selecție a celui mai bun atribut pentru discriminarea între tupluri.
  • O structură arborescentă depinde de metoda de selecție a atributelor.
  • Construcția unui arbore începe cu un singur nod.
  • Divizarea tuplurilor are loc atunci când într-un tuplu sunt reprezentate diferite etichete de clasă. Acest lucru va duce la formarea ramurilor copacului.
  • Metoda de împărțire determină ce atribut trebuie selectat pentru partiția de date. Pe baza acestei metode, ramurile sunt crescute dintr-un nod pe baza rezultatului testului.
  • Metoda de împărțire și partiționare este efectuată recursiv, rezultând în cele din urmă un arbore de decizie pentru tuplurile setului de date de antrenament.
  • Procesul de formare a copacilor continuă până când și cu excepția cazului în care tuplurile rămase nu pot fi împărțite în continuare.
  • Complexitatea algoritmului se notează prin

n * |D| * jurnal |D|

Unde, n este numărul de atribute din setul de date de antrenament D și |D| este numărul de tupluri.

Sursă

Figura 3: O împărțire a valorii discrete

Listele de algoritmi utilizați într-un arbore de decizie sunt:

ID3

Întregul set de date S este considerat nodul rădăcină în timp ce formează arborele de decizie. Iterația este apoi efectuată pentru fiecare atribut și împărțirea datelor în fragmente. Algoritmul verifică și preia acele atribute care nu au fost preluate înainte de cele repetate. Împărțirea datelor în algoritmul ID3 necesită mult timp și nu este un algoritm ideal, deoarece depășește datele.

C4.5

Este o formă avansată de algoritm, deoarece datele sunt clasificate ca eșantioane. Atât valorile continue, cât și cele discrete pot fi gestionate eficient, spre deosebire de ID3. Există o metodă de tăiere care îndepărtează ramurile nedorite.

CART

Atât sarcinile de clasificare, cât și cele de regresie pot fi efectuate de algoritm. Spre deosebire de ID3 și C4.5, punctele de decizie sunt create luând în considerare indicele Gini. Se aplică un algoritm greedy pentru metoda de împărțire care urmărește reducerea funcției de cost. În sarcinile de clasificare, indicele Gini este utilizat ca funcție de cost pentru a indica puritatea nodurilor frunzelor. În sarcinile de regresie, eroarea sumă pătrată este utilizată ca funcție de cost pentru a găsi cea mai bună predicție.

CHAID

După cum sugerează și numele, reprezintă detectorul automat de interacțiune chi-pătrat, un proces care se ocupă cu orice tip de variabile. Acestea pot fi variabile nominale, ordinale sau continue. Arborii de regresie folosesc testul F, în timp ce testul Chi-pătrat este utilizat în modelul de clasificare.

MARTE

Acesta reprezintă spline de regresie adaptativă multivariată. Algoritmul este implementat special în sarcinile de regresie, unde datele sunt în mare parte neliniare.

Divizarea binară recursive greedy

Are loc o metodă de împărțire binară, rezultând două ramuri. Împărțirea tuplurilor se realizează cu calculul funcției de cost divizat. Este selectată cea mai mică împărțire a costurilor și procesul este efectuat recursiv pentru a calcula funcția de cost a celorlalte tupluri.

Arborele de decizie cu exemplu din lumea reală

Preziceți procesul de eligibilitate pentru împrumut din datele date.

Pasul 1: Încărcarea datelor

Valorile nule pot fi fie eliminate, fie completate cu unele valori. Forma setului de date original a fost (614,13), iar noul set de date după eliminarea valorilor nule este (480,13).

Pasul 2: o privire asupra setului de date.

Pasul 3: Împărțirea datelor în seturi de antrenament și de testare.

Pasul 4: Construiți modelul și montați setul de tren

Înainte de vizualizare trebuie făcute unele calcule.

Calcul 1: calculați entropia setului de date total.

Calcul 2: Găsiți entropia și câștigul pentru fiecare coloană.

  1. Coloana Sex
  • Condiția 1: set de date cu toți bărbații în el și apoi,

p = 278, n=116, p+n=489

Entropie (G = Masculin) = 0,87

  • Condiția 2: set de date cu toate femeile în el și apoi,

p = 54, n = 32, p+n = 86

Entropie (G=femeie) = 0,95

  • Informații medii în coloana de gen

  1. Coloana Căsătorit
  • Condiția 1: Căsătorit = Da (1)

În această împărțire, întregul set de date cu statutul de Căsătorit, da

p = 227, n = 84, p+n = 311

E(Căsătorit = Da) = 0,84

  • Condiția 2: Căsătorit = Nu (0)

În această împărțire, întregul set de date cu statutul de Căsătorit nr

p = 105, n = 64, p+n = 169

E(Căsătorit = Nu) = 0,957

  • Informațiile medii din coloana Căsătorit sunt
  1. Rubrica educațională
  • Condiția 1: Educație = Absolvent(1)

p = 271, n = 112, p+n = 383

E(Educație = Absolvent) = 0,87

  • Condiția 2: Educație = Nu absolvent(0)

p = 61, n = 36, p+n = 97

E (Educație = Nu absolvent) = 0,95

  • Coloana Informații medii despre educație= 0,886

Câștig = 0,01

4) Coloana Independenți

  • Condiția 1: lucrător pe cont propriu = Da (1)

p = 43, n = 23, p+n = 66

E(independenți=Da) = 0,93

  • Condiția 2: lucrător pe cont propriu = Nu (0)

p = 289, n = 125, p+n = 414

E(Independenți=Nu) = 0,88

  • Informații medii în coloana Independenți în educație = 0,886

Câștig = 0,01

  1. Coloana Scor de credit: coloana are valoarea 0 și 1.
  • Condiția 1: Scorul de credit = 1

p = 325, n = 85, p+n = 410

E(Scor de credit = 1) = 0,73

  • Condiția 2: Scorul de credit = 0

p = 63, n = 7, p+n = 70

E(Scor de credit = 0) = 0,46

  • Informații medii în coloana Scor de credit = 0,69

Câștig = 0,2

Comparați toate valorile câștigului

Scorul de credit are cel mai mare câștig. Prin urmare, va fi folosit ca nod rădăcină.

Pasul 5: Vizualizați arborele de decizie

Figura 5: Arborele de decizie cu criteriul Gini

Sursă

Figura 6: Arborele de decizie cu criteriul de entropie

Sursă

Pasul 6: Verificați scorul modelului

Aproape 80% la sută de precizie a marcat.

Lista aplicațiilor

Arborele de decizie sunt utilizați în cea mai mare parte de experții în informații pentru a efectua o investigație analitică. Acestea pot fi utilizate pe scară largă în scopuri de afaceri pentru a analiza sau prezice dificultăți. Flexibilitatea arborelui de decizie le permite să fie utilizate într-o zonă diferită:

1. Asistență medicală

Arborele de decizie permit predicția dacă un pacient suferă de o anumită boală cu condiții de vârstă, greutate, sex etc. Alte predicții includ deciderea efectului medicamentului luând în considerare factori precum compoziția, perioada de fabricație etc.

2. Sectoarele bancare

Arborele de decizie ajută la prezicerea dacă o persoană este eligibilă pentru un împrumut având în vedere starea sa financiară, salariul, membrii familiei etc. Poate identifica, de asemenea, fraudele cu cardul de credit, neplata împrumutului etc.

3. Sectoarele educaționale

Lista scurtă a unui student pe baza punctajului său de merit, prezență etc. poate fi decisă cu ajutorul arborilor de decizie.

Lista de avantaje

  • Rezultatele interpretabile ale unui model de decizie pot fi prezentate conducerii superioare și părților interesate.
  • În timpul construirii unui model de arbore de decizie, preprocesarea datelor, adică normalizarea, scalarea etc. nu este necesară.
  • Ambele tipuri de date - numerice și categorice pot fi gestionate de un arbore de decizie care afișează eficiența sa mai mare de utilizare față de alți algoritmi.
  • Valoarea lipsă în date nu afectează procesul unui arbore de decizie, făcându-l astfel un algoritm flexibil.

Ce urmează?

Dacă sunteți interesat să obțineți experiență practică în mineritul de date și să vă instruiți de către experți în domeniul științei datelor, puteți consulta Programul Executive PG în știința datelor de la upGrad. Cursul este destinat oricărei grupe de vârstă cu vârsta cuprinsă între 21-45 de ani, cu criterii minime de eligibilitate de 50% sau note de trecere echivalente la absolvire. Orice profesionist care lucrează se poate alătura acestui program executiv PG certificat de IIIT Bangalore.

Ce este un arbore de decizie în data mining?


Un arbore de decizie este o modalitate de a construi modele în Data mining. Poate fi înțeles ca un arbore binar inversat. Include un nod rădăcină, câteva ramuri și noduri frunze la sfârșit.
Fiecare dintre nodurile interne dintr-un arbore de decizie semnifică un studiu asupra unui atribut. Fiecare dintre diviziuni semnifică consecința acelui studiu sau examen anume. Și, în sfârșit, fiecare nod frunză reprezintă o etichetă de clasă.
Obiectivul principal al construirii unui arbore de decizie este de a crea un ideal care poate fi utilizat pentru a prevedea o anumită clasă prin utilizarea procedurilor de judecată a datelor anterioare.
Începem cu nodul rădăcină, facem unele relații cu variabila rădăcină și facem diviziuni care să fie de acord cu acele valori. Pe baza alegerilor de bază, trecem la nodurile următoare.

Care sunt unele dintre nodurile importante folosite în Arborele de decizie?

Arborele de decizie în minarea datelor au capacitatea de a gestiona date foarte complicate. Toți arborii de decizie au trei noduri sau porțiuni vitale. Să discutăm pe fiecare dintre ele mai jos.

  • Noduri de decizie – Fiecare nod de decizie reprezintă o anumită decizie și, în general, este afișat cu ajutorul unui pătrat.
  • Noduri de șansă – Ele reprezintă de obicei o șansă sau o confuzie și sunt afișate cu ajutorul unui cerc.
  • Nodurile finale – Sunt afișate cu ajutorul unui triunghi și reprezintă un rezultat sau o clasă.

Când conectăm toate aceste noduri, obținem diviziuni. Putem forma copaci cu o varietate de dificultăți folosind aceste noduri și diviziuni de un număr infinit de ori.

Care sunt avantajele utilizării arborilor de decizie?

Acum că am înțeles funcționarea arborilor de decizie, să încercăm să ne uităm la câteva avantaje ale utilizării arborilor de decizie în minarea datelor
1. Când le comparăm cu alte metode, arborii de decizie nu necesită atât de mult calcul pentru antrenarea datelor în timpul preprocesării.
2. Stabilizarea informațiilor nu este implicată în arborii de decizie.
3. De asemenea, nu necesită nici măcar scalarea informațiilor.
4. Chiar dacă unele valori sunt omise în setul de date, acest lucru nu interferează în construcția arborilor.
5. Aceste modele sunt identice instinctive. Sunt fără stres și pentru descriere.