Aflați Clasificarea Bayesiană în Data Mining [2022]

Publicat: 2021-03-10

Dacă studiezi data mining de ceva timp, probabil că ai auzit de termenul „clasificare bayesiană”. Te întrebi ce înseamnă și cât de important este ca concept în data mining?

Acest articol va răspunde la aceste întrebări, în timp ce veți explora ce este clasificarea bayesiană în data mining. Sa incepem:

Cuprins

Ce este clasificarea bayesiană?

În timpul extragerii datelor, veți găsi că conexiunea dintre variabila de clasă și setul de atribute este nedeterministă. Aceasta înseamnă că nu putem presupune eticheta de clasă a unei înregistrări de test cu o certitudine absolută, chiar dacă setul de atribute este același cu exemplele de antrenament.

Se poate întâmpla din cauza prezenței unor factori de influență specifici sau a datelor zgomotoase. Să presupunem că doriți să preziceți dacă o persoană este expusă riscului de boli de inimă în funcție de obiceiurile sale alimentare. În timp ce obiceiurile alimentare ale unei persoane sunt un factor uriaș în determinarea dacă va suferi sau nu de probleme cardiace, pot exista și alte motive pentru apariția acelorași, cum ar fi genetica sau infecția.

Deci, analiza dvs. pentru a determina dacă persoana ar fi expusă riscului de boli de inimă, pe baza obiceiurilor sale alimentare, ar fi greșită și ar putea cauza mai multe probleme.

Apoi apare întrebarea: „Cum rezolvi această problemă în data mining?” Răspunsul este clasificarea bayesiană.

Puteți utiliza clasificarea bayesiană în data mining pentru a aborda această problemă și a prezice apariția oricărui eveniment. Clasificatorii bayesieni constau din clasificatori statistici care utilizează înțelegeri ale probabilității bayesiene.

Pentru a înțelege funcționarea clasificării bayesiene în mineritul de date, va trebui să începeți cu teorema Bayes.

Teorema Bayes

Meritul pentru teorema Bayes revine lui Thomas Bayes, care a folosit probabilitatea condiționată pentru a crea un algoritm care utilizează dovezi pentru calcularea limitelor parametrilor necunoscuți. El a fost primul care a venit cu această soluție.

Din punct de vedere matematic, teorema Bayes arată astfel:

P(A/B) = P(B/A)P(A) P(B)

Aici, A și B reprezintă evenimentele și P(B) nu poate fi egal cu zero.

P(B) 0

P(B/A) este o probabilitate condiționată care explică apariția evenimentului B atunci când A este adevărat. În mod similar, P(A/B) este o probabilitate condiționată care explică apariția evenimentului A când B este adevărat.

P(B) și P(A) sunt probabilitățile de a observa independent B și A și se numesc probabilități marginale.

Interpretarea Bayesiană

În interpretarea bayesiană, probabilitatea calculează un grad de credință. Conform teoremei Bayes, gradul de credință într-o ipoteză înainte de a lua în considerare dovezile este legat de gradul de credință într-o ipoteză după ce am luat în considerare aceeași.

Să presupunem că ai o monedă. Dacă aruncați moneda o dată, veți obține fie cap sau cozi și probabilitatea ca ambele apariții ale acestora este de 50%. Cu toate acestea, dacă răsturnați moneda de mai multe ori și observați rezultatele, gradul de credință ar putea crește, scădea sau rămâne constant pe baza rezultatelor.

Dacă aveți propoziția A și dovezile B atunci:

P(A) este gradul primar de credință în A. P(A/B) este gradul posterior de credință după luarea în considerare a lui B. Coeficientul P(B/A)/P(B) arată suportul oferit de B pentru A .

Puteți deriva teorema Bayes din probabilitatea condiționată:

P(A/B) = P(A B) P(B) , dacă P(B) 0

P(B/A) = P(B A) P(A) , dacă P(A) 0

Aici P(A B) este probabilitatea comună ca A și B să fie adevărate deoarece:

P (B A) = P(A B)

SAU, P(A B) = P( A B )P(B) = P( B A )P(A)

SAU, P( A B ) = P( B A )P(A) P(B) , DACĂ P(B) 0

Rețeaua Bayesiană

Folosim rețele bayesiene (cunoscute și sub numele de rețele de credință) pentru a arăta incertitudinile prin intermediul DAG-urilor (Grafe aciclice direcționate). Un grafic aciclic direcționat arată o rețea bayesiană ca orice alt grafic statistic. Conține un grup de noduri și legături unde legăturile denotă legătura dintre nodurile respective.

Fiecare nod dintr-un grafic aciclic direcționat reprezintă o variabilă aleatorie. Variabilele pot fi valori continue sau discrete și pot corespunde atributului real dat datelor.

O rețea bayesiană permite definirea independențelor condiționale de clasă între subseturile variabile. Vă oferă un model grafic al relației pe care ați efectua implementări.

În afară de DAG, o rețea bayesiană are și un set de tabele de probabilitate condiționată.

Concluzie

Până acum trebuie să fiți familiarizați cu elementele de bază ale clasificării bayesiene în minarea datelor. Înțelegerea teoremei din spatele aplicațiilor implementărilor de data mining este vitală pentru progres.

Ce părere aveți despre clasificarea bayesiană în data mining? Ai încercat să-l implementezi? Împărtășește-ți răspunsurile în comentarii. Ne-am bucura sa primim vesti de la tine.

Dacă sunteți curios să aflați despre știința datelor, consultați Diploma PG în știința datelor de la IIIT-B și upGrad, care este creată pentru profesioniști care lucrează și oferă peste 10 studii de caz și proiecte, ateliere practice practice, mentorat cu experți din industrie, 1- on-1 cu mentori din industrie, peste 400 de ore de învățare și asistență profesională cu firme de top.

Ce este clasificarea și regresia în învățarea automată?

Clasificarea și regresia sunt tipuri de algoritmi de învățare supravegheată utilizați în învățarea automată. Dar există diferențe specifice distincte între acești algoritmi. Un algoritm de regresie în învățarea automată este utilizat pentru a estima valoarea continuă a unei variabile pe baza anumitor variabile de intrare. Acest algoritm este folosit pentru a calcula variabile continue cum ar fi înălțimea, venitul, greutatea, scorurile, vremea etc. Adică poate fi folosit doar pentru a calcula valori discrete în format întreg. Un algoritm de clasificare este folosit pentru a calcula valorile variabilelor discrete. Interesant este că tehnicile de clasificare se pot ocupa atât de variabile discrete, cât și de variabile cu valoare reală, dar acestea trebuie clasificate în categorii distincte clasificate sau etichetate.

Miningul de date și învățarea automată sunt la fel?

Care sunt beneficiile data mining-ului?

Exploatarea datelor oferă în mod eficient mijloace pentru a rezolva problemele legate de date sau informații în această lume centrată pe date. Ajută companiile să adune informații utile și de încredere. Ca rezultat, companiile își pot baza deciziile sau pot modifica operațiunile care în cele din urmă generează mai multe profituri. Exploatarea datelor joacă un rol crucial în a ajuta companiile să ia decizii informate, să detecteze și să atenueze riscurile și să minimizeze incidentele de fraudă. Oamenii de știință de date pot cerceta rapid volume masive de date zilnice folosind tehnici de extragere a datelor care sunt rentabile și eficiente.