Impara la classificazione bayesiana nel data mining [2022]
Pubblicato: 2021-03-10Se studi da tempo il data mining, devi aver sentito parlare del termine "classificazione bayesiana". Ti chiedi cosa significhi e quanto sia importante come concetto nel data mining?
Questo articolo risponderà a queste domande mentre esplorerai cos'è la classificazione bayesiana nel data mining. Cominciamo:
Sommario
Cos'è la classificazione bayesiana?
Durante il data mining, scoprirai che la connessione tra la variabile di classe e l'attributo impostato non è deterministica. Ciò significa che non possiamo assumere l'etichetta di classe di un record di test con assoluta certezza anche se l'insieme di attributi è lo stesso degli esempi di addestramento.
Potrebbe accadere per la presenza di particolari fattori di influenza o dati rumorosi. Supponiamo di voler prevedere se una persona è a rischio di malattie cardiache in base alle sue abitudini alimentari. Mentre le abitudini alimentari di una persona sono un fattore enorme nel determinare se soffriranno di problemi cardiaci o meno, possono esserci anche altri motivi per il verificarsi degli stessi, come la genetica o l'infezione.
Quindi, la tua analisi nel determinare se la persona sarebbe a rischio di malattie cardiache basandosi solo sulle sue abitudini alimentari sarebbe imperfetta e potrebbe causare l'insorgere di molteplici problemi.
Quindi sorge la domanda: "Come risolvi questo problema nel data mining?" La risposta è la classificazione bayesiana.
È possibile utilizzare la classificazione bayesiana nel data mining per affrontare questo problema e prevedere il verificarsi di qualsiasi evento. I classificatori bayesiani consistono in classificatori statistici che utilizzano comprensioni di probabilità bayesiane.
Per comprendere il funzionamento della classificazione bayesiana nel data mining, dovrai iniziare con il teorema di Bayes.
Teorema di Bayes
Il merito del teorema di Bayes va a Thomas Bayes che ha utilizzato la probabilità condizionale per creare un algoritmo che utilizza l'evidenza per calcolare i limiti su parametri sconosciuti. È stata la prima persona a trovare questa soluzione.
Matematicamente, il teorema di Bayes si presenta così:
P(A/B) = P(B/A)P(A) P(B)
Qui, A e B rappresentano gli eventi e P(B) non può essere uguale a zero.
P(B) 0
P(B/A) è una probabilità condizionata che spiega il verificarsi dell'evento B quando A è vero. Allo stesso modo, P(A/B) è una probabilità condizionata che spiega il verificarsi dell'evento A quando B è vero.
P(B) e P(A) sono le probabilità di osservare B e A indipendentemente e sono dette probabilità marginali.
Interpretazione bayesiana
Nell'interpretazione bayesiana, la probabilità calcola un grado di credenza. Secondo il teorema di Bayes, il grado di credenza in un'ipotesi prima di considerare l'evidenza è connesso al grado di credenza in un'ipotesi dopo aver considerato la stessa.
Supponi di avere una moneta. Se lanci la moneta una volta, otterrai testa o croce e la probabilità che si verifichino entrambe è del 50%. Tuttavia, se lanci la moneta più volte e osservi i risultati, il grado di convinzione potrebbe aumentare, diminuire o rimanere stabile in base ai risultati.
Se hai la proposizione A e l'evidenza B allora:
P(A) è il grado primario di convinzione in A. P(A/B) è il grado successivo di convinzione dopo aver tenuto conto di B. Il quoziente P(B/A)/P(B) mostra il supporto che B offre per A .
Puoi derivare il teorema di Bayes dalla probabilità condizionata:
P(A/B) = P( AB) P(B) , se P(B) 0
P(B/A) = P(B A) P(A) , se P(A) 0
Qui P( AB) è la probabilità congiunta che sia A che B siano vere perché:
P(BA ) = P( AB)
OPPURE, P(A B) = P( A B )P(B) = P( B A )P(A)
OPPURE, P( A B ) = P( B A )P(A) P(B) , SE P(B) 0
Rete bayesiana
Utilizziamo reti bayesiane (note anche come reti di credenze) per mostrare le incertezze tramite DAG (Directed Acyclic Graphs). Un grafico aciclico diretto mostra una rete bayesiana come qualsiasi altro grafico statistico. Contiene un gruppo di nodi e collegamenti in cui i collegamenti denotano la connessione tra i rispettivi nodi.
Ogni nodo in un grafico aciclico diretto rappresenta una variabile casuale. Le variabili possono essere valori continui o discreti e possono corrispondere all'attributo effettivo assegnato ai dati.
Una rete bayesiana consente di definire le dipendenze condizionali di classe tra sottoinsiemi di variabili. Ti fornisce un modello grafico della relazione su cui eseguiresti le implementazioni.
Oltre a DAG, una rete bayesiana ha anche una serie di tabelle di probabilità condizionali.
Conclusione
A questo punto devi avere familiarità con le basi della classificazione bayesiana nel data mining. Comprendere il teorema alla base delle applicazioni delle implementazioni di data mining è fondamentale per fare progressi.
Cosa ne pensi della classificazione bayesiana nel data mining? Hai provato ad implementarlo? Condividi le tue risposte nei commenti. Ci piacerebbe sentirti.
Se sei curioso di conoscere la scienza dei dati, dai un'occhiata al Diploma PG in Data Science di IIIT-B e upGrad, creato per i professionisti che lavorano e offre oltre 10 casi di studio e progetti, workshop pratici pratici, tutoraggio con esperti del settore, 1- on-1 con mentori del settore, oltre 400 ore di apprendimento e assistenza al lavoro con le migliori aziende.
Che cos'è la classificazione e la regressione nell'apprendimento automatico?
La classificazione e la regressione sono tipi di algoritmi di apprendimento supervisionato utilizzati nell'apprendimento automatico. Ma ci sono specifiche differenze distinte tra questi algoritmi. Un algoritmo di regressione nell'apprendimento automatico viene utilizzato per stimare il valore continuo di una variabile in base a particolari variabili di input. Questo algoritmo viene utilizzato per calcolare variabili continue come altezza, reddito, peso, punteggi, tempo, ecc. Cioè, può essere utilizzato solo per calcolare valori discreti di formato intero. Un algoritmo di classificazione viene utilizzato per calcolare i valori delle variabili discrete. È interessante notare che le tecniche di classificazione possono trattare variabili sia discrete che di valore reale, ma devono essere classificate in categorie classificate o etichettate distinte.
Data mining e machine learning sono la stessa cosa?
Quali sono i vantaggi del data mining?
Il data mining offre in modo efficace i mezzi per risolvere i problemi relativi ai dati o alle informazioni in questo mondo incentrato sui dati. Aiuta le aziende a raccogliere informazioni utili e affidabili. Di conseguenza, le aziende possono basare le proprie decisioni o modificare le operazioni che alla fine generano maggiori profitti. Il data mining svolge un ruolo cruciale nell'aiutare le aziende a prendere decisioni informate, rilevare e mitigare i rischi e ridurre al minimo gli episodi di frode. I data scientist possono esplorare rapidamente enormi volumi di dati giornalieri utilizzando tecniche di data mining convenienti ed efficienti.