Statistiche per l'apprendimento automatico: tutto ciò che devi sapere

Pubblicato: 2021-03-12

Statistiche e probabilità costituiscono il nucleo di Machine Learning e Data Science. È l'analisi statistica unita alla potenza di calcolo e all'ottimizzazione che Machine Learning è in grado di ottenere ciò che sta ottenendo oggi. Dalle basi della probabilità alla statistica descrittiva e inferenziale, questi argomenti costituiscono la base del Machine Learning.

Alla fine di questo tutorial, saprai quanto segue:

Nozioni di base sulla probabilità
Distribuzioni di probabilità
Distribuzione normale
Provvedimenti di Tendenza Centrale
Teorema del limite centrale
Deviazione standard ed errore standard
Asimmetria e curtosi

Sommario

Nozioni di base sulla probabilità

Eventi indipendenti e dipendenti

Consideriamo 2 eventi, l'evento A e l'evento B. Quando la probabilità di accadimento dell'evento A non dipende dal verificarsi dell'evento B, allora A e B sono eventi indipendenti. Ad esempio, se hai 2 monete giuste, la probabilità di ottenere testa su entrambe le monete sarà 0,5 per entrambe. Quindi gli eventi sono indipendenti.

Ora considera una scatola contenente 5 palline: 2 nere e 3 rosse. La probabilità di estrarre prima una pallina nera sarà 2/5. Ora la probabilità di estrarre di nuovo una pallina nera dalle restanti 4 palline sarà 1/4. In questo caso, i due eventi dipendono in quanto la probabilità di estrarre una pallina nera per la seconda volta dipende da quale pallina è stata estratta al primo tentativo.

Probabilità marginale

È la probabilità di un evento indipendentemente dai risultati di altre variabili casuali, ad esempio P(A) o P(B).

Probabilità congiunta

È la probabilità che si verifichino due eventi diversi contemporaneamente, cioè due (o più) eventi simultanei, ad esempio P(A e B) o P(A, B).

Probabilità condizionale

È la probabilità che uno (o più) eventi, dato il verificarsi di un altro evento o in altre parole, è la probabilità che un evento A si verifichi quando un evento secondario B è vero. es. P(A dato B) o P(A | B).

Partecipa al corso ML online dalle migliori università del mondo: master, programmi post-laurea esecutivi e programma di certificazione avanzata in ML e AI per accelerare la tua carriera.

Distribuzioni di probabilità

Le distribuzioni di probabilità rappresentano la distribuzione dei punti dati in uno spazio campionario. Ci aiuta a vedere la probabilità di campionare determinati punti dati quando campionati a caso dalla popolazione. Ad esempio, se una popolazione è composta dai voti degli studenti di una scuola, la distribuzione di probabilità avrà i voti sull'asse X e il numero di studenti con quei voti sull'asse Y. Questo è anche chiamato istogramma . L'istogramma è un tipo di distribuzione di probabilità discreta . I principali tipi di distribuzione discreta sono la distribuzione binomiale, la distribuzione di Poisson e la distribuzione uniforme.

D'altra parte, viene creata una distribuzione di probabilità continua per i dati che hanno un valore continuo. In altre parole, quando può avere un insieme infinito di valori come altezza, velocità, temperatura, ecc. Le distribuzioni di probabilità continue hanno un enorme utilizzo nella scienza dei dati e nell'analisi statistica per controllare l'importanza delle caratteristiche, le distribuzioni dei dati, i test statistici, ecc.

Leggi anche la matematica dietro l'apprendimento automatico

Distribuzione normale

La distribuzione continua più nota è la distribuzione normale, nota anche come distribuzione gaussiana o "curva di campana".

Considera una normale distribuzione delle altezze delle persone. La maggior parte delle altezze sono raggruppate nella parte centrale che è più alta e si riduce gradualmente verso gli estremi sinistro e destro che denotano una minore probabilità di ottenere quel valore in modo casuale.

Questa curva è centrata alla sua media e può essere alta e sottile oppure può essere corta e distesa. Uno sottile indica che c'è meno numero di valori distinti che possiamo campionare. E una curva più estesa mostra che esiste un intervallo di valori più ampio. Questo spread è definito dalla sua Deviazione Standard .

Maggiore è la deviazione standard, maggiore sarà la diffusione dei tuoi dati. La deviazione standard è solo una derivazione matematica di un'altra proprietà chiamata Varianza, che definisce di quanto "variano" i dati. E la varianza è ciò che riguarda i dati, la varianza è l'informazione. Nessuna variazione, nessuna informazione. La distribuzione normale ha un ruolo cruciale nelle statistiche: il teorema del limite centrale.

Provvedimenti di Tendenza Centrale

Le misure di tendenza centrale sono i modi in cui possiamo riassumere un set di dati prendendo un singolo valore. Ci sono 3 Misure di Tendenza principalmente:

1. Media: la media è solo la media aritmetica o la media dei valori nei dati/caratteristiche. La somma di tutti i valori divisa per il numero di valori ci dà la media. La media è solitamente il modo più comune per misurare il centro di qualsiasi dato, ma in alcuni casi può essere fuorviante. Ad esempio, quando ci sono molti valori anomali, la media inizierà a spostarsi verso i valori anomali e sarà una misura sbagliata del centro dei dati.

2. Mediana : la mediana è il punto dati che si trova esattamente al centro quando i dati sono ordinati in ordine crescente o decrescente. Quando il numero di punti dati è dispari, la mediana viene facilmente scelta come punto più centrale. Quando il numero di punti dati è pari, la mediana viene calcolata come media dei 2 punti dati più centrali.

3. Modalità: la modalità è il punto dati più frequentemente presente in un set di dati. La modalità rimane più robusta per i valori anomali poiché rimarrà comunque fissa nel punto più frequente.

Teorema del limite centrale

Il teorema del limite centrale in statistica afferma che, data una dimensione campionaria sufficientemente ampia, la distribuzione campionaria si avvicinerà a una distribuzione normale indipendentemente dalla distribuzione di quella variabile. Permettetemi di portare l'essenza della dichiarazione di cui sopra in parole semplici.

I dati potrebbero essere di qualsiasi distribuzione. Potrebbe essere perfetto o normale distorto, potrebbe essere esponenziale o (quasi) qualsiasi distribuzione tu possa pensare. Tuttavia, se prendi ripetutamente campioni dalla popolazione e continui a tracciare l'istogramma delle loro medie, alla fine scoprirai che questa nuova distribuzione di tutte le medie assomiglia alla distribuzione normale!

In sostanza, non importa in quale distribuzione si trovino i tuoi dati, la distribuzione dei loro mezzi sarà sempre normale.

Ma quanti campioni sono necessari per mantenere CLT vero? La regola del pollice dice che dovrebbe essere >30. Quindi, se prendi 30 o più campioni da qualsiasi distribuzione, i mezzi verranno normalmente distribuiti indipendentemente dal tipo di distribuzione sottostante.

Deviazione standard ed errore standard

La deviazione standard e l'errore standard vengono spesso confusi l'uno con l'altro. La deviazione standard, come forse saprai, descrive o quantifica la variazione dei dati su entrambi i lati della distribuzione: inferiore alla media e maggiore della media. Se i tuoi punti dati sono distribuiti su un ampio intervallo di valori, la deviazione standard sarà alta.

Ora, come discusso sopra, per il Teorema del limite centrale, se tracciamo le medie di tutti i campioni di una popolazione, la distribuzione di quelle medie sarà di nuovo una distribuzione normale. Quindi avrà la sua deviazione standard, giusto?

La deviazione standard delle medie di tutti i campioni di una popolazione è chiamata errore standard. Il valore dell'errore standard sarà generalmente inferiore alla deviazione standard poiché si calcola la deviazione standard delle medie e il valore delle medie sarebbe inferiore rispetto ai singoli punti dati a causa dell'aggregazione.

Puoi persino calcolare la deviazione standard delle mediane, la modalità o anche la deviazione standard delle deviazioni standard!

Prima che tu vada

I concetti statistici costituiscono il vero nucleo di Data Science e ML. Per essere in grado di fare deduzioni valide e comprendere efficacemente i dati a portata di mano, è necessario avere una solida comprensione dei concetti statistici e di probabilità discussi in questo tutorial.

upGrad offre un programma Executive PG in Machine Learning e AI e un Master of Science in Machine Learning e AI che potrebbero guidarti verso la costruzione di una carriera. Questi corsi spiegheranno la necessità dell'apprendimento automatico e ulteriori passaggi per raccogliere conoscenze in questo dominio che coprono vari concetti che vanno dalla discesa graduale all'apprendimento automatico.

La conoscenza delle statistiche è obbligatoria per fare bene nell'apprendimento automatico?

La statistica è un campo molto vasto. Nell'apprendimento automatico, le statistiche aiutano fondamentalmente a comprendere i dati in profondità. Alcuni concetti statistici come probabilità, interpretazione dei dati, ecc. sono necessari in diversi algoritmi di apprendimento automatico. Tuttavia, non devi essere un esperto di tutti gli argomenti di statistica per fare bene nell'apprendimento automatico. Conoscendo solo i concetti fondamentali, sarai in grado di esibirti in modo efficiente.

Conoscere un po' di codice in anticipo sarà utile nell'apprendimento automatico?

La codifica è il cuore dell'apprendimento automatico e i programmatori che capiscono come programmare bene avranno una profonda comprensione di come funzionano gli algoritmi e, quindi, saranno in grado di monitorare e ottimizzare tali algoritmi in modo più efficace. Non è necessario essere esperti in alcun linguaggio di programmazione, anche se qualsiasi conoscenza precedente sarà utile. Se sei un principiante, Python è una buona scelta poiché è semplice da imparare e ha una sintassi intuitiva.

Come utilizziamo il calcolo nella vita di tutti i giorni?

Le previsioni meteorologiche si basano su una serie di variabili, come la velocità del vento, il contenuto di umidità e la temperatura, che possono essere calcolate solo utilizzando il calcolo. L'uso del calcolo può essere visto anche nell'ingegneria aeronautica in vari modi. Il calcolo viene utilizzato anche dalle industrie dei veicoli per migliorare e garantire una buona sicurezza dei veicoli. Viene anche utilizzato dalle società di carte di credito per scopi di pagamento.