Processo di scienza dei dati: comprensione, raccolta dei dati, modellazione, distribuzione e verifica

Pubblicato: 2021-02-09

I progetti di Data Science nel settore sono generalmente seguiti come un ciclo di vita ben definito che aggiunge struttura al progetto e definisce obiettivi chiari per ogni fase. Esistono molte metodologie di questo tipo disponibili come CRISP-DM, OSEMN, TDSP, ecc. Esistono più fasi in un processo di scienza dei dati relativi a compiti specifici eseguiti dai diversi membri di un team.

Ogni volta che un problema di Data Science arriva dal cliente, deve essere risolto e prodotto per il cliente in modo strutturato. Questa struttura assicura che il processo completo proceda senza intoppi poiché coinvolge più persone che lavorano sui loro ruoli specifici come Solution Architect, Project Manager, Product Lead, Data Engineer, Data Scientist, DevOps Lead, ecc. Anche seguire un processo di Data Science rende certo che la qualità del prodotto finale è buona e che i progetti siano completati in tempo.

Alla fine di questo tutorial, saprai quanto segue:

  • Comprensione commerciale
  • Raccolta dati
  • Modellazione
  • Distribuzione
  • Convalida del cliente

Sommario

Comprensione commerciale

Avere conoscenza del business e dei dati è della massima importanza. Dobbiamo decidere quali obiettivi dobbiamo prevedere per risolvere il problema in questione. Dobbiamo anche capire da quali fonti possiamo ottenere i dati e se è necessario creare nuove fonti.

Gli obiettivi del modello possono essere i prezzi delle case, l'età del cliente, le previsioni di vendita, ecc. Questi obiettivi devono essere decisi lavorando con il cliente che ha una conoscenza completa del prodotto e del problema. Il secondo compito più importante è sapere che tipo di previsione è sull'obiettivo.

Che si tratti di regressione o classificazione o clustering o anche raccomandazione. Devono essere decisi i ruoli dei membri e anche quali e quante persone saranno necessarie per completare il progetto. Le metriche per il successo vengono anche decise per assicurarsi che la soluzione produca risultati almeno accettabili.

È necessario identificare le fonti di dati che possono fornire i dati necessari per prevedere gli obiettivi sopra stabiliti. Potrebbe anche essere necessario costruire pipeline per raccogliere dati da fonti specifiche che possono essere un fattore importante per il successo del progetto.

Raccolta dati

Una volta identificati i dati, abbiamo bisogno di sistemi per ingerire efficacemente i dati e utilizzarli per ulteriori elaborazioni ed esplorazioni impostando pipeline. Il primo passo è identificare il tipo di origine. Se è on-premise o on-cloud. Abbiamo bisogno di ingerire questi dati nell'ambiente analitico in cui eseguiremo ulteriori processi su di essi.

Una volta acquisiti i dati, si passa alla fase più cruciale del processo di Data Science che è l'Exploratory Data Analysis (EDA). EDA è il processo di analisi e visualizzazione dei dati per vedere quali sono tutti i problemi di formattazione e i dati mancanti.

Tutte le discrepanze devono essere normalizzate prima di procedere con l'esplorazione dei dati per scoprire modelli e altre informazioni rilevanti. Questo è un processo iterativo e include anche il tracciamento di vari tipi di grafici e grafici per vedere le relazioni tra le caratteristiche e le caratteristiche con il target.

È necessario configurare le pipeline per trasmettere regolarmente nuovi dati all'ambiente e aggiornare i database esistenti. Prima di impostare le condutture, è necessario verificare altri fattori. Ad esempio se i dati devono essere trasmessi in streaming in batch o online, sia ad alta frequenza che a bassa frequenza.

Modellazione e valutazione

Il processo di modellazione è la fase centrale in cui si svolge il Machine Learning. È necessario decidere il giusto insieme di funzionalità e il modello addestrato su di esse utilizzando gli algoritmi giusti. Il modello addestrato deve quindi essere valutato per verificarne l'efficienza e le prestazioni su dati reali.

Il primo passaggio è chiamato Feature Engineering in cui utilizziamo le conoscenze della fase precedente per determinare le caratteristiche importanti che migliorano le prestazioni del nostro modello. L'ingegneria delle funzionalità è il processo di trasformazione delle funzionalità in nuove forme e persino la combinazione di funzionalità per formare nuove funzionalità.

Deve essere fatto con attenzione per evitare di utilizzare troppe funzioni che potrebbero deteriorare le prestazioni piuttosto che migliorare. Confrontando le metriche se ciascun modello può aiutare a decidere questo fattore insieme all'importanza delle caratteristiche rispetto all'obiettivo.

Una volta che il set di funzionalità è pronto, il modello deve essere addestrato su più tipi di algoritmi per vedere quale offre le prestazioni migliori. Questo è anche chiamato algoritmi di controllo a campione. Gli algoritmi con le migliori prestazioni vengono quindi ulteriormente ottimizzati per ottimizzare i loro parametri per prestazioni ancora migliori. Le metriche vengono confrontate per ogni algoritmo e ogni configurazione di parametro per determinare quale modello è il migliore di tutti.

Distribuzione

Il modello che viene finalizzato dopo la fase precedente ora deve essere distribuito nell'ambiente di produzione per diventare utilizzabile e testare su dati reali. Il modello deve essere reso operativo sotto forma di applicazioni mobili/web o dashboard o software interni dell'azienda.

I modelli possono essere distribuiti su server cloud (AWS, GCP, Azure) o on-premise a seconda del carico previsto e delle applicazioni. Le prestazioni del modello devono essere monitorate continuamente per assicurarsi che tutti i problemi siano prevenuti.

Il modello deve anche essere riqualificato su nuovi dati ogni volta che arrivano tramite le pipeline impostate in una fase precedente. Questa riqualificazione può essere offline o online. In modalità offline, l'applicazione viene rimossa, il modello viene riqualificato e quindi ridistribuito sul server.

Diversi tipi di framework Web vengono utilizzati per sviluppare l'applicazione back-end che raccoglie i dati dall'applicazione front-end e li invia al modello sul server. Questa API invia quindi le previsioni dal modello all'applicazione front-end. Alcuni esempi di framework Web sono Flask, Django e FastAPI.

Convalida del cliente

Questa è la fase finale di un processo di Data Science in cui il progetto viene infine consegnato al cliente per il suo utilizzo. Il client deve essere guidato attraverso l'applicazione, i suoi dettagli e i suoi parametri. Può anche includere un rapporto di uscita che contiene tutti gli aspetti tecnici del modello ei suoi parametri di valutazione. Il cliente deve confermare l'accettazione delle prestazioni e dell'accuratezza raggiunte dal modello.

Il punto più importante da tenere a mente è che il cliente o il cliente potrebbero non avere le conoscenze tecniche di Data Science. Pertanto, è dovere del team fornire loro tutti i dettagli in un modo e un linguaggio che possano essere facilmente compresi dal cliente.

Prima che tu vada

Il processo di Data Science varia da un'organizzazione all'altra ma può essere generalizzato nelle 5 fasi principali che abbiamo discusso. Possono esserci più fasi tra queste fasi per tenere conto di attività più specifiche come la pulizia dei dati e la creazione di report. Nel complesso, qualsiasi progetto di Data Science deve occuparsi di queste 5 fasi e assicurarsi di rispettarle per tutti i progetti. Seguire questo processo è un passo importante per garantire il successo di tutti i progetti di Data Science.

La struttura del Data Science Program è progettata per facilitarti nel diventare un vero talento nel campo della Data Science, il che rende più facile acquisire il miglior datore di lavoro sul mercato. Registrati oggi per iniziare il tuo percorso di apprendimento con upGrad!

Qual è il primo passo nel processo di data science?

Il primo passo nel processo di data science è definire il tuo obiettivo. Prima della raccolta, della modellazione, dell'implementazione o di qualsiasi altra fase dei dati, è necessario impostare l'obiettivo della ricerca.
Dovresti essere accurato con le "3W" del tuo progetto: cosa, perché e come. “Quali sono le aspettative del tuo cliente? Perché la tua azienda apprezza la tua ricerca? E come intendi procedere con la tua ricerca?”
Se sei in grado di rispondere a tutte queste domande, sei pronto per il prossimo passo della tua ricerca. Per rispondere a queste domande, le tue capacità non tecniche come il senso degli affari sono più cruciali delle tue capacità tecniche.

Come modelli il tuo processo?

Il processo di modellazione è un passaggio cruciale in un processo di data science e per questo utilizziamo l'apprendimento automatico. Alimentiamo il nostro modello con il giusto set di dati e lo addestriamo con algoritmi appropriati. Durante la modellazione di un processo vengono presi in considerazione i seguenti passaggi:
1. Il primo passo è l'ingegneria delle funzionalità. Questo passaggio prende in considerazione le informazioni raccolte in precedenza, determina le caratteristiche essenziali per il modello e le combina per formare caratteristiche nuove e più evolute.
2, Questo passaggio deve essere eseguito con cautela poiché troppe funzionalità potrebbero finire per deteriorare il nostro modello anziché evolverlo.
3. Quindi determiniamo gli algoritmi di controllo a campione. Questi algoritmi sono quelli su cui il modello deve essere addestrato dopo aver acquisito nuove funzionalità.
4. Tra questi, scegliamo gli algoritmi con le migliori prestazioni e li ottimizziamo per migliorare anche le loro capacità. Per confrontare e trovare il modello migliore, consideriamo la metrica di diversi algoritmi.

Quale dovrebbe essere l'approccio per presentare il progetto al cliente?

Questa è la fase finale del ciclo di vita di un progetto di scienza dei dati. Questo passaggio deve essere gestito con attenzione altrimenti tutti i tuoi sforzi potrebbero essere vani. Il cliente dovrebbe seguire a fondo ogni aspetto del tuo progetto. Una presentazione PowerPoint sul tuo modello potrebbe essere il punto in più per te.
Una cosa da tenere a mente è che il tuo cliente può provenire o meno dal campo tecnico. Quindi, non devi usare parole tecniche di base. Prova a presentare le applicazioni e i parametri del tuo progetto in un linguaggio comune in modo che sia chiaro ai tuoi clienti.