Deve leggere 26 domande e risposte per l'intervista agli analisti di dati: Guida definitiva 2022

Pubblicato: 2021-01-07

Partecipare a un colloquio con un analista di dati e chiedersi quali sono tutte le domande e le discussioni che affronterai? Prima di partecipare a un'intervista di analisi dei dati, è meglio avere un'idea del tipo di domande dell'intervista dell'analista di dati in modo da poter preparare mentalmente le risposte per esse.

In questo articolo, esamineremo alcune domande e risposte più importanti per le interviste agli analisti di dati . La scienza dei dati e l'analisi dei dati sono entrambi campi fiorenti del settore in questo momento. Naturalmente, le carriere in questi domini stanno salendo alle stelle. La parte migliore della costruzione di una carriera nel dominio della scienza dei dati è che offre una vasta gamma di opzioni di carriera tra cui scegliere!

Le organizzazioni di tutto il mondo stanno sfruttando i Big Data per migliorare la produttività e l'efficienza complessive, il che significa inevitabilmente che anche la domanda di professionisti dei dati esperti come analisti di dati, ingegneri di dati e scienziati di dati sta aumentando esponenzialmente. Tuttavia, per accaparrarsi questi lavori, avere solo le qualifiche di base non è sufficiente. Avere le certificazioni di data science al tuo fianco aumenterà il peso del tuo profilo.

Devi eliminare la parte più difficile: l'intervista. Non preoccuparti, abbiamo creato questa guida alle domande e risposte per l'intervista dell'analista di dati per comprendere la profondità e le reali intenzioni dietro le domande.

Sommario

Principali domande e risposte per le interviste agli analisti di dati

1. Quali sono i requisiti chiave per diventare un Data Analyst?

Questa domanda di colloquio con l'analista di dati mette alla prova le tue conoscenze sulle competenze richieste per diventare un data scientist.
Per diventare un analista di dati, devi:

risposte alle domande dell'intervista dell'analista di dati

  • Conoscere bene i linguaggi di programmazione (XML, Javascript o framework ETL), i database (SQL, SQLite, Db2, ecc.) e avere anche una vasta conoscenza dei pacchetti di reporting (Business Objects).
  • Essere in grado di analizzare, organizzare, raccogliere e diffondere i Big Data in modo efficiente.
  • Devi avere una conoscenza tecnica sostanziale in campi come la progettazione di database, il data mining e le tecniche di segmentazione.
  • Avere una solida conoscenza dei pacchetti statistici per l'analisi di enormi set di dati come SAS, Excel e SPSS, solo per citarne alcuni.

2. Quali sono le responsabilità importanti di un analista di dati?

Questa è la domanda più frequente nell'intervista all'analista di dati. Devi avere le idee chiare su cosa comporta il tuo lavoro.
Un analista di dati è necessario per eseguire il

seguenti compiti:

  • Raccogliere e interpretare i dati da più fonti e analizzare i risultati.
  • Filtra e "pulisci" i dati raccolti da più fonti.
  • Offri supporto per ogni aspetto dell'analisi dei dati.
  • Analizza set di dati complessi e identifica i modelli nascosti in essi.
  • Mantieni i database protetti.
Come puoi passare all'analisi dei dati?

3. Cosa significa "pulizia dei dati"? Quali sono i modi migliori per esercitarsi?

Se sei seduto per un lavoro di analista di dati, questa è una delle domande più frequenti per il colloquio di analista di dati.
La pulizia dei dati si riferisce principalmente al processo di rilevamento e rimozione di errori e incoerenze dai dati per migliorare la qualità dei dati.
I modi migliori per pulire i dati sono:

  • Segregazione dei dati, in base ai rispettivi attributi.
  • Rompere grandi blocchi di dati in piccoli set di dati e quindi pulirli.
  • Analizzare le statistiche di ogni colonna di dati.
  • Creazione di una serie di funzioni di utilità o script per gestire le attività di pulizia comuni.
  • Tenere traccia di tutte le operazioni di pulizia dei dati per facilitare l'aggiunta o la rimozione dai set di dati, se necessario.

4. Denominare i migliori strumenti utilizzati per l'analisi dei dati.

Una domanda sullo strumento più utilizzato è qualcosa che troverai principalmente in qualsiasi domanda di intervista sull'analisi dei dati.
Gli strumenti più utili per l'analisi dei dati sono:

  • Tavolo
  • Tabelle di fusione di Google
  • Operatori di ricerca di Google
  • KNIME
  • Rapid Miner
  • Risolutore
  • ApriPerfeziona
  • NodoXL
  • io

Checkout: stipendio per analista di dati in India

5. Qual è la differenza tra la profilazione dei dati e il data mining?

La profilazione dei dati si concentra sull'analisi dei singoli attributi dei dati, fornendo così informazioni preziose sugli attributi dei dati come il tipo di dati, la frequenza, la lunghezza, insieme ai loro valori discreti e agli intervalli di valori. Al contrario, il data mining mira a identificare record insoliti, analizzare cluster di dati e discovery di sequenze, solo per citarne alcuni.

6. Che cos'è il metodo di imputazione KNN?

Il metodo di imputazione KNN cerca di imputare i valori degli attributi mancanti utilizzando i valori degli attributi più vicini ai valori degli attributi mancanti. La somiglianza tra due valori di attributo viene determinata utilizzando la funzione distanza.

7. Cosa dovrebbe fare un analista di dati con i dati mancanti o sospetti?

In tal caso, un analista di dati deve:

  • Utilizza strategie di analisi dei dati come il metodo di eliminazione, i metodi di imputazione singola e i metodi basati su modelli per rilevare i dati mancanti.
  • Preparare un rapporto di convalida contenente tutte le informazioni sui dati sospetti o mancanti.
  • Scrutare i dati sospetti per valutarne la validità.
  • Sostituire tutti i dati non validi (se presenti) con un codice di convalida appropriato.

8. Denominare i diversi metodi di convalida dei dati utilizzati dagli analisti di dati.

Esistono molti modi per convalidare i set di dati. Alcuni dei metodi di convalida dei dati più comunemente utilizzati dagli analisti di dati includono:

  • Convalida a livello di campo : in questo metodo, la convalida dei dati viene eseguita in ciascun campo man mano che un utente inserisce i dati. Aiuta a correggere gli errori mentre procedi.
  • Convalida a livello di modulo : in questo metodo, i dati vengono convalidati dopo che l'utente ha completato il modulo e lo ha inviato. Controlla l'intero modulo di immissione dei dati in una volta, convalida tutti i campi in esso contenuti ed evidenzia gli errori (se presenti) in modo che l'utente possa correggerlo.
  • Convalida del salvataggio dei dati : questa tecnica di convalida dei dati viene utilizzata durante il processo di salvataggio di un file o di un record di database effettivo. Di solito, viene eseguita quando è necessario convalidare più moduli di immissione dati.
  • Convalida dei criteri di ricerca : questa tecnica di convalida viene utilizzata per offrire all'utente corrispondenze accurate e correlate per le parole chiave o le frasi cercate. Lo scopo principale di questo metodo di convalida è garantire che le query di ricerca dell'utente possano restituire i risultati più pertinenti.

9. Definisci valori anomali

Una guida a domande e risposte per un'intervista con analisti di dati non sarà completa senza questa domanda. Un valore anomalo è un termine comunemente usato dagli analisti di dati quando si fa riferimento a un valore che sembra essere molto lontano e divergente da uno schema prestabilito in un campione. Esistono due tipi di valori anomali: univariato e multivariato.

I due metodi utilizzati per rilevare i valori anomali sono:

  • Metodo box plot – Secondo questo metodo, se il valore è maggiore o minore di 1,5*IQR (intervallo interquartile), tale da trovarsi al di sopra del quartile superiore (Q3) o al di sotto del quartile inferiore (Q1), il valore è un valore anomalo .
  • Metodo di deviazione standard : questo metodo afferma che se un valore è superiore o inferiore alla media ± (3*deviazione standard), si tratta di un valore anomalo. Analisi esplorativa dei dati e sua importanza per il tuo business

10. Che cos'è il "raggruppamento?" Assegna un nome alle proprietà degli algoritmi di clustering.

Il clustering è un metodo in cui i dati vengono classificati in cluster e gruppi. Un algoritmo di clustering ha le seguenti proprietà:

  • Gerarchico o piatto
  • Duro e morbido
  • Iterativo
  • Disgiuntivo

11. Che cos'è l'algoritmo K-mean?

K-mean è una tecnica di partizionamento in cui gli oggetti sono classificati in gruppi K. In questo algoritmo, i cluster sono sferici con i punti dati allineati attorno a quel cluster e la varianza dei cluster è simile tra loro.

12. Definire "Filtraggio collaborativo".

Il filtraggio collaborativo è un algoritmo che crea un sistema di raccomandazioni basato sui dati comportamentali di un utente. Ad esempio, i siti di shopping online di solito compilano un elenco di articoli in "consigliato per te" in base alla cronologia di navigazione e agli acquisti precedenti. I componenti cruciali di questo algoritmo includono utenti, oggetti e il loro interesse.

13. Nominare i metodi statistici che sono altamente vantaggiosi per gli analisti di dati?

I metodi statistici maggiormente utilizzati dagli analisti di dati sono:

  • metodo bayesiano
  • processo markoviano
  • Algoritmo Simplex
  • Imputazione
  • Processi spaziali e di cluster
  • Classifica statistiche, percentile, rilevamento valori anomali
  • Ottimizzazione matematica

14. Che cos'è un N-gram?

Un n-gram è una sequenza connessa di n elementi in un dato testo o discorso. Precisamente, un N-gram è un modello di linguaggio probabilistico utilizzato per prevedere l'elemento successivo in una sequenza particolare, come in (n-1).

15. Che cos'è una collisione di tabelle hash? Come si può prevenire?

Questa è una delle domande importanti dell'intervista dell'analista di dati. Quando due chiavi separate eseguono l'hash su un valore comune, si verifica una collisione di tabelle hash. Ciò significa che non è possibile memorizzare due dati diversi nello stesso slot.
Le collisioni hash possono essere evitate:

  • Concatenamento separato : in questo metodo, viene utilizzata una struttura di dati per archiviare l'hashing di più elementi in uno slot comune.
  • Indirizzamento aperto : questo metodo cerca gli slot vuoti e memorizza l'oggetto nel primo slot vuoto disponibile.
Fondamenti di base di statistica per la scienza dei dati

16. Definire "Analisi delle serie temporali".

L'analisi della serie può solitamente essere eseguita in due domini: dominio del tempo e dominio della frequenza.
L'analisi delle serie temporali è il metodo in cui la previsione dell'output di un processo viene eseguita analizzando i dati raccolti in passato utilizzando tecniche come smoothening esponenziale, metodo di regressione log-lineare, ecc.

17. Come dovresti affrontare i problemi multi-sorgente?

Per affrontare problemi multi-sorgente, è necessario:

  • Identifica record di dati simili e combinali in un record che conterrà tutti gli attributi utili, meno la ridondanza.
  • Facilitare l'integrazione dello schema attraverso la ristrutturazione dello schema.

18. Indicare le fasi di un progetto di analisi dei dati.

Le fasi principali di un progetto di analisi dei dati includono:

  • Il requisito principale di un progetto di analisi dei dati è una comprensione approfondita dei requisiti aziendali.
  • Il secondo passaggio consiste nell'identificare le fonti di dati più rilevanti che meglio si adattano ai requisiti aziendali e ottenere i dati da fonti affidabili e verificate.
  • Il terzo passaggio prevede l'esplorazione dei set di dati, la pulizia dei dati e l'organizzazione degli stessi per ottenere una migliore comprensione dei dati a portata di mano.
  • Nella quarta fase, gli analisti dei dati devono convalidare i dati.
  • Il quinto passaggio prevede l'implementazione e il monitoraggio dei set di dati.
  • Il passaggio finale consiste nel creare un elenco dei risultati più probabili e ripetere fino a ottenere i risultati desiderati.

19. Quali sono i problemi che un Data Analyst può incontrare durante l'esecuzione dell'analisi dei dati?

Una domanda critica per l'intervista dell'analista di dati di cui devi essere a conoscenza. Un analista di dati può affrontare i seguenti problemi durante l'esecuzione dell'analisi dei dati:

  • Presenza di voci duplicate ed errori di ortografia. Questi errori possono ostacolare la qualità dei dati.
  • Dati di scarsa qualità acquisiti da fonti inaffidabili. In tal caso, un Data Analyst dovrà dedicare una notevole quantità di tempo alla pulizia dei dati.
  • I dati estratti da più fonti possono variare nella rappresentazione. Una volta che i dati raccolti sono stati combinati dopo essere stati ripuliti e organizzati, le variazioni nella rappresentazione dei dati possono causare un ritardo nel processo di analisi.
  • I dati incompleti rappresentano un'altra sfida importante nel processo di analisi dei dati. Porterebbe inevitabilmente a risultati errati o errati.

20. Quali sono le caratteristiche di un buon modello di dati?

Affinché un modello di dati sia considerato buono e sviluppato, deve rappresentare le seguenti caratteristiche:

  • Dovrebbe avere prestazioni prevedibili in modo che i risultati possano essere stimati accuratamente, o almeno, con una precisione quasi assoluta.
  • Dovrebbe essere adattivo e reattivo ai cambiamenti in modo da poter soddisfare le crescenti esigenze aziendali di volta in volta.
  • Dovrebbe essere in grado di scalare in proporzione alle modifiche dei dati.
  • Dovrebbe essere consumabile per consentire ai clienti/clienti di raccogliere risultati tangibili e redditizi.

21. Distinguere tra varianza e covarianza.

Varianza e covarianza sono entrambi termini statistici. La varianza mostra la distanza di due numeri (quantità) rispetto al valore medio. Quindi, conoscerai solo l'entità della relazione tra le due quantità (quanto i dati sono distribuiti attorno alla media). Al contrario, la covarianza descrive come due variabili casuali cambieranno insieme. Pertanto, la covarianza fornisce sia la direzione che la grandezza di come due quantità variano l'una rispetto all'altra.

22. Spiega "Distribuzione normale".

Una delle domande più popolari dell'intervista con gli analisti di dati. La distribuzione normale, meglio nota come curva di campana o curva gaussiana, si riferisce a una funzione di probabilità che descrive e misura come sono distribuiti i valori di una variabile, ovvero come differiscono nelle loro medie e deviazioni standard. Nella curva, la distribuzione è simmetrica. Mentre la maggior parte delle osservazioni si raggruppa attorno al picco centrale, le probabilità per i valori si allontanano ulteriormente dalla media, decrescendo equamente in entrambe le direzioni.

23. Spiegare l'analisi univariata, bivariata e multivariata.

L'analisi univariata si riferisce a una tecnica statistica descrittiva che viene applicata a set di dati contenenti una singola variabile. L'analisi univariata considera l'intervallo di valori e anche la tendenza centrale dei valori.

L'analisi bivariata analizza simultaneamente due variabili per esplorare le possibilità di una relazione empirica tra di loro. Cerca di determinare se esiste un'associazione tra le due variabili e la forza dell'associazione, o se ci sono differenze tra le variabili e qual è l'importanza di queste differenze.

L'analisi multivariata è un'estensione dell'analisi bivariata. Basandosi sui principi della statistica multivariata, l'analisi multivariata osserva e analizza più variabili (due o più variabili indipendenti) contemporaneamente per prevedere il valore di una variabile dipendente per i singoli soggetti.

24. Spiegare la differenza tra R-Squadrato e R-Squadrato rettificato.

La tecnica R-Squared è una misura statistica della proporzione di variazione nelle variabili dipendenti, come spiegato dalle variabili indipendenti. L'R-quadrato rettificato è essenzialmente una versione modificata di R-quadrato, adattato per il numero di predittori in un modello. Fornisce la percentuale di variazione spiegata dalle specifiche variabili indipendenti che hanno un impatto diretto sulle variabili dipendenti.

25. Quali sono i vantaggi del controllo della versione?

I principali vantaggi del controllo della versione sono:

  • Ti consente di confrontare i file, identificare le differenze e consolidare le modifiche senza problemi.
  • Aiuta a tenere traccia delle build dell'applicazione identificando quale versione rientra in quale categoria: sviluppo, test, QA e produzione.
  • Mantiene una cronologia completa dei file di progetto che torna utile in caso di guasto del server centrale.
  • È eccellente per archiviare e mantenere in modo sicuro più versioni e varianti di file di codice.
  • Ti consente di vedere le modifiche apportate al contenuto di diversi file.

26. In che modo un analista di dati può evidenziare le celle contenenti valori negativi in ​​un foglio Excel?

Domanda finale nella nostra guida alle domande e risposte per le interviste agli analisti di dati. Un analista dati può utilizzare la formattazione condizionale per evidenziare le celle con valori negativi in ​​un foglio Excel. Ecco i passaggi per la formattazione condizionale:

  • Innanzitutto, seleziona le celle con valori negativi.
  • Ora vai alla scheda Home e scegli l'opzione Formattazione condizionale.
  • Quindi, vai su Evidenzia regole cella e seleziona l'opzione Minore di.
  • Nel passaggio finale, devi andare alla finestra di dialogo dell'opzione Minore di e inserire "0" come valore.

Conclusione

Con ciò, arriviamo alla fine del nostro elenco di domande e risposte per le interviste agli analisti di dati . Sebbene queste domande dell'intervista dell'analista di dati siano selezionate da un vasto pool di domande probabili, queste sono quelle che è più probabile che tu debba affrontare se sei un aspirante analista di dati. Queste domande costituiscono la base per qualsiasi colloquio con l'analista di dati e conoscere le risposte ti porterà sicuramente lontano!

Se sei curioso di apprendere un'analisi approfondita dei dati, la scienza dei dati per essere all'avanguardia nei rapidi progressi tecnologici, dai un'occhiata all'Executive PG Program in Data Science di upGrad e IIIT-B.

Quali sono le tendenze del talento nel settore dell'analisi dei dati?

Poiché la scienza dei dati sta crescendo gradualmente, c'è una crescita significativa anche in alcuni domini. Questi domini sono: Con la crescita significativa del settore della scienza dei dati e dell'analisi dei dati, vengono generati sempre più posti vacanti di ingegneri dei dati, il che a sua volta aumenta la domanda di più professionisti IT. Con il progresso della tecnologia, il ruolo dei data scientist si sta evolvendo gradualmente. Le attività di analisi vengono automatizzate, il che ha messo i data scientist in secondo piano. L'automazione può occupare le attività di preparazione dei dati in cui i data scientist attualmente trascorrono il 70-80% del loro tempo.

Spiegare la cluster analysis e le sue caratteristiche.

Un processo in cui definiamo un oggetto senza etichettarlo è noto come analisi dei cluster. Utilizza il data mining per raggruppare vari oggetti simili in un unico cluster, proprio come nell'analisi discriminante. Le sue applicazioni includono il riconoscimento di modelli, l'analisi delle informazioni, l'analisi delle immagini, l'apprendimento automatico, la computer grafica e vari altri campi. L'analisi dei cluster è un'attività che viene condotta utilizzando diversi altri algoritmi che sono diversi tra loro in molti modi e creando così un cluster. Di seguito sono elencate alcune delle caratteristiche dell'analisi dei cluster: L'analisi dei cluster è altamente scalabile. Può gestire un diverso insieme di attributi. Mostra alta dimensionalità, Interpretabilità. È utile in molti campi, tra cui l'apprendimento automatico e la raccolta di informazioni.

Cosa sono i valori anomali e come gestirli?

I valori anomali sono riferiti ad anomalie o leggere variazioni nei tuoi dati. Può succedere durante la raccolta dei dati. Esistono 4 modi in cui possiamo rilevare un valore anomalo nel set di dati. Questi metodi sono i seguenti: Boxplot è un metodo per rilevare un outlier in cui segreghiamo i dati attraverso i loro quartili. Un grafico a dispersione mostra i dati di 2 variabili sotto forma di una raccolta di punti segnati sul piano cartesiano. Il valore di una variabile rappresenta l'asse orizzontale (x-ais) e il valore dell'altra variabile rappresenta l'asse verticale (asse y). Durante il calcolo del punteggio Z, cerchiamo i punti che sono lontani dal centro e li consideriamo come valori anomali.