Trebuie să citiți 26 de întrebări și răspunsuri la interviu cu analist de date: Ghidul final 2022

Publicat: 2021-01-07

Asistând la un interviu cu un analist de date și vă întrebați care sunt toate întrebările și discuțiile prin care veți trece? Înainte de a participa la un interviu de analiză a datelor, este mai bine să aveți o idee despre tipul de întrebări ale interviului pentru analist de date, astfel încât să puteți pregăti mental răspunsuri pentru ele.

În acest articol, ne vom uita la unele dintre cele mai importante întrebări și răspunsuri la interviul analist de date . Data Science și Data Analytics sunt ambele domenii înfloritoare în industrie chiar acum. Desigur, carierele în aceste domenii cresc vertiginos. Cea mai bună parte a construirii unei cariere în domeniul științei datelor este că oferă o gamă diversă de opțiuni de carieră din care să alegeți!

Organizațiile din întreaga lume folosesc Big Data pentru a-și spori productivitatea și eficiența generală, ceea ce înseamnă inevitabil că cererea de profesioniști experți în date, cum ar fi analiști de date, ingineri de date și oameni de știință în date, crește exponențial. Cu toate acestea, pentru a lua aceste locuri de muncă, nu este suficient să ai doar calificările de bază. Având alături certificări de știință a datelor va crește greutatea profilului dvs.

Trebuie să curățați partea cea mai dificilă - interviul. Nu vă faceți griji, am creat acest ghid de întrebări și răspunsuri pentru interviul analist de date pentru a înțelege profunzimea și intenția reală din spatele întrebărilor.

Cuprins

Cele mai bune întrebări și răspunsuri la interviu cu analist de date

1. Care sunt cerințele cheie pentru a deveni analist de date?

Această întrebare de interviu pentru analist de date vă testează cunoștințele despre setul de abilități necesare pentru a deveni un cercetător de date.
Pentru a deveni analist de date, trebuie să:

interviu analist de date întrebări răspunsuri

  • Să fie bine versat cu limbaje de programare (cadru XML, Javascript sau ETL), baze de date (SQL, SQLite, Db2 etc.) și, de asemenea, să aibă cunoștințe extinse despre pachetele de raportare (Business Objects).
  • Să fie capabil să analizeze, să organizeze, să colecteze și să difuzeze Big Data în mod eficient.
  • Trebuie să aveți cunoștințe tehnice substanțiale în domenii precum proiectarea bazelor de date, extragerea datelor și tehnicile de segmentare.
  • Aveți cunoștințe solide despre pachetele statistice pentru analiza seturi de date masive, cum ar fi SAS, Excel și SPSS, pentru a numi câteva.

2. Care sunt responsabilitățile importante ale unui analist de date?

Aceasta este cea mai frecventă întrebare de interviu pentru analist de date. Trebuie să ai o idee clară cu privire la ceea ce presupune jobul tău.
Este necesar un analist de date pentru a efectua

urmatoarele sarcini:

  • Colectați și interpretați date din mai multe surse și analizați rezultatele.
  • Filtrați și „curățați” datele colectate din mai multe surse.
  • Oferiți suport pentru fiecare aspect al analizei datelor.
  • Analizați seturi de date complexe și identificați tiparele ascunse în ele.
  • Păstrați bazele de date securizate.
Cum poți trece la Data Analytics?

3. Ce înseamnă „Curăţarea datelor”? Care sunt cele mai bune modalități de a practica asta?

Dacă lucrați pentru un loc de muncă de analist de date, aceasta este una dintre cele mai frecvente întrebări la interviu cu analist de date.
Curățarea datelor se referă în primul rând la procesul de detectare și eliminare a erorilor și inconsecvențelor din date pentru a îmbunătăți calitatea datelor.
Cele mai bune modalități de curățare a datelor sunt:

  • Segregarea datelor, în funcție de atributele lor respective.
  • Împărțirea unor bucăți mari de date în seturi de date mici și apoi curățarea acestora.
  • Analizarea statisticilor fiecărei coloane de date.
  • Crearea unui set de funcții utilitare sau scripturi pentru a face față sarcinilor obișnuite de curățare.
  • Urmărirea tuturor operațiunilor de curățare a datelor pentru a facilita adăugarea sau eliminarea ușoară din seturile de date, dacă este necesar.

4. Numiți cele mai bune instrumente utilizate pentru analiza datelor.

O întrebare despre instrumentul cel mai folosit este ceva pe care îl veți găsi mai ales în orice întrebări de interviu pentru analiza datelor.
Cele mai utile instrumente pentru analiza datelor sunt:

  • Tablou
  • Google Fusion Tables
  • Operatori de căutare Google
  • KNIME
  • RapidMiner
  • Solver
  • OpenRefine
  • NodeXL
  • io

Checkout: Salariu de analist de date în India

5. Care este diferența dintre data profiling și data mining?

Data Profiling se concentrează pe analiza atributelor individuale ale datelor, oferind astfel informații valoroase despre atributele datelor, cum ar fi tipul de date, frecvența, lungimea, împreună cu valorile lor discrete și intervalele de valori. Dimpotrivă, data mining-ul urmărește identificarea înregistrărilor neobișnuite, analiza clusterelor de date și descoperirea secvenței, pentru a numi câteva.

6. Ce este metoda de imputare KNN?

Metoda de imputare KNN încearcă să impute valorile atributelor lipsă folosind acele valori ale atributelor care sunt cele mai apropiate de valorile atributelor lipsă. Asemănarea dintre două valori de atribut este determinată folosind funcția de distanță.

7. Ce ar trebui să facă un analist de date cu datele lipsă sau suspectate?

Într-un astfel de caz, un analist de date trebuie să:

  • Utilizați strategii de analiză a datelor, cum ar fi metoda de ștergere, metodele de imputare unică și metodele bazate pe model pentru a detecta datele lipsă.
  • Întocmește un raport de validare care să conțină toate informațiile despre datele suspectate sau lipsă.
  • Analizați datele suspecte pentru a le evalua validitatea.
  • Înlocuiți toate datele nevalide (dacă există) cu un cod de validare adecvat.

8. Numiți diferitele metode de validare a datelor utilizate de analiștii de date.

Există multe modalități de a valida seturile de date. Unele dintre cele mai frecvent utilizate metode de validare a datelor de către analiștii de date includ:

  • Validare la nivel de câmp – În această metodă, validarea datelor se face în fiecare câmp pe măsură ce un utilizator introduce datele. Vă ajută să corectați erorile pe măsură ce mergeți.
  • Validare la nivel de formular – În această metodă, datele sunt validate după ce utilizatorul completează formularul și îl trimite. Verifică simultan întregul formular de introducere a datelor, validează toate câmpurile din acesta și evidențiază erorile (dacă există), astfel încât utilizatorul să le poată corecta.
  • Validarea salvării datelor – Această tehnică de validare a datelor este utilizată în timpul procesului de salvare a unui fișier real sau a unei înregistrări a bazei de date. De obicei, se face atunci când trebuie validate mai multe formulare de introducere a datelor.
  • Validarea criteriilor de căutare – Această tehnică de validare este utilizată pentru a oferi utilizatorului potriviri exacte și corelate pentru cuvintele cheie sau expresiile căutate. Scopul principal al acestei metode de validare este de a se asigura că interogările de căutare ale utilizatorului pot returna cele mai relevante rezultate.

9. Definiți Outlier

Un ghid de întrebări și răspunsuri pentru interviul unui analist de date nu se va completa fără această întrebare. Un outlier este un termen folosit în mod obișnuit de analiștii de date atunci când se referă la o valoare care pare a fi departe și divergentă de un model stabilit dintr-un eșantion. Există două tipuri de valori aberante - Univariate și Multivariate.

Cele două metode utilizate pentru detectarea valorii aberante sunt:

  • Metoda box plot – Conform acestei metode, dacă valoarea este mai mare sau mai mică de 1,5*IQR (interval interquartile), astfel încât să se situeze deasupra quartilei superioare (Q3) sau sub quartila inferioară (Q1), valoarea este o valoare abere. .
  • Metoda deviației standard – Această metodă afirmă că, dacă o valoare este mai mare sau mai mică decât media ± (3*abatere standard), aceasta este o valoare anormală. Analiza exploratorie a datelor și importanța acesteia pentru afacerea dvs

10. Ce este „Clustering”? Denumiți proprietățile algoritmilor de grupare.

Clustering este o metodă prin care datele sunt clasificate în clustere și grupuri. Un algoritm de grupare are următoarele proprietăți:

  • Ierarhic sau plat
  • Tare și moale
  • Iterativ
  • Disjunctiv

11. Ce este algoritmul K-mean?

K-mean este o tehnică de partiționare în care obiectele sunt clasificate în K grupuri. În acest algoritm, clusterele sunt sferice, punctele de date sunt aliniate în jurul acelui cluster, iar varianța clusterelor este similară între ele.

12. Definiți „Filtrare colaborativă”.

Filtrarea colaborativă este un algoritm care creează un sistem de recomandare bazat pe datele comportamentale ale unui utilizator. De exemplu, site-urile de cumpărături online alcătuiesc, de obicei, o listă de articole sub „recomandat pentru tine” pe baza istoricului de navigare și a achizițiilor anterioare. Componentele cruciale ale acestui algoritm includ utilizatorii, obiectele și interesul acestora.

13. Numiți metodele statistice care sunt extrem de benefice pentru analiștii de date?

Metodele statistice care sunt utilizate cel mai mult de analiștii de date sunt:

  • Metoda bayesiana
  • procesul Markov
  • Algoritm simplex
  • Imputare
  • Procese spațiale și de cluster
  • Statistici de rang, percentile, detectarea valorii aberante
  • Optimizare matematică

14. Ce este un N-gram?

Un n-gramă este o secvență conectată de n elemente dintr-un anumit text sau vorbire. Mai exact, un N-gramă este un model de limbaj probabilistic folosit pentru a prezice următorul articol dintr-o anumită secvență, ca în (n-1).

15. Ce este o coliziune de tabel hash? Cum poate fi prevenit?

Aceasta este una dintre întrebările importante ale interviului pentru analist de date. Când două chei separate se trimit la o valoare comună, are loc o coliziune a tabelului hash. Aceasta înseamnă că două date diferite nu pot fi stocate în același slot.
Ciocnirile hash pot fi evitate prin:

  • Înlănțuire separată – În această metodă, o structură de date este utilizată pentru a stoca mai multe articole hashing într-un slot comun.
  • Adresare deschisă – Această metodă caută sloturi goale și stochează articolul în primul slot liber disponibil.
Fundamentele de bază ale statisticii pentru știința datelor

16. Definiți „Analiza serii temporale”.

Analiza serii poate fi efectuată de obicei în două domenii – domeniul timpului și domeniul frecvenței.
Analiza serii cronologice este metoda prin care prognoza de ieșire a unui proces este realizată prin analiza datelor colectate în trecut folosind tehnici precum netezirea exponențială, metoda regresiei log-liniare etc.

17. Cum ar trebui să abordați problemele din mai multe surse?

Pentru a rezolva problemele din mai multe surse, trebuie să:

  • Identificați înregistrări de date similare și combinați-le într-o singură înregistrare care va conține toate atributele utile, minus redundanța.
  • Facilitați integrarea schemei prin restructurarea schemei.

18. Menționați etapele unui proiect de Analiză a Datelor.

Pașii de bază ai unui proiect de analiză a datelor includ:

  • Cea mai importantă cerință a unui proiect de analiză a datelor este o înțelegere aprofundată a cerințelor de afaceri.
  • Al doilea pas este identificarea celor mai relevante surse de date care se potrivesc cel mai bine cerințelor afacerii și obținerea datelor din surse de încredere și verificate.
  • Al treilea pas implică explorarea setului de date, curățarea datelor și organizarea acestora pentru a obține o mai bună înțelegere a datelor disponibile.
  • În al patrulea pas, analiștii de date trebuie să valideze datele.
  • Al cincilea pas implică implementarea și urmărirea setului de date.
  • Pasul final este să creați o listă cu cele mai probabile rezultate și să repetați până când rezultatele dorite sunt realizate.

19. Care sunt problemele pe care le poate întâmpina un analist de date în timpul analizei datelor?

O întrebare critică de interviu cu analist de date de care trebuie să fii conștient. Un analist de date se poate confrunta cu următoarele probleme în timpul analizei datelor:

  • Prezența intrărilor duplicate și a greșelilor de ortografie. Aceste erori pot afecta calitatea datelor.
  • Date de slabă calitate obținute din surse nesigure. Într-un astfel de caz, un analist de date va trebui să petreacă o cantitate semnificativă de timp în curățarea datelor.
  • Datele extrase din mai multe surse pot varia ca reprezentare. Odată ce datele colectate sunt combinate după ce au fost curățate și organizate, variațiile în reprezentarea datelor pot provoca o întârziere în procesul de analiză.
  • Datele incomplete reprezintă o altă provocare majoră în procesul de analiză a datelor. Ar duce inevitabil la rezultate eronate sau greșite.

20. Care sunt caracteristicile unui model de date bun?

Pentru ca un model de date să fie considerat bun și dezvoltat, acesta trebuie să prezinte următoarele caracteristici:

  • Ar trebui să aibă performanțe previzibile, astfel încât rezultatele să poată fi estimate cu acuratețe, sau cel puțin, cu exactitate aproape.
  • Ar trebui să fie adaptabil și receptiv la schimbări, astfel încât să poată face față nevoilor în creștere ale afacerii din când în când.
  • Ar trebui să poată fi scalat proporțional cu modificările date.
  • Ar trebui să fie consumabil pentru a permite clienților/clienților să obțină rezultate tangibile și profitabile.

21. Faceți diferența între varianță și covarianță.

Varianta și covarianța sunt ambele termeni statistici. Varianta descrie cât de îndepărtate sunt două numere (cantități) în raport cu valoarea medie. Deci, veți ști doar amploarea relației dintre cele două cantități (cât de mult sunt răspândite datele în jurul mediei). Dimpotrivă, covarianța descrie modul în care două variabile aleatoare se vor schimba împreună. Astfel, covarianța oferă atât direcția, cât și mărimea modului în care două mărimi variază una față de cealaltă.

22. Explicați „Distribuția normală”.

Una dintre întrebările populare de interviu pentru analist de date. Distribuția normală, mai cunoscută sub numele de Curba Bell sau curba Gauss, se referă la o funcție de probabilitate care descrie și măsoară modul în care sunt distribuite valorile unei variabile, adică modul în care diferă în medii și abateri standard. În curbă, distribuția este simetrică. În timp ce majoritatea observațiilor se grupează în jurul vârfului central, probabilitățile pentru valori se îndepărtează mai mult de medie, diminuându-se în mod egal în ambele direcții.

23. Explicați analiza univariată, bivariată și multivariată.

Analiza univariată se referă la o tehnică statistică descriptivă care este aplicată la seturile de date care conțin o singură variabilă. Analiza univariată are în vedere intervalul de valori și, de asemenea, tendința centrală a valorilor.

Analiza bivariată analizează simultan două variabile pentru a explora posibilitățile unei relații empirice între ele. Încearcă să determine dacă există o asociere între cele două variabile și puterea asocierii sau dacă există diferențe între variabile și care este importanța acestor diferențe.

Analiza multivariată este o extensie a analizei bivariate. Pe baza principiilor statisticii multivariate, analiza multivariată observă și analizează mai multe variabile (două sau mai multe variabile independente) simultan pentru a prezice valoarea unei variabile dependente pentru subiecții individuali.

24. Explicați diferența dintre R-pătrat și R-pătrat ajustat.

Tehnica R-Squared este o măsură statistică a proporției de variație a variabilelor dependente, așa cum este explicat de variabilele independente. R-Squared ajustat este în esență o versiune modificată a R-pătrat, ajustată pentru numărul de predictori dintr-un model. Acesta oferă procentul de variație explicat de variabilele independente specifice care au un impact direct asupra variabilelor dependente.

25. Care sunt avantajele controlului versiunilor?

Principalele avantaje ale controlului versiunilor sunt:

  • Vă permite să comparați fișierele, să identificați diferențele și să consolidați fără probleme modificările.
  • Ajută la urmărirea creării aplicațiilor prin identificarea versiunii în care categorie – dezvoltare, testare, QA și producție.
  • Menține un istoric complet al fișierelor de proiect, care este util dacă există vreodată o defecțiune a serverului central.
  • Este excelent pentru stocarea și menținerea mai multor versiuni și variante de fișiere de cod în siguranță.
  • Vă permite să vedeți modificările făcute în conținutul diferitelor fișiere.

26. Cum poate un analist de date să evidențieze celulele care conțin valori negative într-o foaie Excel?

Întrebarea finală din ghidul nostru de întrebări și răspunsuri pentru interviul analist de date. Un analist de date poate folosi formatarea condiționată pentru a evidenția celulele cu valori negative într-o foaie Excel. Iată pașii pentru formatarea condiționată:

  • Mai întâi, selectați celulele care au valori negative.
  • Acum, accesați fila Acasă și alegeți opțiunea Formatare condiționată.
  • Apoi, mergeți la Evidențiați regulile pentru celule și selectați opțiunea Mai puțin decât.
  • În pasul final, trebuie să accesați caseta de dialog a opțiunii Less Than și să introduceți „0” ca valoare.

Concluzie

Cu aceasta, ajungem la sfârșitul listei noastre de întrebări și răspunsuri pentru interviul analist de date . Deși aceste întrebări de interviu cu analist de date sunt selectate dintr-un număr vast de întrebări probabile, acestea sunt cele cu care este cel mai probabil să vă confruntați dacă sunteți un analist de date aspirant. Aceste întrebări stabilesc baza oricărui interviu cu analist de date, iar cunoașterea răspunsurilor la ele vă va duce cu siguranță un drum lung!

Dacă sunteți curios să învățați analiza aprofundată a datelor, știința datelor pentru a fi în fața progreselor tehnologice rapide, consultați programul Executive PG în știința datelor de la upGrad și IIIT-B.

Care sunt tendințele talentelor în industria de analiză a datelor?

Pe măsură ce Data Science crește treptat, există o creștere semnificativă și în unele domenii. Aceste domenii sunt: ​​Odată cu creșterea semnificativă a industriei științei datelor și analizei datelor, se generează tot mai multe posturi vacante de ingineri de date, ceea ce, la rândul său, crește cererea pentru mai mulți profesioniști IT. Odată cu progresul tehnologiei, rolul cercetătorilor de date evoluează treptat. Sarcinile de analiză devin automatizate, ceea ce i-a pus pe oamenii de știință în date. Automatizarea poate ocupa sarcinile de pregătire a datelor în care oamenii de știință în date își petrec în prezent 70-80% din timp.

Explicați analiza clusterului și caracteristicile acesteia.

Un proces în care definim un obiect fără a-l eticheta este cunoscut sub numele de analiză cluster. Utilizează data mining pentru a grupa diferite obiecte similare într-un singur cluster, la fel ca în analiza discriminantă. Aplicațiile sale includ recunoașterea modelelor, analiza informațiilor, analiza imaginilor, învățarea automată, grafica pe computer și diverse alte domenii. Analiza clusterului este o sarcină care se desfășoară folosind câțiva alți algoritmi care sunt diferiți unul de celălalt în multe feluri și creând astfel un cluster. Următoarele sunt câteva dintre caracteristicile analizei cluster: Analiza cluster este foarte scalabilă. Se poate ocupa de un set diferit de atribute. Prezintă dimensionalitate ridicată, interpretabilitate. Este util în multe domenii, inclusiv învățarea automată și colectarea de informații.

Ce sunt valorile aberante și cum să le gestionăm?

Valorile aberante se referă la anomaliile sau diferențele ușoare ale datelor dvs. Se poate întâmpla în timpul colectării datelor. Există 4 moduri prin care putem detecta un valori aberanți în setul de date. Aceste metode sunt după cum urmează: Boxplot este o metodă de detectare a valorii aberante în care separăm datele prin quartilele lor. Un grafic de dispersie afișează datele a 2 variabile sub forma unei colecții de puncte marcate pe planul cartezian. Valoarea unei variabile reprezintă axa orizontală (x-ais), iar valoarea celeilalte variabile reprezintă axa verticală (axa y). În timp ce calculăm scorul Z, căutăm punctele care sunt departe de centru și le considerăm aberante.