Top 20 cele mai populare întrebări și răspunsuri la interviu pentru modelarea datelor [pentru începători și cu experiență]

Publicat: 2021-06-10

Știința datelor este unul dintre cele mai profitabile domenii de carieră de pe piața actuală a muncii. Și pe măsură ce concurența crește, interviurile de angajare devin, de asemenea, din ce în ce mai inovatoare pe zi ce trece. Angajatorii doresc să testeze cunoștințele conceptuale ale candidaților și înțelegerea practică a subiectelor relevante și a instrumentelor tehnologice. În acest blog, vom discuta câteva întrebări relevante de interviu pentru modelarea datelor pentru a vă ajuta să faceți o primă impresie puternică!

Cuprins

Top Întrebări și răspunsuri la interviu pentru modelarea datelor

Iată 20 de întrebări de interviu pentru modelarea datelor, împreună cu exemplele de răspunsuri, care vă vor conduce prin nivelurile începător, intermediar și avansat ale subiectului.

1. Ce este modelarea datelor? Enumerați tipurile de modele de date.

Modelarea datelor implică crearea unei reprezentări (sau model) a datelor disponibile și stocarea lor într-o bază de date.

Un model de date cuprinde entități (cum ar fi clienți, produse, producători și vânzători) care dau naștere la obiecte și atribute pe care utilizatorii doresc să le urmărească. De exemplu, un Nume Client este un atribut al entității Client. Aceste detalii iau în continuare forma unui tabel într-o bază de date.

Există trei tipuri de bază de modele de date și anume:

Conceptual: arhitecții de date și părțile interesate de afaceri creează acest model pentru a organiza, a defini și a defini conceptele de afaceri. Dictează ce ar trebui să conțină un sistem.
Logic: Alcătuit de arhitecți de date și analiști de afaceri, acest model mapează regulile tehnice și structurile de date, determinând astfel implementarea sistemului indiferent de un sistem de management al bazei de date sau DBMS.
Fizic: arhitecții și dezvoltatorii de baze de date creează acest model pentru a descrie modul în care sistemul ar trebui să funcționeze cu un anumit DBMS.

2. Ce este un tabel? Explicați faptele și tabelul cu fapte.

Un tabel deține date în rânduri (aliniamente orizontale) și coloane (aliniamente verticale). Rândurile sunt cunoscute și ca înregistrări sau tupluri, în timp ce coloanele pot fi denumite câmpuri.

Un fapt este datele cantitative precum „vânzările nete” sau „suma datorată”. Un tabel de fapte stochează date numerice, precum și unele atribute din tabelele dimensionale.

3. Ce înțelegeți prin (i) dimensiune (ii) granularitate (iv) dispersie a datelor (v) hashing (v) sistem de management al bazei de date?

(i) Dimensiunile reprezintă date calitative, cum ar fi clasa și produsul. Prin urmare, un tabel dimensional care conține date despre produse va avea atribute precum categoria produsului, numele produsului etc.

(ii) Granularitatea se referă la nivelul de informații stocate într-un tabel. Poate fi mare sau scăzută, tabelele conținând date la nivel de tranzacție și, respectiv, tabele de fapte.

(iii) Sparitatea datelor înseamnă numărul de celule goale dintr-o bază de date. Cu alte cuvinte, precizează câte date avem pentru o anumită entitate sau dimensiune în modelul de date. Informațiile insuficiente duce la baze de date mari, deoarece este nevoie de mai mult spațiu pentru salvarea agregărilor.

(iv) Tehnica hashing ajută la căutarea valorilor indexului pentru preluarea datelor dorite. Este folosit pentru a calcula locația directă a înregistrărilor de date cu ajutorul structurilor de index.

(v) Un sistem de management al bazei de date (DBMS) este un software care cuprinde un grup de programe pentru manipularea bazei de date. Scopul său principal este de a stoca și de a prelua datele utilizatorului.

4. Definiți Normalizarea. Care este scopul ei?

Tehnica de normalizare împarte tabele mai mari în altele mai mici, legându-le folosind relații diferite. Acesta organizează tabelele într-un mod care minimizează dependența și redundanța datelor.

Pot exista cinci tipuri de normalizări, și anume:

Prima formă normală
A doua formă normală
A treia formă normală
Boyce-Codd a patra formă normală
A cincea formă normală

5. Care este utilitatea denormalizării în modelarea datelor?

Denormalizarea este utilizată pentru a construi un depozit de date, mai ales în situațiile care implică o implicare extinsă a tabelelor. Această strategie este utilizată pe o bază de date normalizată anterior.

6. Elucidați diferențele dintre cheia primară, cheia primară compusă, cheia externă și cheia surogat.

O cheie primară este un element de bază în fiecare tabel de date. Acesta denotă o coloană sau un grup de coloane și vă permite să identificați rândurile unui tabel. Valoarea cheii primare nu poate fi nulă. Când se aplică mai mult de o coloană ca parte a cheii primare, aceasta este cunoscută ca o cheie primară compusă.

Pe de altă parte, o cheie străină este un grup de atribute care vă permite să legați tabelele părinte și cele secundare. Valoarea cheii externe din tabelul copil este referită ca valoare a cheii primare în tabelul părinte.

O cheie surogat este folosită pentru a identifica fiecare înregistrare în acele situații în care utilizatorii nu au o cheie primară naturală. Această cheie artificială este de obicei reprezentată ca un număr întreg și nu dă nicio semnificație datelor conținute în tabel.

7. Comparați sistemul OLTP cu procesul OLAP.

OLTP este un sistem tranzacțional online care se bazează pe baze de date tradiționale pentru a efectua operațiuni de afaceri în timp real. Baza de date OLTP are tabele normalizate, iar timpul de răspuns este de obicei în milisecunde.

În schimb, OLAP este un proces online menit pentru analiza și regăsirea datelor. Este conceput pentru a analiza volume mari de măsuri de afaceri pe categorii și atribute. Spre deosebire de OLTP, OLAP utilizează un depozit de date, tabele nenormalizate și funcționează cu un timp de răspuns de la secunde la minute.

8. Enumeraţi proiectele standard ale schemei bazei de date.

O schemă este o diagramă sau o ilustrare a relațiilor și structurilor de date. Există două modele de schemă în modelarea datelor, și anume schema stea și schema fulg de zăpadă.

O schemă stea cuprinde un tabel central de fapte și mai multe tabele de dimensiuni care sunt conectate la acesta. Cheia primară a tabelelor de dimensiuni este o cheie străină din tabelul de fapte.
O schemă fulg de zăpadă are același tabel de fapte ca schema stea, dar la un nivel mai ridicat de normalizare. Tabelele de dimensiuni sunt normalizate sau au mai multe straturi, care seamănă cu un fulg de zăpadă.

9. Explicați datele discrete și continue.

Date discrete finite și definite, cum ar fi sexul, numerele de telefon etc. Pe de altă parte, datele continuu se modifică într-o manieră ordonată; de exemplu, vârsta, temperatura etc.

10. Ce sunt algoritmii de grupare a secvențelor și serii de timp?

Un algoritm de grupare a secvenței colectează:

Secvențe de date care au evenimente și
Căi înrudite sau similare.

Algoritmii serii temporale prezic valori continue în tabelele de date. De exemplu, poate prognoza cifrele de vânzări și profit pe baza performanței angajaților de-a lungul timpului.

Acum că ți-ai perfecționat noțiunile de bază, iată zece întrebări frecvente despre modelarea datelor pentru practica ta!

11. Descrieți procesul de depozitare a datelor.

Depozitarea datelor conectează și gestionează datele brute din surse eterogene. Acest proces de colectare și analiză a datelor permite întreprinderilor de afaceri să obțină informații semnificative din locații variate într-un singur loc, care formează nucleul Business Intelligence.

12. Care sunt diferențele cheie dintre un data mart și un data warehouse?

Un data mart permite luarea de decizii tactice pentru creșterea afacerii, concentrându-se pe o singură zonă de afaceri și urmând un model de jos în sus. Pe de altă parte, un depozit de date facilitează luarea deciziilor strategice, punând accent pe mai multe zone și surse de date și adoptând o abordare de sus în jos.

13. Menționați tipurile de relații critice găsite în modelele de date.

Relațiile critice pot fi clasificate în:

Identificare: conectează mesele pentru părinți și copii cu o linie groasă. Coloana de referință a tabelului copil este o parte a cheii primare.
Neidentificare: tabelele sunt conectate printr-o linie punctată, ceea ce înseamnă că coloana de referință a tabelului copil nu face parte din cheia primară.
Sef-recursiv: o coloană independentă a tabelului este conectată la cheia primară într-o relație recursivă.

14. Care sunt unele erori frecvente pe care le întâlniți în timpul modelării datelor?

Poate deveni dificil să construiești modele ample de date. De asemenea, șansele de eșec cresc atunci când tabelele rulează mai mult de 200. De asemenea, este esențial pentru modelator de date să aibă cunoștințe adecvate și viabile despre misiunea de afaceri. În caz contrar, modelele de date riscă să se dezvolte.

Cheile surogat inutile ridică o altă problemă. Ele nu trebuie folosite cu moderație, ci numai atunci când cheile naturale nu pot îndeplini rolul cheii primare.

De asemenea, se pot întâlni situații de denormalizare inadecvată în care menținerea redundanței datelor poate deveni o provocare considerabilă.

15. Discutați DBMS-ul ierarhic. Care sunt dezavantajele acestui model de date?

Un SGBD ierarhic stochează date în structuri arborescente. Formatul folosește relația părinte-copil în care un părinte poate avea mulți copii, dar un copil poate avea doar un părinte.

Dezavantajele acestui model includ:

Lipsa de flexibilitate și adaptabilitate la nevoile în schimbare ale afacerii;
Probleme în comunicațiile inter-departamentale, inter-agenții și verticale;
Probleme de dezbinare a datelor.

16. Detaliați două tipuri de tehnici de modelare a datelor.

Entity-Relationship (ER) și Unified Modeling Language (UML) sunt cele două tehnici standard de modelare a datelor.

ER este utilizat în inginerie software pentru a produce modele de date sau diagrame ale sistemelor informaționale. UML este un limbaj de uz general pentru dezvoltarea și modelarea bazelor de date care ajută la vizualizarea designului sistemului.

17. Ce este o dimensiune junk?

O dimensiune nedorită se naște prin combinarea atributelor cu cardinalitate scăzută (indicatori, booleeni sau valori de semnalizare) într-o singură dimensiune. Aceste valori sunt eliminate din alte tabele și apoi grupate sau „junked” într-un tabel de dimensiuni abstracte, care este o metodă de inițiere a „Dimensiuni cu schimbare rapidă” în depozitele de date.

18. Precizați câteva programe populare DBMS.

MySQL, Oracle, Microsoft Access, dBase, SQLite, PostgreSQL, IBM DB2 și Microsoft SQL Server sunt unele dintre cele mai utilizate instrumente DBMS în arena modernă a dezvoltării software.

19. Care sunt avantajele și dezavantajele utilizării modelării datelor?

Avantajele utilizării minării de date:

Datele de afaceri pot fi gestionate mai bine prin normalizarea și definirea atributelor.
Exploatarea datelor permite integrarea datelor între sisteme și reduce redundanța.
Face loc unui proiect eficient de baze de date.
Permite cooperarea inter-departamentală și munca în echipă.
Permite accesul ușor la date.

Contra utilizării modelării datelor:

Modelarea datelor poate face uneori sistemul mai complex.
Are o dependență structurală limitată.

20. Explicați analiza datelor și modelarea predictivă.

Exploatarea datelor este o abilitate multidisciplinară. Aceasta implică aplicarea cunoștințelor din domenii precum inteligența artificială (AI), învățarea automată (ML) și tehnologiile bazelor de date. Aici, practicanții sunt preocupați să descopere misterele datelor și să descopere relații necunoscute anterior.

Modelarea predictivă se referă la testarea și validarea modelelor care pot prezice rezultate specifice. Acest proces are mai multe aplicații în AI, ML și Statistică.

Informații despre carieră pentru modelerii de date aspiranți

Indiferent dacă sunteți în căutarea unui nou loc de muncă, promovare sau tranziție în carieră, îmbunătățirea competențelor într-o disciplină relevantă vă poate îmbunătăți considerabil șansele de angajare.

Ar trebui să vă gândiți să consultați Programul Executive PG în știința datelor de la IIIT-B și upGrad, care este creat pentru profesioniști care lucrează și oferă peste 10 studii de caz și proiecte, ateliere practice practice, mentorat cu experți din industrie, 1-la-1 cu mentori din industrie , peste 400 de ore de învățare și asistență profesională cu firme de top.

Cu aceasta, încheiem această discuție despre joburile și interviurile de modelare a datelor. Suntem siguri că datele menționate mai sus, modelând întrebările și răspunsurile la interviu, vă vor ajuta să vă clarificați zonele cu probleme și să performați mai bine în procesul de plasare!

Cât câștigă un Data Modeler pe an?

Există o mulțime de factori care ar afecta cu adevărat salariul oricărui individ din domeniul modelării datelor. În medie, salariul unui modelator de date este Rs. 12.00.000 pe an. Ar depinde foarte mult de compania cu care lucrezi. Chiar dacă începeți ca modelator de date, cel mai mic pachet este Rs. 600.000 pe an, în timp ce cel mai mare pachet la care se poate aștepta până la Rs. 20.00.000 pe an.

Este dificil să faci un interviu de modelare a datelor?

Modelarea datelor este un domeniu în curs de dezvoltare cu o cerere uriașă pe piață. Pe de altă parte, numărul profesioniștilor care sunt competenți în modelarea datelor este destul de mic. Interviul poate părea puțin dificil dacă nu v-ați pregătit corespunzător, dar vă puteți aștepta la un interviu decent, cu o pregătire adecvată.
Pe lângă clarificarea elementelor fundamentale ale modelării datelor, ar trebui să preferați să parcurgeți unele dintre cele mai frecvente întrebări la interviu. Acest lucru vă va face mult mai ușor să răspundeți la întrebările adresate în interviu, deoarece aveți deja o idee despre diferitele întrebări adresate, precum și despre modul de a le răspunde.

Ce abilități trebuie să am pentru a fi un Data Modeler?

Abilitățile necesare pentru a deveni un modelator de date sunt destul de diferite de cele necesare pentru a intra în administrarea de sisteme sau programare. De obicei, aceste tipuri de locuri de muncă necesită competențe tehnice, dar cazul este diferit aici. Pentru a deveni modelator de date, trebuie să fii bine versat în ceea ce privește logica. Unele dintre abilitățile cheie pe care trebuie să le dezvolți sunt:
1. Design conceptual
2. Comunicare internă
3. Comunicarea cu utilizatorul
4. Gândirea abstractă
Chiar dacă nu sunteți foarte priceput din punct de vedere tehnic, puteți obține un loc de muncă ca modelator de date dacă puteți gândi abstract și conceptual.