Le 20 domande e risposte più popolari sull'intervista sulla modellazione dei dati [per principianti ed esperti]

Pubblicato: 2021-06-10

La scienza dei dati è uno dei campi di carriera più redditizi nell'attuale mercato del lavoro. E con l'aumento della concorrenza, anche i colloqui di lavoro diventano ogni giorno più innovativi. I datori di lavoro vogliono testare le conoscenze concettuali e la comprensione pratica dei candidati di argomenti e strumenti tecnologici pertinenti. In questo blog, discuteremo alcune domande rilevanti per interviste sulla modellazione dei dati per aiutarti a fare una prima impressione potente!

Sommario

Principali domande e risposte sull'intervista sulla modellazione dei dati

Ecco 20 domande di intervista sulla modellazione dei dati insieme alle risposte di esempio che ti guideranno attraverso i livelli principiante, intermedio e avanzato dell'argomento.

1. Che cos'è la modellazione dei dati? Elenca i tipi di modelli di dati.

La modellazione dei dati implica la creazione di una rappresentazione (o modello) dei dati disponibili e la sua memorizzazione in un database.

Un modello di dati comprende entità (come clienti, prodotti, produttori e venditori) che danno origine a oggetti e attributi che gli utenti desiderano monitorare. Ad esempio, un nome cliente è un attributo dell'entità cliente. Questi dettagli prendono ulteriormente la forma di una tabella in un database.

Esistono tre tipi fondamentali di modelli di dati, vale a dire:

  • Concettuale: gli architetti dei dati e le parti interessate del business creano questo modello per organizzare, definire e definire concetti di business. Decide cosa dovrebbe contenere un sistema.
  • Logico: messo insieme da architetti di dati e analisti aziendali, questo modello mappa le regole tecniche e le strutture dei dati, determinando così l'implementazione del sistema indipendentemente da un sistema di gestione di database o DBMS.
  • Fisico: gli architetti e gli sviluppatori di database creano questo modello per descrivere come dovrebbe funzionare il sistema con un DBMS specifico.

2. Che cos'è una tabella? Spiega i fatti e la tabella dei fatti.

Una tabella contiene i dati in righe (allineamenti orizzontali) e colonne (allineamenti verticali). Le righe sono anche note come record o tuple, mentre le colonne possono essere chiamate campi.

Un fatto sono dati quantitativi come "vendite nette" o "importo dovuto". Una tabella dei fatti memorizza i dati numerici e alcuni attributi delle tabelle dimensionali.

3. Cosa intendi per (i) dimensione (ii) granularità (iv) scarsità dei dati (v) hashing (v) sistema di gestione del database?

(i) Le dimensioni rappresentano dati qualitativi come classe e prodotto. Pertanto, una tabella dimensionale contenente dati di prodotto avrà attributi come la categoria del prodotto, il nome del prodotto, ecc.

(ii) La granularità si riferisce al livello di informazioni memorizzate in una tabella. Può essere alto o basso, con le tabelle che contengono rispettivamente i dati a livello di transazione e le tabelle dei fatti.

(iii) La scarsità dei dati indica il numero di celle vuote in un database. In altre parole, indica la quantità di dati che abbiamo per una particolare entità o dimensione nel modello di dati. Informazioni insufficienti portano a database di grandi dimensioni poiché è necessario più spazio per salvare le aggregazioni.

(iv) La tecnica di hashing aiuta a cercare i valori dell'indice per recuperare i dati desiderati. Viene utilizzato per calcolare la posizione diretta dei record di dati con l'aiuto di strutture di indice.

(v) Un Database Management System (DBMS) è un software che comprende un gruppo di programmi per manipolare il database. Il suo scopo principale è archiviare e recuperare i dati dell'utente.

4. Definire la normalizzazione. Qual è il suo scopo?

La tecnica di normalizzazione divide le tabelle più grandi in quelle più piccole, collegandole utilizzando relazioni diverse. Organizza le tabelle in modo da ridurre al minimo la dipendenza e la ridondanza dei dati.

Ci possono essere cinque tipi di normalizzazione, vale a dire:

  • Prima forma normale
  • Seconda forma normale
  • Terza forma normale
  • Boyce-Codd quarta forma normale
  • Quinta forma normale

5. Qual è l'utilità della denormalizzazione nella modellazione dei dati?

La denormalizzazione viene utilizzata per costruire un data warehouse, soprattutto in situazioni con un ampio coinvolgimento delle tabelle. Questa strategia viene utilizzata su un database precedentemente normalizzato.

6. Spiegare le differenze tra chiave primaria, chiave primaria composita, chiave esterna e chiave surrogata.

Una chiave primaria è un pilastro in ogni tabella di dati. Denota una colonna o un gruppo di colonne e consente di identificare le righe di una tabella. Il valore della chiave primaria non può essere null. Quando più di una colonna viene applicata come parte della chiave primaria, è nota come chiave primaria composita.

D'altra parte, una chiave esterna è un gruppo di attributi che consente di collegare tabelle padre e figlio. Il valore della chiave esterna nella tabella figlio viene referenziato come valore della chiave primaria nella tabella padre.

Una chiave surrogata viene utilizzata per identificare ogni record in quelle situazioni in cui gli utenti non dispongono di una chiave primaria naturale. Questa chiave artificiale è tipicamente rappresentata come un numero intero e non conferisce alcun significato ai dati contenuti nella tabella.

7. Confrontare il sistema OLTP con il processo OLAP.

OLTP è un sistema transazionale online che si basa su database tradizionali per eseguire operazioni aziendali in tempo reale. Il database OLTP ha tabelle normalizzate e il tempo di risposta è in genere entro millisecondi.

Al contrario, OLAP è un processo online pensato per l'analisi e il recupero dei dati. È progettato per analizzare grandi volumi di misure aziendali per categoria e attributi. A differenza di OLTP, OLAP utilizza un data warehouse, tabelle non normalizzate e opera con un tempo di risposta da secondi a minuti.

8. Elencare i progetti di schemi di database standard.

Uno schema è un diagramma o un'illustrazione di relazioni e strutture di dati. Esistono due progetti di schemi nella modellazione dei dati, vale a dire lo schema a stella e lo schema a fiocco di neve.

  • Uno schema a stella comprende una tabella dei fatti centrale e diverse tabelle delle dimensioni ad essa collegate. La chiave primaria delle tabelle delle dimensioni è una chiave esterna nella tabella dei fatti.
  • Uno schema a fiocco di neve ha la stessa tabella dei fatti dello schema a stella ma a un livello di normalizzazione più elevato. Le tabelle dimensionali sono normalizzate o hanno più livelli, che assomigliano a un fiocco di neve.

9. Spiegare dati discreti e continui.

Dati discreti finiti e definiti, come sesso, numeri di telefono, ecc. D'altra parte, i dati continui cambiano in modo ordinato; ad esempio, età, temperatura, ecc.

10. Cosa sono il clustering di sequenze e gli algoritmi di serie temporali?

Un algoritmo di clustering di sequenze raccoglie:

  • Sequenze di dati con eventi e
  • Percorsi correlati o simili.

Gli algoritmi delle serie temporali prevedono valori continui nelle tabelle di dati. Ad esempio, può prevedere i dati sulle vendite e sui profitti in base alle prestazioni dei dipendenti nel tempo.

Ora che hai rispolverato le tue basi, ecco dieci domande più frequenti sulla modellazione dei dati per la tua pratica!

11. Descrivere il processo di data warehousing.

Il data warehousing connette e gestisce dati grezzi da fonti eterogenee. Questo processo di raccolta e analisi dei dati consente alle aziende di ottenere informazioni significative da varie località in un unico luogo, che costituisce il nucleo della Business Intelligence.

12. Quali sono le principali differenze tra un data mart e un data warehouse?

Un data mart consente decisioni tattiche per la crescita del business concentrandosi su una singola area di business e seguendo un modello bottom-up. D'altra parte, un data warehouse facilita il processo decisionale strategico enfatizzando più aree e fonti di dati e adottando un approccio top-down.

13. Citare i tipi di relazioni critiche che si trovano nei modelli di dati.

Le relazioni critiche possono essere classificate in:

  • Identificazione: collega le tabelle padre e figlio con una linea spessa. La colonna di riferimento della tabella figlio fa parte della chiave primaria.
  • Non identificativo: le tabelle sono collegate da una linea tratteggiata, a significare che la colonna di riferimento della tabella figlio non fa parte della chiave primaria.
  • Ricorsiva: una colonna autonoma della tabella è collegata alla chiave primaria in una relazione ricorsiva.

14. Quali sono alcuni errori comuni che si verificano durante la modellazione dei dati?

Può diventare complicato costruire modelli di dati ampi. Le possibilità di errore aumentano anche quando le tabelle sono superiori a 200. È inoltre fondamentale che il modellatore di dati disponga di un'adeguata conoscenza pratica della missione aziendale. In caso contrario, i modelli di dati corrono il rischio di andare in tilt.

Le chiavi sostitutive non necessarie pongono un altro problema. Non devono essere usati con parsimonia, ma solo quando le chiavi naturali non possono svolgere il ruolo di chiave primaria.

Si possono anche incontrare situazioni di denormalizzazione inappropriata in cui il mantenimento della ridondanza dei dati può diventare una sfida considerevole.

15. Discutere i DBMS gerarchici. Quali sono gli svantaggi di questo modello di dati?

Un DBMS gerarchico memorizza i dati in strutture ad albero. Il formato utilizza la relazione genitore-figlio in cui un genitore può avere molti figli, ma un figlio può avere un solo genitore.

Gli svantaggi di questo modello includono:

  • Mancanza di flessibilità e adattabilità alle mutevoli esigenze aziendali;
  • Problemi nelle comunicazioni interdipartimentali, interagenziali e verticali;
  • Problemi di disunione nei dati.

16. Dettagliare due tipi di tecniche di modellazione dei dati.

Entity-Relationship (ER) e Unified Modeling Language (UML) sono le due tecniche standard di modellazione dei dati.

ER viene utilizzato nell'ingegneria del software per produrre modelli di dati o diagrammi di sistemi informativi. UML è un linguaggio generico per lo sviluppo e la modellazione di database che aiuta a visualizzare la progettazione del sistema.

17. Che cos'è una dimensione spazzatura?

Una dimensione spazzatura nasce combinando attributi a bassa cardinalità (indicatori, valori booleani o flag) in un'unica dimensione. Questi valori vengono rimossi da altre tabelle e quindi raggruppati o "cancellati" in una tabella di dimensioni astratta, che è un metodo per avviare "dimensioni che cambiano rapidamente" all'interno dei data warehouse.

18. Indica alcuni popolari software DBMS.

MySQL, Oracle, Microsoft Access, dBase, SQLite, PostgreSQL, IBM DB2 e Microsoft SQL Server sono alcuni degli strumenti DBMS più utilizzati nella moderna arena di sviluppo software.

19. Quali sono i vantaggi e gli svantaggi dell'utilizzo della modellazione dei dati?

Vantaggi dell'utilizzo del data mining:

  • I dati aziendali possono essere gestiti meglio normalizzando e definendo gli attributi.
  • Il data mining consente l'integrazione dei dati tra i sistemi e riduce la ridondanza.
  • Fa spazio a una progettazione efficiente del database.
  • Consente la cooperazione interdipartimentale e il lavoro di squadra.
  • Consente un facile accesso ai dati.

Svantaggi dell'utilizzo della modellazione dei dati:

  • La modellazione dei dati a volte può rendere il sistema più complesso.
  • Ha una dipendenza strutturale limitata.

20. Spiegare il data mining e l'analisi dei modelli predittivi.

Il data mining è un'abilità multidisciplinare. Implica l'applicazione di conoscenze provenienti da campi come Intelligenza Artificiale (AI), Machine Learning (ML) e Tecnologie di database. Qui, i praticanti si occupano di svelare i misteri dei dati e di scoprire relazioni precedentemente sconosciute.

La modellazione predittiva si riferisce al test e alla convalida di modelli in grado di prevedere risultati specifici. Questo processo ha diverse applicazioni in AI, ML e Statistiche.

Approfondimenti sulla carriera per aspiranti modellatori di dati

Che tu stia cercando un nuovo lavoro, una promozione o una transizione di carriera, il miglioramento delle competenze in una disciplina pertinente può migliorare notevolmente le tue possibilità di assunzione.

Dovresti prendere in considerazione la possibilità di dare un'occhiata al programma Executive PG in Data Science di IIIT-B e upGrad, creato per i professionisti che lavorano e offre oltre 10 casi di studio e progetti, workshop pratici pratici, tutoraggio con esperti del settore, 1 contro 1 con mentori del settore , oltre 400 ore di apprendimento e assistenza al lavoro con le migliori aziende.

Con questo, concludiamo questa discussione sui lavori di modellazione dei dati e sulle interviste. Siamo certi che i dati sopra menzionati sulla modellazione delle domande e delle risposte al colloquio ti aiuteranno a chiarire le aree problematiche e ad ottenere risultati migliori nel processo di collocamento!

Quanto guadagna un Data Modeler all'anno?

Ci sono molti fattori che influenzerebbero davvero lo stipendio di qualsiasi individuo nel campo della modellazione dei dati. In media, lo stipendio di un modellatore di dati è di Rs. 12.00.000 annui. Dipende molto dall'azienda con cui lavori. Anche se stai iniziando come modellatore di dati, il pacchetto più basso è Rs. 600.000 all'anno, mentre il pacchetto più alto che ci si può aspettare fino a Rs. 20.00.000 annui.

È difficile decifrare un'intervista sulla modellazione dei dati?

La modellazione dei dati è un campo emergente con un'enorme richiesta nel mercato. D'altra parte, il numero di professionisti esperti nella modellazione dei dati è molto inferiore. Il colloquio potrebbe sembrare un po' difficile se non ti sei preparato adeguatamente, ma puoi aspettarti un colloquio decente con una preparazione adeguata.
Oltre a chiarire i fondamenti della modellazione dei dati, dovresti anche preferire esaminare alcune delle domande più frequenti del colloquio. In questo modo sarà molto più facile rispondere alle domande poste nell'intervista poiché hai già un'idea delle diverse domande poste e del modo in cui rispondere.

Di quali competenze ho bisogno per essere un Data Modeler?

Le competenze richieste per diventare un modellatore di dati sono abbastanza diverse da quelle necessarie per entrare nell'amministrazione o nella programmazione dei sistemi. Di solito, questi tipi di lavori richiedono competenze tecniche, ma qui il caso è diverso. È necessario essere esperti sul lato logico per diventare un modellatore di dati. Alcune delle abilità chiave che uno deve sviluppare sono:
1. Progettazione concettuale
2. Comunicazione interna
3. Comunicazione con l'utente
4. Pensiero astratto
Anche se non sei molto esperto dal punto di vista tecnico, puoi ottenere un lavoro come modellatore di dati se riesci a pensare in modo astratto e concettuale.