20 najpopularniejszych pytań i odpowiedzi dotyczących modelowania danych [dla początkujących i doświadczonych]

Opublikowany: 2021-06-10

Data Science to jedna z najbardziej lukratywnych dziedzin kariery na obecnym rynku pracy. A gdy konkurencja się nasila, rozmowy kwalifikacyjne stają się z dnia na dzień coraz bardziej innowacyjne. Pracodawcy chcą przetestować wiedzę pojęciową kandydatów i praktyczne zrozumienie odpowiednich tematów i narzędzi technologicznych. W tym blogu omówimy kilka istotnych pytań dotyczących wywiadów dotyczących modelowania danych, które pomogą Ci wywrzeć silne pierwsze wrażenie!

Spis treści

Najpopularniejsze pytania i odpowiedzi dotyczące modelowania danych

Oto 20 pytań do wywiadu dotyczącego modelowania danych wraz z przykładowymi odpowiedziami, które przeprowadzą Cię przez poziomy początkującego, średnio zaawansowanego i zaawansowanego tematu.

1. Co to jest modelowanie danych? Wymień typy modeli danych.

Modelowanie danych obejmuje tworzenie reprezentacji (lub modelu) dostępnych danych i przechowywanie ich w bazie danych.

Model danych obejmuje jednostki (takie jak klienci, produkty, producenci i sprzedawcy), które dają początek obiektom i atrybutom, które użytkownicy chcą śledzić. Na przykład nazwa klienta jest atrybutem encji Klient. Te szczegóły przybierają dodatkowo kształt tabeli w bazie danych.

Istnieją trzy podstawowe typy modeli danych, a mianowicie:

Koncepcyjne: architekci danych i interesariusze biznesowi tworzą ten model w celu organizowania, określania zakresu i definiowania koncepcji biznesowych. Określa, co system powinien zawierać.
Logiczny: opracowany przez architektów danych i analityków biznesowych, model ten odwzorowuje reguły techniczne i struktury danych, określając w ten sposób implementację systemu niezależnie od systemu zarządzania bazą danych lub DBMS.
Fizyczne: Architekci i programiści baz danych tworzą ten model, aby opisać, jak system powinien działać z określonym DBMS.

2. Co to jest stół? Wyjaśnij fakty i tabele faktów.

Tabela przechowuje dane w wierszach (wyrównania poziome) i kolumnach (wyrównania pionowe). Wiersze są również znane jako rekordy lub krotki, podczas gdy kolumny mogą być określane jako pola.

Faktem są dane ilościowe, takie jak „sprzedaż netto” lub „należność”. Tabela faktów przechowuje dane liczbowe, a także niektóre atrybuty z tabel wymiarowych.

3. Co rozumiesz przez (i) wymiar (ii) granulację (iv) rzadkość danych (v) mieszanie (v) system zarządzania bazą danych?

(i) Wymiary reprezentują dane jakościowe, takie jak klasa i produkt. Dlatego tabela wymiarowa zawierająca dane produktu będzie miała atrybuty, takie jak kategoria produktu, nazwa produktu itp.

(ii) Szczegółowość odnosi się do poziomu informacji przechowywanych w tabeli. Może być wysoki lub niski, przy czym tabele zawierają odpowiednio dane na poziomie transakcji i tabele faktów.

(iii) Rozrzutność danych oznacza liczbę pustych komórek w bazie danych. Innymi słowy, określa, ile danych mamy dla określonej jednostki lub wymiaru w modelu danych. Niewystarczająca ilość informacji prowadzi do dużych baz danych, ponieważ do zapisania agregacji potrzeba więcej miejsca.

(iv) Technika mieszania pomaga w wyszukiwaniu wartości indeksu w celu uzyskania pożądanych danych. Służy do obliczania bezpośredniej lokalizacji rekordów danych za pomocą struktur indeksowych.

(v) System zarządzania bazą danych (DBMS) to oprogramowanie składające się z grupy programów do manipulowania bazą danych. Jego głównym celem jest przechowywanie i pobieranie danych użytkownika.

4. Zdefiniuj normalizację. Jaki jest jego cel?

Technika normalizacji dzieli większe tabele na mniejsze, łącząc je za pomocą różnych relacji. Organizuje tabele w sposób minimalizujący zależność i nadmiarowość danych.

Istnieje pięć rodzajów normalizacji, a mianowicie:

Pierwsza postać normalna
Druga postać normalna
Trzecia postać normalna
Boyce-Codd czwarta forma normalna
Piąta postać normalna

5. Jaka jest użyteczność denormalizacji w modelowaniu danych?

Denormalizacja jest wykorzystywana do budowy hurtowni danych, zwłaszcza w sytuacjach dużego zaangażowania tabel. Ta strategia jest używana na wcześniej znormalizowanej bazie danych.

6. Wyjaśnij różnice między kluczem podstawowym, złożonym kluczem podstawowym, kluczem obcym i kluczem zastępczym.

Klucz podstawowy jest podstawą w każdej tabeli danych. Oznacza kolumnę lub grupę kolumn i pozwala zidentyfikować wiersze tabeli. Wartość klucza podstawowego nie może mieć wartości NULL. Jeśli jako część klucza podstawowego zastosowano więcej niż jedną kolumnę, jest on nazywany złożonym kluczem podstawowym.

Z drugiej strony klucz obcy to grupa atrybutów, która umożliwia łączenie tabel nadrzędnych i podrzędnych. Wartość klucza obcego w tabeli podrzędnej jest przywoływana jako wartość klucza podstawowego w tabeli nadrzędnej.

Klucz zastępczy służy do identyfikowania każdego rekordu w sytuacjach, w których użytkownicy nie mają naturalnego klucza podstawowego. Ten sztuczny klucz jest zwykle reprezentowany jako liczba całkowita i nie nadaje żadnego znaczenia danym zawartym w tabeli.

7. Porównaj system OLTP z procesem OLAP.

OLTP to internetowy system transakcyjny, który wykorzystuje tradycyjne bazy danych do wykonywania operacji biznesowych w czasie rzeczywistym. Baza danych OLTP zawiera znormalizowane tabele, a czas odpowiedzi zwykle mieści się w zakresie milisekund.

I odwrotnie, OLAP to proces online przeznaczony do analizy i wyszukiwania danych. Jest przeznaczony do analizowania dużych ilości miar biznesowych według kategorii i atrybutów. W przeciwieństwie do OLTP, OLAP wykorzystuje hurtownię danych, nieznormalizowane tabele i działa z czasem odpowiedzi od sekund do minut.

8. Wymień standardowe projekty schematów baz danych.

Schemat to diagram lub ilustracja relacji i struktur danych. W modelowaniu danych istnieją dwa projekty schematów, a mianowicie schemat gwiaździsty i schemat płatka śniegu.

Schemat gwiaździsty składa się z centralnej tabeli faktów i kilku połączonych z nią tabel wymiarów. Klucz podstawowy tabel wymiarów jest kluczem obcym w tabeli faktów.
Schemat płatka śniegu ma taką samą tabelę faktów jak schemat gwiaździsty, ale na wyższym poziomie normalizacji. Tabele wymiarów są znormalizowane lub mają wiele warstw, co przypomina płatek śniegu.

9. Wyjaśnij dane dyskretne i ciągłe.

Dane dyskretne skończone i zdefiniowane, takie jak płeć, numery telefonów itp. Z drugiej strony dane ciągłe zmieniają się w uporządkowany sposób; na przykład wiek, temperatura itp.

10. Co to są algorytmy grupowania sekwencji i szeregów czasowych?

Algorytm grupowania sekwencji zbiera:

Sekwencje danych posiadające zdarzenia oraz
Powiązane lub podobne ścieżki.

Algorytmy szeregów czasowych przewidują wartości ciągłe w tabelach danych. Na przykład może prognozować dane dotyczące sprzedaży i zysków na podstawie wydajności pracowników w czasie.

Teraz, gdy już odświeżyłeś swoje podstawy, oto dziesięć najczęściej zadawanych pytań dotyczących modelowania danych dla Twojej praktyki!

11. Opisz proces hurtowni danych.

Hurtownia danych łączy i zarządza nieprzetworzonymi danymi z heterogenicznych źródeł. Ten proces zbierania i analizy danych umożliwia przedsiębiorstwom uzyskanie istotnych informacji z różnych lokalizacji w jednym miejscu, które stanowi rdzeń Business Intelligence.

12. Jakie są kluczowe różnice między hurtownią danych a hurtownią danych?

Data mart umożliwia podejmowanie taktycznych decyzji dotyczących rozwoju firmy, koncentrując się na jednym obszarze biznesowym i stosując model oddolny. Z drugiej strony hurtownia danych ułatwia podejmowanie strategicznych decyzji, kładąc nacisk na wiele obszarów i źródeł danych oraz przyjmując podejście odgórne.

13. Wymień rodzaje relacji krytycznych występujących w modelach danych.

Relacje krytyczne można podzielić na:

Identyfikowanie: łączy tabele nadrzędne i podrzędne grubą linią. Kolumna odniesienia tabeli podrzędnej jest częścią klucza podstawowego.
Nieidentyfikujące: Tabele są połączone linią przerywaną, co oznacza, że kolumna odniesienia tabeli podrzędnej nie jest częścią klucza podstawowego.
Sef-recursive: samodzielna kolumna tabeli jest połączona z kluczem podstawowym w relacji rekurencyjnej.

14. Jakie są typowe błędy, które napotykasz podczas modelowania danych?

Tworzenie szerokich modeli danych może być trudne. Szanse na niepowodzenie również wzrastają, gdy tabele są większe niż 200. Dla osoby zajmującej się modelowaniem danych niezwykle ważne jest również posiadanie odpowiedniej praktycznej wiedzy na temat misji biznesowej. W przeciwnym razie istnieje ryzyko, że modele danych zwariują.

Kolejnym problemem są niepotrzebne klucze zastępcze. Nie wolno ich używać oszczędnie, ale tylko wtedy, gdy klucze naturalne nie mogą spełnić roli klucza podstawowego.

Można również spotkać się z sytuacjami niewłaściwej denormalizacji, w których utrzymanie nadmiarowości danych może stać się sporym wyzwaniem.

15. Omów hierarchiczny DBMS. Jakie są wady tego modelu danych?

Hierarchiczny DBMS przechowuje dane w strukturach przypominających drzewa. Format wykorzystuje relację rodzic-dziecko, w której rodzic może mieć wiele dzieci, ale dziecko może mieć tylko jednego rodzica.

Wady tego modelu to:

Brak elastyczności i możliwości dostosowania do zmieniających się potrzeb biznesowych;
Zagadnienia komunikacji międzyresortowej, międzyagencyjnej i pionowej;
Problemy braku jedności w danych.

16. Wyszczególnij dwa rodzaje technik modelowania danych.

Relacja jednostek (ER) i Unified Modeling Language (UML) to dwie standardowe techniki modelowania danych.

ER jest używany w inżynierii oprogramowania do tworzenia modeli danych lub diagramów systemów informatycznych. UML to język ogólnego przeznaczenia do tworzenia i modelowania baz danych, który pomaga w wizualizacji projektu systemu.

17. Co to jest wymiar śmieci?

Wymiar śmieciowy powstaje przez połączenie atrybutów o niskiej kardynalności (wskaźniki, wartości logiczne lub wartości flag) w jeden wymiar. Wartości te są usuwane z innych tabel, a następnie grupowane lub „śmieci” w abstrakcyjnej tabeli wymiarów, która jest metodą inicjowania „szybko zmieniających się wymiarów” w hurtowniach danych.

18. Podaj popularne oprogramowanie DBMS.

MySQL, Oracle, Microsoft Access, dBase, SQLite, PostgreSQL, IBM DB2 i Microsoft SQL Server to jedne z najczęściej używanych narzędzi DBMS we współczesnej dziedzinie tworzenia oprogramowania.

19. Jakie są zalety i wady korzystania z modelowania danych?

Zalety korzystania z eksploracji danych:

Danymi biznesowymi można lepiej zarządzać, normalizując i definiując atrybuty.
Eksploracja danych umożliwia integrację danych między systemami i zmniejsza nadmiarowość.
Ustępuje wydajnemu projektowi bazy danych.
Umożliwia współpracę międzydziałową i pracę zespołową.
Umożliwia łatwy dostęp do danych.

Wady korzystania z modelowania danych:

Modelowanie danych może czasami uczynić system bardziej złożonym.
Ma ograniczoną zależność strukturalną.

20. Wyjaśnij eksplorację danych i analizę modelowania predykcyjnego.

Eksploracja danych to umiejętność multidyscyplinarna. Polega na zastosowaniu wiedzy z dziedzin takich jak sztuczna inteligencja (AI), uczenie maszynowe (ML) i technologie baz danych. Tutaj praktycy zajmują się odkrywaniem tajemnic danych i odkrywaniem nieznanych wcześniej relacji.

Modelowanie predykcyjne odnosi się do testowania i walidacji modeli, które mogą przewidywać określone wyniki. Ten proces ma kilka zastosowań w AI, ML i Statystyce.

Informacje o karierze dla początkujących modelarzy danych

Niezależnie od tego, czy szukasz nowej pracy, awansu, czy zmiany kariery, podnoszenie umiejętności w odpowiedniej dyscyplinie może znacznie zwiększyć Twoje szanse na zatrudnienie.

Powinieneś rozważyć sprawdzenie programu Executive PG w dziedzinie Data Science IIIT-B i upGrad, który jest stworzony dla pracujących profesjonalistów i oferuje ponad 10 studiów przypadków i projektów, praktyczne warsztaty praktyczne, mentoring z ekspertami branżowymi, 1 na 1 z mentorami branżowymi , ponad 400 godzin nauki i pomocy w pracy z najlepszymi firmami.

Na tym kończymy dyskusję na temat pracy i rozmów kwalifikacyjnych związanych z modelowaniem danych. Jesteśmy pewni, że powyższe dane modelujące pytania i odpowiedzi podczas rozmowy kwalifikacyjnej pomogą Ci wyjaśnić obszary problemowe i lepiej wypaść w procesie rekrutacji!

Ile zarabia Data Modeler rocznie?

Istnieje wiele czynników, które naprawdę wpłynęłyby na wynagrodzenie każdej osoby w dziedzinie modelowania danych. Średnio wynagrodzenie modelarza danych wynosi Rs. 12 000 000 rocznie. Zależałoby to w dużej mierze od firmy, z którą pracujesz. Nawet jeśli zaczynasz jako modelarz danych, najniższy pakiet to Rs. 600 000 rocznie, podczas gdy najwyższy pakiet, jakiego można oczekiwać do Rs. 20 000 000 rocznie.

Czy trudno jest złamać wywiad dotyczący modelowania danych?

Modelowanie danych to rozwijająca się dziedzina o ogromnym zapotrzebowaniu na rynku. Z drugiej strony liczba profesjonalistów, którzy są biegli w modelowaniu danych, jest znacznie mniejsza. Rozmowa może wydawać się nieco trudna, jeśli nie przygotowałeś się odpowiednio, ale możesz spodziewać się przyzwoitej rozmowy z odpowiednim przygotowaniem.
Oprócz wyjaśnienia podstaw modelowania danych, powinieneś również preferować przejrzenie niektórych z najczęściej zadawanych pytań podczas rozmowy kwalifikacyjnej. Ułatwi ci to odpowiadanie na pytania zadawane podczas wywiadu, ponieważ masz już pojęcie o różnych zadawanych pytaniach, a także o sposobie udzielania na nie odpowiedzi.

Jakie umiejętności muszę posiadać, aby zostać projektantem danych?

Umiejętności wymagane do zostania modelarzem danych są zupełnie inne niż te potrzebne do wejścia w administrację systemami lub programowanie. Zazwyczaj tego typu prace wymagają umiejętności technicznych, ale tutaj jest inaczej. Aby zostać modelarzem danych, trzeba być dobrze zorientowanym w logice. Niektóre z kluczowych umiejętności, które należy rozwijać, to:
1. Projekt koncepcyjny
2. Komunikacja wewnętrzna
3. Komunikacja użytkownika
4. Myślenie abstrakcyjne
Nawet jeśli nie jesteś zbyt biegły od strony technicznej, możesz dostać pracę jako modelarz danych, jeśli potrafisz myśleć abstrakcyjnie i koncepcyjnie.