Musisz przeczytać 26 pytań i odpowiedzi na wywiad z analitykiem danych: ostateczny przewodnik 2022

Opublikowany: 2021-01-07

Uczestniczysz w rozmowie kwalifikacyjnej z analitykiem danych i zastanawiasz się, jakie są wszystkie pytania i dyskusje, przez które przejdziesz? Zanim weźmiesz udział w rozmowie kwalifikacyjnej z analizą danych, lepiej zorientuj się, jakiego rodzaju pytania dotyczą wywiadu analityka danych, aby móc mentalnie przygotować na nie odpowiedzi.

W tym artykule przyjrzymy się niektórym najważniejszym pytaniom i odpowiedziom na wywiad z analitykami danych . Data Science i Data Analytics to obecnie kwitnące dziedziny w branży. Oczywiście kariera w tych dziedzinach gwałtownie rośnie. Najlepsze w budowaniu kariery w dziedzinie nauki o danych jest to, że oferuje ona szeroką gamę opcji kariery do wyboru!

Organizacje na całym świecie wykorzystują Big Data w celu zwiększenia ogólnej produktywności i wydajności, co nieuchronnie oznacza, że ​​gwałtownie rośnie również zapotrzebowanie na specjalistów zajmujących się danymi, takich jak analitycy danych, inżynierowie danych i naukowcy zajmujący się danymi. Jednak do zdobycia tych miejsc pracy nie wystarczą same podstawowe kwalifikacje. Posiadanie certyfikatów data science po twojej stronie zwiększy wagę twojego profilu.

Musisz wyjaśnić najtrudniejszą część – rozmowę kwalifikacyjną. Nie martw się, stworzyliśmy ten przewodnik z pytaniami i odpowiedziami na wywiad z analitykiem danych, aby zrozumieć głębię i prawdziwe intencje kryjące się za pytaniami.

Spis treści

Najlepsze pytania i odpowiedzi na wywiad z analitykiem danych

1. Jakie są kluczowe wymagania, aby zostać analitykiem danych?

To pytanie z wywiadu z analitykiem danych sprawdza Twoją wiedzę na temat wymaganego zestawu umiejętności, aby zostać naukowcem danych.
Aby zostać analitykiem danych, musisz:

analityk danych wywiad pytania odpowiedzi

  • Dobrze orientuj się w językach programowania (XML, Javascript lub frameworki ETL), bazach danych (SQL, SQLite, Db2 itp.), a także masz rozległą wiedzę na temat pakietów raportowania (Business Objects).
  • Umiejętność efektywnego analizowania, organizowania, gromadzenia i rozpowszechniania Big Data.
  • Musisz mieć znaczną wiedzę techniczną w dziedzinach takich jak projektowanie baz danych, eksploracja danych i techniki segmentacji.
  • Posiadaj solidną wiedzę na temat pakietów statystycznych do analizy ogromnych zbiorów danych, takich jak SAS, Excel i SPSS, żeby wymienić tylko kilka.

2. Jakie są ważne obowiązki analityka danych?

To najczęściej zadawane pytanie podczas wywiadu z analitykiem danych. Musisz mieć jasne pojęcie, na czym polega Twoja praca.
Analityk danych jest zobowiązany do wykonania

następujące zadania:

  • Zbieraj i interpretuj dane z wielu źródeł i analizuj wyniki.
  • Filtruj i „wyczyść” dane zebrane z wielu źródeł.
  • Oferuj wsparcie w każdym aspekcie analizy danych.
  • Analizuj złożone zbiory danych i identyfikuj ukryte w nich wzorce.
  • Dbaj o bezpieczeństwo baz danych.
Jak przejść do analizy danych?

3. Co oznacza „czyszczenie danych”? Jakie są najlepsze sposoby, aby to przećwiczyć?

Jeśli zajmujesz stanowisko analityka danych, jest to jedno z najczęściej zadawanych pytań podczas wywiadu z analitykiem danych.
Oczyszczanie danych odnosi się przede wszystkim do procesu wykrywania i usuwania błędów i niespójności z danych w celu poprawy jakości danych.
Najlepsze sposoby czyszczenia danych to:

  • Segregowanie danych według ich odpowiednich atrybutów.
  • Dzielenie dużych porcji danych na małe zestawy danych, a następnie ich czyszczenie.
  • Analizowanie statystyk każdej kolumny danych.
  • Tworzenie zestawu funkcji narzędziowych lub skryptów do radzenia sobie z typowymi zadaniami czyszczenia.
  • Śledzenie wszystkich operacji czyszczenia danych w celu ułatwienia łatwego dodawania lub usuwania z zestawów danych, jeśli jest to wymagane.

4. Wymień najlepsze narzędzia do analizy danych.

Pytanie o najczęściej używane narzędzie to coś, co najczęściej znajdziesz w pytaniach z wywiadów dotyczących analizy danych.
Najbardziej przydatne narzędzia do analizy danych to:

  • Żywy obraz
  • Tabele Google Fusion
  • Operatorzy wyszukiwania Google
  • KNIME
  • RapidMiner
  • Solver
  • Otwórz zawęź
  • NodeXL
  • ja

Zamówienie: wynagrodzenie analityka danych w Indiach

5. Jaka jest różnica między profilowaniem danych a eksploracją danych?

Profilowanie danych koncentruje się na analizie poszczególnych atrybutów danych, dostarczając w ten sposób cennych informacji na temat atrybutów danych, takich jak typ danych, częstotliwość, długość, wraz z ich wartościami dyskretnymi i zakresami wartości. Wręcz przeciwnie, eksploracja danych ma na celu identyfikację nietypowych rekordów, analizę klastrów danych i odkrywanie sekwencji, by wymienić tylko kilka.

6. Co to jest metoda imputacji KNN?

Metoda imputacji KNN ma na celu przypisanie wartości brakujących atrybutów przy użyciu tych wartości atrybutów, które są najbliższe brakującym wartościom atrybutów. Podobieństwo między dwoma wartościami atrybutów określa się za pomocą funkcji odległości.

7. Co powinien zrobić analityk danych z brakującymi lub podejrzanymi danymi?

W takim przypadku analityk danych musi:

  • Użyj strategii analizy danych, takich jak metoda usuwania, metody pojedynczej imputacji i metody oparte na modelach, aby wykryć brakujące dane.
  • Przygotuj raport walidacyjny zawierający wszystkie informacje o podejrzanych lub brakujących danych.
  • Przeanalizuj podejrzane dane, aby ocenić ich ważność.
  • Zastąp wszystkie nieprawidłowe dane (jeśli występują) odpowiednim kodem weryfikacyjnym.

8. Wymień różne metody walidacji danych stosowane przez analityków danych.

Istnieje wiele sposobów sprawdzania poprawności zbiorów danych. Niektóre z najczęściej stosowanych metod walidacji danych przez analityków danych obejmują:

  • Walidacja na poziomie pola — w tej metodzie sprawdzanie poprawności danych odbywa się w każdym polu podczas wprowadzania danych przez użytkownika. Pomaga korygować błędy na bieżąco.
  • Walidacja na poziomie formularza — w tej metodzie dane są weryfikowane po wypełnieniu formularza i przesłaniu go przez użytkownika. Sprawdza jednocześnie cały formularz wprowadzania danych, sprawdza poprawność wszystkich zawartych w nim pól i podświetla błędy (jeśli występują), aby użytkownik mógł je poprawić.
  • Walidacja zapisywania danych — ta technika sprawdzania poprawności danych jest używana podczas procesu zapisywania rzeczywistego pliku lub rekordu bazy danych. Zwykle dzieje się tak, gdy trzeba sprawdzić poprawność wielu formularzy wprowadzania danych.
  • Walidacja kryteriów wyszukiwania — ta technika weryfikacji służy do oferowania użytkownikowi dokładnych i powiązanych dopasowań do wyszukiwanych słów kluczowych lub fraz. Głównym celem tej metody walidacji jest zapewnienie, że zapytania wyszukiwania użytkownika mogą zwracać najtrafniejsze wyniki.

9. Zdefiniuj wartość odstającą

Przewodnik z pytaniami i odpowiedziami na wywiad z analitykiem danych nie będzie kompletny bez tego pytania. Wartość odstająca to termin powszechnie używany przez analityków danych w odniesieniu do wartości, która wydaje się być bardzo odległa i odbiegająca od ustalonego wzorca w próbce. Istnieją dwa rodzaje wartości odstających – jednowymiarowe i wielowymiarowe.

Dwie metody stosowane do wykrywania wartości odstających to:

  • Metoda wykresu pudełkowego – zgodnie z tą metodą, jeśli wartość jest wyższa lub mniejsza niż 1,5*IQR (zakres międzykwartylowy), tak że leży powyżej górnego kwartyla (Q3) lub poniżej dolnego kwartyla (Q1), wartość jest wartością odstającą .
  • Metoda odchylenia standardowego — ta metoda określa, że ​​jeśli wartość jest wyższa lub niższa od średniej ± (3*odchylenie standardowe), jest to wartość odstająca. Eksploracyjna analiza danych i jej znaczenie dla Twojej firmy

10. Co to jest „klastrowanie”? Nazwij właściwości algorytmów klastrowania.

Klastrowanie to metoda, w której dane są klasyfikowane w klastry i grupy. Algorytm grupowania ma następujące właściwości:

  • Hierarchiczny lub płaski
  • Twardy i miękki
  • Wielokrotny
  • Dysjunktywny

11. Co to jest algorytm średniej K?

K-średnia to technika partycjonowania, w której obiekty są klasyfikowane w grupy K. W tym algorytmie klastry są sferyczne, a punkty danych są wyrównane wokół tego klastra, a wariancja klastrów jest do siebie podobna.

12. Zdefiniuj „Filtrowanie zespołowe”.

Collaborative filtering to algorytm, który tworzy system rekomendacji na podstawie danych behawioralnych użytkownika. Na przykład witryny zakupów online zwykle kompilują listę produktów pod hasłem „polecane dla Ciebie” na podstawie Twojej historii przeglądania i poprzednich zakupów. Kluczowymi elementami tego algorytmu są użytkownicy, obiekty i ich zainteresowania.

13. Wymień metody statystyczne, które są bardzo korzystne dla analityków danych?

Metody statystyczne najczęściej stosowane przez analityków danych to:

  • metoda bayesowska
  • Proces Markowa
  • Algorytm simpleks
  • Przypisanie
  • Procesy przestrzenne i klastrowe
  • Statystyki rangowe, percentyl, wykrywanie wartości odstających
  • Optymalizacja matematyczna

14. Co to jest N-gram?

N-gram to połączona sekwencja n elementów w danym tekście lub mowie. Dokładniej, N-gram jest probabilistycznym modelem języka używanym do przewidywania następnego elementu w określonej kolejności, jak w (n-1).

15. Co to jest kolizja tablicy mieszającej? Jak można temu zapobiec?

To jedno z ważnych pytań podczas wywiadu z analitykiem danych. Gdy dwa oddzielne klucze mieszają się ze wspólną wartością, występuje kolizja tablicy mieszającej. Oznacza to, że w tym samym gnieździe nie można przechowywać dwóch różnych danych.
Kolizje haszowania można uniknąć poprzez:

  • Oddzielne tworzenie łańcuchów — w tej metodzie struktura danych służy do przechowywania wielu elementów mieszających we wspólnym gnieździe.
  • Otwarte adresowanie — ta metoda wyszukuje puste miejsca i przechowuje przedmiot w pierwszym dostępnym pustym gnieździe.
Podstawowe podstawy statystyki dla nauki o danych

16. Zdefiniuj „Analiza szeregów czasowych”.

Analizę szeregową można zwykle przeprowadzić w dwóch domenach – w dziedzinie czasu i w dziedzinie częstotliwości.
Analiza szeregów czasowych to metoda, w której prognoza wyników procesu jest wykonywana poprzez analizę danych zebranych w przeszłości przy użyciu technik takich jak wygładzanie wykładnicze, metoda regresji log-liniowej itp.

17. Jak radzić sobie z problemami związanymi z wieloma źródłami?

Aby rozwiązać problemy z wieloma źródłami, musisz:

  • Zidentyfikuj podobne rekordy danych i połącz je w jeden rekord, który będzie zawierał wszystkie przydatne atrybuty bez nadmiarowości.
  • Ułatwienie integracji schematu poprzez restrukturyzację schematu.

18. Wymień etapy projektu analizy danych.

Podstawowe etapy projektu analizy danych obejmują:

  • Najważniejszym wymogiem projektu analizy danych jest dogłębne zrozumienie wymagań biznesowych.
  • Drugim krokiem jest zidentyfikowanie najbardziej odpowiednich źródeł danych, które najlepiej odpowiadają wymaganiom biznesowym oraz pozyskanie danych z wiarygodnych i zweryfikowanych źródeł.
  • Trzeci krok obejmuje eksplorację zbiorów danych, czyszczenie danych i organizowanie ich w celu lepszego zrozumienia dostępnych danych.
  • W czwartym kroku analitycy danych muszą zweryfikować dane.
  • Piąty krok obejmuje implementację i śledzenie zbiorów danych.
  • Ostatnim krokiem jest stworzenie listy najbardziej prawdopodobnych wyników i iteracja aż do osiągnięcia pożądanych rezultatów.

19. Jakie problemy może napotkać analityk danych podczas wykonywania analizy danych?

Kluczowe pytanie podczas rozmowy kwalifikacyjnej z analitykiem danych, o którym musisz wiedzieć. Analityk danych może zmierzyć się z następującymi problemami podczas wykonywania analizy danych:

  • Obecność zduplikowanych wpisów i błędów ortograficznych. Błędy te mogą pogorszyć jakość danych.
  • Słabej jakości dane pozyskane z niewiarygodnych źródeł. W takim przypadku analityk danych będzie musiał poświęcić znaczną ilość czasu na czyszczenie danych.
  • Dane pobrane z wielu źródeł mogą różnić się reprezentacją. Gdy zebrane dane zostaną połączone po oczyszczeniu i uporządkowaniu, różnice w reprezentacji danych mogą spowodować opóźnienie w procesie analizy.
  • Niekompletne dane to kolejne duże wyzwanie w procesie analizy danych. Nieuchronnie prowadziłoby to do błędnych lub błędnych wyników.

20. Jakie są cechy dobrego modelu danych?

Aby model danych został uznany za dobry i rozwinięty, musi przedstawiać następujące cechy:

  • Powinien mieć przewidywalną wydajność, aby wyniki można było dokładnie oszacować, a przynajmniej z bliską dokładnością.
  • Powinna być adaptacyjna i reagować na zmiany, aby od czasu do czasu dostosowywać się do rosnących potrzeb biznesowych.
  • Powinien mieć możliwość skalowania proporcjonalnie do zmian danych.
  • Powinno być zużywalne, aby umożliwić klientom/klientom osiągnięcie namacalnych i zyskownych wyników.

21. Rozróżnij wariancję i kowariancję.

Wariancja i kowariancja są terminami statystycznymi. Wariancja przedstawia odległość między dwiema liczbami (ilościami) w stosunku do wartości średniej. Tak więc poznasz tylko wielkość związku między tymi dwiema wielkościami (jak bardzo dane są rozłożone wokół średniej). Wręcz przeciwnie, kowariancja pokazuje, jak dwie zmienne losowe będą się zmieniać razem. Zatem kowariancja określa zarówno kierunek, jak i wielkość, w jaki sposób dwie wielkości różnią się względem siebie.

22. Wyjaśnij „Rozkład normalny”.

Jedno z popularnych pytań do wywiadu z analitykiem danych. Rozkład normalny, lepiej znany jako krzywa dzwonowa lub krzywa Gaussa, odnosi się do funkcji prawdopodobieństwa, która opisuje i mierzy rozkład wartości zmiennej, to znaczy, jak różnią się one swoimi średnimi i odchyleniami standardowymi. Na krzywej rozkład jest symetryczny. Podczas gdy większość obserwacji skupia się wokół centralnego piku, prawdopodobieństwa wartości odbiegają dalej od średniej, zmniejszając się jednakowo w obu kierunkach.

23. Wyjaśnij analizę jednowymiarową, dwuwymiarową i wielowymiarową.

Analiza jednowymiarowa odnosi się do opisowej techniki statystycznej stosowanej do zbiorów danych zawierających pojedynczą zmienną. Analiza jednowymiarowa uwzględnia zakres wartości, a także centralną tendencję wartości.

Analiza dwuwymiarowa jednocześnie analizuje dwie zmienne w celu zbadania możliwości empirycznego związku między nimi. Próbuje ustalić, czy istnieje związek między dwiema zmiennymi i siłą związku, lub czy są jakieś różnice między zmiennymi i jakie jest znaczenie tych różnic.

Analiza wielowymiarowa jest rozszerzeniem analizy dwuwymiarowej. W oparciu o zasady statystyki wielowymiarowej, w analizie wielowymiarowej obserwuje się i analizuje wiele zmiennych (dwie lub więcej zmiennych niezależnych) jednocześnie, aby przewidzieć wartość zmiennej zależnej dla poszczególnych osób.

24. Wyjaśnij różnicę między R-kwadratem a skorygowanym R-kwadratem.

Technika R-kwadrat jest statystyczną miarą proporcji zmienności zmiennych zależnych, wyjaśnioną przez zmienne niezależne. Skorygowany R-kwadrat jest zasadniczo zmodyfikowaną wersją R-kwadrat, dostosowaną do liczby predyktorów w modelu. Podaje procent zmienności wyjaśniony przez konkretne zmienne niezależne, które mają bezpośredni wpływ na zmienne zależne.

25. Jakie są zalety kontroli wersji?

Główne zalety kontroli wersji to:

  • Umożliwia porównywanie plików, identyfikowanie różnic i bezproblemową konsolidację zmian.
  • Pomaga śledzić kompilacje aplikacji, identyfikując, która wersja należy do danej kategorii — programowanie, testowanie, kontrola jakości i produkcja.
  • Utrzymuje pełną historię plików projektu, która przydaje się w przypadku awarii centralnego serwera.
  • Doskonale nadaje się do bezpiecznego przechowywania i utrzymywania wielu wersji i wariantów plików kodu.
  • Pozwala zobaczyć zmiany wprowadzone w treści różnych plików.

26. W jaki sposób analityk danych może wyróżnić komórki zawierające wartości ujemne w arkuszu Excela?

Ostatnie pytanie w naszym przewodniku po pytaniach i odpowiedziach podczas wywiadu z analitykiem danych. Analityk danych może użyć formatowania warunkowego, aby wyróżnić komórki o wartościach ujemnych w arkuszu programu Excel. Oto kroki formatowania warunkowego:

  • Najpierw wybierz komórki, które mają wartości ujemne.
  • Teraz przejdź do zakładki Strona główna i wybierz opcję Formatowanie warunkowe.
  • Następnie przejdź do Reguł podświetlania komórek i wybierz opcję Mniej niż.
  • W ostatnim kroku musisz przejść do okna dialogowego opcji Mniej niż i wpisać „0” jako wartość.

Wniosek

W ten sposób dochodzimy do końca naszej listy pytań i przewodnika po wywiadach dla analityków danych . Chociaż te pytania z wywiadu z analitykiem danych są wybrane z ogromnej puli prawdopodobnych pytań, to są to te, z którymi najprawdopodobniej spotkasz się, jeśli jesteś początkującym analitykiem danych. Te pytania stanowią podstawę każdego wywiadu z analitykiem danych, a poznanie odpowiedzi na nie z pewnością zajmie Ci długą drogę!

Jeśli jesteś ciekawy nauki dogłębnej analizy danych, nauki o danych, aby być na czele szybkiego postępu technologicznego, sprawdź program Executive PG UpGrad i IIIT-B w dziedzinie nauki o danych.

Jakie są trendy talentów w branży analizy danych?

Ponieważ Data Science rozwija się stopniowo, w niektórych domenach również następuje znaczny wzrost. Dziedziny te to: Wraz ze znacznym rozwojem branży data science i analizy danych, powstaje coraz więcej wakatów dla inżynierów danych, co z kolei zwiększa zapotrzebowanie na większą liczbę specjalistów IT. Wraz z postępem technologii rola analityków danych ewoluuje stopniowo. Zadania analityczne są automatyzowane, co zniechęciło naukowców zajmujących się danymi. Automatyzacja może zająć się zadaniami związanymi z przygotowaniem danych, w których naukowcy zajmujący się danymi spędzają obecnie 70-80% swojego czasu.

Wyjaśnij analizę skupień i jej cechy.

Proces, w którym definiujemy obiekt bez etykietowania, jest znany jako analiza skupień. Wykorzystuje eksplorację danych do grupowania różnych podobnych obiektów w jeden klaster, tak jak w analizie dyskryminacyjnej. Jego zastosowania obejmują rozpoznawanie wzorców, analizę informacji, analizę obrazu, uczenie maszynowe, grafikę komputerową i wiele innych dziedzin. Analiza klastrów to zadanie, które wykonuje się za pomocą kilku innych algorytmów, które pod wieloma względami różnią się od siebie i dzięki temu tworzą klaster. Oto niektóre cechy analizy skupień: Analiza skupień jest wysoce skalowalna. Może radzić sobie z innym zestawem atrybutów. Wykazuje wysoką wymiarowość, Interpretowalność. Jest przydatny w wielu dziedzinach, w tym w uczeniu maszynowym i zbieraniu informacji.

Czym są wartości odstające i jak sobie z nimi radzić?

Wartości odstające odnoszą się do anomalii lub niewielkich rozbieżności w Twoich danych. Może się to zdarzyć podczas zbierania danych. Istnieją 4 sposoby wykrywania wartości odstających w zbiorze danych. Są to następujące metody: Boxplot to metoda wykrywania wartości odstających, w której segregujemy dane według ich kwartyli. Wykres punktowy wyświetla dane 2 zmiennych w postaci zbioru punktów zaznaczonych na płaszczyźnie kartezjańskiej. Wartość jednej zmiennej reprezentuje oś poziomą (x-ais), a wartość drugiej zmiennej reprezentuje oś pionową (oś y). Obliczając Z-score, szukamy punktów oddalonych od centrum i traktujemy je jako wartości odstające.