Podstawowe pytania i odpowiedzi podczas rozmowy kwalifikacyjnej 2022

Opublikowany: 2021-01-08

Wywiady Big Data mogą być prowadzone na ogólnych zasadach (w których musisz mieć ogólne pojęcie o popularnych frameworkach i narzędziach Big Data) lub mogą skupiać się na konkretnym frameworku lub narzędziu. Dzisiaj skupimy się na jednym szeroko stosowanym frameworku Big Data – Apache Hive.

Stworzyliśmy tę listę pytań do rozmowy kwalifikacyjnej Apache Hive, aby pomóc Ci uzyskać lepsze wyobrażenie o rodzajach pytań, które pracodawcy zwykle zadają podczas rozmów kwalifikacyjnych Hadoop dotyczących Hive.

Tak więc, jeśli jesteś kimś, kto chce przybić wywiad Hive, czytaj dalej do końca!

  1. Co to jest ul Apache?

Apache Hive to platforma hurtowni danych zbudowana na platformie Hadoop. Służy głównie do analizowania danych ustrukturyzowanych i częściowo ustrukturyzowanych. Hive jest przeznaczony do projektowania struktury danych i wykonywania zapytań napisanych w języku HQL (Hive Query Language), podobnie do instrukcji SQL. Ponadto kompilator Hive przekształca te zapytania w zadania redukujące mapę.

  1. Jakie aplikacje obsługuje Hive?

Hive może obsługiwać dowolną aplikację napisaną w językach Python, Java, C++, Ruby i PHP.

  1. Co rozumiesz przez Metastore? Dlaczego Hive nie przechowuje metadanych w HDFS?

Metastore to repozytorium w Hive, które przechowuje informacje o metadanych. Czyni to, wykorzystując RDBMS wraz z warstwą ORM (model relacyjny obiektu) o otwartym kodzie źródłowym o nazwie Data Nucleus, która przekształca reprezentację obiektu w schemat relacyjny i odwrotnie.

Hive przechowuje informacje o metadanych przy użyciu RDBMS, a nie HDFS, ponieważ operacje odczytu/zapisu przy użyciu HDFS to czasochłonny proces. RDBMS ma nad nim przewagę, ponieważ pomaga osiągnąć niskie opóźnienia.

  1. Rozróżnij lokalny i zdalny magazyn Metastore.

Lokalny magazyn metabooków działa w tej samej maszynie JVM, w której działa usługa Hive. Może łączyć się z bazą danych działającą w oddzielnej maszynie JVM na tej samej maszynie lub na maszynie zdalnej. Wręcz przeciwnie, zdalny metastore działa w oddzielnej JVM, a nie w tym, w którym działa usługa Hive.

  1. Co rozumiesz przez partycję w ulu? Jakie jest jego znaczenie?

W programie Hive tabele są klasyfikowane i organizowane w partycje w celu organizowania razem podobnych typów danych, według kolumny lub klucza partycji. Tak więc partycja jest w rzeczywistości podkatalogiem w katalogu tabeli. Tabela może mieć więcej niż jeden klucz partycji dla określonej partycji.

Dzięki partycjonowaniu można osiągnąć szczegółowość w tabeli Hive. Pomaga to zmniejszyć opóźnienie zapytania, ponieważ skanuje tylko odpowiednie dane podzielone na partycje, a nie cały zestaw danych.

  1. Co to jest zmienna Hive?

Zmienna Hive jest tworzona w środowisku Hive opracowanym przez języki skryptowe Hive. Za pomocą polecenia źródłowego przesyła wartości do zapytań gałęzi, gdy zapytanie rozpoczyna wykonywanie.

  1. Do jakich aplikacji hurtowni danych nadaje się Hive?

Przepisy projektowe Hadoop i HDFS nakładają pewne ograniczenia na możliwości Hive. Ponadto nie ma niezbędnych funkcji wymaganych dla OLTP (przetwarzania transakcji online). Hive najlepiej nadaje się do aplikacji hurtowni danych w ogromnych zestawach danych, które wymagają:

  • Analiza danych względnie statycznych.
  • Krótszy czas odpowiedzi.
  • Brak dynamicznych zmian danych.
  1. Co to jest indeks ula?

Indeks Hive to metoda optymalizacji zapytań Hive. Służy do przyspieszenia dostępu do określonej kolumny lub zestawu kolumn w bazie danych Hive. Dzięki wykorzystaniu indeksu Hive system bazy danych nie wymaga odczytywania wszystkich wierszy w tabeli, aby znaleźć wybrane dane.

  1. Dlaczego potrzebujesz Hcatologa?

Hcatalog jest wymagany do udostępniania struktur danych systemom zewnętrznym. Zapewnia dostęp do magazynu metadanych Hive, dzięki czemu można odczytywać/zapisywać dane w magazynie danych Hive.

  1. Nazwij składniki procesora zapytań Hive?

Składniki procesora zapytań Hive to:

  • Logiczny plan generacji.
  • Fizyczny plan generacji.
  • Silnik wykonawczy.
  • UDF i UDAF.
  • Operatorzy.
  • Optymalizator.
  • Parser.
  • Analizator semantyczny.
  • Sprawdzanie typu.
  1. W jaki sposób tabele formatu ORC pomagają firmie Hive zwiększyć wydajność?

Używając formatu pliku ORC (Optimized Row Columnar), możesz efektywnie przechowywać dane Hive, ponieważ pomaga to uprościć liczne ograniczenia formatu pliku Hive.

  1. Jaka jest funkcja inspektora obiektów?

W Hive, Object-Inspector pomaga analizować wewnętrzną strukturę obiektu wiersza i indywidualną strukturę kolumn. Ponadto oferuje również sposoby uzyskiwania dostępu do złożonych obiektów, które można przechowywać w pamięci w różnych formatach.

  1. Jaka jest różnica między Hive a HBase?

Kluczowe punkty odróżniające Hive i HBase to:

  • Hive to platforma hurtowni danych, podczas gdy HBase to baza danych NoSQL.
  • Chociaż Hive może uruchamiać większość zapytań SQL, HBase nie zezwala na zapytania SQL.
  • Hive nie obsługuje operacji wstawiania, aktualizowania i usuwania na poziomie rekordu w tabeli, ale HBase obsługuje te funkcje.
  • Hive działa na MapReduce, ale HBase działa na HDFS.
  1. Co to jest tabela zarządzana i tabela zewnętrzna?

W tabeli zarządzanej zarówno informacje o metadanych, jak i dane tabeli są usuwane z katalogu magazynu Hive, jeśli opuścisz/zamkniesz tabelę zarządzaną. Jednak w tabeli zewnętrznej usuwane są tylko informacje metadanych skojarzone z tabelą, podczas gdy dane tabeli są zachowywane w systemie HDFS.

  1. Nazwij różne składniki architektury Hive.

Istnieje 5 elementów architektury Hive:

  1. Interfejs użytkownika – umożliwia użytkownikowi przesyłanie zapytań i innych operacji do systemu Hive. Interfejs użytkownika obsługuje internetowy interfejs użytkownika Hive, wiersz polecenia Hive i Hive HD Insight.
  2. Sterownik — tworzy uchwyt sesji dla zapytań, a następnie wysyła zapytania do kompilatora, aby utworzyć plan wykonania dla tego samego.
  3. Metastore – Zawiera uporządkowane dane wraz ze wszystkimi informacjami o różnych tabelach i partycjach w hurtowni (z atrybutami). Po otrzymaniu żądania metadanych wysyła metadane do kompilatora w celu wykonania zapytań.
  4. Kompilator — generuje plan wykonania w celu przeanalizowania zapytań, przeprowadzenia analizy semantycznej na różnych blokach zapytań i wygenerowania wyrażenia zapytania.
  5. Silnik wykonawczy — podczas gdy kompilator tworzy plan wykonania, silnik wykonawczy go implementuje. Zarządza zależnościami poszczególnych etapów planu.

Oczywiście Hive to coś więcej niż tylko te 15 pytań. To tylko podstawowe pojęcia, które ułatwią Ci poznanie Hive.

Jeśli chcesz dowiedzieć się więcej o Big Data, sprawdź nasz program PG Diploma in Software Development Specialization in Big Data, który jest przeznaczony dla pracujących profesjonalistów i zawiera ponad 7 studiów przypadków i projektów, obejmuje 14 języków programowania i narzędzi, praktyczne praktyczne warsztaty, ponad 400 godzin rygorystycznej pomocy w nauce i pośrednictwie pracy w najlepszych firmach.

Miłej nauki!

Poprowadź rewolucję technologiczną opartą na danych

400+ godzin nauki. 14 języków i narzędzi. Status absolwentów IIIT-B.
Zaawansowany program certyfikacji w Big Data z IIIT Bangalore