Întrebări și răspunsuri de bază la interviu Hive 2022

Publicat: 2021-01-08

Interviurile Big Data pot fi realizate pe linii generale (în care trebuie să aveți o idee generală despre cadrele și instrumentele populare Big Data) sau pot fi concentrate pe un anumit cadru sau instrument. Astăzi, ne vom concentra pe un cadru Big Data utilizat pe scară largă – Apache Hive.

Am creat această listă de întrebări de interviu Apache Hive pentru a vă ajuta să vă faceți o idee mai bună despre tipurile de întrebări pe care angajatorii le pun de obicei în timpul interviurilor Hadoop referitoare la Hive.

Așadar, dacă ești cineva care dorește să obțină interviul Hive, continuă să citești până la sfârșit!

Ce este Apache Hive?

Apache Hive este un cadru de depozitare de date construit pe Hadoop. Este folosit în principal pentru analiza datelor structurate și semi-structurate. Hive este proiectat pentru a proiecta structura datelor și a executa interogări scrise în HQL (Hive Query Language), similar cu cel al instrucțiunilor SQL. Mai mult, compilatorul Hive transformă aceste interogări în joburi de reducere a hărții.

Ce fel de aplicații poate suporta Hive?

Hive poate suporta orice aplicație scrisă în Python, Java, C++, Ruby și PHP.

Ce vrei să spui prin Metastore? De ce Hive nu stochează metadatele în HDFS?

Metastore este un depozit din Hive care stochează informațiile despre metadate. Face acest lucru utilizând RDBMS împreună cu un strat ORM (Object Relational Model) cu sursă deschisă numit Data Nucleus, care transformă reprezentarea obiectului în schema relațională și invers.

Hive stochează informații despre metadate folosind RDBMS și nu HDFS, deoarece operațiunile de citire/scriere folosind HDFS sunt un proces care consumă timp. RDBMS are un avantaj față de acesta, deoarece ajută la obținerea unei latențe scăzute.

Faceți diferența între Metastore local și la distanță.

Un metastore local rulează în același JVM în care rulează serviciul Hive. Se poate conecta fie la o bază de date care rulează într-un JVM separat pe aceeași mașină, fie la o mașină la distanță. Dimpotrivă, un metastore la distanță rulează într-un JVM separat și nu în cel în care rulează serviciul Hive.

Ce vrei să spui prin o partiție în Hive? Ce importanță are?

În Hive, tabelele sunt clasificate și organizate în partiții pentru a organiza un tip similar de date împreună, fie în funcție de o coloană sau de cheie de partiție. Deci, o partiție este de fapt un subdirector în directorul tabelului. Un tabel poate avea mai multe chei de partiție pentru o anumită partiție.

Prin partiționare, puteți obține granularitatea într-un tabel Hive. Acest lucru ajută la reducerea latenței interogării, deoarece scanează doar datele partiționate relevante, în loc de întregul set de date.

Ce este o variabilă Hive?

O variabilă Hive este creată în mediul Hive dezvoltat de limbajele de scripting Hive. Folosind comanda sursă, transferă valori către interogările stup atunci când interogarea începe să se execute.

Pentru ce fel de aplicații de depozit de date este potrivit Hive?

Reglementările de proiectare ale Hadoop și HDFS pun anumite limitări asupra abilităților lui Hive. De asemenea, nu are caracteristicile necesare necesare pentru OLTP (Online Transaction Processing). Hive este cel mai potrivit pentru aplicațiile de depozit de date în seturi masive de date care necesită:

Analiza datelor relativ statice.
Timp de răspuns mai mic.
Fără modificări dinamice ale datelor.

Ce este un indice de stup?

Indexul Hive este o metodă de optimizare a interogărilor Hive. Este folosit pentru a accelera accesul unei anumite coloane sau unui set de coloane dintr-o bază de date Hive. Prin utilizarea unui index Hive, sistemul de bază de date nu necesită să citească toate rândurile dintr-un tabel pentru a găsi datele alese.

De ce ai nevoie de Hcatolog?

Hcatalog este necesar pentru partajarea structurilor de date cu sisteme externe. Oferă acces la metamagazinul Hive, astfel încât să puteți citi/scrie date în depozitul de date Hive.

Numiți componentele unui procesor de interogări Hive?

Componentele unui procesor de interogări Hive sunt:

Planul logic al generației.
Planul fizic al generației.
Motor de execuție.
UDF și UDAF.
Operatori.
Optimizer.
Analizator.
Analizor semantic.
Verificare tip.

Cum îl ajută tabelele în format ORC pe Hive să îmbunătățească performanța?

Folosind formatul de fișier ORC (Optimized Row Columnar), puteți stoca eficient datele Hive, deoarece ajută la simplificarea numeroaselor limitări ale formatului de fișier Hive.

Care este funcția inspectorului de obiecte?

În Hive, Object-Inspector ajută la analiza structurii interne a unui obiect rând și a structurii individuale a coloanelor. Mai mult, oferă și modalități de a accesa obiecte complexe care pot fi stocate în diferite formate în memorie.

Care este diferența dintre Hive și HBase?

Punctele cheie de diferențiere între Hive și HBase sunt:

Hive este un cadru de depozit de date, în timp ce HBase este o bază de date NoSQL.
În timp ce Hive poate rula majoritatea interogărilor SQL, HBase nu permite interogări SQL.
Hive nu acceptă operațiuni de inserare, actualizare și ștergere la nivel de înregistrare pe un tabel, dar HBase acceptă aceste funcții.
Hive rulează pe MapReduce, dar HBase rulează pe HDFS.

Ce este un tabel administrat și un tabel extern?

Într-un tabel gestionat, atât informațiile despre metadate, cât și datele tabelului sunt șterse din directorul depozit Hive dacă părăsiți/ieșiți dintr-un tabel gestionat. Cu toate acestea, într-un tabel extern, numai informațiile de metadate asociate cu tabelul sunt șterse în timp ce datele din tabel sunt reținute în HDFS.

Numiți diferitele componente ale unei arhitecturi Hive.

Există 5 componente ale unei arhitecturi Hive:

Interfață cu utilizatorul – Permite utilizatorului să trimită interogări și alte operațiuni către sistemul Hive. Interfața cu utilizatorul acceptă interfața web Hive, linia de comandă Hive și Hive HD Insight.
Driver – creează un handle de sesiune pentru interogări și apoi trimite interogările compilatorului pentru a crea un plan de execuție pentru acestea.
Metastore – Conține datele structurate împreună cu toate informațiile despre diferite tabele și partiții din depozit (cu atribute). La primirea cererii de metadate, acesta trimite metadatele compilatorului pentru a executa interogările.
Compilator – generează planul de execuție pentru a analiza interogările, pentru a efectua analize semantice pe diferite blocuri de interogare și pentru a genera expresia interogării.
Motor de execuție – În timp ce compilatorul realizează planul de execuție, motorul de execuție îl implementează. Gestionează dependențele diferitelor etape ale planului.

Evident, în Hive există mai mult decât aceste 15 întrebări. Acestea sunt doar conceptele de bază care vă vor ajuta să învățați mai ușor despre Hive.

Dacă sunteți interesat să aflați mai multe despre Big Data, consultați programul nostru PG Diploma în Dezvoltare Software Specializare în Big Data, care este conceput pentru profesioniști care lucrează și oferă peste 7 studii de caz și proiecte, acoperă 14 limbaje și instrumente de programare, practică practică. ateliere de lucru, peste 400 de ore de învățare riguroasă și asistență pentru plasarea unui loc de muncă cu firme de top.

Învățare fericită!

Conduceți revoluția tehnologică bazată pe date

Peste 400 de ore de învățare. 14 limbi și instrumente. Statutul de absolvenți IIIT-B.

Program de certificat avansat în Big Data de la IIIT Bangalore