Pertanyaan & Jawaban Wawancara Hive Dasar 2022

Diterbitkan: 2021-01-08

Wawancara Big Data dapat dilakukan pada jalur umum (di mana Anda harus memiliki gambaran umum tentang kerangka kerja dan alat Big Data yang populer) atau wawancara dapat difokuskan pada kerangka kerja atau alat tertentu. Hari ini, kita akan fokus pada satu kerangka kerja Big Data yang banyak digunakan – Apache Hive.

Kami telah membuat daftar pertanyaan wawancara Apache Hive ini untuk membantu Anda mendapatkan ide yang lebih baik tentang jenis pertanyaan yang biasanya diajukan pemberi kerja selama wawancara Hadoop yang berkaitan dengan Hive.

Jadi, jika Anda adalah seseorang yang ingin mewawancarai Hive, baca terus sampai akhir!

Apa itu Apache Hive?

Apache Hive adalah kerangka kerja pergudangan data yang dibangun di atas Hadoop. Ini terutama digunakan untuk menganalisis data terstruktur dan semi-terstruktur. Hive dirancang untuk memproyeksikan struktur pada data dan mengeksekusi kueri yang ditulis dalam HQL (Hive Query Language), mirip dengan pernyataan SQL. Selanjutnya, kompiler Hive mengubah kueri ini menjadi pekerjaan pengurangan peta.

Jenis aplikasi apa yang dapat didukung oleh Hive?

Hive dapat mendukung aplikasi apa pun yang ditulis dengan Python, Java, C++, Ruby, dan PHP.

Apakah yang Anda maksud: metastore Mengapa Hive tidak menyimpan metadata dalam HDFS?

Metastore adalah repositori di Hive yang menyimpan informasi metadata. Ia melakukannya dengan memanfaatkan RDBMS bersama dengan lapisan ORM (Object Relational Model) open-source yang disebut Data Nucleus yang mengubah representasi objek menjadi skema relasional dan sebaliknya.

Hive menyimpan informasi metadata menggunakan RDBMS dan bukan HDFS karena operasi membaca/menulis menggunakan HDFS adalah proses yang memakan waktu. RDBMS memiliki keunggulan karena membantu mencapai latensi rendah.

Bedakan antara Metastore Lokal dan Jarak Jauh.

Metastore lokal berjalan di JVM yang sama di mana layanan Hive berjalan. Itu dapat terhubung ke database yang berjalan di JVM terpisah pada mesin yang sama atau mesin jarak jauh. Sebaliknya, metastore jarak jauh berjalan di JVM terpisah dan bukan di tempat layanan Hive berjalan.

Apa yang Anda maksud dengan Partisi di Hive? Apa pentingnya?

Di Hive, tabel diklasifikasikan dan diatur ke dalam partisi untuk mengatur tipe data yang serupa bersama-sama, baik menurut kolom atau kunci partisi. Jadi, partisi sebenarnya adalah sub-direktori dalam direktori tabel. Sebuah tabel mungkin memiliki lebih dari satu kunci partisi untuk partisi tertentu.

Melalui partisi, Anda dapat mencapai perincian dalam tabel Hive. Ini membantu mengurangi latensi kueri karena hanya memindai data yang dipartisi yang relevan, bukan seluruh kumpulan data.

Apa itu Variabel Hive?

Variabel Hive dibuat di lingkungan Hive yang dikembangkan oleh bahasa skrip Hive. Menggunakan perintah sumber, ia mentransfer nilai ke kueri sarang saat kueri mulai dijalankan.

Jenis aplikasi gudang data apa yang cocok untuk Hive?

Peraturan desain Hadoop dan HDFS memberikan batasan tertentu pada kemampuan Hive. Selain itu, ia tidak memiliki fitur yang diperlukan untuk OLTP (Pemrosesan Transaksi Online). Hive paling cocok untuk aplikasi gudang data dalam kumpulan data besar yang membutuhkan:

Analisis data yang relatif statis.
Kurang waktu respon.
Tidak ada perubahan dinamis dalam data.

Apa itu Indeks Hive?

Indeks Hive adalah metode pengoptimalan kueri Hive. Ini digunakan untuk mempercepat akses kolom atau kumpulan kolom tertentu dalam database Hive. Dengan memanfaatkan indeks Hive, sistem database tidak perlu membaca semua baris dalam tabel untuk menemukan data yang dipilih.

Mengapa Anda membutuhkan Hcatolog?

Hcatalog diperlukan untuk berbagi struktur data dengan sistem eksternal. Ini menyediakan akses ke metastore Hive, sehingga Anda dapat membaca/menulis data ke gudang data Hive.

Sebutkan komponen prosesor kueri Hive?

Komponen prosesor kueri Hive adalah:

Rencana Logis Generasi.
Rencana Fisik Pembangkitan.
Mesin Eksekusi.
UDF dan UDAF.
Operator.
Pengoptimal.
Pengurai.
Penganalisis Semantik.
Pengecekan Jenis.

Bagaimana tabel format ORC membantu Hive meningkatkan kinerja?

Menggunakan format file ORC (Optimized Row Columnar), Anda dapat menyimpan data Hive secara efisien karena membantu menyederhanakan berbagai batasan format file Hive.

Apa fungsi dari Object-Inspector?

Di Hive, Object-Inspector membantu menganalisis struktur internal objek baris dan struktur individu kolom. Selain itu, ia juga menawarkan cara untuk mengakses objek kompleks yang dapat disimpan dalam format berbeda di memori.

Apa perbedaan antara Hive dan HBase?

Poin pembeda utama antara Hive dan HBase adalah:

Hive adalah kerangka kerja gudang data sedangkan HBase adalah basis data NoSQL.
Meskipun Hive dapat menjalankan sebagian besar kueri SQL, HBase tidak mengizinkan kueri SQL.
Hive tidak mendukung operasi penyisipan, pembaruan, dan penghapusan tingkat rekor pada tabel, tetapi HBase mendukung fungsi ini.
Hive berjalan di atas MapReduce, tetapi HBase berjalan di atas HDFS.

Apa itu Tabel Terkelola dan Tabel Eksternal?

Dalam tabel terkelola, informasi metadata dan data tabel dihapus dari direktori gudang Hive jika Anda keluar/keluar dari tabel terkelola. Namun, dalam tabel eksternal, hanya informasi metadata yang terkait dengan tabel yang dihapus saat data tabel dipertahankan dalam HDFS.

Sebutkan komponen yang berbeda dari arsitektur Hive.

Ada 5 komponen Arsitektur Hive:

Antarmuka Pengguna – Memungkinkan pengguna untuk mengirimkan kueri dan operasi lain ke sistem Hive. Antarmuka pengguna mendukung UI web Hive, baris perintah Hive, dan Hive HD Insight.
Driver – Ini membuat pegangan sesi untuk kueri dan kemudian mengirimkan kueri ke kompiler untuk membuat rencana eksekusi untuk hal yang sama.
Metastore – Ini berisi data terstruktur bersama dengan semua informasi tentang tabel dan partisi yang berbeda di gudang (dengan atribut). Saat menerima permintaan metadata, ia mengirimkan metadata ke kompiler untuk mengeksekusi kueri.
Compiler – Ini menghasilkan rencana eksekusi untuk mengurai kueri, melakukan analisis semantik pada blok kueri yang berbeda, dan menghasilkan ekspresi kueri.
Mesin Eksekusi – Sementara kompiler membuat rencana eksekusi, mesin eksekusi mengimplementasikannya. Ini mengelola dependensi dari berbagai tahap rencana.

Jelas, ada lebih dari sekadar 15 pertanyaan ini di Hive. Ini hanyalah konsep dasar yang akan membantu Anda mempelajari Hive dengan mudah.

Jika Anda tertarik untuk mengetahui lebih banyak tentang Big Data, lihat Diploma PG kami dalam Spesialisasi Pengembangan Perangkat Lunak dalam program Big Data yang dirancang untuk para profesional yang bekerja dan menyediakan 7+ studi kasus & proyek, mencakup 14 bahasa & alat pemrograman, praktik langsung lokakarya, lebih dari 400 jam pembelajaran yang ketat & bantuan penempatan kerja dengan perusahaan-perusahaan top.

Selamat belajar!

Pimpin Revolusi Teknologi Berbasis Data

400+ Jam Belajar. 14 Bahasa & Alat. Status Alumni IIIT-B.

Program Sertifikat Tingkat Lanjut dalam Data Besar dari IIIT Bangalore