أسئلة وأجوبة مقابلة Hive الأساسية 2022

نشرت: 2021-01-08

يمكن إجراء مقابلات البيانات الضخمة على أسس عامة (حيث يجب أن يكون لديك فكرة عامة عن أطر وأدوات البيانات الضخمة الشائعة) أو قد تركز على إطار عمل أو أداة معينة. اليوم ، سنركز على أحد أطر عمل البيانات الضخمة المستخدمة على نطاق واسع - Apache Hive.

لقد أنشأنا هذه القائمة من أسئلة مقابلة Apache Hive لمساعدتك في الحصول على فكرة أفضل حول نوع الأسئلة التي يطرحها أصحاب العمل عادةً خلال مقابلات Hadoop المتعلقة بـ Hive.

لذا ، إذا كنت شخصًا يرغب في إجراء مقابلة مع Hive ، فاستمر في القراءة حتى النهاية!

ما هي Apache Hive؟

Apache Hive هو إطار عمل لتخزين البيانات مبني على Hadoop. يتم استخدامه بشكل أساسي لتحليل البيانات المهيكلة وشبه المنظمة. تم تصميم Hive لإبراز بنية البيانات وتنفيذ الاستعلامات المكتوبة بلغة HQL (لغة استعلام Hive) ، على غرار عبارات SQL. علاوة على ذلك ، يحول مترجم Hive هذه الاستعلامات إلى وظائف تقلل من الخريطة.

ما نوع التطبيقات التي يمكن لـ Hive دعمها؟

يمكن أن يدعم Hive أي تطبيق مكتوب بلغة Python و Java و C ++ و Ruby و PHP.

ماذا تقصد بـ Metastore؟ لماذا لا تقوم Hive بتخزين البيانات الوصفية في HDFS؟

Metastore هو مستودع في الخلية يقوم بتخزين معلومات البيانات الوصفية. يقوم بذلك عن طريق الاستفادة من RDBMS جنبًا إلى جنب مع طبقة ORM مفتوحة المصدر (نموذج علائقي للكائنات) تسمى Data Nucleus والتي تحول تمثيل الكائن إلى مخطط علائقي والعكس صحيح.

يخزن Hive معلومات البيانات الوصفية باستخدام RDBMS وليس HDFS نظرًا لأن عمليات القراءة / الكتابة باستخدام HDFS هي عملية تستغرق وقتًا طويلاً. يتمتع RDBMS بميزة على ذلك لأنه يساعد في تحقيق زمن انتقال منخفض.

التفريق بين Metastore المحلي والبعيد.

يتم تشغيل Metastore المحلية في نفس JVM حيث يتم تشغيل خدمة Hive. يمكنه إما الاتصال بقاعدة بيانات تعمل في JVM منفصل على نفس الجهاز أو جهاز بعيد. على العكس من ذلك ، يتم تشغيل metastore البعيد في JVM منفصل وليس في المكان الذي تعمل فيه خدمة Hive.

ماذا تقصد بالتقسيم في الخلية؟ ما هي أهميته؟

في الخلية ، يتم تصنيف الجداول وتنظيمها في أقسام لتنظيم نوع مماثل من البيانات معًا ، إما وفقًا للعمود أو مفتاح القسم. لذلك ، القسم هو في الواقع دليل فرعي في دليل الجدول. قد يحتوي الجدول على أكثر من مفاتيح قسم لقسم معين.

من خلال التقسيم ، يمكنك تحقيق التفصيل في جدول الخلية. يساعد هذا في تقليل وقت استجابة الاستعلام لأنه يقوم فقط بمسح البيانات المقسمة ذات الصلة بدلاً من مجموعة البيانات بأكملها.

ما هو متغير الخلية؟

يتم إنشاء متغير Hive في بيئة Hive التي طورتها لغات البرمجة النصية Hive. باستخدام الأمر المصدر ، ينقل القيم إلى استعلامات الخلية عندما يبدأ الاستعلام في التنفيذ.

ما نوع تطبيقات مستودعات البيانات المناسبة لـ Hive؟

تضع لوائح تصميم Hadoop و HDFS قيودًا معينة على قدرات Hive. أيضًا ، لا يحتوي على الميزات الضرورية المطلوبة لـ OLTP (معالجة المعاملات عبر الإنترنت). يناسب Hive بشكل أفضل تطبيقات مستودع البيانات في مجموعات البيانات الضخمة التي تتطلب:

تحليل البيانات الثابتة نسبيًا.
وقت استجابة أقل.
لا توجد تغييرات ديناميكية في البيانات.

ما هو فهرس الخلية؟

فهرس الخلية هو طريقة تحسين استعلام الخلية. يتم استخدامه لتسريع الوصول إلى عمود معين أو مجموعة من الأعمدة في قاعدة بيانات Hive. من خلال استخدام فهرس الخلية ، لا يتطلب نظام قاعدة البيانات قراءة جميع الصفوف في الجدول للعثور على البيانات المختارة.

لماذا تحتاج Hcatolog؟

مطلوب كتالوج Hcatalog لمشاركة هياكل البيانات مع الأنظمة الخارجية. يوفر الوصول إلى Hive metastore ، بحيث يمكنك قراءة / كتابة البيانات إلى مستودع بيانات Hive.

هل تريد تسمية مكونات معالج استعلام Hive؟

مكونات معالج استعلام Hive هي:

خطة التوليد المنطقية.
خطة التوليد المادية.
محرك التنفيذ.
UDF و UDAF.
العاملين.
محسن.
محلل.
محلل دلالي.
اكتب فحص.

كيف تساعد جداول تنسيق ORC Hive في تحسين الأداء؟

باستخدام تنسيق ملف ORC (Optimized Row Columnar) ، يمكنك تخزين بيانات Hive بكفاءة لأنها تساعد على تبسيط القيود العديدة على تنسيق ملف Hive.

ما هي وظيفة مفتش الكائن؟

في Hive ، يساعد Object-Inspector في تحليل البنية الداخلية لكائن الصف والبنية الفردية للأعمدة. علاوة على ذلك ، فإنه يوفر أيضًا طرقًا للوصول إلى الكائنات المعقدة التي يمكن تخزينها بتنسيقات مختلفة في الذاكرة.

ما الفرق بين Hive و HBase؟

نقاط التمييز الرئيسية بين Hive و HBase هي:

Hive عبارة عن إطار عمل لمستودع البيانات بينما HBase هي قاعدة بيانات NoSQL.
بينما يمكن لـ Hive تشغيل معظم استعلامات SQL ، لا يسمح HBase باستعلامات SQL.
لا يدعم Hive عمليات الإدراج على مستوى التسجيل والتحديث والحذف على جدول ، ولكن HBase يدعم هذه الوظائف.
يعمل Hive أعلى MapReduce ، لكن HBase يعمل أعلى HDFS.

ما هو الجدول المُدار والجدول الخارجي؟

في الجدول المُدار ، يتم حذف معلومات البيانات التعريفية وبيانات الجدول من دليل مستودع Hive إذا تركت / خرجت من جدول مُدار. ومع ذلك ، في الجدول الخارجي ، يتم حذف معلومات البيانات الوصفية المرتبطة بالجدول فقط أثناء الاحتفاظ ببيانات الجدول في HDFS.

قم بتسمية المكونات المختلفة لبنية الخلية.

هناك 5 مكونات لبنية الخلية:

واجهة المستخدم - تتيح للمستخدم إرسال الاستعلامات والعمليات الأخرى إلى نظام Hive. تدعم واجهة المستخدم Hive web UI و Hive command line و Hive HD Insight.
برنامج التشغيل - يقوم بإنشاء معالج جلسة للاستعلامات ثم يرسل الاستعلامات إلى المترجم لإنشاء خطة تنفيذ لنفسه.
Metastore - يحتوي على البيانات المنظمة جنبًا إلى جنب مع جميع المعلومات الموجودة في الجداول والأقسام المختلفة في المستودع (مع السمات). عند استلام طلب البيانات الوصفية ، يرسل البيانات الوصفية إلى المترجم لتنفيذ الاستعلامات.
المترجم - يقوم بإنشاء خطة التنفيذ لتحليل الاستعلامات وإجراء تحليل دلالي على كتل استعلام مختلفة وإنشاء تعبير استعلام.
محرك التنفيذ - بينما يقوم المترجم بوضع خطة التنفيذ ، يقوم محرك التنفيذ بتنفيذها. يدير تبعيات المراحل المختلفة للخطة.

من الواضح أن Hive أكثر من مجرد هذه الأسئلة الخمسة عشر. هذه فقط المفاهيم الأساسية التي ستساعدك على تعلم المزيد عن الخلية.

إذا كنت مهتمًا بمعرفة المزيد عن البيانات الضخمة ، فراجع دبلومة PG في تخصص تطوير البرمجيات في برنامج البيانات الضخمة المصمم للمهنيين العاملين ويوفر أكثر من 7 دراسات حالة ومشاريع ، ويغطي 14 لغة وأدوات برمجة ، وتدريب عملي عملي ورش العمل ، أكثر من 400 ساعة من التعلم الصارم والمساعدة في التوظيف مع الشركات الكبرى.

تعلم سعيد!

قيادة الثورة التكنولوجية المدفوعة بالبيانات

400+ ساعة من التعلم. 14 لغة وأدوات. حالة خريجي IIIT-B.

برنامج الشهادة المتقدم في البيانات الضخمة من معهد IIIT بنغالور