يجب قراءة 26 أسئلة وأجوبة مقابلة محلل البيانات: الدليل النهائي 2022
نشرت: 2021-01-07حضور مقابلة مع محلل البيانات والتساؤل عن كل الأسئلة والمناقشات التي ستخوضها؟ قبل حضور مقابلة تحليل البيانات ، من الأفضل أن يكون لديك فكرة عن نوع أسئلة مقابلة محلل البيانات حتى تتمكن من تحضير إجابات لها ذهنيًا.
في هذه المقالة ، سننظر في بعض الأسئلة والأجوبة الأكثر أهمية في مقابلة محلل البيانات . علم البيانات وتحليلات البيانات كلاهما مجالان مزدهران في الصناعة في الوقت الحالي. بطبيعة الحال ، فإن الوظائف في هذه المجالات آخذة في الارتفاع. أفضل جزء في بناء مهنة في مجال علم البيانات هو أنه يقدم مجموعة متنوعة من الخيارات المهنية للاختيار من بينها!
تستفيد المؤسسات في جميع أنحاء العالم من البيانات الضخمة لتعزيز إنتاجيتها وكفاءتها بشكل عام ، وهو ما يعني حتمًا أن الطلب على متخصصي البيانات الخبراء مثل محللي البيانات ومهندسي البيانات وعلماء البيانات يتزايد أيضًا بشكل كبير. ومع ذلك ، للحصول على هذه الوظائف ، فإن امتلاك المؤهلات الأساسية فقط لا يكفي. سيؤدي الحصول على شهادات علوم البيانات من جانبك إلى زيادة وزن ملف التعريف الخاص بك.
تحتاج إلى مسح الجزء الأصعب - المقابلة. لا تقلق ، لقد أنشأنا دليل أسئلة وأجوبة مقابلة محلل البيانات هذا لفهم العمق والنية الحقيقية وراء الأسئلة.
جدول المحتويات
أسئلة وأجوبة مقابلة محلل البيانات الأعلى
1. ما هي المتطلبات الأساسية لتصبح محلل بيانات؟
يختبر سؤال مقابلة محلل البيانات هذا معرفتك بمجموعة المهارات المطلوبة لتصبح عالم بيانات.
لتصبح محلل بيانات ، تحتاج إلى:
- كن على دراية جيدة بلغات البرمجة (أطر عمل XML ، أو Javascript ، أو ETL) ، وقواعد البيانات (SQL ، و SQLite ، و Db2 ، وما إلى ذلك) ، ولديك أيضًا معرفة واسعة بحزم التقارير (كائنات الأعمال).
- القدرة على تحليل البيانات الضخمة وتنظيمها وجمعها ونشرها بكفاءة.
- يجب أن يكون لديك معرفة فنية كبيرة في مجالات مثل تصميم قواعد البيانات ، واستخراج البيانات ، وتقنيات التجزئة.
- لديك معرفة جيدة بالحزم الإحصائية لتحليل مجموعات البيانات الضخمة مثل SAS و Excel و SPSS ، على سبيل المثال لا الحصر.
2. ما هي المسؤوليات الهامة لمحلل البيانات؟
هذا هو السؤال الأكثر شيوعًا في مقابلة محلل البيانات. يجب أن يكون لديك فكرة واضحة عما تستلزمه وظيفتك.
مطلوب محلل بيانات لأداء
المهام التالية:
- جمع وتفسير البيانات من مصادر متعددة وتحليل النتائج.
- تصفية وتنظيف البيانات التي تم جمعها من مصادر متعددة.
- تقديم الدعم لكل جانب من جوانب تحليل البيانات.
- تحليل مجموعات البيانات المعقدة وتحديد الأنماط المخفية فيها.
- الحفاظ على قواعد البيانات مؤمنة.
3. ماذا يعني "تطهير البيانات"؟ ما هي أفضل الطرق لممارسة هذا؟
إذا كنت تجلس في وظيفة محلل بيانات ، فهذا أحد أكثر أسئلة مقابلة محلل البيانات شيوعًا.
يشير تنقية البيانات في المقام الأول إلى عملية اكتشاف وإزالة الأخطاء وعدم الاتساق من البيانات لتحسين جودة البيانات.
أفضل الطرق لتنظيف البيانات هي:
- فصل البيانات حسب خصائص كل منها.
- تقسيم أجزاء كبيرة من البيانات إلى مجموعات بيانات صغيرة ثم تنظيفها.
- تحليل إحصائيات كل عمود بيانات.
- إنشاء مجموعة من وظائف الأداة أو البرامج النصية للتعامل مع مهام التنظيف الشائعة.
- تتبع جميع عمليات تطهير البيانات لتسهيل الإضافة أو الإزالة من مجموعات البيانات ، إذا لزم الأمر.
4. تسمية أفضل الأدوات المستخدمة في تحليل البيانات.
السؤال عن الأداة الأكثر استخدامًا هو شيء ستجده غالبًا في أي أسئلة مقابلة لتحليل البيانات.
الأدوات الأكثر فائدة لتحليل البيانات هي:
- تابلوه
- الجداول الشاملة من Google
- عوامل تشغيل البحث جوجل
- KNIME
- رابيدماينر
- حلال
- OpenRefine
- NodeXL
- io
الخروج: راتب محلل البيانات في الهند
5. ما هو الفرق بين تنميط البيانات والتنقيب في البيانات؟
يركز تحديد سمات البيانات على تحليل السمات الفردية للبيانات ، وبالتالي توفير معلومات قيمة عن سمات البيانات مثل نوع البيانات ، وتكرارها ، وطولها ، إلى جانب قيمها المنفصلة ونطاقات قيمتها. على العكس من ذلك ، يهدف التنقيب عن البيانات إلى تحديد السجلات غير العادية ، وتحليل مجموعات البيانات ، والاكتشاف المتسلسل ، على سبيل المثال لا الحصر.
6. ما هي طريقة احتساب KNN؟
تسعى طريقة احتساب KNN إلى تحديد قيم السمات المفقودة باستخدام قيم السمات الأقرب إلى قيم السمات المفقودة. يتم تحديد التشابه بين قيمتي سمة باستخدام دالة المسافة.
7. ما الذي يجب أن يفعله محلل البيانات بالبيانات المفقودة أو المشتبه بها؟
في مثل هذه الحالة ، يحتاج محلل البيانات إلى:
- استخدم استراتيجيات تحليل البيانات مثل طريقة الحذف وطرق التضمين الفردي والطرق القائمة على النموذج لاكتشاف البيانات المفقودة.
- قم بإعداد تقرير تحقق يحتوي على جميع المعلومات حول البيانات المشتبه بها أو المفقودة.
- قم بفحص البيانات المشبوهة لتقييم صحتها.
- استبدل جميع البيانات غير الصالحة (إن وجدت) برمز تحقق مناسب.
8. قم بتسمية طرق التحقق من صحة البيانات المختلفة التي يستخدمها محللو البيانات.
هناك طرق عديدة للتحقق من صحة مجموعات البيانات. تتضمن بعض طرق التحقق من صحة البيانات الأكثر استخدامًا بواسطة محللي البيانات ما يلي:
- التحقق من صحة مستوى الحقل - في هذه الطريقة ، يتم التحقق من صحة البيانات في كل حقل عندما يقوم المستخدم بإدخال البيانات. يساعد على تصحيح الأخطاء أثناء التنقل.
- التحقق من صحة مستوى النموذج - في هذه الطريقة ، يتم التحقق من صحة البيانات بعد قيام المستخدم بإكمال النموذج وإرساله. يتحقق من نموذج إدخال البيانات بالكامل مرة واحدة ، ويتحقق من صحة جميع الحقول الموجودة فيه ، ويسلط الضوء على الأخطاء (إن وجدت) حتى يتمكن المستخدم من تصحيحها.
- التحقق من صحة توفير البيانات - تُستخدم تقنية التحقق من صحة البيانات هذه أثناء عملية حفظ ملف فعلي أو سجل قاعدة بيانات. عادة ، يتم ذلك عندما يجب التحقق من صحة نماذج إدخال بيانات متعددة.
- التحقق من صحة معايير البحث - تُستخدم تقنية التحقق هذه لتزويد المستخدم بمطابقات دقيقة وذات صلة للكلمات الرئيسية أو العبارات التي تم البحث عنها. الغرض الرئيسي من طريقة التحقق هذه هو التأكد من أن استعلامات بحث المستخدم يمكن أن تعرض النتائج الأكثر صلة.
9. تحديد الناشز
لن يكتمل دليل أسئلة وأجوبة مقابلة محلل البيانات بدون هذا السؤال. الخارج هو مصطلح يستخدمه محللو البيانات بشكل شائع عند الإشارة إلى قيمة تبدو بعيدة ومتباعدة عن نمط محدد في عينة. هناك نوعان من القيم المتطرفة - وحيد المتغير ومتعدد المتغيرات.
الطريقتان المستخدمتان للكشف عن القيم المتطرفة هما:
- طريقة رسم الصندوق - وفقًا لهذه الطريقة ، إذا كانت القيمة أعلى أو أقل من 1.5 * IQR (النطاق الربيعي) ، بحيث تكون أعلى من الربع العلوي (Q3) أو أقل من الربع السفلي (Q1) ، تكون القيمة متقطعة .
- طريقة الانحراف المعياري - تنص هذه الطريقة على أنه إذا كانت القيمة أعلى أو أقل من المتوسط ± (3 * الانحراف المعياري) ، فهي قيمة خارجية. تحليل البيانات الاستكشافية وأهميتها لعملك
10. ما هو "التجميع؟" قم بتسمية خصائص خوارزميات التجميع.
التجميع هو طريقة يتم فيها تصنيف البيانات إلى مجموعات ومجموعات. تحتوي خوارزمية التجميع على الخصائص التالية:

- هرمي أو مسطح
- قاسي ولين
- ترابطي
- طباقي
11. ما هي خوارزمية K- يعني؟
K-mean هي تقنية تقسيم يتم فيها تصنيف الكائنات إلى مجموعات K. في هذه الخوارزمية ، تكون المجموعات كروية مع محاذاة نقاط البيانات حول تلك المجموعة ، ويكون تباين المجموعات متشابهًا مع بعضها البعض.
12. تحديد "التصفية التعاونية".
التصفية التعاونية هي خوارزمية تنشئ نظام توصية يعتمد على البيانات السلوكية للمستخدم. على سبيل المثال ، عادةً ما تقوم مواقع التسوق عبر الإنترنت بتجميع قائمة بالعناصر ضمن "الموصى بها لك" بناءً على سجل التصفح والمشتريات السابقة. تشمل المكونات الأساسية لهذه الخوارزمية المستخدمين والأشياء واهتماماتهم.
13. اسم الأساليب الإحصائية المفيدة للغاية لمحللي البيانات؟
الطرق الإحصائية التي يستخدمها محللو البيانات في الغالب هي:
- طريقة بايزي
- عملية ماركوف
- خوارزمية Simplex
- بتر
- العمليات المكانية والعنقودية
- إحصائيات الترتيب ، النسبة المئوية ، الكشف عن القيم المتطرفة
- التحسين الرياضي
14. ما هو N-gram؟
n-gram عبارة عن سلسلة متصلة من n من العناصر في نص أو خطاب معين. على وجه التحديد ، يعد N-gram نموذجًا للغة احتمالية يستخدم للتنبؤ بالعنصر التالي في تسلسل معين ، كما في (n-1).
15. ما هو تصادم جدول التجزئة؟ كيف يمكن الوقاية منه؟
هذا أحد أسئلة مقابلة محلل البيانات المهمة. عند تجزئة مفتاحين منفصلين إلى قيمة مشتركة ، يحدث تضارب في جدول التجزئة. هذا يعني أنه لا يمكن تخزين بيانات مختلفة في نفس الفتحة.
يمكن تجنب تصادم الهاش من خلال:
- التسلسل المنفصل - في هذه الطريقة ، يتم استخدام بنية البيانات لتخزين عناصر متعددة تجزئة إلى فتحة مشتركة.
- العنونة المفتوحة - تبحث هذه الطريقة عن فتحات فارغة وتخزن العنصر في أول فتحة فارغة متاحة.
16. تحديد "تحليل السلاسل الزمنية".
يمكن عادة إجراء تحليل السلاسل في مجالين - المجال الزمني ومجال التردد.
تحليل السلاسل الزمنية هو الطريقة التي يتم فيها التنبؤ بمخرجات العملية عن طريق تحليل البيانات التي تم جمعها في الماضي باستخدام تقنيات مثل التسوية الأسية ، وطريقة الانحدار الخطي ، وما إلى ذلك.
17. كيف يمكنك معالجة المشاكل متعددة المصادر؟
لمعالجة المشاكل متعددة المصادر ، أنت بحاجة إلى:
- حدد سجلات البيانات المتشابهة وادمجها في سجل واحد يحتوي على جميع السمات المفيدة ، مطروحًا منها التكرار.
- تسهيل تكامل المخطط من خلال إعادة هيكلة المخطط.
18. أذكر خطوات مشروع تحليل البيانات.
تشمل الخطوات الأساسية لمشروع تحليل البيانات ما يلي:
- الشرط الأول لمشروع تحليل البيانات هو الفهم العميق لمتطلبات العمل.
- تتمثل الخطوة الثانية في تحديد مصادر البيانات الأكثر صلة والتي تناسب متطلبات العمل على أفضل وجه والحصول على البيانات من مصادر موثوقة وتم التحقق منها.
- تتضمن الخطوة الثالثة استكشاف مجموعات البيانات وتنظيف البيانات وتنظيمها لاكتساب فهم أفضل للبيانات الموجودة.
- في الخطوة الرابعة ، يجب على محللي البيانات التحقق من صحة البيانات.
- تتضمن الخطوة الخامسة تنفيذ مجموعات البيانات وتتبعها.
- الخطوة الأخيرة هي إنشاء قائمة بالنتائج الأكثر احتمالية وتكرارها حتى يتم تحقيق النتائج المرجوة.
19. ما هي المشاكل التي يمكن أن يواجهها محلل البيانات أثناء إجراء تحليل البيانات؟
سؤال مقابلة مع محلل بيانات هام يجب أن تكون على دراية به. يمكن لمحلل البيانات مواجهة المشكلات التالية أثناء إجراء تحليل البيانات:
- وجود إدخالات مكررة وأخطاء إملائية. يمكن أن تعرقل هذه الأخطاء جودة البيانات.
- تم الحصول على بيانات ذات جودة رديئة من مصادر غير موثوقة. في مثل هذه الحالة ، سيتعين على محلل البيانات قضاء قدر كبير من الوقت في تنظيف البيانات.
- قد تختلف البيانات المستخرجة من مصادر متعددة في التمثيل. بمجرد دمج البيانات التي تم جمعها بعد تنظيفها وتنظيمها ، قد تتسبب الاختلافات في تمثيل البيانات في تأخير عملية التحليل.
- البيانات غير المكتملة هي تحد رئيسي آخر في عملية تحليل البيانات. سيؤدي حتما إلى نتائج خاطئة أو خاطئة.
20. ما هي خصائص نموذج البيانات الجيد؟
لكي يتم اعتبار نموذج البيانات جيدًا ومتطورًا ، يجب أن يصور الخصائص التالية:
- يجب أن يكون لها أداء يمكن التنبؤ به بحيث يمكن تقدير النتائج بدقة ، أو على الأقل بدقة قريبة.
- يجب أن يكون متكيفًا ومتجاوبًا مع التغييرات حتى يتمكن من تلبية احتياجات العمل المتزايدة من وقت لآخر.
- يجب أن تكون قادرة على القياس بما يتناسب مع التغييرات في البيانات.
- يجب أن تكون قابلة للاستهلاك للسماح للعملاء / العملاء بجني نتائج ملموسة ومربحة.
21. التفريق بين التباين والتغاير.
التباين والتغاير كلاهما مصطلحات إحصائية. يوضح التباين مدى بعد رقمين (كميات) فيما يتعلق بالقيمة المتوسطة. لذلك ، ستعرف فقط حجم العلاقة بين الكميتين (مقدار البيانات المنتشرة حول الوسط). على العكس من ذلك ، يصور التباين المشترك كيف سيتغير متغيرين عشوائيين معًا. وبالتالي ، فإن التغاير يعطي كلا من الاتجاه والحجم لكيفية اختلاف كميتين فيما يتعلق ببعضهما البعض.
22. اشرح "التوزيع الطبيعي".
أحد الأسئلة الشائعة في مقابلة محلل البيانات. يشير التوزيع الطبيعي ، المعروف باسم منحنى بيل أو منحنى غاوس ، إلى دالة احتمالية تصف وتقيس كيفية توزيع قيم المتغير ، أي كيف تختلف في وسائلها وانحرافاتها المعيارية. في المنحنى ، يكون التوزيع متماثلًا. في حين أن معظم الملاحظات تتجمع حول الذروة المركزية ، فإن احتمالات القيم تتجه بعيدًا عن المتوسط ، وتتناقص بالتساوي في كلا الاتجاهين.
23. شرح التحليل أحادي المتغير وثنائي المتغير ومتعدد المتغيرات.
يشير التحليل أحادي المتغير إلى أسلوب إحصائي وصفي يتم تطبيقه على مجموعات البيانات التي تحتوي على متغير واحد. يأخذ التحليل أحادي المتغير في الاعتبار نطاق القيم وكذلك الاتجاه المركزي للقيم.
يحلل التحليل ثنائي المتغير في وقت واحد متغيرين لاستكشاف احتمالات العلاقة التجريبية بينهما. يحاول تحديد ما إذا كان هناك ارتباط بين المتغيرين وقوة الارتباط ، أو ما إذا كان هناك أي اختلافات بين المتغيرات وما هي أهمية هذه الاختلافات.
التحليل متعدد المتغيرات هو امتداد للتحليل ثنائي المتغير. استنادًا إلى مبادئ الإحصاء متعدد المتغيرات ، يلاحظ التحليل متعدد المتغيرات ويحلل متغيرات متعددة (متغيران مستقلان أو أكثر) في وقت واحد للتنبؤ بقيمة متغير تابع للمواضيع الفردية.
24. اشرح الفرق بين R-Squared و R-Squared المعدل.
تقنية R-Squared هي مقياس إحصائي لنسبة التباين في المتغيرات التابعة ، كما هو موضح بواسطة المتغيرات المستقلة. يعد R-Squared المعدل في الأساس نسخة معدلة من R-squared ، ومعدلة لعدد المتنبئين في النموذج. يوفر النسبة المئوية للتباين الموضح بواسطة المتغيرات المستقلة المحددة التي لها تأثير مباشر على المتغيرات التابعة.
25. ما هي مزايا التحكم في الإصدار؟
المزايا الرئيسية للتحكم في الإصدار هي -
- يسمح لك بمقارنة الملفات وتحديد الاختلافات ودمج التغييرات بسلاسة.
- يساعد في تتبع عمليات إنشاء التطبيقات من خلال تحديد الإصدار الذي يندرج تحته أي فئة - التطوير والاختبار وضمان الجودة والإنتاج.
- إنه يحتفظ بسجل كامل لملفات المشروع التي تكون في متناول اليد إذا كان هناك تعطل خادم مركزي.
- إنه ممتاز لتخزين وصيانة إصدارات ومتغيرات متعددة من ملفات التعليمات البرمجية بشكل آمن.
- يسمح لك بمشاهدة التغييرات التي تم إجراؤها في محتوى الملفات المختلفة.
26. كيف يمكن لمحلل البيانات تمييز الخلايا التي تحتوي على قيم سالبة في ورقة Excel؟
السؤال الأخير في دليل أسئلة وأجوبة مقابلة محلل البيانات. يمكن لمحلل البيانات استخدام التنسيق الشرطي لتمييز الخلايا التي تحتوي على قيم سالبة في ورقة Excel. فيما يلي خطوات التنسيق الشرطي:
- أولاً ، حدد الخلايا التي تحتوي على قيم سالبة.
- الآن ، انتقل إلى علامة التبويب الصفحة الرئيسية واختر خيار التنسيق الشرطي.
- بعد ذلك ، انتقل إلى Highlight Cell Rules وحدد الخيار Less Than.
- في الخطوة الأخيرة ، يجب أن تذهب إلى مربع حوار خيار أقل من وأن تدخل "0" كقيمة.
خاتمة
مع ذلك ، نصل إلى نهاية قائمة دليل أسئلة وأجوبة مقابلة محلل البيانات . على الرغم من أن أسئلة مقابلة محلل البيانات هذه يتم اختيارها من بين مجموعة كبيرة من الأسئلة المحتملة ، فهذه هي الأسئلة التي من المرجح أن تواجهها إذا كنت محلل بيانات طموحًا. تضع هذه الأسئلة الأساس لأي مقابلة مع محلل بيانات ، ومن المؤكد أن معرفة الإجابات عليها سيأخذك شوطًا طويلاً!
إذا كنت مهتمًا بتعلم تحليلات البيانات المتعمقة ، وعلم البيانات ليكون في مقدمة التطورات التكنولوجية السريعة ، تحقق من برنامج upGrad & IIIT-B التنفيذي في علوم البيانات.
ما هي اتجاهات المواهب في صناعة تحليلات البيانات؟
مع نمو علم البيانات تدريجيًا ، هناك نمو كبير في بعض المجالات أيضًا. هذه المجالات هي: مع النمو الكبير في صناعة علوم البيانات وتحليل البيانات ، يتم إنشاء المزيد والمزيد من الوظائف الشاغرة لمهندسي البيانات مما يؤدي بدوره إلى زيادة الطلب على المزيد من متخصصي تكنولوجيا المعلومات. مع تقدم التكنولوجيا ، يتطور دور علماء البيانات تدريجياً. أصبحت مهام التحليلات تلقائية ، الأمر الذي وضع علماء البيانات في المقدمة. قد تتولى الأتمتة مهام إعداد البيانات حيث يقضي علماء البيانات حاليًا 70-80٪ من وقتهم.
شرح التحليل العنقودي وخصائصه.
تُعرف العملية التي نحدد فيها كائنًا دون تسميته باسم تحليل الكتلة. يستخدم التنقيب في البيانات لتجميع كائنات مختلفة متشابهة في مجموعة واحدة تمامًا كما هو الحال في التحليل التمييزي. تشمل تطبيقاته التعرف على الأنماط وتحليل المعلومات وتحليل الصور والتعلم الآلي ورسومات الكمبيوتر والعديد من المجالات الأخرى. تحليل الكتلة هو مهمة يتم إجراؤها باستخدام العديد من الخوارزميات الأخرى التي تختلف عن بعضها البعض في نواح كثيرة وبالتالي إنشاء كتلة. فيما يلي بعض خصائص التحليل العنقودي: التحليل العنقودي قابل للتوسع بدرجة كبيرة. يمكنه التعامل مع مجموعة مختلفة من السمات. يظهر الأبعاد العالية ، التفسير. إنه مفيد في العديد من المجالات بما في ذلك التعلم الآلي وجمع المعلومات.
ما هي القيم المتطرفة وكيفية التعامل معها؟
تتم إحالة القيم المتطرفة إلى الحالات الشاذة أو الاختلافات الطفيفة في بياناتك. يمكن أن يحدث أثناء جمع البيانات. هناك 4 طرق يمكننا من خلالها اكتشاف حالة خارجية في مجموعة البيانات. هذه الطرق هي كما يلي: Boxplot هي طريقة لاكتشاف الخارج حيث نقوم بفصل البيانات من خلال الأرباع الخاصة بهم. يعرض مخطط التبعثر بيانات متغيرين في شكل مجموعة من النقاط المميزة على المستوى الديكارتي. تمثل قيمة أحد المتغيرات المحور الأفقي (x-ais) وتمثل قيمة المتغير الآخر المحور الرأسي (المحور y). أثناء حساب Z-Score ، نبحث عن النقاط البعيدة عن المركز ونعتبرها قيمًا متطرفة.