يجب قراءة 24 أسئلة وأجوبة مقابلة Datastage [الدليل النهائي 2022]
نشرت: 2021-01-08Datastage هي أداة ETL ، أي أداة استخراج وتحويل وتحميل مقدمة من شركة IBM في مجموعة InfoSphere ومجموعة منصات حلول المعلومات. إنها أداة ETL شائعة وتستخدم للعمل مع مجموعات البيانات الكبيرة والمستودعات لإنشاء مستودعات البيانات وصيانتها. في هذه المقالة ، سنلقي نظرة على الأسئلة الأكثر شيوعًا في مقابلات DataStage ، وسنقدم أيضًا إجابات لهذه الأسئلة. إذا كنت مبتدئًا ومهتمًا بمعرفة المزيد عن علم البيانات ، فراجع تدريبنا على علوم البيانات من أفضل الجامعات.
الأسئلة والأجوبة الأكثر شيوعًا في مقابلات DataStage هي كما يلي:
جدول المحتويات
أسئلة وأجوبة مقابلة DataStage
1. ما هو برنامج IBM DataStage ، ولماذا يتم استخدامه؟
DataStage هي أداة توفرها شركة IBM وتستخدم لتصميم التطبيقات وتطويرها وتنفيذها لملء البيانات في مستودعات البيانات عن طريق استخراج البيانات من قواعد البيانات من خوادم Windows. يحتوي على ميزة التصورات الرسومية لتكامل البيانات ويمكنه أيضًا استخراج البيانات من مصادر متعددة. لذلك تعتبر واحدة من أقوى أدوات ETL. تحتوي DataStage على إصدارات مختلفة يمكن للشركات استخدامها بناءً على متطلباتها. الإصدارات هي Server Edition و MVS Edition و Enterprise Edition.
2. ما هي خصائص DataStage؟
خصائص IBM DataStage هي كما يلي:
- يمكن نشره على الخوادم المحلية وكذلك السحابة حسب الحاجة والمتطلبات.
- إنه سهل الاستخدام ويمكن أن يزيد من سرعة ومرونة تكامل البيانات بكفاءة.
- يدعم البيانات الضخمة ويمكنه الوصول إلى البيانات الضخمة بعدة طرق ، مثل مكامل JDBC ودعم JSON وأنظمة الملفات الموزعة.
3. وصف بنية DataStage باختصار.
يتبع IBM DataStage نموذج خادم العميل باعتباره بنيته وله أنواع معمارية مختلفة لإصداراته المختلفة. مكونات بنية خادم العميل هي:
- مكونات العميل
- الخوادم
- مراحل
- تعريفات الجدول
- حاويات
- المشاريع
- وظائف
4. كيف يمكننا تشغيل وظيفة باستخدام سطر الأوامر في DataStage؟
الأمر هو: dsjob -run -jobstatus <projectname> <jobname>
5. ضع قائمة ببعض الوظائف التي يمكننا تنفيذها باستخدام الأمر "dsjob".
الوظائف المختلفة التي يمكننا القيام بها باستخدام الأمر $ dsjob هي:
- dsjob -run $: يستخدم لتشغيل وظيفة DataStage
- dsjob -stop $: يستخدم لإيقاف الوظيفة الموجودة حاليا في العملية
- $ dsjob -jobid: يستخدم لتوفير معلومات الوظيفة
- تقرير $ dsjob: يستخدم لعرض تقرير الوظيفة الكامل
- dsjob -lprojects $: يستخدم لسرد كل المشاريع الموجودة
- dsjob -ljobs $: يستخدم لسرد جميع الوظائف الموجودة في المشروع
- dsjob -lstages $: يستخدم لسرد جميع مراحل الوظيفة الحالية
- $ dsjob -llinks: يستخدم لسرد كل الروابط
- dsjobs -lparams $: يستخدم لسرد جميع معاملات الوظيفة
- $ dsjob -projectinfo: يستخدم لاسترجاع المعلومات الخاصة بالمشروع
- $ dsjob -jobinfo: يستخدم لاسترجاع معلومات الوظيفة
- dsjob -stageinfo $: يستخدم لاسترجاع المعلومات لتلك المرحلة من تلك الوظيفة
- dsjob -linkinfo $: يستخدم للحصول على معلومات هذا الرابط
- dsjob -paraminfo $: يوفر معلومات عن جميع المتغيرات
- $ dsjob -loginfo: يستخدم للحصول على معلومات حول السجل
- $ dsjob -log: يستخدم لإضافة رسالة نصية في السجل
- $ dsjob -logsum: يستخدم لعرض بيانات السجل
- dsjob -logdetail $: يستخدم لعرض كافة تفاصيل السجل
- $ dsjob -lognewest: يستخدم لاسترجاع معرف السجل الأحدث
6. ما هو مصمم التدفق في IBM DataStage؟
مصمم التدفق هو واجهة المستخدم المستندة إلى الويب الخاصة بـ DataStage ويتم استخدامه لإنشاء المهام وتحريرها وتحميلها وتشغيلها في DataStage.
مصدر
7. ما هي السمات الرئيسية لمصمم التدفق؟
السمات الرئيسية لمصمم التدفق هي:
- من المفيد جدًا أداء الوظائف بعدد كبير من المراحل.
- ليست هناك حاجة لترحيل الوظائف لاستخدام مصمم التدفق.
- يمكننا استخدام اللوحة المتوفرة لإضافة وإزالة الموصلات والمشغلين على لوحة المصمم باستخدام ميزة السحب والإفلات.
تعرف على: علم البيانات مقابل التنقيب في البيانات: الفرق بين علم البيانات واستخراج البيانات
8. كيفية تحويل وظيفة الخادم إلى وظيفة متوازية في DataStage؟
يمكن تحويل وظيفة الخادم إلى وظيفة متوازية باستخدام مُجمع الارتباط ومجمع IPC.
9 . ما هو موصل HBase؟
موصل HBase في DataStage هو أداة تستخدم لربط قواعد البيانات والجداول الموجودة في قاعدة بيانات HBase. يتم استخدامه بشكل رئيسي لأداء المهام التالية:
- قراءة وكتابة البيانات من وإلى قاعدة بيانات HBase.
- قراءة البيانات في الوضع المتوازي.
- استخدام HBase كجدول عرض
10. ما هو موصل الخلية؟
موصل الخلية هو أداة تستخدم لدعم أوضاع التقسيم أثناء قراءة البيانات. يمكن أن يتم ذلك بطريقتين:
- وضع تقسيم المعامل
- وضع التقسيم الأدنى والأقصى
11. ما هو Infosphere في DataStage؟

خادم معلومات Infosphere قادر على إدارة متطلبات الحجم الكبير للشركات ويقدم نتائج عالية الجودة وأسرع. إنه يوفر للشركات منصة واحدة لإدارة البيانات حيث يمكنهم فهم وتنظيف وتحويل وتقديم كميات هائلة من المعلومات.
مصدر
12. سرد كافة المستويات المختلفة لـ InfoSphere Information Server؟
المستويات المختلفة لـ InfoSphere Information Server هي:
- طبقة العميل
- فئة الخدمات
- طبقة المحرك
- طبقة مستودع البيانات الوصفية
13. قم بوصف طبقة العميل لخادم معلومات Infosphere بشكل موجز.
تُستخدم طبقة العميل في Infosphere Information Server لتطوير أجهزة الكمبيوتر وإدارتها بالكامل باستخدام برامج العميل ووحدات التحكم.
14. قم بوصف فئة الخدمات لخادم معلومات Infosphere بشكل موجز.
تُستخدم طبقة الخدمات في Infosphere Information Server لتوفير الخدمات القياسية مثل البيانات الوصفية والتسجيل وبعض الخدمات الأخرى الخاصة بالوحدة النمطية. يحتوي على خادم تطبيق ووحدات نمطية مختلفة للمنتج وخدمات منتجات أخرى.
15. قم بوصف طبقة المحرك الخاصة بخادم معلومات Infosphere بشكل موجز.
طبقة المحرك لـ Infosphere Information Server هي مجموعة من المكونات المنطقية المستخدمة لتشغيل الوظائف والمهام الأخرى لوحدات المنتج النمطية.
16. قم بوصف طبقة مستودع البيانات الوصفية لخادم معلومات Infosphere بشكل موجز.
تشتمل طبقة مستودع بيانات التعريف في Infosphere Information Server على مستودع بيانات التعريف وقاعدة بيانات التحليل والكمبيوتر. يتم استخدامه لمشاركة البيانات الوصفية والبيانات المشتركة ومعلومات التكوين.
17. ما هي أنواع المعالجة المتوازية في DataStage؟
هناك نوعان مختلفان من المعالجة المتوازية ، وهما:
- تقسيم البيانات
- خطوط أنابيب البيانات
18 . ما هو تقسيم البيانات؟
تقسيم البيانات هو نوع من النهج المتوازي لمعالجة البيانات. يتضمن عملية تقسيم السجلات إلى أقسام للمعالجة. يزيد من كفاءة المعالجة في نموذج خطي.
اقرأ المزيد: المعالجة المسبقة للبيانات في التعلم الآلي: 7 خطوات سهلة للمتابعة
19. ما هو خط أنابيب البيانات؟
إن خطوط أنابيب البيانات هي نوع من الأساليب المتوازية لمعالجة البيانات حيث نقوم باستخراج البيانات من المصدر ثم نجعلها تمر عبر سلسلة من وظائف المعالجة للحصول على المخرجات المطلوبة.
20. ما هو السلامة والصحة المهنية في DataStage؟
OSH هي اختصار لـ Orchestrate Shell وهي لغة برمجة نصية مستخدمة في DataStage داخليًا بواسطة المحرك المتوازي.
21. ما هم اللاعبون؟
اللاعبون في DataStage هم العمليات الأساسية. إنها تساعدنا في أداء المعالجة المتوازية ويتم تخصيصها للمشغلين في كل عقدة.
22. ما هي مكتبة المجموعة في DataStage؟
مكتبات المجموعة هي مجموعة المشغلين وتستخدم لجمع البيانات المقسمة.
23. ما هي أنواع المجمعات المتوفرة في مكتبة المجموعة الخاصة بـ DataStage؟
أنواع المجمعات المتوفرة في مكتبة المجموعات هي:
- جامع Sortmerg
- جامع Roundrobin
- جامع أمر
24. كيف يتم تعبئة الملف المصدر في DataStage؟
يمكن ملء الملف المصدر باستخدام استعلامات SQL وأيضًا باستخدام أداة استخراج منشئ الصف.
الحد الأدنى
نأمل أن تساعدك مقالتنا التي تحتوي على جميع أسئلة وأجوبة مقابلة DataStage في التحضير لمقابلة DataStage. يمكنك إلقاء نظرة على الدورات التدريبية التي تقدمها upGrad لزيادة معرفتك بهذه الموضوعات:
- دبلوم PG في تخصص تطوير البرمجيات في البيانات الضخمة : تم إنشاء هذه الدورة من قبل upGrad بالتعاون مع IIIT-B لتزويد الأفراد بالمعرفة التي يحتاجونها لتطوير البرمجيات وتغطية المعرفة حول إدارة البيانات الضخمة.
- PGC in Full Stack Development : تم إنشاء هذه الدورة التدريبية حول التطوير الكامل من قبل upGrad والمتخصصين في الصناعة من Tech Mahindra لجعل الأفراد قادرين على حل التحديات على مستوى الصناعة واكتساب جميع المهارات المطلوبة للدخول والعمل في الصناعات.
نحن في upGrad متواجدون دائمًا لمساعدتك في التحضير. يمكنك أيضًا إلقاء نظرة على دوراتنا التي يمكن أن تساعدك على تعلم جميع المهارات والتقنيات المطلوبة في الصناعة للاستعداد جيدًا لمقابلاتك وطموحاتك الوظيفية المستقبلية ، كما نقول دائمًا "Raho Ambitious". تم إجراء هذه الدورات من قبل خبراء الصناعة والأكاديميين ذوي الخبرة لتجعلك قادرًا على أن تصبح ماهرًا في أي تقنية ومهارات تريد أن تتعلمها.
إذا كنت مهتمًا بتعلم Python وترغب في جعل يديك متسخًا في العديد من الأدوات والمكتبات ، فراجع برنامج Executive PG في علوم البيانات.
ما هي أربع مراحل رئيسية من Datastage؟
تعد IBM Datastage أداة قوية لتصميم التطبيقات وتطويرها وتنفيذها لملء البيانات في مستودعات البيانات عن طريق استخراج البيانات من قواعد البيانات. فيما يلي أربع مراحل رئيسية من Datastage. يتم استخدام المسؤول للمهام الإدارية التي تشمل إعداد مستخدمي DataStage وتطهير المعايير ، وتعبئة المشاريع وتسريحها ، وما إلى ذلك. يقوم المصمم أو واجهة التصميم بتطوير تطبيقات Datastage أو الوظائف التي ينظمها المدير ويديرها الخادم. كما يوحي الاسم ، يحافظ المدير على المستودعات ويديرها ويسمح للمستخدمين بتعديل البيانات المخزنة من خلالها. يؤدي المدير وظائف مختلفة بما في ذلك التحقق من صحة الوظائف وجدولتها وتنفيذها جنبًا إلى جنب مع مراقبة الوظائف الموازية.
لأي غرض ، يتم استخدام الأمر "dsjob"؟
يتم استخدام الأمر dsjob للعديد من الوظائف بما في ذلك استرداد وعرض البيانات حول المشاريع أو الوظائف. فيما يلي بعض الوظائف التي يمكن تنفيذها باستخدام الأمر dsjob. يستخدم $ dsjob -run لتشغيل وظيفة DataStage ، $ dsjob -stop يستخدم لإيقاف الوظيفة الموجودة حاليًا في العملية ، $ dsjob -jobid المستخدم لتوفير معلومات الوظيفة ، $ dsjob -التقرير المستخدم لعرض تقرير الوظيفة الكامل ، إلخ.
ما هي خصائص DataStage؟
Datastage هي أداة قوية لهندسة البيانات ولها خصائص مختلفة. فيما يلي بعض خصائص Datastage: يمكن نشر Datastage على الخوادم المحلية وعلى الخوادم السحابية وفقًا لمتطلبات المستخدم. يمكن زيادة سرعة ومرونة تكامل البيانات في أي وقت ويمكن استخدامها بكفاءة. يدعم البيانات الضخمة ويمكنه الوصول إلى البيانات الضخمة بعدة طرق ، مثل مكامل JDBC ودعم JSON وأنظمة الملفات الموزعة.