أسئلة وأجوبة مقابلة PySpark الأكثر شيوعًا [للطلاب الجدد وذوي الخبرة]
نشرت: 2021-07-14حضور مقابلة PySpark والتساؤل عن كل الأسئلة والمناقشات التي ستخوضها؟ قبل حضور مقابلة PySpark ، من الأفضل أن يكون لديك فكرة عن أنواع أسئلة مقابلة PySpark التي سيتم طرحها حتى تتمكن من تحضير إجابات لها ذهنيًا.
لمساعدتك ، قمت بإنشاء أفضل دليل أسئلة وأجوبة مقابلة PySpark لفهم العمق والنية الحقيقية لأسئلة مقابلة PySpark. هيا بنا نبدأ.
كما يوحي الاسم ، فإن PySpark عبارة عن تكامل بين Apache Spark ولغة برمجة Python. Apache Spark هو إطار عمل مفتوح المصدر يستخدم على نطاق واسع ويستخدم للحوسبة العنقودية وتم تطويره لتوفير تجربة سهلة الاستخدام وأسرع. Python هي لغة برمجة عالية المستوى للأغراض العامة. يتم استخدامه بشكل أساسي في علوم البيانات والتعلم الآلي وتحليلات البث في الوقت الفعلي ، بصرف النظر عن العديد من الاستخدامات الأخرى.
في الأصل ، تمت كتابة Apache spark بلغة برمجة Scala ، و PySpark هو في الواقع Python API لـ Apache Spark. في هذه المقالة ، سوف نلقي نظرة على أسئلة مقابلة PySpark الأكثر شيوعًا وإجاباتها لمساعدتك على الاستعداد لمقابلتك التالية. إذا كنت مبتدئًا ومهتمًا بمعرفة المزيد عن علم البيانات ، فراجع شهادة تحليل البيانات لدينا من أفضل الجامعات.
قراءة: Dataframe في Apache PySpark
مصدر
أسئلة وأجوبة مقابلة PySpark
1. ما هو PySpark؟
غالبًا ما يكون هذا هو أول سؤال في مقابلة PySpark ستواجهه.
PySpark هي واجهة برمجة تطبيقات Python لـ Spark. يتم استخدامه لتوفير التعاون بين Spark و Python. يركز PySpark على معالجة مجموعات البيانات المهيكلة وشبه المنظمة ويوفر أيضًا وسيلة لقراءة البيانات من مصادر متعددة لها تنسيقات بيانات مختلفة. إلى جانب هذه الميزات ، يمكننا أيضًا التفاعل مع RDDs (مجموعات البيانات الموزعة المرنة) باستخدام PySpark. يتم تنفيذ كل هذه الميزات باستخدام مكتبة py4j.
2. قائمة مزايا وعيوب PySpark؟ (الأسئلة المتداولة حول مقابلة PySpark )
مزايا استخدام PySpark هي:
- باستخدام PySpark ، يمكننا كتابة رمز متوازي بطريقة بسيطة للغاية.
- جميع العقد والشبكات مجردة.
- يعالج PySpark جميع الأخطاء بالإضافة إلى أخطاء المزامنة.
- يحتوي PySpark على العديد من الخوارزميات المدمجة المفيدة.
عيوب استخدام PySpark هي:
- غالبًا ما يجعل PySpark من الصعب التعبير عن المشكلات بطريقة MapReduce.
- عند مقارنتها بلغات البرمجة الأخرى ، فإن PySpark غير فعال.
3. ما هي الخوارزميات المختلفة المدعومة في PySpark؟
الخوارزميات المختلفة التي يدعمها PySpark هي:
- شرارة
- mllib.clustering
- تصنيف مليب
- الانحدار mllib
- توصية مليب
- mllib.linalg
- mllib.fpm
4. ما هو PySpark SparkContext؟
يمكن اعتبار PySpark SparkContext بمثابة النقطة الأولية لإدخال واستخدام أي وظيفة من وظائف Spark. يستخدم SparkContext مكتبة py4j لتشغيل JVM ، ثم إنشاء JavaSparkContext. بشكل افتراضي ، يتوفر SparkContext كـ "sc".
5. ما هي ملفات PySpark SparkFiles؟
أحد أكثر أسئلة مقابلة PySpark شيوعًا. يتم استخدام PySpark SparkFiles لتحميل ملفاتنا على تطبيق Apache Spark. إنها إحدى الوظائف ضمن SparkContext ويمكن استدعاؤها باستخدام sc.addFile لتحميل الملفات على Apache Spark. يمكن أيضًا استخدام SparkFIles للحصول على المسار باستخدام SparkFile.get أو حل المسارات إلى الملفات التي تمت إضافتها من sc.addFile. طرق الفئة الموجودة في دليل SparkFiles هي getrootdirectory () و get (اسم الملف).
قراءة: أفكار مشروع سبارك
6. ما هو PySpark SparkConf؟
يستخدم PySpark SparkConf بشكل أساسي لتعيين التكوينات والمعلمات عندما نريد تشغيل التطبيق على المستوى المحلي أو الكتلة.
نقوم بتشغيل الكود التالي متى أردنا تشغيل SparkConf:
فئة pyspark.
localdefaults = صحيح ،
_jvm = بلا ،
_jconf = لا شيء
)
7. ما هو PySpark StorageLevel؟
يتم استخدام PySpark StorageLevel للتحكم في كيفية تخزين RDD ، واتخاذ قرارات بشأن مكان تخزين RDD (على الذاكرة أو عبر القرص أو كليهما) ، وما إذا كنا بحاجة إلى نسخ أقسام RDD أو إجراء تسلسل لـ RDD. رمز StorageLevel هو كما يلي:
فئة pyspark.StorageLevel (useDisk ، useMemory ، useOfHeap ، إلغاء التسلسل ، النسخ المتماثل = 1)
8. ما هو PySpark SparkJobinfo؟
أحد الأسئلة الأكثر شيوعًا في أي مقابلة مع PySpark. يتم استخدام PySpark SparkJobinfo للحصول على معلومات حول SparkJobs قيد التنفيذ. رمز استخدام SparkJobInfo كما يلي:
فئة SparkJobInfo (المسمىtuple ("SparkJobInfo" ، "حالة jobId stageIds")):
9. ما هو PySpark SparkStageinfo؟
أحد الأسئلة الأكثر شيوعًا في أي دليل أسئلة وأجوبة مقابلة PySpark. يتم استخدام PySpark SparkStageInfo للحصول على معلومات حول SparkStages الموجودة في ذلك الوقت. الكود المستخدم لـ SparkStageInfo هو كما يلي:
فئة SparkStageInfo (المسماةtuple ("SparkStageInfo" ، "stageId currentAttemptId name numTasks unumActiveTasks" "numCompletedTasks numFailedTasks"):
اقرأ أيضًا: راتب Apache Spark Developer في الهند
خاتمة
نأمل أن تكون قد مررت بجميع أسئلة مقابلة PySpark المتداولة . تُستخدم Apache Spark بشكل أساسي للتعامل مع BigData ويزداد الطلب عليها نظرًا لأن الشركات تمضي قدمًا لاستخدام أحدث التقنيات لدفع أعمالها.
إذا كنت مهتمًا بتعلم Python وترغب في جعل يديك متسخًا في العديد من الأدوات والمكتبات ، فراجع برنامج Executive PG في علوم البيانات.
إذا كنت ترغب في تعلم BigData بالتفصيل وعلى مستوى الصناعة ، فإن upGrad توفر لك فرصة للانضمام إلى دبلومة PG في تطوير البرمجيات مع التخصص في البيانات الضخمة . تحقق من الدورة التدريبية الخاصة به من أجل التعلم من أفضل الأكاديميين وقادة الصناعة للارتقاء بمستوى حياتك المهنية في هذا المجال.
ادرس دورات علوم البيانات عبر الإنترنت من أفضل الجامعات في العالم. اربح برامج PG التنفيذية أو برامج الشهادات المتقدمة أو برامج الماجستير لتتبع حياتك المهنية بشكل سريع.