คำถามและคำตอบสัมภาษณ์ PySpark ที่พบบ่อยที่สุด [สำหรับมือใหม่และผู้มีประสบการณ์]

เผยแพร่แล้ว: 2021-07-14

เข้าร่วมการสัมภาษณ์ PySpark และสงสัยว่าคำถามและการอภิปรายทั้งหมดคืออะไร? ก่อนเข้าร่วมการสัมภาษณ์ PySpark ควรมีแนวคิดเกี่ยวกับประเภทของคำถามสัมภาษณ์ PySpark ที่จะถูกถามเพื่อให้คุณสามารถเตรียมคำตอบสำหรับคำถามเหล่านั้นได้

เพื่อช่วยคุณ ฉันได้สร้างคำถามสัมภาษณ์ PySpark ยอดนิยมและคู่มือคำตอบเพื่อทำความเข้าใจเชิงลึกและเจตนาที่แท้จริงของคำถามสัมภาษณ์ PySpark มาเริ่มกันเลย.

ตามชื่อที่แนะนำ PySpark คือการรวม Apache Spark และภาษาการเขียนโปรแกรม Python Apache Spark เป็นเฟรมเวิร์กโอเพ่นซอร์สที่ใช้กันอย่างแพร่หลายซึ่งใช้สำหรับการประมวลผลคลัสเตอร์และได้รับการพัฒนาเพื่อมอบประสบการณ์ที่ใช้งานง่ายและรวดเร็วยิ่งขึ้น Python เป็นภาษาการเขียนโปรแกรมเอนกประสงค์ระดับสูง ส่วนใหญ่จะใช้สำหรับ Data Science, Machine Learning และ Real-Time Streaming Analytics นอกเหนือจากการใช้งานอื่น ๆ อีกมากมาย

เดิมที Apache spark เขียนด้วยภาษาโปรแกรม Scala และ PySpark เป็น Python API สำหรับ Apache Spark ในบทความนี้ เราจะสรุปคำถามสัมภาษณ์ PySpark ที่พบบ่อยที่สุด และคำตอบเพื่อช่วยให้คุณเตรียมพร้อมสำหรับการสัมภาษณ์ครั้งต่อไป หากคุณเป็นมือใหม่และสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับวิทยาศาสตร์ข้อมูล ลองดูการรับรองการวิเคราะห์ข้อมูลของเราจากมหาวิทยาลัยชั้นนำ

อ่าน: Dataframe ใน Apache PySpark

pyspark-สัมภาษณ์-คำถาม

แหล่งที่มา

คำถามและคำตอบสัมภาษณ์ PySpark

1. PySpark คืออะไร?

นี่เป็นคำถามสัมภาษณ์ PySpark แรกที่คุณจะต้องเผชิญเกือบทุกครั้ง

PySpark เป็น Python API สำหรับ Spark มันถูกใช้เพื่อจัดเตรียมการทำงานร่วมกันระหว่าง Spark และ Python PySpark มุ่งเน้นไปที่การประมวลผลชุดข้อมูลที่มีโครงสร้างและกึ่งโครงสร้าง และยังอำนวยความสะดวกในการอ่านข้อมูลจากแหล่งต่างๆ ที่มีรูปแบบข้อมูลต่างกัน นอกจากคุณสมบัติเหล่านี้แล้ว เรายังสามารถเชื่อมต่อกับ RDD (ชุดข้อมูลที่กระจายอย่างยืดหยุ่น) โดยใช้ PySpark คุณลักษณะทั้งหมดเหล่านี้ใช้งานโดยใช้ไลบรารี py4j

2. ระบุข้อดีและข้อเสียของ PySpark? (คำถาม สัมภาษณ์ PySpark ที่ ถามบ่อย )

ข้อดีของการใช้ PySpark คือ:

เมื่อใช้ PySpark เราสามารถเขียนโค้ดแบบขนานในวิธีที่ง่ายมาก
โหนดและเครือข่ายทั้งหมดเป็นนามธรรม
PySpark จัดการข้อผิดพลาดทั้งหมดรวมถึงข้อผิดพลาดในการซิงโครไนซ์
PySpark มีอัลกอริธึมในตัวที่มีประโยชน์มากมาย

ข้อเสียของการใช้ PySpark คือ:

PySpark มักจะทำให้การแสดงปัญหาในรูปแบบ MapReduce เป็นเรื่องยาก
เมื่อเทียบกับภาษาโปรแกรมอื่นๆ PySpark นั้นไม่ได้มีประสิทธิภาพ

3. อัลกอริธึมใดบ้างที่รองรับใน PySpark?

อัลกอริทึมต่างๆ ที่รองรับโดย PySpark คือ:

spark.mllib
mllib.clustering
mllib.classification
mllib.regression
mllib.recommendation
mllib.linalg
mllib.fpm

4. PySpark SparkContext คืออะไร?

PySpark SparkContext สามารถเห็นได้ว่าเป็นจุดเริ่มต้นสำหรับการเข้าและใช้งานฟังก์ชัน Spark SparkContext ใช้ไลบรารี py4j เพื่อเปิดใช้ JVM จากนั้นจึงสร้าง JavaSparkContext ตามค่าเริ่มต้น SparkContext จะพร้อมใช้งานเป็น 'sc'

5. PySpark SparkFiles คืออะไร?

หนึ่งในคำถามสัมภาษณ์ PySpark ที่พบบ่อยที่สุด PySpark SparkFiles ใช้เพื่อโหลดไฟล์ของเราบนแอปพลิเคชัน Apache Spark เป็นหนึ่งในฟังก์ชันภายใต้ SparkContext และสามารถเรียกได้โดยใช้ sc.addFile เพื่อโหลดไฟล์บน Apache Spark SparkFIles ยังสามารถใช้เพื่อรับพาธโดยใช้ SparkFile.get หรือแก้ไขพาธไปยังไฟล์ที่เพิ่มจาก sc.addFile เมธอดของคลาสที่มีอยู่ในไดเร็กทอรี SparkFiles คือ getrootdirectory() และ get(filename)

อ่าน: แนวคิดโครงการจุดประกาย

6. PySpark SparkConf คืออะไร?

PySpark SparkConf ส่วนใหญ่ใช้ในการตั้งค่าคอนฟิกูเรชันและพารามิเตอร์ เมื่อเรา ต้องการเรียกใช้แอปพลิเคชันบนโลคัลหรือคลัสเตอร์
เราเรียกใช้รหัสต่อไปนี้เมื่อใดก็ตามที่เราต้องการเรียกใช้ SparkConf:

คลาส pyspark.Sparkconf(

localdefaults = จริง

_jvm = ไม่มี

_jconf = ไม่มี

)

7. PySpark StorageLevel คืออะไร?

PySpark StorageLevel ใช้เพื่อควบคุมวิธีการจัดเก็บ RDD ตัดสินใจว่าจะจัดเก็บ RDD ไว้ที่ใด (ในหน่วยความจำหรือบนดิสก์หรือทั้งสองอย่าง) และไม่ว่าเราจะจำเป็นต้องจำลองพาร์ติชัน RDD หรือเพื่อทำให้ RDD เป็นอนุกรมหรือไม่ รหัสสำหรับ StorageLevel มีดังนี้:

คลาส pyspark.StorageLevel ( useDisk, useMemory, useOfHeap, deserialized, replication = 1)

8. PySpark SparkJobinfo คืออะไร?

หนึ่งในคำถามที่พบบ่อยที่สุดในการสัมภาษณ์ PySpark PySpark SparkJobinfo ใช้เพื่อรับข้อมูลเกี่ยวกับ SparkJobs ที่กำลังดำเนินการ รหัสสำหรับการใช้ SparkJobInfo มีดังนี้:

คลาส SparkJobInfo (namedtuple (“SparkJobInfo”, “สถานะ jobId stageIds”)):

คำถามสัมภาษณ์ pyspark

9. PySpark SparkStageinfo คืออะไร?

หนึ่งในคำถามที่พบบ่อยที่สุดในคู่มือคำถามสัมภาษณ์และคำตอบของ PySpark PySpark SparkStageInfo ใช้เพื่อรับข้อมูลเกี่ยวกับ SparkStages ที่มีอยู่ในขณะนั้น รหัสที่ใช้สำหรับ SparkStageInfo มีดังนี้:

คลาส SparkStageInfo (namedtuple (“SparkStageInfo”, “stageId currentAttemptId ชื่อ numTasks unumActiveTasks” “numCompletedTasks numFailedTasks”)):

อ่านเพิ่มเติม: เงินเดือนนักพัฒนา Apache Spark ในอินเดีย

บทสรุป

เราหวังว่าคุณจะ ตอบคำถามสัมภาษณ์ PySpark ที่พบบ่อย ทั้งหมด Apache Spark ส่วนใหญ่ใช้เพื่อจัดการ BigData และมีความต้องการสูงมาก เนื่องจากบริษัทต่างๆ เดินหน้าที่จะใช้เทคโนโลยีล่าสุดเพื่อขับเคลื่อนธุรกิจของตน

หากคุณสนใจที่จะเรียนรู้ python และต้องการทำให้เครื่องมือและไลบรารีต่างๆ สกปรก ให้ตรวจสอบ Executive PG Program ใน Data Science

หากคุณต้องการเรียนรู้ BigData อย่างละเอียดและในระดับอุตสาหกรรม upGrad เปิดโอกาสให้คุณเข้าร่วม PG Diploma ด้านการพัฒนาซอฟต์แวร์ที่มีความเชี่ยวชาญใน Big Data ตรวจสอบหลักสูตรของเขาเพื่อเรียนรู้จากนักวิชาการที่ดีที่สุดและผู้นำในอุตสาหกรรมเพื่อยกระดับอาชีพของคุณในสาขานี้

เรียน หลักสูตรวิทยาศาสตร์ข้อมูล ออนไลน์จากมหาวิทยาลัยชั้นนำของโลก รับโปรแกรม PG สำหรับผู้บริหาร โปรแกรมประกาศนียบัตรขั้นสูง หรือโปรแกรมปริญญาโท เพื่อติดตามอาชีพของคุณอย่างรวดเร็ว

ปรมาจารย์ด้านเทคโนโลยีแห่งอนาคต

สมัครหลักสูตร Advanced Certificate in Data Science