가장 일반적인 PySpark 인터뷰 질문 및 답변 [신입생 및 경험자용]
게시 됨: 2021-07-14PySpark 인터뷰에 참석하여 진행하게 될 모든 질문과 토론이 무엇인지 궁금하십니까? PySpark 인터뷰에 참석하기 전에 질문에 대한 답변을 정신적으로 준비할 수 있도록 PySpark 인터뷰 질문 유형에 대한 아이디어를 갖는 것이 좋습니다.
여러분을 돕기 위해 PySpark 인터뷰 질문의 깊이와 실제 의도를 이해하기 위해 최고의 PySpark 인터뷰 질문 및 답변 가이드를 만들었습니다. 시작하자.
이름에서 알 수 있듯이 PySpark는 Apache Spark와 Python 프로그래밍 언어의 통합입니다. Apache Spark는 클러스터 컴퓨팅에 사용되는 널리 사용되는 오픈 소스 프레임워크이며 사용하기 쉽고 빠른 환경을 제공하도록 개발되었습니다. Python은 고급 범용 프로그래밍 언어입니다. 다른 많은 용도와는 별도로 주로 데이터 과학, 기계 학습 및 실시간 스트리밍 분석에 사용됩니다.
원래 Apache spark는 Scala 프로그래밍 언어로 작성되었으며 PySpark는 실제로 Apache Spark용 Python API입니다. 이 기사에서는 다음 인터뷰를 준비하는 데 도움이 되는 가장 자주 묻는 PySpark 인터뷰 질문과 답변을 살펴보겠습니다. 초보자이고 데이터 과학에 대해 자세히 알고 싶다면 상위 대학의 데이터 분석 인증을 확인하십시오.
읽기: Apache PySpark의 데이터 프레임
원천
PySpark 인터뷰 질문 및 답변
1. 파이스파크란?
이것은 거의 항상 당신이 직면하게 될 첫 PySpark 인터뷰 질문입니다.
PySpark는 Spark용 Python API입니다. Spark와 Python 간의 협업을 제공하는 데 사용됩니다. PySpark는 정형 및 반정형 데이터 세트 처리에 중점을 두고 있으며 데이터 형식이 서로 다른 여러 소스에서 데이터를 읽을 수 있는 기능도 제공합니다. 이러한 기능과 함께 PySpark를 사용하여 RDD(Resilient Distributed Datasets)와 인터페이스할 수도 있습니다. 이러한 모든 기능은 py4j 라이브러리를 사용하여 구현됩니다.
2. PySpark의 장점과 단점을 나열하십시오. (자주 묻는 PySpark 인터뷰 질문 )
PySpark 사용의 장점은 다음과 같습니다.
- PySpark를 사용하여 매우 간단한 방법으로 병렬화된 코드를 작성할 수 있습니다.
- 모든 노드와 네트워크가 추상화됩니다.
- PySpark는 모든 오류와 동기화 오류를 처리합니다.
- PySpark에는 유용한 내장 알고리즘이 많이 포함되어 있습니다.
PySpark 사용의 단점은 다음과 같습니다.
- PySpark는 종종 MapReduce 방식으로 문제를 표현하기 어렵게 만들 수 있습니다.
- 다른 프로그래밍 언어와 비교할 때 PySpark는 효율적이지 않습니다.
3. PySpark에서 지원하는 다양한 알고리즘은 무엇입니까?
PySpark에서 지원하는 다양한 알고리즘은 다음과 같습니다.
- 스파크.mllib
- mllib.클러스터링
- mllib.classification
- mllib.regression
- mllib.recommendation
- mllib.linalg
- mllib.fpm
4. PySpark SparkContext란 무엇입니까?
PySpark SparkContext는 모든 Spark 기능을 입력하고 사용하기 위한 초기 지점으로 볼 수 있습니다. SparkContext는 py4j 라이브러리를 사용하여 JVM을 시작한 다음 JavaSparkContext를 만듭니다. 기본적으로 SparkContext는 'sc'로 사용할 수 있습니다.
5. PySpark SparkFiles란 무엇입니까?
가장 일반적인 PySpark 인터뷰 질문 중 하나입니다. PySpark SparkFiles는 Apache Spark 애플리케이션에 파일을 로드하는 데 사용됩니다. 이는 SparkContext에 있는 함수 중 하나이며 Apache Spark에 파일을 로드하기 위해 sc.addFile을 사용하여 호출할 수 있습니다. SparkFIles는 또한 SparkFile.get을 사용하여 경로를 가져오거나 sc.addFile에서 추가된 파일의 경로를 확인하는 데 사용할 수 있습니다. SparkFiles 디렉토리에 있는 클래스 메소드는 getrootdirectory() 및 get(filename)입니다.
읽기: Spark 프로젝트 아이디어
6. PySpark SparkConf란 무엇입니까?
PySpark SparkConf는 주로 로컬 또는 클러스터에서 애플리케이션을 실행하려는 경우 구성 및 매개변수를 설정하는 데 사용됩니다.
SparkConf를 실행할 때마다 다음 코드를 실행합니다.
클래스 pyspark.Sparkconf(
localdefaults = 참,
_jvm = 없음,
_jconf = 없음
)
7. PySpark StorageLevel이란 무엇입니까?
PySpark StorageLevel은 RDD가 저장되는 방식을 제어하고, RDD가 저장될 위치(메모리 또는 디스크 또는 둘 다) 및 RDD 파티션을 복제해야 하는지 또는 RDD를 직렬화해야 하는지 여부를 결정하는 데 사용됩니다. StorageLevel의 코드는 다음과 같습니다.
클래스 pyspark.StorageLevel( useDisk, useMemory, useOfHeap, 직렬화 해제, 복제 = 1)
8. PySpark SparkJobinfo란 무엇입니까?
PySpark 인터뷰에서 가장 일반적인 질문 중 하나입니다. PySpark SparkJobinfo는 실행 중인 SparkJobs에 대한 정보를 얻는 데 사용됩니다. SparkJobInfo를 사용하는 코드는 다음과 같습니다.
클래스 SparkJobInfo(namedtuple("SparkJobInfo", "jobId stageIds 상태 ")):
9. PySpark SparkStageinfo란 무엇입니까?
PySpark 인터뷰 질문 및 답변 가이드에서 가장 일반적인 질문 중 하나입니다. PySpark SparkStageInfo는 해당 시점에 존재하는 SparkStage에 대한 정보를 얻는 데 사용됩니다. SparkStageInfo에 사용된 코드는 다음과 같습니다.
클래스 SparkStageInfo(namedtuple("SparkStageInfo", "stageId currentAttemptId 이름 numTasks unumActiveTasks" "numCompletedTasks numFailedTasks" )):
또한 읽기: 인도의 Apache Spark 개발자 급여
결론
자주 묻는 모든 PySpark 인터뷰 질문 을 살펴보았기를 바랍니다 . Apache Spark는 주로 BigData를 처리하는 데 사용되며 기업이 최신 기술을 사용하여 비즈니스를 추진함에 따라 수요가 매우 높습니다.
파이썬을 배우는 데 관심이 있고 다양한 도구와 라이브러리에 손을 대고 싶다면 데이터 과학의 Executive PG Program을 확인하십시오.
산업 수준에서 BigData를 자세히 배우고 싶다면 upGrad 는 소프트웨어 개발 PG 디플로마와 빅 데이터 전문화 과정에 참여할 수 있는 기회를 제공합니다 . 이 분야에서 경력을 업그레이드하기 위해 최고의 학자 및 업계 리더로부터 배우려면 그의 과정을 확인하십시오.
세계 최고의 대학에서 온라인으로 데이터 과학 과정 을 공부 하십시오. 이그 제 큐 티브 PG 프로그램, 고급 인증 프로그램 또는 석사 프로그램을 획득하여 경력을 빠르게 추적하십시오.