Наиболее распространенные вопросы и ответы на собеседовании в PySpark [для новичков и опытных]
Опубликовано: 2021-07-14Посещаете интервью PySpark и задаетесь вопросом, какие вопросы и обсуждения вам предстоит пройти? Прежде чем идти на собеседование в PySpark, лучше иметь представление о типах вопросов, которые будут заданы для собеседования в PySpark, чтобы вы могли мысленно подготовить на них ответы.
Чтобы помочь вам, я создал руководство по основным вопросам и ответам на интервью PySpark, чтобы понять глубину и реальное намерение вопросов интервью PySpark. Давайте начнем.
Как следует из названия, PySpark представляет собой интеграцию Apache Spark и языка программирования Python. Apache Spark — это широко используемая платформа с открытым исходным кодом, которая используется для кластерных вычислений и разработана для обеспечения простой и быстрой работы. Python — это высокоуровневый язык программирования общего назначения. Он в основном используется для науки о данных, машинного обучения и потоковой аналитики в реальном времени, помимо многих других применений.
Изначально Apache spark написан на языке программирования Scala, а PySpark на самом деле является Python API для Apache Spark. В этой статье мы рассмотрим наиболее часто задаваемые вопросы об интервью с PySpark и ответы на них, чтобы помочь вам подготовиться к следующему собеседованию. Если вы новичок и хотите узнать больше о науке о данных, ознакомьтесь с нашей сертификацией по анализу данных от ведущих университетов.
Читать: Dataframe в Apache PySpark
Источник
PySpark Интервью Вопросы и ответы
1. Что такое PySpark?
Это почти всегда первый вопрос, с которым вы столкнетесь на собеседовании в PySpark.
PySpark — это API Python для Spark. Он используется для обеспечения совместной работы между Spark и Python. PySpark фокусируется на обработке структурированных и полуструктурированных наборов данных, а также предоставляет возможность считывать данные из нескольких источников с разными форматами данных. Наряду с этими функциями мы также можем взаимодействовать с RDD (устойчивыми распределенными наборами данных) с помощью PySpark. Все эти возможности реализованы с помощью библиотеки py4j.
2. Перечислите преимущества и недостатки PySpark? (Часто задаваемый вопрос на собеседовании в PySpark )
Преимущества использования PySpark:
- Используя PySpark, мы можем очень просто написать параллельный код.
- Все узлы и сети абстрагируются.
- PySpark обрабатывает все ошибки, а также ошибки синхронизации.
- PySpark содержит множество полезных встроенных алгоритмов.
Недостатки использования PySpark:
- PySpark часто может затруднить выражение проблем в стиле MapReduce.
- По сравнению с другими языками программирования PySpark неэффективен.
3. Какие алгоритмы поддерживает PySpark?
Различные алгоритмы, поддерживаемые PySpark:
- spark.mllib
- mllib.clustering
- mllib.классификация
- mllib.регрессия
- mllib.рекомендация
- mllib.linalg
- mllib.fpm
4. Что такое PySpark SparkContext?
PySpark SparkContext можно рассматривать как начальную точку для входа и использования любых функций Spark. SparkContext использует библиотеку py4j для запуска JVM, а затем создает JavaSparkContext. По умолчанию SparkContext доступен как «sc».
5. Что такое PySpark SparkFiles?
Один из самых распространенных вопросов на собеседовании в PySpark. PySpark SparkFiles используется для загрузки наших файлов в приложение Apache Spark. Это одна из функций SparkContext, которую можно вызвать с помощью sc.addFile для загрузки файлов в Apache Spark. SparkFIles также можно использовать для получения пути с помощью SparkFile.get или разрешения путей к файлам, которые были добавлены из sc.addFile. Методы класса, присутствующие в каталоге SparkFiles, — это getrootdirectory() и get(filename).
Читайте: Идеи проекта Spark
6. Что такое PySpark SparkConf?
PySpark SparkConf в основном используется для установки конфигураций и параметров, когда мы хотим запустить приложение локально или в кластере.
Мы запускаем следующий код всякий раз, когда хотим запустить SparkConf:
класс pyspark.Sparkconf(
локальные значения по умолчанию = Истина,
_jvm = Нет,
_jconf = Нет
)
7. Что такое PySpark StorageLevel?
PySpark StorageLevel используется для контроля за тем, как хранится RDD, принятия решений о том, где будет храниться RDD (в памяти, на диске или и там, и там), и нужно ли нам реплицировать разделы RDD или сериализовать RDD. Код для StorageLevel выглядит следующим образом:
класс pyspark.StorageLevel (useDisk, useMemory, useOfHeap, десериализованный, репликация = 1)
8. Что такое PySpark SparkJobinfo?
Один из самых распространенных вопросов в любом интервью PySpark. PySpark SparkJobinfo используется для получения информации о выполняемых заданиях SparkJob. Код для использования SparkJobInfo выглядит следующим образом:
class SparkJobInfo(namedtuple("SparkJobInfo", "статус jobId stageId")):
9. Что такое PySpark SparkStageinfo?
Один из самых распространенных вопросов в любом руководстве по вопросам и ответам на интервью PySpark. PySpark SparkStageInfo используется для получения информации о SparkStage, которые присутствуют в данный момент. Код, используемый для SparkStageInfo, выглядит следующим образом:
class SparkStageInfo (namedtuple («SparkStageInfo», «stageId currentAttemptId name numTasks unumActiveTasks» «numCompletedTasks numFailedTasks»)):
Читайте также: Зарплата разработчиков Apache Spark в Индии
Заключение
Мы надеемся, что вы ответили на все часто задаваемые вопросы интервью PySpark . Apache Spark в основном используется для обработки больших данных и пользуется очень большим спросом, поскольку компании стремятся использовать новейшие технологии для управления своим бизнесом.
Если вы заинтересованы в изучении python и хотите запачкать руки различными инструментами и библиотеками, ознакомьтесь с программой Executive PG in Data Science.
Если вы хотите подробно изучить BigData на отраслевом уровне, upGrad предоставляет вам возможность присоединиться к их диплому PG в области разработки программного обеспечения со специализацией в области больших данных . Обязательно ознакомьтесь с его курсом, чтобы учиться у лучших академиков и лидеров отрасли, чтобы повысить свою карьеру в этой области.
Изучайте онлайн- курсы по науке о данных от лучших университетов мира. Участвуйте в программах Executive PG, Advanced Certificate Programs или Master Programs, чтобы ускорить свою карьеру.