Наиболее распространенные вопросы и ответы на собеседовании в PySpark [для новичков и опытных]

Опубликовано: 2021-07-14

Посещаете интервью PySpark и задаетесь вопросом, какие вопросы и обсуждения вам предстоит пройти? Прежде чем идти на собеседование в PySpark, лучше иметь представление о типах вопросов, которые будут заданы для собеседования в PySpark, чтобы вы могли мысленно подготовить на них ответы.

Чтобы помочь вам, я создал руководство по основным вопросам и ответам на интервью PySpark, чтобы понять глубину и реальное намерение вопросов интервью PySpark. Давайте начнем.

Как следует из названия, PySpark представляет собой интеграцию Apache Spark и языка программирования Python. Apache Spark — это широко используемая платформа с открытым исходным кодом, которая используется для кластерных вычислений и разработана для обеспечения простой и быстрой работы. Python — это высокоуровневый язык программирования общего назначения. Он в основном используется для науки о данных, машинного обучения и потоковой аналитики в реальном времени, помимо многих других применений.

Изначально Apache spark написан на языке программирования Scala, а PySpark на самом деле является Python API для Apache Spark. В этой статье мы рассмотрим наиболее часто задаваемые вопросы об интервью с PySpark и ответы на них, чтобы помочь вам подготовиться к следующему собеседованию. Если вы новичок и хотите узнать больше о науке о данных, ознакомьтесь с нашей сертификацией по анализу данных от ведущих университетов.

Читать: Dataframe в Apache PySpark

pyspark-интервью-вопросы

Источник

PySpark Интервью Вопросы и ответы

1. Что такое PySpark?

Это почти всегда первый вопрос, с которым вы столкнетесь на собеседовании в PySpark.

PySpark — это API Python для Spark. Он используется для обеспечения совместной работы между Spark и Python. PySpark фокусируется на обработке структурированных и полуструктурированных наборов данных, а также предоставляет возможность считывать данные из нескольких источников с разными форматами данных. Наряду с этими функциями мы также можем взаимодействовать с RDD (устойчивыми распределенными наборами данных) с помощью PySpark. Все эти возможности реализованы с помощью библиотеки py4j.

2. Перечислите преимущества и недостатки PySpark? (Часто задаваемый вопрос на собеседовании в PySpark )

Преимущества использования PySpark:

  • Используя PySpark, мы можем очень просто написать параллельный код.
  • Все узлы и сети абстрагируются.
  • PySpark обрабатывает все ошибки, а также ошибки синхронизации.
  • PySpark содержит множество полезных встроенных алгоритмов.

Недостатки использования PySpark:

  • PySpark часто может затруднить выражение проблем в стиле MapReduce.
  • По сравнению с другими языками программирования PySpark неэффективен.

3. Какие алгоритмы поддерживает PySpark?

Различные алгоритмы, поддерживаемые PySpark:

  1. spark.mllib
  2. mllib.clustering
  3. mllib.классификация
  4. mllib.регрессия
  5. mllib.рекомендация
  6. mllib.linalg
  7. mllib.fpm

4. Что такое PySpark SparkContext?

PySpark SparkContext можно рассматривать как начальную точку для входа и использования любых функций Spark. SparkContext использует библиотеку py4j для запуска JVM, а затем создает JavaSparkContext. По умолчанию SparkContext доступен как «sc».

5. Что такое PySpark SparkFiles?

Один из самых распространенных вопросов на собеседовании в PySpark. PySpark SparkFiles используется для загрузки наших файлов в приложение Apache Spark. Это одна из функций SparkContext, которую можно вызвать с помощью sc.addFile для загрузки файлов в Apache Spark. SparkFIles также можно использовать для получения пути с помощью SparkFile.get или разрешения путей к файлам, которые были добавлены из sc.addFile. Методы класса, присутствующие в каталоге SparkFiles, — это getrootdirectory() и get(filename).

Читайте: Идеи проекта Spark

6. Что такое PySpark SparkConf?

PySpark SparkConf в основном используется для установки конфигураций и параметров, когда мы хотим запустить приложение локально или в кластере.
Мы запускаем следующий код всякий раз, когда хотим запустить SparkConf:

класс pyspark.Sparkconf(

локальные значения по умолчанию = Истина,

_jvm = Нет,

_jconf = Нет

)

7. Что такое PySpark StorageLevel?

PySpark StorageLevel используется для контроля за тем, как хранится RDD, принятия решений о том, где будет храниться RDD (в памяти, на диске или и там, и там), и нужно ли нам реплицировать разделы RDD или сериализовать RDD. Код для StorageLevel выглядит следующим образом:

класс pyspark.StorageLevel (useDisk, useMemory, useOfHeap, десериализованный, репликация = 1)

8. Что такое PySpark SparkJobinfo?

Один из самых распространенных вопросов в любом интервью PySpark. PySpark SparkJobinfo используется для получения информации о выполняемых заданиях SparkJob. Код для использования SparkJobInfo выглядит следующим образом:

class SparkJobInfo(namedtuple("SparkJobInfo", "статус jobId stageId")):

писпарк вопросы интервью

9. Что такое PySpark SparkStageinfo?

Один из самых распространенных вопросов в любом руководстве по вопросам и ответам на интервью PySpark. PySpark SparkStageInfo используется для получения информации о SparkStage, которые присутствуют в данный момент. Код, используемый для SparkStageInfo, выглядит следующим образом:

class SparkStageInfo (namedtuple («SparkStageInfo», «stageId currentAttemptId name numTasks unumActiveTasks» «numCompletedTasks numFailedTasks»)):

Читайте также: Зарплата разработчиков Apache Spark в Индии

Заключение

Мы надеемся, что вы ответили на все часто задаваемые вопросы интервью PySpark . Apache Spark в основном используется для обработки больших данных и пользуется очень большим спросом, поскольку компании стремятся использовать новейшие технологии для управления своим бизнесом.

Если вы заинтересованы в изучении python и хотите запачкать руки различными инструментами и библиотеками, ознакомьтесь с программой Executive PG in Data Science.

Если вы хотите подробно изучить BigData на отраслевом уровне, upGrad предоставляет вам возможность присоединиться к их диплому PG в области разработки программного обеспечения со специализацией в области больших данных . Обязательно ознакомьтесь с его курсом, чтобы учиться у лучших академиков и лидеров отрасли, чтобы повысить свою карьеру в этой области.

Изучайте онлайн- курсы по науке о данных от лучших университетов мира. Участвуйте в программах Executive PG, Advanced Certificate Programs или Master Programs, чтобы ускорить свою карьеру.

Освойте технологии будущего

Подать заявку на участие в программе Advanced Certificate Program в области науки о данных