Обязательно прочитайте 26 вопросов и ответов из интервью с аналитиком данных: полное руководство 2022 г.
Опубликовано: 2021-01-07Посещаете собеседование с аналитиком данных и задаетесь вопросом, какие вопросы и обсуждения вам предстоит пройти? Перед посещением интервью по анализу данных лучше иметь представление о типах вопросов для интервью с аналитиком данных , чтобы вы могли мысленно подготовить ответы на них.
В этой статье мы рассмотрим некоторые наиболее важные вопросы и ответы на интервью с аналитиками данных . Наука о данных и аналитика данных сейчас являются процветающими областями в отрасли. Естественно, карьера в этих областях стремительно растет. Лучшая часть построения карьеры в области науки о данных заключается в том, что она предлагает широкий выбор вариантов карьеры!
Организации по всему миру используют большие данные для повышения своей общей производительности и эффективности, что неизбежно означает экспоненциальный рост спроса на специалистов по работе с данными, таких как аналитики данных, инженеры данных и специалисты по данным. Однако для того, чтобы получить эти рабочие места, недостаточно иметь только базовую квалификацию. Наличие сертификатов по науке о данных увеличит вес вашего профиля.
Вам нужно пройти самую сложную часть – интервью. Не беспокойтесь, мы создали это руководство по вопросам и ответам на интервью с аналитиком данных , чтобы понять глубину и реальные намерения, стоящие за вопросами.
Оглавление
Вопросы и ответы на собеседовании с ведущими аналитиками данных
1. Каковы основные требования для того, чтобы стать аналитиком данных?
Этот вопрос для интервью с аналитиком данных проверяет ваши знания о необходимом наборе навыков, чтобы стать специалистом по данным.
Чтобы стать аналитиком данных, вам необходимо:
- Хорошо разбираться в языках программирования (XML, Javascript или ETL-фреймворках), базах данных (SQL, SQLite, Db2 и т. д.), а также иметь обширные знания о пакетах отчетности (Business Objects).
- Уметь эффективно анализировать, систематизировать, собирать и распространять большие данные.
- Вы должны иметь существенные технические знания в таких областях, как проектирование баз данных, интеллектуальный анализ данных и методы сегментации.
- Иметь хорошие знания статистических пакетов для анализа массивных наборов данных, таких как SAS, Excel и SPSS, и это лишь некоторые из них.
2. Каковы важные обязанности аналитика данных?
Это наиболее часто задаваемый вопрос на собеседовании с аналитиком данных. Вы должны иметь четкое представление о том, в чем заключается ваша работа.
Требуется аналитик данных для выполнения
следующие задачи:
- Собирайте и интерпретируйте данные из нескольких источников и анализируйте результаты.
- Фильтруйте и «очищайте» данные, собранные из нескольких источников.
- Предлагайте поддержку по всем аспектам анализа данных.
- Анализируйте сложные наборы данных и выявляйте в них скрытые закономерности.
- Держите базы данных в безопасности.
3. Что означает «Очистка данных»? Каковы наилучшие способы практиковать это?
Если вы претендуете на должность аналитика данных, это один из наиболее часто задаваемых вопросов на собеседовании.
Очистка данных в первую очередь относится к процессу обнаружения и удаления ошибок и несоответствий из данных для улучшения качества данных.
Лучшие способы очистки данных:
- Разделение данных в соответствии с их соответствующими атрибутами.
- Разбивка больших фрагментов данных на небольшие наборы данных с последующей их очисткой.
- Анализ статистики каждого столбца данных.
- Создание набора служебных функций или сценариев для решения общих задач очистки.
- Отслеживание всех операций по очистке данных для облегчения добавления или удаления из наборов данных, если это необходимо.
4. Назовите лучшие инструменты, используемые для анализа данных.
Вопрос о наиболее часто используемом инструменте — это то, что вы в основном найдете в любых вопросах интервью по анализу данных.
Наиболее полезными инструментами для анализа данных являются:
- Таблица
- Сводные таблицы Google
- Операторы поиска Google
- НОЖ
- РапидМайнер
- Решатель
- OpenRefine
- узелXL
- ио
Оформить заказ: зарплата аналитика данных в Индии
5. В чем разница между профилированием данных и интеллектуальным анализом данных?
Профилирование данных фокусируется на анализе отдельных атрибутов данных, тем самым предоставляя ценную информацию об атрибутах данных, таких как тип данных, частота, длина, а также их дискретные значения и диапазоны значений. Напротив, интеллектуальный анализ данных направлен на выявление необычных записей, анализ кластеров данных и обнаружение последовательностей, и это лишь некоторые из них.
6. Что такое метод вменения KNN?
Метод вменения KNN стремится вменить значения отсутствующих атрибутов, используя те значения атрибутов, которые находятся ближе всего к значениям отсутствующих атрибутов. Сходство между двумя значениями атрибутов определяется с помощью функции расстояния.
7. Что должен делать аналитик данных с отсутствующими или подозрительными данными?
В таком случае аналитик данных должен:
- Используйте стратегии анализа данных, такие как метод удаления, методы одиночного вменения и методы на основе моделей, чтобы обнаружить недостающие данные.
- Подготовьте отчет о проверке, содержащий всю информацию о подозрительных или отсутствующих данных.
- Тщательно изучите подозрительные данные, чтобы оценить их достоверность.
- Замените все недействительные данные (если они есть) правильным кодом проверки.
8. Назовите различные методы проверки данных, используемые аналитиками данных.
Существует множество способов проверки наборов данных. Некоторые из наиболее часто используемых методов проверки данных аналитиками данных включают в себя:
- Проверка на уровне поля . В этом методе проверка данных выполняется в каждом поле по мере того, как пользователь вводит данные. Это помогает исправлять ошибки по ходу дела.
- Проверка на уровне формы . В этом методе данные проверяются после того, как пользователь заполнит форму и отправит ее. Он проверяет сразу всю форму ввода данных, проверяет все поля в ней и выделяет ошибки (если они есть), чтобы пользователь мог их исправить.
- Проверка сохранения данных . Этот метод проверки данных используется в процессе сохранения фактического файла или записи базы данных. Обычно это делается, когда необходимо проверить несколько форм ввода данных.
- Проверка критериев поиска — этот метод проверки используется, чтобы предложить пользователю точные и связанные совпадения для искомых им ключевых слов или фраз. Основная цель этого метода проверки — убедиться, что поисковые запросы пользователя могут возвращать наиболее релевантные результаты.
9. Определите выброс
Руководство по вопросам и ответам на интервью с аналитиком данных не будет полным без этого вопроса. Выброс — это термин, обычно используемый аналитиками данных, когда речь идет о значении, которое кажется далеким от заданного шаблона в выборке и отличается от него. Выбросы бывают двух видов: одномерные и многомерные.
Два метода, используемые для обнаружения выбросов:
- Метод коробчатой диаграммы. Согласно этому методу, если значение выше или меньше 1,5*IQR (межквартильный размах), так что оно находится выше верхнего квартиля (Q3) или ниже нижнего квартиля (Q1), значение является выбросом. .
- Метод стандартного отклонения . Этот метод утверждает, что если значение выше или ниже среднего ± (3 * стандартное отклонение), оно является выбросом. Исследовательский анализ данных и его важность для вашего бизнеса
10. Что такое «кластеризация»? Назовите свойства алгоритмов кластеризации.
Кластеризация — это метод, при котором данные классифицируются по кластерам и группам. Алгоритм кластеризации обладает следующими свойствами:
- Иерархический или плоский
- Жесткий и мягкий
- Итеративный
- Дизъюнктивный
11. Что такое алгоритм K-mean?
K-mean — это метод разбиения, при котором объекты распределяются по K группам. В этом алгоритме кластеры имеют сферическую форму, точки данных выровнены вокруг этого кластера, а дисперсия кластеров одинакова.
12. Определите «Совместная фильтрация».
Совместная фильтрация — это алгоритм, который создает систему рекомендаций на основе поведенческих данных пользователя. Например, сайты интернет-магазинов обычно составляют список товаров в разделе «рекомендуется для вас» на основе вашей истории просмотров и предыдущих покупок. Важнейшими компонентами этого алгоритма являются пользователи, объекты и их интересы.

13. Назовите статистические методы, которые очень полезны для аналитиков данных?
Статистические методы, которые в основном используются аналитиками данных:
- Байесовский метод
- Марковский процесс
- Симплексный алгоритм
- Вменение
- Пространственные и кластерные процессы
- Ранговая статистика, процентиль, обнаружение выбросов
- Математическая оптимизация
14. Что такое N-грамм?
N-грамма — это связанная последовательность из n элементов в заданном тексте или речи. Точнее, N-грамма — это вероятностная языковая модель, используемая для предсказания следующего элемента в определенной последовательности, как в (n-1).
15. Что такое коллизия хеш-таблиц? Как это можно предотвратить?
Это один из важных вопросов на собеседовании с аналитиком данных. Когда два отдельных ключа хешируют общее значение, возникает коллизия хеш-таблиц. Это означает, что два разных данных не могут храниться в одном и том же слоте.
Столкновений хешей можно избежать, если:
- Отдельная цепочка . В этом методе структура данных используется для хранения хеширования нескольких элементов в общем слоте.
- Открытая адресация — этот метод ищет пустые слоты и сохраняет элемент в первом доступном пустом слоте.
16. Дайте определение «Анализ временных рядов».
Анализ рядов обычно может выполняться в двух областях — во временной области и в частотной области.
Анализ временных рядов — это метод, при котором выходной прогноз процесса делается путем анализа данных, собранных в прошлом, с использованием таких методов, как экспоненциальное сглаживание, метод логарифмической линейной регрессии и т. д.
17. Как решать проблемы с несколькими источниками?
Для решения проблем с несколькими источниками вам необходимо:
- Определите похожие записи данных и объедините их в одну запись, которая будет содержать все полезные атрибуты за вычетом избыточности.
- Упростите интеграцию схемы за счет реструктуризации схемы.
18. Упомяните этапы проекта анализа данных.
Основные этапы проекта анализа данных включают в себя:
- Главным требованием проекта анализа данных является глубокое понимание бизнес-требований.
- Второй шаг — определить наиболее релевантные источники данных, которые лучше всего соответствуют бизнес-требованиям, и получить данные из надежных и проверенных источников.
- Третий шаг включает в себя изучение наборов данных, очистку данных и их организацию для лучшего понимания имеющихся данных.
- На четвертом этапе аналитики данных должны проверить данные.
- Пятый шаг включает в себя внедрение и отслеживание наборов данных.
- Последним шагом является создание списка наиболее вероятных результатов и повторение до тех пор, пока не будут достигнуты желаемые результаты.
19. С какими проблемами может столкнуться аналитик данных при выполнении анализа данных?
Критический вопрос для интервью с аналитиком данных, о котором вам нужно знать. Аналитик данных может столкнуться со следующими проблемами при выполнении анализа данных:
- Наличие повторяющихся записей и орфографических ошибок. Эти ошибки могут ухудшить качество данных.
- Данные низкого качества, полученные из ненадежных источников. В таком случае аналитику данных придется потратить значительное количество времени на очистку данных.
- Представление данных, извлеченных из нескольких источников, может различаться. После объединения собранных данных после их очистки и организации различия в представлении данных могут вызвать задержку в процессе анализа.
- Неполные данные — еще одна серьезная проблема в процессе анализа данных. Это неизбежно приведет к ошибочным или ошибочным результатам.
20. Каковы характеристики хорошей модели данных?
Чтобы модель данных считалась хорошей и разработанной, она должна отражать следующие характеристики:
- Он должен иметь предсказуемую производительность, чтобы результаты можно было оценить точно или, по крайней мере, почти точно.
- Он должен быть адаптивным и реагировать на изменения, чтобы время от времени удовлетворять растущие потребности бизнеса.
- Он должен иметь возможность масштабирования пропорционально изменениям данных.
- Это должно быть расходным материалом, чтобы позволить клиентам/покупателям получать ощутимые и прибыльные результаты.
21. Различайте дисперсию и ковариацию.
Дисперсия и ковариация являются статистическими терминами. Дисперсия показывает, насколько далеки два числа (величины) по отношению к среднему значению. Таким образом, вы будете знать только величину отношения между двумя величинами (насколько данные разбросаны по среднему значению). Напротив, ковариация показывает, как две случайные величины будут изменяться вместе. Таким образом, ковариация дает как направление, так и величину того, как две величины изменяются по отношению друг к другу.
22. Объясните «нормальное распределение».
Один из популярных вопросов на собеседовании с аналитиком данных. Нормальное распределение, более известное как кривая Белла или кривая Гаусса, относится к функции вероятности, которая описывает и измеряет, как распределяются значения переменной, то есть как они различаются по своим средним значениям и стандартным отклонениям. На кривой распределение симметрично. В то время как большая часть наблюдений концентрируется вокруг центрального пика, вероятности значений отклоняются от среднего значения, уменьшаясь одинаково в обоих направлениях.
23. Расскажите об одномерном, двумерном и многомерном анализе.
Одномерный анализ относится к методу описательной статистики, который применяется к наборам данных, содержащих одну переменную. Одномерный анализ рассматривает диапазон значений, а также центральную тенденцию значений.
Двумерный анализ одновременно анализирует две переменные, чтобы исследовать возможности эмпирической связи между ними. Он пытается определить, существует ли связь между двумя переменными и сила связи, или есть ли какие-либо различия между переменными и какова важность этих различий.
Многомерный анализ является расширением двумерного анализа. Основываясь на принципах многомерной статистики, многомерный анализ наблюдает и анализирует несколько переменных (две или более независимых переменных) одновременно, чтобы предсказать значение зависимой переменной для отдельных субъектов.
24. Объясните разницу между R-квадратом и скорректированным R-квадратом.
Метод R-квадрата представляет собой статистическую меру пропорции вариаций зависимых переменных, объясняемую независимыми переменными. Скорректированный R-квадрат, по сути, представляет собой модифицированную версию R-квадрата, скорректированную с учетом количества предикторов в модели. Он обеспечивает процентную вариацию, объясняемую конкретными независимыми переменными, которые оказывают непосредственное влияние на зависимые переменные.
25. Каковы преимущества контроля версий?
Основные преимущества контроля версий:
- Это позволяет вам сравнивать файлы, выявлять различия и беспрепятственно объединять изменения.
- Это помогает отслеживать сборки приложений, определяя, какая версия относится к какой категории — разработка, тестирование, контроль качества и производство.
- Он поддерживает полную историю файлов проекта, которая пригодится, если когда-либо произойдет сбой центрального сервера.
- Он отлично подходит для безопасного хранения и обслуживания нескольких версий и вариантов файлов кода.
- Это позволяет вам видеть изменения, внесенные в содержимое различных файлов.
26. Как аналитик данных может выделить ячейки, содержащие отрицательные значения, на листе Excel?
Последний вопрос в нашем руководстве по вопросам и ответам на интервью с аналитиком данных. Аналитик данных может использовать условное форматирование, чтобы выделить ячейки с отрицательными значениями на листе Excel. Вот шаги для условного форматирования:
- Сначала выберите ячейки с отрицательными значениями.
- Теперь перейдите на вкладку «Главная» и выберите параметр «Условное форматирование».
- Затем перейдите к правилам выделения ячеек и выберите параметр «Меньше».
- На последнем шаге вы должны перейти в диалоговое окно параметра «Меньше чем» и ввести «0» в качестве значения.
Заключение
На этом мы подошли к концу нашего списка вопросов и ответов на интервью с аналитиками данных . Хотя эти вопросы для собеседования с аналитиком данных выбраны из огромного количества возможных вопросов, именно с ними вы, скорее всего, столкнетесь, если станете начинающим аналитиком данных. Эти вопросы закладывают основу для любого интервью с аналитиком данных, и знание ответов на них обязательно поможет вам пройти долгий путь!
Если вам интересно изучить углубленную аналитику данных, науку о данных, чтобы быть в курсе быстро развивающихся технологических достижений, ознакомьтесь с программой Executive PG upGrad & IIIT-B в области науки о данных.
Каковы тенденции развития талантов в индустрии аналитики данных?
Поскольку наука о данных постепенно растет, в некоторых областях также наблюдается значительный рост. Вот эти области: В связи со значительным ростом индустрии науки о данных и анализа данных появляется все больше и больше вакансий инженеров по данным, что, в свою очередь, увеличивает спрос на большее количество ИТ-специалистов. С развитием технологий роль специалистов по обработке и анализу данных постепенно возрастает. Задачи аналитики автоматизируются, что оттесняет специалистов по данным. Автоматизация может взять на себя задачи подготовки данных, на которые в настоящее время специалисты по данным тратят 70-80% своего времени.
Расскажите о кластерном анализе и его особенностях.
Процесс, в котором мы определяем объект без маркировки, известен как кластерный анализ. Он использует интеллектуальный анализ данных для группировки различных похожих объектов в один кластер, как и в дискриминантном анализе. Его приложения включают распознавание образов, анализ информации, анализ изображений, машинное обучение, компьютерную графику и многие другие области. Кластерный анализ — это задача, которая проводится с использованием нескольких других алгоритмов, во многом отличающихся друг от друга, и, таким образом, создает кластер. Ниже приведены некоторые характеристики кластерного анализа: Кластерный анализ обладает высокой масштабируемостью. Он может иметь дело с другим набором атрибутов. Он показывает высокую размерность, интерпретируемость. Он полезен во многих областях, включая машинное обучение и сбор информации.
Что такое выбросы и как с ними бороться?
Выбросы относятся к аномалиям или небольшим отклонениям в ваших данных. Это может произойти во время сбора данных. Есть 4 способа, которыми мы можем обнаружить выброс в наборе данных. Эти методы следующие: Boxplot — это метод обнаружения выбросов, при котором мы разделяем данные по их квартилям. Точечная диаграмма отображает данные двух переменных в виде набора точек, отмеченных на декартовой плоскости. Значение одной переменной представляет горизонтальную ось (x-ais), а значение другой переменной представляет вертикальную ось (ось y). При расчете Z-оценки мы ищем точки, которые находятся далеко от центра, и считаем их выбросами.