20 самых популярных вопросов и ответов на собеседованиях по моделированию данных [для начинающих и опытных]

Опубликовано: 2021-06-10

Наука о данных — одна из самых прибыльных областей карьеры на современном рынке труда. И по мере роста конкуренции собеседования при приеме на работу также становятся все более инновационными с каждым днем. Работодатели хотят проверить концептуальные знания кандидатов и практическое понимание соответствующих предметов и технологических инструментов. В этом блоге мы обсудим некоторые актуальные вопросы интервью по моделированию данных, которые помогут вам произвести сильное первое впечатление!

Оглавление

Лучшие вопросы и ответы на интервью по моделированию данных

Вот 20 вопросов интервью по моделированию данных вместе с примерами ответов, которые проведут вас через начальный, средний и продвинутый уровни темы.

1. Что такое моделирование данных? Перечислите типы моделей данных.

Моделирование данных включает в себя создание представления (или модели) доступных данных и их сохранение в базе данных.

Модель данных включает объекты (такие как клиенты, продукты, производители и продавцы), которые порождают объекты и атрибуты, которые пользователи хотят отслеживать. Например, имя клиента является атрибутом сущности клиента. Эти детали далее принимают форму таблицы в базе данных.

Существует три основных типа моделей данных, а именно:

  • Концептуальная: архитекторы данных и заинтересованные стороны бизнеса создают эту модель для организации, охвата и определения бизнес-концепций. Он диктует, что должна содержать система.
  • Логическая: эта модель, составленная архитекторами данных и бизнес-аналитиками, отображает технические правила и структуры данных, тем самым определяя реализацию системы независимо от системы управления базами данных или СУБД.
  • Физические: Архитекторы и разработчики баз данных создают эту модель, чтобы описать, как система должна работать с конкретной СУБД.

2. Что такое таблица? Объясните факты и таблицу фактов.

Таблица содержит данные в строках (горизонтальное выравнивание) и столбцах (вертикальное выравнивание). Строки также известны как записи или кортежи, тогда как столбцы могут называться полями.

Факт — это количественные данные, такие как «чистый объем продаж» или «сумма к оплате». В таблице фактов хранятся числовые данные, а также некоторые атрибуты из таблиц измерений.

3. Что вы подразумеваете под (i) размерностью (ii) степенью детализации (iv) разреженностью данных (v) хешированием (v) системой управления базами данных?

(i) Размеры представляют качественные данные, такие как класс и продукт. Следовательно, размерная таблица, содержащая данные о продукте, будет иметь такие атрибуты, как категория продукта, название продукта и т. д.

(ii) Степень детализации относится к уровню информации, хранящейся в таблице. Он может быть высоким или низким, с таблицами, содержащими данные уровня транзакций и таблицы фактов, соответственно.

(iii) Разреженность данных означает количество пустых ячеек в базе данных. Другими словами, он указывает, сколько данных у нас есть для конкретной сущности или измерения в модели данных. Недостаток информации приводит к большим базам данных, поскольку для сохранения агрегатов требуется больше места.

(iv) Техника хеширования помогает искать значения индекса для извлечения нужных данных. Он используется для вычисления прямого расположения записей данных с помощью индексных структур.

(v) Система управления базами данных (СУБД) — это программное обеспечение, состоящее из группы программ для управления базой данных. Его основная цель — хранить и извлекать пользовательские данные.

4. Дайте определение нормализации. Какова его цель?

Метод нормализации делит большие таблицы на меньшие, связывая их с помощью различных отношений. Он организует таблицы таким образом, чтобы свести к минимуму зависимость и избыточность данных.

Может быть пять типов нормализации, а именно:

  • Первая нормальная форма
  • Вторая нормальная форма
  • Третья нормальная форма
  • Четвертая нормальная форма Бойса-Кодда
  • Пятая нормальная форма

5. В чем польза денормализации при моделировании данных?

Денормализация используется для построения хранилища данных, особенно в ситуациях с большим количеством таблиц. Эта стратегия используется для ранее нормализованной базы данных.

6. Объясните разницу между первичным ключом, составным первичным ключом, внешним ключом и суррогатным ключом.

Первичный ключ является основой каждой таблицы данных. Он обозначает столбец или группу столбцов и позволяет идентифицировать строки таблицы. Значение первичного ключа не может быть нулевым. Когда в качестве части первичного ключа применяется более одного столбца, он называется составным первичным ключом.

С другой стороны, внешний ключ — это группа атрибутов, позволяющая связать родительские и дочерние таблицы. На значение внешнего ключа в дочерней таблице ссылаются как на значение первичного ключа в родительской таблице.

Суррогатный ключ используется для идентификации каждой записи в тех ситуациях, когда у пользователей нет естественного первичного ключа. Этот искусственный ключ обычно представляется как целое число и не придает никакого значения данным, содержащимся в таблице.

7. Сравните систему OLTP с процессом OLAP.

OLTP — это интерактивная транзакционная система, которая опирается на традиционные базы данных для выполнения бизнес-операций в режиме реального времени. База данных OLTP имеет нормализованные таблицы, а время отклика обычно составляет миллисекунды.

И наоборот, OLAP — это онлайн-процесс, предназначенный для анализа и поиска данных. Он предназначен для анализа больших объемов бизнес-показателей по категориям и атрибутам. В отличие от OLTP, OLAP использует хранилище данных, ненормализованные таблицы и работает со временем отклика от секунд до минут.

8. Перечислите стандартные схемы схем баз данных.

Схема — это схема или иллюстрация взаимосвязей и структур данных. В моделировании данных есть две схемы схемы, а именно схема «звезда» и схема «снежинка».

  • Схема «звезда» состоит из центральной таблицы фактов и нескольких связанных с ней таблиц измерений. Первичный ключ таблиц измерений является внешним ключом в таблице фактов.
  • Схема «снежинка» имеет ту же таблицу фактов, что и схема «звезда», но с более высоким уровнем нормализации. Таблицы измерений нормализованы или имеют несколько слоев, что напоминает снежинку.

9. Объясните дискретные и непрерывные данные.

Дискретные данные конечны и определены, например пол, номера телефонов и т. д. С другой стороны, непрерывные данные изменяются упорядоченным образом; например, возраст, температура и т. д.

10. Что такое алгоритмы кластеризации последовательностей и временных рядов?

Алгоритм кластеризации последовательностей собирает:

  • Последовательности данных, имеющие события, и
  • Связанные или похожие пути.

Алгоритмы временных рядов предсказывают непрерывные значения в таблицах данных. Например, он может прогнозировать показатели продаж и прибыли на основе производительности сотрудников с течением времени.

Теперь, когда вы освежили свои основы, вот еще десять часто задаваемых вопросов по моделированию данных для вашей практики!

11. Опишите процесс хранения данных.

Хранилище данных соединяет необработанные данные из разнородных источников и управляет ими. Этот процесс сбора и анализа данных позволяет бизнес-предприятиям получать ценную информацию из разных мест в одном месте, что составляет основу бизнес-аналитики.

12. Каковы основные различия между киоском данных и хранилищем данных?

Витрина данных позволяет принимать тактические решения для роста бизнеса, сосредоточив внимание на одной области бизнеса и следуя восходящей модели. С другой стороны, хранилище данных облегчает принятие стратегических решений, выделяя несколько областей и источников данных и применяя нисходящий подход.

13. Укажите типы критических отношений, встречающихся в моделях данных.

Критические отношения можно разделить на:

  • Идентификация: соединяет родительскую и дочернюю таблицы толстой линией. Справочный столбец дочерней таблицы является частью первичного ключа.
  • Неидентифицирующие: таблицы соединены пунктирной линией, означающей, что ссылочный столбец дочерней таблицы не является частью первичного ключа.
  • Саморекурсивный: отдельный столбец таблицы связан с первичным ключом в рекурсивной связи.

14. С какими распространенными ошибками вы сталкиваетесь при моделировании данных?

Создание широких моделей данных может оказаться сложным. Шансы на сбой также увеличиваются, когда количество таблиц превышает 200. Для специалиста по моделированию данных также важно иметь адекватные практические знания о бизнес-задаче. В противном случае модели данных рискуют выйти из строя.

Ненужные суррогатные ключи создают еще одну проблему. Их нельзя использовать экономно, а только тогда, когда естественные ключи не могут выполнять роль первичного ключа.

Можно также столкнуться с ситуациями несоответствующей денормализации, когда поддержание избыточности данных может стать серьезной проблемой.

15. Обсудите иерархическую СУБД. Каковы недостатки этой модели данных?

Иерархическая СУБД хранит данные в древовидной структуре. Формат использует отношение родитель-потомок, где у родителя может быть много дочерних элементов, но у дочернего элемента может быть только один родитель.

К недостаткам этой модели можно отнести:

  • Отсутствие гибкости и адаптивности к изменяющимся потребностям бизнеса;
  • Проблемы межведомственных, межведомственных и вертикальных коммуникаций;
  • Проблемы разобщенности данных.

16. Подробно опишите два типа методов моделирования данных.

Entity-Relationship (ER) и Unified Modeling Language (UML) — это два стандартных метода моделирования данных.

ER используется в разработке программного обеспечения для создания моделей данных или диаграмм информационных систем. UML — это язык общего назначения для разработки и моделирования баз данных, который помогает визуализировать структуру системы.

17. Что такое нежелательное измерение?

Мусорное измерение рождается путем объединения маломощных атрибутов (индикаторов, логических значений или значений флагов) в одно измерение. Эти значения удаляются из других таблиц, а затем группируются или «отбрасываются» в таблицу абстрактных измерений, что является методом инициирования «быстро меняющихся измерений» в хранилищах данных.

18. Назовите некоторые популярные программы СУБД.

MySQL, Oracle, Microsoft Access, dBase, SQLite, PostgreSQL, IBM DB2 и Microsoft SQL Server — одни из наиболее часто используемых инструментов СУБД в современной сфере разработки программного обеспечения.

19. Каковы преимущества и недостатки использования моделирования данных?

Плюсы использования интеллектуального анализа данных:

  • Бизнес-данными можно лучше управлять, нормализуя и определяя атрибуты.
  • Интеллектуальный анализ данных позволяет интегрировать данные между системами и снижает избыточность.
  • Это позволяет создать эффективную базу данных.
  • Это обеспечивает межведомственное сотрудничество и командную работу.
  • Это обеспечивает легкий доступ к данным.

Минусы использования моделирования данных:

  • Моделирование данных иногда может сделать систему более сложной.
  • Он имеет ограниченную структурную зависимость.

20. Расскажите об анализе данных и прогнозном моделировании.

Интеллектуальный анализ данных — это междисциплинарный навык. Он включает в себя применение знаний из таких областей, как искусственный интеллект (ИИ), машинное обучение (МО) и технологии баз данных. Здесь практикующие занимаются раскрытием тайн данных и обнаружением ранее неизвестных взаимосвязей.

Прогнозное моделирование относится к тестированию и проверке моделей, которые могут предсказывать конкретные результаты. Этот процесс имеет несколько применений в AI, ML и статистике.

Карьера Insights для начинающих специалистов по моделированию данных

Независимо от того, ищете ли вы новую работу, продвижение по службе или смену карьеры, повышение квалификации в соответствующей дисциплине может значительно повысить ваши шансы на трудоустройство.

Вам следует подумать о том, чтобы проверить программу IIIT-B & upGrad Executive PG в области науки о данных, которая создана для работающих профессионалов и предлагает более 10 тематических исследований и проектов, практические практические семинары, наставничество с отраслевыми экспертами, 1-на-1 с отраслевыми наставниками , более 400 часов обучения и помощи в трудоустройстве в ведущих фирмах.

На этом мы завершаем обсуждение работы по моделированию данных и собеседований. Мы уверены, что упомянутые выше данные моделирования вопросов и ответов на собеседовании помогут вам прояснить свои проблемные области и лучше работать в процессе трудоустройства!

Сколько зарабатывает специалист по моделированию данных в год?

Существует множество факторов, которые действительно влияют на заработную плату любого человека, работающего в области моделирования данных. В среднем заработная плата специалиста по моделированию данных составляет рупий. 12 000 000 в год. Многое будет зависеть от компании, с которой вы работаете. Даже если вы начинаете заниматься моделированием данных, самый низкий пакет стоит рупий. 600 000 в год, в то время как самый высокий пакет можно ожидать до рупий. 20 000 000 в год.

Сложно ли пройти собеседование по моделированию данных?

Моделирование данных — это новая область с огромным спросом на рынке. С другой стороны, специалистов, владеющих моделированием данных, значительно меньше. Интервью может показаться немного сложным, если вы не подготовились должным образом, но вы можете рассчитывать на достойное собеседование при надлежащей подготовке.
Наряду с прояснением основ моделирования данных вы также должны ответить на некоторые из наиболее часто задаваемых вопросов на собеседовании. Это значительно облегчит вам ответы на вопросы, заданные на собеседовании, поскольку вы уже имеете представление о различных вопросах, которые задают, а также о том, как на них отвечать.

Какие навыки мне нужны, чтобы стать специалистом по моделированию данных?

Навыки, необходимые для того, чтобы стать специалистом по моделированию данных, сильно отличаются от навыков, необходимых для системного администрирования или программирования. Обычно такие работы требуют технических навыков, но здесь дело обстоит иначе. Чтобы стать специалистом по моделированию данных, нужно хорошо разбираться в логике. Вот некоторые из ключевых навыков, которые необходимо развивать:
1. Концептуальный дизайн
2. Внутренняя связь
3. Общение с пользователем
4. Абстрактное мышление
Даже если вы не очень хорошо разбираетесь в технической стороне дела, вы можете устроиться на работу специалистом по моделированию данных, если сможете мыслить абстрактно и концептуально.