Обязательно прочитайте 24 вопроса и ответа на интервью с Datastage [Полное руководство 2022]

Опубликовано: 2021-01-08

Datastage — это ETL, т. е. инструмент извлечения, преобразования и загрузки, предоставляемый IBM в пакете InfoSphere и наборе платформ информационных решений. Это популярный инструмент ETL, который используется для работы с большими наборами данных и хранилищами для создания и обслуживания хранилищ данных. В этой статье мы рассмотрим наиболее часто задаваемые вопросы интервью DataStage , а также предоставим ответы на эти вопросы. Если вы новичок и хотите узнать больше о науке о данных, ознакомьтесь с нашим курсом по науке о данных от лучших университетов.

Наиболее распространенные вопросы и ответы на интервью DataStage следующие:

Оглавление

DataStage Интервью Вопросы и ответы

1. Что такое IBM DataStage и для чего он используется?

DataStage — это инструмент, предоставляемый IBM и используемый для проектирования, разработки и выполнения приложений для заполнения данных в хранилищах данных путем извлечения данных из баз данных с серверов Windows. Он содержит функцию графической визуализации для интеграции данных, а также может извлекать данные из нескольких источников. Поэтому он считается одним из самых мощных инструментов ETL. DataStage имеет различные версии, которые компании могут использовать в зависимости от своих требований. Версии: Server Edition, MVS Edition и Enterprise Edition.

2. Каковы характеристики DataStage?

Характеристики IBM DataStage следующие:

  • Его можно развернуть на локальных серверах, а также в облаке в соответствии с потребностями и требованиями.
  • Его легко использовать, и он может эффективно повысить скорость и гибкость интеграции данных.
  • Он поддерживает большие данные и может получать доступ к большим данным различными способами, такими как интегратор JDBC, поддержка JSON и распределенные файловые системы.

3. Кратко опишите архитектуру DataStage.

Архитектура IBM DataStage основана на модели клиент-сервер и имеет разные типы архитектуры для разных версий. Компоненты клиент-серверной архитектуры:

    1. Клиентские компоненты
    2. Серверы
    3. Этапы
    4. Определения таблиц
    5. Контейнеры
    6. Проекты
    7. Работа

4. Как запустить задание с помощью командной строки в DataStage?

Команда: dsjob -run -jobstatus <имя_проекта> <имя_задания>

5. Перечислите несколько функций, которые мы можем выполнить с помощью команды «dsjob».

Различные функции, которые мы можем выполнять с помощью команды $dsjob:

    1. $dsjob -run: используется для запуска задания DataStage.
    2. $dsjob -stop: используется для остановки задания, которое в данный момент присутствует в процессе.
    3. $dsjob -jobid: используется для предоставления информации о вакансии.
    4. $dsjob -report: используется для отображения полного отчета о задании.
    5. $dsjob -lprojects: используется для перечисления всех существующих проектов.
    6. $dsjob -ljobs: используется для перечисления всех заданий, присутствующих в проекте.
    7. $dsjob -lstages: используется для перечисления всех этапов текущего задания.
    8. $dsjob -llinks: используется для перечисления всех ссылок
    9. $dsjobs -lparams: используется для перечисления всех параметров задания.
    10. $dsjob -projectinfo: используется для получения информации о проекте.
    11. $dsjob -jobinfo: используется для получения информации о задании.
    12. $dsjob -stageinfo: используется для получения информации об этом этапе задания.
    13. $dsjob -linkinfo: используется для получения информации об этой ссылке.
    14. $dsjob -paraminfo: предоставляет информацию обо всех параметрах
    15. $dsjob -loginfo: используется для получения информации о журнале.
    16. $dsjob -log: используется для добавления текстового сообщения в журнал.
    17. $dsjob -logsum: используется для отображения данных журнала.
    18. $dsjob -logdetail: используется для отображения всех деталей журнала.
    19. $dsjob -lognewest: используется для получения идентификатора самого нового журнала.

6. Что такое конструктор потоков в IBM DataStage?

Flow Designer — это веб-интерфейс пользователя DataStage, который используется для создания, редактирования, загрузки и запуска заданий в DataStage.

Источник

7. Каковы основные возможности конструктора потоков?

Основные возможности конструктора потоков:

  1. Очень полезно выполнять работы с большим количеством этапов.
  2. Нет необходимости переносить задания для использования конструктора потоков.
  3. Мы можем использовать предоставленную палитру для добавления и удаления соединителей и операторов на холсте дизайнера с помощью функции перетаскивания.

Узнайте о: Наука о данных и интеллектуальный анализ данных: разница между наукой о данных и интеллектуальным анализом данных

8. Как преобразовать задание сервера в параллельное задание в DataStage?

Задание сервера можно преобразовать в параллельное задание с помощью коллектора Link и коллектора IPC.

9 . Что такое разъем HBase?

Соединитель HBase в DataStage — это инструмент, используемый для соединения баз данных и таблиц, присутствующих в базе данных HBase. В основном используется для решения следующих задач:

  1. Чтение и запись данных из базы данных HBase и в нее.
  2. Чтение данных в параллельном режиме.
  3. Использование HBase в качестве таблицы просмотра

10. Что такое коннектор Hive?

Соединитель Hive — это инструмент, который используется для поддержки режимов разделов при чтении данных. Это можно сделать двумя способами:

  1. модульный режим разделения
  2. минимально-максимальный режим разделения

11. Что такое Инфосфера в DataStage?

Информационный сервер Infosphere способен управлять большими объемами требований компаний и обеспечивает качественные и быстрые результаты. Он предоставляет компаниям единую платформу для управления данными, где они могут понимать, очищать, преобразовывать и предоставлять огромные объемы информации.

Источник

12. Перечислите все различные уровни InfoSphere Information Server?

Различные уровни InfoSphere Information Server:

  1. Уровень клиента
  2. Уровень услуг
  3. Уровень двигателя
  4. Уровень репозитория метаданных

13. Кратко опишите клиентский уровень информационного сервера Infosphere.

Клиентский уровень Infosphere Information Server используется для разработки и полного администрирования компьютеров с помощью клиентских программ и консолей.

14. Кратко опишите уровень служб Infosphere Information Server.

Уровень служб информационного сервера Infosphere используется для предоставления стандартных служб, таких как метаданные и ведение журналов, а также некоторых других служб, специфичных для модулей. Он содержит сервер приложений, различные модули продукта и другие сервисы продукта.

15. Кратко опишите уровень ядра Infosphere Information Server.

Уровень ядра Infosphere Information Server — это набор логических компонентов, используемых для запуска заданий и других задач для модулей продукта.

16. Кратко опишите уровень репозитория метаданных Infosphere Information Server.

Уровень репозитория метаданных информационного сервера Infosphere включает репозиторий метаданных, базу данных анализа и компьютер. Он используется для обмена метаданными, общими данными и информацией о конфигурации.

17. Какие существуют типы параллельной обработки в DataStage?

Существует два различных типа параллельной обработки:

  1. Разделение данных
  2. Конвейерная обработка данных

18 . Что такое секционирование данных?

Разделение данных — это тип параллельного подхода к обработке данных. Он включает в себя процесс разбиения записей на разделы для обработки. Это увеличивает эффективность обработки в линейной модели.

Подробнее: Предварительная обработка данных в машинном обучении: 7 простых шагов

19. Что такое конвейеризация данных?

Конвейерная обработка данных — это тип параллельного подхода к обработке данных, при котором мы извлекаем данные из источника, а затем пропускаем их через последовательность функций обработки, чтобы получить требуемый результат.

20. Что такое OSH в DataStage?

OSH — это сокращение от Orchestrate Shell и язык сценариев, используемый в DataStage внутри параллельного механизма.

21. Кто такие игроки?

Игроки в DataStage — рабочие процессы. Они помогают нам выполнять параллельную обработку и назначаются операторам на каждом узле.

22. Что такое библиотека коллекций в DataStage?

Библиотеки коллекций представляют собой набор операторов и используются для сбора секционированных данных.

23. Какие типы коллекторов доступны в библиотеке коллекций DataStage?

Типы сборщиков, доступных в библиотеке коллекций:

  1. Сортмерг коллектор
  2. Круговой сборщик
  3. Заказной коллектор

24. Как исходный файл заполняется в DataStage?

Исходный файл можно заполнить с помощью SQL-запросов, а также с помощью инструмента извлечения генератора строк.

Нижняя линия

Мы надеемся, что наша статья, содержащая все вопросы и ответы на вопросы интервью DataStage , помогла вам подготовиться к интервью DataStage. Вы можете ознакомиться с этими курсами, предлагаемыми upGrad, чтобы расширить свои знания по следующим темам:

  1. Диплом PG в области разработки программного обеспечения, специализация в области больших данных : этот курс создан upGrad совместно с IIIT-B, чтобы предоставить людям знания, необходимые для разработки программного обеспечения, и охватить знания по управлению большими данными.
  2. PGC в разработке с полным стеком : этот курс по разработке с полным стеком создан upGrad и отраслевыми профессионалами из Tech Mahindra, чтобы научить людей решать задачи на уровне отрасли и приобретать все навыки, необходимые для работы в отрасли.

Мы в upGrad всегда готовы помочь вам в подготовке. Вы также можете ознакомиться с нашими курсами, которые помогут вам освоить все необходимые в отрасли навыки и приемы, чтобы хорошо подготовиться к собеседованиям и к будущим карьерным амбициям, поскольку мы всегда говорим «Рахо Амбициозный». Эти курсы были созданы отраслевыми экспертами и опытными академиками, чтобы вы могли овладеть любыми технологиями и навыками, которые вы хотите изучить.

Если вы заинтересованы в изучении python и хотите запачкать руки различными инструментами и библиотеками, ознакомьтесь с программой Executive PG in Data Science.

Каковы четыре основных этапа Datastage?

IBM Datastage — это мощный инструмент для проектирования, разработки и выполнения приложений для заполнения данных в хранилищах путем извлечения данных из баз данных. Ниже приведены четыре основных этапа Datastage. Администратор используется для задач администрирования, которые включают настройку пользователей DataStage и критериев очистки, мобилизацию и демобилизацию проектов и т. д. Дизайнер или интерфейс проектирования разрабатывает приложения ИЛИ задания Datastage, которые регулируются директором и выполняются сервером. Как следует из названия, менеджер поддерживает и управляет репозиториями и позволяет пользователям изменять через него хранимые данные. Директор выполняет различные функции, включая проверку заданий, их планирование и выполнение, а также мониторинг параллельных заданий.

Для каких целей используется команда «dsjob»?

Команда dsjob используется для различных функций, включая получение и отображение данных о проектах или заданиях. Вот некоторые из функций, которые можно выполнить с помощью команды dsjob. $dsjob -run используется для запуска задания DataStage, $dsjob -stop используется для остановки задания, которое в данный момент присутствует в процессе, $dsjob -jobid используется для предоставления информации о задании, $dsjob -report используется для отображения полного отчета о задании. , так далее.

Каковы характеристики DataStage?

Datastage — это мощный инструмент архитектуры данных, обладающий различными характеристиками. Вот некоторые из характеристик Datastage: Datastage можно развернуть на локальных серверах и на облачных серверах в зависимости от требований пользователя. Скорость и гибкость интеграции данных можно повысить в любое время и эффективно использовать. Он поддерживает большие данные и может получать доступ к большим данным различными способами, такими как интегратор JDBC, поддержка JSON и распределенные файловые системы.