Обязательно прочитайте 24 вопроса и ответа на интервью с Datastage [Полное руководство 2022]
Опубликовано: 2021-01-08Datastage — это ETL, т. е. инструмент извлечения, преобразования и загрузки, предоставляемый IBM в пакете InfoSphere и наборе платформ информационных решений. Это популярный инструмент ETL, который используется для работы с большими наборами данных и хранилищами для создания и обслуживания хранилищ данных. В этой статье мы рассмотрим наиболее часто задаваемые вопросы интервью DataStage , а также предоставим ответы на эти вопросы. Если вы новичок и хотите узнать больше о науке о данных, ознакомьтесь с нашим курсом по науке о данных от лучших университетов.
Наиболее распространенные вопросы и ответы на интервью DataStage следующие:
Оглавление
DataStage Интервью Вопросы и ответы
1. Что такое IBM DataStage и для чего он используется?
DataStage — это инструмент, предоставляемый IBM и используемый для проектирования, разработки и выполнения приложений для заполнения данных в хранилищах данных путем извлечения данных из баз данных с серверов Windows. Он содержит функцию графической визуализации для интеграции данных, а также может извлекать данные из нескольких источников. Поэтому он считается одним из самых мощных инструментов ETL. DataStage имеет различные версии, которые компании могут использовать в зависимости от своих требований. Версии: Server Edition, MVS Edition и Enterprise Edition.
2. Каковы характеристики DataStage?
Характеристики IBM DataStage следующие:
- Его можно развернуть на локальных серверах, а также в облаке в соответствии с потребностями и требованиями.
- Его легко использовать, и он может эффективно повысить скорость и гибкость интеграции данных.
- Он поддерживает большие данные и может получать доступ к большим данным различными способами, такими как интегратор JDBC, поддержка JSON и распределенные файловые системы.
3. Кратко опишите архитектуру DataStage.
Архитектура IBM DataStage основана на модели клиент-сервер и имеет разные типы архитектуры для разных версий. Компоненты клиент-серверной архитектуры:
- Клиентские компоненты
- Серверы
- Этапы
- Определения таблиц
- Контейнеры
- Проекты
- Работа
4. Как запустить задание с помощью командной строки в DataStage?
Команда: dsjob -run -jobstatus <имя_проекта> <имя_задания>
5. Перечислите несколько функций, которые мы можем выполнить с помощью команды «dsjob».
Различные функции, которые мы можем выполнять с помощью команды $dsjob:
- $dsjob -run: используется для запуска задания DataStage.
- $dsjob -stop: используется для остановки задания, которое в данный момент присутствует в процессе.
- $dsjob -jobid: используется для предоставления информации о вакансии.
- $dsjob -report: используется для отображения полного отчета о задании.
- $dsjob -lprojects: используется для перечисления всех существующих проектов.
- $dsjob -ljobs: используется для перечисления всех заданий, присутствующих в проекте.
- $dsjob -lstages: используется для перечисления всех этапов текущего задания.
- $dsjob -llinks: используется для перечисления всех ссылок
- $dsjobs -lparams: используется для перечисления всех параметров задания.
- $dsjob -projectinfo: используется для получения информации о проекте.
- $dsjob -jobinfo: используется для получения информации о задании.
- $dsjob -stageinfo: используется для получения информации об этом этапе задания.
- $dsjob -linkinfo: используется для получения информации об этой ссылке.
- $dsjob -paraminfo: предоставляет информацию обо всех параметрах
- $dsjob -loginfo: используется для получения информации о журнале.
- $dsjob -log: используется для добавления текстового сообщения в журнал.
- $dsjob -logsum: используется для отображения данных журнала.
- $dsjob -logdetail: используется для отображения всех деталей журнала.
- $dsjob -lognewest: используется для получения идентификатора самого нового журнала.
6. Что такое конструктор потоков в IBM DataStage?
Flow Designer — это веб-интерфейс пользователя DataStage, который используется для создания, редактирования, загрузки и запуска заданий в DataStage.
Источник
7. Каковы основные возможности конструктора потоков?
Основные возможности конструктора потоков:
- Очень полезно выполнять работы с большим количеством этапов.
- Нет необходимости переносить задания для использования конструктора потоков.
- Мы можем использовать предоставленную палитру для добавления и удаления соединителей и операторов на холсте дизайнера с помощью функции перетаскивания.
Узнайте о: Наука о данных и интеллектуальный анализ данных: разница между наукой о данных и интеллектуальным анализом данных
8. Как преобразовать задание сервера в параллельное задание в DataStage?
Задание сервера можно преобразовать в параллельное задание с помощью коллектора Link и коллектора IPC.
9 . Что такое разъем HBase?
Соединитель HBase в DataStage — это инструмент, используемый для соединения баз данных и таблиц, присутствующих в базе данных HBase. В основном используется для решения следующих задач:
- Чтение и запись данных из базы данных HBase и в нее.
- Чтение данных в параллельном режиме.
- Использование HBase в качестве таблицы просмотра
10. Что такое коннектор Hive?
Соединитель Hive — это инструмент, который используется для поддержки режимов разделов при чтении данных. Это можно сделать двумя способами:
- модульный режим разделения
- минимально-максимальный режим разделения
11. Что такое Инфосфера в DataStage?
Информационный сервер Infosphere способен управлять большими объемами требований компаний и обеспечивает качественные и быстрые результаты. Он предоставляет компаниям единую платформу для управления данными, где они могут понимать, очищать, преобразовывать и предоставлять огромные объемы информации.
Источник
12. Перечислите все различные уровни InfoSphere Information Server?
Различные уровни InfoSphere Information Server:
- Уровень клиента
- Уровень услуг
- Уровень двигателя
- Уровень репозитория метаданных
13. Кратко опишите клиентский уровень информационного сервера Infosphere.
Клиентский уровень Infosphere Information Server используется для разработки и полного администрирования компьютеров с помощью клиентских программ и консолей.
14. Кратко опишите уровень служб Infosphere Information Server.
Уровень служб информационного сервера Infosphere используется для предоставления стандартных служб, таких как метаданные и ведение журналов, а также некоторых других служб, специфичных для модулей. Он содержит сервер приложений, различные модули продукта и другие сервисы продукта.
15. Кратко опишите уровень ядра Infosphere Information Server.
Уровень ядра Infosphere Information Server — это набор логических компонентов, используемых для запуска заданий и других задач для модулей продукта.
16. Кратко опишите уровень репозитория метаданных Infosphere Information Server.
Уровень репозитория метаданных информационного сервера Infosphere включает репозиторий метаданных, базу данных анализа и компьютер. Он используется для обмена метаданными, общими данными и информацией о конфигурации.
17. Какие существуют типы параллельной обработки в DataStage?
Существует два различных типа параллельной обработки:
- Разделение данных
- Конвейерная обработка данных
18 . Что такое секционирование данных?
Разделение данных — это тип параллельного подхода к обработке данных. Он включает в себя процесс разбиения записей на разделы для обработки. Это увеличивает эффективность обработки в линейной модели.
Подробнее: Предварительная обработка данных в машинном обучении: 7 простых шагов
19. Что такое конвейеризация данных?
Конвейерная обработка данных — это тип параллельного подхода к обработке данных, при котором мы извлекаем данные из источника, а затем пропускаем их через последовательность функций обработки, чтобы получить требуемый результат.
20. Что такое OSH в DataStage?
OSH — это сокращение от Orchestrate Shell и язык сценариев, используемый в DataStage внутри параллельного механизма.
21. Кто такие игроки?
Игроки в DataStage — рабочие процессы. Они помогают нам выполнять параллельную обработку и назначаются операторам на каждом узле.
22. Что такое библиотека коллекций в DataStage?
Библиотеки коллекций представляют собой набор операторов и используются для сбора секционированных данных.
23. Какие типы коллекторов доступны в библиотеке коллекций DataStage?
Типы сборщиков, доступных в библиотеке коллекций:
- Сортмерг коллектор
- Круговой сборщик
- Заказной коллектор
24. Как исходный файл заполняется в DataStage?
Исходный файл можно заполнить с помощью SQL-запросов, а также с помощью инструмента извлечения генератора строк.
Нижняя линия
Мы надеемся, что наша статья, содержащая все вопросы и ответы на вопросы интервью DataStage , помогла вам подготовиться к интервью DataStage. Вы можете ознакомиться с этими курсами, предлагаемыми upGrad, чтобы расширить свои знания по следующим темам:
- Диплом PG в области разработки программного обеспечения, специализация в области больших данных : этот курс создан upGrad совместно с IIIT-B, чтобы предоставить людям знания, необходимые для разработки программного обеспечения, и охватить знания по управлению большими данными.
- PGC в разработке с полным стеком : этот курс по разработке с полным стеком создан upGrad и отраслевыми профессионалами из Tech Mahindra, чтобы научить людей решать задачи на уровне отрасли и приобретать все навыки, необходимые для работы в отрасли.
Мы в upGrad всегда готовы помочь вам в подготовке. Вы также можете ознакомиться с нашими курсами, которые помогут вам освоить все необходимые в отрасли навыки и приемы, чтобы хорошо подготовиться к собеседованиям и к будущим карьерным амбициям, поскольку мы всегда говорим «Рахо Амбициозный». Эти курсы были созданы отраслевыми экспертами и опытными академиками, чтобы вы могли овладеть любыми технологиями и навыками, которые вы хотите изучить.
Если вы заинтересованы в изучении python и хотите запачкать руки различными инструментами и библиотеками, ознакомьтесь с программой Executive PG in Data Science.
Каковы четыре основных этапа Datastage?
IBM Datastage — это мощный инструмент для проектирования, разработки и выполнения приложений для заполнения данных в хранилищах путем извлечения данных из баз данных. Ниже приведены четыре основных этапа Datastage. Администратор используется для задач администрирования, которые включают настройку пользователей DataStage и критериев очистки, мобилизацию и демобилизацию проектов и т. д. Дизайнер или интерфейс проектирования разрабатывает приложения ИЛИ задания Datastage, которые регулируются директором и выполняются сервером. Как следует из названия, менеджер поддерживает и управляет репозиториями и позволяет пользователям изменять через него хранимые данные. Директор выполняет различные функции, включая проверку заданий, их планирование и выполнение, а также мониторинг параллельных заданий.
Для каких целей используется команда «dsjob»?
Команда dsjob используется для различных функций, включая получение и отображение данных о проектах или заданиях. Вот некоторые из функций, которые можно выполнить с помощью команды dsjob. $dsjob -run используется для запуска задания DataStage, $dsjob -stop используется для остановки задания, которое в данный момент присутствует в процессе, $dsjob -jobid используется для предоставления информации о задании, $dsjob -report используется для отображения полного отчета о задании. , так далее.
Каковы характеристики DataStage?
Datastage — это мощный инструмент архитектуры данных, обладающий различными характеристиками. Вот некоторые из характеристик Datastage: Datastage можно развернуть на локальных серверах и на облачных серверах в зависимости от требований пользователя. Скорость и гибкость интеграции данных можно повысить в любое время и эффективно использовать. Он поддерживает большие данные и может получать доступ к большим данным различными способами, такими как интегратор JDBC, поддержка JSON и распределенные файловые системы.