Musisz przeczytać 24 pytania i odpowiedzi dotyczące wywiadu Datastage [Ultimate Guide 2022]

Opublikowany: 2021-01-08

Datastage to narzędzie ETL, tj. wyodrębnianie, przekształcanie i ładowanie, dostarczane przez IBM w pakiecie InfoSphere i pakiecie Information Solutions Platforms. Jest to popularne narzędzie ETL i służy do pracy z dużymi zestawami danych i hurtowniami w celu tworzenia i utrzymywania repozytoriów danych. W tym artykule przyjrzymy się najczęściej zadawanym pytaniom podczas wywiadów DataStage , a także udzielimy na nie odpowiedzi. Jeśli jesteś początkującym i chcesz dowiedzieć się więcej na temat nauki o danych, zapoznaj się z naszym szkoleniem z nauki o danych prowadzonym przez najlepsze uniwersytety.

Najczęstsze pytania i odpowiedzi podczas rozmowy kwalifikacyjnej DataStage to:

Spis treści

Pytania i odpowiedzi na wywiad z DataStage

1. Co to jest IBM DataStage i dlaczego jest używany?

DataStage to narzędzie dostarczane przez IBM i używane do projektowania, rozwijania i wykonywania aplikacji w celu wypełniania danymi hurtowni danych poprzez wyodrębnianie danych z baz danych z serwerów Windows. Zawiera funkcję wizualizacji graficznych do integracji danych, a także może wyodrębniać dane z wielu źródeł. Dlatego jest uważany za jedno z najsilniejszych narzędzi ETL. DataStage ma różne wersje, z których firmy mogą korzystać w zależności od ich wymagań. Wersje to Server Edition, MVS Edition i Enterprise Edition.

2. Jakie są cechy DataStage?

Charakterystyka IBM DataStage jest następująca:

Może być wdrażany na serwerach lokalnych, a także w chmurze, zgodnie z potrzebami i wymaganiami.
Jest łatwy w użyciu i może skutecznie zwiększyć szybkość i elastyczność integracji danych.
Obsługuje duże zbiory danych i może uzyskiwać dostęp do dużych zbiorów danych na wiele sposobów, takich jak integrator JDBC, obsługa JSON i rozproszone systemy plików.

3. Opisz krótko architekturę DataStage.

IBM DataStage opiera się na modelu klient-serwer jako swojej architekturze i ma różne typy architektury dla różnych wersji. Składnikami architektury klient-serwer są:

1. Komponenty klienta
2. Serwery
3. Gradacja
4. Definicje tabel
5. Kontenery
6. Projektowanie
7. Oferty pracy

4. Jak uruchomić zadanie za pomocą wiersza poleceń w DataStage?

Polecenie to: dsjob -run -jobstatus <nazwa projektu> <nazwa zadania>

5. Wymień kilka funkcji, które możemy wykonać za pomocą polecenia 'dsjob'.

Różne funkcje, które możemy wykonać za pomocą polecenia $dsjob to:

1. $dsjob -run: Służy do uruchamiania zadania DataStage
2. $dsjob -stop: Służy do zatrzymania zadania, które jest aktualnie obecne w procesie
3. $dsjob -jobid: Służy do dostarczania informacji o pracy
4. $dsjob -report: Służy do wyświetlania pełnego raportu pracy
5. $dsjob -lprojects: Służy do wyświetlania listy wszystkich obecnych projektów
6. $dsjob -ljobs: Służy do wyświetlania listy wszystkich zadań obecnych w projekcie
7. $dsjob -lstages: Służy do wyświetlania listy wszystkich etapów bieżącej pracy
8. $dsjob -llinks: Służy do wyświetlania listy wszystkich linków
9. $dsjobs -lparams: Służy do wylistowania wszystkich parametrów zadania
10. $dsjob -projectinfo: Służy do pobierania informacji o projekcie
11. $dsjob -jobinfo: Służy do wyszukiwania informacji o zadaniu
12. $dsjob -stageinfo: Służy do wyszukiwania informacji o tym etapie tej pracy
13. $dsjob -linkinfo: służy do uzyskiwania informacji o tym łączu
14. $dsjob -paraminfo: dostarcza informacji o wszystkich parametrach
15. $dsjob -loginfo: Służy do pobierania informacji o dzienniku
16. $dsjob -log: Służy do dodawania wiadomości tekstowej do dziennika
17. $dsjob -logsum: Służy do wyświetlania danych dziennika
18. $dsjob -logdetail: Służy do wyświetlania wszystkich szczegółów dziennika
19. $dsjob -lognewest: Służy do pobierania identyfikatora najnowszego dziennika

6. Co to jest projektant przepływu w IBM DataStage?

Projektant przepływów to internetowy interfejs użytkownika DataStage, który służy do tworzenia, edytowania, ładowania i uruchamiania zadań w DataStage.

Źródło

7. Jakie są główne cechy projektanta przepływu?

Główne cechy projektanta przepływu to:

Bardzo przydatne jest wykonywanie prac o dużej liczbie etapów.
Nie ma potrzeby migrowania zadań, aby korzystać z projektanta przepływu.
Możemy użyć dostarczonej palety, aby dodawać i usuwać łączniki i operatory na kanwie projektanta za pomocą funkcji przeciągania i upuszczania.

Dowiedz się więcej o: Nauka o danych a eksploracja danych: różnica między nauką o danych a eksploracją danych

8. Jak przekonwertować zadanie serwera na zadanie równoległe w DataStage?

Zadanie serwera można przekonwertować na zadanie równoległe za pomocą kolektora łączy i kolektora IPC.

9 . Co to jest złącze HBase?

Łącznik HBase w DataStage to narzędzie służące do łączenia baz danych i tabel znajdujących się w bazie danych HBase. Jest głównie używany do wykonywania następujących zadań:

Odczytuj i zapisuj dane zi do bazy danych HBase.
Odczyt danych w trybie równoległym.
Używanie HBase jako tabeli widoku

10. Co to jest łącznik Hive?

Łącznik Hive to narzędzie służące do obsługi trybów partycji podczas odczytywania danych. Można to zrobić na dwa sposoby:

tryb partycji modułowej
tryb partycji minimum-maksimum

11. Co to jest Infosphere w DataStage?

Serwer informacyjny infosfery jest w stanie zarządzać dużymi wymaganiami firm i dostarczać wysokiej jakości i szybsze wyniki. Zapewnia firmom pojedynczą platformę do zarządzania danymi, na której mogą zrozumieć, oczyścić, przekształcić i dostarczyć ogromne ilości informacji.

Źródło

12. Wymienić wszystkie warstwy produktu InfoSphere Information Server?

Różne warstwy produktu InfoSphere Information Server to:

Poziom klienta
Poziom usług
Poziom silnika
Warstwa repozytorium metadanych

13. Krótko opisz warstwę klienta Infosphere Information Server.

Warstwa kliencka Infosphere Information Server służy do tworzenia i pełnego administrowania komputerami przy użyciu programów klienckich i konsol.

14. Opisz krótko poziom usług Infosphere Information Server.

Warstwa usług Infosphere Information Server służy do świadczenia standardowych usług, takich jak metadane i rejestrowanie, a także niektórych innych usług specyficznych dla modułu. Zawiera serwer aplikacji, różne moduły produktów i inne usługi produktowe.

15. Opisz krótko poziom silnika Infosphere Information Server.

Warstwa silnika Infosphere Information Server to zestaw komponentów logicznych używanych do uruchamiania zadań i innych zadań dla modułów produktu.

16. Opisz krótko warstwę repozytorium metadanych Infosphere Information Server.

Warstwa repozytorium metadanych Infosphere Information Server obejmuje repozytorium metadanych, bazę danych analizy i komputer. Służy do udostępniania metadanych, udostępnionych danych i informacji o konfiguracji.

17. Jakie są rodzaje przetwarzania równoległego w DataStage?

Istnieją dwa różne typy przetwarzania równoległego, którymi są:

Partycjonowanie danych
Potokowanie danych

18 . Co to jest partycjonowanie danych?

Partycjonowanie danych to rodzaj równoległego podejścia do przetwarzania danych. Polega na rozbiciu zapisów na partycje w celu przetworzenia. Zwiększa wydajność obróbki w modelu liniowym.

Przeczytaj więcej: Wstępne przetwarzanie danych w uczeniu maszynowym: 7 łatwych kroków do wykonania

19. Co to jest potokowanie danych?

Data Pipelining to rodzaj równoległego podejścia do przetwarzania danych, w którym wykonujemy ekstrakcję danych ze źródła, a następnie przepuszczamy je przez sekwencję funkcji przetwarzania w celu uzyskania wymaganych danych wyjściowych.

20. Co to jest BHP w DataStage?

OSH to skrót od Orchestrate Shell i jest językiem skryptowym używanym w DataStage wewnętrznie przez silnik równoległy.

21. Kim są gracze?

Gracze w DataStage są procesami jak wół roboczy. Pomagają nam wykonywać przetwarzanie równoległe i są przypisane do operatorów na każdym węźle.

22. Co to jest biblioteka kolekcji w DataStage?

Biblioteki kolekcji są zbiorem operatorów i służą do zbierania danych partycjonowanych.

23. Jakie typy kolektorów są dostępne w bibliotece kolekcji DataStage?

Rodzaje kolekcjonerów dostępne w bibliotece zbiorów to:

Kolekcjoner sortowania
Kolekcjoner roundrobin
Zamówiony kolektor

24. W jaki sposób plik źródłowy jest wypełniany w DataStage?

Plik źródłowy można wypełnić za pomocą zapytań SQL, a także za pomocą narzędzia do wyodrębniania generatora wierszy.

Konkluzja

Mamy nadzieję, że nasz artykuł zawierający wszystkie pytania i odpowiedzi związane z wywiadem DataStage pomógł Ci przygotować się do wywiadu DataStage. Możesz rzucić okiem na kursy oferowane przez upGrad, aby poszerzyć swoją wiedzę na następujące tematy:

PG Diploma in Software Development Specialization w Big Data : Ten kurs jest tworzony przez upGrad we współpracy z IIIT-B, aby zapewnić osobom wiedzę potrzebną do tworzenia oprogramowania i obejmować wiedzę na temat zarządzania Big Data.
PGC w rozwoju pełnego stosu : Ten kurs na temat rozwoju pełnego stosu jest tworzony przez specjalistów upGrad i branżowych z Tech Mahindra, aby osoby były w stanie rozwiązywać wyzwania na poziomie branżowym i zdobywać wszystkie umiejętności wymagane do wejścia i pracy w branżach.

UpGrad zawsze służy pomocą w przygotowaniu . Możesz również zapoznać się z naszymi kursami, które pomogą Ci nauczyć się wszystkich wymaganych w branży umiejętności i technik, aby dobrze przygotować się do rozmów kwalifikacyjnych i przyszłych ambicji zawodowych, jak zawsze mówimy „Raho Ambitious”. Kursy te zostały stworzone przez ekspertów branżowych i doświadczonych naukowców, abyś mógł stać się biegły w każdej technologii i umiejętnościach, których chcesz się nauczyć.

Jeśli jesteś zainteresowany nauką Pythona i chcesz pobrudzić sobie ręce różnymi narzędziami i bibliotekami, zapoznaj się z programem Executive PG w dziedzinie nauki o danych.

Jakie są cztery główne etapy Datastage?

IBM Datastage to potężne narzędzie do projektowania, rozwijania i wykonywania aplikacji do wypełniania danymi hurtowni danych poprzez wyodrębnianie danych z baz danych. Poniżej znajdują się cztery główne etapy Datastage. Administrator jest używany do zadań administracyjnych, które obejmują konfigurowanie użytkowników DataStage i czyszczenie kryteriów, mobilizowanie i demobilizowanie projektów itp. Projektant lub interfejs projektowy tworzy aplikacje Datastage LUB zadania, które są regulowane przez dyrektora i uruchamiane przez serwer. Jak sama nazwa wskazuje, manager utrzymuje i zarządza repozytoriami oraz umożliwia użytkownikom modyfikowanie za ich pośrednictwem przechowywanych danych. Dyrektor wykonuje różne funkcje, w tym walidację zadań, planowanie i wykonywanie ich wraz z monitorowaniem zadań równoległych.

Do jakich celów służy polecenie „dsjob”?

Polecenie dsjob jest używane do różnych funkcji, w tym do pobierania i wyświetlania danych o projektach lub zadaniach. Oto niektóre funkcje, które można wykonać za pomocą polecenia dsjob. $dsjob -run służy do uruchamiania zadania DataStage, $dsjob -stop służy do zatrzymywania zadania, które jest aktualnie obecne w procesie, $dsjob -jobid służy do dostarczania informacji o zadaniu, $dsjob -report służy do wyświetlania pełnego raportu zadania itp.

Jakie są cechy DataStage?

Datastage to potężne narzędzie do architektury danych, które ma różne cechy. Niektóre cechy Datastage są następujące: Datastage można wdrożyć na serwerach lokalnych i serwerach w chmurze, w zależności od wymagań użytkownika. Szybkość i elastyczność integracji danych można w każdej chwili zwiększyć i można z nich efektywnie korzystać. Obsługuje big data i może uzyskiwać dostęp do danych big data na wiele sposobów, takich jak integrator JDBC, obsługa JSON i rozproszone systemy plików.