Musisz przeczytać 24 pytania i odpowiedzi dotyczące wywiadu Datastage [Ultimate Guide 2022]
Opublikowany: 2021-01-08Datastage to narzędzie ETL, tj. wyodrębnianie, przekształcanie i ładowanie, dostarczane przez IBM w pakiecie InfoSphere i pakiecie Information Solutions Platforms. Jest to popularne narzędzie ETL i służy do pracy z dużymi zestawami danych i hurtowniami w celu tworzenia i utrzymywania repozytoriów danych. W tym artykule przyjrzymy się najczęściej zadawanym pytaniom podczas wywiadów DataStage , a także udzielimy na nie odpowiedzi. Jeśli jesteś początkującym i chcesz dowiedzieć się więcej na temat nauki o danych, zapoznaj się z naszym szkoleniem z nauki o danych prowadzonym przez najlepsze uniwersytety.
Najczęstsze pytania i odpowiedzi podczas rozmowy kwalifikacyjnej DataStage to:
Spis treści
Pytania i odpowiedzi na wywiad z DataStage
1. Co to jest IBM DataStage i dlaczego jest używany?
DataStage to narzędzie dostarczane przez IBM i używane do projektowania, rozwijania i wykonywania aplikacji w celu wypełniania danymi hurtowni danych poprzez wyodrębnianie danych z baz danych z serwerów Windows. Zawiera funkcję wizualizacji graficznych do integracji danych, a także może wyodrębniać dane z wielu źródeł. Dlatego jest uważany za jedno z najsilniejszych narzędzi ETL. DataStage ma różne wersje, z których firmy mogą korzystać w zależności od ich wymagań. Wersje to Server Edition, MVS Edition i Enterprise Edition.
2. Jakie są cechy DataStage?
Charakterystyka IBM DataStage jest następująca:
- Może być wdrażany na serwerach lokalnych, a także w chmurze, zgodnie z potrzebami i wymaganiami.
- Jest łatwy w użyciu i może skutecznie zwiększyć szybkość i elastyczność integracji danych.
- Obsługuje duże zbiory danych i może uzyskiwać dostęp do dużych zbiorów danych na wiele sposobów, takich jak integrator JDBC, obsługa JSON i rozproszone systemy plików.
3. Opisz krótko architekturę DataStage.
IBM DataStage opiera się na modelu klient-serwer jako swojej architekturze i ma różne typy architektury dla różnych wersji. Składnikami architektury klient-serwer są:
- Komponenty klienta
- Serwery
- Gradacja
- Definicje tabel
- Kontenery
- Projektowanie
- Oferty pracy
4. Jak uruchomić zadanie za pomocą wiersza poleceń w DataStage?
Polecenie to: dsjob -run -jobstatus <nazwa projektu> <nazwa zadania>
5. Wymień kilka funkcji, które możemy wykonać za pomocą polecenia 'dsjob'.
Różne funkcje, które możemy wykonać za pomocą polecenia $dsjob to:
- $dsjob -run: Służy do uruchamiania zadania DataStage
- $dsjob -stop: Służy do zatrzymania zadania, które jest aktualnie obecne w procesie
- $dsjob -jobid: Służy do dostarczania informacji o pracy
- $dsjob -report: Służy do wyświetlania pełnego raportu pracy
- $dsjob -lprojects: Służy do wyświetlania listy wszystkich obecnych projektów
- $dsjob -ljobs: Służy do wyświetlania listy wszystkich zadań obecnych w projekcie
- $dsjob -lstages: Służy do wyświetlania listy wszystkich etapów bieżącej pracy
- $dsjob -llinks: Służy do wyświetlania listy wszystkich linków
- $dsjobs -lparams: Służy do wylistowania wszystkich parametrów zadania
- $dsjob -projectinfo: Służy do pobierania informacji o projekcie
- $dsjob -jobinfo: Służy do wyszukiwania informacji o zadaniu
- $dsjob -stageinfo: Służy do wyszukiwania informacji o tym etapie tej pracy
- $dsjob -linkinfo: służy do uzyskiwania informacji o tym łączu
- $dsjob -paraminfo: dostarcza informacji o wszystkich parametrach
- $dsjob -loginfo: Służy do pobierania informacji o dzienniku
- $dsjob -log: Służy do dodawania wiadomości tekstowej do dziennika
- $dsjob -logsum: Służy do wyświetlania danych dziennika
- $dsjob -logdetail: Służy do wyświetlania wszystkich szczegółów dziennika
- $dsjob -lognewest: Służy do pobierania identyfikatora najnowszego dziennika
6. Co to jest projektant przepływu w IBM DataStage?
Projektant przepływów to internetowy interfejs użytkownika DataStage, który służy do tworzenia, edytowania, ładowania i uruchamiania zadań w DataStage.
Źródło
7. Jakie są główne cechy projektanta przepływu?
Główne cechy projektanta przepływu to:
- Bardzo przydatne jest wykonywanie prac o dużej liczbie etapów.
- Nie ma potrzeby migrowania zadań, aby korzystać z projektanta przepływu.
- Możemy użyć dostarczonej palety, aby dodawać i usuwać łączniki i operatory na kanwie projektanta za pomocą funkcji przeciągania i upuszczania.
Dowiedz się więcej o: Nauka o danych a eksploracja danych: różnica między nauką o danych a eksploracją danych
8. Jak przekonwertować zadanie serwera na zadanie równoległe w DataStage?
Zadanie serwera można przekonwertować na zadanie równoległe za pomocą kolektora łączy i kolektora IPC.
9 . Co to jest złącze HBase?
Łącznik HBase w DataStage to narzędzie służące do łączenia baz danych i tabel znajdujących się w bazie danych HBase. Jest głównie używany do wykonywania następujących zadań:
- Odczytuj i zapisuj dane zi do bazy danych HBase.
- Odczyt danych w trybie równoległym.
- Używanie HBase jako tabeli widoku
10. Co to jest łącznik Hive?
Łącznik Hive to narzędzie służące do obsługi trybów partycji podczas odczytywania danych. Można to zrobić na dwa sposoby:
- tryb partycji modułowej
- tryb partycji minimum-maksimum
11. Co to jest Infosphere w DataStage?
Serwer informacyjny infosfery jest w stanie zarządzać dużymi wymaganiami firm i dostarczać wysokiej jakości i szybsze wyniki. Zapewnia firmom pojedynczą platformę do zarządzania danymi, na której mogą zrozumieć, oczyścić, przekształcić i dostarczyć ogromne ilości informacji.

Źródło
12. Wymienić wszystkie warstwy produktu InfoSphere Information Server?
Różne warstwy produktu InfoSphere Information Server to:
- Poziom klienta
- Poziom usług
- Poziom silnika
- Warstwa repozytorium metadanych
13. Krótko opisz warstwę klienta Infosphere Information Server.
Warstwa kliencka Infosphere Information Server służy do tworzenia i pełnego administrowania komputerami przy użyciu programów klienckich i konsol.
14. Opisz krótko poziom usług Infosphere Information Server.
Warstwa usług Infosphere Information Server służy do świadczenia standardowych usług, takich jak metadane i rejestrowanie, a także niektórych innych usług specyficznych dla modułu. Zawiera serwer aplikacji, różne moduły produktów i inne usługi produktowe.
15. Opisz krótko poziom silnika Infosphere Information Server.
Warstwa silnika Infosphere Information Server to zestaw komponentów logicznych używanych do uruchamiania zadań i innych zadań dla modułów produktu.
16. Opisz krótko warstwę repozytorium metadanych Infosphere Information Server.
Warstwa repozytorium metadanych Infosphere Information Server obejmuje repozytorium metadanych, bazę danych analizy i komputer. Służy do udostępniania metadanych, udostępnionych danych i informacji o konfiguracji.
17. Jakie są rodzaje przetwarzania równoległego w DataStage?
Istnieją dwa różne typy przetwarzania równoległego, którymi są:
- Partycjonowanie danych
- Potokowanie danych
18 . Co to jest partycjonowanie danych?
Partycjonowanie danych to rodzaj równoległego podejścia do przetwarzania danych. Polega na rozbiciu zapisów na partycje w celu przetworzenia. Zwiększa wydajność obróbki w modelu liniowym.
Przeczytaj więcej: Wstępne przetwarzanie danych w uczeniu maszynowym: 7 łatwych kroków do wykonania
19. Co to jest potokowanie danych?
Data Pipelining to rodzaj równoległego podejścia do przetwarzania danych, w którym wykonujemy ekstrakcję danych ze źródła, a następnie przepuszczamy je przez sekwencję funkcji przetwarzania w celu uzyskania wymaganych danych wyjściowych.
20. Co to jest BHP w DataStage?
OSH to skrót od Orchestrate Shell i jest językiem skryptowym używanym w DataStage wewnętrznie przez silnik równoległy.
21. Kim są gracze?
Gracze w DataStage są procesami jak wół roboczy. Pomagają nam wykonywać przetwarzanie równoległe i są przypisane do operatorów na każdym węźle.
22. Co to jest biblioteka kolekcji w DataStage?
Biblioteki kolekcji są zbiorem operatorów i służą do zbierania danych partycjonowanych.
23. Jakie typy kolektorów są dostępne w bibliotece kolekcji DataStage?
Rodzaje kolekcjonerów dostępne w bibliotece zbiorów to:
- Kolekcjoner sortowania
- Kolekcjoner roundrobin
- Zamówiony kolektor
24. W jaki sposób plik źródłowy jest wypełniany w DataStage?
Plik źródłowy można wypełnić za pomocą zapytań SQL, a także za pomocą narzędzia do wyodrębniania generatora wierszy.
Konkluzja
Mamy nadzieję, że nasz artykuł zawierający wszystkie pytania i odpowiedzi związane z wywiadem DataStage pomógł Ci przygotować się do wywiadu DataStage. Możesz rzucić okiem na kursy oferowane przez upGrad, aby poszerzyć swoją wiedzę na następujące tematy:
- PG Diploma in Software Development Specialization w Big Data : Ten kurs jest tworzony przez upGrad we współpracy z IIIT-B, aby zapewnić osobom wiedzę potrzebną do tworzenia oprogramowania i obejmować wiedzę na temat zarządzania Big Data.
- PGC w rozwoju pełnego stosu : Ten kurs na temat rozwoju pełnego stosu jest tworzony przez specjalistów upGrad i branżowych z Tech Mahindra, aby osoby były w stanie rozwiązywać wyzwania na poziomie branżowym i zdobywać wszystkie umiejętności wymagane do wejścia i pracy w branżach.
UpGrad zawsze służy pomocą w przygotowaniu . Możesz również zapoznać się z naszymi kursami, które pomogą Ci nauczyć się wszystkich wymaganych w branży umiejętności i technik, aby dobrze przygotować się do rozmów kwalifikacyjnych i przyszłych ambicji zawodowych, jak zawsze mówimy „Raho Ambitious”. Kursy te zostały stworzone przez ekspertów branżowych i doświadczonych naukowców, abyś mógł stać się biegły w każdej technologii i umiejętnościach, których chcesz się nauczyć.
Jeśli jesteś zainteresowany nauką Pythona i chcesz pobrudzić sobie ręce różnymi narzędziami i bibliotekami, zapoznaj się z programem Executive PG w dziedzinie nauki o danych.
Jakie są cztery główne etapy Datastage?
IBM Datastage to potężne narzędzie do projektowania, rozwijania i wykonywania aplikacji do wypełniania danymi hurtowni danych poprzez wyodrębnianie danych z baz danych. Poniżej znajdują się cztery główne etapy Datastage. Administrator jest używany do zadań administracyjnych, które obejmują konfigurowanie użytkowników DataStage i czyszczenie kryteriów, mobilizowanie i demobilizowanie projektów itp. Projektant lub interfejs projektowy tworzy aplikacje Datastage LUB zadania, które są regulowane przez dyrektora i uruchamiane przez serwer. Jak sama nazwa wskazuje, manager utrzymuje i zarządza repozytoriami oraz umożliwia użytkownikom modyfikowanie za ich pośrednictwem przechowywanych danych. Dyrektor wykonuje różne funkcje, w tym walidację zadań, planowanie i wykonywanie ich wraz z monitorowaniem zadań równoległych.
Do jakich celów służy polecenie „dsjob”?
Polecenie dsjob jest używane do różnych funkcji, w tym do pobierania i wyświetlania danych o projektach lub zadaniach. Oto niektóre funkcje, które można wykonać za pomocą polecenia dsjob. $dsjob -run służy do uruchamiania zadania DataStage, $dsjob -stop służy do zatrzymywania zadania, które jest aktualnie obecne w procesie, $dsjob -jobid służy do dostarczania informacji o zadaniu, $dsjob -report służy do wyświetlania pełnego raportu zadania itp.
Jakie są cechy DataStage?
Datastage to potężne narzędzie do architektury danych, które ma różne cechy. Niektóre cechy Datastage są następujące: Datastage można wdrożyć na serwerach lokalnych i serwerach w chmurze, w zależności od wymagań użytkownika. Szybkość i elastyczność integracji danych można w każdej chwili zwiększyć i można z nich efektywnie korzystać. Obsługuje big data i może uzyskiwać dostęp do danych big data na wiele sposobów, takich jak integrator JDBC, obsługa JSON i rozproszone systemy plików.