Trebuie să citiți 24 de întrebări și răspunsuri la interviu Datastage [Ghid final 2022]

Publicat: 2021-01-08

Datastage este un instrument ETL, adică Extragere, transformare și încărcare, furnizat de IBM în suita InfoSphere și suita Information Solutions Platforms. Este un instrument ETL popular și este folosit pentru lucrul cu seturi mari de date și depozite pentru a crea și întreține depozitele de date. În acest articol, vom analiza cele mai frecvente întrebări de interviu DataStage și vom oferi, de asemenea, răspunsurile la aceste întrebări. Dacă sunteți începător și doriți să aflați mai multe despre știința datelor, consultați formarea noastră în știința datelor de la universități de top.

Cele mai frecvente întrebări și răspunsuri la interviu DataStage sunt următoarele:

Cuprins

Întrebări și răspunsuri la interviu DataStage

1. Ce este IBM DataStage și de ce este utilizat?

DataStage este un instrument furnizat de IBM și folosit pentru a proiecta, dezvolta și executa aplicații pentru a completa datele în depozitele de date prin extragerea datelor din bazele de date de pe serverele Windows. Conține caracteristica vizualizărilor grafice pentru integrările de date și, de asemenea, poate extrage date din mai multe surse. Prin urmare, este considerat unul dintre cele mai puternice instrumente ETL. DataStage are diverse versiuni pe care companiile le pot folosi în funcție de cerințele lor. Versiunile sunt Server Edition, MVS Edition și Enterprise Edition.

2. Care sunt caracteristicile DataStage?

Caracteristicile IBM DataStage sunt următoarele:

Poate fi implementat pe servere locale, precum și pe cloud, în funcție de necesitate și cerințe.
Este ușor de utilizat și poate crește viteza și flexibilitatea integrării datelor în mod eficient.
Acceptă date mari și poate accesa date mari în multe moduri, cum ar fi integratorul JDBC, suportul JSON și sistemele de fișiere distribuite.

3. Descrieți pe scurt arhitectura DataStage.

IBM DataStage urmează un model client-server ca arhitectură și are diferite tipuri de arhitectură pentru diferitele sale versiuni. Componentele arhitecturii client-server sunt:

1. Componentele clientului
2. Servere
3. Etape
4. Definiții de tabel
5. Containere
6. Proiecte
7. Locuri de munca

4. Cum putem rula un job folosind linia de comandă în DataStage?

Comanda este: dsjob -run -jobstatus <nume proiect> <nume job>

5. Enumerați câteva funcții pe care le putem executa folosind comanda „dsjob”.

Diferitele funcții pe care le putem îndeplini folosind comanda $dsjob sunt:

1. $dsjob -run: este folosit pentru a rula jobul DataStage
2. $dsjob -stop: Este folosit pentru a opri jobul care este prezent în prezent în proces
3. $dsjob -jobid: Este folosit pentru furnizarea informațiilor despre job
4. $dsjob -report: Este folosit pentru afișarea raportului complet al jobului
5. $dsjob -lprojects: Este folosit pentru listarea tuturor proiectelor care sunt prezente
6. $dsjob -ljobs: Este folosit pentru listarea tuturor joburilor care sunt prezente în proiect
7. $dsjob -lstages: Este folosit pentru listarea tuturor etapelor jobului curent
8. $dsjob -llinks: este folosit pentru listarea tuturor linkurilor
9. $dsjobs -lparams: Este folosit pentru listarea tuturor parametrilor jobului
10. $dsjob -projectinfo: Este folosit pentru a prelua informații despre proiect
11. $dsjob -jobinfo: Este folosit pentru regăsirea informațiilor despre job
12. $dsjob -stageinfo: este folosit pentru regăsirea informațiilor din acea etapă a acelui job
13. $dsjob -linkinfo: Este folosit pentru obținerea informațiilor acelui link
14. $dsjob -paraminfo: Furnizează informații despre toți parametrii
15. $dsjob -loginfo: este folosit pentru a obține informații despre jurnal
16. $dsjob -log: Este folosit pentru adăugarea unui mesaj text în jurnal
17. $dsjob -logsum: Este folosit pentru afișarea datelor de jurnal
18. $dsjob -logdetail: Este folosit pentru afișarea tuturor detaliilor jurnalului
19. $dsjob -lognewest: este folosit pentru a prelua id-ul celui mai nou jurnal

6. Ce este un proiectant de flux în IBM DataStage?

Flow Designer este interfața de utilizator bazată pe web a DataStage și este utilizat pentru a crea, edita, încărca și rula joburile în DataStage.

Sursă

7. Care sunt principalele caracteristici ale designerului de flux?

Principalele caracteristici ale designerului de flux sunt:

Este foarte util să efectuați lucrări cu un număr mare de etape.
Nu este nevoie să migrați joburile pentru a utiliza proiectantul de flux.
Putem folosi paleta furnizată pentru a adăuga și elimina conectori și operatori de pe pânza designerului folosind funcția de glisare și plasare.

Aflați despre: Data Science vs Data Mining: Diferența dintre Data Science și Data Mining

8. Cum se transformă un job de server într-un job paralel în DataStage?

Un job de server poate fi convertit într-un job paralel folosind un colector Link și un colector IPC.

9 . Ce este un conector HBase?

Un conector HBase în DataStage este un instrument folosit pentru a conecta baze de date și tabele prezente în baza de date HBase. Este utilizat în principal pentru a îndeplini următoarele sarcini:

Citiți și scrieți date din și către baza de date HBase.
Citirea datelor în modul paralel.
Utilizarea HBase ca tabel de vizualizare

10. Ce este un conector Hive?

Conectorul Hive este un instrument care este utilizat pentru a accepta modurile de partiție în timpul citirii datelor. Se poate face în două moduri:

modul de partiție a modulului
modul de partiție minim-maxim

11. Ce este Infosphere în DataStage?

Serverul de informații Infosphere este capabil să gestioneze cerințele de volum mare ale companiilor și oferă rezultate de înaltă calitate și mai rapide. Oferă companiilor o singură platformă pentru gestionarea datelor, unde pot înțelege, curăța, transforma și furniza cantități enorme de informații.

Sursă

12. Listați toate nivelurile diferite ale InfoSphere Information Server?

Diferitele niveluri ale InfoSphere Information Server sunt:

Nivelul de client
Nivelul de servicii
Nivelul motorului
Nivelul depozit de metadate

13. Descrieți pe scurt nivelul Client al Infosphere Information Server.

Nivelul client al Infosphere Information Server este utilizat pentru dezvoltarea și administrarea completă a computerelor folosind programele și consolele client.

14. Descrieți pe scurt nivelul Servicii al Infosphere Information Server.

Nivelul de servicii al Infosphere Information Server este utilizat pentru furnizarea de servicii standard, cum ar fi metadatele și înregistrarea în jurnal, și alte servicii specifice modulelor. Conține un server de aplicații, diverse module de produs și alte servicii de produs.

15. Descrieți pe scurt nivelul Motor al Infosphere Information Server.

Nivelul motor al Infosphere Information Server este un set de componente logice utilizate pentru a rula joburile și alte sarcini pentru modulele de produs.

16. Descrieți pe scurt nivelul Metadate Repository al Infosphere Information Server.

Nivelul de depozit de metadate al Infosphere Information Server include depozitul de metadate, baza de date de analiză și computerul. Este folosit pentru a partaja metadatele, datele partajate și informațiile de configurare.

17. Care sunt tipurile de procesare paralelă în DataStage?

Există două tipuri diferite de procesare paralelă, care sunt:

Partiționarea datelor
Conducta de date

18 . Ce este partiționarea datelor?

Partiționarea datelor este un tip de abordare paralelă pentru procesarea datelor. Acesta implică procesul de defalcare a înregistrărilor în partiții pentru procesare. Mărește eficiența procesării într-un model liniar.

Citiți mai multe: Preprocesarea datelor în Machine Learning: 7 pași simpli de urmat

19. Ce este pipeliningul de date?

Data Pipelining este un tip de abordare paralelă pentru procesarea datelor în care efectuăm extragerea datelor din sursă și apoi le facem să treacă printr-o secvență de funcții de procesare pentru a obține rezultatul necesar.

20. Ce este SSM în DataStage?

OSH este o abreviere pentru Orchestrate Shell și este un limbaj de scripting utilizat în DataStage intern de către motorul paralel.

21. Ce sunt jucătorii?

Jucătorii din DataStage sunt procesele calului de lucru. Ele ne ajută să realizăm procesarea paralelă și sunt alocate operatorilor de pe fiecare nod.

22. Ce este o bibliotecă de colecții în DataStage?

Bibliotecile de colecție sunt setul de operatori și sunt folosite pentru a colecta datele partiționate.

23. Care sunt tipurile de colectori disponibili în biblioteca de colecții a DataStage?

Tipurile de colectori disponibili în biblioteca de colecții sunt:

Colector de sortare
Colector Roundrobin
Colector comandat

24. Cum este populat fișierul sursă în DataStage?

Fișierul sursă poate fi populat folosind interogări SQL și, de asemenea, folosind instrumentul de extragere a generatorului de rânduri.

Concluzie

Sperăm că articolul nostru care conține toate întrebările și răspunsurile la interviu DataStage v-a ajutat să vă pregătiți pentru interviul DataStage. Puteți arunca o privire la aceste cursuri oferite de upGrad pentru a vă îmbunătăți cunoștințele despre aceste subiecte:

Diploma PG în Dezvoltare Software Specializare în Big Data : Acest curs este creat de upGrad în asociere cu IIIT-B pentru a oferi indivizilor cunoștințele de care au nevoie pentru dezvoltarea de software și pentru a acoperi cunoștințele privind gestionarea Big Data.
PGC în dezvoltarea full-stack: Acest curs despre dezvoltarea full-stack este creat de upGrad și profesioniștii din industrie de la Tech Mahindra pentru a face persoanele capabile să rezolve provocările la nivel de industrie și să dobândească toate abilitățile necesare pentru a intra și a lucra în industrii.

Noi, cei de la upGrad, suntem mereu acolo pentru a vă ajuta cu pregătirea dumneavoastră. Puteți, de asemenea, să vă uitați la cursurile noastre care vă pot ajuta să învățați toate abilitățile și tehnicile necesare industriei pentru a vă pregăti bine pentru interviurile și viitoarele ambiții de angajare, așa cum spunem întotdeauna „Raho Ambițios”. Aceste cursuri au fost realizate de experți din industrie și academicieni cu experiență pentru a vă face capabil să deveniți competent în orice tehnologie și abilități pe care doriți să le învățați.

Dacă sunteți interesat să învățați python și doriți să vă murdăriți mâinile cu diverse instrumente și biblioteci, consultați Programul Executive PG în Știința datelor.

Care sunt cele patru etape principale ale Datastage?

IBM Datastage este un instrument puternic pentru proiectarea, dezvoltarea și executarea aplicațiilor pentru a completa datele în depozitele de date prin extragerea datelor din baze de date. Mai jos sunt cele patru etape principale ale Datastage. Administrator este folosit pentru sarcini de administrare care includ configurarea utilizatorilor DataStage și criteriile de purjare, mobilizarea și demobilizarea proiectelor etc. Designerul sau interfața de proiectare dezvoltă aplicațiile Datastage SAU joburile care sunt reglementate de director și rulate de server. După cum sugerează și numele, managerul menține și gestionează depozitele și permite utilizatorilor să modifice datele stocate prin intermediul acestuia. Directorul îndeplinește diverse funcții, inclusiv validarea joburilor, programarea și executarea acestora împreună cu monitorizarea joburilor paralele.

În ce scopuri este folosită comanda „dsjob”?

Comanda dsjob este utilizată pentru diverse funcții, inclusiv regăsirea și afișarea datelor despre proiecte sau joburi. Iată câteva dintre funcțiile care pot fi executate folosind comanda dsjob. $dsjob -run folosit pentru a rula jobul DataStage, $dsjob -stop folosit pentru a opri jobul care este prezent în prezent în proces, $dsjob -jobid utilizat pentru furnizarea informațiilor despre job, $dsjob -report utilizat pentru afișarea raportului complet al jobului , etc.

Care sunt caracteristicile DataStage?

Datastage este un instrument puternic de arhitectură de date și are diverse caracteristici. Unele dintre caracteristicile Datastage sunt următoarele: Datastage poate fi implementat pe serverele locale și pe serverele cloud, în funcție de cerințele utilizatorului. Viteza și flexibilitatea integrării datelor pot fi crescute oricând și pot fi utilizate eficient. Acceptă date mari și poate accesa date mari în multe moduri, cum ar fi integratorul JDBC, suportul JSON și sistemele de fișiere distribuite.