Debe leer 24 preguntas y respuestas de la entrevista de Datastage [Guía definitiva 2022]

Publicado: 2021-01-08

Datastage es una herramienta ETL, es decir, Extraer, Transformar y Cargar proporcionada por IBM en su suite InfoSphere y su suite Information Solutions Platforms. Es una herramienta ETL popular y se usa para trabajar con grandes conjuntos de datos y almacenes para crear y mantener los repositorios de datos. En este artículo, veremos las preguntas más frecuentes de la entrevista de DataStage y también proporcionaremos las respuestas a estas preguntas. Si es un principiante y está interesado en obtener más información sobre la ciencia de datos, consulte nuestra capacitación en ciencia de datos de las mejores universidades.

Las preguntas y respuestas más comunes de la entrevista de DataStage son las siguientes:

Tabla de contenido

Preguntas y respuestas de la entrevista de DataStage

1. ¿Qué es IBM DataStage y por qué se utiliza?

DataStage es una herramienta proporcionada por IBM y utilizada para diseñar, desarrollar y ejecutar las aplicaciones para llenar los datos en los almacenes de datos extrayéndolos de las bases de datos de los servidores de Windows. Contiene la característica de visualizaciones gráficas para integraciones de datos y también puede extraer datos de múltiples fuentes. Por lo tanto, se considera una de las herramientas ETL más potentes. DataStage tiene varias versiones que las empresas pueden usar según sus requisitos. Las versiones son Server Edition, MVS Edition y Enterprise Edition.

2. ¿Cuáles son las características de DataStage?

Las características de IBM DataStage son las siguientes:

Se puede implementar en servidores locales y en la nube según la necesidad y el requisito.
Es fácil de usar y puede aumentar la velocidad y la flexibilidad de la integración de datos de manera eficiente.
Admite big data y puede acceder a big data de muchas maneras, como el integrador JDBC, la compatibilidad con JSON y los sistemas de archivos distribuidos.

3. Describa brevemente la arquitectura de DataStage.

IBM DataStage sigue un modelo cliente-servidor como arquitectura y tiene diferentes tipos de arquitectura para sus diversas versiones. Los componentes de la arquitectura cliente-servidor son:

1. Componentes del cliente
2. Servidores
3. Etapas
4. Definiciones de tablas
5. Contenedores
6. Proyectos
7. Trabajos

4. ¿Cómo podemos ejecutar un trabajo usando la línea de comando en DataStage?

El comando es: dsjob -run -jobstatus <nombre del proyecto> <nombre del trabajo>

5. Enumere algunas funciones que podemos ejecutar usando el comando 'dsjob'.

Las diferentes funciones que podemos realizar usando el comando $dsjob son:

1. $dsjob -run: se usa para ejecutar el trabajo de DataStage
2. $dsjob -stop: Se utiliza para detener el trabajo que está actualmente presente en el proceso
3. $dsjob -jobid: se utiliza para proporcionar la información del trabajo
4. $dsjob -report: se utiliza para mostrar el informe completo del trabajo
5. $dsjob -lprojects: Se usa para listar todos los proyectos que están presentes
6. $dsjob -ljobs: se utiliza para enumerar todos los trabajos que están presentes en el proyecto
7. $dsjob -lstages: se utiliza para enumerar todas las etapas del trabajo actual
8. $dsjob -llinks: Se utiliza para listar todos los enlaces.
9. $dsjobs -lparams: Se usa para listar todos los parámetros del trabajo
10. $dsjob -projectinfo: se utiliza para recuperar la información sobre el proyecto
11. $dsjob -jobinfo: Se utiliza para la recuperación de información del trabajo.
12. $dsjob -stageinfo: Se utiliza para la recuperación de información de esa etapa de ese trabajo
13. $dsjob -linkinfo: Se usa para obtener la información de ese enlace
14. $dsjob -paraminfo: Proporciona la información de todos los parámetros
15. $dsjob -loginfo: se utiliza para obtener información sobre el registro
16. $dsjob -log: se usa para agregar un mensaje de texto en el registro
17. $dsjob -logsum: se utiliza para mostrar los datos de registro
18. $dsjob -logdetail: se utiliza para mostrar todos los detalles del registro
19. $dsjob -lognewest: se usa para recuperar la identificación del registro más nuevo

6. ¿Qué es un diseñador de flujo en IBM DataStage?

El diseñador de flujo es la interfaz de usuario basada en web de DataStage y se utiliza para crear, editar, cargar y ejecutar trabajos en DataStage.

Fuente

7. ¿Cuáles son las características principales del diseñador de flujo?

Las características principales del diseñador de flujo son:

Es muy útil para realizar trabajos con un gran número de etapas.
No es necesario migrar los trabajos para usar el diseñador de flujo.
Podemos usar la paleta provista para agregar y eliminar conectores y operadores en el lienzo del diseñador usando la función de arrastrar y soltar.

Más información: Ciencia de datos frente a minería de datos: diferencia entre ciencia de datos y minería de datos

8. ¿Cómo convertir un trabajo de servidor en un trabajo paralelo en DataStage?

Un trabajo de servidor se puede convertir en un trabajo paralelo utilizando un recopilador de enlaces y un recopilador de IPC.

9 ¿Qué es un conector HBase?

Un conector HBase en DataStage es una herramienta que se utiliza para conectar bases de datos y tablas presentes en la base de datos HBase. Se utiliza principalmente para realizar las siguientes tareas:

Leer y escribir datos desde y hacia la base de datos HBase.
Lectura de datos en modo paralelo.
Usando HBase como una tabla de vista

10. ¿Qué es un conector Hive?

El conector Hive es una herramienta que se utiliza para admitir modos de partición mientras se leen los datos. Se puede hacer de dos formas:

modo de partición de módulo
modo de partición mínimo-máximo

11. ¿Qué es Infosphere en DataStage?

El servidor de información de la infoesfera es capaz de gestionar los requisitos de gran volumen de las empresas y ofrece resultados de alta calidad y más rápidos. Brinda a las empresas una plataforma única para administrar los datos donde pueden comprender, limpiar, transformar y entregar enormes cantidades de información.

Fuente

12. ¿Enumere todos los diferentes niveles de InfoSphere Information Server?

Los diferentes niveles de InfoSphere Information Server son:

Nivel de cliente
Nivel de servicios
Nivel de motor
Nivel de repositorio de metadatos

13. Describa brevemente el nivel de Cliente de Infosphere Information Server.

El nivel de cliente de Infosphere Information Server se utiliza para el desarrollo y la administración completa de las computadoras que utilizan los programas y consolas de cliente.

14. Describa brevemente el nivel de Servicios de Infosphere Information Server.

El nivel de servicios de Infosphere Information Server se utiliza para proporcionar servicios estándar como metadatos y registro y algunos otros servicios específicos del módulo. Contiene un servidor de aplicaciones, varios módulos de productos y otros servicios de productos.

15. Describa brevemente el nivel del motor de Infosphere Information Server.

El nivel de motor de Infosphere Information Server es un conjunto de componentes lógicos que se utilizan para ejecutar los trabajos y otras tareas para los módulos del producto.

16. Describa brevemente el nivel del repositorio de metadatos de Infosphere Information Server.

El nivel del repositorio de metadatos del Infosphere Information Server incluye el repositorio de metadatos, la base de datos de análisis y la computadora. Se utiliza para compartir metadatos, datos compartidos e información de configuración.

17 ¿Cuáles son los tipos de procesamiento paralelo en DataStage?

Hay dos tipos diferentes de procesamiento paralelo, que son:

Particionamiento de datos
Canalización de datos

18 _ ¿Qué es el particionamiento de datos?

La partición de datos es un tipo de enfoque paralelo para el procesamiento de datos. Implica el proceso de dividir los registros en particiones para el procesamiento. Aumenta la eficiencia de procesamiento en un modelo lineal.

Leer más: Preprocesamiento de datos en aprendizaje automático: 7 sencillos pasos a seguir

19 ¿Qué es la canalización de datos?

La canalización de datos es un tipo de enfoque paralelo para el procesamiento de datos en el que realizamos la extracción de datos de la fuente y luego los hacemos pasar por una secuencia de funciones de procesamiento para obtener el resultado requerido.

20. ¿Qué es la SST en DataStage?

OSH es una abreviatura de Orchestrate Shell y es un lenguaje de secuencias de comandos utilizado internamente en DataStage por el motor paralelo.

21. ¿Qué son los jugadores?

Los jugadores en DataStage son los procesos de caballo de batalla. Nos ayudan a realizar el procesamiento paralelo y se asignan a los operadores en cada nodo.

22. ¿Qué es una biblioteca de colecciones en DataStage?

Las bibliotecas de colección son el conjunto de operadores y se utilizan para recopilar los datos particionados.

23 ¿Cuáles son los tipos de recopiladores disponibles en la biblioteca de colecciones de DataStage?

Los tipos de recopiladores disponibles en la biblioteca de colecciones son:

colector sortmerg
coleccionista de turnos
coleccionista ordenado

24 ¿Cómo se rellena el archivo de origen en DataStage?

El archivo de origen se puede completar mediante consultas SQL y también mediante la herramienta de extracción del generador de filas.

Línea de fondo

Esperamos que nuestro artículo que contiene todas las preguntas y respuestas de la entrevista de DataStage lo haya ayudado a prepararse para la entrevista de DataStage. Puedes echar un vistazo a estos cursos que ofrece upGrad para aumentar tus conocimientos sobre estos temas:

Diploma PG en Desarrollo de Software Especialización en Big Data : este curso es creado por upGrad en asociación con IIIT-B para proporcionar a las personas los conocimientos que requieren para el desarrollo de software y cubrir el conocimiento sobre la gestión de Big Data.
PGC en desarrollo de pila completa : este curso sobre desarrollo de pila completa fue creado por upGrad y profesionales de la industria de Tech Mahindra para que las personas sean capaces de resolver desafíos a nivel industrial y adquieran todas las habilidades necesarias para ingresar y trabajar en las industrias.

En upGrad siempre estamos ahí para ayudarte con tu preparación. También puede ver nuestros cursos que pueden ayudarlo a aprender todas las habilidades y técnicas requeridas por la industria para prepararse bien para sus entrevistas y futuras ambiciones laborales, como siempre decimos 'Raho Ambicioso'. Estos cursos han sido creados por expertos de la industria y académicos experimentados para que pueda dominar cualquier tecnología y habilidades que desee aprender.

Si está interesado en aprender Python y quiere ensuciarse las manos con varias herramientas y bibliotecas, consulte el Programa Executive PG en Data Science.

¿Cuáles son las cuatro etapas principales de Datastage?

IBM Datastage es una poderosa herramienta para diseñar, desarrollar y ejecutar las aplicaciones para llenar los datos en los almacenes de datos extrayéndolos de las bases de datos. A continuación se muestran las cuatro etapas principales de Datastage. El administrador se utiliza para tareas de administración que incluyen la configuración de usuarios de DataStage y la depuración de criterios, la movilización y desmovilización de proyectos, etc. El diseñador o la interfaz de diseño desarrolla las aplicaciones de Datastage O trabajos que están regulados por el director y ejecutados por el servidor. Como sugiere el nombre, el administrador mantiene y administra los repositorios y permite a los usuarios modificar los datos almacenados a través de él. El director realiza varias funciones, incluida la validación de los trabajos, su programación y ejecución junto con la supervisión de los trabajos paralelos.

¿Con qué fines se utiliza el comando "dsjob"?

El comando dsjob se usa para varias funciones, incluida la recuperación y visualización de datos sobre proyectos o trabajos. Estas son algunas de las funciones que se pueden ejecutar con el comando dsjob. $dsjob -run se usa para ejecutar el trabajo de DataStage, $dsjob -stop se usa para detener el trabajo que está actualmente presente en el proceso, $dsjob -jobid se usa para proporcionar la información del trabajo, $dsjob -report se usa para mostrar el informe completo del trabajo , etc

¿Cuáles son las características de DataStage?

Datastage es una poderosa herramienta de arquitectura de datos y tiene varias características. Algunas de las características de Datastage son las siguientes: Datastage se puede implementar en los servidores locales y en los servidores de la nube según los requisitos del usuario. La velocidad y la flexibilidad de la integración de datos se pueden aumentar en cualquier momento y se pueden usar de manera eficiente. Admite big data y puede acceder a big data de muchas maneras, como el integrador JDBC, la compatibilidad con JSON y los sistemas de archivos distribuidos.