Las 20 preguntas y respuestas de entrevistas de modelado de datos más populares [para principiantes y experimentados]

Publicado: 2021-06-10

La ciencia de datos es uno de los campos profesionales más lucrativos en el mercado laboral actual. Y a medida que aumenta la competencia, las entrevistas de trabajo también se vuelven más innovadoras cada día. Los empleadores quieren evaluar el conocimiento conceptual y la comprensión práctica de los candidatos sobre temas relevantes y herramientas tecnológicas. En este blog, discutiremos algunas preguntas relevantes de la entrevista de modelado de datos para ayudarlo a causar una primera impresión poderosa.

Tabla de contenido

Principales preguntas y respuestas de la entrevista de modelado de datos

Aquí hay 20 preguntas de la entrevista de modelado de datos junto con las respuestas de muestra que lo llevarán a través de los niveles principiante, intermedio y avanzado del tema.

1. ¿Qué es el modelado de datos? Enumerar los tipos de modelos de datos.

El modelado de datos implica crear una representación (o modelo) de los datos disponibles y almacenarlos en una base de datos.

Un modelo de datos comprende entidades (como clientes, productos, fabricantes y vendedores) que generan objetos y atributos que los usuarios desean rastrear. Por ejemplo, un Nombre de cliente es un atributo de la entidad Cliente. Estos detalles toman además la forma de una tabla en una base de datos.

Hay tres tipos básicos de modelos de datos, a saber:

Conceptual: los arquitectos de datos y las partes interesadas del negocio crean este modelo para organizar, definir el alcance y definir conceptos de negocio. Dicta lo que debe contener un sistema.
Lógico: elaborado por arquitectos de datos y analistas de negocios, este modelo mapea las reglas técnicas y las estructuras de datos, determinando así la implementación del sistema independientemente de un sistema de administración de bases de datos o DBMS.
Físico: los arquitectos y desarrolladores de bases de datos crean este modelo para describir cómo debe funcionar el sistema con un DBMS específico.

2. ¿Qué es una Tabla? Explique los hechos y la tabla de hechos.

Una tabla contiene datos en filas (alineaciones horizontales) y columnas (alineaciones verticales). Las filas también se conocen como registros o tuplas, mientras que las columnas pueden denominarse campos.

Un hecho son datos cuantitativos como "ventas netas" o "cantidad adeudada". Una tabla de hechos almacena datos numéricos, así como algunos atributos de las tablas dimensionales.

3. ¿Qué quiere decir con (i) dimensión (ii) granularidad (iv) escasez de datos (v) hashing (v) sistema de administración de base de datos?

(i) Las dimensiones representan datos cualitativos como clase y producto. Por lo tanto, una tabla dimensional que contenga datos de productos tendrá atributos como la categoría del producto, el nombre del producto, etc.

(ii) La granularidad se refiere al nivel de información almacenada en una tabla. Puede ser alto o bajo, y las tablas contienen datos a nivel de transacción y tablas de hechos, respectivamente.

(iii) Escasez de datos significa el número de celdas vacías en una base de datos. En otras palabras, indica cuántos datos tenemos para una entidad o dimensión particular en el modelo de datos. La información insuficiente conduce a grandes bases de datos ya que se requiere más espacio para guardar las agregaciones.

(iv) La técnica de hashing ayuda a buscar valores de índice para recuperar los datos deseados. Se utiliza para calcular la ubicación directa de registros de datos con la ayuda de estructuras de índice.

(v) Un Sistema de Gestión de Base de Datos (DBMS) es un software que comprende un grupo de programas para manipular la base de datos. Su propósito principal es almacenar y recuperar datos del usuario.

4. Defina Normalización. ¿Cual es su propósito?

La técnica de normalización divide las tablas más grandes en otras más pequeñas, vinculándolas mediante diferentes relaciones. Organiza tablas de una manera que minimiza la dependencia y redundancia de los datos.

Puede haber cinco tipos de normalizaciones, a saber:

Primera forma normal
Segunda forma normal
Tercera forma normal
Cuarta forma normal de Boyce-Codd
Quinta forma normal

5. ¿Cuál es la utilidad de la desnormalización en el modelado de datos?

La desnormalización se usa para construir un almacén de datos, especialmente en situaciones que tienen una gran participación de tablas. Esta estrategia se utiliza sobre una base de datos previamente normalizada.

6. Elucidar las diferencias entre la clave principal, la clave principal compuesta, la clave externa y la clave sustituta.

Una clave principal es un pilar en cada tabla de datos. Denota una columna o un grupo de columnas y le permite identificar las filas de una tabla. El valor de la clave principal no puede ser nulo. Cuando se aplica más de una columna como parte de la clave principal, se conoce como clave principal compuesta.

Por otro lado, una clave externa es un grupo de atributos que le permite vincular tablas primarias y secundarias. Se hace referencia al valor de la clave externa en la tabla secundaria como el valor de la clave principal en la tabla principal.

Se utiliza una clave sustituta para identificar cada registro en aquellas situaciones en las que los usuarios no tienen una clave primaria natural. Esta clave artificial generalmente se representa como un número entero y no otorga ningún significado a los datos contenidos en la tabla.

7. Compare el sistema OLTP con el proceso OLAP.

OLTP es un sistema transaccional en línea que se basa en bases de datos tradicionales para realizar operaciones comerciales en tiempo real. La base de datos OLTP tiene tablas normalizadas y el tiempo de respuesta suele ser de milisegundos.

Por el contrario, OLAP es un proceso en línea destinado al análisis y la recuperación de datos. Está diseñado para analizar grandes volúmenes de medidas comerciales por categoría y atributos. A diferencia de OLTP, OLAP utiliza un almacén de datos, tablas no normalizadas y opera con un tiempo de respuesta de segundos a minutos.

8. Enumere los diseños de esquema de base de datos estándar.

Un esquema es un diagrama o ilustración de relaciones y estructuras de datos. Hay dos diseños de esquema en el modelado de datos, a saber, el esquema de estrella y el esquema de copo de nieve.

Un esquema en estrella comprende una tabla de hechos central y varias tablas de dimensiones que están conectadas a ella. La clave principal de las tablas de dimensiones es una clave externa en la tabla de hechos.
Un esquema de copo de nieve tiene la misma tabla de hechos que el esquema de estrella pero con un nivel más alto de normalización. Las tablas de dimensiones están normalizadas o tienen varias capas, lo que se asemeja a un copo de nieve.

9. Explicar datos discretos y continuos.

Datos discretos finitos y definidos, como género, números de teléfono, etc. Por otro lado, los datos continuos cambian de manera ordenada; por ejemplo, edad, temperatura, etc.

10. ¿Qué son los algoritmos de agrupamiento de secuencias y series de tiempo?

Un algoritmo de agrupamiento de secuencias recopila:

Secuencias de datos que tienen eventos, y
Caminos relacionados o similares.

Los algoritmos de series temporales predicen valores continuos en tablas de datos. Por ejemplo, puede pronosticar las cifras de ventas y ganancias en función del desempeño de los empleados a lo largo del tiempo.

Ahora que ha repasado sus conceptos básicos, ¡aquí hay diez preguntas más frecuentes sobre modelado de datos para su práctica!

11. Describa el proceso de almacenamiento de datos.

El almacenamiento de datos conecta y administra datos sin procesar de fuentes heterogéneas. Este proceso de recopilación y análisis de datos permite a las empresas comerciales obtener información significativa de diversas ubicaciones en un solo lugar, lo que constituye el núcleo de Business Intelligence.

12. ¿Cuáles son las diferencias clave entre un data mart y un data warehouse?

Un data mart permite tomar decisiones tácticas para el crecimiento empresarial centrándose en una única área empresarial y siguiendo un modelo ascendente. Por otro lado, un almacén de datos facilita la toma de decisiones estratégicas al enfatizar múltiples áreas y fuentes de datos y adoptar un enfoque de arriba hacia abajo.

13. Mencione los tipos de relaciones críticas que se encuentran en los modelos de datos.

Las relaciones críticas se pueden clasificar en:

Identificación: conecta las tablas principal y secundaria con una línea gruesa. La columna de referencia de la tabla secundaria es parte de la clave principal.
Sin identificación: las tablas están conectadas por una línea de puntos, lo que significa que la columna de referencia de la tabla secundaria no forma parte de la clave principal.
Auto-recursivo: una columna independiente de la tabla está conectada a la clave principal en una relación recursiva.

14. ¿Cuáles son algunos errores comunes que encuentra al modelar datos?

Puede ser complicado construir modelos de datos amplios. Las posibilidades de falla también aumentan cuando las tablas se ejecutan a más de 200. También es fundamental que el modelador de datos tenga un conocimiento práctico adecuado de la misión comercial. De lo contrario, los modelos de datos corren el riesgo de volverse locos.

Las claves sustitutas innecesarias plantean otro problema. No deben usarse con moderación, sino solo cuando las claves naturales no pueden cumplir el papel de la clave principal.

También se pueden encontrar situaciones de desnormalización inapropiada en las que mantener la redundancia de datos puede convertirse en un desafío considerable.

15. Discuta el DBMS jerárquico. ¿Cuáles son los inconvenientes de este modelo de datos?

Un DBMS jerárquico almacena datos en estructuras en forma de árbol. El formato utiliza la relación padre-hijo donde un padre puede tener muchos hijos, pero un hijo solo puede tener un padre.

Los inconvenientes de este modelo incluyen:

Falta de flexibilidad y adaptabilidad a las cambiantes necesidades comerciales;
Problemas de comunicación interdepartamental, interinstitucional y vertical;
Problemas de desunión en los datos.

16. Detalle dos tipos de técnicas de modelado de datos.

Entity-Relationship (ER) y Unified Modeling Language (UML) son las dos técnicas estándar de modelado de datos.

ER se utiliza en ingeniería de software para producir modelos de datos o diagramas de sistemas de información. UML es un lenguaje de propósito general para el desarrollo y modelado de bases de datos que ayuda a visualizar el diseño del sistema.

17. ¿Qué es una dimensión basura?

Una dimensión basura nace al combinar atributos de baja cardinalidad (indicadores, booleanos o valores de bandera) en una sola dimensión. Estos valores se eliminan de otras tablas y luego se agrupan o "desechan" en una tabla de dimensiones abstractas, que es un método para iniciar "dimensiones que cambian rápidamente" dentro de los almacenes de datos.

18. Indique algún software DBMS popular.

MySQL, Oracle, Microsoft Access, dBase, SQLite, PostgreSQL, IBM DB2 y Microsoft SQL Server son algunas de las herramientas DBMS más utilizadas en el campo del desarrollo de software moderno.

19. ¿Cuáles son las ventajas y desventajas de usar el modelado de datos?

Ventajas de utilizar la minería de datos:

Los datos empresariales se pueden gestionar mejor normalizando y definiendo atributos.
La minería de datos permite la integración de datos entre sistemas y reduce la redundancia.
Da paso a un diseño de base de datos eficiente.
Permite la cooperación interdepartamental y el trabajo en equipo.
Permite un fácil acceso a los datos.

Contras de usar el modelado de datos:

El modelado de datos a veces puede hacer que el sistema sea más complejo.
Tiene una dependencia estructural limitada.

20. Explicar la minería de datos y el análisis de modelos predictivos.

La minería de datos es una habilidad multidisciplinaria. Implica aplicar conocimientos de campos como la inteligencia artificial (IA), el aprendizaje automático (ML) y las tecnologías de bases de datos. Aquí, los profesionales se preocupan por descubrir los misterios de los datos y descubrir relaciones previamente desconocidas.

El modelado predictivo se refiere a probar y validar modelos que pueden predecir resultados específicos. Este proceso tiene varias aplicaciones en AI, ML y Estadísticas.

Perspectivas de carrera para aspirantes a modeladores de datos

Ya sea que esté buscando un nuevo trabajo, una promoción o una transición de carrera, mejorar sus habilidades en una disciplina relevante puede mejorar considerablemente sus posibilidades de contratación.

Debería considerar consultar el Programa Executive PG en ciencia de datos de IIIT-B y upGrad, que se creó para profesionales que trabajan y ofrece más de 10 estudios de casos y proyectos, talleres prácticos, tutoría con expertos de la industria, 1 a 1 con mentores de la industria , más de 400 horas de aprendizaje y asistencia laboral con las mejores empresas.

Con esto, terminamos esta discusión sobre trabajos y entrevistas de modelado de datos. ¡Estamos seguros de que los datos mencionados anteriormente que modelan las preguntas y respuestas de la entrevista lo ayudarán a aclarar sus áreas problemáticas y a desempeñarse mejor en el proceso de colocación!

¿Cuánto gana un modelador de datos al año?

Hay muchos factores que realmente afectarían el salario de cualquier individuo en el campo del modelado de datos. En promedio, el salario de un modelador de datos es Rs. 12,00,000 por año. Dependerá mucho de la empresa con la que estés trabajando. Incluso si está comenzando como modelador de datos, el paquete más bajo es Rs. 600,000 por año, mientras que el paquete más alto se puede esperar hasta Rs. 20,00,000 por año.

¿Es difícil descifrar una entrevista de modelado de datos?

El modelado de datos es un campo emergente con una gran demanda en el mercado. Por otro lado, la cantidad de profesionales que dominan el modelado de datos es bastante menor. La entrevista puede parecer un poco difícil si no se ha preparado adecuadamente, pero puede esperar una entrevista decente con la preparación adecuada.
Además de aclarar los fundamentos del modelado de datos, también debería preferir revisar algunas de las preguntas más frecuentes de las entrevistas. Esto hará que sea mucho más fácil para ti responder a las preguntas que se hacen en la entrevista, ya que ya tienes una idea sobre las diferentes preguntas que se hacen, así como la forma de responderlas.

¿Qué habilidades necesito tener para ser un Modelador de Datos?

Las habilidades requeridas para convertirse en un modelador de datos son bastante diferentes de las necesarias para ingresar a la administración o programación de sistemas. Por lo general, este tipo de trabajos exigen habilidades técnicas, pero aquí el caso es diferente. Uno debe estar bien versado en el lado lógico para convertirse en un modelador de datos. Algunas de las habilidades clave que uno necesita desarrollar son:
1. Diseño Conceptual
2. Comunicación Interna
3. Comunicación con el usuario
4. Pensamiento abstracto
Incluso si no es muy competente en el aspecto técnico, puede conseguir un trabajo como modelador de datos si puede pensar de manera abstracta y conceptual.