As 20 perguntas e respostas mais populares da entrevista sobre modelagem de dados [para iniciantes e experientes]

Publicados: 2021-06-10

Data Science é um dos campos de carreira mais lucrativos no mercado de trabalho atual. E à medida que a concorrência aumenta, as entrevistas de emprego também estão ficando mais inovadoras a cada dia. Os empregadores querem testar o conhecimento conceitual e a compreensão prática dos candidatos sobre assuntos relevantes e ferramentas tecnológicas. Neste blog, discutiremos algumas perguntas relevantes de entrevista de modelagem de dados para ajudá-lo a causar uma primeira impressão poderosa!

Índice

Principais perguntas e respostas da entrevista de modelagem de dados

Aqui estão 20 perguntas de entrevista de modelagem de dados, juntamente com as respostas de amostra que o guiarão pelos níveis iniciante, intermediário e avançado do tópico.

1. O que é Modelagem de Dados? Liste os tipos de modelos de dados.

A modelagem de dados envolve criar uma representação (ou modelo) dos dados disponíveis e armazená-los em um banco de dados.

Um modelo de dados compreende entidades (como clientes, produtos, fabricantes e vendedores) que dão origem a objetos e atributos que os usuários desejam rastrear. Por exemplo, um Nome de Cliente é um atributo da entidade Cliente. Esses detalhes assumem ainda a forma de uma tabela em um banco de dados.

Existem três tipos básicos de modelos de dados, a saber:

  • Conceitual: arquitetos de dados e partes interessadas de negócios criam esse modelo para organizar, definir o escopo e definir conceitos de negócios. Ele determina o que um sistema deve conter.
  • Lógico: Construído por arquitetos de dados e analistas de negócios, este modelo mapeia as regras técnicas e estruturas de dados, determinando assim a implementação do sistema independente de um sistema de gerenciamento de banco de dados ou SGBD.
  • Físico: Arquitetos e desenvolvedores de banco de dados criam este modelo para descrever como o sistema deve operar com um SGBD específico.

2. O que é uma Tabela? Explique Fato e Tabela de Fatos.

Uma tabela contém dados em linhas (alinhamentos horizontais) e colunas (alinhamentos verticais). As linhas também são conhecidas como registros ou tuplas, enquanto as colunas podem ser chamadas de campos.

Um fato são dados quantitativos como “vendas líquidas” ou “valor devido”. Uma tabela de fatos armazena dados numéricos, bem como alguns atributos de tabelas dimensionais.

3. O que você quer dizer com (i) dimensão (ii) granularidade (iv) dispersão de dados (v) hashing (v) sistema de gerenciamento de banco de dados?

(i) As dimensões representam dados qualitativos como classe e produto. Portanto, uma tabela dimensional contendo dados do produto terá atributos como categoria do produto, nome do produto etc.

(ii) Granularidade refere-se ao nível de informação armazenada em uma tabela. Pode ser alto ou baixo, com as tabelas contendo dados em nível de transação e tabelas de fatos, respectivamente.

(iii) Esparsidade de dados significa o número de células vazias em um banco de dados. Em outras palavras, indica quantos dados temos para uma determinada entidade ou dimensão no modelo de dados. Informações insuficientes levam a bancos de dados grandes, pois é necessário mais espaço para salvar as agregações.

(iv) A técnica de hash ajuda a pesquisar valores de índice para recuperar os dados desejados. Ele é usado para calcular a localização direta de registros de dados com a ajuda de estruturas de índice.

(v) Um Sistema de Gerenciamento de Banco de Dados (SGBD) é um software que compreende um grupo de programas para manipulação do banco de dados. Seu objetivo principal é armazenar e recuperar dados do usuário.

4. Defina Normalização. Qual é seu propósito?

A técnica de normalização divide tabelas maiores em menores, ligando-as usando diferentes relacionamentos. Ele organiza as tabelas de forma a minimizar a dependência e redundância dos dados.

Pode haver cinco tipos de normalizações, a saber:

  • Primeira forma normal
  • Segunda forma normal
  • Terceira forma normal
  • Boyce-Codd quarta forma normal
  • Quinta forma normal

5. Qual é a utilidade da desnormalização na modelagem de dados?

A desnormalização é usada para construir um data warehouse, especialmente em situações com amplo envolvimento de tabelas. Essa estratégia é utilizada em um banco de dados previamente normalizado.

6. Elucidar as diferenças entre chave primária, chave primária composta, chave estrangeira e chave substituta.

Uma chave primária é um pilar em todas as tabelas de dados. Denota uma coluna ou um grupo de colunas e permite identificar as linhas de uma tabela. O valor da chave primária não pode ser nulo. Quando mais de uma coluna é aplicada como parte da chave primária, ela é conhecida como chave primária composta.

Por outro lado, uma chave estrangeira é um grupo de atributos que permite vincular tabelas pai e filho. O valor da chave estrangeira na tabela filha é referenciado como o valor da chave primária na tabela pai.

Uma chave substituta é usada para identificar cada registro nas situações em que os usuários não possuem uma chave primária natural. Essa chave artificial normalmente é representada como um inteiro e não dá nenhum significado aos dados contidos na tabela.

7. Compare o sistema OLTP com o processo OLAP.

O OLTP é um sistema transacional online que se baseia em bancos de dados tradicionais para realizar operações de negócios em tempo real. O banco de dados OLTP possui tabelas normalizadas e o tempo de resposta geralmente é de milissegundos.

Por outro lado, o OLAP é um processo online destinado à análise e recuperação de dados. Ele é projetado para analisar grandes volumes de medidas de negócios por categoria e atributos. Ao contrário do OLTP, o OLAP utiliza um data warehouse, tabelas não normalizadas e opera com um tempo de resposta de segundos a minutos.

8. Liste os designs de esquema de banco de dados padrão.

Um esquema é um diagrama ou ilustração de relacionamentos e estruturas de dados. Existem dois designs de esquema na modelagem de dados, ou seja, esquema em estrela e esquema em floco de neve.

  • Um esquema em estrela compreende uma tabela de fatos central e várias tabelas de dimensão que estão conectadas a ela. A chave primária das tabelas de dimensão é uma chave estrangeira na tabela de fatos.
  • Um esquema de floco de neve tem a mesma tabela de fatos que o esquema em estrela, mas em um nível mais alto de normalização. As tabelas de dimensão são normalizadas ou possuem várias camadas, que se assemelham a um floco de neve.

9. Explique dados discretos e contínuos.

Dados discretos finitos e definidos, como sexo, telefones, etc. Por outro lado, dados contínuos mudam de forma ordenada; por exemplo, idade, temperatura, etc.

10. O que são algoritmos de agrupamento de sequências e séries temporais?

Um algoritmo de agrupamento de sequências coleta:

  • Sequências de dados com eventos e
  • Caminhos relacionados ou semelhantes.

Os algoritmos de série temporal preveem valores contínuos em tabelas de dados. Por exemplo, ele pode prever os números de vendas e lucros com base no desempenho dos funcionários ao longo do tempo.

Agora que você aprimorou seus conceitos básicos, aqui estão dez perguntas de modelagem de dados mais frequentes para sua prática!

11. Descreva o processo de armazenamento de dados.

O armazenamento de dados conecta e gerencia dados brutos de fontes heterogêneas. Esse processo de coleta e análise de dados permite que as empresas obtenham insights significativos de vários locais em um só lugar, que forma o núcleo do Business Intelligence.

12. Quais são as principais diferenças entre um data mart e um data warehouse?

Um data mart permite decisões táticas para o crescimento dos negócios, concentrando-se em uma única área de negócios e seguindo um modelo de baixo para cima. Por outro lado, um data warehouse facilita a tomada de decisões estratégicas, enfatizando várias áreas e fontes de dados e adotando uma abordagem de cima para baixo.

13. Mencione os tipos de relacionamentos críticos encontrados nos modelos de dados.

Os relacionamentos críticos podem ser categorizados em:

  • Identificação: conecta as tabelas pai e filho com uma linha grossa. A coluna de referência da tabela filha faz parte da chave primária.
  • Não identificadora: As tabelas são conectadas por uma linha pontilhada, significando que a coluna de referência da tabela filha não faz parte da chave primária.
  • Auto-recursiva: uma coluna autônoma da tabela é conectada à chave primária em um relacionamento recursivo.

14. Quais são alguns erros comuns que você encontra ao modelar dados?

Pode ser complicado construir modelos de dados amplos. As chances de falha também aumentam quando as tabelas são executadas acima de 200. Também é fundamental que o modelador de dados tenha um conhecimento prático adequado da missão de negócios. Caso contrário, os modelos de dados correm o risco de dar errado.

Chaves substitutas desnecessárias representam outro problema. Eles não devem ser usados ​​com moderação, mas apenas quando as chaves naturais não podem cumprir a função da chave primária.

Pode-se também encontrar situações de desnormalização inadequada onde manter a redundância de dados pode se tornar um desafio considerável.

15. Discuta o DBMS hierárquico. Quais são as desvantagens desse modelo de dados?

Um DBMS hierárquico armazena dados em estruturas semelhantes a árvores. O formato usa o relacionamento pai-filho onde um pai pode ter muitos filhos, mas um filho só pode ter um pai.

As desvantagens deste modelo incluem:

  • Falta de flexibilidade e adaptabilidade às necessidades de negócios em constante mudança;
  • Questões em comunicações interdepartamentais, interagências e verticais;
  • Problemas de desunião nos dados.

16. Detalhe dois tipos de técnicas de modelagem de dados.

Entidade-Relacionamento (ER) e Linguagem de Modelagem Unificada (UML) são as duas técnicas de modelagem de dados padrão.

ER é usado em engenharia de software para produzir modelos de dados ou diagramas de sistemas de informação. UML é uma linguagem de uso geral para desenvolvimento e modelagem de banco de dados que ajuda a visualizar o design do sistema.

17. O que é uma dimensão lixo?

Uma dimensão lixo nasce combinando atributos de baixa cardinalidade (indicadores, booleanos ou valores de sinalizador) em uma dimensão. Esses valores são removidos de outras tabelas e, em seguida, agrupados ou "juntados" em uma tabela de dimensão abstrata, que é um método de iniciar 'Dimensões de mudança rápida' em data warehouses.

18. Indique algum software DBMS popular.

MySQL, Oracle, Microsoft Access, dBase, SQLite, PostgreSQL, IBM DB2 e Microsoft SQL Server são algumas das ferramentas de DBMS mais usadas na arena moderna de desenvolvimento de software.

19. Quais são as vantagens e desvantagens de usar modelagem de dados?

Prós de usar mineração de dados:

  • Os dados de negócios podem ser melhor gerenciados normalizando e definindo atributos.
  • A mineração de dados permite a integração de dados entre sistemas e reduz a redundância.
  • Ele abre caminho para um design de banco de dados eficiente.
  • Permite a cooperação interdepartamental e o trabalho em equipe.
  • Permite fácil acesso aos dados.

Contras de usar modelagem de dados:

  • A modelagem de dados às vezes pode tornar o sistema mais complexo.
  • Tem uma dependência estrutural limitada.

20. Explique a mineração de dados e a análise de modelagem preditiva.

A mineração de dados é uma habilidade multidisciplinar. Envolve a aplicação de conhecimentos de áreas como Inteligência Artificial (IA), Aprendizado de Máquina (ML) e Tecnologias de Banco de Dados. Aqui, os profissionais estão preocupados em desvendar os mistérios dos dados e descobrir relacionamentos anteriormente desconhecidos.

A modelagem preditiva refere-se a testar e validar modelos que podem prever resultados específicos. Esse processo tem várias aplicações em IA, ML e Estatística.

Insights de carreira para aspirantes a modeladores de dados

Esteja você procurando um novo emprego, promoção ou transição de carreira, a qualificação em uma disciplina relevante pode melhorar consideravelmente suas chances de contratação.

Você deve considerar conferir o Programa PG Executivo em Ciência de Dados do IIIT-B & upGrad, que é criado para profissionais que trabalham e oferece mais de 10 estudos de caso e projetos, workshops práticos práticos, orientação com especialistas do setor, 1-on-1 com mentores do setor , mais de 400 horas de aprendizado e assistência no trabalho com as principais empresas.

Com isso, encerramos esta discussão sobre trabalhos de modelagem de dados e entrevistas. Temos certeza de que os dados mencionados acima, modelando as perguntas e respostas da entrevista, ajudarão você a esclarecer suas áreas problemáticas e a ter um melhor desempenho no processo de colocação!

Quanto ganha um Modelador de Dados por ano?

Existem muitos fatores que realmente afetariam o salário de qualquer indivíduo no campo da modelagem de dados. Em média, o salário de um modelador de dados é de Rs. 12.00.000 por ano. Vai depender muito da empresa com a qual você está trabalhando. Mesmo se você estiver começando como modelador de dados, o pacote mais baixo custa Rs. 600.000 por ano, enquanto o pacote mais alto que se pode esperar até Rs. 20.00.000 por ano.

É difícil quebrar uma entrevista de modelagem de dados?

A modelagem de dados é um campo emergente com uma enorme demanda no mercado. Por outro lado, o número de profissionais proficientes em modelagem de dados é bem menor. A entrevista pode parecer um pouco difícil se você não se preparou adequadamente, mas pode esperar uma entrevista decente com preparação adequada.
Além de esclarecer os fundamentos da modelagem de dados, você também deve preferir passar por algumas das perguntas mais frequentes da entrevista. Isso tornará muito mais fácil para você responder às perguntas feitas na entrevista, pois você já tem uma ideia sobre as diferentes perguntas que estão sendo feitas, bem como a maneira de respondê-las.

Quais habilidades eu preciso ter para ser um Data Modeler?

As habilidades necessárias para se tornar um modelador de dados são bem diferentes daquelas necessárias para entrar em administração de sistemas ou programação. Normalmente, esses tipos de trabalho exigem habilidades técnicas, mas o caso é diferente aqui. É preciso ser bem versado no lado lógico para se tornar um modelador de dados. Algumas das principais habilidades que você precisa desenvolver são:
1. Projeto Conceitual
2. Comunicação Interna
3. Comunicação do usuário
4. Pensamento Abstrato
Mesmo que você não seja muito proficiente no lado técnico, pode conseguir um emprego como modelador de dados se puder pensar abstrata e conceitualmente.