Processo de ciência de dados: compreensão, coleta de dados, modelagem, implantação e verificação

Publicados: 2021-02-09

Os projetos de Data Science na indústria geralmente são seguidos como um ciclo de vida bem definido que adiciona estrutura ao projeto e define metas claras para cada etapa. Existem muitas dessas metodologias disponíveis, como CRISP-DM, OSEMN, TDSP, etc. Existem vários estágios em um processo de ciência de dados relacionados a tarefas específicas que os diferentes membros de uma equipe executam.

Sempre que um problema de Data Science chega do cliente, ele precisa ser resolvido e produzido para o cliente de forma estruturada. Essa estrutura garante que o processo completo ocorra perfeitamente, pois envolve várias pessoas trabalhando em suas funções específicas, como arquiteto de soluções, gerente de projeto, líder de produto, engenheiro de dados, cientista de dados, líder de DevOps etc. garantir que a qualidade do produto final seja boa e que os projetos sejam concluídos no prazo.

Ao final deste tutorial, você saberá o seguinte:

  • Compreensão do negócio
  • Coleção de dados
  • Modelagem
  • Desdobramento, desenvolvimento
  • Validação do cliente

Índice

Compreensão do negócio

Ter conhecimento de negócios e dados é de extrema importância. Precisamos decidir quais alvos precisamos prever para resolver o problema em questão. Também precisamos entender de quais fontes podemos obter os dados e se novas fontes precisam ser criadas.

As metas do modelo podem ser preços de imóveis, idade do cliente, previsão de vendas, etc. Essas metas precisam ser decididas trabalhando com o cliente que tem conhecimento completo de seu produto e problema. A segunda tarefa mais importante é saber que tipo de previsão é o alvo.

Seja Regressão ou Classificação ou Clustering ou mesmo recomendação. Os papéis dos membros precisam ser decididos e também quais e quantas pessoas serão necessárias para concluir o projeto. As métricas para o sucesso também são decididas para garantir que a solução produza resultados que sejam pelo menos aceitáveis.

As fontes de dados precisam ser identificadas que podem fornecer os dados necessários para prever as metas decididas acima. Também pode haver a necessidade de construir pipelines para coletar dados de fontes específicas que podem ser um fator importante para o sucesso do projeto.

Coleção de dados

Depois que os dados são identificados, em seguida, precisamos de sistemas para ingerir efetivamente os dados e usá-los para processamento e exploração adicionais, configurando pipelines. O primeiro passo é identificar o tipo de origem. Se for no local ou na nuvem. Precisamos ingerir esses dados no ambiente analítico onde faremos outros processos nele.

Uma vez que os dados são ingeridos, passamos para a etapa mais crucial do Processo de Ciência de Dados, que é a Análise Exploratória de Dados (EDA). EDA é o processo de analisar e visualizar os dados para ver quais são todos os problemas de formatação e dados ausentes.

Todas as discrepâncias precisam ser normalizadas antes de prosseguir com a exploração de dados para descobrir padrões e outras informações relevantes. Este é um processo iterativo e também inclui a plotagem de vários tipos de tabelas e gráficos para ver as relações entre os recursos e dos recursos com o destino.

Os pipelines precisam ser configurados para transmitir regularmente novos dados em seu ambiente e atualizar os bancos de dados existentes. Antes de configurar pipelines, outros fatores precisam ser verificados. Por exemplo, se os dados devem ser transmitidos em lote ou on-line, se serão de alta ou baixa frequência.

Modelagem e Avaliação

O processo de modelagem é o estágio central onde ocorre o Machine Learning. O conjunto certo de recursos precisa ser decidido e o modelo treinado neles usando os algoritmos certos. O modelo treinado precisa então ser avaliado para verificar sua eficiência e desempenho em dados reais.

A primeira etapa é chamada de Engenharia de Recursos, onde usamos o conhecimento do estágio anterior para determinar os recursos importantes que melhoram o desempenho do nosso modelo. A engenharia de recursos é o processo de transformar recursos em novas formas e até mesmo combinar recursos para formar novos recursos.

Isso deve ser feito com cuidado para evitar o uso de muitos recursos que podem deteriorar o desempenho em vez de melhorar. Comparando as métricas, se cada modelo pode ajudar a decidir esse fator, juntamente com as importâncias do recurso em relação ao destino.

Assim que o conjunto de recursos estiver pronto, o modelo precisa ser treinado em vários tipos de algoritmos para ver qual deles apresenta o melhor desempenho. Isso também é chamado de algoritmos de verificação pontual. Os algoritmos de melhor desempenho são então levados adiante para ajustar seus parâmetros para um desempenho ainda melhor. As métricas são comparadas para cada algoritmo e cada configuração de parâmetro para determinar qual modelo é o melhor de todos.

Desdobramento, desenvolvimento

O modelo finalizado após a etapa anterior agora precisa ser implantado no ambiente de produção para se tornar utilizável e testar em dados reais. O modelo precisa ser operacionalizado na forma de aplicativos móveis/web ou painéis ou software interno da empresa.

Os modelos podem ser implantados na nuvem (AWS, GCP, Azure) ou em servidores locais, dependendo da carga esperada e dos aplicativos. O desempenho do modelo precisa ser monitorado continuamente para garantir que todos os problemas sejam evitados.

O modelo também precisa ser treinado novamente em novos dados sempre que chegar por meio dos pipelines definidos em um estágio anterior. Esta reciclagem pode ser offline ou online. No modo offline, o aplicativo é desativado, o modelo é treinado novamente e, em seguida, reimplantado no servidor.

Diferentes tipos de estruturas da Web são usados ​​para desenvolver o aplicativo de back-end que recebe os dados do aplicativo de front-end e os alimenta no modelo no servidor. Essa API então envia de volta as previsões do modelo de volta para o aplicativo de front-end. Alguns exemplos de frameworks web são Flask, Django e FastAPI.

Validação do cliente

Esta é a etapa final de um Processo de Ciência de Dados onde o projeto é finalmente entregue ao cliente para seu uso. O cliente deve ser guiado pelo aplicativo, seus detalhes e seus parâmetros. Também pode incluir um relatório de saída que contenha todos os aspectos técnicos do modelo e seus parâmetros de avaliação. O cliente precisa confirmar a aceitação do desempenho e precisão alcançados pelo modelo.

O ponto mais importante que deve ser mantido em mente é que o cliente ou o cliente pode não ter o conhecimento técnico de Data Science. Portanto, é dever da equipe fornecer todos os detalhes de uma forma e linguagem que possam ser facilmente compreendidas pelo cliente.

Antes de você ir

O Data Science Process varia de uma organização para outra, mas pode ser generalizado nas 5 principais etapas que discutimos. Pode haver mais estágios entre esses estágios para dar conta de tarefas mais específicas, como limpeza de dados e relatórios. No geral, qualquer projeto de Data Science deve cuidar dessas 5 etapas e garantir a adesão a elas em todos os projetos. Seguir esse processo é um passo importante para garantir o sucesso de todos os projetos de Data Science.

A estrutura do Data Science Program foi projetada para facilitar você a se tornar um verdadeiro talento na área de Data Science, o que facilita a conquista do melhor empregador do mercado. Registre-se hoje para começar sua jornada de aprendizado com o upGrad!

Qual é o primeiro passo no processo de ciência de dados?

O primeiro passo no processo de ciência de dados é definir seu objetivo. Antes da coleta de dados, modelagem, implantação ou qualquer outra etapa, você deve definir o objetivo de sua pesquisa.
Você deve ser minucioso com os “3W's” do seu projeto – o que, por que e como. “Quais são as expectativas do seu cliente? Por que sua empresa valoriza sua pesquisa? E como você vai prosseguir com sua pesquisa?”
Se você for capaz de responder a todas essas perguntas, estará pronto para a próxima etapa de sua pesquisa. Para responder a essas perguntas, suas habilidades não técnicas, como perspicácia nos negócios, são mais cruciais do que suas habilidades técnicas.

Como você modela seu processo?

O processo de modelagem é uma etapa crucial em um processo de ciência de dados e, para isso, usamos Machine Learning. Alimentamos nosso modelo com o conjunto certo de dados e o treinamos com algoritmos apropriados. As seguintes etapas são levadas em consideração ao modelar um processo:
1. O primeiro passo é a Engenharia de Recursos. Essa etapa leva em consideração as informações coletadas anteriormente, determina os recursos essenciais para o modelo e os combina para formar recursos novos e mais evoluídos.
2, Esta etapa deve ser realizada com cautela, pois muitos recursos podem acabar deteriorando nosso modelo em vez de evoluí-lo.
3. Em seguida, determinamos os algoritmos de verificação pontual. Esses algoritmos são aqueles nos quais o modelo precisa ser treinado após a aquisição de novos recursos.
4. Dentre eles, escolhemos os algoritmos de melhor desempenho e os ajustamos para aprimorar suas habilidades. Para comparar e encontrar o melhor modelo, consideramos a métrica de diferentes algoritmos.

Qual deve ser a abordagem para apresentar o projeto ao cliente?

Esta é a etapa final do ciclo de vida de um projeto de ciência de dados. Esta etapa deve ser tratada com cuidado, caso contrário todos os seus esforços podem ser em vão. O cliente deve ser orientado minuciosamente para cada aspecto do seu projeto. Uma apresentação do PowerPoint em seu modelo pode ser o ponto positivo para você.
Uma coisa a se ter em mente é que seu cliente pode ou não ser da área técnica. Portanto, você não deve usar palavras técnicas básicas. Procure apresentar as aplicações e parâmetros do seu projeto em linguagem leiga para que fique claro para seus clientes.