Os 10 principais projetos de ciência de dados no Github que você deve colocar em prática [2022]
Publicados: 2021-01-09Com a Data Science tomando o setor de assalto, há uma enorme demanda por especialistas em Data Science qualificados e qualificados. Naturalmente, a concorrência no mercado atual é acirrada. Nesse cenário, os empregadores não apenas buscam educação formal e certificações profissionais, mas também demandam experiência prática. E nada melhor do que projetos de ciência de dados para provar seu valor e mostrar suas habilidades de ciência de dados do mundo real para potenciais empregadores!
Se você deseja entrar no domínio da Ciência de Dados, a melhor maneira de construir seu portfólio desde o início é trabalhar em projetos de Ciência de Dados. Criamos este post para inspirar você a desenvolver seus próprios projetos de Data Science.
Como o GitHub é um excelente repositório de ideias de projetos de Data Science, aqui está uma lista de projetos de Data Science no GitHub que você deve conferir! Para obter mais conhecimento e aplicações práticas, confira nossos cursos de ciência de dados das melhores universidades.
Índice
10 melhores projetos de ciência de dados no GitHub
1. Reconhecimento facial
O projeto de reconhecimento facial utiliza Deep Learning e o algoritmo HOG ( Histogram of Oriented Gradients ). Este sistema de reconhecimento de rosto é projetado para encontrar rostos em uma imagem (algoritmo HOG), transformações afins (alinhar rostos usando um conjunto de árvores de regressão), codificação de rosto (FaceNet) e fazer previsões (SVM linear).
Usando o algoritmo HOG, você calculará os gradientes de orientação de voto ponderados de quadrados de 16 × 16 pixels, em vez de calcular gradientes para cada pixel de uma imagem específica. Isso gerará uma imagem HOG que representa a estrutura fundamental de um rosto. Na próxima etapa, você deve usar a biblioteca dlib Python para criar e visualizar representações HOG para descobrir qual parte da imagem tem a maior semelhança com o padrão HOG treinado.
2. Compartilhamento de bicicletas Kaggle
Os sistemas de compartilhamento de bicicletas permitem que você reserve e alugue bicicletas/motos e também as devolva, tudo por meio de um sistema automatizado. Este projeto é mais como uma competição Kaggle em que você terá que combinar padrões históricos de uso com dados climáticos para prever a demanda por serviços de aluguel de bicicletas para o programa Capital Bikeshare em Washington, DC
O objetivo principal desta competição Kaggle é criar um modelo de ML (baseado explicitamente em recursos contextuais) que possa prever o número de bicicletas alugadas. O desafio tem duas partes. Enquanto na primeira parte, você se concentrará em entender, analisar e processar os conjuntos de dados, a segunda parte trata de projetar o modelo usando uma biblioteca de ML.
3. Análise do Texto do Relatório do Governo Mexicano
Este projeto é uma excelente aplicação da PNL. Em 1º de setembro de 2019, o governo mexicano divulgou um relatório anual em formato PDF. Portanto, seu objetivo neste projeto será extrair texto do PDF, limpá-lo, executá-lo por meio de um pipeline de NLP e visualizar os resultados usando representações gráficas.
Para este projeto, você terá que usar várias bibliotecas Python, incluindo:
- PyPDF2 para extrair texto de arquivos PDF.
- SpaCy para passar o texto extraído para um pipeline de NLP.
- Pandas para extrair e analisar insights de conjuntos de dados.
- NumPy para operações de matriz rápidas.
- Matplotlib para projetar plotagem e gráficos.
- Seaborn para melhorar o estilo de plotagens/gráficos.
- Geopandas para traçar mapas.
4. ALBERTO
ALBERT é baseado no BERT, um projeto do Google que trouxe uma mudança radical no campo da PNL. É uma implementação aprimorada do BERT, projetada para representações de linguagem de aprendizado autossupervisionadas usando o TensorFlow.
No BERT, os modelos pré-treinados são enormes e, portanto, torna-se um desafio descompactá-los, conectá-los a um modelo e executá-los em máquinas locais. É por isso que a necessidade de ALBERT ajuda você a obter desempenho de última geração nos principais benchmarks com 30% a menos de parâmetros. Embora o albert_base_zh tenha apenas 10% de parâmetros em comparação com o BERT, ele ainda mantém a precisão original do BERT.
5. Peneirador de Cordas
Se a cibersegurança lhe interessa, você vai adorar trabalhar neste projeto! Lançado pela FireEye, o StringSifter é uma ferramenta de ML que pode classificar automaticamente as strings com base na relevância da análise de malware.
Normalmente, os programas de malware padrão incluem strings para realizar operações específicas, como criar a chave do registro, copiar arquivos de um local para outro e assim por diante. StringSifter é uma solução fantástica para mitigar ameaças cibernéticas. No entanto, você deve ter o Python versão 3.6 ou superior para executar e instalar o StringSifter.
6. Ladrilhador
Dado o fato de que hoje a Web e as plataformas online estão inundadas com imagens, há um vasto escopo para trabalhar com dados de imagem na indústria moderna. Então, imagine se você conseguir criar um projeto voltado para a imagem, será um ativo altamente valorizado para muitos.
O Tiler é uma ferramenta de imagem que permite criar imagens únicas combinando muitos tipos diferentes de imagens menores ou “ladrilhos”. De acordo com a descrição do Tiler no GitHub, você pode construir uma imagem “linhas, ondas, fora de círculos, pontos de cruz, blocos de Minecraft, legos, letras, clipes de papel” e muito mais. Com o Tiler, você terá infinitas possibilidades para fazer criações de imagens inovadoras.

7. DeepCTR
O DeepCTR é um “pacote fácil de usar, modular e extensível de modelos de CTR baseados em Deep Learning”. Ele também inclui vários outros elementos e camadas vitais que podem ser muito úteis para a construção de modelos personalizados.
Originalmente, o projeto DeepCTR foi desenvolvido no TensorFlow. Embora o TensorFlow seja uma ferramenta louvável, não é a xícara de chá de todos. Assim, o repositório DeepCTR-Torch foi criado. A nova versão inclui o código DeepCTR completo no PyTorch. Você pode instalar o DeepCTR via pip usando a seguinte instrução:
pip install -U deepctr-torch
Com o DeepCTR, fica fácil usar qualquer modelo complexo com funções model.fit() e model.predict().
8. TubeMQ
Você já se perguntou como os gigantes da tecnologia e os líderes do setor armazenam, extraem e gerenciam seus dados? É com a ajuda de ferramentas como TubeMQ, o sistema de filas de mensagens distribuídas (MQ) de código aberto da Tencent.
O TubeMQ está em funcionamento desde 2013 e oferece armazenamento e transmissão de alto desempenho de grandes volumes de big data. Uma vez que acumulou mais de sete anos de armazenamento e transmissão de dados, o TubeMQ tem vantagem sobre outras ferramentas MQ. Ele promete excelente desempenho e estabilidade na prática de produção. Além disso, tem um custo relativamente baixo. O guia do usuário do TubeMQ fornece documentação detalhada sobre tudo o que você precisa saber sobre a ferramenta.
9. Privacidade profunda
Embora cada um de nós goste de entrar no mundo digital e da mídia social de tempos em tempos, uma coisa (que todos concordamos) está faltando no mundo digital é a privacidade. Depois de enviar uma selfie ou um vídeo online, você será assistido, analisado e até criticado. Na pior das hipóteses, seus vídeos e imagens podem acabar sendo manipulados.
É por isso que precisamos de ferramentas como DeepPrivacy. É uma técnica de anonimização totalmente automática para imagens que utiliza GAN (generative adversarial network) . O modelo GAN do DeepPrivacy não visualiza nenhuma informação privada ou sensível. No entanto, pode gerar uma imagem totalmente anônima. Pode fazê-lo estudando e analisando a pose original do(s) indivíduo(s) e a imagem de fundo. O DeepPrivacy usa a anotação de caixa delimitadora para identificar a área sensível à privacidade de uma imagem. Ele ainda usa Mask R-CNN para informações de pose esparsas de rostos e DSFD para detectar rostos na imagem.
10. Sistema de previsão de classificação de filmes do IMDb
Este projeto de Data Science visa avaliar um filme antes mesmo de ele ser lançado. O projeto está dividido em três partes. A primeira parte busca analisar os dados acumulados no site do IMDb. Esses dados incluirão informações como diretores, produtores, produção de elenco, descrição do filme, prêmios, gêneros, orçamento, bruto e imdb_rating. Você pode criar o arquivo movie_contents.json escrevendo a seguinte linha:
python3 parser.py nb_elements
Na segunda parte do projeto, o objetivo é analisar os quadros de dados e observar as correlações entre as variáveis. Por exemplo, se a pontuação do IMDb está ou não correlacionada com o número de prêmios e o bruto mundial. A parte final envolverá o uso de Machine Learning (Random Forest) para prever a classificação do IMDb com base nas variáveis mais relevantes.
Empacotando
Estes são alguns dos projetos de ciência de dados mais úteis no GitHub que você pode recriar para aprimorar suas habilidades de ciência de dados do mundo real. Quanto mais tempo e esforço você investir na construção de projetos de Data Science, melhor você ficará na construção de modelos.
Se você está curioso para aprender sobre ciência de dados, confira o Programa PG Executivo em Ciência de Dados do IIIT-B & upGrad, que é criado para profissionais que trabalham e oferece mais de 10 estudos de caso e projetos, workshops práticos práticos, orientação com especialistas do setor, 1 -on-1 com mentores do setor, mais de 400 horas de aprendizado e assistência de trabalho com as principais empresas.
Como contribuir para projetos de código aberto nos beneficia?
Projetos de código aberto são aqueles cujo código-fonte é aberto a todos e qualquer pessoa pode acessá-lo para fazer modificações nele. Contribuir para projetos de código aberto é altamente benéfico, pois não apenas aprimora suas habilidades, mas também oferece alguns grandes projetos para colocar em seu currículo. Como muitas grandes empresas estão mudando para software de código aberto, será lucrativo para você se você começar a contribuir com antecedência. Alguns dos grandes nomes como Microsoft, Google, IBM e Cisco adotaram o código aberto de uma forma ou de outra. Existe uma grande comunidade de desenvolvedores de código aberto proficientes por aí que estão constantemente contribuindo para tornar o software melhor e atualizado. A comunidade é altamente amigável para iniciantes e está sempre pronta para dar as boas-vindas a novos contribuidores. Há uma boa documentação que pode orientar sua maneira de contribuir para o código aberto.
O que é o algoritmo HOG?
Histograma de gradientes orientados ou HOG é um detector de objetos usado em visões de computador. Se você estiver familiarizado com os histogramas de orientação de bordas, poderá se relacionar com HOG. Este método é usado para medir as ocorrências das orientações de gradiente em uma determinada parte de uma imagem. O algoritmo HOG também é usado para calcular os gradientes de orientação de voto ponderados de quadrados de 16 × 16 pixels, em vez de calcular gradientes para cada pixel de uma imagem específica. A implementação deste algoritmo é dividida em 5 etapas que são: computação de gradiente, binning de orientação, blocos descritores, normalização de blocos e reconhecimento de objetos.
Quais são as etapas necessárias para criar um modelo de ML?
As etapas a seguir devem ser seguidas para desenvolver um modelo de ML: A primeira etapa é reunir o conjunto de dados para seu modelo. 80% desses dados serão usados no treinamento e os 20% restantes serão usados nos testes e validação do modelo. Então, você precisa selecionar um algoritmo adequado para o seu modelo. A seleção do algoritmo depende totalmente do tipo de problema e do conjunto de dados. Em seguida vem o treinamento do modelo. Inclui executar o modelo em várias entradas e reajustá-lo de acordo com os resultados. Este processo é repetido até que os resultados mais precisos sejam alcançados.