您应该亲身体验的 10 个 Github 数据科学项目 [2022]

已发表: 2021-01-09

随着数据科学席卷整个行业，对熟练且合格的数据科学专家的需求巨大。当然，目前市场的竞争是激烈的。在这种情况下，雇主不仅需要正规教育和专业证书，还需要实践经验。还有什么比数据科学项目更能证明您的价值并向潜在雇主展示您在现实世界中的数据科学技能！

如果您渴望进入数据科学领域，从头开始构建您的投资组合的最佳方式是从事数据科学项目。我们创建这篇文章是为了激励您开发自己的数据科学项目。

由于 GitHub 是数据科学项目想法的优秀存储库，因此这里是 GitHub 上的数据科学项目列表，您应该查看！要获得更多知识和实际应用，请查看我们来自顶尖大学的数据科学课程。

GitHub 上 10 个最佳数据科学项目

1.人脸识别

人脸识别项目利用深度学习和 HOG（定向梯度直方图）算法。该人脸识别系统旨在查找图像中的人脸（HOG 算法）、仿射变换（使用回归树的集合对齐人脸）、人脸编码（FaceNet）和进行预测（线性 SVM）。

使用 HOG 算法，您将计算 16×16 像素正方形的加权投票方向梯度，而不是计算特定图像的每个像素的梯度。这将生成一个代表人脸基本结构的 HOG 图像。在下一步中，您必须使用 dlib Python 库来创建和查看 HOG 表示，以找出图像的哪个部分与训练后的 HOG 模式最相似。

2. Kaggle 共享单车

自行车共享系统让您可以通过自动化系统预订和租用自行车/摩托车并归还它们。这个项目更像是一场 Kaggle 比赛，您必须将历史使用模式与天气数据相结合，以预测华盛顿特区 Capital Bikeshare 计划对自行车租赁服务的需求

这场 Kaggle 比赛的主要目的是创建一个可以预测租用自行车数量的 ML 模型（明确基于上下文特征）。挑战有两个部分。在第一部分中，您将专注于理解、分析和处理数据集，而第二部分则是关于使用 ML 库设计模型。

三、墨西哥政府报告文本分析

这个项目是 NLP 的一个很好的应用。 2019 年 9 月 1 日，墨西哥政府发布了 PDF 格式的年度报告。因此，您在这个项目中的目标是从 PDF 中提取文本、清理它、通过 NLP 管道运行它，并使用图形表示来可视化结果。

对于这个项目，您将不得不使用多个 Python 库，包括：

PyPDF2 从 PDF 文件中提取文本。
SpaCy 将提取的文本传递到 NLP 管道。
Pandas 从数据集中提取和分析见解。
NumPy 用于快速矩阵运算。
Matplotlib 用于设计绘图和图形。
Seaborn 用于改进绘图/图表的样式。
Geopandas 绘制地图。

4. 阿尔伯特

ALBERT 以 BERT 为基础，BERT 是谷歌的一个项目，它带来了 NLP 领域的彻底变革。它是 BERT 的增强实现，专为使用 TensorFlow 的自监督学习语言表示而设计。

在 BERT 中，预训练的模型非常庞大，因此将它们解包、插入模型并在本地机器上运行它们变得具有挑战性。这就是为什么需要 ALBERT 可以帮助您在主要基准测试中以少 30% 的参数实现最先进的性能。虽然 albert_base_zh 相比 BERT 只有 10% 的参数，但它仍然保留了 BERT 原有的准确率。

5. 字符串筛选器

如果您对网络安全感兴趣，您会喜欢从事这个项目的！由 FireEye 推出的 StringSifter 是一种 ML 工具，可以根据字符串的恶意软件分析相关性自动对字符串进行排名。

通常，标准恶意软件程序包括用于执行特定操作的字符串，例如创建注册表项、将文件从一个位置复制到另一个位置等。 StringSifter 是缓解网络威胁的绝佳解决方案。但是，您必须具有 Python 3.6 或更高版本才能运行和安装 StringSifter。

6. 铺瓦工

鉴于今天，Web 和在线平台充斥着图像，现代工业中处理图像数据的空间很大。因此，想象一下，如果您可以创建一个面向图像的项目，它将成为许多人的高价值资产。

Tiler 就是这样一个图像工具，它允许您通过组合许多不同类型的小图片或“图块”来创建独特的图像。根据 Tiler 的 GitHub 描述，您可以构建图像“线条、波浪、圆形、十字绣、Minecraft 积木、乐高、字母、回形针”等等。使用 Tiler，您将有无限可能进行创新的图像创作。

7. 深度点击率

DeepCTR 是“易于使用、模块化和可扩展的基于深度学习的 CTR 模型包”。它还包括许多其他重要元素和层，可以非常方便地构建自定义模型。

最初，DeepCTR 项目是在 TensorFlow 上设计的。虽然 TensorFlow 是一个值得称道的工具，但它并不是每个人都喜欢的。因此，创建了 DeepCTR-Torch 存储库。新版本包含 PyTorch 中完整的 DeepCTR 代码。您可以使用以下语句通过 pip 安装 DeepCTR：

pip install -U deepctr-torch

借助 DeepCTR，可以轻松使用带有 model.fit() 和 model.predict() 函数的任何复杂模型。

8.TubeMQ

有没有想过科技巨头和行业领导者如何存储、提取和管理他们的数据？它借助了腾讯开源的分布式消息队列 (MQ) 系统 TubeMQ 等工具。

TubeMQ 自 2013 年开始运行，它提供大量大数据的高性能存储和传输。由于它已经积累了七年多的数据存储和传输，TubeMQ 比其他 MQ 工具占上风。它承诺在生产实践中具有出色的性能和稳定性。另外，它的成本相对较低。 TubeMQ 用户指南提供了有关您需要了解的有关该工具的所有信息的详细文档。

9. 深度隐私

虽然我们每个人都喜欢不时沉迷于数字和社交媒体世界，但数字世界缺少的一件事（我们都同意）是隐私。一旦你在网上上传了一张自拍或一段视频，你甚至会被观看、分析和批评。在最坏的情况下，您的视频和图像最终可能会被操纵。

这就是为什么我们需要像 DeepPrivacy 这样的工具。它是一种利用GAN（生成对抗网络）的图像全自动匿名化技术。 DeepPrivacy 的 GAN 模型不会查看任何私人或敏感信息。但是，它可以生成完全匿名的图像。它可以通过研究和分析个人的原始姿势和背景图像来做到这一点。 DeepPrivacy 使用边界框注释来识别图像的隐私敏感区域。它进一步使用Mask R-CNN来稀疏人脸的姿态信息和DSFD来检测图像中的人脸。

10. IMDb电影评分预测系统

这个数据科学项目旨在甚至在电影上映之前对其进行评分。该项目分为三个部分。第一部分试图解析从 IMDb 网站积累的数据。这些数据将包括导演、制片人、演员制作、电影描述、奖项、类型、预算、总收入和 imdb_rating 等信息。您可以通过编写以下行来创建 movie_contents.json 文件：

python3 parser.py nb_elements

在项目的第二部分，目的是分析数据框并观察变量之间的相关性。例如，IMDb 分数是否与奖项数量和全球总票房相关。最后一部分将涉及使用机器学习（随机森林）根据最相关的变量预测 IMDb 评级。

包起来

这些是 GitHub 上一些最有用的数据科学项目，您可以重新创建这些项目以提高您在现实世界中的数据科学技能。您在构建数据科学项目上投入的时间和精力越多，您在模型构建方面的表现就会越好。

如果您想了解数据科学，请查看 IIIT-B 和 upGrad 的数据科学执行 PG 计划，该计划是为在职专业人士创建的，提供 10 多个案例研究和项目、实用的实践研讨会、行业专家的指导、1与行业导师一对一，400 多个小时的学习和顶级公司的工作协助。

为开源项目做贡献对我们有什么好处？

开源项目是那些源代码对所有人开放并且任何人都可以访问它并对其进行修改的项目。为开源项目做贡献是非常有益的，因为它不仅可以提高您的技能，还可以为您提供一些大项目来添加您的简历。由于许多大公司正在转向开源软件，如果您尽早开始贡献，它将对您有利。微软、谷歌、IBM 和思科等一些大公司已经以一种或另一种方式接受了开源。有一个由精通开源开发人员组成的大型社区，他们不断地为使软件更好和更新而做出贡献。社区对初学者非常友好，随时准备加强并欢迎新的贡献者。有很好的文档可以指导您为开源做出贡献。

HOG算法是什么？

定向梯度直方图或 HOG 是计算机视觉中使用的对象检测器。如果您熟悉边缘方向直方图，您可以与 HOG 联系起来。该方法用于测量图像某一部分中梯度方向的出现情况。 HOG 算法还用于计算 16×16 像素正方形的加权投票方向梯度，而不是计算特定图像的每个像素的梯度。该算法的实现分为5个步骤，即梯度计算、方向分箱、描述符块、块归一化和对象识别。

构建 ML 模型需要哪些步骤？

为了开发 ML 模型，必须遵循以下步骤：第一步是为您的模型收集数据集。这些数据的 80% 将用于训练，其余 20% 将用于测试和模型验证。然后，您需要为您的模型选择合适的算法。算法选择完全取决于问题类型和数据集。接下来是模型的训练。它包括针对各种输入运行模型并根据结果重新调整它。重复此过程，直到获得最准确的结果。