您應該親身體驗的 10 個 Github 數據科學項目 [2022]

已發表: 2021-01-09

隨著數據科學席捲整個行業，對熟練且合格的數據科學專家的需求巨大。當然，目前市場的競爭是激烈的。在這種情況下，雇主不僅需要正規教育和專業證書，還需要實踐經驗。還有什麼比數據科學項目更能證明您的價值並向潛在雇主展示您在現實世界中的數據科學技能！

如果您渴望進入數據科學領域，從頭開始構建您的投資組合的最佳方式是從事數據科學項目。我們創建這篇文章是為了激勵您開發自己的數據科學項目。

由於 GitHub 是數據科學項目想法的優秀存儲庫，因此這裡是 GitHub 上的數據科學項目列表，您應該查看！要獲得更多知識和實際應用，請查看我們來自頂尖大學的數據科學課程。

GitHub 上 10 個最佳數據科學項目

1.人臉識別

人臉識別項目利用深度學習和 HOG（定向梯度直方圖）算法。該人臉識別系統旨在在圖像中查找人臉（HOG 算法）、仿射變換（使用回歸樹的集合對齊人臉）、人臉編碼（FaceNet）和進行預測（線性 SVM）。

使用 HOG 算法，您將計算 16×16 像素正方形的加權投票方向梯度，而不是計算特定圖像的每個像素的梯度。這將生成一個代表人臉基本結構的 HOG 圖像。在下一步中，您必須使用 dlib Python 庫來創建和查看 HOG 表示，以查找圖像的哪個部分與訓練後的 HOG 模式最相似。

2. Kaggle 共享單車

自行車共享系統讓您可以通過自動化系統預訂和租用自行車/摩托車並歸還它們。這個項目更像是一場 Kaggle 比賽，您必須將歷史使用模式與天氣數據相結合，以預測華盛頓特區 Capital Bikeshare 計劃對自行車租賃服務的需求

這場 Kaggle 比賽的主要目的是創建一個可以預測租用自行車數量的 ML 模型（明確基於上下文特徵）。挑戰有兩個部分。在第一部分中，您將專注於理解、分析和處理數據集，而第二部分則是關於使用 ML 庫設計模型。

三、墨西哥政府報告文本分析

這個項目是 NLP 的一個很好的應用。 2019 年 9 月 1 日，墨西哥政府發布了 PDF 格式的年度報告。因此，您在這個項目中的目標是從 PDF 中提取文本、清理它、通過 NLP 管道運行它，並使用圖形表示來可視化結果。

對於這個項目，您將不得不使用多個 Python 庫，包括：

PyPDF2 從 PDF 文件中提取文本。
SpaCy 將提取的文本傳遞到 NLP 管道。
Pandas 從數據集中提取和分析見解。
NumPy 用於快速矩陣運算。
Matplotlib 用於設計繪圖和圖形。
Seaborn 用於改進繪圖/圖表的樣式。
Geopandas 繪製地圖。

4. 阿爾伯特

ALBERT 以 BERT 為基礎，BERT 是谷歌的一個項目，它帶來了 NLP 領域的徹底變革。它是 BERT 的增強實現，專為使用 TensorFlow 的自監督學習語言表示而設計。

在 BERT 中，預訓練的模型非常龐大，因此將它們解包、插入模型並在本地機器上運行它們變得具有挑戰性。這就是為什麼需要 ALBERT 可以幫助您在主要基準測試中以少 30% 的參數實現最先進的性能。雖然 albert_base_zh 相比 BERT 只有 10% 的參數，但它仍然保留了 BERT 原有的準確率。

5. 字符串篩選器

如果您對網絡安全感興趣，您會喜歡從事這個項目的！由 FireEye 推出的 StringSifter 是一種 ML 工具，可以根據字符串的惡意軟件分析相關性自動對字符串進行排名。

通常，標準惡意軟件程序包括用於執行特定操作的字符串，例如創建註冊表項、將文件從一個位置複製到另一個位置等。 StringSifter 是緩解網絡威脅的絕佳解決方案。但是，您必須具有 Python 3.6 或更高版本才能運行和安裝 StringSifter。

6. 鋪瓦工

鑑於今天，Web 和在線平台充斥著圖像，現代工業中處理圖像數據的空間很大。因此，想像一下，如果您可以創建一個面向圖像的項目，它將成為許多人的高價值資產。

Tiler 就是這樣一個圖像工具，它允許您通過組合許多不同類型的小圖片或“圖塊”來創建獨特的圖像。根據 Tiler 的 GitHub 描述，您可以構建圖像“線條、波浪、圓形、十字繡、Minecraft 積木、樂高、字母、回形針”等等。使用 Tiler，您將有無限可能進行創新的圖像創作。

7. 深度點擊率

DeepCTR 是“易於使用、模塊化和可擴展的基於深度學習的 CTR 模型包”。它還包括許多其他重要元素和層，可以非常方便地構建自定義模型。

最初，DeepCTR 項目是在 TensorFlow 上設計的。雖然 TensorFlow 是一個值得稱道的工具，但它並不是每個人都喜歡的。因此，創建了 DeepCTR-Torch 存儲庫。新版本包含 PyTorch 中完整的 DeepCTR 代碼。您可以使用以下語句通過 pip 安裝 DeepCTR：

pip install -U deepctr-torch

借助 DeepCTR，可以輕鬆使用帶有 model.fit() 和 model.predict() 函數的任何復雜模型。

8.TubeMQ

有沒有想過科技巨頭和行業領導者如何存儲、提取和管理他們的數據？它藉助了騰訊開源的分佈式消息隊列 (MQ) 系統 TubeMQ 等工具。

TubeMQ 自 2013 年開始運行，它提供大量大數據的高性能存儲和傳輸。由於它已經積累了七年多的數據存儲和傳輸，TubeMQ 比其他 MQ 工具佔上風。它承諾在生產實踐中具有出色的性能和穩定性。另外，它的成本相對較低。 TubeMQ 用戶指南提供了有關您需要了解的有關該工具的所有信息的詳細文檔。

9. 深度隱私

雖然我們每個人都喜歡不時沉迷於數字和社交媒體世界，但數字世界缺少的一件事（我們都同意）是隱私。一旦你在網上上傳了一張自拍或一段視頻，你甚至會被觀看、分析和批評。在最壞的情況下，您的視頻和圖像最終可能會被操縱。

這就是為什麼我們需要像 DeepPrivacy 這樣的工具。它是一種利用GAN（生成對抗網絡）的圖像全自動匿名化技術。 DeepPrivacy 的 GAN 模型不會查看任何私人或敏感信息。但是，它可以生成完全匿名的圖像。它可以通過研究和分析個人的原始姿勢和背景圖像來做到這一點。 DeepPrivacy 使用邊界框註釋來識別圖像的隱私敏感區域。它進一步使用Mask R-CNN來稀疏人臉的姿態信息和DSFD來檢測圖像中的人臉。

10. IMDb電影評分預測系統

這個數據科學項目旨在甚至在電影上映之前對其進行評分。該項目分為三個部分。第一部分試圖解析從 IMDb 網站積累的數據。這些數據將包括導演、製片人、演員製作、電影描述、獎項、類型、預算、總收入和 imdb_rating 等信息。您可以通過編寫以下行來創建 movie_contents.json 文件：

python3 parser.py nb_elements

在項目的第二部分，目的是分析數據框並觀察變量之間的相關性。例如，IMDb 分數是否與獎項數量和全球總票房相關。最後一部分將涉及使用機器學習（隨機森林）根據最相關的變量預測 IMDb 評級。

包起來

這些是 GitHub 上一些最有用的數據科學項目，您可以重新創建這些項目以提高您在現實世界中的數據科學技能。您在構建數據科學項目上投入的時間和精力越多，您在模型構建方面的表現就會越好。

如果您想了解數據科學，請查看 IIIT-B 和 upGrad 的數據科學執行 PG 計劃，該計劃是為在職專業人士創建的，提供 10 多個案例研究和項目、實用的實踐研討會、行業專家的指導、1與行業導師一對一，400 多個小時的學習和頂級公司的工作協助。

為開源項目做貢獻對我們有什麼好處？

開源項目是那些源代碼對所有人開放並且任何人都可以訪問它並對其進行修改的項目。為開源項目做貢獻是非常有益的，因為它不僅可以提高您的技能，還可以為您提供一些大項目來添加您的簡歷。由於許多大公司正在轉向開源軟件，如果您儘早開始貢獻，它將對您有利。微軟、谷歌、IBM 和思科等一些大公司已經以一種或另一種方式接受了開源。有一個由精通開源開發人員組成的大型社區，他們不斷地為使軟件更好和更新而做出貢獻。社區對初學者非常友好，隨時準備加強並歡迎新的貢獻者。有很好的文檔可以指導您為開源做出貢獻。

HOG算法是什麼？

定向梯度直方圖或 HOG 是計算機視覺中使用的對象檢測器。如果您熟悉邊緣方向直方圖，您可以與 HOG 聯繫起來。該方法用於測量圖像某一部分中梯度方向的出現情況。 HOG 算法還用於計算 16×16 像素正方形的加權投票方向梯度，而不是計算特定圖像的每個像素的梯度。該算法的實現分為5個步驟，即梯度計算、方向分箱、描述符塊、塊歸一化和對象識別。

構建 ML 模型需要哪些步驟？

為了開發 ML 模型，必須遵循以下步驟：第一步是為您的模型收集數據集。這些數據的 80% 將用於訓練，其餘 20% 將用於測試和模型驗證。然後，您需要為您的模型選擇合適的算法。算法選擇完全取決於問題類型和數據集。接下來是模型的訓練。它包括針對各種輸入運行模型並根據結果重新調整它。重複此過程，直到獲得最準確的結果。