如何構建協作數據科學環境？

已發表: 2023-02-24

數據科學已經超越了它的新生階段，現在在其中融入了許多人、社區和模型。流行的交流渠道和信息與知識共享平台包括博客、論文、GitHub、數據科學會議和研討會。然而，由於各種限制，這些通常是有限的。有一次，有人可能會發現他們過於專注於理論而缺乏完整的代碼，因此無法在現實生活中的例子中進行自我測試。在其他時候，數據科學家可能會找到所有數據、代碼和詳細模型的可用性，但會發現某些庫或整個框架與其版本不兼容。這些問題可能會出現在團隊內部和團隊間的合作中。

從 IIM Kozhikode 查看 upGrad 的 BDM 數據科學專業證書。

需要數據科學環境

因此，為了確保跨團隊的體驗保持相同，數據科學家必須都使用相同的平台。那麼問題來了：如何構建協同數據科學環境？ 這確保了更高的準確性和更短的處理時間。只有當所有參與者都使用他們在組織中可以訪問的相同雲資源時，它才會發生。

合作在大公司是必不可少的，尤其是在有多個團隊並且每個團隊有很多不同成員的情況下。幸運的是，如今雲技術已經變得負擔得起，這使得構建必要的基礎設施成為可能，這些基礎設施可以支持用於實驗、建模和測試的平台。

查看 upGrad 的數據科學課程

當您想知道如何構建協作數據科學環境時，各種工具都可以為您提供幫助。 一種更常見的工具是 Databricks。另一方面，考慮這樣一種情況，您需要在現有的雲中完成您的工作，其中管理客戶數據策略的規則非常嚴格。這些工具是非標準的，配置是定制的。在這種情況下，您需要預先構建數據科學平台來利用機會。

閱讀我們流行的數據科學文章

數據科學職業道路：綜合職業指南	數據科學職業發展：工作的未來就在這裡	為什麼數據科學很重要？數據科學為企業帶來價值的 8 種方式
數據科學對管理者的相關性	每個數據科學家都應該擁有的終極數據科學備忘單	你應該成為數據科學家的 6 大理由
數據科學家的一天：他們做什麼？	神話破滅：數據科學不需要編碼	商業智能與數據科學：有什麼區別？

需要考慮的因素

在這種情況下需要考慮的一些因素是開發的模型，如果開發和培訓環境相同，您可以調整這些模型並將其重新用於其他預測。此外，如果數據湖安全受到嚴格控制，輸入數據、模型和結果應該對所有團隊成員可用。數據科學家應在一個位置使用定制的數據科學工具和數據源，以進行更高效、更準確的分析。

因此，可以將數據科學環境想像成一個平台，讓不同的人以多種不同的方式分析數據。他們可以包括數據科學家、業務分析師、開發人員和經理。整個數據湖和所有以 CPU 或 GPU 集群形式排列的計算節點共同構成了數據科學環境。由於數據湖中存在最新最可靠的數據，並且存儲是連通的，會員可以排除數據導入導出操作。培訓、測試和報告同步進行。此外，參與者可以根據需要復制最後的模型配置，並且模型基於各種參數。現在讓我們更詳細地了解一下環境的設計和部署。

閱讀我們與 MBA 相關的熱門文章

金融分析師薪水 - 新生和經驗豐富	人力資源的熱門面試問題和答案	美國 MBA 營銷職業選擇
人力資源 MBA 畢業後美國最佳職業選擇	銷售中的 7 大職業選擇	美國薪酬最高的金融工作：平均到最高
美國 7 大金融職業選擇：必讀	2022 年 5 大營銷趨勢	2022 年美國 MBA 薪資 [所有專業]

最小環境架構

我們現在來看一個主要的分佈式文件存儲環境。在此，您可以使用 Apache Hadoop 等。 Apache Hadoop 是一個允許並行處理的開源框架，個人可以使用它來存儲跨各種計算機集群的海量數據集。它有一個商標文件系統，稱為 Hadoop 分佈式文件系統 (HDFS)。該系統是必不可少的，負責跨多個節點的數據冗餘和可擴展性。除此之外，還有Hadoop YARN，它是一個框架。它負責調度作業以跨不同節點執行數據處理任務。此環境的最小預期節點數為三個，它創建了 3 節點 Hadoop 集群。

請注意，在來自各種來源的連續數據攝取的情況下，可以使用 Kafka 流處理平台將流構建到環境中。流處理不包括任何單獨指定的任務。它所做的唯一功能是將原始分隔符分隔值更改為鑲木地板格式。與 Hive 相比，parquet 格式更加靈活，因為它不需要任何預定義的模式。請注意，在某些情況下，流式傳輸的值與標準預期完全不同，要么發生自定義轉換，要么數據以原始格式存儲在 HDFS 中。之所以要詳細解釋這個階段，是因為它是過程中非常重要的部分。由於沒有數據可以說明的專門項目或準備好的分析，因此管道必須以某種方式提供數據，以便數據科學家可以在不丟失信息的情況下開始處理一組數據。所有數據都在數據湖中可用，並在設計的用例中連接。數據源可能不同，可以採用不同日誌文件或各種服務和系統輸入的形式，僅舉兩例。

數據湖準備就緒後，必須配置集群，以便數據科學家可以享受擁有所有必需工具和各種機會的環境。隨後解釋所需的工具集。在現有示例環境的基礎上，可以在所有節點上安裝Apache Spark。這是一個集群計算框架，它的驅動程序運行在一個由 YARN 在集群上管理的應用程序主進程中。環境的構建者還必須確保 Python 在所有節點上都存在，並且版本與所有可用的基礎數據科學庫相同。作為一個選項，環境創建者還可以選擇在所有集群節點上安裝 R 並在至少兩個節點上安裝 Jupyter Notebook。 TensorFlow 在 Spark 之上。還建議在其中一個數據節點或連接的服務器上使用 KNIME 等分析工具。

最後，一旦環境準備就緒，數據科學環境應該為所有數據科學家及其團隊提供對所有可用數據的合作訪問。

如果您想了解畫面、數據科學，請查看 IIIT-B 和 upGrad 的數據科學執行 PG 課程，該課程專為在職專業人士創建，提供 10 多個案例研究和項目、實踐實踐研討會、行業專家指導, 與行業導師一對一，400 多個小時的學習和與頂級公司的工作幫助。

想要分享這篇文章？

為未來的職業做準備

數據科學理學碩士