如何构建协作数据科学环境？

已发表: 2023-02-24

数据科学已经超越了它的新生阶段，现在在其中融入了许多人、社区和模型。流行的交流渠道和信息与知识共享平台包括博客、论文、GitHub、数据科学会议和研讨会。然而，由于各种限制，这些通常是有限的。有一次，有人可能会发现他们过于专注于理论而缺乏完整的代码，因此无法在现实生活中的例子中进行自我测试。在其他时候，数据科学家可能会找到所有数据、代码和详细模型的可用性，但会发现某些库或整个框架与其版本不兼容。这些问题可能会出现在团队内部和团队间的合作中。

从 IIM Kozhikode 查看 upGrad 的 BDM 数据科学专业证书。

需要数据科学环境

因此，为了确保跨团队的体验保持相同，数据科学家必须都使用相同的平台。那么问题来了：如何构建协同数据科学环境？ 这确保了更高的准确性和更短的处理时间。只有当所有参与者都使用他们在组织中可以访问的相同云资源时，它才会发生。

合作在大公司是必不可少的，尤其是在有多个团队并且每个团队有很多不同成员的情况下。幸运的是，如今云技术已经变得负担得起，这使得构建必要的基础设施成为可能，这些基础设施可以支持用于实验、建模和测试的平台。

查看 upGrad 的数据科学课程

当您想知道如何构建协作数据科学环境时，各种工具都可以为您提供帮助。 一种更常见的工具是 Databricks。另一方面，考虑这样一种情况，您需要在现有的云中完成您的工作，其中管理客户数据策略的规则非常严格。这些工具是非标准的，配置是定制的。在这种情况下，您需要预先构建数据科学平台来利用机会。

阅读我们流行的数据科学文章

数据科学职业道路：综合职业指南	数据科学职业发展：工作的未来就在这里	为什么数据科学很重要？数据科学为企业带来价值的 8 种方式
数据科学对管理者的相关性	每个数据科学家都应该拥有的终极数据科学备忘单	你应该成为数据科学家的 6 大理由
数据科学家的一天：他们做什么？	神话破灭：数据科学不需要编码	商业智能与数据科学：有什么区别？

需要考虑的因素

在这种情况下需要考虑的一些因素是开发的模型，如果开发和培训环境相同，您可以调整这些模型并将其重新用于其他预测。此外，如果数据湖安全受到严格控制，输入数据、模型和结果应该对所有团队成员可用。数据科学家应在一个位置使用定制的数据科学工具和数据源，以进行更高效、更准确的分析。

因此，可以将数据科学环境想象成一个平台，让不同的人以多种不同的方式分析数据。他们可以包括数据科学家、业务分析师、开发人员和经理。整个数据湖和所有以 CPU 或 GPU 集群形式排列的计算节点共同构成了数据科学环境。由于数据湖中存在最新最可靠的数据，并且存储是连通的，会员可以排除数据导入导出操作。培训、测试和报告同步进行。此外，参与者可以根据需要复制最后的模型配置，并且模型基于各种参数。现在让我们更详细地了解一下环境的设计和部署。

阅读我们与 MBA 相关的热门文章

金融分析师薪水 - 新生和经验丰富	人力资源的热门面试问题和答案	美国 MBA 营销职业选择
人力资源 MBA 毕业后美国最佳职业选择	销售中的 7 大职业选择	美国薪酬最高的金融工作：平均到最高
美国 7 大金融职业选择：必读	2022 年 5 大营销趋势	2022 年美国 MBA 薪资 [所有专业]

最小环境架构

我们现在来看一个主要的分布式文件存储环境。在此，您可以使用 Apache Hadoop 等。 Apache Hadoop 是一个允许并行处理的开源框架，个人可以使用它来存储跨各种计算机集群的海量数据集。它有一个商标文件系统，称为 Hadoop 分布式文件系统 (HDFS)。该系统是必不可少的，负责跨多个节点的数据冗余和可扩展性。除此之外，还有Hadoop YARN，它是一个框架。它负责调度作业以跨不同节点执行数据处理任务。此环境的最小预期节点数为三个，它创建了 3 节点 Hadoop 集群。

请注意，在来自各种来源的连续数据摄取的情况下，可以使用 Kafka 流处理平台将流构建到环境中。流处理不包括任何单独指定的任务。它所做的唯一功能是将原始分隔符分隔值更改为镶木地板格式。与 Hive 相比，parquet 格式更加灵活，因为它不需要任何预定义的模式。请注意，在某些情况下，流式传输的值与标准预期完全不同，要么发生自定义转换，要么数据以原始格式存储在 HDFS 中。之所以要详细解释这个阶段，是因为它是过程中非常重要的部分。由于没有数据可以说明的专门项目或准备好的分析，因此管道必须以某种方式提供数据，以便数据科学家可以在不丢失信息的情况下开始处理一组数据。所有数据都在数据湖中可用，并在设计的用例中连接。数据源可能不同，可以采用不同日志文件或各种服务和系统输入的形式，仅举两例。

数据湖准备就绪后，必须配置集群，以便数据科学家可以享受拥有所有必需工具和各种机会的环境。随后解释所需的工具集。在现有示例环境的基础上，可以在所有节点上安装Apache Spark。这是一个集群计算框架，它的驱动程序运行在一个由 YARN 在集群上管理的应用程序主进程中。环境的构建者还必须确保 Python 在所有节点上都存在，并且版本与所有可用的基础数据科学库相同。作为一个选项，环境创建者还可以选择在所有集群节点上安装 R 并在至少两个节点上安装 Jupyter Notebook。 TensorFlow 在 Spark 之上。还建议在其中一个数据节点或连接的服务器上使用 KNIME 等分析工具。

最后，一旦环境准备就绪，数据科学环境应该为所有数据科学家及其团队提供对所有可用数据的合作访问。

如果您想了解画面、数据科学，请查看 IIIT-B 和 upGrad 的数据科学执行 PG 课程，该课程专为在职专业人士创建，提供 10 多个案例研究和项目、实践实践研讨会、行业专家指导, 与行业导师一对一，400 多个小时的学习和与顶级公司的工作帮助。

想要分享这篇文章？

为未来的职业做准备

数据科学理学硕士