数据科学过程：理解、数据收集、建模、部署和验证

已发表: 2021-02-09

行业中的数据科学项目通常遵循定义明确的生命周期，为项目添加结构并为每个步骤定义明确的目标。有许多这样的方法可用，如 CRISP-DM、OSEMN、TDSP 等。数据科学过程中有多个阶段与团队不同成员执行的特定任务有关。

每当客户提出数据科学问题时，都需要以结构化的方式解决并生成给客户。这种结构确保了整个过程无缝进行，因为它涉及到多个从事其特定角色的人，例如解决方案架构师、项目经理、产品负责人、数据工程师、数据科学家、DevOps 负责人等。遵循数据科学流程还可以确保最终产品的质量良好，项目按时完成。

在本教程结束时，您将了解以下内容：

业务理解
数据采集
造型
部署
客户验证

业务理解

了解业务和数据至关重要。为了解决手头的问题，我们需要决定我们需要预测哪些目标。我们还需要了解我们可以从哪些来源获取数据，以及是否需要构建新来源。

模型目标可以是房价、客户年龄、销售预测等。这些目标需要通过与完全了解其产品和问题的客户合作来确定。第二个最重要的任务是了解目标的预测类型。

无论是回归、分类还是聚类，甚至是推荐。需要确定成员的角色，以及完成该项目需要哪些人以及需要多少人。还决定了成功的指标，以确保解决方案产生至少可以接受的结果。

需要确定可以提供预测上述目标所需数据的数据源。还可能需要建立管道以从特定来源收集数据，这可能是项目成功的重要因素。

数据采集

一旦确定了数据，接下来我们需要系统来有效地摄取数据并通过设置管道将其用于进一步的处理和探索。第一步是识别源类型。如果它是本地或云端。我们需要将这些数据摄取到分析环境中，我们将在其中对其进行进一步的处理。

一旦数据被摄取，我们将进入数据科学过程中最关键的步骤，即探索性数据分析 (EDA)。 EDA 是分析和可视化数据以查看所有格式问题和缺失数据的过程。

在继续探索数据以找出模式和其他相关信息之前，需要对所有差异进行标准化。这是一个迭代过程，还包括绘制各种类型的图表和图形，以查看特征之间以及特征与目标之间的关系。

需要设置管道以定期将新数据流式传输到您的环境中并更新现有数据库。在设置管道之前，需要检查其他因素。例如数据是否必须分批或在线流式传输，是高频还是低频。

建模与评估

建模过程是机器学习发生的核心阶段。需要确定正确的特征集，并使用正确的算法对模型进行训练。然后需要对经过训练的模型进行评估，以检查其在真实数据上的效率和性能。

第一步称为特征工程，我们使用前一阶段的知识来确定使我们的模型表现更好的重要特征。特征工程是将特征转化为新形式，甚至组合特征形成新特征的过程。

必须小心执行，以避免使用太多可能会降低性能而不是提高性能的功能。如果每个模型都可以帮助确定此因素以及相对于目标的特征重要性，则比较指标。

一旦特征集准备好，模型就需要在多种类型的算法上进行训练，看看哪一种表现最好。这也称为抽查算法。然后进一步采用性能最佳的算法来调整其参数以获得更好的性能。比较每个算法和每个参数配置的指标，以确定哪个模型是最好的。

部署

在上一阶段之后最终确定的模型现在需要部署到生产环境中才能变得可用并在真实数据上进行测试。该模型需要以移动/Web 应用程序或仪表板或公司内部软件的形式进行操作。

这些模型可以部署在云（AWS、GCP、Azure）或本地服务器上，具体取决于预期负载和应用程序。需要持续监控模型性能，以确保防止所有问题。

每当模型通过早期设置的管道进入时，还需要对新数据进行重新训练。这种再培训可以是离线的，也可以是在线的。在离线模式下，应用程序被关闭，模型被重新训练，然后重新部署在服务器上。

不同类型的 Web 框架用于开发后端应用程序，该应用程序从前端应用程序中获取数据并将其提供给服务器上的模型。然后，此 API 将模型中的预测发送回前端应用程序。 Web 框架的一些示例是 Flask、Django 和 FastAPI。

客户验证

这是数据科学过程的最后阶段，项目最终移交给客户使用。客户必须浏览应用程序、其详细信息和参数。它还可能包括退出报告，其中包含模型的所有技术方面及其评估参数。客户需要确认接受模型所达到的性能和准确性。

必须牢记的最重要一点是客户或客户可能不具备数据科学的技术知识。因此，团队有责任以客户易于理解的方式和语言向他们提供所有细节。

在你走之前

数据科学过程因组织而异，但可以概括为我们讨论的 5 个主要阶段。在这些阶段之间可以有更多阶段，以解决更具体的任务，例如数据清理和报告。总的来说，任何数据科学项目都必须注意这 5 个阶段，并确保在所有项目中都遵守它们。遵循此过程是确保所有数据科学项目成功的重要一步。

数据科学计划的结构旨在帮助您成为数据科学领域的真正人才，从而更容易找到市场上最好的雇主。立即注册，开始您的 upGrad 学习之路！

数据科学过程的第一步是什么？

数据科学过程的第一步是定义你的目标。在数据收集、建模、部署或任何其他步骤之前，您必须设定研究目标。
您应该彻底了解项目的“3W”——内容、原因和方式。 “客户的期望是什么？为什么贵公司重视您的研究？你打算如何继续你的研究？”
如果您能够回答所有这些问题，那么您就可以开始下一步的研究了。要回答这些问题，你的商业头脑等非技术技能比你的技术技能更重要。

你如何为你的过程建模？

建模过程是数据科学过程中的关键步骤，为此，我们使用机器学习。我们为模型提供正确的数据集并使用适当的算法对其进行训练。在对流程进行建模时，需要考虑以下步骤：
1. 第一步是特征工程。此步骤将先前收集的信息考虑在内，确定模型的基本特征并将它们组合成新的和更进化的特征。
2，这一步必须谨慎执行，因为太多的特征可能会导致我们的模型恶化而不是进化它。
3. 然后我们确定抽查算法。这些算法是模型在获得新特征后需要训练的算法。
4. 我们从中挑选出性能最好的算法并对其进行调整以增强其能力。为了比较并找到最佳模型，我们考虑了不同算法的度量。

向客户展示项目的方法应该是什么？

这是数据科学项目生命周期的最后一步。这一步必须小心处理，否则您的所有努力都将付诸东流。客户应该彻底了解您项目的每个方面。关于您的模型的 PowerPoint 演示文稿可能是您的加分项。
要记住的一件事是，您的客户可能来自技术领域，也可能不来自技术领域。所以，你不能使用核心技术词汇。尝试以通俗易懂的语言呈现您的项目的应用程序和参数，以便您的客户清楚。