数据科学家生活中的一天:他们做什么?

已发表: 2021-07-21

最常见的问题之一是描述“数据科学家生命中的一天”。 在这里,我们试图简单地描述如何做出明智的决定,这个职业选择是否适合你。

首先,让我们非常清楚。 几乎不可能描述数据科学家生活中的一天。 由于工作如此多样化,职业如此复杂,典型的一天将取决于多种因素。 主要因素之一是您正在处理的数据项目的类型,它可以每月或每季度更改一次。 第二个考虑更系统,取决于你工作的组织类型。

如果有层次结构,体验就会不一样,如果是基于团队的,那就不一样了。 影响典型一天的第三个参数是您在团队中的角色。 无论您是高级或初级还是团队中的单一数据科学家,或其他此类角色考虑都会影响您的典型工作日。

但是,一旦您对所有这些都进行了平均处理,数据科学家的普通一天可能会如下所示。 数据科学家一天要完成三个主要功能。 不出所料,大部分时间都花在了编码上。 平衡时间花在会议和思考上,两者大致平分。

在这里,思考是指个人的反思,我们可以将集体思考纳入会议时间。 重要的是要记住,没有任何项目可以在一天内完成。 因此,在大多数情况下,您的工作将涉及三项中的任何一项,即继续讨论、思考或处理您前一天停止的现有项目的工作。 让我们更详细地讨论其中的一些。

目录

编码

作为一名数据科学家,您可以预期它会占用您大约 70% 的时间。 它甚至可以超过那个。 考虑到数据科学家的主要工作是编码,这并不奇怪。 与任何其他科学家一样,数据科学家也可以使用各种工具和语言。

一些比较熟悉的有 Python、SQL 和 Bash。 因此,如果您想成为一名数据科学家,编码是您可以学习的所有技能中最重要的一项。 统计和商业思维完善了其他关键技能,但它们对编码的重要性降低了。 详细了解可用的数据科学家工具。

然而,编码是一个庞大的词,我们必须尝试了解编码中的一些典型任务。 下面的句子中简要给出了其中一些。 数据清理和格式化可能是编码中最费力和最耗时的工作。

一旦我们向您解释它可能听起来违反直觉,但它仍然成立。 此过程涉及将数据转换为可识别的格式,您可以在项目的下一阶段进一步编码。 虽然这可以用一句话来解释,但实现它是最艰巨的过程之一。

一旦我们完成数据清理和格式化,下一个任务通常涉及原型设计。 您进行原型设计以根据各种分析方法和机器学习方法检查数据。

这有助于您选择最适合的方法。 许多数据科学家通常认为这个阶段具有挑战性,但他们会首先指出它也是整个序列中最令人兴奋的部分之一。 这是因为原始数据在这一步变得有价值,就像从矿石中提取贵金属一样。

我们之前提到了一些工具,每个工具都有兼容的原型设计软件。 你可以在这里混搭,看看什么在特定环境中有效,什么让你感觉最舒服。 请记住,此阶段不是对数据进行最终推断。 相反,这是您要检查哪些有效,哪些无效的地方。

以下步骤可能因项目的最终目标而异。 例如,可能是与您的团队或前辈开会。 在这种情况下,您需要将数据转换为可视化表示并报告结果。 这些东西将需要进入您的演示文稿。

另一方面,如果它是一份您的同事将来可能会用到的报告,那么您在原型制作之后的主要工作应该是如何使其自动化并使公司中的每个人都可以访问它。 最后,也许最令人兴奋的是,如果你负责将机器学习或分析转化为服务或产品,那么你的工作就是弄清楚实现。 此时,开发人员也会为您提供帮助。

阅读:印度数据科学家的薪水

因此,总结一下到目前为止我们在编码方面学到的知识,前几个步骤涉及数据清理和格式化,然后是原型设计。 后续步骤可能包括创建数据可视化、自动化项目、实施模型以用作产品或服务等等。

其他杂项活动可能已包含在本节中,但它们会不时出现,并且不属于正常流程的一部分。 它们涉及错误修复、新包和库的教程以及以前编写的脚本的维护。 当你是一名数据科学家时,总会有事情要做。

与小组会面、演示、交谈和头脑风暴

由于编码占用了大约 70% 的时间,因此还剩下 30% 的剩余时间。 在余额中,总时间的 15% 用于与人会面。 这些可以采取不同的形式,例如正式会议、一对一会议、演示、在饮水机上进行讨论,甚至是群聊。

与您的团队成员取得联系至关重要,因为整个团队中通常只有一名数据科学家,而且他们并不完全了解您的工作。 您必须随身携带它们。 但是我们不要让它看起来太挑剔,因为这样做可以让你寻求与他们更大的合作。 您可以在大数据项目中从他们那里获得更多帮助,从而产生更大的影响。

因此,与同事建立融洽的关系很重要,即使您作为数据科学家可能天生内向。 但这里有必要提个醒。 尤其是在大公司,有一种全天开会的习惯。 这涉及坐下来聊天,而没有时间进行实际编码。 在一天结束的时候,你会发现你的工作堆积如山,没有人支持你。 因此,请与您的同事保持联系,但不要过度接触,以免适得其反。

您管理此问题的方式对于您在组织中的发展机会至关重要。 首先,请记住,您不应该在会议上花费超过 15% 的工作时间。 牢记这一基准,最初与你的队友和你的经理建立联系。 之后,和他们坐下来,向他们解释你的工作需要什么,这样你就只需要参加对你的工作至关重要的会议。

思考时间

这对某些人来说可能看起来很荒谬,但每天至少花 15% 的时间思考是绝对关键的。 数据科学不是儿戏,涉及大量艰巨的工作。 因此,如果你不思考和计划你的一天,几乎不可能继续。 你需要找出最好的统计模型,你需要正确解释数据,你需要用文字来报告结果,而对于所有这些,你需要时间独自思考。

在思考的过程中,如果你发现自己无法组织自己的想法,就开始涂鸦或素描。 在您附近放置一块白板。 或者使用普通的旧纸。 但作为一名数据科学家,你总是可以使用高科技工具,比如 Miro,这是一个在线思维导图工具。

编码是你工作的主要部分,但当你将它与素描和思考结合起来时,它可以创造奇迹。 退后一步思考可以让您看到更大的图景,这通常会迷失在编码的微小细节中。 虽然它看起来像是停机时间,但它通常是提高生产力的最关键时间。

杂项活动和结论

在离开一天之前,必须抽出时间回复所有电子邮件。 在同一天回复是礼貌的,你应该这样做。 白天,您应该很忙,所以在一天结束时抽出时间。 回顾你刚刚完成的那一天,并为第二天做计划,以保持连续性和效率。

总而言之,数据科学家 70% 的工作时间用于编码。 其余 15% 分别用于会议和思考,一天结束时用于各种活动。 这是许多人向往的一项有益的职业。

如果您对学习数据科学以走在快节奏的技术进步的前沿感到好奇,请查看 upGrad 和 IIIT-B 的数据科学执行 PG 计划,并为未来提升自己的技能。

为未来的职业做准备

来自 IIIT-B 的 PG 文凭、100 多个小时的课堂学习、400 多个小时的在线学习和 360 度职业支持
了解更多