數據科學家生活中的一天:他們做什麼?

已發表: 2021-07-21

最常見的問題之一是描述“數據科學家生命中的一天”。 在這裡,我們試圖簡單地描述如何做出明智的決定,這個職業選擇是否適合你。

首先,讓我們非常清楚。 幾乎不可能描述數據科學家生活中的一天。 由於工作如此多樣化,職業如此復雜,典型的一天將取決於多種因素。 主要因素之一是您正在處理的數據項目的類型,它可以每月或每季度更改一次。 第二個考慮更系統,取決於你工作的組織類型。

如果有層次結構,體驗就會不一樣,如果是基於團隊的,那就不一樣了。 影響典型一天的第三個參數是您在團隊中的角色。 無論您是高級或初級還是團隊中的單一數據科學家,或其他此類角色考慮都會影響您的典型工作日。

但是,一旦您對所有這些都進行了平均處理,數據科學家的普通一天可能會如下所示。 數據科學家一天要完成三個主要功能。 不出所料,大部分時間都花在了編碼上。 平衡時間花在會議和思考上,兩者大致平分。

在這裡,思考是指個人的反思,我們可以將集體思考納入會議時間。 重要的是要記住,沒有任何項目可以在一天內完成。 因此,在大多數情況下,您的工作將涉及關於繼續討論、思考或在前一天停止的現有項目上工作的三者中的任何一個。 讓我們更詳細地討論其中的一些。

目錄

編碼

作為一名數據科學家,您可以預期它會佔用您大約 70% 的時間。 它甚至可以超過那個。 考慮到數據科學家的主要工作是編碼,這並不奇怪。 與任何其他科學家一樣,數據科學家也可以使用各種工具和語言。

一些比較熟悉的有 Python、SQL 和 Bash。 因此,如果您想成為一名數據科學家,編碼是您可以學習的所有技能中最重要的一項。 統計和商業思維完善了其他關鍵技能,但它們對編碼的重要性降低了。 詳細了解可用的數據科學家工具。

然而,編碼是一個龐大的詞,我們必須嘗試了解編碼中的一些典型任務。 下面的句子中簡要給出了其中一些。 數據清理和格式化可能是編碼中最費力和最耗時的工作。

一旦我們向您解釋它可能聽起來違反直覺,但它仍然成立。 此過程涉及將數據轉換為可識別的格式,您可以在項目的下一階段進一步編碼。 雖然這可以用一句話來解釋,但實現它是最艱鉅的過程之一。

一旦我們完成數據清理和格式化,下一個任務通常涉及原型設計。 您進行原型設計以根據各種分析方法和機器學習方法檢查數據。

這有助於您選擇最適合的方法。 許多數據科學家通常認為這個階段具有挑戰性,但他們會首先指出它也是整個序列中最令人興奮的部分之一。 這是因為原始數據在這一步變得有價值,就像從礦石中提取貴金屬一樣。

我們之前提到了一些工具,每個工具都有兼容的原型設計軟件。 你可以在這裡混搭,看看什麼在特定環境中有效,什麼讓你感覺最舒服。 請記住,此階段不是對數據進行最終推斷。 相反,這是您要檢查哪些有效,哪些無效的地方。

以下步驟可能因項目的最終目標而異。 例如,可能是與您的團隊或前輩開會。 在這種情況下,您需要將數據轉換為可視化表示並報告結果。 這些東西將需要進入您的演示文稿。

另一方面,如果它是一份您的同事將來可能會用到的報告,那麼您在原型製作之後的主要工作應該是如何使其自動化並使公司中的每個人都可以訪問它。 最後,也許最令人興奮的是,如果你負責將機器學習或分析轉化為服務或產品,那麼你的工作就是弄清楚實現。 此時,開發人員也會為您提供幫助。

閱讀:印度數據科學家的薪水

因此,總結一下到目前為止我們在編碼方面學到的知識,前幾個步驟涉及數據清理和格式化,然後是原型設計。 後續步驟可能包括創建數據可視化、自動化項目、實施模型以用作產品或服務等等。

其他雜項活動可能已包含在本節中,但它們會不時出現,並且不屬於正常流程的一部分。 它們涉及錯誤修復、新包和庫的教程以及以前編寫的腳本的維護。 當你是一名數據科學家時,總會有事情要做。

與小組會面、演示、交談和頭腦風暴

由於編碼佔用了大約 70% 的時間,因此還剩下 30% 的剩餘時間。 在餘額中,總時間的 15% 用於與人會面。 這些可以採取不同的形式,例如正式會議、一對一會議、演示、在飲水機上進行討論,甚至是群聊。

與您的團隊成員取得聯繫至關重要,因為整個團隊中通常只有一名數據科學家,而且他們並不完全了解您的工作。 您必須隨身攜帶它們。 但是我們不要讓它看起來太挑剔,因為這樣做可以讓你尋求與他們更大的合作。 您可以在大數據項目中從他們那裡獲得更多幫助,從而產生更大的影響。

因此,與同事建立融洽的關係很重要,即使您作為數據科學家可能天生內向。 但這裡有必要提個醒。 尤其是在大公司,有一種全天開會的習慣。 這涉及坐下來聊天,而沒有時間進行實際編碼。 在一天結束的時候,你會發現你的工作堆積如山,沒有人支持你。 因此,請與您的同事保持聯繫,但不要過度接觸,以免適得其反。

您管理此問題的方式對於您在組織中的發展機會至關重要。 首先,請記住,您不應該在會議上花費超過 15% 的工作時間。 牢記這一基準,最初與你的隊友和你的經理建立聯繫。 之後,和他們坐下來,向他們解釋你的工作需要什麼,這樣你就只需要參加對你的工作至關重要的會議。

思考時間

這對某些人來說可能看起來很荒謬,但每天至少花 15% 的時間思考是絕對關鍵的。 數據科學不是兒戲,涉及大量艱鉅的工作。 因此,如果你不思考和計劃你的一天,幾乎不可能繼續。 你需要找出最好的統計模型,你需要正確解釋數據,你需要用文字來報告結果,而對於所有這些,你需要時間獨自思考。

在思考的過程中,如果你發現自己無法組織自己的想法,就開始塗鴉或素描。 在您附近放置一塊白板。 或者使用普通的舊紙。 但作為一名數據科學家,你總是可以使用高科技工具,比如 Miro,這是一個在線思維導圖工具。

編碼是你工作的主要部分,但當你將它與素描和思考結合起來時,它可以創造奇蹟。 退後一步思考可以讓您看到更大的圖景,這通常會迷失在編碼的微小細節中。 雖然它看起來像是停機時間,但它通常是提高生產力的最關鍵時間。

雜項活動和結論

在離開一天之前,必須抽出時間回复所有電子郵件。 在同一天回復是禮貌的,你應該這樣做。 白天,您應該很忙,所以在一天結束時抽出時間。 回顧你剛剛完成的那一天,並為第二天做計劃,以保持連續性和效率。

總而言之,數據科學家 70% 的工作時間用於編碼。 其餘 15% 分別用於會議和思考,一天結束時用於各種活動。 這是許多人嚮往的一項有益的職業。

如果您對學習數據科學以走在快節奏的技術進步的前沿感到好奇,請查看 upGrad 和 IIIT-B 的數據科學執行 PG 計劃,並為未來提升自己的技能。

為未來的職業做準備

來自 IIIT-B 的 PG 文憑、100 多個小時的課堂學習、400 多個小時的在線學習和 360 度職業支持
了解更多