數字證明：使用大數據驅動結果

已發表: 2022-07-22

在您作為產品經理職業生涯的某個階段，您可能會面臨定義不明確、涉及更廣泛的原因和影響領域並且有多個解決方案的大規模問題。當您發現自己在處理複雜的數據集時（當您開始考慮數百萬而不是數千的數字時）您需要正確的工具來使您能夠以相同的速度擴大規模。

這就是數據驅動的產品管理可以產生巨大商業價值的地方。在以下示例中，這些示例來自我自己職業生涯中的案例，將數據分析應用於看似棘手的問題所產生的解決方案為我的雇主帶來了巨額回報——從數百萬美元到數億美元不等。

獲得數據科學技能有助於打造產品管理職業的下一條發展道路。您將比同事更快地解決問題，將基於證據的見解轉化為硬回報，並為組織的成功做出巨大貢獻。

利用大規模數據

在產品管理和產品分析中應用數據科學並不是一個新概念。新的是企業可以訪問的數據量驚人，無論是通過他們的平台、數據收集軟件還是產品本身。然而，在 2020 年，希捷科技報告稱，公司收集的 68% 的數據沒有得到利用。 2014 年 IBM 的一份白皮書將這種數據浪費比作“一家工廠，其中大量原材料未被使用並散佈在裝配線的各個點上”。

具有數據科學技能的產品經理可以利用這些數據來深入了解關鍵指標，例如激活、覆蓋、留存、參與和貨幣化。這些指標可以針對一系列產品類型，例如電子商務、內容、API、SaaS 產品和移動應用程序。

簡而言之，數據科學不是關於你收集什麼數據，而是更多關於你如何以及何時使用它，尤其是當你處理新的和更高階的數字時。

挖掘數據以找出根本原因

幾年前，我在一家旅遊技術提供商工作，在 180 個國家擁有 50,000 多名活躍客戶，3,700 名員工，年收入 25 億美元。在這種規模的公司中，您要管理大型團隊和大量信息。

當我開始在那里工作時，我遇到了以下問題：儘管有最新的路線圖和完整的積壓工作，但 NPS 分數下降了，客戶流失率在兩年內有所增加。與客戶支持相關的成本顯著增加，支持部門不斷滅火；在那兩年裡，支持電話翻了兩番。

在我最初的三個月裡，我研究了企業是如何運作的，從供應談判到投訴解決。我採訪了產品副總裁及其團隊，聯繫了銷售和技術團隊的副總裁，並與客戶支持部門進行了廣泛的交談。這些努力產生了有用的見解，並讓我的團隊提出了幾個假設——但沒有提供確鑿的數據來支持它們或建立拒絕它們的理由。客戶不滿意的可能解釋包括缺乏功能，例如下訂單後編輯訂單的能力；對附加產品的需求；技術援助和/或產品信息不足。但是，即使我們可以決定一個單一的行動方案，說服各個部門同意它也需要一些比可能性更堅定的東西。

在一家較小的公司，我可能從進行客戶訪談開始。但由於最終用戶群有數十萬，這種方法既無用也不可行。雖然它會給我很多意見——有些是有效的——但我需要知道我正在使用的信息代表了一個更大的趨勢。相反，在商業智能團隊的支持下，我從呼叫中心和客戶支持部門提取了所有可用數據。

前六個月的支持案例分四列提交給我，每列有 130,000 行。每一行代表一個客戶支持請求，每一列都標有客戶在護理過程中的問題區域。每列有 11 到 471 個不同的標籤。

標題為“客戶支持數據”的插圖。該圖表示記錄了數據的 130,000 行，其中有四列問題區域，分別標識為第一問題區域、第二問題區域、第三問題區域和第四問題區域。每列中問題區域標籤的數量分別記為 11 個標籤、58 個標籤、344 個標籤和 471 個標籤。 — 客戶支持數據，包括 130,000 個個案，每個個案有四個問題領域。

應用過濾器並對海量數據集進行排序並沒有得出結論性的結果。個別問題標籤不足以捕捉大局。客戶最初可能會打電話來重置他們的密碼，雖然該電話會被記錄下來，但在將所有四個問題都視為一個字符串之後，可能會出現不同的根本問題。在包含數百萬個可能字符串的 130,000 行中，通過單獨查看每一行來尋找模式不是一種選擇。很明顯，以這種規模識別問題與其說是提供業務洞察力，不如說是解決數學問題。

為了隔離最常出現的字符串，我使用了與大小成比例的概率 (PPS) 採樣。此方法將每個元素的選擇概率設置為與其大小度量成比例。雖然數學很複雜，但實際上，我們所做的很簡單：我們根據每列中每個標籤的頻率對案例進行抽樣。多階段抽樣的一種形式，這種方法使我們能夠識別出一系列問題，從而更生動地描繪了客戶致電支持中心的原因。首先，我們的模型從第一列中識別出最常見的標籤，然後在該組中，從第二列中識別出最常見的標籤，依此類推。

標題為“PPS 抽樣後的客戶支持數據”的插圖。該圖表示記錄了數據的 130,000 行，其中有四列問題區域，分別標識為第一問題區域、第二問題區域、第三問題區域和第四問題區域。每列中問題區域標籤的數量分別記為 11 個標籤、58 個標籤、344 個標籤和 471 個標籤。此外，添加了突出顯示的框以表示每個問題區域內常見標籤的識別。 — 應用 PPS 抽樣後的客戶支持中心數據，其中標識了最常出現的標籤字符串。

應用 PPS 抽樣後，我們分離出 2% 的根本原因，約佔總病例的 25%。這使我們能夠應用累積概率算法，該算法顯示超過 50% 的案例源於 10% 的根本原因。

這一結論證實了我們的一個假設：客戶之所以聯繫呼叫中心，是因為一旦下訂單，他們就無法更改訂單數據。通過解決一個問題，客戶可以節省 700 萬美元的支持成本並收回 2 億美元的客戶流失收入。

實時執行分析

機器學習知識對於解決另一家類似規模的旅遊公司的數據分析挑戰特別有用。該公司通過網站和 API 充當世界各地酒店和旅行社之間的聯絡人。由於 Trivago、Kayak 和 Skyscanner 等元搜索引擎的普及，API 流量增長了三個數量級。在元搜索擴散之前，look-to-book 比率（總 API 搜索量與總 API 預訂量）為 30:1；元搜索開始後，一些客戶的比例會達到 30,000:1。在高峰時段，該公司必須在不犧牲處理速度的情況下每秒處理多達 15,000 個 API 請求。與 API 相關的服務器成本相應增加。但是這些服務帶來的流量增加並沒有帶來銷售額的增長；收入保持不變，給公司造成了巨大的財務損失。

該公司需要一個計劃來降低由流量激增導致的服務器成本，同時保持客戶體驗。當公司過去試圖阻止特定客戶的流量時，結果是負面的公關。因此，阻止這些引擎不是一種選擇。我的團隊轉向數據來尋找解決方案。

我們通過一系列參數分析了大約 3 億個 API 請求：請求時間、目的地、入住/退房日期、酒店列表、客人數量和房間類型。從數據中，我們確定某些模式與元搜索流量激增有關：一天中的時間、每個時間單位的請求數量、目的地的字母搜索、酒店的有序列表、特定的搜索窗口（入住/退房日期），以及來賓配置。

我們應用了一種有監督的機器學習方法並創建了一個類似於邏輯回歸的算法：它根據客戶端發送的標籤計算每個請求的概率，包括增量時間戳、時間戳、目的地、酒店、入住/退房日期，客人人數，以及先前請求的標籤。根據給定的參數，該算法將識別 API 服務器請求是由人類或元搜索引擎生成的概率。該算法將在客戶端訪問 API 時實時運行。如果它確定請求是人為驅動的可能性足夠高，則該請求將被發送到高速服務器。如果它看起來是元搜索，則請求將被轉移到運行成本較低的緩存服務器。監督學習的使用使我們能夠教授模型，從而在開發過程中提高準確性。

該模型提供了靈活性，因為可以根據比我們以前使用的更具體的業務規則（例如，每天的預期預訂量或客戶層級）來調整每個客戶的概率。對於特定的客戶，請求可以被引導到概率超過 50% 的任何點，而對於更有價值的客戶，我們可能需要更多的確定性，當他們超過 70% 的概率閾值時引導它們。

標題為“通過機器學習算法對客戶進行排序”的插圖。此插圖是一個流程圖，顯示了根據請求的來源點對請求進行排序的可能路徑。流程圖的開頭有兩個可能的來源，“互聯網用戶”和“元搜索”。兩者都導致“XML，API 服務器”。這導致“自然搜索？”如果結果為“是”，則下一步是“高速服務器”。如果結果為“否”，則下一步是“緩存服務器”。在此之後，兩者都被引導回“XML，API 服務器”。 — 請求被排序到高速服務器或緩存服務器的路徑，具體取決於它們的源點。

在實施分類算法後，該公司在給定的時間範圍內將多達 70% 的請求轉移到更便宜的堆棧，並估計每年節省 500 萬至 700 萬美元的基礎設施成本。同時，該公司通過不拒絕流量來滿足客戶群。它在保證收入的同時保留了預訂率。

為工作使用正確的工具

這些案例研究證明了使用數據科學解決複雜產品問題的價值。但是您的數據科學之旅應該從哪裡開始呢？很有可能，您已經對廣泛的知識領域有了基本的了解。數據科學是一項跨學科活動；它包含了深刻的技術和概念思維。這是大數字和大創意的結合。要開始，您需要提高以下技能：

編程。 結構化查詢語言或 SQL 是用於管理數據庫的標準編程語言。 Python 是統計分析的標準語言。雖然這兩者有重疊的功能，但在非常基本的意義上，SQL 用於檢索和格式化數據，而 Python 用於運行分析以找出數據可以告訴你什麼。 Excel 雖然不如 SQL 和 Python 強大，但可以幫助您實現許多相同的目標；您可能會被要求經常使用它。

行動調查。 一旦你有你的結果，然後呢？如果你不知道如何處理它，世界上所有的信息都是沒有用的。運籌學是一個數學領域，致力於將分析方法應用於商業戰略。了解如何使用運籌學將幫助您做出有數據支持的合理業務決策。

機器學習。 隨著人工智能的興起，機器學習的進步為預測分析創造了新的可能性。預測分析的業務使用率從 2018 年的 23% 上升到 2020 年的 59%，預計到 2026 年市場的複合年增長率將達到 24.5%。現在是產品經理了解該技術的可能性的時候了。

數據可視化。 僅僅理解你的分析是不夠的；您需要 Tableau、Microsoft Power BI 和 Qlik Sense 等工具來以非技術利益相關者易於理解的格式傳達結果。

最好自己獲得這些技能，但至少您應該具備聘請專家和委派任務所需的熟悉度。一個好的產品經理應該知道可能的分析類型以及他們可以幫助回答的問題。他們應該了解如何與數據科學家交流問題以及如何執行分析，並能夠將結果轉化為業務解決方案。

掌握推動回報的力量

NewVantage Partners 的 2022 年數據和人工智能領導力高管調查顯示，超過 90% 的參與組織正在投資人工智能和數據計劃。自 2015 年以來，大數據和業務分析產生的收入翻了一番多。數據分析曾經是一項專業技能，現在對於為世界各地的公司提供正確答案至關重要。

聘請產品經理來推動回報、確定戰略並從同事那裡獲得最好的工作。真實性、同理心和其他軟技能在這方面很有用，但它們只是等式的一半。要成為組織內的領導者，請將事實擺在桌面上，而不是發表意見。開發基於證據的洞察力的工具從未如此強大，潛在回報也從未如此巨大。