数字证明：使用大数据驱动结果

已发表: 2022-07-22

在您作为产品经理职业生涯的某个阶段，您可能会面临定义不明确、涉及更广泛的原因和影响领域并且有多个解决方案的大规模问题。当您发现自己在处理复杂的数据集时（当您开始考虑数百万而不是数千的数字时）您需要正确的工具来使您能够以相同的速度扩大规模。

这就是数据驱动的产品管理可以产生巨大商业价值的地方。在以下示例中，这些示例来自我自己职业生涯中的案例，将数据分析应用于看似棘手的问题所产生的解决方案为我的雇主带来了巨额回报——从数百万美元到数亿美元不等。

获得数据科学技能有助于打造产品管理职业的下一条发展道路。您将比您的同事更快地解决问题，将基于证据的见解转化为硬回报，并为您的组织的成功做出巨大贡献。

利用大规模数据

在产品管理和产品分析中应用数据科学并不是一个新概念。新的是企业可以访问的数据量惊人，无论是通过他们的平台、数据收集软件还是产品本身。然而，在 2020 年，希捷科技报告称，公司收集的 68% 的数据没有得到利用。 2014 年 IBM 的一份白皮书将这种数据浪费比作“一家工厂，其中大量原材料未被使用并散布在装配线的各个点上”。

具有数据科学技能的产品经理可以利用这些数据来深入了解关键指标，例如激活、覆盖、留存、参与和货币化。这些指标可以针对一系列产品类型，例如电子商务、内容、API、SaaS 产品和移动应用程序。

简而言之，数据科学不是关于你收集什么数据，而是更多关于你如何以及何时使用它，尤其是当你处理新的和更高阶的数字时。

挖掘数据以找出根本原因

几年前，我在一家旅游技术提供商工作，在 180 个国家拥有 50,000 多名活跃客户，3,700 名员工，年收入 25 亿美元。在这种规模的公司中，您要管理大型团队和大量信息。

当我开始在那里工作时，我遇到了以下问题：尽管有最新的路线图和完整的积压工作，但 NPS 分数下降了，客户流失率在两年内有所增加。与客户支持相关的成本显着增加，支持部门不断灭火；在那两年里，支持电话翻了两番。

在我最初的三个月里，我研究了企业是如何运作的，从供应谈判到投诉解决。我采访了产品副总裁及其团队，联系了销售和技术团队的副总裁，并与客户支持部门进行了广泛的交谈。这些努力产生了有用的见解，并让我的团队提出了几个假设——但没有提供确凿的数据来支持它们或建立拒绝它们的理由。客户不满意的可能解释包括缺乏功能，例如下订单后编辑订单的能力；对附加产品的需求；技术援助和/或产品信息不足。但是，即使我们可以决定一个单一的行动方案，说服各个部门同意它也需要一些比可能性更坚定的东西。

在一家较小的公司，我可能从进行客户访谈开始。但由于最终用户群有数十万，这种方法既无用也不可行。虽然它会给我很多意见——有些是有效的——但我需要知道我正在使用的信息代表了一个更大的趋势。相反，在商业智能团队的支持下，我从呼叫中心和客户支持部门提取了所有可用数据。

前六个月的支持案例分四列提交给我，每列有 130,000 行。每一行代表一个客户支持请求，每一列都标有客户在护理过程中的问题区域。每列有 11 到 471 个不同的标签。

标题为“客户支持数据”的插图。该图表示记录了数据的 130,000 行，其中有四列问题区域，分别标识为第一问题区域、第二问题区域、第三问题区域和第四问题区域。每列中问题区域标签的数量分别记为 11 个标签、58 个标签、344 个标签和 471 个标签。 — 客户支持数据，包括 130,000 个个案，每个个案有四个问题领域。

应用过滤器并对海量数据集进行排序并没有得出结论性的结果。个别问题标签不足以捕捉大局。客户最初可能会打电话来重置他们的密码，虽然该电话会被记录下来，但在将所有四个问题都视为一个字符串之后，可能会出现不同的根本问题。在包含数百万个可能字符串的 130,000 行中，通过单独查看每一行来寻找模式不是一种选择。很明显，以这种规模识别问题与其说是提供业务洞察力，不如说是解决数学问题。

为了隔离最常出现的字符串，我使用了与大小成比例的概率 (PPS) 采样。此方法将每个元素的选择概率设置为与其大小度量成比例。虽然数学很复杂，但实际上，我们所做的很简单：我们根据每列中每个标签的频率对案例进行抽样。多阶段抽样的一种形式，这种方法使我们能够识别出一系列问题，从而更生动地描绘了客户致电支持中心的原因。首先，我们的模型从第一列中识别出最常见的标签，然后在该组中，从第二列中识别出最常见的标签，依此类推。

标题为“PPS 抽样后的客户支持数据”的插图。该图表示记录了数据的 130,000 行，其中有四列问题区域，分别标识为第一问题区域、第二问题区域、第三问题区域和第四问题区域。每列中问题区域标签的数量分别记为 11 个标签、58 个标签、344 个标签和 471 个标签。此外，添加了突出显示的框以表示每个问题区域内常见标签的识别。 — 应用 PPS 抽样后的客户支持中心数据，其中标识了最常出现的标签字符串。

应用 PPS 抽样后，我们分离出 2% 的根本原因，约占总病例的 25%。这使我们能够应用累积概率算法，该算法显示超过 50% 的案例源于 10% 的根本原因。

这一结论证实了我们的一个假设：客户之所以联系呼叫中心，是因为一旦下订单，他们就无法更改订单数据。通过解决一个问题，客户可以节省 700 万美元的支持成本并收回 2 亿美元的客户流失收入。

实时执行分析

机器学习知识对于解决另一家类似规模的旅游公司的数据分析挑战特别有用。该公司通过网站和 API 充当世界各地酒店和旅行社之间的联络人。由于 Trivago、Kayak 和 Skyscanner 等元搜索引擎的普及，API 流量增长了三个数量级。在元搜索扩散之前，look-to-book 比率（总 API 搜索量与总 API 预订量）为 30:1；元搜索开始后，一些客户的比例会达到 30,000:1。在高峰时段，该公司必须在不牺牲处理速度的情况下每秒处理多达 15,000 个 API 请求。与 API 相关的服务器成本相应增加。但是这些服务带来的流量增加并没有带来销售额的增长；收入保持不变，给公司造成了巨大的财务损失。

该公司需要一个计划来降低由流量激增导致的服务器成本，同时保持客户体验。当公司过去试图阻止特定客户的流量时，结果是负面的公关。因此，阻止这些引擎不是一种选择。我的团队转向数据来寻找解决方案。

我们通过一系列参数分析了大约 3 亿个 API 请求：请求时间、目的地、入住/退房日期、酒店列表、客人数量和房间类型。从数据中，我们确定某些模式与元搜索流量激增有关：一天中的时间、每个时间单位的请求数量、目的地的字母搜索、酒店的有序列表、特定的搜索窗口（入住/退房日期），以及来宾配置。

我们应用了一种有监督的机器学习方法并创建了一个类似于逻辑回归的算法：它根据客户端发送的标签计算每个请求的概率，包括增量时间戳、时间戳、目的地、酒店、入住/退房日期，客人人数，以及先前请求的标签。根据给定的参数，该算法将识别 API 服务器请求是由人类或元搜索引擎生成的概率。该算法将在客户端访问 API 时实时运行。如果它确定请求是人为驱动的可能性足够高，则该请求将被发送到高速服务器。如果它看起来是元搜索，则请求将被转移到运行成本较低的缓存服务器。监督学习的使用使我们能够教授模型，从而在开发过程中提高准确性。

该模型提供了灵活性，因为可以根据比我们以前使用的更具体的业务规则（例如，每天的预期预订量或客户层级）来调整每个客户的概率。对于特定的客户，请求可以被引导到概率超过 50% 的任何点，而对于更有价值的客户，我们可能需要更多的确定性，当他们超过 70% 的概率阈值时引导它们。

标题为“通过机器学习算法对客户进行排序”的插图。此插图是一个流程图，显示了根据请求的来源点对请求进行排序的可能路径。流程图的开头有两个可能的来源，“互联网用户”和“元搜索”。两者都导致“XML，API 服务器”。这导致“自然搜索？”如果结果为“是”，则下一步是“高速服务器”。如果结果为“否”，则下一步是“缓存服务器”。在此之后，两者都被引导回“XML，API 服务器”。 — 请求被排序到高速服务器或缓存服务器的路径，具体取决于它们的源点。

在实施分类算法后，该公司在给定的时间范围内将多达 70% 的请求转移到更便宜的堆栈，并估计每年节省 500 万至 700 万美元的基础设施成本。同时，该公司通过不拒绝流量来满足客户群。它在保证收入的同时保留了预订率。

为工作使用正确的工具

这些案例研究证明了使用数据科学解决复杂产品问题的价值。但是您的数据科学之旅应该从哪里开始呢？很有可能，您已经对广泛的知识领域有了基本的了解。数据科学是一项跨学科活动；它包含了深刻的技术和概念思维。这是大数字和大创意的结合。要开始，您需要提高以下技能：

编程。 结构化查询语言或 SQL 是用于管理数据库的标准编程语言。 Python 是统计分析的标准语言。虽然这两者有重叠的功能，但在非常基本的意义上，SQL 用于检索和格式化数据，而 Python 用于运行分析以找出数据可以告诉你什么。 Excel 虽然不如 SQL 和 Python 强大，但可以帮助您实现许多相同的目标；您可能会被要求经常使用它。

行动调查。 一旦你有你的结果，然后呢？如果你不知道如何处理它，世界上所有的信息都是没有用的。运筹学是一个数学领域，致力于将分析方法应用于商业战略。了解如何使用运筹学将帮助您做出有数据支持的合理业务决策。

机器学习。 随着人工智能的兴起，机器学习的进步为预测分析创造了新的可能性。预测分析的业务使用率从 2018 年的 23% 上升到 2020 年的 59%，预计到 2026 年市场的复合年增长率将达到 24.5%。现在是产品经理了解该技术的可能性的时候了。

数据可视化。 仅仅理解你的分析是不够的；您需要 Tableau、Microsoft Power BI 和 Qlik Sense 等工具来以非技术利益相关者易于理解的格式传达结果。

最好自己获得这些技能，但至少您应该具备聘请专家和委派任务所需的熟悉度。一个好的产品经理应该知道可能的分析类型以及他们可以帮助回答的问题。他们应该了解如何与数据科学家交流问题以及如何执行分析，并能够将结果转化为业务解决方案。

掌握推动回报的力量

NewVantage Partners 的 2022 年数据和人工智能领导力高管调查显示，超过 90% 的参与组织正在投资人工智能和数据计划。自 2015 年以来，大数据和业务分析产生的收入翻了一番多。数据分析曾经是一项专业技能，现在对于为世界各地的公司提供正确答案至关重要。

聘请产品经理来推动回报、确定战略并从同事那里获得最好的工作。真实性、同理心和其他软技能在这方面很有用，但它们只是等式的一半。要成为组织内的领导者，请将事实摆在桌面上，而不是发表意见。开发基于证据的洞察力的工具从未如此强大，潜在回报也从未如此巨大。