Beweis in Zahlen: Mit Big Data Ergebnisse erzielen

Veröffentlicht: 2022-07-22

An einem bestimmten Punkt Ihrer Karriere als Produktmanager stehen Sie möglicherweise vor großen Problemen, die weniger definiert sind, breitere Ursachen und Wirkungsbereiche betreffen und mehr als eine Lösung haben. Wenn Sie mit komplexen Datensätzen arbeiten – wenn Sie anfangen, an Zahlen in Millionen statt an Tausende zu denken – brauchen Sie die richtigen Tools, um mit der gleichen Geschwindigkeit zu skalieren.

Hier kann datengesteuertes Produktmanagement einen enormen geschäftlichen Nutzen bringen. In den folgenden Beispielen, die aus Fällen aus meiner eigenen Karriere stammen, führte die Anwendung von Datenanalysen auf scheinbar unlösbare Probleme zu Lösungen, die meinen Arbeitgebern enorme Gewinne einbrachten – von Millionen bis zu Hunderten von Millionen Dollar.

Der Erwerb von Data-Science-Fähigkeiten kann Ihnen helfen, den nächsten Wachstumspfad in Ihrer Karriere im Produktmanagement einzuschlagen. Sie lösen Probleme schneller als Ihre Kollegen, verwandeln evidenzbasierte Erkenntnisse in harte Renditen und leisten einen großen Beitrag zum Erfolg Ihres Unternehmens.

Nutzen Sie umfangreiche Daten

Die Anwendung von Data Science im Produktmanagement und in der Produktanalyse ist kein neues Konzept. Neu ist die erstaunliche Menge an Daten, auf die Unternehmen Zugriff haben, sei es über ihre Plattformen, Datenerfassungssoftware oder die Produkte selbst. Und doch berichtete Seagate Technology im Jahr 2020, dass 68 % der von Unternehmen gesammelten Daten ungenutzt bleiben. Ein IBM-Whitepaper aus dem Jahr 2014 verglich diese Datenverschwendung mit „einer Fabrik, in der große Mengen an Rohstoffen ungenutzt und an verschiedenen Stellen entlang des Fließbands verstreut liegen“.

Produktmanager mit Data-Science-Kenntnissen können diese Daten nutzen, um Einblicke in wichtige Kennzahlen wie Aktivierung, Reichweite, Bindung, Engagement und Monetarisierung zu gewinnen. Diese Metriken können auf eine Reihe von Produkttypen wie E-Commerce, Inhalte, APIs, SaaS-Produkte und mobile Apps ausgerichtet sein.

Kurz gesagt, bei Data Science geht es weniger darum, welche Daten Sie sammeln, als vielmehr darum, wie und wann Sie sie verwenden, insbesondere wenn Sie mit neuen und höherwertigen Zahlen arbeiten.

Graben Sie in den Daten, um die Grundursachen zu finden

Vor einigen Jahren arbeitete ich bei einem Reisetechnologieanbieter mit mehr als 50.000 aktiven Kunden in 180 Ländern, 3.700 Mitarbeitern und einem Jahresumsatz von 2,5 Milliarden US-Dollar. In einem Unternehmen dieser Größe verwalten Sie große Teams und riesige Mengen an Informationen.

Als ich dort anfing zu arbeiten, stand ich vor folgendem Problem: Trotz aktueller Roadmaps und voller Backlogs sank der NPS-Score und die Kundenabwanderung nahm über zwei Jahre zu. Die mit dem Kundensupport verbundenen Kosten stiegen erheblich und die Supportabteilungen waren ständig im Einsatz; In diesen zwei Jahren haben sich die Supportanrufe vervierfacht.

In meinen ersten drei Monaten habe ich studiert, wie das Geschäft funktioniert, von der Lieferverhandlung bis zur Beschwerdelösung. Ich führte Interviews mit der Vice President of Product und ihrem Team, verband mich mit VPs aus den Vertriebs- und Technologieteams und sprach ausführlich mit der Kundendienstabteilung. Diese Bemühungen lieferten nützliche Erkenntnisse und ermöglichten es meinem Team, mehrere Hypothesen zu entwickeln – lieferten jedoch keine harten Daten, um sie zu untermauern oder Gründe zu finden, sie abzulehnen. Mögliche Erklärungen für die Unzufriedenheit der Kunden waren ein Mangel an Funktionen, wie die Möglichkeit, Bestellungen zu bearbeiten, nachdem sie aufgegeben wurden; Bedarf an Zusatzprodukten; und unzureichende technische Unterstützung und/oder Produktinformationen. Aber selbst wenn wir uns für eine einzige Vorgehensweise entscheiden könnten, würde es etwas Handfesteres als eine Möglichkeit erfordern, die verschiedenen Abteilungen davon zu überzeugen, sich ihr anzuschließen.

Bei einem kleineren Unternehmen hätte ich vielleicht damit begonnen, Kundeninterviews zu führen. Aber bei einer Endnutzerbasis von Hunderttausenden war dieser Ansatz weder hilfreich noch machbar. Während es mir ein Meer von Meinungen gegeben hätte – einige davon gültig – musste ich wissen, dass die Informationen, mit denen ich arbeitete, einen größeren Trend darstellten. Stattdessen zog ich mit Unterstützung des Business-Intelligence-Teams alle verfügbaren Daten aus dem Callcenter und den Kundendienstabteilungen.

In vier Spalten mit jeweils 130.000 Zeilen kamen Supportfälle aus den vergangenen sechs Monaten bei mir an. Jede Zeile stellte eine Kundensupportanfrage dar, und jede Spalte war mit dem Problembereich des Kunden im Verlauf des Pflegeprozesses gekennzeichnet. Jede Spalte hatte zwischen 11 und 471 verschiedene Beschriftungen.

Eine Illustration mit dem Titel „Kundensupportdaten“. Die Abbildung stellt 130.000 Zeilen dar, in denen Daten dokumentiert wurden, mit vier Spalten von Problembereichen, die als Erster Problembereich, Zweiter Problembereich, Dritter Problembereich und Vierter Problembereich identifiziert wurden. Die Anzahl der Problembereichsetiketten in jeder Spalte wird als 11 Etiketten, 58 Etiketten, 344 Etiketten bzw. 471 Etiketten notiert. — Kundensupportdaten, die 130.000 Einzelfälle mit jeweils vier Problembereichen umfassen.

Das Anwenden von Filtern und das Sortieren des riesigen Datensatzes brachte keine schlüssigen Ergebnisse. Individuelle Problembezeichnungen reichten nicht aus, um das Gesamtbild zu erfassen. Ein Kunde könnte zunächst anrufen, um sein Passwort zurückzusetzen, und während dieser Anruf als solcher protokolliert würde, kann ein anderes Grundproblem offensichtlich werden, nachdem alle vier Probleme als Zeichenfolge betrachtet wurden. In 130.000 Zeilen mit Millionen möglicher Zeichenfolgen war es keine Option, nach Mustern zu suchen, indem jede Zeile einzeln überprüft wurde. Es wurde deutlich, dass es bei der Identifizierung des Problems in dieser Größenordnung weniger darum ging, Geschäftseinblicke zu liefern, als vielmehr mit der Lösung eines mathematischen Problems vergleichbar zu sein.

Um die am häufigsten vorkommenden Zeichenfolgen zu isolieren, habe ich eine Stichprobe mit Wahrscheinlichkeit proportional zur Größe (PPS) verwendet. Dieses Verfahren setzt die Auswahlwahrscheinlichkeit für jedes Element proportional zu seinem Größenmaß. Während die Mathematik komplex war, war das, was wir in der Praxis gemacht haben, einfach: Wir haben Fälle basierend auf der Häufigkeit jedes Etiketts in jeder Spalte abgetastet. Diese Methode ist eine Form der mehrstufigen Stichprobenziehung und ermöglichte es uns, eine Reihe von Problemen zu identifizieren, die ein lebendigeres Bild davon zeichneten, warum Kunden das Support-Center anriefen. Zuerst identifizierte unser Modell die häufigste Bezeichnung aus der ersten Spalte, dann innerhalb dieser Gruppe die häufigste Bezeichnung aus der zweiten Spalte und so weiter.

Eine Illustration mit dem Titel „Customer Support Data after PPS Sampling“. Die Abbildung stellt 130.000 Zeilen dar, in denen Daten dokumentiert wurden, mit vier Spalten von Problembereichen, die als Erster Problembereich, Zweiter Problembereich, Dritter Problembereich und Vierter Problembereich identifiziert wurden. Die Anzahl der Problembereichsetiketten in jeder Spalte wird als 11 Etiketten, 58 Etiketten, 344 Etiketten bzw. 471 Etiketten notiert. Zusätzlich werden hervorgehobene Kästchen hinzugefügt, um die Identifizierung von häufig vorkommenden Labels in jedem Problembereich darzustellen. — Kunden-Support-Center-Daten nach Anwendung der PPS-Stichprobe, wobei die am häufigsten vorkommenden Label-Strings identifiziert wurden.

Nach der Anwendung von PPS-Stichproben konnten wir 2 % der Grundursachen isolieren, was etwa 25 % aller Fälle ausmachte. Dies ermöglichte uns die Anwendung eines kumulativen Wahrscheinlichkeitsalgorithmus, der ergab, dass mehr als 50 % der Fälle auf 10 % der Grundursachen zurückzuführen waren.

Diese Schlussfolgerung bestätigte eine unserer Hypothesen: Kunden kontaktierten das Callcenter, weil sie keine Möglichkeit hatten, Bestelldaten zu ändern, nachdem eine Bestellung aufgegeben wurde. Durch die Behebung eines einzigen Problems konnte der Kunde 7 Millionen US-Dollar an Supportkosten einsparen und 200 Millionen US-Dollar an Einnahmen zurückerhalten, die der Kundenabwanderung zugeschrieben werden.

Führen Sie Analysen in Echtzeit durch

Kenntnisse im maschinellen Lernen waren besonders hilfreich bei der Lösung einer Datenanalyse-Herausforderung bei einem anderen Reiseunternehmen ähnlicher Größe. Das Unternehmen fungierte über eine Website und APIs als Bindeglied zwischen Hotels und Reisebüros auf der ganzen Welt. Aufgrund der Verbreitung von Metasuchmaschinen wie Trivago, Kayak und Skyscanner wuchs der API-Verkehr um drei Größenordnungen. Vor der Verbreitung der Metasuche betrug das Look-to-Book-Verhältnis (Gesamt-API-Suchen zu Gesamt-API-Buchungen) 30:1; Nach Beginn der Metasuchen erreichten einige Kunden ein Verhältnis von 30.000:1. Während der Spitzenzeiten musste das Unternehmen bis zu 15.000 API-Anfragen pro Sekunde verarbeiten, ohne die Verarbeitungsgeschwindigkeit zu beeinträchtigen. Die mit der API verbundenen Serverkosten stiegen entsprechend an. Aber der erhöhte Verkehr von diesen Diensten führte nicht zu einer Umsatzsteigerung; Die Einnahmen blieben konstant, was einen massiven finanziellen Verlust für das Unternehmen bedeutete.

Das Unternehmen benötigte einen Plan, um die durch den Verkehrsanstieg verursachten Serverkosten zu senken und gleichzeitig das Kundenerlebnis aufrechtzuerhalten. Als das Unternehmen in der Vergangenheit versuchte, den Datenverkehr für ausgewählte Kunden zu blockieren, war das Ergebnis eine negative PR. Ein Blockieren dieser Motoren war daher keine Option. Mein Team wandte sich an Daten, um eine Lösung zu finden.

Wir haben ungefähr 300 Millionen API-Anfragen anhand einer Reihe von Parametern analysiert: Uhrzeit der Anfrage, Ziel, Check-in-/Check-out-Daten, Hotelliste, Anzahl der Gäste und Zimmertyp. Anhand der Daten haben wir festgestellt, dass bestimmte Muster mit Metasuch-Traffic-Anstiegen verbunden sind: Tageszeit, Anzahl der Anfragen pro Zeiteinheit, alphabetische Suche in Reisezielen, geordnete Listen für Hotels, bestimmte Suchfenster (Check-in/out-Daten) und Gastkonfiguration.

Wir haben einen überwachten maschinellen Lernansatz angewendet und einen Algorithmus entwickelt, der der logistischen Regression ähnelt: Er berechnet eine Wahrscheinlichkeit für jede Anfrage basierend auf den vom Client gesendeten Tags, einschließlich Delta-Zeitstempel, Zeitstempel, Ziel, Hotel(s), Check-in/out-Daten und Anzahl der Gäste sowie die Tags früherer Anfragen. Abhängig von den gegebenen Parametern würde der Algorithmus die Wahrscheinlichkeit identifizieren, dass eine API-Server-Anfrage von einem Menschen oder von einer Metasuchmaschine generiert wurde. Der Algorithmus würde in Echtzeit ausgeführt, wenn ein Client auf die API zugreift. Wenn eine ausreichend hohe Wahrscheinlichkeit festgestellt wird, dass die Anfrage von Menschen stammt, wird die Anfrage an den Hochgeschwindigkeitsserver gesendet. Wenn es sich um eine Metasuche handelte, wurde die Anfrage an einen Caching-Server umgeleitet, dessen Betrieb kostengünstiger war. Die Verwendung von überwachtem Lernen ermöglichte es uns, das Modell zu lehren, was im Laufe der Entwicklung zu größerer Genauigkeit führte.

Dieses Modell bot Flexibilität, da die Wahrscheinlichkeit pro Kunde basierend auf spezifischeren Geschäftsregeln als denen, die wir zuvor verwendet hatten, angepasst werden konnte (z. B. erwartete Buchungen pro Tag oder Kundenstufe). Für einen bestimmten Kunden könnten die Anfragen an jedem Punkt über 50 % Wahrscheinlichkeit weitergeleitet werden, während wir für wertvollere Kunden mehr Sicherheit verlangen könnten, indem wir sie weiterleiten, wenn sie einen Schwellenwert von 70 % Wahrscheinlichkeit überschreiten.

Eine Illustration mit dem Titel „Sorting Clients via a Machine-learning Algorithm“. Diese Abbildung ist ein Flussdiagramm, das die möglichen Pfade zeigt, nach denen Anfragen in Abhängigkeit von ihrem Ursprungsort sortiert werden. Der Beginn des Flussdiagramms hat zwei mögliche Ursprünge, „Internetbenutzer“ und „Metasuchen“. Beide führen zu „XML, API Server“. Dies führt zu "Natürliche Suche?" Wenn das Ergebnis „Ja“ ist, ist der nächste Schritt „Hochgeschwindigkeitsserver“. Wenn das Ergebnis „Nein“ ist, ist der nächste Schritt „Caching Server“. Danach werden beide zurück zu „XML, API Server“ geführt. — Der Pfad, nach dem Anfragen je nach Ursprungsort entweder zum Hochgeschwindigkeitsserver oder zum Caching-Server sortiert wurden.

Nach der Implementierung des Klassifizierungsalgorithmus leitete das Unternehmen bis zu 70 % der Anfragen innerhalb eines bestimmten Zeitrahmens auf den günstigeren Stack um und sparte geschätzte 5 bis 7 Millionen US-Dollar pro Jahr an Infrastrukturkosten ein. Gleichzeitig stellte das Unternehmen den Kundenstamm zufrieden, indem es den Datenverkehr nicht ablehnte. Es bewahrte die Buchungsquote und sicherte gleichzeitig den Umsatz.

Verwenden Sie die richtigen Tools für den Job

Diese Fallstudien zeigen den Wert der Nutzung von Data Science zur Lösung komplexer Produktprobleme. Aber wo sollte Ihre Data-Science-Reise beginnen? Die Chancen stehen gut, dass Sie bereits ein grundlegendes Verständnis der breiten Wissensbereiche haben. Data Science ist eine interdisziplinäre Aktivität; es umfasst tief technisches und konzeptionelles Denken. Es ist die Verbindung von großen Zahlen und großen Ideen. Um loszulegen, müssen Sie Ihre Fähigkeiten verbessern in:

Programmierung. Die strukturierte Abfragesprache oder SQL ist die Standardprogrammiersprache für die Verwaltung von Datenbanken. Python ist die Standardsprache für statistische Analysen. Während die beiden überlappende Funktionen haben, wird SQL im Grunde genommen zum Abrufen und Formatieren von Daten verwendet, während Python verwendet wird, um die Analysen durchzuführen, um herauszufinden, was die Daten Ihnen sagen können. Excel ist zwar nicht so leistungsfähig wie SQL und Python, kann Ihnen aber dabei helfen, viele der gleichen Ziele zu erreichen. Sie werden wahrscheinlich oft aufgefordert, es zu verwenden.

Unternehmensforschung. Sobald Sie Ihre Ergebnisse haben, was dann? Alle Informationen der Welt nützen nichts, wenn man nicht weiß, was man damit anfangen soll. Operations Research ist ein Bereich der Mathematik, der sich der Anwendung analytischer Methoden auf die Geschäftsstrategie widmet. Wenn Sie wissen, wie Operations Research eingesetzt wird, können Sie fundierte Geschäftsentscheidungen treffen, die auf Daten basieren.

Maschinelles Lernen. Mit zunehmender KI haben Fortschritte im maschinellen Lernen neue Möglichkeiten für Predictive Analytics geschaffen. Die geschäftliche Nutzung von Predictive Analytics stieg von 23 % im Jahr 2018 auf 59 % im Jahr 2020, und der Markt wird voraussichtlich bis 2026 ein durchschnittliches jährliches Wachstum von 24,5 % verzeichnen. Jetzt ist es an der Zeit für Produktmanager, zu erfahren, was mit der Technologie möglich ist.

Datenvisualisierung. Es reicht nicht, Ihre Analysen zu verstehen; Sie benötigen Tools wie Tableau, Microsoft Power BI und Qlik Sense, um die Ergebnisse in einem Format zu vermitteln, das für nicht-technische Beteiligte leicht verständlich ist.

Es ist vorzuziehen, sich diese Fähigkeiten selbst anzueignen, aber Sie sollten zumindest über die erforderliche Vertrautheit verfügen, um Experten einzustellen und Aufgaben zu delegieren. Ein guter Produktmanager sollte wissen, welche Arten von Analysen möglich sind und welche Fragen sie beantworten können. Sie sollten verstehen, wie man Fragen an Data Scientists kommuniziert und wie Analysen durchgeführt werden, und in der Lage sein, die Ergebnisse in Geschäftslösungen umzuwandeln.

Nutzen Sie die Kraft, um Renditen zu erzielen

Die 2022 Data and AI Leadership Executive Survey von NewVantage Partners zeigt, dass mehr als 90 % der teilnehmenden Organisationen in KI- und Dateninitiativen investieren. Der Umsatz aus Big Data und Business Analytics hat sich seit 2015 mehr als verdoppelt. Datenanalyse, einst eine Spezialkompetenz, ist heute unerlässlich, um Unternehmen überall die richtigen Antworten zu geben.

Ein Produktmanager wird eingestellt, um die Rendite zu steigern, die Strategie festzulegen und Kollegen die beste Arbeit abzuringen. Authentizität, Empathie und andere Soft Skills sind in dieser Hinsicht hilfreich, aber sie sind nur die Hälfte der Gleichung. Um eine Führungskraft in Ihrer Organisation zu sein, bringen Sie Fakten auf den Tisch, keine Meinungen. Die Tools zur Entwicklung evidenzbasierter Erkenntnisse waren noch nie so leistungsfähig und die potenziellen Renditen waren noch nie größer.