Preuve en chiffres : utiliser le Big Data pour obtenir des résultats

Publié: 2022-07-22

À un certain moment de votre carrière en tant que chef de produit, vous pourriez être confronté à des problèmes à grande échelle qui sont moins définis, impliquent des causes et des domaines d'impact plus larges et ont plus d'une solution. Lorsque vous travaillez avec des ensembles de données complexes (lorsque vous commencez à penser à des millions au lieu de milliers), vous avez besoin des bons outils pour vous permettre d'évoluer au même rythme.

C'est là que la gestion des produits basée sur les données peut générer une valeur commerciale considérable. Dans les exemples suivants, tirés de cas de ma propre carrière, l'application de l'analyse de données à des problèmes apparemment insolubles a produit des solutions qui ont apporté d'énormes rendements à mes employeurs, allant de millions de dollars à des centaines de millions.

L'acquisition de compétences en science des données peut vous aider à forger la prochaine voie de croissance de votre carrière en gestion de produits. Vous résoudrez les problèmes plus rapidement que vos collègues, transformerez des informations factuelles en résultats tangibles et contribuerez énormément au succès de votre organisation.

Tirez parti des données à grande échelle

L'application de la science des données dans la gestion et l'analyse des produits n'est pas un nouveau concept. Ce qui est nouveau, c'est la quantité stupéfiante de données auxquelles les entreprises ont accès, que ce soit via leurs plateformes, leurs logiciels de collecte de données ou les produits eux-mêmes. Et pourtant, en 2020, Seagate Technology a signalé que 68 % des données recueillies par les entreprises ne sont pas exploitées. Un livre blanc d'IBM de 2014 a comparé ce gaspillage de données à "une usine où de grandes quantités de matières premières sont inutilisées et éparpillées à divers points de la chaîne de montage".

Les chefs de produit ayant des compétences en science des données peuvent exploiter ces données pour obtenir des informations sur des mesures clés telles que l'activation, la portée, la rétention, l'engagement et la monétisation. Ces métriques peuvent être orientées vers une gamme de types de produits, comme le commerce électronique, le contenu, les API, les produits SaaS et les applications mobiles.

En bref, la science des données concerne moins les données que vous collectez que la manière et le moment où vous les utilisez, en particulier lorsque vous travaillez avec des nombres nouveaux et d'ordre supérieur.

Creusez dans les données pour trouver les causes profondes

Il y a plusieurs années, j'ai travaillé chez un fournisseur de technologie de voyage avec plus de 50 000 clients actifs dans 180 pays, 3 700 employés et 2,5 milliards de dollars de revenus annuels. Dans une entreprise de cette taille, vous gérez de grandes équipes et d'énormes quantités d'informations.

Lorsque j'ai commencé à travailler là-bas, on m'a présenté le problème suivant : malgré des feuilles de route à jour et des carnets de commandes complets, le score NPS a chuté et le taux de désabonnement des clients a augmenté sur deux ans. Les coûts associés au support client ont considérablement augmenté et les services de support étaient constamment en train de lutter contre les incendies ; pendant ces deux années, les appels d'assistance ont quadruplé.

Au cours de mes trois premiers mois, j'ai étudié le fonctionnement de l'entreprise, de la négociation de l'offre à la résolution des réclamations. J'ai mené des entretiens avec la vice-présidente du produit et son équipe, connecté avec les vice-présidents des équipes de vente et de technologie, et parlé longuement avec le service d'assistance à la clientèle. Ces efforts ont fourni des informations utiles et ont permis à mon équipe de développer plusieurs hypothèses, mais n'ont fourni aucune donnée concrète pour les étayer ou établir des bases sur lesquelles les rejeter. Les explications possibles de l'insatisfaction des clients comprenaient un manque de fonctionnalités, comme la possibilité de modifier les commandes après qu'elles aient été passées ; un besoin de produits complémentaires ; et une assistance technique et/ou des informations sur les produits insuffisantes. Mais même si nous pouvions décider d'une ligne de conduite unique, persuader les différents départements de s'y rallier exigerait quelque chose de plus ferme qu'une possibilité.

Dans une petite entreprise, j'aurais peut-être commencé par mener des entretiens avec des clients. Mais avec une base d'utilisateurs finaux de plusieurs centaines de milliers, cette approche n'était ni utile ni faisable. Bien que cela m'aurait donné une mer d'opinions - certaines valables - j'avais besoin de savoir que les informations avec lesquelles je travaillais représentaient une tendance plus large. Au lieu de cela, avec le soutien de l'équipe d'intelligence d'affaires, j'ai extrait toutes les données disponibles du centre d'appels et des services d'assistance à la clientèle.

Les demandes d'assistance des six mois précédents me sont parvenues en quatre colonnes, chacune avec 130 000 lignes. Chaque ligne représentait une demande d'assistance client et chaque colonne était étiquetée avec le problème du client au fur et à mesure de sa progression dans le processus de soins. Chaque colonne avait entre 11 et 471 étiquettes différentes.

Une illustration intitulée "Données d'assistance client". L'illustration représente 130 000 lignes dans lesquelles les données ont été documentées, avec quatre colonnes de domaines problématiques, identifiés comme Premier domaine problématique, Deuxième domaine problématique, Troisième domaine problématique et Quatrième domaine problématique. Le nombre d'étiquettes de zone problématique dans chaque colonne est noté respectivement 11 étiquettes, 58 étiquettes, 344 étiquettes et 471 étiquettes. — Données de support client, comprenant 130 000 cas individuels, chacun avec quatre domaines problématiques.

L'application de filtres et le tri de l'énorme ensemble de données n'ont donné aucun résultat concluant. Les étiquettes de problèmes individuels étaient inadéquates pour saisir la situation dans son ensemble. Un client peut appeler initialement pour réinitialiser son mot de passe, et bien que cet appel soit enregistré comme tel, un problème racine différent peut devenir évident après que les quatre problèmes ont été considérés comme une chaîne. Dans 130 000 lignes avec des millions de chaînes possibles, rechercher des modèles en examinant chaque ligne individuellement n'était pas une option. Il est devenu clair que l'identification du problème à cette échelle consistait moins à fournir un aperçu de l'entreprise qu'à résoudre un problème mathématique.

Afin d'isoler les chaînes les plus fréquentes, j'ai utilisé un échantillonnage avec probabilité proportionnelle à la taille (PPS). Cette méthode définit la probabilité de sélection pour chaque élément afin qu'elle soit proportionnelle à sa mesure de taille. Alors que les calculs étaient complexes, en termes pratiques, ce que nous avons fait était simple : nous avons échantillonné des cas en fonction de la fréquence de chaque étiquette dans chaque colonne. Forme d'échantillonnage à plusieurs niveaux, cette méthode nous a permis d'identifier des séries de problèmes qui donnaient une image plus vivante des raisons pour lesquelles les clients appelaient le centre d'assistance. Tout d'abord, notre modèle a identifié l'étiquette la plus courante de la première colonne, puis, au sein de ce groupe, l'étiquette la plus courante de la deuxième colonne, et ainsi de suite.

Une illustration intitulée "Données d'assistance client après échantillonnage PPS". L'illustration représente 130 000 lignes dans lesquelles les données ont été documentées, avec quatre colonnes de domaines problématiques, identifiés comme Premier domaine problématique, Deuxième domaine problématique, Troisième domaine problématique et Quatrième domaine problématique. Le nombre d'étiquettes de zone problématique dans chaque colonne est noté respectivement 11 étiquettes, 58 étiquettes, 344 étiquettes et 471 étiquettes. De plus, des cases en surbrillance sont ajoutées pour représenter l'identification des étiquettes courantes dans chaque domaine problématique. — Données du centre de support client après application de l'échantillonnage PPS, avec les chaînes d'étiquettes les plus fréquentes identifiées.

Après avoir appliqué l'échantillonnage PPS, nous avons isolé 2 % des causes profondes, qui représentaient environ 25 % du nombre total de cas. Cela nous a permis d'appliquer un algorithme de probabilité cumulative, qui a révélé que plus de 50 % des cas provenaient de 10 % des causes profondes.

Cette conclusion a confirmé l'une de nos hypothèses : les clients contactaient le centre d'appels car ils n'avaient aucun moyen de modifier les données de la commande une fois la commande passée. En résolvant un seul problème, le client pourrait économiser 7 millions de dollars en coûts de support et récupérer 200 millions de dollars en revenus attribués au désabonnement des clients.

Effectuez une analyse en temps réel

La connaissance de l'apprentissage automatique a été particulièrement utile pour résoudre un défi d'analyse de données dans une autre agence de voyages de taille similaire. La société a servi de liaison entre les hôtels et les agences de voyages du monde entier via un site Web et des API. En raison de la prolifération des métamoteurs de recherche, tels que Trivago, Kayak et Skyscanner, le trafic API a augmenté de trois ordres de grandeur. Avant la prolifération des méta-recherches, le ratio look-to-book (recherches API totales sur réservations API totales) était de 30:1 ; après le début des métarecherches, certains clients atteignaient un ratio de 30 000:1. Pendant les heures de pointe, l'entreprise devait traiter jusqu'à 15 000 requêtes API par seconde sans sacrifier la vitesse de traitement. Les coûts de serveur associés à l'API ont augmenté en conséquence. Mais l'augmentation du trafic de ces services ne s'est pas traduite par une augmentation des ventes ; les revenus sont restés constants, créant une perte financière massive pour l'entreprise.

L'entreprise avait besoin d'un plan pour réduire les coûts de serveur causés par l'augmentation du trafic, tout en préservant l'expérience client. Lorsque l'entreprise a tenté de bloquer le trafic pour certains clients dans le passé, le résultat a été négatif PR. Le blocage de ces moteurs n'était donc pas une option. Mon équipe s'est tournée vers les données pour trouver une solution.

Nous avons analysé environ 300 millions de requêtes API selon une série de paramètres : l'heure de la requête, la destination, les dates d'arrivée et de départ, la liste des hôtels, le nombre d'invités et le type de chambre. À partir des données, nous avons déterminé que certains modèles étaient associés à des pics de trafic de métarecherche : heure de la journée, nombre de requêtes par unité de temps, recherches alphabétiques dans les destinations, listes ordonnées d'hôtels, fenêtre de recherche spécifique (dates d'arrivée/de départ) et configuration invité.

Nous avons appliqué une approche d'apprentissage automatique supervisé et créé un algorithme similaire à la régression logistique : il a calculé une probabilité pour chaque demande en fonction des balises envoyées par le client, y compris l'horodatage delta, l'horodatage, la destination, l'hôtel (s), les dates d'arrivée et de départ et le nombre d'invités, ainsi que les balises des demandes précédentes. En fonction des paramètres donnés, l'algorithme identifierait la probabilité qu'une demande de serveur API ait été générée par un humain ou par un métamoteur de recherche. L'algorithme s'exécuterait en temps réel lorsqu'un client accéderait à l'API. S'il déterminait une probabilité suffisamment élevée que la demande soit motivée par l'homme, la demande serait envoyée au serveur à grande vitesse. S'il s'agissait d'une métarecherche, la demande serait redirigée vers un serveur de mise en cache moins coûteux à exploiter. L'utilisation de l'apprentissage supervisé nous a permis d'enseigner le modèle, conduisant à une plus grande précision au cours du développement.

Ce modèle offrait de la flexibilité car la probabilité pouvait être adaptée par client en fonction de règles commerciales plus spécifiques que celles que nous avions utilisées auparavant (par exemple, réservations attendues par jour ou niveau de client). Pour un client spécifique, les demandes pourraient être dirigées vers n'importe quel point supérieur à 50 % de probabilité, tandis que pour les clients plus précieux, nous pourrions exiger plus de certitude, en les dirigeant lorsqu'ils ont dépassé un seuil de 70 % de probabilité.

Une illustration intitulée "Trier les clients via un algorithme d'apprentissage automatique". Cette illustration est un organigramme montrant les chemins possibles par lesquels les requêtes sont triées en fonction de leur point d'origine. Le début de l'organigramme a deux origines possibles, "Utilisateurs Internet" et "Métarecherches". Les deux mènent à "XML, API Server". Cela conduit à "Recherche naturelle?" Si le résultat est "Oui", l'étape suivante est "Serveur haute vitesse". Si le résultat est "Non", l'étape suivante est "Caching Server". Après cela, les deux sont ramenés à "XML, API Server". — Le chemin par lequel les requêtes ont été triées vers le serveur à haut débit ou le serveur de mise en cache, selon leur point d'origine.

Après avoir mis en œuvre l'algorithme de classification, l'entreprise a détourné jusqu'à 70 % des demandes dans un délai donné vers la pile la moins chère et a économisé environ 5 à 7 millions de dollars par an en coûts d'infrastructure. Dans le même temps, l'entreprise a satisfait la clientèle en ne rejetant pas le trafic. Il a préservé le taux de réservation tout en préservant les revenus.

Utilisez les bons outils pour le travail

Ces études de cas démontrent la valeur de l'utilisation de la science des données pour résoudre des problèmes de produits complexes. Mais où votre voyage en science des données devrait-il commencer ? Il y a de fortes chances que vous ayez déjà une compréhension de base des vastes domaines de connaissances. La science des données est une activité interdisciplinaire; elle englobe une pensée profondément technique et conceptuelle. C'est le mariage des grands nombres et des grandes idées. Pour commencer, vous devrez perfectionner vos compétences dans :

Programmation. Le langage de requête structuré, ou SQL, est le langage de programmation standard pour la gestion des bases de données. Python est le langage standard pour l'analyse statistique. Alors que les deux ont des fonctions qui se chevauchent, dans un sens très basique, SQL est utilisé pour récupérer et formater les données, tandis que Python est utilisé pour exécuter les analyses pour découvrir ce que les données peuvent vous dire. Excel, bien qu'il ne soit pas aussi puissant que SQL et Python, peut vous aider à atteindre bon nombre des mêmes objectifs ; vous serez probablement appelé à l'utiliser souvent.

Recherche opérationnelle. Une fois que vous avez vos résultats, alors quoi? Toutes les informations du monde ne sont d'aucune utilité si vous ne savez pas quoi en faire. La recherche opérationnelle est un domaine des mathématiques consacré à l'application de méthodes analytiques à la stratégie d'entreprise. Savoir comment utiliser la recherche opérationnelle vous aidera à prendre des décisions commerciales judicieuses étayées par des données.

Apprentissage automatique. Avec l'essor de l'IA, les progrès de l'apprentissage automatique ont créé de nouvelles possibilités pour l'analyse prédictive. L'utilisation commerciale de l'analyse prédictive est passée de 23 % en 2018 à 59 % en 2020, et le marché devrait connaître une croissance annuelle composée de 24,5 % jusqu'en 2026. Il est maintenant temps pour les chefs de produit d'apprendre ce qui est possible avec la technologie.

Visualisation de données. Il ne suffit pas de comprendre vos analyses ; vous avez besoin d'outils tels que Tableau, Microsoft Power BI et Qlik Sense pour transmettre les résultats dans un format facile à comprendre pour les parties prenantes non techniques.

Il est préférable d'acquérir ces compétences vous-même, mais vous devez au moins avoir les connaissances nécessaires pour embaucher des experts et déléguer des tâches. Un bon chef de produit doit connaître les types d'analyses possibles et les questions auxquelles elles peuvent aider à répondre. Ils doivent comprendre comment communiquer les questions aux scientifiques des données et comment les analyses sont effectuées, et être capables de transformer les résultats en solutions commerciales.

Maniez le pouvoir de générer des retours

L'enquête 2022 sur le leadership en matière de données et d'IA de NewVantage Partners révèle que plus de 90 % des organisations participantes investissent dans des initiatives d'IA et de données. Les revenus générés par le Big Data et l'analyse commerciale ont plus que doublé depuis 2015. L'analyse des données, autrefois une compétence spécialisée, est désormais essentielle pour fournir les bonnes réponses aux entreprises du monde entier.

Un chef de produit est embauché pour générer des retours, déterminer la stratégie et obtenir le meilleur travail de ses collègues. L'authenticité, l'empathie et d'autres compétences non techniques sont utiles à cet égard, mais elles ne représentent que la moitié de l'équation. Pour être un leader au sein de votre organisation, apportez des faits à la table, pas des opinions. Les outils permettant de développer des informations factuelles n'ont jamais été aussi puissants et les rendements potentiels n'ont jamais été aussi importants.