La prova in numeri: utilizzare i big data per ottenere risultati

Pubblicato: 2022-07-22

A un certo punto della tua carriera come product manager, potresti dover affrontare problemi su larga scala meno definiti, coinvolgere cause e aree di impatto più ampie e avere più di una soluzione. Quando ti ritrovi a lavorare con set di dati complessi, quando inizi a pensare a numeri nell'ordine di milioni anziché di migliaia, hai bisogno degli strumenti giusti che ti permettano di scalare alla stessa velocità.

È qui che la gestione dei prodotti basata sui dati può produrre un enorme valore aziendale. Negli esempi seguenti, tratti da casi della mia carriera, l'applicazione dell'analisi dei dati a problemi apparentemente intrattabili ha prodotto soluzioni che hanno portato enormi guadagni per i miei datori di lavoro, che vanno da milioni di dollari a centinaia di milioni.

L'acquisizione di competenze di scienza dei dati può aiutare a forgiare il prossimo percorso di crescita nella tua carriera nella gestione dei prodotti. Risolverai i problemi più velocemente dei tuoi colleghi, trasformerai le informazioni basate sull'evidenza in ritorni concreti e darai un enorme contributo al successo della tua organizzazione.

Sfrutta dati su larga scala

L'applicazione della scienza dei dati nella gestione dei prodotti e nell'analisi dei prodotti non è un concetto nuovo. La novità è l'incredibile quantità di dati a cui le aziende hanno accesso, attraverso le loro piattaforme, i software di raccolta dati o i prodotti stessi. Eppure, nel 2020, Seagate Technology ha riferito che il 68% dei dati raccolti dalle aziende non ha effetto leva. Un white paper IBM del 2014 ha confrontato questo spreco di dati con "una fabbrica in cui grandi quantità di materie prime giacciono inutilizzate e sparse in vari punti lungo la catena di montaggio".

I product manager con competenze di data science possono sfruttare questi dati per ottenere informazioni dettagliate su metriche chiave come attivazione, copertura, fidelizzazione, coinvolgimento e monetizzazione. Queste metriche possono essere orientate a una gamma di tipi di prodotti, come e-commerce, contenuti, API, prodotti SaaS e app mobili.

In breve, la scienza dei dati riguarda meno i dati che raccogli e più su come e quando li usi, specialmente quando lavori con numeri nuovi e di ordine superiore.

Scava nei dati per trovare le cause principali

Diversi anni fa, ho lavorato presso un fornitore di tecnologia di viaggio con oltre 50.000 clienti attivi in 180 paesi, 3.700 dipendenti e un fatturato annuo di 2,5 miliardi di dollari. In un'azienda di queste dimensioni, gestisci grandi team e enormi quantità di informazioni.

Quando ho iniziato a lavorare lì, mi è stato presentato il seguente problema: nonostante avessi roadmap aggiornate e arretrati completi, il punteggio NPS è diminuito e il tasso di abbandono dei clienti è aumentato in due anni. I costi legati all'assistenza clienti sono cresciuti in modo significativo e i reparti di supporto sono stati costantemente antincendio; durante quei due anni, le chiamate di supporto sono quadruplicate.

Nei miei primi tre mesi, ho studiato come funzionava l'azienda, dalla negoziazione della fornitura alla risoluzione dei reclami. Ho condotto interviste con il vicepresidente del prodotto e il suo team, mi sono collegato con i vicepresidenti dei team di vendita e tecnologia e ho parlato a lungo con il dipartimento di assistenza clienti. Questi sforzi hanno prodotto spunti utili e hanno permesso al mio team di sviluppare diverse ipotesi, ma non hanno fornito dati concreti per sostenerle o stabilire basi su cui rifiutarle. Possibili spiegazioni per l'insoddisfazione dei clienti includevano la mancanza di funzionalità, come la possibilità di modificare gli ordini dopo che erano stati effettuati; la necessità di prodotti aggiuntivi; e insufficiente assistenza tecnica e/o informazioni sul prodotto. Ma anche se potessimo decidere un'unica linea d'azione, convincere i vari dipartimenti a seguirla richiederebbe qualcosa di più fermo di una possibilità.

In un'azienda più piccola, avrei potuto iniziare conducendo interviste ai clienti. Ma con una base di utenti finali di centinaia di migliaia, questo approccio non è stato né utile né fattibile. Anche se mi avrebbe dato un mare di opinioni, alcune valide, avevo bisogno di sapere che le informazioni su cui stavo lavorando rappresentavano una tendenza più ampia. Invece, con il supporto del team di business intelligence, ho estratto tutti i dati disponibili dal call center e dai dipartimenti di assistenza clienti.

I casi di supporto dei sei mesi precedenti mi sono arrivati in quattro colonne, ciascuna con 130.000 righe. Ogni riga rappresentava una richiesta di assistenza clienti e ogni colonna era etichettata con l'area problematica del cliente durante l'avanzamento del processo di assistenza. Ogni colonna aveva tra 11 e 471 etichette diverse.

Un'illustrazione intitolata "Dati dell'assistenza clienti". L'illustrazione rappresenta 130.000 righe in cui sono stati documentati i dati, con quattro colonne di aree problematiche, identificate come prima area problematica, seconda area problematica, terza area problematica e quarta area problematica. Il numero di etichette dell'area problematica in ciascuna colonna è indicato rispettivamente come 11 etichette, 58 etichette, 344 etichette e 471 etichette. — Dati dell'assistenza clienti, che comprendono 130.000 casi individuali, ciascuno con quattro aree problematiche.

L'applicazione di filtri e l'ordinamento dell'enorme set di dati non ha prodotto risultati conclusivi. Le etichette dei singoli problemi erano inadeguate per catturare il quadro più ampio. Un cliente potrebbe chiamare inizialmente per reimpostare la propria password e, sebbene tale chiamata venga registrata come tale, un problema alla radice diverso potrebbe diventare evidente dopo che tutti e quattro i problemi sono stati considerati come una stringa. In 130.000 righe con milioni di possibili stringhe, la ricerca di schemi rivedendo ogni riga singolarmente non era un'opzione. È diventato chiaro che identificare il problema su questa scala riguardava meno la fornitura di informazioni aziendali e più paragonabile alla risoluzione di un problema di matematica.

Per isolare le stringhe che si verificano più di frequente, ho utilizzato il campionamento della probabilità proporzionale alla dimensione (PPS). Questo metodo imposta la probabilità di selezione per ciascun elemento in modo che sia proporzionale alla sua misura di dimensione. Sebbene la matematica fosse complessa, in termini pratici ciò che abbiamo fatto è stato semplice: abbiamo campionato i casi in base alla frequenza di ciascuna etichetta in ciascuna colonna. Una forma di campionamento multistadio, questo metodo ci ha permesso di identificare una serie di problemi che hanno dipinto un quadro più vivido del motivo per cui i clienti chiamavano il centro di supporto. Innanzitutto, il nostro modello ha identificato l'etichetta più comune dalla prima colonna, quindi, all'interno di quel gruppo, l'etichetta più comune dalla seconda colonna e così via.

Un'illustrazione intitolata "Dati dell'assistenza clienti dopo il campionamento PPS". L'illustrazione rappresenta 130.000 righe in cui sono stati documentati i dati, con quattro colonne di aree problematiche, identificate come prima area problematica, seconda area problematica, terza area problematica e quarta area problematica. Il numero di etichette dell'area problematica in ciascuna colonna è indicato rispettivamente come 11 etichette, 58 etichette, 344 etichette e 471 etichette. Inoltre, vengono aggiunte caselle evidenziate per rappresentare l'identificazione delle etichette comuni all'interno di ciascuna area problematica. — Dati del centro assistenza clienti dopo l'applicazione del campionamento PPS, con identificate le stringhe di etichette più frequenti.

Dopo aver applicato il campionamento PPS, abbiamo isolato il 2% delle cause profonde, che rappresentavano circa il 25% dei casi totali. Questo ci ha permesso di applicare un algoritmo di probabilità cumulativa, che ha rivelato che oltre il 50% dei casi derivava dal 10% delle cause profonde.

Questa conclusione ha confermato una delle nostre ipotesi: i clienti stavano contattando il call center perché non avevano modo di modificare i dati dell'ordine una volta effettuato l'ordine. Risolvendo un singolo problema, il cliente potrebbe risparmiare 7 milioni di dollari in costi di supporto e recuperare 200 milioni di dollari di entrate attribuite all'abbandono dei clienti.

Eseguire analisi in tempo reale

La conoscenza dell'apprendimento automatico è stata particolarmente utile per risolvere una sfida di analisi dei dati presso un'altra compagnia di viaggi di dimensioni simili. L'azienda fungeva da collegamento tra hotel e agenzie di viaggio di tutto il mondo tramite un sito Web e API. A causa della proliferazione dei metamotori di ricerca, come Trivago, Kayak e Skyscanner, il traffico API è cresciuto di tre ordini di grandezza. Prima della proliferazione dei metasearch, il rapporto look-to-book (ricerche API totali e prenotazioni API totali) era di 30:1; dopo l'inizio delle metaricerche, alcuni clienti avrebbero raggiunto un rapporto di 30.000:1. Durante le ore di punta, l'azienda doveva soddisfare fino a 15.000 richieste API al secondo senza sacrificare la velocità di elaborazione. I costi del server associati all'API sono aumentati di conseguenza. Ma l'aumento del traffico da questi servizi non ha comportato un aumento delle vendite; i ricavi sono rimasti costanti, creando una massiccia perdita finanziaria per l'azienda.

L'azienda aveva bisogno di un piano per ridurre i costi del server causati dall'aumento del traffico, pur mantenendo l'esperienza del cliente. Quando in passato la società ha tentato di bloccare il traffico per clienti selezionati, il risultato è stato un PR negativo. Il blocco di questi motori non era quindi un'opzione. Il mio team si è rivolto ai dati per trovare una soluzione.

Abbiamo analizzato circa 300 milioni di richieste API in base a una serie di parametri: ora della richiesta, destinazione, date di check-in/out, elenco di hotel, numero di ospiti e tipo di camera. Dai dati, abbiamo determinato che alcuni modelli erano associati a picchi di traffico di metaricerca: ora del giorno, numero di richieste per unità di tempo, ricerche alfabetiche nelle destinazioni, elenchi ordinati per hotel, finestra di ricerca specifica (date di check-in/out) e configurazione ospite.

Abbiamo applicato un approccio di apprendimento automatico supervisionato e creato un algoritmo simile alla regressione logistica: calcolava una probabilità per ogni richiesta in base ai tag inviati dal cliente, inclusi delta-time stamp, timestamp, destinazione, hotel/i, date di check-in/out e numero di ospiti, nonché i tag delle richieste precedenti. A seconda dei parametri forniti, l'algoritmo identificherebbe la probabilità che una richiesta del server API sia stata generata da un essere umano o da un metamotore di ricerca. L'algoritmo verrebbe eseguito in tempo reale quando un client accedeva all'API. Se determinasse una probabilità sufficientemente alta che la richiesta fosse guidata dall'uomo, la richiesta sarebbe stata inviata al server ad alta velocità. Se sembrava essere una metaricerca, la richiesta sarebbe stata deviata su un server di memorizzazione nella cache meno costoso da utilizzare. L'uso dell'apprendimento supervisionato ci ha permesso di insegnare il modello, portando a una maggiore precisione nel corso dello sviluppo.

Questo modello offriva flessibilità perché la probabilità poteva essere adattata per cliente in base a regole aziendali più specifiche rispetto a quelle che avevamo utilizzato in precedenza (ad es. prenotazioni giornaliere previste o livello cliente). Per un cliente specifico, le richieste potrebbero essere indirizzate in qualsiasi momento al di sopra del 50% di probabilità, mentre per i clienti di maggior valore potremmo richiedere maggiore certezza, indirizzandoli quando hanno superato una soglia del 70% di probabilità.

Un'illustrazione intitolata "Ordinamento dei clienti tramite un algoritmo di apprendimento automatico". Questa illustrazione è un diagramma di flusso che mostra i possibili percorsi in base ai quali le richieste vengono ordinate in base al punto di origine. L'inizio del diagramma di flusso ha due possibili origini, "Utenti Internet" e "Metaricerche". Entrambi portano a "XML, API Server". Questo porta a "Ricerca naturale?" Se il risultato è "Sì", il passaggio successivo è "Server ad alta velocità". Se il risultato è "No", il passaggio successivo è "Server di memorizzazione nella cache". Successivamente, entrambi vengono riportati a "XML, API Server". — Il percorso in base al quale le richieste sono state ordinate al server ad alta velocità o al server di memorizzazione nella cache, a seconda del punto di origine.

Dopo aver implementato l'algoritmo di classificazione, l'azienda ha dirottato fino al 70% delle richieste entro un determinato periodo di tempo verso lo stack più economico e ha risparmiato tra i 5 ei 7 milioni di dollari l'anno in costi di infrastruttura. Allo stesso tempo, l'azienda ha soddisfatto la base di clienti non rifiutando il traffico. Ha preservato il rapporto di prenotazione salvaguardando le entrate.

Usa gli strumenti giusti per il lavoro

Questi casi di studio dimostrano il valore dell'utilizzo della scienza dei dati per risolvere problemi di prodotti complessi. Ma dove dovrebbe iniziare il tuo viaggio nella scienza dei dati? È probabile che tu abbia già una conoscenza di base delle ampie aree di conoscenza. La scienza dei dati è un'attività interdisciplinare; comprende un pensiero profondamente tecnico e concettuale. È il connubio di grandi numeri e grandi idee. Per iniziare, dovrai migliorare le tue abilità in:

Programmazione. Il linguaggio di query strutturato, o SQL, è il linguaggio di programmazione standard per la gestione dei database. Python è il linguaggio standard per l'analisi statistica. Sebbene i due abbiano funzioni sovrapposte, in un senso molto semplice, SQL viene utilizzato per recuperare e formattare i dati, mentre Python viene utilizzato per eseguire le analisi per scoprire cosa possono dirti i dati. Excel, sebbene non potente come SQL e Python, può aiutarti a raggiungere molti degli stessi obiettivi; probabilmente sarai chiamato a usarlo spesso.

Ricerche operative. Una volta che hai i risultati, allora cosa? Tutte le informazioni del mondo sono inutili se non sai cosa farne. La ricerca operativa è un campo della matematica dedicato all'applicazione di metodi analitici alla strategia aziendale. Sapere come utilizzare la ricerca operativa ti aiuterà a prendere decisioni aziendali valide supportate dai dati.

Apprendimento automatico. Con l'intelligenza artificiale in aumento, i progressi nell'apprendimento automatico hanno creato nuove possibilità per l'analisi predittiva. L'utilizzo aziendale dell'analisi predittiva è passato dal 23% nel 2018 al 59% nel 2020 e si prevede che il mercato registrerà una crescita annuale composta del 24,5% fino al 2026. Ora è il momento per i product manager di imparare cosa è possibile fare con la tecnologia.

Visualizzazione dati. Non basta capire le tue analisi; hai bisogno di strumenti come Tableau, Microsoft Power BI e Qlik Sense per trasmettere i risultati in un formato facilmente comprensibile per gli stakeholder non tecnici.

È preferibile acquisire queste abilità da soli, ma come minimo dovresti avere la familiarità necessaria per assumere esperti e delegare compiti. Un buon product manager dovrebbe conoscere i tipi di analisi possibili e le domande a cui possono aiutare a rispondere. Dovrebbero comprendere come comunicare le domande ai data scientist e come vengono eseguite le analisi ed essere in grado di trasformare i risultati in soluzioni aziendali.

Sfrutta il potere di guidare i ritorni

Il sondaggio esecutivo 2022 sui dati e sulla leadership dell'IA di NewVantage Partners rivela che oltre il 90% delle organizzazioni partecipanti sta investendo in iniziative di intelligenza artificiale e dati. Le entrate generate dai big data e dall'analisi aziendale sono più che raddoppiate dal 2015. L'analisi dei dati, un tempo una competenza specialistica, è ora essenziale per fornire le risposte giuste alle aziende di tutto il mondo.

Un product manager viene assunto per guidare i ritorni, determinare la strategia e ottenere il miglior lavoro dai colleghi. Autenticità, empatia e altre abilità trasversali sono utili a questo proposito, ma sono solo metà dell'equazione. Per essere un leader all'interno della tua organizzazione, porta i fatti sul tavolo, non le opinioni. Gli strumenti per sviluppare insight basati sull'evidenza non sono mai stati così potenti e i potenziali ritorni non sono mai stati così grandi.