Prueba en números: uso de Big Data para generar resultados

Publicado: 2022-07-22

En cierto punto de su carrera como gerente de producto, es posible que enfrente problemas a gran escala que están menos definidos, involucran causas y áreas de impacto más amplias y tienen más de una solución. Cuando se encuentra trabajando con conjuntos de datos complejos, cuando comienza a pensar en números de millones en lugar de miles, necesita las herramientas adecuadas que le permitan escalar al mismo ritmo.

Aquí es donde la gestión de productos basada en datos puede generar un enorme valor comercial. En los siguientes ejemplos, extraídos de casos de mi propia carrera, la aplicación de análisis de datos a problemas aparentemente intratables produjo soluciones que generaron enormes beneficios para mis empleadores, que van desde millones de dólares hasta cientos de millones.

Adquirir habilidades de ciencia de datos puede ayudar a forjar el próximo camino de crecimiento en su carrera de gestión de productos. Resolverá problemas más rápido que sus colegas, convertirá los conocimientos basados en evidencia en resultados tangibles y hará grandes contribuciones al éxito de su organización.

Aproveche los datos a gran escala

La aplicación de la ciencia de datos en la gestión y el análisis de productos no es un concepto nuevo. Lo nuevo es la asombrosa cantidad de datos a los que tienen acceso las empresas, ya sea a través de sus plataformas, el software de recopilación de datos o los propios productos. Y, sin embargo, en 2020, Seagate Technology informó que el 68 % de los datos recopilados por las empresas no se aprovechan. Un libro blanco de IBM de 2014 comparó este desperdicio de datos con "una fábrica donde una gran cantidad de materias primas yacen sin usar y esparcidas en varios puntos a lo largo de la línea de ensamblaje".

Los gerentes de productos con habilidades en ciencia de datos pueden aprovechar estos datos para obtener información sobre métricas clave como la activación, el alcance, la retención, el compromiso y la monetización. Estas métricas se pueden orientar hacia una variedad de tipos de productos, como comercio electrónico, contenido, API, productos SaaS y aplicaciones móviles.

En resumen, la ciencia de datos se trata menos de qué datos recopilas y más de cómo y cuándo los usas, especialmente cuando trabajas con números nuevos y de mayor orden.

Profundice en los datos para encontrar las causas principales

Hace varios años, trabajé en un proveedor de tecnología de viajes con más de 50 000 clientes activos en 180 países, 3700 empleados y $2500 millones en ingresos anuales. En una corporación de este tamaño, administra grandes equipos y cantidades masivas de información.

Cuando comencé a trabajar allí, me encontré con el siguiente problema: a pesar de tener hojas de ruta actualizadas y trabajos atrasados completos, el puntaje NPS disminuyó y la rotación de clientes aumentó durante dos años. Los costos asociados con la atención al cliente crecieron significativamente y los departamentos de soporte estaban constantemente luchando contra incendios; durante esos dos años, las llamadas de soporte se cuadruplicaron.

En mis primeros tres meses, estudié cómo funcionaba el negocio, desde la negociación del suministro hasta la resolución de quejas. Realicé entrevistas con la vicepresidenta de productos y su equipo, me conecté con los vicepresidentes de los equipos de ventas y tecnología, y hablé extensamente con el departamento de atención al cliente. Estos esfuerzos generaron conocimientos útiles y permitieron a mi equipo desarrollar varias hipótesis, pero no proporcionaron datos concretos para respaldarlas o establecer motivos para rechazarlas. Las posibles explicaciones de la insatisfacción del cliente incluían la falta de funciones, como la capacidad de editar los pedidos después de realizarlos; necesidad de productos complementarios; e insuficiente asistencia técnica y/o información del producto. Pero incluso si pudiéramos decidir sobre un solo curso de acción, persuadir a los distintos departamentos para que lo sigan requeriría algo más firme que una posibilidad.

En una empresa más pequeña, podría haber comenzado realizando entrevistas con los clientes. Pero con una base de usuarios finales de cientos de miles, este enfoque no fue útil ni factible. Si bien me habría dado un mar de opiniones, algunas válidas, necesitaba saber que la información con la que estaba trabajando representaba una tendencia más amplia. En cambio, con el apoyo del equipo de inteligencia comercial, extraje todos los datos disponibles del centro de llamadas y los departamentos de atención al cliente.

Los casos de soporte técnico de los seis meses anteriores me llegaron en cuatro columnas, cada una con 130 000 filas. Cada fila representaba una solicitud de atención al cliente, y cada columna estaba etiquetada con el área problemática del cliente a medida que avanzaba en el proceso de atención. Cada columna tenía entre 11 y 471 etiquetas diferentes.

Una ilustración titulada "Datos de atención al cliente". La ilustración representa 130 000 filas en las que se documentaron los datos, con cuatro columnas de áreas problemáticas, identificadas como Primera área problemática, Segunda área problemática, Tercera área problemática y Cuarta área problemática. El número de etiquetas de áreas problemáticas en cada columna se indica como 11 Etiquetas, 58 Etiquetas, 344 Etiquetas y 471 Etiquetas, respectivamente. — Datos de atención al cliente, que comprenden 130 000 casos individuales, cada uno con cuatro áreas problemáticas.

La aplicación de filtros y la clasificación del conjunto masivo de datos no arrojaron resultados concluyentes. Las etiquetas de problemas individuales eran inadecuadas para capturar el panorama general. Un cliente podría llamar inicialmente para restablecer su contraseña y, aunque esa llamada se registraría como tal, un problema raíz diferente podría volverse evidente después de que los cuatro problemas se consideraran como una cadena. En 130 000 filas con millones de cadenas posibles, buscar patrones revisando cada fila individualmente no era una opción. Quedó claro que identificar el problema a esta escala se trataba menos de proporcionar información comercial y más comparable a resolver un problema matemático.

Para aislar las cadenas que ocurren con mayor frecuencia, utilicé el muestreo de probabilidad proporcional al tamaño (PPS). Este método establece que la probabilidad de selección de cada elemento sea proporcional a su medida de tamaño. Si bien las matemáticas eran complejas, en términos prácticos, lo que hicimos fue simple: tomamos muestras de casos en función de la frecuencia de cada etiqueta en cada columna. Una forma de muestreo de múltiples etapas, este método nos permitió identificar cadenas de problemas que pintaban una imagen más vívida de por qué los clientes llamaban al centro de soporte. Primero, nuestro modelo identificó la etiqueta más común de la primera columna, luego, dentro de ese grupo, la etiqueta más común de la segunda columna, y así sucesivamente.

Una ilustración titulada "Datos de atención al cliente después del muestreo de PPS". La ilustración representa 130 000 filas en las que se documentaron los datos, con cuatro columnas de áreas problemáticas, identificadas como Primera área problemática, Segunda área problemática, Tercera área problemática y Cuarta área problemática. El número de etiquetas de áreas problemáticas en cada columna se indica como 11 Etiquetas, 58 Etiquetas, 344 Etiquetas y 471 Etiquetas, respectivamente. Además, se agregan cuadros resaltados para representar la identificación de etiquetas que ocurren comúnmente dentro de cada área problemática. — Datos del centro de atención al cliente después de la aplicación del muestreo PPS, con las cadenas de etiquetas identificadas con mayor frecuencia.

Después de aplicar el muestreo PPS, aislamos el 2 % de las causas raíz, que representaron aproximadamente el 25 % del total de casos. Esto nos permitió aplicar un algoritmo de probabilidad acumulada, que reveló que más del 50 % de los casos procedían del 10 % de las causas fundamentales.

Esta conclusión confirmó una de nuestras hipótesis: los clientes se comunicaban con el centro de llamadas porque no tenían forma de cambiar los datos del pedido una vez que se había realizado el pedido. Al solucionar un solo problema, el cliente podría ahorrar $7 millones en costos de soporte y recuperar $200 millones en ingresos atribuidos a la rotación de clientes.

Realizar análisis en tiempo real

El conocimiento del aprendizaje automático fue particularmente útil para resolver un desafío de análisis de datos en otra empresa de viajes de tamaño similar. La empresa sirvió como enlace entre los hoteles y las agencias de viajes de todo el mundo a través de un sitio web y API. Debido a la proliferación de motores de metabúsqueda, como Trivago, Kayak y Skyscanner, el tráfico de la API creció en tres órdenes de magnitud. Antes de la proliferación de la metabúsqueda, la proporción de búsqueda por libro (búsquedas API totales a reservas API totales) era de 30:1; después de que comenzaran las metabúsquedas, algunos clientes alcanzarían una proporción de 30,000: 1. Durante las horas pico, la empresa tuvo que atender hasta 15 000 solicitudes de API por segundo sin sacrificar la velocidad de procesamiento. Los costos del servidor asociados con la API crecieron en consecuencia. Pero el aumento del tráfico de estos servicios no se tradujo en un aumento de las ventas; los ingresos se mantuvieron constantes, creando una pérdida financiera masiva para la empresa.

La empresa necesitaba un plan para reducir los costes del servidor provocados por el aumento del tráfico y, al mismo tiempo, mantener la experiencia del cliente. Cuando la empresa intentó bloquear el tráfico para clientes selectos en el pasado, el resultado fue un PR negativo. Por lo tanto, bloquear estos motores no era una opción. Mi equipo recurrió a los datos para encontrar una solución.

Analizamos aproximadamente 300 millones de solicitudes de API a través de una serie de parámetros: hora de la solicitud, destino, fechas de entrada/salida, lista de hoteles, número de huéspedes y tipo de habitación. A partir de los datos, determinamos que ciertos patrones estaban asociados con los picos de tráfico de metabúsqueda: hora del día, número de solicitudes por unidad de tiempo, búsquedas alfabéticas en destinos, listas ordenadas de hoteles, ventana de búsqueda específica (fechas de entrada/salida) y configuración de invitados.

Aplicamos un enfoque de aprendizaje automático supervisado y creamos un algoritmo similar a la regresión logística: calculó una probabilidad para cada solicitud en función de las etiquetas enviadas por el cliente, incluida la marca de tiempo delta, marca de tiempo, destino, hotel(es), fechas de entrada/salida y número de huéspedes, así como las etiquetas de solicitudes anteriores. Dependiendo de los parámetros proporcionados, el algoritmo identificaría la probabilidad de que una solicitud del servidor API haya sido generada por un ser humano o por un motor de metabúsqueda. El algoritmo se ejecutaría en tiempo real cuando un cliente accediera a la API. Si determinaba una probabilidad suficientemente alta de que la solicitud fuera impulsada por humanos, la solicitud se enviaría al servidor de alta velocidad. Si parecía ser una metabúsqueda, la solicitud se desviaría a un servidor de almacenamiento en caché que fuera menos costoso de operar. El uso del aprendizaje supervisado nos permitió enseñar el modelo, lo que llevó a una mayor precisión en el transcurso del desarrollo.

Este modelo proporcionó flexibilidad porque la probabilidad se podía adaptar por cliente en función de reglas comerciales más específicas que las que habíamos utilizado anteriormente (por ejemplo, reservas esperadas por día o nivel de cliente). Para un cliente específico, las solicitudes podrían dirigirse a cualquier punto por encima del 50% de probabilidad, mientras que para clientes más valiosos, podríamos exigir más certeza, dirigiéndolas cuando superen un umbral del 70% de probabilidad.

Una ilustración titulada "Clasificación de clientes a través de un algoritmo de aprendizaje automático". Esta ilustración es un diagrama de flujo que muestra las posibles rutas por las que se ordenan las solicitudes en función de su punto de origen. El comienzo del diagrama de flujo tiene dos posibles orígenes, "Usuarios de Internet" y "Metabúsquedas". Ambos conducen a "XML, Servidor API". Esto lleva a "¿Búsqueda natural?" Si el resultado es "Sí", el siguiente paso es "Servidor de alta velocidad". Si el resultado es "No", el siguiente paso es "Servidor de almacenamiento en caché". Después de esto, ambos regresan a "XML, API Server". — La ruta por la que se ordenaron las solicitudes al servidor de alta velocidad o al servidor de almacenamiento en caché, según su punto de origen.

Después de implementar el algoritmo de clasificación, la empresa desvió hasta el 70 % de las solicitudes dentro de un período de tiempo determinado a la pila más barata y ahorró entre $ 5 y $ 7 millones por año en costos de infraestructura. Al mismo tiempo, la empresa satisfizo la base de clientes al no rechazar el tráfico. Preservó el índice de reservas al mismo tiempo que salvaguardaba los ingresos.

Utilice las herramientas adecuadas para el trabajo

Estos estudios de casos demuestran el valor de usar la ciencia de datos para resolver problemas complejos de productos. Pero, ¿dónde debería comenzar su viaje de ciencia de datos? Lo más probable es que ya tenga una comprensión básica de las amplias áreas de conocimiento. La ciencia de datos es una actividad interdisciplinaria; abarca un pensamiento profundamente técnico y conceptual. Es el matrimonio de grandes números y grandes ideas. Para comenzar, deberá mejorar sus habilidades en:

Programación. El lenguaje de consulta estructurado, o SQL, es el lenguaje de programación estándar para administrar bases de datos. Python es el lenguaje estándar para el análisis estadístico. Si bien los dos tienen funciones superpuestas, en un sentido muy básico, SQL se usa para recuperar y formatear datos, mientras que Python se usa para ejecutar los análisis para descubrir qué pueden decirle los datos. Excel, aunque no es tan poderoso como SQL y Python, puede ayudarlo a lograr muchos de los mismos objetivos; es probable que se le pida que lo use con frecuencia.

La investigación de operaciones. Una vez que tenga sus resultados, ¿entonces qué? Toda la información del mundo no sirve de nada si no sabes qué hacer con ella. La investigación de operaciones es un campo de las matemáticas dedicado a aplicar métodos analíticos a la estrategia empresarial. Saber cómo usar la investigación de operaciones lo ayudará a tomar decisiones comerciales sólidas respaldadas por datos.

Aprendizaje automático. Con la IA en aumento, los avances en el aprendizaje automático han creado nuevas posibilidades para el análisis predictivo. El uso comercial del análisis predictivo aumentó del 23 % en 2018 al 59 % en 2020, y se espera que el mercado experimente un crecimiento anual compuesto del 24,5 % hasta 2026. Ahora es el momento de que los gerentes de producto aprendan lo que es posible con la tecnología.

Visualización de datos. No es suficiente entender sus análisis; necesita herramientas como Tableau, Microsoft Power BI y Qlik Sense para transmitir los resultados en un formato que sea fácil de entender para las partes interesadas no técnicas.

Es preferible adquirir estas habilidades usted mismo, pero como mínimo debe tener la familiaridad necesaria para contratar expertos y delegar tareas. Un buen gerente de producto debe conocer los tipos de análisis que son posibles y las preguntas que pueden ayudar a responder. Deben comprender cómo comunicar preguntas a los científicos de datos y cómo se realizan los análisis, y ser capaces de transformar los resultados en soluciones comerciales.

Ejercer el poder para generar devoluciones

La encuesta ejecutiva de liderazgo en datos e inteligencia artificial de NewVantage Partners de 2022 revela que más del 90 % de las organizaciones participantes están invirtiendo en iniciativas de datos e inteligencia artificial. Los ingresos generados por big data y análisis de negocios se han duplicado con creces desde 2015. El análisis de datos, que alguna vez fue una habilidad especializada, ahora es esencial para brindar las respuestas correctas a las empresas en todas partes.

Se contrata a un gerente de producto para impulsar las devoluciones, determinar la estrategia y obtener el mejor trabajo de los colegas. La autenticidad, la empatía y otras habilidades blandas son útiles en este sentido, pero son solo la mitad de la ecuación. Para ser un líder dentro de su organización, traiga hechos a la mesa, no opiniones. Las herramientas para desarrollar conocimientos basados en evidencia nunca han sido más poderosas y los beneficios potenciales nunca han sido mayores.