수치 증명: 빅 데이터를 사용하여 결과 도출

게시 됨: 2022-07-22

제품 관리자 경력의 특정 시점에서 정의가 덜되고 더 광범위한 원인과 영향 영역이 포함되며 하나 이상의 솔루션이 있는 대규모 문제에 직면할 수 있습니다. 복잡한 데이터 세트로 작업하고 있는 자신을 발견할 때(수천이 아닌 수백만의 숫자에 대해 생각하기 시작할 때) 동일한 속도로 확장할 수 있는 올바른 도구가 필요합니다.

데이터 기반 제품 관리가 엄청난 비즈니스 가치를 창출할 수 있는 곳입니다. 내 경력의 사례에서 가져온 다음 예에서 데이터 분석을 겉보기에 다루기 어려워 보이는 문제에 적용하면 수백만 달러에서 수억 달러에 이르는 엄청난 수익을 고용주에게 가져다주는 솔루션이 생성되었습니다.

데이터 과학 기술을 습득하면 제품 관리 경력에서 다음 성장 경로를 구축하는 데 도움이 될 수 있습니다. 동료보다 빠르게 문제를 해결하고 증거 기반 통찰력을 수익으로 전환하며 조직의 성공에 크게 기여할 것입니다.

대규모 데이터 활용

제품 관리 및 제품 분석에 데이터 과학을 적용하는 것은 새로운 개념이 아닙니다. 새로운 점은 플랫폼, 데이터 수집 소프트웨어 또는 제품 자체를 통해 기업이 액세스할 수 있는 엄청난 양의 데이터입니다. 그러나 2020년 Seagate Technology는 기업에서 수집한 데이터의 68%가 활용되지 않는다고 보고했습니다. 2014년 IBM 백서에서는 이러한 데이터 낭비를 "대량의 원자재가 사용되지 않고 조립 라인의 여러 지점에 흩어져 있는 공장"에 비유했습니다.

데이터 과학 기술을 갖춘 제품 관리자는 이 데이터를 활용하여 활성화, 도달, 유지, 참여 및 수익 창출과 같은 주요 지표에 대한 통찰력을 얻을 수 있습니다. 이러한 지표는 전자 상거래, 콘텐츠, API, SaaS 제품 및 모바일 앱과 같은 다양한 제품 유형에 맞춰 조정할 수 있습니다.

요컨대, 데이터 과학은 수집하는 데이터에 관한 것이 아니라 데이터를 사용하는 방법과 시기에 관한 것입니다. 특히 새롭고 더 높은 순서로 작업할 때 그렇습니다.

데이터를 파고들어 근본 원인 찾기

몇 년 전 저는 180개국에서 50,000명 이상의 활성 고객, 3,700명의 직원, 25억 달러의 연간 매출을 보유한 여행 기술 제공업체에서 일했습니다. 이 규모의 기업에서는 대규모 팀과 방대한 양의 정보를 관리하고 있습니다.

그곳에서 일하기 시작했을 때 다음과 같은 문제가 있었습니다. 최신 로드맵과 전체 백로그가 있음에도 불구하고 2년 동안 NPS 점수는 떨어지고 고객 이탈은 증가했습니다. 고객 지원과 관련된 비용이 크게 증가했고 지원 부서는 지속적으로 소방 작업을 수행했습니다. 그 2년 동안 지원 요청은 4배 증가했습니다.

처음 3개월 동안 저는 공급 협상에서 불만 해결에 이르기까지 비즈니스가 어떻게 작동하는지 연구했습니다. 저는 제품 담당 부사장 및 그녀의 팀과 인터뷰를 하고, 영업 및 기술 팀의 부사장과 연결하고, 고객 지원 부서와 광범위한 대화를 나눴습니다. 이러한 노력을 통해 유용한 통찰력을 얻었고 우리 팀이 몇 가지 가설을 개발할 수 있었지만 이를 뒷받침하거나 거부할 근거를 마련하기 위한 확실한 데이터는 제공하지 못했습니다. 고객 불만에 대한 가능한 설명에는 주문 후 편집 기능과 같은 기능 부족이 포함되었습니다. 추가 제품의 필요성; 불충분한 기술 지원 및/또는 제품 정보. 그러나 우리가 하나의 행동 방침을 결정할 수 있다 하더라도 여러 부서를 설득하여 함께 가도록 하려면 가능성보다 확고한 것이 필요합니다.

소규모 회사에서는 고객 인터뷰를 수행하는 것으로 시작했을 수 있습니다. 그러나 수십만 명의 최종 사용자 기반을 가진 이 접근 방식은 도움이 되지도 실현 가능하지도 않았습니다. 그것은 나에게 수많은 의견(일부는 타당함)을 주었지만, 나는 내가 작업하고 있는 정보가 더 큰 추세를 나타낸다는 것을 알아야 했습니다. 대신 비즈니스 인텔리전스 팀의 지원을 받아 콜센터와 고객 지원 부서에서 사용할 수 있는 모든 데이터를 가져왔습니다.

지난 6개월 동안의 지원 사례는 각각 130,000행이 있는 4개의 열로 나에게 왔습니다. 각 행은 고객 지원 요청을 나타내고 각 열에는 관리 프로세스를 진행하면서 고객의 문제 영역 레이블이 지정되었습니다. 각 열에는 11~471개의 서로 다른 레이블이 있습니다.

"고객 지원 데이터"라는 제목의 그림. 이 그림은 데이터가 문서화된 130,000행을 나타내며 첫 번째 문제 영역, 두 번째 문제 영역, 세 번째 문제 영역 및 네 번째 문제 영역으로 식별되는 문제 영역의 4개 열이 있습니다. 각 열의 문제 영역 레이블 수는 각각 11개 레이블, 58개 레이블, 344개 레이블 및 471개 레이블로 표시됩니다. — 각각 4개의 문제 영역이 있는 130,000개의 개별 사례로 구성된 고객 지원 데이터.

필터를 적용하고 방대한 데이터 세트를 정렬해도 결정적인 결과는 나오지 않았습니다. 개별 문제 레이블은 더 큰 그림을 포착하는 데 부적절했습니다. 고객은 처음에 비밀번호를 재설정하기 위해 전화를 걸 수 있으며 해당 통화는 그대로 기록되지만 네 가지 문제가 모두 문자열로 간주된 후에는 다른 근본 문제가 분명해질 수 있습니다. 수백만 개의 가능한 문자열이 있는 130,000개의 행에서 각 행을 개별적으로 검토하여 패턴을 찾는 것은 옵션이 아니었습니다. 이 규모에서 문제를 식별하는 것은 비즈니스 통찰력을 제공하는 것이 아니라 수학 문제를 해결하는 것과 더 비슷하다는 것이 분명해졌습니다.

가장 자주 발생하는 문자열을 분리하기 위해 PPS(크기에 비례하는 확률) 샘플링을 사용했습니다. 이 방법은 크기 측정에 비례하도록 각 요소의 선택 확률을 설정합니다. 수학은 복잡하지만 실용적인 측면에서 우리가 한 일은 간단했습니다. 각 열에 있는 각 레이블의 빈도를 기반으로 사례를 샘플링했습니다. 다단계 샘플링의 한 형태인 이 방법을 통해 고객이 지원 센터에 전화하는 이유를 보다 생생하게 묘사한 일련의 문제를 식별할 수 있었습니다. 먼저 우리 모델은 첫 번째 열에서 가장 일반적인 레이블을 식별한 다음 해당 그룹 내에서 두 번째 열에서 가장 일반적인 레이블을 식별하는 식으로 계속됩니다.

"PPS 샘플링 후 고객 지원 데이터"라는 제목의 그림. 이 그림은 데이터가 문서화된 130,000행을 나타내며 첫 번째 문제 영역, 두 번째 문제 영역, 세 번째 문제 영역 및 네 번째 문제 영역으로 식별되는 문제 영역의 4개 열이 있습니다. 각 열의 문제 영역 레이블 수는 각각 11개 레이블, 58개 레이블, 344개 레이블 및 471개 레이블로 표시됩니다. 또한 강조 표시된 상자가 추가되어 각 문제 영역 내에서 일반적으로 발생하는 레이블 식별을 나타냅니다. — 가장 자주 발생하는 레이블 문자열이 식별된 PPS 샘플링 적용 후 고객 지원 센터 데이터.

PPS 샘플링을 적용한 후 전체 사례의 약 25%를 차지하는 2%의 근본 원인을 분리했습니다. 이를 통해 누적 확률 알고리즘을 적용할 수 있었고, 50% 이상의 사례가 10%의 근본 원인에서 비롯된 것으로 나타났습니다.

이 결론은 우리의 가설 중 하나를 확인시켜줍니다. 고객은 주문이 접수되면 주문 데이터를 변경할 방법이 없기 때문에 콜 센터에 연락했습니다. 단일 문제를 수정함으로써 고객은 지원 비용에서 700만 달러를 절약하고 고객 이탈로 인한 수익 2억 달러를 회수할 수 있었습니다.

실시간 분석 수행

머신 러닝에 대한 지식은 비슷한 규모의 다른 여행사에서 데이터 분석 문제를 해결하는 데 특히 유용했습니다. 이 회사는 웹사이트와 API를 통해 전 세계 호텔과 여행사를 연결하는 역할을 했습니다. Trivago, Kayak 및 Skyscanner와 같은 메타검색 엔진의 확산으로 인해 API 트래픽이 3배나 증가했습니다. 메타 검색이 확산되기 전에는 검색 비율(총 API 검색 대 총 API 예약)이 30:1이었습니다. 메타 검색이 시작된 후 일부 클라이언트는 30,000:1의 비율에 도달했습니다. 피크 시간 동안 회사는 처리 속도를 저하시키지 않으면서 초당 최대 15,000개의 API 요청을 수용해야 했습니다. API와 관련된 서버 비용은 그에 따라 증가했습니다. 그러나 이러한 서비스로 인한 트래픽 증가는 매출 증가로 이어지지 않았습니다. 매출은 일정하게 유지되어 회사에 막대한 재정적 손실을 초래했습니다.

회사는 고객 경험을 유지하면서 트래픽 급증으로 인한 서버 비용을 줄이는 계획이 필요했습니다. 회사가 과거에 일부 고객에 대한 트래픽을 차단하려고 시도했을 때 결과는 부정적인 PR이었습니다. 따라서 이러한 엔진을 차단하는 것은 선택 사항이 아닙니다. 우리 팀은 솔루션을 찾기 위해 데이터를 찾았습니다.

요청 시간, 목적지, 체크인/체크아웃 날짜, 호텔 목록, 게스트 수, 객실 유형 등 일련의 매개변수에서 약 3억 개의 API 요청을 분석했습니다. 데이터에서 특정 패턴이 메타 검색 트래픽 급증과 관련이 있음을 확인했습니다. 시간, 시간 단위당 요청 수, 목적지의 알파벳 검색, 호텔에 대한 정렬된 목록, 특정 검색 창(체크인/체크아웃 날짜) 및 게스트 구성.

지도 머신 러닝 접근 방식을 적용하고 로지스틱 회귀와 유사한 알고리즘을 만들었습니다. 델타 타임 스탬프, 타임 스탬프, 목적지, 호텔, 체크인/체크아웃 날짜, 손님 수, 이전 요청의 태그. 주어진 매개변수에 따라 알고리즘은 API 서버 요청이 사람이나 메타 검색 엔진에 의해 생성되었을 확률을 식별합니다. 알고리즘은 클라이언트가 API에 액세스할 때 실시간으로 실행됩니다. 요청이 사람이 주도했을 가능성이 충분히 높다고 판단되면 요청이 고속 서버로 전송됩니다. 메타 검색인 경우 요청이 운영 비용이 저렴한 캐싱 서버로 우회됩니다. 지도 학습을 사용하면 모델을 가르칠 수 있어 개발 과정에서 더 높은 정확도를 얻을 수 있습니다.

이 모델은 우리가 이전에 사용한 것보다 더 구체적인 비즈니스 규칙(예: 일일 예상 예약 또는 클라이언트 계층)을 기반으로 확률을 클라이언트별로 조정할 수 있기 때문에 유연성을 제공했습니다. 특정 클라이언트의 경우 요청이 50% 확률 이상의 모든 지점으로 전달될 수 있지만 더 가치 있는 클라이언트의 경우 70% 확률의 임계값을 통과할 때 지시하여 더 많은 확실성을 요구할 수 있습니다.

"기계 학습 알고리즘을 통한 클라이언트 정렬"이라는 제목의 그림. 이 그림은 요청이 출처에 따라 정렬되는 가능한 경로를 보여주는 순서도입니다. 순서도의 시작에는 "인터넷 사용자"와 "메타검색"이라는 두 가지 가능한 출처가 있습니다. 둘 다 "XML, API 서버"로 이어집니다. 이것은 "자연 검색?"으로 이어집니다. 결과가 "예"이면 다음 단계는 "고속 서버"입니다. 결과가 "아니오"이면 다음 단계는 "캐싱 서버"입니다. 그런 다음 둘 다 "XML, API 서버"로 돌아갑니다. — 요청의 출처에 따라 고속 서버 또는 캐싱 서버로 요청이 정렬된 경로입니다.

분류 알고리즘을 구현한 후 회사는 주어진 시간 내에 요청의 최대 70%를 더 저렴한 스택으로 전환하고 인프라 비용에서 연간 500만~700만 달러를 절약했습니다. 동시에 회사는 트래픽을 거부하지 않음으로써 고객 기반을 만족시켰습니다. 수익을 보호하면서 예약 비율을 유지했습니다.

작업에 적합한 도구 사용

이러한 사례 연구는 복잡한 제품 문제를 해결하기 위해 데이터 과학을 사용하는 것의 가치를 보여줍니다. 하지만 데이터 과학 여정은 어디에서 시작해야 할까요? 당신은 이미 광범위한 지식 영역에 대한 기본적인 이해를 갖고 있을 가능성이 있습니다. 데이터 과학은 학제 간 활동입니다. 그것은 깊이 있는 기술적, 개념적 사고를 포함합니다. 그것은 큰 숫자와 큰 아이디어의 결합입니다. 시작하려면 다음 분야에서 기술을 발전시켜야 합니다.

프로그램 작성. 구조적 쿼리 언어(SQL)는 데이터베이스 관리를 위한 표준 프로그래밍 언어입니다. Python은 통계 분석의 표준 언어입니다. 둘은 겹치는 기능을 가지고 있지만 매우 기본적인 의미에서 SQL은 데이터를 검색하고 형식을 지정하는 데 사용되는 반면 Python은 데이터가 알려줄 수 있는 내용을 찾기 위해 분석을 실행하는 데 사용됩니다. Excel은 SQL 및 Python만큼 강력하지는 않지만 많은 동일한 목표를 달성하는 데 도움이 될 수 있습니다. 자주 사용하게 될 것입니다.

운영 연구. 결과가 나오면 어떻게 합니까? 세상의 모든 정보는 무엇을 해야 할지 모른다면 아무 소용이 없습니다. 운영 연구는 분석 방법을 비즈니스 전략에 적용하는 데 전념하는 수학 분야입니다. 운영 연구를 사용하는 방법을 알면 데이터를 기반으로 하는 건전한 비즈니스 결정을 내리는 데 도움이 됩니다.

기계 학습. AI가 부상하면서 머신 러닝의 발전으로 예측 분석의 새로운 가능성이 생겼습니다. 예측 분석의 비즈니스 사용은 2018년 23%에서 2020년 59%로 증가했으며 시장은 2026년까지 24.5%의 복합 연간 성장률을 경험할 것으로 예상됩니다. 이제 제품 관리자가 이 기술로 무엇이 가능한지 배울 때입니다.

데이터 시각화. 분석을 이해하는 것만으로는 충분하지 않습니다. 비기술적 이해 관계자가 이해하기 쉬운 형식으로 결과를 전달하려면 Tableau, Microsoft Power BI 및 Qlik Sense와 같은 도구가 필요합니다.

이러한 기술을 직접 습득하는 것이 바람직하지만 최소한 전문가를 고용하고 작업을 위임하는 데 필요한 친숙도가 있어야 합니다. 훌륭한 제품 관리자는 가능한 분석 유형과 답변에 도움이 될 수 있는 질문을 알고 있어야 합니다. 그들은 데이터 과학자에게 질문을 전달하는 방법과 분석이 수행되는 방법을 이해하고 그 결과를 비즈니스 솔루션으로 변환할 수 있어야 합니다.

수익을 창출하는 힘을 발휘하십시오.

NewVantage Partners의 2022 데이터 및 AI 리더십 경영진 설문조사에 따르면 참여 조직의 90% 이상이 AI 및 데이터 이니셔티브에 투자하고 있습니다. 빅 데이터 및 비즈니스 분석에서 창출된 수익은 2015년 이후 두 배 이상 증가했습니다. 한때 전문 기술이었던 데이터 분석은 이제 모든 기업에 올바른 답을 제공하는 데 필수적입니다.

제품 관리자는 수익을 창출하고 전략을 결정하며 동료로부터 최고의 작업을 이끌어내기 위해 고용됩니다. 진정성, 공감 및 기타 소프트 스킬은 이와 관련하여 유용하지만 방정식의 절반에 불과합니다. 조직 내에서 리더가 되려면 의견이 아닌 사실을 테이블로 가져와야 합니다. 증거 기반 통찰력을 개발하는 도구가 그 어느 때보다 강력했으며 잠재적인 수익이 그 어느 때보다 높아졌습니다.