
영화 ‘머니 볼(Money Ball)’을 보셨는지?
영화는 만년 꼴찌였던 ‘오클랜드 어슬래틱스(A’s)’를 4년 연속 포스트 시즌(1999-2003)에 올린 ‘빌리 빈’ 단장과 데이터 과학자인 ‘폴 디포데스타’의 이야기이다.
그들은 구단 내 각 선수들의 특징을 파악하고 약 100년간 미국 메이저리그 경기에서의 평균득점 데이터를 활용, 이를 바탕으로 수립한 확률적 통계 모델링을 통해 승리를 거두며 과학적 야구의 시대를 열었다.
1. 무사 1루에서 득점 확률 = 0.93
2. 무사 1루, 주자를 2루로 진출시키기 위한 희생 번트 시 득점 확률 = 0.75
3. 2점차 승부, 무사 1루에서 희생 번트 없이 득점할 확률 = 0.4
4. 2점차 승부, 무사 1루에서 희생 번트 후 득점할 확률 = 0.417
자! 당신의 선택은?
이때 그들이 사용한 확률적 통계 모델링이 바로 마르코프 체인(Markov Chain)이다. 마르코프 체인이란 옛 소련의 수학자 마르코프(Andrei A. Markov)가 도입한 확률 과정의 일종으로 다음의 특징을 가진다. [참조 1]
1. 확률과정(stochastic process)
- 시스템의 상태가 시간에 따라 확률적으로 변해가는 과정
2. 마르코프 과정(Markov process)
- 확률과정 중에서 시스템의 미래상태가 현재의 상태만 주어지면 과거의 역사와는 무관하게 결정되는 성질
3. 마르코프 체인(Markov chain)
- 마르코프 과정에서 이산적인 경우(예를 들어 0 혹은 1)만 고려
즉, 과거에 일어난 사건들의 확률을 통해 미래를 예측하는 기법으로 시스템의 상태가 시간의 경과에 따라 확률적으로 변해가는 과정을 말한다.
예를 들어보자
1. 선수 ‘P’가 지금 안타를 쳤다면 다음타석에서도 안타를 칠 확률은 0.4
2. 선수 ‘P’가 지금 안타를 쳤다면 다음타석에서는 아웃 될 확률은 0.6
3. 선수 ‘P’가 지금 아웃 되었는데 다음 타석에서도 아웃 될 확률은 0.3
4. 선수 ‘P’가 지금 아웃 되었지만 다음 타석에서는 안타를 칠 확률은 0.7
쉬운 이해를 위해 상태 전이도(State Transit Diagram)로 그려보면 다음과 같다.

위와 같은 상태전이를 확인하고 각 사건의 확률을 테이블로 옮긴다.

이는 다름아닌 행렬로 정리될 수 있다.

여기까지 마르코프 체인을 위한 기초 개념을 확인하였다면 다음은 예시 사례를 통해 살펴본다.
어느 의류 쇼핑몰의 구매자 중 다음과 같은 재구매 행태를 파악하였다.

2월 현재 시점, 1월에 구매한 고객의 80%가 다음 달 반복 구매를 보이고 있으며 1월 비구매자의 10%가 구매를 하고 있다. 기준이 되는 고객수는 총 4만 명으로 1월 구매자의 수는 3만 명, 비구매자의 수는 1만 명의 분포를 보이고 있다.
그렇다면 다음 달인 3월의 구매자 수와 비구매자 수는 어떻게 예측할 수 있을까?
이는 각 사건의 확률로 구성된 행렬간 곱셈(결합확률)을 통해 구할 수 있는데 2월달 결과로 확인된 행렬을 한번 곱해 확률을 구한 후 [참조 2] 해당 확률에 기준이 되는 고객의 구매자와 비구매자 수를 적용한다.

만일 2개월 후나 3개월 후 혹은 그 이상이 지난 시점의 더킹+카지노이 필요하다면 해당 행렬간 곱셉을 시점의 개수대로 곱해주면 된다. (2월 후 5개월이 지난 7월 더킹+카지노 = P x P x P x P x P의 5회 곱셈)
해당 결과를 구매 예측으로 전환한 결과는 다음과 같다.

1월 구매자 중 2월 비구매자의 비율은 20%, 6,000명이었으나, 현재의 구매행태를 보면 3월에는 34%, 10,200명으로 구매자 이탈이 가속화될 수 있는 변화를 확인할 수 있다.
2월 비더킹+카지노자의 3월 재더킹+카지노 예측은 10%에서 17%로 다소 상승했으나, 더킹+카지노자의 이탈을 막기에는 역부족으로 파악된다. 현재 상태의 더킹+카지노 감소폭이라면 큰 충격이 아닐 수 없다.
비고객 고객의 더킹+카지노 전환도 중요하겠지만 더킹+카지노 고객의 재더킹+카지노 활동에 주력하는 것이 유의미해 보이며 또 다른 대안으로는 기존 고객 4만 명 외 새로운 더킹+카지노 고객을 유입시키는 활동이 필요할 것으로 판단된다.
물론 미래는 유동적이며 현명한 당신은 비관적인 더킹+카지노 결과를 그대로 내버려두지도 않을 것이다.
따라서다음의 그래프처럼 결과를 반전시킬 수 있을 것이다.

위의 그래프는 마르코프 체인을 통해 3월 이후 7월까지의 구매고객 수를 예측한 후(예측) 2월과 3월에 걸쳐 구매고객이 감소하는 문제를 해결하고 4월 이후 지속적인 성장을 이끌어 내는 A 쇼핑몰 마케터의 실적을 상정해 본 예시이다(결과).
물론 다른 결과도 예측해 볼 수 있다. 프로모션 활동으로 매월 2월 당시의 실적을 유지하되 지속적 혁신을 통해 하반기에는 상승추세로의 전환 역시 기대해 볼 수 있다. 물론 3월 실적과 그 이후의 변경된 예측은 계속해서 트래킹해야 하며 실적 유지에 필요한 프로모션 비용 등에 대해서도 예측을 기반으로 매월 적합한 예산을 상정할 수 있을 것이다.
딥 러닝 분야를 포함해 많은 부분에서 활용되고 있는 마르코프 체인.
사실 위의 예시 그래프를 통해 하고 싶은 이야기가 있다.
알파고 역시 상대의 수에 따라 최적의 수를 계산해 내듯이 더킹+카지노은 현재의 결과를 지속적으로 업데이트하며 실행의 방향을 찾아야 한다는 것이다.
비록 확률과 마르코프 체인의 상세 내용은 담지 못했지만, 딥 러닝 환경을 구축하지 않아도 이산화되어 분포하는 값의 변화를 행렬로 전환하여 간단히 계산해 볼 수 있다는 점에서 본 칼럼의 의의가 있을 것이다.
결국 분석과 실행의 결합이 현재의 마케팅 흐름이기에.
참조 1. 박민재(aSSIST), 경영과학 제6강.
김신엽 경영학 박사. 부산국제광고제 애드텍 집행위원.