Modelos de atribución en marketing. Modelos MMM (2/6)

Tomás Reneboldi
12 min readNov 3, 2021

--

En esta serie de notas vamos a ver qué son y cómo se usan en marketing los modelos de atribución. La pregunta que buscamos responder es: de las ventas que tuvimos, ¿cuántas corresponden a cada campaña publicitaria que hicimos? Para eso analizamos las 2 familias principales de modelos: MMM (Marketing Mix Modelling) y MTA (Multi Touch Attribution).

Índice

  1. ¿Qué es la atribución?
  2. Modelos MMM
  3. Modelos MTA: heurísticos
  4. Modelos MTA: data-driven (Shapley)
  5. Modelos MTA: data-driven (Markov)
  6. Resumen

Primera respuesta: MMM

Como planteamos en la nota introductoria de esta serie, los primeros enfoques, que se siguen utilizando hasta el día de hoy, vamos a resumirlos bajo el nombre de MMM (Marketing Mix Modelling). Es decir, técnicas y modelados que nos permiten calcular la combinación o canasta perfecta de gasto en los distintos canales publicitarios. Cuánta torta pongo en cada tipo de publicidad.

Este enfoque parte del presupuesto de que existe una relación entre el gasto que hacemos en cada uno de los canales (TV, radio, publicidad gráfica, publicidad digital, influencers, etcétera) y las ventas (o conversiones en un sentido más general) de nuestro negocio. Es decir, cada peso que invertimos en un canal publicitario determinado nos va a generar un aumento en las conversiones cuya proporción es constante en el largo plazo. Es un presupuesto fuerte y muy importante. Esto implica que si tenemos suficientes datos podemos “descubrir” esta relación y con ello entender qué parte de las conversiones depende de cada canal.

Vamos a poner un ejemplo muy sencillo (demasiado) para que podamos jugar con una tablita de Excel y entender mejor los conceptos. A continuación tenemos la cantidad de plata que gastamos en cada canal y el total de ventas por mes, todo expresado en (supongamos) miles de pesos.

Tabla inicial del ejemplo sencillo

Con esta información, podríamos construir un modelo como el siguiente:

Ventas = 30 + 2 TV + 1 Radio + 0,5 Gráfica + 2 Digital

¡Iuju! Nuestro primer modelo. Con ese modelo (una regresión lineal excesivamente simple a propósito), podríamos decir que de los 1.810 miles de pesos de ventas totales hay 180 (30 por mes) que no se explican por ningún canal sino que estarían independientemente de que no pongamos un peso en publicidad. Del resto, cada canal explica:

Ventas por canal modelo sencillo

El objetivo de un modelo de atribución, más allá de entender cómo funciona la publicidad a la hora de generar conversiones, es poder reasignar el presupuesto publicitario en los canales que más rindan. En este caso estamos asumiendo una relación muy sencilla (lineal), por lo que la decisión es muy fácil: hay que poner más plata en los canales que tengan un coeficiente mayor a 1 ya que estos generan más ingresos que el costo de la publicidad. Por lo tanto, la recomendación debería ser la siguiente:

Recomendación derivada del modelo sencillo

¡Excelente! Con el mismo presupuesto logramos 590 (miles de pesos) más de ventas. Ya podemos ponerlo en el CV.

Después de nuestro primer modelo de atribución

Como te podrás imaginar, la realidad no suele ser tan sencilla. A continuación vamos a flexibilizar algunos de los presupuestos irreales que usamos para este modelo. Por lo pronto, esta sobresimplificación nos permitió presentar las principales herramientas del MMM:

  • Datos de entrada. Cuánto gastamos en cada uno de los canales publicitarios y cuántas ventas totales tuvimos en un período de tiempo (idealmente esta información debería ser diaria, habitualmente es semanal, en el peor caso mensual).
  • Modelo. Una regresión lineal (con agregados que veremos a continuación) para modelar las ventas en función del gasto publicitario.
  • Resultados. Cuál es el impacto de cada uno de los canales en las ventas totales.
  • Proyección. Cómo podemos ajustar el gasto publicitario en los canales en función del presupuesto para optimizar las ventas.

Una vez que tenemos este modelo híper sencillo pero que nos permite entender qué es lo que buscamos, vamos a ver cómo lo podemos hacer más complejo para representar un poco mejor la realidad:

Diminishing returns

En este primer modelo asumimos que la relación entre cada canal y las ventas era lineal. Según los datos originales, esta sería la representación de la inversión en TV.

Relación lineal entre gasto en TV y ventas

Mirando este gráfico no hace falta hacer ningún modelo para decir que la mejor estrategia es invertir mucha plata en TV ya que siempre las ventas van a superar a los gastos. Si la curva azul estuviera por debajo de la punteada roja, la recomendación sería la contraria: no invirtamos en este canal.

Sin embargo, cuando pensamos qué pasa en la realidad, seguramente nos imaginamos algo distinto. Es decir, al principio un canal puede tener un efecto grande pero este va a ser cada vez más chico hasta que llega un punto en que aun poniendo más plata no vamos a lograr incrementar las ventas. Cuán rápido lleguemos a ese punto depende mucho del tipo de canal del que estemos hablando (no es lo mismo la publicidad gráfica que la digital ni que la que apunta a posicionar la marca que la que promociona un descuento limitado en el tiempo).

El secreto de estos modelos tiene que ver con que la cantidad de datos (puntos en un gráfico) es relativamente acotada. Si tuviéramos “infinitas” (muchísimas) mediciones de la inversión en cada canal y las ventas, podríamos obtener la forma exacta de la curva en ese gráfico. Sin embargo, eso no es así; solo tenemos algunos puntos y a partir de ellos tenemos que inferir cuál es la forma de esa curva en la realidad. Para los mismos datos (puntos), hay muchos gráficos que pueden representar la relación entre gasto y ventas.

Posibles funciones y sus representaciones gráficas

Por lo que dijimos antes, el comportamiento de los canales publicitarios tiende a parecerse más a una función logarítmica o raíz que a una lineal. Es decir, esa forma bajo la cual al principio crece mucho pero después se estanca.

La manera de incluir esta intuición en el modelo es transformando las variables de inversión de cada canal. Reemplazamos los valores por sus logaritmos naturales y volvemos a calcular el modelo. De esta manera, lo que hacemos es pedir explícitamente que la relación entre el gasto en cada canal y las ventas tenga esa forma. Es importante señalar que el gasto sigue siendo 10, 50 o 100 pero lo que hacemos es transformar ese valor a la hora de calcular el modelo.

Relación logarítmica entre gasto en TV y ventas

Como resultado podemos ver en el gráfico que al principio las ventas aumentan mucho pero a medida que aumenta el gasto ese efecto se pierde, llegando a un punto donde gastamos más que lo que ganamos con ese canal (en este caso, ese punto está cerca de 90). Ahora sí se parece mucho más a lo que imaginábamos.

Aplicando esta misma técnica a los datos que presentamos al principio de esta nota y recalculando el modelo, obtenemos estas curvas (dejamos solo los canales TV y Digital por ser los más relevantes):

Relaciones logarítmicas entre gasto en canales y ventas

Ahora podemos ver que proyectar cuál es la mejor manera de invertir el presupuesto publicitario no es tan fácil como antes ya que hay un punto en que invertir en estos canales deja de ser rentable. Vamos a analizar 3 escenarios posibles:

3 escenarios de reasignación presupuestaria

En este caso, la mejor combinación de ambos canales está cerca de 150 en TV y 50 en Digital. A su vez, estas curvas también nos permitirían encontrar las combinaciones óptimas con cantidades mayores o menores de presupuesto (no lo vamos a hacer por ahora, va de tarea para el hogar).

En resumen, para modelar la relación entre el gasto en los canales y las ventas, nos conviene utilizar una transformación logarítmica. Esto nos permite contemplar que no siempre un aumento en el gasto en un canal genera mayores ventas, que es lo que llamamos diminishing returns.

Carry over y decay effect

El efecto carry over se refiere a que una publicidad no solo tiene efecto en el momento en que se hace el gasto sino que su efecto se puede prolongar por días o semanas. Supongamos que los datos del modelo son diarios. ¿Cuántas veces que vemos una publicidad y nos llama la atención compramos el producto instantáneamente? ¿Cuántas veces terminamos comprando en los días siguientes?

Para ajustarnos a la realidad tenemos que incorporar al modelo este efecto retardado de la publicidad, que a su vez puede ser distinto para cada canal. Podemos pensar por ejemplo que la forma que tiene el decay effect es una exponencial negativa.

Relación exponencial negativa entre tiempo y efecto en las ventas del gasto en un canal

Si queremos hacerlo más realista todavía, podemos tener en cuenta otros factores. Por ejemplo, si el pico efectivamente tiene lugar en el mismo día en que corremos la publicidad, si está corrido algunos días y cuán suave es la curva antes y después de ese pico.

Poder estimar correctamente la forma de esta curva para cada canal requiere conocer muy bien el negocio, tener estudios cuantitativos sólidos o bien una experiencia importante en modelar otros negocios similares. Hay algunos papers que intentan generalizar lo que se conoce sobre este efecto. En ese caso, el autor plantea que la duración media del efecto es de 7 a 12 semanas. Sin embargo, más allá de las generalizaciones esto depende de cada negocio, canal y tipo de publicidad, por lo cual es importante ir probando hasta encontrar lo que mejor parece adaptarse tanto a los datos como a nuestras intuiciones.

Veamos una versión simplificada de este efecto. Tenemos los datos anteriores:

Tabla inicial para modelo sencillo

Ahora, vamos a suponer que todos los canales tienen un efecto carry-over del 50% al otro mes. Es decir, si yo gasto 50 en TV en enero, hay 25 de esos que siguen teniendo efecto en febrero pero nada en marzo.

Tabla inicial para modelo con carry over

Esto implica que tenemos que recalcular el modelo para entender cómo está afectando cada canal al resultado de ventas final. Cuando calculamos el modelo nuevamente con estos datos, vemos que el resultado es muy distinto.

Ventas = 350 + 1.05 * TV — 1.5 * Radio — 0.65 * Gráfica + 0.4 * Digital

En resumen, la publicidad que corremos tiene un efecto más allá del momento donde realizamos el gasto. Hay que buscar una forma de modelar ese efecto por cada canal. La forma que tenga esa curva va a cambiar los resultados del modelo.

Efecto spill over

Otro de los efectos que tenemos que incorporar al modelo para hacerlo un poco más parecido a la realidad es el llamado spill over. ¿Qué quiere decir? Básicamente que cuando corremos una campaña publicitaria no solamente tenemos que contar el impacto directo de la misma sino cómo puede potenciar otros canales.

Muchas teorías de la publicidad hablan de impactar al usuario en el momento justo. Esto quiere decir que a veces una campaña que da a conocer la marca a un público amplio puede combinarse de manera complementaria con otra que va al hueso y trata de que el usuario aproveche un descuento. En este caso, el efecto de ambas campañas combinadas va a ser superior al que lograríamos si corriéramos cada una individualmente.

Efecto spill over: todos para uno y uno para todos

Por ende, para acercar el modelo a la realidad tenemos que medir el efecto combinado de las campañas. Para eso lo que hacemos es incorporar variables de interacción (multiplicación) entre las campañas. Para esto también es muy importante la experiencia o conocimiento del negocio ya que si agregamos combinaciones para todas las variables, lo más probable es que terminemos con un modelo gigante que no se ajusta bien a la realidad. Entonces, tenemos que elegir cautelosamente qué combinación de variables probar.

En resumen, los canales además del efecto directo sobre las ventas tienen un efecto combinado con los otros canales. Para poder medir este efecto, lo que hacemos es agregar variables de interacción (multiplicación) de las variables de los canales que nos parezca relevante medir juntos.

Factores externos

Una de las ventajas del MMM es que la interpretación del modelo resulta muy coherente con las intuiciones acerca del efecto de la publicidad. Es decir, cada canal contribuye en una proporción (el coeficiente de cada variable) pero además hay una determinada cantidad de conversiones que no dependen de la publicidad (el intercepto).

Sin embargo, esa bolsa de conversiones que no dependen de la publicidad pueden, a su vez, depender de otros factores. Seguro que hay una parte que responde a los clientes leales (aquellos que compran habitualmente más allá de cualquier circunstancia). Pero también pueden haber conversiones que tengan que ver con la estacionalidad (temporada, temperatura, fechas especiales), con el precio tanto propio como de la competencia así como de otros factores (COVID, reglamentaciones gubernamentales, algún fenómeno viral).

La virtud del MMM es que podemos incorporar variables para medir cada uno de esos factores y probar si al hacerlo mejoran el resultado del modelo o no. El intercepto siempre va a ser nuestra bolsa de conversiones no explicadas por lo que todo lo que podamos hacer para reducir esa indeterminación será bienvenido. Lógicamente hay algunos factores que resultan más fáciles de traducir a variables cuantitativas (y confiables) que otros.

También puede pasar que agreguemos variables y estas solo agreguen ruido al modelo, es decir que no permitan explicar la variación de las conversiones y se mezclen con los efectos de los canales. Por ese motivo, tenemos que tener precaución (segunda vez que usamos el término) cuando incorporamos variables porque es fácil “saturar” el modelo. A su vez, existen controles estadísticos para chequear que cada variable está realmente mejorando el modelo.

Modelando la realidad

En resumen, el modelo MMM nos permite agregar variables para modelar fenómenos externos que no necesariamente tengan que ver con la publicidad pero que estén decididamente afectando las ventas o conversiones de nuestro negocio.

Conclusiones

Repasando lo que planteamos hasta el momento, el MMM es un modelo que nos permite tomar en consideración el gasto en cada uno de los canales publicitarios para explicar el resultado total de ventas del negocio.

Para acercar el modelo lo más posible a la realidad, usamos técnicas que flexibilizan los rígidos presupuestos iniciales. ¿Ejemplos? Transformar las variables para que no siempre que aumentemos el gasto en un canal aumenten las ventas; usar un lag para que no todo el impacto de una campaña en las ventas sea inmediato; agregar la interacción entre los canales para tener en cuenta el efecto incremental que genera coordinar las acciones publicitarias; incorporar variables que midan factores externos a la publicidad (e incluso al negocio) para explicar las variaciones en las ventas.

Una vez que tomamos todo esto en consideración, lo más probable es que el modelo que empezó siendo así:

Ventas = 30 + 2 TV + 1 Radio + 0,5 Gráfica + 2 Digital

termine siendo algo más parecido a esto:

Ventas = Base + LN(TV+TV(lag)) + LN(Radio + Radio(lag)) + LN(Gráfica + Gráfica(lag)) + LN(Digital + Digital(lag)) + LN(TV*Radio) + LN(TV*Gráfica) + LN(TV*Digital) + LN(Gráfica*Digital) + COVID + Fechas importantes

Por ende, se vuelven muy importantes:

  • El conocimiento del negocio. Para poder sostener o descartar hipótesis sobre qué variables agregar y con qué forma.
  • La experiencia modelando. Para saber qué factores relevantes nos podemos estar olvidando.
  • Los fundamentos estadísticos. Para implementar de manera correcta todos los tests y alertas que nos digan si lo que modelamos es significativo.
  • La flexibilidad. Tanto en términos de mindset como de las herramientas que usamos, para poder testear y probar muchas hipótesis simultáneamente y poder comparar sus resultados.
  • La consistencia. Cuando los modelos son tan flexibles es importante que la explicación que encontremos tenga coherencia y consistencia en el tiempo.

Sign up to discover human stories that deepen your understanding of the world.

Free

Distraction-free reading. No ads.

Organize your knowledge with lists and highlights.

Tell your story. Find your audience.

Membership

Read member-only stories

Support writers you read most

Earn money for your writing

Listen to audio narrations

Read offline with the Medium app

--

--

Tomás Reneboldi
Tomás Reneboldi

Written by Tomás Reneboldi

Head of Operations LATAM at Digodat - MightyHive // Economist and data scientist (UBA) // Twitter: @TReneboldi

No responses yet

Write a response