Modelos de atribución en marketing. Resumen (6/6)

Tomás Reneboldi
10 min readMar 21, 2022

--

En esta serie de notas vamos a ver qué son y cómo se usan en marketing los modelos de atribución. La pregunta que buscamos responder es: de las ventas que tuvimos, ¿cuántas corresponden a cada campaña publicitaria que hicimos? Para eso analizamos las 2 familias principales de modelos: MMM (Marketing Mix Modelling) y MTA (Multi Touch Attribution).

Índice

  1. ¿Qué es la atribución?
  2. Modelos MMM
  3. Modelos MTA: heurísticos
  4. Modelos MTA: data-driven (Shapley)
  5. Modelos MTA: data-driven (Markov)
  6. Resumen

Conclusiones

“Todo concluye al fin
nada puede escapar
todo tiene un final
todo termina”
Vox Dei

Llegamos al final del recorrido (o al principio si arrancaste por esta nota porque te daba fiaca). Después de atravesar por las diferentes versiones y visiones sobre la atribución es hora de mirar para atrás y repasar todas las cosas que desarrollamos con mayor profundidad en las notas.

¿Qué es la atribución?

Arrancamos esta serie planteando que la atribución es un problema casi filosófico. O mejor dicho, es un problema que se relaciona con debates filosóficos muy antiguos. En esencia la atribución es decidir qué es lo que genera un determinado comportamiento. Cuáles son las causas de una acción, cuál es la relación causa efecto, qué la origina o cuánto hay de azar en las decisiones que tomamos.

Sin embargo, bajando a la tierra del marketing, el problema de la atribución es el problema de cómo atribuimos resultados (ventas) a determinadas acciones (campañas publicitarias). Como el marketing es un área cuyo presupuesto no solo es millonario sino creciente, este problema se vuelve muy relevante. Hay muchas empresas poniendo millones en publicidad, sin saber cuál de todas las acciones es la que origina el resultado (porque resultados hay).

Desde que existe la publicidad existen soluciones para este problema. Y eso es hace mucho tiempo: Mad Men (si no la viste, no pierdas tiempo leyendo esto). Sin embargo, el panorama cambió radicalmente en los años de explosión de internet y, particularmente, del comercio electrónico. Al pasar a entornos digitales, tenemos mucha más información sobre los usuarios y sus comportamientos y esto permite nuevas maneras de abordar el problema.

Sin embargo, las teorías sobre las que se basan estas nuevas aproximaciones al problema de la atribución no dejan de ser teorías que también peinan canas. Las soluciones que vimos con los nombres genéricos de Markov o Shapley se basan en ideas de la estadística de los años 50 o 60. Sin embargo, constantemente se actualizan y modifican porque, además, el problema de la atribución es de los problemas más complicados de la ciencia de datos: los problemas no supervisados. Es decir, no tenemos la certeza de cuál es el resultado correcto. Por ende, la pelea entre “mi modelo es mejor”, “no, el mio”, es una pelea que es imposible de definir un ganador con certeza.

Por ese motivo, en esta serie de notas elegimos presentar las soluciones más utilizadas en el campo de la atribución, con sus pros y sus contras. Porque todo modelo, en tanto recorte de la realidad, elige representar algo complejo de una forma más sencilla y en ese recorte de la realidad hay ciertos aspectos que van a resaltar más que otros. Conocer esos aspectos es la clave para poder aplicar la teoría.

Media Mix Modelling

Primero vimos lo que se llaman modelos MMM: Media Mix Modelling. En estos modelos se toma el gasto en cada uno de los canales publicitarios y se tratan de relacionar con las ventas. No tenemos información de los usuarios sino sólo de inversión en los canales.

La ventaja es que el resultado es muy accionable: a partir de este modelo obtenemos una curva que nos dice para cada nivel de inversión en cada canal, cuántas ventas podemos esperar y eso nos permite armar una canasta de inversiones para maximizar los ingresos.

No solo es accionable sino que es bastante interpretable porque podemos incorporar supuestos realistas e intuitivos sobre la inversión en los canales. Por ejemplo, que el efecto de la publicidad persiste en la memoria, que esa influencia disminuye con el tiempo, que hay una cierta cantidad de ventas que no dependen de ningún canal publicitario, etcétera.

Además, permite meter en un mismo modelo todas las formas de inversión, incluso las analógicas (radio, tv, publicidad gráfica, etcétera). No solo eso sino que podemos incorporar factores externos (economía, clima, fechas especiales, etcétera) y ver cuál es su impacto sobre las ventas.

La desventaja principal es que en el mejor de los casos nos dice cuánto invertir en cada canal pero no cómo hacerlo. Los canales suelen englobar cosas muy distintas. Por poner un ejemplo, un canal podría ser una determinada red social. Sin embargo, dentro de esa bolsa hay campañas que cumplen roles muy específicos: algunas de instalación de la marca, otras que buscan resultados muy concretos, otras para determinadas fechas especiales. Entonces la recomendación de aumentar la inversión en esa plataforma no siempre es tan fácil de aplicar.

Otra limitación es que necesitamos bastante información y recolectarla no es tan sencillo, tanto por restricciones técnicas (métricas no comparables) como por limitaciones operativas (muchos equipos distintos a los que pedirles la información). Por último, llegar a un modelo preciso requiere mucha práctica o experiencia. Como mencionamos antes, al ser un problema no supervisado, es prácticamente un arte poder probar distintos modelos hasta lograr uno que se pueda adecuar a los datos, incorporar las intuiciones sobre el negocio de quienes trabajan en ello día a día y que sea lo suficientemente general como para no quedar desactualizado con el paso del tiempo.

Multi Touch Attribution

Luego de ver estos modelos, pasamos a los que se llaman MTA: Multi Touch Attribution. Primero hablamos de los heurísticos, que son modelos que parten de reglas “arbitrarias” o definidas a priori y que suelen ser el primer abordaje o el más común sobre la atribución en cualquier contexto o herramienta. Los más conocidos son el first click y el last click, aunque hay otros. Luego pasamos a los llamados modelos data-driven que son soluciones que toman conceptos de la estadística clásica y los aplican a este problema.

Empezamos con Shapley. Esta solución viene de la teoría de juegos y toma ideas de lo que se llaman “juegos cooperativos”. Es decir, juegos donde hay varios jugadores que colaboran para un objetivo y luego tienen que repartirse los beneficios. En este caso los jugadores serían los canales y los beneficios las ventas.

Cuando desgranamos el modelo de Shapley vimos algunas cosas interesantes, como que no toma en cuenta ni el orden ni la cantidad de veces que está presente un canal en el recorrido de un usuario sino que solo tiene en cuenta su presencia. Como ventajas podemos mencionar que es relativamente fácil de explicar y fácil de calcular. Sin embargo, también vimos que si tenemos muchos canales se vuelve prohibitivo computacionalmente (tarda mil años en hacer los cálculos).

Por otro lado, una de las soluciones más utilizadas o de moda es la que se conoce con el nombre de Markov. Vimos que esta solución viene del mundo de la teoría de la probabilidad aunque la versión final es un collage de decisiones que hay que tomar en el medio (y que están fundamentadas en distintos papers, estudios o intuiciones) pero que no vienen de la teoría original de las cadenas de Markov.

Sin embargo tiene varias ventajas: el orden y la repetición de los canales puede jugar un rol (aunque no principal), se puede calcular para una cantidad de canales mucho más grande (es decir, si tenemos más de 10 canales Shapley se vuelve muy muy lento mientras que Markov no tiene problemas). Además, si bien no hay forma de saber si los resultados son correctos (porque como hablamos antes, este es un problema no supervisado), en muchos papers se utiliza esta metodología y reportó resultados bastante buenos (estabilidad, consistencia).

Algunas de las desventajas son que no es tan sencillo explicar la metodología (fijate lo larga que quedó esa nota), que hay un montón de decisiones relativamente arbitrarias que se toman en el medio para poder llegar al resultado final y que en el modelo básico (el de orden 1) se parte de un supuesto por lo menos polémico: que cada interacción de un usuario solo depende de la interacción inmediatamente anterior. Para flexibilizar este supuesto hay que pasar a modelos de órdenes más avanzados pero esto se hace a costa de necesitar más datos y descartar otros.

Decisiones a tomar

Como planteamos al principio, hacer un modelo supone realizar un recorte e intentar interpretar la realidad a partir de ese recorte. Tanto los modelos de MMM como los de MTA parten de supuestos y tienen ventajas y desventajas. Pero además, una vez que elegimos qué modelo utilizar, hay una serie de decisiones que tomar al construir el modelo. Estas decisiones afectan el resultado final por lo que es importante conocerlas.

En el caso de los modelos MMM hay varias. Una es cómo agrupar los canales ya que necesito lograr un equilibrio entre diferenciar las funciones que cumple cada uno y poder tener la cantidad de información suficiente para poder calcular el modelo.

Un ejemplo para hacerlo más fácil. En el caso extremo, podría agrupar la publicidad digital por un lado y no digital por otro. Eso me permite hacer un modelo para relacionar el gasto en digital y no digital con las ventas totales. Sin embargo, este modelo no me dice mucho porque la recomendación final podría ser “aumentá la publicidad en el canal digital un 20% y bajala en el no digital un 10%”. Esa recomendación la puedo cumplir de muchas maneras diferentes y no tengo idea cuál es la correcta. Si la recomendación no es accionable, no me sirve de mucho hacer el modelo.

Si nos vamos al otro extremo, cada canal podría ser una campaña específica. Por ejemplo, la campaña que corrí en Facebook la semana antes del Día de la Madre. En este caso, lo más probable es que no tenga la cantidad de datos suficientes para hacer el modelo, ya que al querer relacionar el gasto en los canales con las ventas, de cada campaña solo tengo poquitos datos y no me permite alcanzar una conclusión general o extrapolable. Imaginate que la recomendación fuera “aumentá en un 100% el gasto en campañas del Día de la Madre”. Está bien pero ¿qué hago el resto del año?

Los modelos MMM además requieren tomar ciertas decisiones sobre cómo modelar los datos. Dijimos que la influencia de los canales permanece un tiempo en la memoria de los usuarios. Bueno… ¿por cuánto tiempo? ¿con qué intensidad? También dijimos que permiten incorporar factores externos al modelo. Bueno… ¿Cuáles? ¿Cómo los modelamos?

Los modelos MMM buscan explicar a ciencia cierta de dónde provienen las ventas. Eso lleva a que en el modelado también sea importante incorporar conocimiento sobre el funcionamiento del negocio para que esas intuiciones y la matemática del modelo coincidan. Por tanto, en el proceso de construcción muchas veces se trabaja con distintas versiones de un mismo modelo para lograr equilibrar la especificidad de los datos, el conocimiento del negocio y la suficiente generalidad para que el modelo no quede obsoleto al tener datos nuevos.

Los modelos MTA también requieren muchas decisiones. Supongamos que entro por primera vez a un sitio en enero, vuelvo a entrar varias veces durante febrero y compro un producto. Suena bastante lógico que el canal por el que ingresé al sitio en enero se lleve al menos una parte del crédito por esa venta. ¿Y si yo entro por primera vez en enero pero la compra la realizo recién al año siguiente? Parece raro asignarle a un canal responsabilidad por una venta que sucedió más de 1 año después. Sin embargo, ¿qué pasa con casos en el medio? ¿Si el ingreso fue en enero y la compra en mayo? ¿O en septiembre? Ahí tenemos un ejemplo de una decisión a tomar al modelar los datos para atribución: qué ventana de tiempo tomar en cuenta para cada conversión.

Otro ejemplo. Supongamos que yo entro una vez por un canal y a la semana siguiente por otro y compro. Tiene sentido que ambos canales participen, de alguna manera, en la distribución del crédito por esa venta. Supongamos ahora que yo entro por un canal, después entro 200 veces más por canales distintos y después compro. Ahí tendría poco sentido darle un crédito al primer canal por lo que pasó 200 interacciones más adelante. Y de vuelta…. ¿qué pasa con los casos intermedios? ¿Dónde ponemos el corte? Acá tenemos otra decisión: qué cantidad de puntos o touchpoints máximos tener en cuenta en cada recorrido.

Yendo un paso más. ¿Qué pasa si un usuario tiene varias conversiones? Esas conversiones sucesivas… ¿a quién se las atribuyo? ¿Qué canales participan de la repartición? ¿Solo el que estuvo entre antes de cada conversión? ¿Todos los canales desde el principio de la interacción del cliente? Lo más probable es que los recorridos hasta la primera conversión sean muy diferentes a los recorridos de un usuario ya fidelizado. Sin embargo… ¿qué es fidelizado? ¿Haber comprado una vez? ¿Una vez en los últimos 3 meses? ¿Haber comprado y entrar habitualmente al sitio? Esto nos pone frente a la decisión de repartir de una manera diferente la primera conversión de las siguientes.

Como te habrás dado cuenta, hay mucha complejidad en la interpretación de los datos y eso impide que exista un modelo que se pueda aplicar para cualquier caso, circunstancia, modelo de negocio o período. Por eso es que el terreno de la atribución es un terreno tan explorado y tan disputado, donde es muy difícil que se pueda construir una solución única aplicable para todos los casos y mucho más importante priorizar el conocimiento, la experiencia y la experimentación con resultados medibles.

¿Entonces? ¿Qué uso?

Voy a hacer el truco de mi profesión (economista) y responder: “depende”.

¿Qué modelo debería usar?

Más allá del chiste, la realidad es que cada modelo (o tipo de modelos) nos sirve para unos casos pero no para otros. A modo de guía general, hay algunas preguntas cuya respuesta nos va a determinar de mínima qué modelos podemos usar y cuáles no.

Diagrama de decisión sobre modelos de atribución

Esta es una versión posible pero siempre depende del caso y de los datos. Lo más importante es familiarizarse con las ventajas, desventajas y decisiones a tomar en cada uno y de esa manera poder medir y equilibrar su uso para cada caso particular.

Espero que esta serie te haya servido y que cualquier comentario, crítica o duda me lo hagas llegar por cualquier via de comunicación.

--

--

Tomás Reneboldi
Tomás Reneboldi

Written by Tomás Reneboldi

Head of Operations LATAM at Digodat - MightyHive // Economist and data scientist (UBA) // Twitter: @TReneboldi

No responses yet