El sorprendente poder de los experimentos online (traducción, parte 1)
La siguiente es una traducción de un gran artículo publicado en la edición de Septiembre/Octubre de 2017 por la Escuela de Negocios de Harvard, el cual me pareció tan interesante que decidí traducirlo al español. El mismo fue escrito por Ron Kohavi, Gerente General de Experimentación y Análisis en Microsoft, y Stefan Thomke, profesor de Administración de Empresas en la Escuela de Negocios de Harvard (HBR).
El mismo se titula originalmente The Surprising Power of Online Experiments. Lo que sigue inmediatamente bajo estas líneas es la traducción del mismo. Dado que el artículo original es de 8 páginas, hemos dividido el mismo en 2 partes para que no sea tan excesiva su lectura
En 2012, un empleado de Microsoft que trabajaba en Bing tuvo una idea acerca de cómo cambiar la forma en que el motor de búsqueda mostraba los titulares de los anuncios. Desarrollarlo no requeriría mucho esfuerzo, sólo unos pocos días de tiempo de un ingeniero, pero fue una de las cientos de ideas propuestas, y los administradores del programa consideraron que era una prioridad baja. Así que languideció durante más de seis meses, hasta que un ingeniero que vio que el costo de escribir el código para él sería pequeño, lanzó un simple experimento controlado en línea -una prueba A / B- para evaluar su impacto.
En cuestión de horas, la nueva variación del título generaba ingresos anormalmente altos, lo que provocó una alerta “demasiado buena para ser verdad”. Normalmente, tales alertas señalan un error, pero no en este caso. Un análisis mostró que el cambio había aumentado los ingresos por un asombroso 12%, que en una base anual llegaría a más de 100 millones de dólares sólo en los Estados Unidos, sin perjudicar métricas clave de la experiencia del usuario. Fue la mejor idea generadora de ingresos en la historia de Bing, pero hasta la prueba su valor fue subestimado. (Nota: esta idea aparece en nuestro artículo 10 estadisticas impresionantes sobre los efectos de la experiencia de usuario)
Este ejemplo ilustra cuán difícil puede ser evaluar el potencial de nuevas ideas. Igual de importante, demuestra el beneficio de tener una capacidad para ejecutar muchas pruebas de forma barata y simultánea, algo que más empresas están empezando a reconocer.
Hoy en día, Microsoft y varias otras compañías líderes -incluyendo Amazon, Booking.com, Facebook y Google– realizan cada año más de 10.000 experimentos controlados en línea, con muchas pruebas que involucran a millones de usuarios. Los start-ups y las empresas sin raíces digitales, como Walmart, Hertz y Singapore Airlines, también las gestionan regularmente, aunque en menor escala. Estas organizaciones han descubierto que un enfoque de “experimentar con todo” tiene sorprendentemente grandes beneficios. Ha ayudado a Bing, por ejemplo, a identificar docenas de cambios relacionados con los ingresos para hacer cada mes, mejoras que han aumentado colectivamente los ingresos por búsqueda entre un 10% y un 25% cada año. Estas mejoras, junto con cientos de otros cambios por mes que aumentan la satisfacción del usuario, son la principal razón por la que Bing es rentable y su participación en las búsquedas realizadas en computadoras personales ha aumentado a 23%, frente al 8% de 2009, año en que fue lanzado.
En un momento en que la web es vital para casi todas las empresas, los experimentos en línea rigurosos deben ser el procedimiento operativo estándar. Si una empresa desarrolla la infraestructura de software y las habilidades organizacionales para llevarlas a cabo, podrá evaluar no sólo ideas para sitios web, sino también modelos de negocio, estrategias, productos, servicios y campañas de marketing potenciales – todo de manera relativamente económica. Los experimentos controlados pueden transformar la toma de decisiones en un proceso científico, basado en pruebas, en lugar de una reacción intuitiva. Sin ellos, muchos avances podrían no ocurrir nunca, y muchas ideas malas serían implementadas, sólo para fallar desperdiciando recursos.
Sin embargo, hemos descubierto que demasiadas organizaciones, incluidas algunas de las principales empresas digitales, están desordenadas en su enfoque de experimentación, no saben cómo hacer exámenes científicos rigurosos o llevan a cabo muy pocos de ellos.
Hemos pasado más de 35 años juntos, estudiando y practicando experimentos y asesorando a compañías en una amplia gama de industrias sobre ellos. En estas páginas compartiremos las lecciones que hemos recopilado sobre cómo diseñarlas y ejecutarlas, asegurar su integridad, interpretar sus resultados y abordar los desafíos que puedan plantear. Aunque nos centraremos en el tipo más simple de experimento controlado, la prueba A / B, nuestros hallazgos y sugerencias se aplican también a diseños experimentales más complejos.
En entornos online, la modificación podría ser una nueva característica, un cambio en la interfaz de usuario (como un nuevo diseño), un cambio de fondo (como una mejora de un algoritmo que, digamos, recomienda libros en Amazon), o un modelo de negocio diferente (como una oferta de envío gratis ). Cualquiera que sea el aspecto de las empresas de operaciones que más le interesen, ya sean ventas, uso repetido, tasas de clics o tiempo que los usuarios pasan en un sitio, pueden utilizar las pruebas A / B en línea para aprender a optimizarla.
Cualquier empresa que tenga al menos unos pocos miles de usuarios activos diarios puede realizar estas pruebas. La capacidad de acceder a grandes muestras de clientes, recopilar automáticamente enormes cantidades de datos sobre las interacciones de los usuarios en sitios web y aplicaciones y ejecutar experimentos simultáneos da a las empresas una oportunidad sin precedentes para evaluar muchas ideas rápidamente, con gran precisión ya un costo insignificante por incremento experimentar. Eso permite a las organizaciones iterar rápidamente, fallar rápido y pivotar.
Reconociendo estas virtudes, algunas compañías tecnológicas líderes han dedicado grupos enteros a construir, administrar y mejorar una infraestructura de experimentación que puede ser empleada por muchos equipos de productos. Dicha capacidad puede ser una importante ventaja competitiva, siempre que sepa utilizarla. Esto es lo que los gerentes necesitan entender:
Pequeños cambios pueden tener un gran impacto.
Las personas comúnmente asumen que cuanto mayor sea la inversión que hagan, mayor será el impacto que verán. Pero las cosas rara vez funcionan de esa manera en entornos online, donde el éxito es más acerca de conseguir muchos pequeños cambios que sean correctos. Aunque el mundo de los negocios glorifica las ideas grandes y disruptivas, en realidad la mayor parte del progreso se logra mediante la implementación de cientos o miles de mejoras menores.
Poner las ofertas de tarjetas de crédito en la página del carrito de la compra aumentó los beneficios en millones.
Considere el ejemplo siguiente, de nuevo de Microsoft. (Mientras que la mayoría de los ejemplos en este artículo vienen de Microsoft, donde Ron dirige la experimentación, ilustran lecciones extraídas de muchas compañías.) En 2008, un empleado en el Reino Unido hizo una sugerencia aparentemente menor: Abrir una nueva pestaña (o una nueva ventana en los navegadores antiguos) automáticamente cada vez que un usuario hace clic en el enlace de Hotmail en la página principal de MSN, en lugar de abrir Hotmail en la misma pestaña. Se llevó a cabo un test con cerca de 900.000 usuarios del Reino Unido, y los resultados fueron muy alentadores: El engagement de los usuarios que abrió Hotmail aumentó un impresionante 8,9%, medida por el número de clics que hicieron en la página principal de MSN. (La mayoría de los cambios en el engagement tienen un efecto menor al 1%.) Sin embargo, la idea era controvertida porque pocos sitios en ese momento estaban abriendo enlaces en nuevas pestañas, por lo que el cambio se publicó sólo en el Reino Unido.
En junio de 2010 el experimento se replicó con 2,7 millones de usuarios en los Estados Unidos, produciendo resultados similares, por lo que el cambio se puso en marcha en todo el mundo. Luego, para ver qué efecto podría tener la idea en otros lugares, Microsoft exploró la posibilidad de que las personas que iniciaron una búsqueda en MSN abrieran los resultados en una nueva pestaña. En un experimento con más de 12 millones de usuarios en Estados Unidos, los clics por usuario aumentaron un 5%. Abrir enlaces en nuevas pestañas es una de las mejores maneras de aumentar el compromiso de los usuarios que Microsoft ha introducido y todo lo que necesitaba era cambiar algunas líneas de código. Hoy en día muchos sitios web, incluyendo Facebook.com y Twitter.com, utilizan esta técnica.
La experiencia de Microsoft no es única. Los experimentos de Amazon, por ejemplo, revelaron que mover las ofertas de tarjetas de crédito desde su página de inicio hasta la página del carrito de compras aumentó sus ganancias en decenas de millones de dólares al año. Es evidente que las pequeñas inversiones pueden producir grandes beneficios. Las grandes inversiones, sin embargo, pueden tener poco o ningún beneficio. Integrar Bing con los medios sociales, de modo que el contenido de Facebook y Twitter se abriera en un tercer panel de la página de resultados de búsqueda, costó a Microsoft más de 25 millones de dólares para desarrollar y producir incrementos insignificantes en el compromiso y los ingresos.
Los experimentos pueden guiar las decisiones de inversión.
Las pruebas en línea pueden ayudar a los directivos a determinar cuánta inversión en una mejora potencial es óptima. Esta fue una decisión que Microsoft enfrentó cuando buscaba reducir el tiempo que Bing tardó en mostrar los resultados de búsqueda. Por supuesto, más rápido es mejor, pero ¿podría cuantificarse el valor de una mejora? ¿Debería haber tres, 10 o quizás 50 personas trabajando en esa mejora del desempeño? Para responder a estas preguntas, la compañía llevó a cabo una serie de pruebas A / B en las que se añadieron retrasos artificiales para estudiar los efectos de las diferencias diminutas en la velocidad de carga. Los datos mostraron que cada diferencia de 100 milisegundos en el rendimiento tuvo un impacto del 0,6% en los ingresos. Con los ingresos anuales de Bing superando los $ 3 mil millones, una aceleración de 100 milisegundos vale $ 18 millones en ingresos incrementales anuales, lo suficiente para financiar a un equipo considerable.
Los resultados de la prueba también ayudaron a Bing a hacer concesiones importantes, específicamente sobre características que podrían mejorar la relevancia de los resultados de la búsqueda, pero retardando el tiempo de respuesta del software. Bing quería evitar una situación en la que muchas pequeñas características acumulativamente condujesen a una degradación significativa en el rendimiento. Así que el lanzamiento de características individuales que retardaron la respuesta en más de unos pocos milisegundos se retrasó hasta que el equipo o bien mejorase su rendimiento, o bien el rendimiento de otro componente.
Construir una capacidad a gran escala
Hace más de un siglo, John Wanamaker, el dueño de una tienda por departamentos (NOTA: y uno de los padres del marketing moderno), inventó el adagio de marketing: “La mitad del dinero que gasto en publicidad se pierde; el problema es que no sé qué mitad “. Hemos encontrado algo parecido en las ideas innovadoras: la gran mayoría de ellas fallan en los experimentos, e incluso los expertos a menudo no saben cuáles funcionarán. En Google y Bing, sólo alrededor del 10% al 20% de los experimentos generan resultados positivos. En Microsoft como un todo, un tercio es efectivo, un tercio tiene resultados neutrales y un tercio tiene resultados negativos. Todo esto demuestra que las empresas necesitan besar a muchas ranas (es decir, realizar un gran número de experimentos) para encontrar un príncipe.
Cualquier figura que parezca interesante o diferente normalmente es incorrecta. Click To Tweet
Es clave experimentar con todo para asegurarse de que los cambios no son degradantes ni tienen efectos inesperados. En Bing aproximadamente el 80% de los cambios propuestos se ejecutan primero como experimentos controlados. (Se excluyen algunas correcciones de errores de bajo riesgo y cambios a nivel de equipo como las actualizaciones del sistema operativo).
Probar científicamente casi todas las ideas propuestas requiere una infraestructura: instrumentación (para registrar cosas como clics, mouse hovers y eventos), data pipelines y científicos de datos. Varias herramientas y servicios de terceros hacen que sea fácil probar experimentos, pero si desea ampliar las cosas, debe integrar firmemente la capacidad en sus procesos. Esto reducirá el costo de cada experimento y aumentará su fiabilidad. Por otra parte, la falta de infraestructura mantendrá los costos marginales de las pruebas altas y podría hacer que los altos directivos se resistan a pedir más experimentación.
Microsoft es un buen ejemplo de una infraestructura de pruebas sustancial, aunque una empresa más pequeña o cuyo negocio no depende tanto de la experimentación podría utilizar menos, por supuesto. El equipo de Análisis y Experimentación de Microsoft está compuesto por más de 80 personas que cada día ayudan a ejecutar cientos de experimentos controlados online sobre diversos productos como Bing, Cortana, Exchange, MSN, Office, Skype, Windows y Xbox. Cada experimento expone a cientos de miles de usuarios – a veces incluso decenas de millones – a una nueva característica o cambio. El equipo realiza análisis estadísticos rigurosos en todas estas pruebas, generando automáticamente tarjetas de puntuación que controlan cientos de miles de métricas y señalan cambios significativos.
El personal de experimentación de una empresa puede organizarse de tres maneras:
Modelo centralizado.
Modelo descentralizado.
Modelo de centro de excelencia.
- la falta de claridad sobre lo que el centro de excelencia posee y lo que poseen los equipos de producto
- quién debería pagar por contratar más científicos de datos cuando varias unidades aumentan sus experimentos
- quién es responsable de las inversiones en alertas y chequeos que indican los resultados no son confiables.
No hay un modelo correcto o incorrecto. Las pequeñas empresas suelen comenzar con el modelo centralizado o utilizar una herramienta de terceros y luego, después de haber crecido, cambiar a uno de los otros modelos. En las empresas con múltiples negocios, los gerentes que consideran probar una prioridad tal vez no quieran esperar hasta que los líderes corporativos desarrollen un enfoque organizacional coordinado; en esos casos, un modelo descentralizado podría tener sentido, al menos al principio. Y si la experimentación en línea es una prioridad corporativa, una empresa puede querer crear experiencia y desarrollar estándares en una unidad central antes de desplegarlos en las unidades de negocio.
Continuar con la segunda parte del artículo
Docente de Metodología de la Investigación, Facultad de Psicología, Universidad de Buenos Aires
Docente de Procesos Básicos, Facultad de Psicología y Psicopedagogía de la Universidad del Salvador.
Investigadora, Departamento de Biología del Comportamiento, Instituto de Medicina y Biología Experimental
Investigadora, Facultad de Psicología y Psicopedagogía de la Universidad del Salvador.