El sorprendente poder de los experimentos online (traducción, parte 2)

Atención: Esta es la segunda parte de la nota El sorprendente poder de los experimentos online (traducción, parte 1). Se recomienda empezar con la misma, y luego continuar con esta segunda parte.
Abordar la definición de éxito
Cada grupo empresarial debe definir una métrica de evaluación adecuada (usualmente compuesta) para experimentos que se alinee con sus objetivos estratégicos. Eso puede parecer simple, pero es difícil determinar qué métricas a corto plazo son las que mejor predicen resultados a largo plazo. Muchas empresas se equivocan. Haciendo lo correcto – llegar con un criterio de evaluación global (OEC) – toma consideración reflexiva y, a menudo amplio debate interno. Requiere una estrecha cooperación entre los altos ejecutivos que entienden la estrategia y los analistas de datos que entienden las métricas y los trade-offs. Y no es un ejercicio único: Recomendamos que la OEC sea ajustada anualmente.
Llegar a un OEC no es sencillo, como lo demuestra la experiencia de Bing. Sus principales objetivos a largo plazo son aumentar su cuota de búsqueda de motores de búsqueda y sus ingresos publicitarios. Curiosamente, la disminución de la relevancia de los resultados de búsqueda hará que los usuarios emitan más consultas (aumentando así el porcentaje de consultas) y haga clic más en los anuncios (lo que aumenta los ingresos). Obviamente, tales ganancias serían duraderas, porque la gente cambiaría eventual a otros motores de búsqueda. Entonces, ¿qué métricas de corto plazo predicen mejoras a largo plazo para la cuota de consulta y los ingresos? En su discusión sobre la OEC, los ejecutivos de Bing y los analistas de datos decidieron que querían minimizar el número de consultas de usuario para cada tarea o sesión y maximizar el número de tareas o sesiones que los usuarios realizaban.
También es importante desglosar los componentes de un OEC y rastrearlos, ya que normalmente proporcionan información sobre por qué una idea fue exitosa. Por ejemplo, si el número de clics es integral para la OEC, es fundamental medir qué partes de una página se hace clic. Mirar diferentes métricas es crucial porque ayuda a los equipos a descubrir si un experimento tiene un impacto imprevisto en otra área. Por ejemplo, un equipo que hace un cambio en las consultas de búsqueda relacionadas mostradas (una búsqueda en, por ejemplo, “Harry Potter”, mostrará preguntas sobre los libros de Harry Potter, las películas de Harry Potter, los elencos de dichas películas, etc.) se da cuenta de que está alterando la distribución de las consultas (aumentando las búsquedas de las consultas relacionadas), lo que podría afectar los ingresos de forma positiva o negativa.
Con el tiempo el proceso de construcción y ajuste de la OEC y la comprensión de las causas y efectos se hace más fácil. Mediante la ejecución de experimentos, depuración de los resultados (que vamos a discutir más adelante), y la interpretación, las empresas no sólo obtener una valiosa experiencia con lo que las métricas funcionan mejor para ciertos tipos de pruebas, sino también desarrollar nuevas métricas. A lo largo de los años, Bing ha creado más de 6.000 métricas que los experimentadores pueden usar, que se agrupan en plantillas por el área que involucran las pruebas (búsqueda en la web, búsqueda de imágenes, búsqueda de video, cambios en anuncios, etc.).
Tenga cuidado con los datos de baja calidad

Los resultados sorprendentes deben ser replicados, tanto para asegurarse de que son válidos como para sofocar las dudas de la gente. En 2013, por ejemplo, Bing realizó un conjunto de experimentos con los colores de varios textos que aparecieron en su página de resultados de búsqueda, incluidos títulos, vínculos y subtítulos. Aunque los cambios de color fueron sutiles, los resultados fueron inesperadamente positivos: demostraron que los usuarios que veían azules y verdes ligeramente más oscuros en títulos y un negro ligeramente más claro en subtítulos tenían éxito en sus búsquedas un porcentaje mayor del tiempo y que aquellos que encontraron lo que ellos querían hacerlo en mucho menos tiempo.
Dado que las diferencias de color son apenas perceptibles, los resultados fueron comprensiblemente vistos con escepticismo por múltiples disciplinas, incluyendo los expertos en diseño. (Durante años, Microsoft, al igual que muchas otras empresas, había confiado en diseñadores expertos-en lugar de en el comportamiento de los usuarios reales- para definir guías y colores de estilo corporativo.) Así que el experimento se reanudó con una muestra mucho mayor de 32 millones de usuarios y los resultados fueron similares. El análisis indicó que cuando se extendió a todos los usuarios, los cambios de color aumentarían los ingresos en más de $ 10 millones anuales.
CONCLUSIÓN
Si desea que los resultados sean confiables, debe asegurarse de que se utilizan datos de alta calidad. Puede ser necesario excluir los valores atípicos, identificar errores de recolección, etc. En el mundo en línea este tema es especialmente importante, por varias razones. Tomemos los bots de Internet. En Bing más del 50% de las solicitudes provienen de bots. Esos datos pueden sesgar los resultados o añadir “ruido”, lo que hace más difícil de detectar la significación estadística. Otro problema es la prevalencia de puntos de datos atípicos. Amazon, por ejemplo, descubrió que ciertos usuarios individuales hacían órdenes masivas de libros que podrían desviar una prueba A / B entera; resultó que eran cuentas de bibliotecas.
Los gerentes también deben tener cuidado cuando algunos segmentos experimentan efectos mucho mayores o menores que otros (un fenómeno que los estadísticos denominan “efectos de tratamiento heterogéneos”). En ciertos casos, un solo segmento bueno o malo puede sesgar lo suficiente como para invalidar los resultados globales. Esto ocurrió en un experimento de Microsoft en el que un segmento, los usuarios de Internet Explorer 7, no podía hacer clic en los resultados de búsquedas Bing debido a un error de JavaScript; y los resultados generales, que de otra manera eran positivos, se volvieron negativos. Una plataforma de experimentación debe detectar estos segmentos inusuales; si no lo hace, los experimentadores que buscan un efecto promedio pueden descartar una buena idea como mala.
Los resultados también pueden verse sesgados si las empresas reutilizan las poblaciones de control y tratamiento de un experimento a otro. Esa práctica lleva a “efectos de traspaso“, en los cuales la experiencia de las personas en un experimento altera su comportamiento futuro. Para evitar este fenómeno, las empresas deben “mezclar” los usuarios entre experimentos.
Otra prueba común que realiza la plataforma de experimentación de Microsoft es la validación de que los porcentajes de usuarios en los grupos de control y tratamiento en el experimento real coinciden con el diseño experimental. Cuando éstas difieren, existe una “relación de muestra desajustada”, que a menudo anula los resultados. Por ejemplo, una proporción de 50.2 / 49.8 (821.588 versus 815.482 usuarios) diverge de la proporción esperada de 50/50 en forma suficiente para que la probabilidad de que suceda por casualidad sea de menos de un caso cada 500.000. Tales desajustes ocurren regularmente (generalmente semanalmente), y los equipos necesitan ser diligentes en entender por qué y resolverlos.
Evitar suposiciones sobre la causalidad
Debido al entusiasmo existente alrededor de lo que conocemos como big data, algunos ejecutivos creen erróneamente que la causalidad no es importante. En sus mentes todo lo que necesitan hacer es establecer correlación, y la causalidad puede inferirse. ¡Incorrecto!Los dos ejemplos siguientes ilustran por qué -y también resaltan las deficiencias de los experimentos que carecen de grupos de control. La primera se refiere a dos equipos que realizaron estudios observacionales separados de dos funciones avanzadas para Microsoft Office. Cada uno llegó a la conclusión de que la nueva característica que estaban evaluando reducía la fricción de usuarios. De hecho, casi cualquier característica avanzada mostrará tal correlación, porque las personas que intenten una característica avanzada tienden a ser usuarios habituales, y los usuarios habituales tienden a tener menos fricción. Así, mientras que una nueva característica avanzada podría estar correlacionada con menos fricción, no necesariamente la causa. Los usuarios de Office que reciben mensajes de error también tienen menor fricción, porque también tienden a ser usuarios habituales. ¿Pero eso significa que mostrar a los usuarios más mensajes de error reducirá la fricción? Poco probable.El segundo ejemplo se refiere a un estudio realizado por Yahoo para evaluar si los anuncios gráficos de una marca, mostrados en los sitios de Yahoo, podrían aumentar las búsquedas de nombres de marca o palabras clave relacionadas. La parte observacional del estudio estimó que los anuncios aumentaron el número de búsquedas en un 871% a 1.198%. Pero cuando Yahoo llevó a cabo un experimento controlado, el aumento fue sólo del 5,4%. Si no fuera por el control, la empresa podría haber llegado a la conclusión de que los anuncios tenían un impacto enorme y no se habría dado cuenta de que el aumento en las búsquedas se debió a otras variables que cambiaron durante el período de observación.Algunos ejecutivos creen que todo lo que necesitan hacer es establecer correlación. ¡Incorrecto!Claramente, los estudios observacionales no pueden establecer la causalidad. Esto es bien conocido en medicina, por lo que la Administración de Alimentos y Fármacos de los Estados Unidos ordena que las compañías lleven a cabo ensayos clínicos aleatorios para probar que sus medicamentos son seguros y efectivos.
Incluir demasiadas variables en las pruebas también hace que sea difícil aprender acerca de la causalidad. Con tales pruebas es difícil separar los resultados e interpretarlos. Idealmente, un experimento debe ser lo suficientemente simple como para que las relaciones de causa y efecto puedan ser fácilmente comprendidas. Otra desventaja de los diseños complejos es que hacen los experimentos mucho más vulnerables a los errores. Si una nueva característica tiene un 10% de probabilidad de desencadenar un problema atroz que requiere abortar su prueba, entonces la probabilidad de que un cambio que involucre siete nuevas características tendrá un error fatal es más del 50%.
¿Qué pasa si se puede determinar que una cosa causa otra, pero no se sabe por qué? ¿Deberíamos tratar de entender el mecanismo causal? La respuesta corta es sí.
Entre 1500 y 1800, alrededor de 2 millones de marineros murieron de escorbuto. Hoy sabemos que el escorbuto es causado por una carencia de la vitamina C en la dieta, que los marineros experimentaron porque no tuvieron fuentes adecuadas de la fruta en viajes largos. En 1747, el Dr. James Lind, un cirujano de la Marina Real, decidió hacer un experimento para probar seis posibles curas. En un viaje dio a algunos marineros naranjas y limones, y otros remedios alternativos como el vinagre. El experimento mostró que los cítricos podrían prevenir el escorbuto, aunque nadie sabía por qué. Lind creía erróneamente que la acidez de la fruta era la cura y trató de crear un remedio menos perecedero calentando el jugo de cítricos en un concentrado, que destruyó la vitamina C. No fue hasta 50 años más tarde, cuando el jugo de limón no calentado fue añadido a las raciones diarias de los marineros, que la Royal Navy finalmente eliminó el escorbuto entre sus tripulaciones. Presumiblemente, la curación podría haber venido mucho antes y salvado muchas vidas si Lind había llevado a cabo un experimento controlado con jugo de limón cocido y sin cocer.
Dicho esto, debemos señalar que no siempre hay que saber el “por qué” o el “cómo” para beneficiarse del conocimiento del “qué”. Esto es particularmente cierto cuando se trata del comportamiento de los usuarios, cuyas motivaciones puede ser difícil de determinar. En Bing algunos de los mayores avances se hicieron sin una teoría subyacente. Por ejemplo, aunque Bing fue capaz de mejorar la experiencia del usuario con esos cambios sutiles en los colores del tipo, no hay teorías bien establecidas sobre el color que podrían ayudar a entender por qué. Aquí la evidencia tomó el lugar de la teoría.
El mundo en línea se ve a menudo como turbulento y lleno de peligro, pero los experimentos controlados pueden ayudarnos a navegar. Pueden señalarnos en la dirección correcta cuando las respuestas no son obvias o las personas tienen opiniones contradictorias o no están seguros del valor de una idea.
Hace varios años, Bing estaba debatiendo si hacer anuncios más grandes para que los anunciantes pudieran incluir enlaces a páginas de destino específicas en ellos. (Por ejemplo, una compañía de préstamos podría proporcionar enlaces como “comparar las tasas” y “acerca de la empresa” en lugar de sólo uno a una página de inicio.) Un inconveniente fue que los anuncios más grandes, obviamente, ocuparía más espacio de pantalla, lo cual se sabe que aumenta la insatisfacción de los usuario. La gente que estaba considerando la idea estaba dividida. Así que el equipo de Bing experimentó con el aumento del tamaño de los anuncios, manteniendo el espacio total de pantalla asignado para los anuncios constante, lo que significó mostrar menos de ellos. El resultado fue que mostrar menos, pero más grandes anuncios llevó a una gran mejora: Los ingresos aumentaron más de $ 50 millones al año sin perjudicar los aspectos clave de la experiencia del usuario.
Si realmente quieres entender el valor de un experimento, mira la diferencia entre su resultado esperado y su resultado real. Si creías que algo iba a suceder y sucedió, entonces no has aprendido mucho. Si pensabas que algo iba a suceder y no lo hizo, entonces has aprendido algo importante. Y si pensabas que algo menor iba a suceder, y los resultados son una gran sorpresa y llevar a un gran avance, has aprendido algo muy valioso.
Al combinar el poder del software con el rigor científico de los experimentos controlados, una empresa puede crear un laboratorio de aprendizaje. Las ganancias que obtendrá en ahorros de costos, nuevos ingresos y experiencia de usuario mejorada pueden ser enormes. Si desea obtener una ventaja competitiva, su empresa debe construir una capacidad de experimentación y dominar la ciencia de la realización de pruebas en línea.
Docente de Metodología de la Investigación, Facultad de Psicología, Universidad de Buenos Aires
Docente de Procesos Básicos, Facultad de Psicología y Psicopedagogía de la Universidad del Salvador.
Investigadora, Departamento de Biología del Comportamiento, Instituto de Medicina y Biología Experimental
Investigadora, Facultad de Psicología y Psicopedagogía de la Universidad del Salvador.