9 errores de prueba A / B que debe dejar de cometer
Publicado: 2016-08-17Los errores son una parte inevitable del proceso de aprendizaje, pero cuando cometerlos le cuesta dinero a su negocio, tienden a doler un poco más.
Si bien los especialistas en marketing de todos los niveles de experiencia están de acuerdo: no hay una forma más confiable de mejorar las páginas web, los correos electrónicos y los anuncios que mediante las pruebas A / B, para que sean efectivas, esas pruebas A / B deben realizarse de la manera correcta. La desafortunada verdad es que pocos lo son.
Errores de prueba A / B que probablemente cometa
Es muy probable que en algún momento haya desperdiciado recursos al realizar pruebas A / B de forma incorrecta. Tal vez probó algo sin importancia o, sin saberlo, tomó decisiones comerciales basadas en resultados falsos. Sea lo que sea, no estás solo.
Tanto los principiantes como los veteranos del marketing aún cometen los siguientes 9 errores en las pruebas A / B. Si reconoces algunos de ellos, genial. Tienes una idea de lo que debes evitar. Si no lo hace, mejor aún. Al final de esta publicación, es posible que descubra que hemos guardado su próxima campaña.
1. Prueba sin una razón para
Si estás sentado en tu oficina preguntándote "¿Qué debo probar a continuación?", Ya estás condenado al fracaso. Debe tener una razón para ejecutar todas las pruebas, respaldadas por datos. En su lugar, debería preguntarse: "¿Por qué estoy probando X?"
Por ejemplo, no pruebe A / B el tamaño de un botón solo por el gusto de hacerlo. Si, al utilizar el software de mapas de calor, descubre que los clientes potenciales no le prestan atención, realice una prueba A / B para ver si uno más prominente produce un impulso. Después de eso, forme una hipótesis fundamentada que se parezca a esto:
“Al usar el software de mapas de calor, noté que mi botón de llamada a la acción no estaba atrayendo la atención que debería. Por eso, creo que aumentar el tamaño del botón lo hace más notable ".
A continuación, decida cómo medirá el resultado. Para una prueba como esta, los nuevos datos del mapa de calor podrían mostrar si los visitantes le están prestando más atención o no. Más clics también podrían indicar una mayor atracción hacia él.
Repita este proceso hasta que haya encontrado una solución al problema que motivó su prueba en primer lugar. Luego, utilice el proceso para optimizar otras operaciones de marketing para su negocio.
2. Prueba de más de un elemento
Los datos pueden sugerir que su página podría usar un nuevo título y un campo de formulario menos junto con él, pero probar ambos al mismo tiempo dará como resultado una gran cantidad de datos que serán difíciles de interpretar. Esta no es una prueba A / B, sino una “prueba multivariante” y es mucho más difícil de hacer bien. Este es el por qué…
En una prueba A / B, está determinando la efectividad de un elemento frente a otro, por ejemplo, un botón rojo frente a un botón negro:

Aquí, la página que funcione mejor según su métrica de éxito es la ganadora. Si su métrica de éxito son las conversiones y la página con el botón rojo produce más, el botón rojo funciona mejor. Con una prueba multivariante, las cosas se complican un poco más.
Veamos este segundo ejemplo de Optimizely de una prueba teórica multivariante en la que se evalúan dos elementos, imagen y título:

Como puede ver arriba, probar solo un elemento más contra una variación da como resultado el doble de resultados. Los resultados de esta prueba no son tan claros.
Si canaliza el tráfico a las cuatro páginas diferentes anteriores y su métrica de éxito son las conversiones, la que más produce es la ganadora. Sin embargo, a diferencia de una prueba A / B, determinar por qué ganó esa página no es tan fácil.
Por ejemplo, si un título de variación produce más conversiones que un título de control en una prueba A / B, suponiendo que la prueba se realizó correctamente, el título de variación es mejor. Dado que es la única diferencia entre las dos páginas, definitivamente sabe que el título es la razón del aumento en el rendimiento.
Sin embargo, en una prueba multivariante, tendrá que determinar no solo qué combinación de elementos produce la mayor cantidad de conversiones, sino también la relación entre esos elementos. Independientemente de qué combinación gane en el ejemplo de título / imagen de Optimizely, el evaluador deberá preguntar "¿Cómo interactúan estos elementos entre sí para producir el máximo de conversiones?"
¿Ambas páginas con el título “The One And Only Acme Widgets” funcionaron mejor que las otras? Es posible que el titular fuera el mayor responsable del levantamiento. Entre esos dos, ¿por qué la foto del equipo produjo más conversiones?
Estas son preguntas a las que tendrá que encontrar respuestas a través de una investigación profunda de sus datos. Además, necesitará mucho más tráfico solo para obtener esos datos.
¿Una buena regla de oro? Alex Birkett de CXL recomienda que se ciña a las pruebas A / B si no tiene mucho tráfico.
3. Pasar todo su tiempo haciendo pruebas A / B
Es fácil cegarse a las pruebas A / B: quedar atrapado en la búsqueda de la combinación perfecta de elementos en su página de destino posterior al clic (o anuncio, correo electrónico) hasta el punto de descuidar todas las demás partes de su campaña. No dejes que esto te pase a ti.
La razón por la que las personas no realizan conversiones no siempre es porque su página de destino posterior al clic no está bien estructurada. Puede ser que su tráfico sea deficiente o que su campaña de fomento de clientes potenciales no sea sólida.
No pierda todo su tiempo haciendo pruebas A / B en las imágenes de la página de destino y el texto del anuncio después del clic. Recuerde pensar en el panorama general y optimizar primero los agujeros más grandes en su embudo. Ahí es donde verá las mayores ganancias. Luego, comience a perfeccionar el proceso mediante pruebas A / B.
4. Seguir ciegamente las mejores prácticas de pruebas A / B
Resulta que las mejores prácticas no siempre son las mejores para todos. Lo que funcionó bien para una empresa puede no funcionar bien para la suya. Caso en punto:
Hace unos años, el agregador de datos Device Magic se propuso saber si un control deslizante de imagen o un video convertiría a más prospectos en su página de inicio. Entonces realizaron una prueba A / B.
Pero, ¿por qué iban a hacerlo?
Numerosos estudios ya han demostrado que los controles deslizantes de imágenes causan ceguera de los banners, a veces son difíciles de ver y rara vez se hace clic en ellos. Además, una gran cantidad de investigaciones ha demostrado el poder del video para convertir. Algunas empresas han visto aumentos en la tasa de conversión de hasta el 80%. Esto debería ser una obviedad. Video de la victoria, ¿verdad?
No es así, dijeron los resultados de la prueba A / B de Device Magic. Aquí está su página de inicio de video de control:

Y aquí está la página de inicio del control deslizante de variación:

La variación completa con el control deslizante resultó en un aumento del 35% en las conversiones.
El equipo de Device Magic aprendió dos cosas valiosas de esa prueba. Uno: no confíe plenamente en las mejores prácticas, y dos: no cometa el siguiente error ...

5. Finalizar una prueba demasiado pronto
Así es como suele funcionar: un evaluador llega a lo que considera un número significativo de visitantes para demostrar que una variación de página es mejor que un control, o viceversa. Se detienen en 100 o 1.000 y luego declaran un ganador.
Eso es lo que hizo el equipo de Device Magic, escribe Paras Chopra en una publicación de blog para VWO:
Inicialmente, su control (con video) superaba la variación (con el control deslizante de imagen) y no podían entender por qué. Pero luego dejaron que la prueba se ejecutara un poco más hasta que tuvieron muchos más datos; para su sorpresa, el resultado se invirtió en una variación que superó al control, que es lo que esperaban. Y este resultado fue estadísticamente significativo.
Usar un tamaño de muestra demasiado pequeño es solo un error que puede resultar en lo que se llama un "falso positivo", un resultado de prueba no concluyente disfrazado de significativo. En la prueba de Device Magic, ese falso positivo fue que su página de inicio era más efectiva con un video que con un control deslizante, aunque ese no fue el caso a largo plazo. Demuestra que sin suficientes visitantes a las páginas que está realizando pruebas A / B, no tendrá suficientes datos para hacer inferencias con seguridad a partir de sus resultados.
Aquí hay un ejemplo mucho más simple de Benny Blum de cómo se vería un falso positivo al usar un tamaño de muestra pequeño:
Considere la hipótesis nula: los perros son más grandes que los gatos. Si utilizo una muestra de un perro y un gato, por ejemplo, un Bullmastiff y un león, concluiría que mi hipótesis es incorrecta y que los gatos son más grandes que los perros. Pero, si usara un tamaño de muestra más grande con una amplia variedad de gatos y perros, la distribución de tamaños se normalizaría y concluiría que, en promedio, los perros son más grandes que los gatos.
Entonces, ¿cómo se combate a los falsos positivos que vienen con el uso de un tamaño de muestra demasiado pequeño? Encuentra uno que sea lo suficientemente grande a través de algunas matemáticas serias, o puede usar calculadoras ingeniosas como esta de Optimizely.
Lo importante que hay que recordar aquí es que no hay un tiempo establecido ni una cantidad de visitantes que pueda generar para estar completamente seguro de los resultados de una prueba A / B. El gurú de CRO, Peep Laja, describe un momento en el que su software declaró que su variación era un perdedor:
La variación que construí estaba perdiendo mucho, en más del 89% (y sin superposición en el margen de error). Algunas herramientas ya lo llamarían y dirían que la significancia estadística era del 100%. El software que utilicé dijo que la Variación 1 tiene 0% de probabilidad de vencer a Control. Mi cliente estaba dispuesto a dejarlo todo. Sin embargo, dado que el tamaño de la muestra aquí era demasiado pequeño (solo un poco más de 100 visitas por variación), persistí y esto es lo que parecía 10 días después.

La variación que tenía un 0% de posibilidades de superar el control ahora ganaba con un 95% de confianza ".
Cuanto más se ejecuten las pruebas y más visitantes obtenga, más cerca de "seguro" podrá estar acerca de un resultado, incluso si nunca puede llegar allí por completo.
6. Prueba de elementos en diferentes momentos
Finalizar una prueba demasiado pronto puede suceder incluso después de alcanzar la significación estadística. Supongamos que su sitio genera suficientes visitantes para alcanzar una significación estadística con 15.000 visitantes en cada página durante el fin de semana. Todavía no es el momento de llamar a su experimento.
Como era de esperar, los días de la semana tienen un gran impacto en el tráfico y las conversiones. Si comienza su prueba el sábado, debe finalizarla el sábado siguiente para reducir la posibilidad de que uno o dos días sesguen los resultados, incluso si ya alcanzó la significación estadística. La audiencia que visita su sitio web el fin de semana puede ser muy diferente de la que lo visita durante la semana, y puede estar afectando los resultados de su prueba.
7. No eliminar las variables de confusión
Las variables de confusión son exactamente lo que parecen: variables dentro de su prueba A / B que alterarán los resultados. No identificarlos significa poner en riesgo la validez de sus datos. A continuación, se muestra un ejemplo de Optimize Smart de cómo podrían verse las variables de confusión en sus pruebas:

Por ejemplo, si cambia la orientación de su anuncio para generar un tráfico diferente a su variación en medio de una prueba, está alterando el resultado al cambiar las personas que llegan a su página. Como un grupo demográfico completamente diferente, esas personas pueden ser más receptivas a la variación del título o la imagen.
Recuerde que todo lo que no sea el elemento que está evaluando debe ser igual y permanecer igual durante la totalidad de sus pruebas A / B. De esta manera, puede estar seguro de que la diferencia en el rendimiento es el resultado del elemento que está probando.
8. Prueba de elementos que no traerán un ascensor
Sí, el color importa en su marketing, pero ¿realmente necesita probar los 41 tonos de azul como lo hizo Google hace unos años para determinar cuál tiene el mayor impacto en el rendimiento?
Absolutamente no.
No pierda su tiempo con frívolas pruebas A / B como esta. Google tiene los recursos para hacerlo (no es que creamos que deberían haberlos usado así), tú no. No pierda el tiempo probando cosas que traerán un aumento mínimo del rendimiento, si es que lo harán.
9. Darse por vencido después de una prueba
Supongamos que ha probado A / B la imagen destacada de su página y, al hacerlo, produjo un aumento de conversión sostenido del 10%. ¡Felicidades! Eso es increíble, pero ¿significa que tienes la mejor imagen? No. Significa que tienes una mejor imagen que antes.
Si hubiéramos dejado de probar esta página de destino post-clic del seminario web, satisfechos con un aumento del 45% en la tasa de conversión de la variación "B", nunca hubiéramos visto el asombroso impulso que obtuvimos de la variación "C".
Aquí está el original:

Aquí está la variación "B", que produjo un aumento del 45% en las conversiones:

Y, por último, aquí está la variación "C", que impulsó las conversiones en un sorprendente 129%.

Si al principio sus pruebas no tienen éxito, inténtelo, inténtelo de nuevo. E incluso si tienen éxito, inténtelo, vuelva a intentarlo para obtener mejores resultados. Pero primero comience a crear páginas personalizadas post-clic con Instpage, solicite una demostración de Instapage Enterprise hoy.
