6 Mitos de teste A / B: como esses mitos bagunçam seus resultados
Publicados: 2016-10-13O teste A / B é divertido. É popular. Está ficando mais fácil de fazer.
No entanto, se estiver fazendo o teste A / B errado, você ainda pode estar perdendo muito tempo e recursos.
Mesmo com a crescente onipresença dos testes A / B, ainda existem muitos mitos em torno do assunto, alguns dos quais são bastante comuns. Para realmente derivar valor de qualquer técnica, é importante entendê-la pelo que ela é - incluindo suas limitações e entender onde ela é poderosa.
Clique para tweetar
Este artigo irá delinear os principais mitos que vi repetidas vezes em blogs e por consultores.
1. Teste A / B e otimização são a mesma coisa
Isso pode parecer um pouco meticuloso, mas o teste A / B em si não aumenta as conversões. Muitos artigos dizem algo sobre o efeito de “fazer testes A / B para aumentar as conversões”, mas isso é semanticamente impreciso.
O teste A / B, também conhecido como “experimento controlado online”, é um método de pesquisa somativa que informa, com dados concretos, como as alterações feitas em uma interface estão afetando as principais métricas.
O que isso significa em termos não acadêmicos? O teste A / B faz parte da otimização, mas a otimização abrange uma faixa mais ampla de técnicas do que apenas o aspecto de experimentação.
Como Justin Rondeau, Diretor de Otimização da Digital Marketer, disse: “A otimização da taxa de conversão é um processo que usa análise e pesquisa de dados para melhorar a experiência do cliente e extrair o máximo de conversões de seu site”.
Otimização é realmente sobre aprendizagem validada. Você está equilibrando um problema de exploração / exploração (explorando para encontrar o que funciona e explorando-o para obter lucro quando o faz) enquanto busca o caminho ideal para o crescimento do lucro.
2. Você deve testar tudo
Eu estava lendo um fórum sobre CRO onde alguém perguntou sobre a escolha de uma palavra específica em um título (eu acho que era “incrível” ou algo assim), e eles estavam se perguntando se era ou não usado em demasia.
Um "especialista" deu um conselho (parafraseando aqui) que você nunca saberá com certeza até testar todas as outras palavras semelhantes ("fascinante", "incrível", "maravilhoso" etc.)
Este é um conselho bobo para 99,95% das pessoas.
Todo mundo já ouviu a história de como o Google testou 41 tons de azul. Da mesma forma, está bastante claro que um site como o Facebook ou a Amazon, teoricamente, tem tráfego para executar testes como esse.
Mas se você administra um site de comércio eletrônico de pequeno a médio porte (ou SaaS, ou qualquer outro), mesmo que faça parte de uma empresa muito grande, quase sempre é uma perda de tempo, recursos e tráfego executar testes como esse.
Por que, você pode perguntar? Porque a priorização é a chave.
Todos podem olhar para um site e ver dezenas de coisas aleatórias que eles poderiam mudar se quisessem (informados por dados ou não). Mas onde está a eficiência nisso?
Na melhor das hipóteses, você está desperdiçando tráfego em coisas que não importam e, se fizer isso, obterá resultados inconclusivos de forma consistente (boa sorte em obter apoio contínuo das partes interessadas, se for o caso).
Seja qual for o caso, porém, você se depara com um enorme custo de oportunidade: porque está perdendo tempo e recursos em coisas que não importam, você está excluído da implementação de mudanças que alteram e melhoram fundamentalmente a experiência do usuário. As coisas que fazem uma diferença real (e ganham dinheiro real).
3. Todos deveriam fazer o teste A / B
O teste A / B é incrivelmente poderoso e útil. Ninguém vai (de forma inteligente) argumentar contra isso.
Mas isso não significa que todos devam fazer isso.
A grosso modo, se você tiver menos de 1.000 transações (compras, inscrições, leads, etc.) por mês, será melhor colocar seu esforço em outras coisas. Talvez você pudesse se safar executando testes em torno de 500 transações por meses - mas vai precisar de algumas grandes melhorias para ver o efeito.
Muitas microempresas, startups e pequenas empresas simplesmente não têm esse volume de transações (ainda).
Você também deve ter em mente os custos. Todos eles, não apenas o custo de software de otimização como o Optimizely. Coisas como:
- Pesquisa de conversão. Você tem que descobrir o que testar (como mencionado acima).
- Projetando o tratamento (wireframing, prototipagem, etc.).
- Codificando o teste.
- Fazer o controle de qualidade do teste.
Agora, digamos que você obtenha um aumento de 8% e seja um vencedor válido. Você tinha 125 leads por semana e agora tem 135 / semana. O ROI está lá? Talvez - isso depende do seu valor de chumbo. Mas você deve levar em conta o tempo, os recursos e, o mais importante, os custos de oportunidade de suas ações.
Portanto, ao calcular os tamanhos de amostra necessários antes de executar o teste, faça as contas do ROI também. Qual seria o valor do aumento de X% em dólares reais?

O tempo é um recurso precioso. Pode ser melhor gasto em outro lugar do que o teste A / B quando você ainda é pequeno - por causa da matemática.
4. Altere apenas um elemento por teste A / B
Este é provavelmente o mito mais comumente difundido por aí. As intenções são boas, mas é uma premissa falha.
Este é o conselho: faça apenas uma alteração por teste, para saber o que realmente está fazendo a diferença.
Por exemplo, se você alterar o título, adicionar prova social e alterar o texto e a cor da frase de chamariz e obter um aumento de 25%, como saber o que causou a mudança?
É verdade; você realmente não pode. Mas deixe-me perguntar também (e isso é especialmente apontado para aqueles que não têm o luxo de sites de alto tráfego), você realmente se importa?
Em um mundo ideal, notavelmente, feito de mudanças iterativas que se complementam, sim, testar uma coisa por vez limita o ruído em um teste e permite que você entenda o que exatamente causou a mudança.
Além disso, você precisa definir sua SMU (Smallest Meaningful Unit), e é aqui que as coisas ficam um pouco complicadas. Matt Gershoff, CEO da Conductrics colocou bem, dizendo-me:
“Para levar a lógica ao extremo, você poderia argumentar que mudar um título é fazer várias mudanças, já que está mudando mais de uma palavra por vez.
Portanto, depende do que você deseja fazer. Você se preocupa com o texto do seu CTA e realmente quer saber se ele causou uma mudança ou não? Você está mudando radicalmente sua página? Seu site?
O SMU depende de seus objetivos e, acredite em mim, no mundo real, nenhum analista ou especialista em otimização está gritando, "apenas uma alteração por teste!"
Como o Sr. Rondeau apontou neste post, o que você mudaria neste site (foto abaixo - essa é uma versão antiga do site, aliás)?

Vamos supor que este site tenha muito tráfego e você possa executar cerca de oito testes válidos por mês. Se você estiver fazendo um elemento de cada vez, por onde começar? Você demoraria uma eternidade para testar a imagem de fundo, a cor da fonte, o tamanho da fonte, o logotipo na parte superior, as miniaturas de navegação, localização, tamanho, pedido, cópia, a cópia do corpo, os vendedores em movimento, etc., etc.
Meu ponto aqui é o seguinte: não tenha medo de agrupar várias alterações no mesmo teste.
5. Os testes A / B são melhores (ou piores) do que bandidos / MVT / etc
Você vê artigos surgindo de vez em quando defendendo que você deve "evitar multivariada (MVT)" porque eles são complicados e não produzem vitórias, ou que os bandidos são ineficientes em comparação com os testes A / B - ou que são mais eficiente - ou qualquer coisa.
Uma boa regra na vida é: se você está lidando com uma dicotomia, uma situação isso versus aquela , provavelmente você está sendo enganado. Provavelmente é uma falsa dicotomia.
A verdade é que o teste A / B é melhor em algumas situações, onde o MVT é a melhor escolha em outras. Mesmo com bandidos e algoritmos adaptativos.
6. Pare um teste A / B quando atingir significância
Embora eu não vá ser muito granular nas estatísticas (você pode ler tudo o que você precisa saber neste post), dizer “pare com significância estatística” é errado, principalmente devido à natureza do ambiente online.
É uma pena que esse mito esteja amplamente difundido e o conhecimento estatístico no mundo do marketing seja surpreendentemente contido.
Também é uma ocorrência comum que sua ferramenta de teste diga que você alcançou a importância muito cedo. Portanto, não coloque toda a sua fé nesse significado de 95%.
Primeiro, pré-calcule o tamanho da amostra e a duração do teste. Em seguida, execute o teste por tanto tempo. Além disso, teste por semanas inteiras (começa na segunda-feira? Termina na segunda-feira). E é recomendado executar o teste em vários ciclos de negócios para contabilizar dados não estacionários (dados que não permanecem os mesmos com o tempo). Por exemplo, uma grande venda em uma semana ou um pico de RP pode atrapalhar bastante seus dados. Mesmo dias diferentes têm taxas de conversão diferentes muitas vezes. Talvez você tenha uma taxa de conversão de 3% às terças-feiras, mas uma taxa de conversão de 1,5% aos sábados, e talvez essa diferença atrapalhe sua análise pós-teste.
Portanto, teste por semanas inteiras para contabilizar esses fluxos e refluxos. Na CXL, recomendamos fazer um teste de 3 a 4 semanas.
Em seguida, considere uma significância estatística de pelo menos 95%.
Conclusão
O teste A / B é incrivelmente poderoso. É um poderoso dissuasor para a tomada de decisões com base no instinto e mostra o que os dados dizem que você deve fazer em vez disso.
O teste A / B permite que você verifique qual página pós-clique está gerando mais conversões. Aprenda como fornecer personalização de anúncios 1: 1 para cada público que você tem com uma Demonstração de Personalização Instapage hoje.
