Transcrições
1. Vídeo promocional: Bem-vindo ao curso de experimentação e testes AB para gerentes de produto, onde você aprenderá os fundamentos da experimentação que cada gerente de projeto deve saber. Meu nome é Raul Mill e tenho 15 anos de experiência em experimentação. Eu desempenhei papéis de liderança do ritual digital log-log, 500 Px, o placar com a Autodesk e a Bell Canada. Tenho um diploma de engenharia da GIL e um MBA. Estabeleci três programas de experimentação temporal elevados, bem
como economizei 30% nos custos de aquisição de clientes. Eu liderei o crescimento que resultou nas startups ato. E eu ajudei a lançar e expandir a divisão de comércio eletrônico globalmente em tudo isso, na parte de trás da experimentação. Depois de concluir este curso, você aprenderá por que a experimentação é uma habilidade essencial para todos os gerentes de produtos que desejam construir produtos impactantes. Você também aprenderá como projetar experimentos eficazes, como criar uma estratégia de experimentação e como analisar resultados. Vou ensinar-lhe quadros importantes relacionados com a estratégia de experimentação, conceitos
estatísticos relacionados ao vocabulário de experimentação. Eu também vou te ensinar o que é um bom design de experimento. Também como acelerar experimentos e como documentar e comunicar experimentos. O aluno ideal para este curso, É um aspirante ou atual PM ou um empreendedor que procura alavancar o poder da experimentação para tomar decisões baseadas em evidências e entregar resultados. Você deve ter algum conforto com Matt para tirar o máximo proveito
deste curso e ter um interesse genuíno na experimentação. Sinta-se livre para olhar para a descrição do curso e estou ansioso para ensiná-lo em breve.
2. Introdução: Olá, e bem-vindo a um guia de gerentes de produtos para experimentação, estratégia de testes
AB e análise de resultados. Neste curso, você vai aprender por que os gerentes de produto devem experimentar, por que eles devem executar experimentos. Dez termos importantes em experimentação. Como executar um experimento eficaz, como desenvolver e roteiro de experimentação, como construir uma equipe que suporte a experimentação, como nutrir e experimentar a cultura, como comunicar eficazmente os aprendizados experimentação para experimentos documentais, em
seguida, irá para um tópico intermediário ou avançado analisando resultados onde vamos cobrir mais freqüentes estatísticas bayesianas e sequenciais em um nível muito alto. E então eu vou compartilhar alguns recursos interessantes para leitura
posterior antes de mergulharmos um pouco sobre mim mesmo. Meu nome é Ronald Santiago. Estou no espaço digital há cerca de 20 anos. Tenho desempenhado funções de liderança em marketing, produto e crescimento em uma variedade de empresas, incluindo aquelas em startups, telecomunicações ,
engenharia, comércio eletrônico e outros espaços. Tenho um diploma de engenharia e um MBA. Eu também sou o editor do experimento Nation.com. Para aqueles que estão interessados em aprender mais sobre experimentação, dou as boas-vindas a você para visitar.
3. Por que PMs devem experimentar: Então, por que os gerentes de produto têm que experimentar? Gosto de explicar isso com uma história. Imagine que um dia você é pego e jogado em uma floresta escura e profunda. E alguém te disse: “Ei, você ali, onde esta seta vermelha está, é um prédio. E aquele prédio está queimando naquele prédio em chamas quando crianças. E essas crianças estão segurando gatinhos e seu trabalho é salvá-los. Então, seu primeiro instinto pode ser correr o mais rápido que puder em direção a essa flecha, mas garanto que tropeçará correrá para as coisas. Você vai machucar seu rosto e provavelmente vai estar muito cansado no final disso. No final do dia, você pode ter sucesso e salvar as crianças e os gatinhos, mas garanto que você não será da maneira mais eficiente. Agora imagine este cenário onde você tem um pouco de luz. Você é capaz de ver para onde você está indo. Você é capaz de evitar obstáculos e você é capaz de evitar se machucar, é um caminho muito mais fácil, verdade? Ele ainda pode se machucar. Você ainda pode cair, mas definitivamente será uma viagem mais fácil com menos risco, menos lesões e provavelmente mais sucesso. Não deve ser surpresa no cenário de
que a luz é uma metáfora para a experimentação. experimentação ilumina a forma como reduz incerteza e mostra o melhor caminho a seguir.
4. Aprenda e evitar que o uso de e a queima: A forma como a experimentação faz isso é que permite que os gerentes de produto façam três coisas. Permite que eles aprendam, ganhem e evitem se queimarem. Vou entrar em cada um desses. A maneira como a experimentação ajuda os gerentes de produto a aprender é ajudando-os a reduzir a incerteza para ajudá-los a entender seu problema. Espaço, experimentação ajuda a descobrir a causalidade entre duas variáveis, bem como teorias de teste que elas podem ter. Obviamente, os gerentes de produto podem aproveitar a experimentação para ajudá-los a ganhar. O que quero dizer com isso é que eles podem usar experimentação para ajudá-los a gerar receita, otimizar o desempenho de um recurso ou simplesmente medir o impacto do futuro que eles estão lançando. Para ilustrar o potencial de ganho da experimentação. À direita está um gráfico do desempenho das empresas que abraçaram a experimentação recentemente. Aqueles incluem Facebook, Google, Etsy, Microsoft, em comparação com outras empresas que não têm. Como você pode ver, aqueles que experimentam melhor desempenho, pelo
menos no mercado de ações. Agora, é claro, isso é apenas correlação e não causa,
mas ainda é uma coisa interessante de se ver. Agora, um dos benefícios mais interessantes da experimentação, pelo
menos dois gerentes de produto, é que a experimentação ajuda os gerentes de produto a evitar a queima de aspas. Ter dados experimentais ajuda-os a evitar fazer escolhas que levem a uma perda em termos de receita ou desempenho. Dá-lhes provas quantitativas. Eles podem, dois, quando desafiados em termos de por que eles tomaram uma decisão. E, finalmente, a experimentação pode ajudar os gerentes do Ártico a influenciar as partes interessadas, testando suas ideias e provando-as erradas às vezes
ou, em alguns casos, provando-as certas. De qualquer forma, as decisões devem basear-se em dados, não em opinião.
5. Quando você deve executar experiências?: Então, como gerente de produto, quando você deve executar experimentos? Então, é claro, a resposta ideal é que você deve estar executando experimentos o tempo todo. Mas, infelizmente, a vida real é diferente. Existem definitivamente algumas empresas que têm a mentalidade e a capacidade de testar tudo, como correções de bugs, campanhas de
marketing, etc. Empresas como estes testes cada vez que têm uma pergunta, cada vez que lançam
qualquer coisa, sempre que têm um conflito, porque essa é a beleza dos experimentos. Eles podem resolver argumentos que poderiam mostrar evidências que podem provar ou refutar a opinião de alguém. É por isso que muitas empresas fazem isso sempre que querem liberar qualquer coisa. Mas é claro, esse é um mundo ideal. A maioria de nós, de fato, quase todos têm algum tipo de limitação, seja em termos de recursos ou tempo. Então temos que ser mais seletivos quando fazemos experimentos. Isso ocorre porque os experimentos podem ser caros. Os envolvidos muitas vezes às vezes engenharia, design, tempo do produto, os nossos principais investimentos. Então, se você está em uma situação em que você está olhando para executar um experimento. E enquanto eu sugiro fortemente que você faça o melhor esforço para executar um experimento, às vezes você tem que considerar se este é o experimento mais importante que você pode executar agora, este experimento
terá algum aprendizado importante? Às vezes você está lançando uma correção de bug e você não espera nenhuma mudança em nenhuma métrica. Então você pode ter que reconsiderar executar o experimento completamente. Mas, como regra geral, você deve executar experimentos quando tiver alguma incerteza ou dúvidas priorizando quaisquer questões que estejam em seu caminho para fazer progresso. Considere isto. Assim, no eixo y temos incerteza, e no eixo x temos tempo. A linha vermelha mostra o caminho sem experimentação. Então, essencialmente, à medida
que o tempo passa , a incerteza diminui gradualmente e no lançamento, ela cai drasticamente. Você olha para a linha azul, o caminho com experimentação, vê a incerteza cair mais cedo no lançamento, você tem poucas incertezas. Isso ocorre porque com a experimentação inicial, você é capaz de entender mais o espaço e fazer os ajustes necessários reduzindo o risco, o
que é ilustrado pela diferença entre a linha vermelha e a linha azul. Risco é o que você não sabe sobre o mercado, seus usuários, seu produto, como ele vai funcionar na natureza. Então, um dos principais benefícios da experimentação é minimizar esse risco.
6. Como a experimentação compare com outras fontes de dados?: Uma das perguntas mais comuns que ouço é, como a experimentação é diferente de outras fontes de dados, como pesquisa, análise e entrevistas com usuários? Vejamos cada um deles separadamente. A pesquisa ajuda os gestores de produtos a identificar problemas. Bem, a análise revela comportamentos passados e mostra o que as pessoas fizeram no site. Pesquisas e entrevistas sugerem por que os usuários fizeram certas coisas. Mas só a experimentação demonstra causalidade. Demonstra estatisticamente que uma variável impacta outra. Sem experimentação, tudo o que você tem é correlação. Em alguns campos da ciência, há um conceito de Hierarquia de Evidência que tenta classificar diferentes fontes de informação com base em sua qualidade e seu risco de viés. Agora, enquanto todos os tipos de pesquisa são suscetíveis a vieses, dependendo de como os dados são coletados. Em geral, se frente ensaios controlados devidamente randomizados ou experimentos AKA, têm a mais alta qualidade e têm o menor risco de viés. Isso não quer dizer que devemos ignorar outras fontes de dados porque elas são muito valiosas. Mas, em vez disso, isso é para ilustrar o poder da experimentação para fornecer insights e aprendizagens com menos viés.
7. 10 termos importantes de experimentação: Agora vamos cobrir dez termos importantes e experimentação. Embora esta seção possa parecer seca, ela lhe dará o vocabulário para falar sobre experimentação. O que é um experimento? Um experimento é um procedimento científico que ajuda você a fazer uma descoberta, testar a hipótese ou ajudá-lo a demonstrar fatos desconhecidos. Alguns exemplos estão usando um experimento para ver se um novo recurso aumentará as vendas, para entender se as imagens de estilo de vida aumentarão pedidos ou provarão que os popups aumentam as taxas de rejeição. Outro termo que vocês ouvirão é o termo variante. As variantes também são chamadas de ramos ou tratamentos. Em poucas palavras, estas são as diferentes versões do que você deseja testar ou comparar. No caso de um teste AB, esse é um experimento que tem duas variantes. E o teste ABC tem três variâncias, assim por diante e assim por diante. Os fatores são variáveis mensuráveis. Você pode mudar seu controle. Cada fator pode ter um impacto no resultado de um experimento. Alguns exemplos de fatores são o tamanho de um botão, um novo recurso, dia da semana. É que alguns fatores são mais fáceis de
controlar do que outros em termos de sua experiência. E variável independente é um tipo especial de fator que você pretende investigar que você acredita que irá impactar o valor da variável ou interesses KPI chamados de variável dependente. quanto você aprende com um experimento depende da granularidade de sua variável independente. Por exemplo, se você decidir que seu fator é a cor de um botão, você aprenderá o impacto da cor de um botão na taxa de cliques. No entanto, se a sua variável independente é digamos, uma página inicial inteira, um design, então você vai aprender o impacto de todo o projeto na taxa de cliques, não necessariamente o impacto de qualquer parte da taxa de cliques on-line páginas iniciais. Recentemente conversamos sobre o que é um experimento. No entanto, um experimento controlado é um teste AB onde você mantém todos os fatores na variância constante, exceto para a variável independente. A variável para a qual a variável independente é definida como a linha de base a ser comparada é chamada de controle. Qualquer variante que não seja o controle é muitas vezes chamada de desafiantes. Sem dúvida, você já ouviu o termo AB dividido. Mas o que exatamente isso significa enquanto a e b se referem à variância de um teste? Se houver três variantes, muitas vezes
é chamado de teste ABC. Deve-se notar que as pessoas em uma variante não experimentam com outros vêem em outra variância. E uma nota importante é que o tráfego não precisa
necessariamente ser dividido uniformemente entre a variação. O que isso significa é que uma divisão AB não precisa necessariamente ser 50-50 ou pode ser 60-40, 30-70, 9010. Nem um público inteiro como ser incluído em um experimento. Você pode selecionar, digamos, 15% do seu público e dividir-se dentro desses 15%. Não deve ser confundido com um teste multi-variante, que testa várias variantes. Eu vou teste multivariado é um experimento controlado que tenta diferentes combinações de variáveis independentes para entender seu impacto combinado em uma variável dependente. A maneira mais fácil de lembrar isso é que um teste multi-variante teste uma única variável independente, enquanto um teste multivariado testa várias variáveis independentes ao mesmo tempo. O termo promover significa simplesmente expor uma única variante a todos vocês são usuários qualificados sem quaisquer desafios. Você deve observar que você não precisa promover a variante com melhor desempenho. Situações em que você pode não querer necessariamente promover a variante com melhor desempenho, pode incluir compromissos são prontos para clientes ou para liderança sênior. Há também casos em que uma característica particular em blocos outro trabalho. No entanto, em um mundo ideal, suas decisões são baseadas em dados e você promoveria a variante com melhor desempenho. E finalmente, inconclusivo. Este termo é mais comum com o que chamamos de experimentos freqüentistas. Onde um experimento inconclusivo é quando você coletou observações
suficientes e os dados não suportam seu controle nem a variante. Experiências inconclusivas não são necessariamente uma coisa ruim, desde que você esteja aprendendo.
8. Ciclo de experimentação: experimentação é um processo cíclico, como podemos ver neste diagrama. Tudo começa com a observação de sua indústria, seu produto, mas tendências, o mercado, tentando encontrar problemas ou oportunidades. Então você faz perguntas, como você pode resolver o seu problema? Como você pode aproveitar uma oportunidade? De lá? E você cria hipóteses que podem ajudá-lo a responder a essas perguntas. Então você prioriza essas hipóteses para garantir que você trabalhe nos experimentos mais impactantes primeiro. Então você desenha e configura o seu experimento. Quando o teste estiver concluído, analise os resultados e, em seguida, documente suas descobertas, compartilhando-as com outras pessoas. Finalmente, você distribui seu recurso ou produto com base nas informações que seu experimento o ajuda a gerar. Neste ponto, você está de volta a observar. Observar como você trabalha impactou o ambiente, tudo com o objetivo de iterar em seu trabalho. Ou apenas passar para o próximo experimento na sua lista de prioridades. Agora, vamos olhar para cada um destes com um pouco mais de detalhes.
9. Observar: Vamos começar com observar. É aqui que você vai querer olhar para o seu produto e tentar descobrir o que pode ser melhorado. A primeira coisa que você vai querer fazer é realizar uma análise situacional onde você começa com uma, entender seus objetivos para,
para mapear seu funil de conversão, essencialmente, entender como os usuários fluem através de seu produto. Número três, colocando métricas contra seu funil. O que isso significa é colocar os números de tráfego e as taxas de conversão em todos os pontos principais. Então você entende o desempenho. E para, depois de olhar para todo o funil, escolher as métricas que você precisa consertar ou abastecer. Uma métrica que precisa ser corrigida é uma área em que os usuários abandonam ou têm uma taxa de conversão menor do que a desejada, você só deve corrigir áreas onde a comunicação é sub ideal. O UX tem fricção e outros problemas funcionais podem ser encontrados. Você deve evitar a fixação de áreas onde você tem que mudar drasticamente os desejos do seu usuário. Por exemplo, no caso de um local de supermercado é difícil convencer um vegan a começar a comer carne. Tudo isso para dizer que nem todas as métricas são corrigíveis. Por outro lado, algumas métricas são muito mais fáceis de abastecer. O que eu quero dizer com isso é que existem áreas no site estão funcionando muito bem, mas não foram maximizar. A teoria aqui é que é mais fácil derramar gasolina no fogo do que começar um IE, fazer uma coisa boa, tornar-se melhor.
10. Pergunta em si: Nesta etapa, você tem que pensar em todas as perguntas que devem ser respondidas para melhorar sua taxa de conversão. Por exemplo, se você souber que precisa aumentar os pedidos e descobrir que você está entregando na finalização da compra. Sua pergunta pode ser, estou pedindo muita informação na finalização da compra? Pense em tantas perguntas quanto puder. É preferível pedir a todas as partes interessadas que participem aqui, onde idealmente eles receberiam as mesmas métricas de funil de conversão antes do tempo
e, em seguida, dada a oportunidade de compartilhar suas melhores ideias com você. Uma vez que você está satisfeito com sua lista de perguntas, é hora de seguir em frente para criar hipóteses.
11. Crie hipóteses: Enquanto todos os passos coalhada aqui são importantes, o passo mais importante é formar uma hipótese. Uma hipótese descreve o que você está testando para quem e o que você acha que vai acontecer e por quê. É uma ferramenta poderosa que ajuda a esclarecer o seu pensamento e comunica aos outros o que você está tentando aprender. Embora existam muitos formatos lá fora, eu prefiro o seguinte para o público de interesse. Se fizermos a experiência variante em comparação com a experiência de controle, esperamos que algo aconteça com o KPI primário por causa de um motivo. A peça da razão é muito importante, uma vez que se relaciona com a sua pergunta original. Se você achar que sua hipótese não se alinha com o que você está tentando aprender, você deve repensar seu teste. Um exemplo de uma boa hipótese poderia ser para novos usuários. Se pedirmos sua localização durante a integração, em comparação com a não solicitação, esperamos que a retenção de 30 dias aumente, pois poderemos fornecer um conteúdo mais personalizado a eles. E importante notar ao selecionar seu público é tentar evitar preconceitos tanto quanto você puder. Vieses podem distorcer seus dados de uma forma ou de outra, fazendo com que você tome uma decisão ruim. Imagine tentar projetar um novo produto alimentar e você só selecionar indivíduos de teste intolerantes à lactose, seus resultados de teste faria com que você evite a categoria de laticínios completamente. Embora este seja um exemplo muito óbvio, o mesmo pode acontecer para fatores que você poderia inferir c para minimizar vieses, você deve aleatorizar seus sujeitos de teste. Felizmente, a maioria, se não todas, plataformas de experimentação
online podem fazer isso por você. No entanto, fazer isso off-line é mais difícil. Se você tiver que selecionar os sujeitos de teste você mesmo, você deve saber que nem todos os métodos de seleção são feitos igualmente. Alguns têm preconceitos inerentes que você deve evitar. Aqui estão alguns exemplos. Amostragem de bola de neve é quando você permite que indivíduos de teste que você recruta para recrutar outros sujeitos de testes. Uma vez que as pessoas gostam de sair com outros com valores semelhantes, isso pode introduzir atitude indesejada e preconceitos. Amostragem de conveniência é quando você seleciona assuntos porque eles são fáceis de recrutar. Exemplos comuns disso é quando você pede seus amigos ou pessoas próximas a você para fazer parte de seu experimento, é muito melhor perguntar a cada terço, por exemplo, a pessoa que você vê se eles gostariam de fazer parte de seu experimento. A amostragem proposital é quando você seleciona os sujeitos de teste que você sente representar sua população-alvo. Finalmente, o viés de sobrevivente ocorre quando você só olha para os sujeitos de testes que realizaram uma ação anteriormente que você pode não ter considerado. O exemplo clássico disso é quando durante uma guerra, os engenheiros foram encarregados de melhorar a armadura em aviões. Eles olharam para todos os aviões que voltaram da batalha e onde sofreram danos. No entanto, o fato de que os aviões voltaram significava que os danos sofridos eram realmente sobreviventes. E que os engenheiros deveriam ter se concentrado em áreas do avião que não foram danificadas. Porque claramente, aqueles que sofreram danos nessas áreas não retornaram. Pode ser um desafio decidir o que incluir e o que não incluir em um teste. Como você equilibra entre aprendizagem e praticidade? Este é o meu conselho. Escolha a granularidade que corresponde ao nível de aprendizagem que você está procurando. Se você está procurando entender o efeito da cor, teste a cor. Se você estiver procurando entender o efeito de um recurso, teste, o efeito desse recurso, simples ou complexo, seus testes devem ser capazes de resumir suas alterações em uma única frase. Por exemplo, você está procurando entender o efeito de um novo design de formulário em inscrições. Ou você está procurando entender o efeito de um design de botão CTA diferente nas inscrições. Se você não conseguir resumir suas alterações simplesmente, você está comprometendo a aprendizagem. No entanto, digamos que você não é capaz de decidir
o que os testes juntos em primeiro lugar, mas sozinho resumir qualquer coisa. Meu conselho aqui é procurar calor. Há momentos em que você não tem idéia de onde começar e você apenas tem o KPI que deseja melhorar em mente. Digamos que você está tentando descobrir quais são os melhores ingredientes para um bolo para torná-lo mais saboroso. A questão aqui é que você não sabe quais variáveis jogam bem umas com as outras e quais brigam umas com as outras. E você não tem o ano todo para executar um número infinito de experimentos testando cada variável separadamente. Para situações como esta, você pode tentar o que é chamado de experimento fatorial fracionário. É um nome chique. Mas o que isso significa essencialmente é tentar diferentes combinações de variáveis em diferentes valores ou níveis fora do portão e procurar quais combinações se correlacionam com a melhoria do seu KPI de interesse. Nesta etapa, você só está procurando esperança em vez de tentar provar alguma coisa estatisticamente. É uma prática recomendada ter corridas de controle aqui e ali. Ou seja, definir combinações onde você não está mudando variáveis. Dessa forma, você pode ver se há algum desvio e as medidas. Por exemplo, vamos voltar a fazer um bolo. Digamos que seu forno é Wonky e está cozinhando mais quente e mais quente durante todo o dia. Executar uma corrida de controle aqui e ali pode pegar se a temperatura estiver deriva. Depois de encontrar as combinações que funcionam bem juntas, faça essas combinações que você é variantes. Idealmente, você pode olhar para essas combinações e resumi-las simplesmente. Se você não conseguir alavancar o experimento fatorial fracionário. Você também pode analisar os dados históricos, observando o impacto de diferentes fatores em seu KPI por meio da análise de regressão. De qualquer forma, às vezes encontrar combinações com promessa é uma ótima maneira de descobrir o que o teste.
12. Priorizar suas hipóteses: Há muitas maneiras de priorizar hipóteses. Alguns dos populares, como a pontuação de gelo, dão peso a diferentes dimensões, como nível de esforço e confiança, e geram uma única pontuação para comparar experimentos. Seja qual for
o método que você usar, o objetivo final é priorizar hipóteses que terão o maior impacto para o seu negócio. Nos slides a seguir, vou explicar por que a priorização de hipóteses é tão importante e como eu sugiro que os experimentadores priorizem suas hipóteses porque o tempo é limitado, você quer dar-lhe uma equipe de produtos que a maior chance para o sucesso. E você pode fazer isso carregando suas experiências que reduziram a maior incerteza. Ele os comandou mais tarde no processo, você arrisca não dar tempo suficiente para sua equipe. Coloque de outra maneira. Você pode traçar suas hipóteses ao longo de dois eixos. Alto impacto versus risco, onde alto impacto é algo que é de alta importância para o seu negócio e onde o risco é quanto custaria se as coisas correrem mal. Como você pode ver, riscos baratos de alto impacto devem ser priorizados primeiro, estas são hipóteses críticas que são importantes para o seu negócio explorar e representar uma grande perda se as coisas não correrem do jeito certo, você geralmente sabe o mínimo sobre esta área. Em seguida, seria alto impacto e risco barato. Isso geralmente é para hipóteses que se concentram em maximizar seu investimento, IE, maximizando o desempenho em vez de evitar que algo realmente errado, você geralmente sabe um pouco sobre essa área. Em seguida, é baixo impacto e risco barato. Estas são normalmente hipóteses que você tem quando você está começando em experimentação, onde é do seu interesse executar experimentos seguros apenas para se acostumar com o processo. E, finalmente, temos riscos caros com um impacto muito baixo para o seu negócio. Estas são hipóteses que devem ser repensadas e repriorizadas.
13. Experimentação: Agora que você selecionou sua hipótese, é hora de experimentar. Você começa projetando suas experiências variantes. Aqui estão algumas coisas a considerar. Primeiro, faça o seu melhor para criar experiências que você estaria bem promovendo. Caso contrário. Qual é o ponto? Número dois, o objetivo é aprender barato e rápido. Então, ao projetar suas experiências, sempre pense em MVP. Pense em quão pequena você pode tornar sua experiência e ainda responder a todas as suas perguntas? Três, faça o seu melhor para representar as condições da vida real. Em outras palavras, tente fazer as coisas o mais próximo possível da realidade. Por exemplo, se você quiser alterar um logotipo, você não o alteraria apenas em um único local. Realisticamente, você muda em todos os lugares. Agora, isso é um exemplo extremo, mas você provavelmente vai ter o meu 0.4. Finalmente, a variação deve ser rastreável, que
significa que você deve ser capaz de descobrir nos dados, quais experiências os usuários viram e quais ações eles tomaram. Se você não conseguir dividir a análise ou os dados, então será impossível analisar seus resultados mais tarde. Você pode encontrar inspiração de todos os tipos de fontes, como experiências passadas, entrevistas com
usuários, pesquisa de mercado e concorrentes. Uma nota rápida, enquanto você é concorrentes são uma grande fonte de idéias para experimentos, nunca suponha que só porque eles estão fazendo algo isso significa que ele está funcionando para eles. Para todos, você sabe, eles estão fazendo experimentos eles mesmos. Outro conselho é ao gerar ideias obter entrada de todas as partes interessadas. Isso ajudará com buy-in para experimentos contenciosos no futuro. Além disso, evite brainstorming. Incentive os contribuintes a analisar os dados e propor as suas melhores ideias. Nada mata um processo criativo do que ter uma voz muito dominante em uma sessão de brainstorming. A seguir estão alguns dos tipos de teste mais comuns. Os testes de redirecionamento são aqueles que dividem o tráfego entre duas páginas separadas. O usuário geralmente não notará que eles foram redirecionados. Estes são um dos tipos mais simples de testes. As plataformas de experimentação normalmente suportam essas plataformas nativamente. Testes de sinalizador de feição ocultam ou mostram a funcionalidade com base em um conjunto de variáveis, seja do lado do cliente ou do servidor. Estes geralmente requerem suporte para desenvolvedores. Os testes do Editor Visual são aqueles que são criados usando alguma forma de um editor wysiwyg. Esses testes funcionam interceptando o carregamento de uma página, manipulando o DOM e, em seguida, mostrando o conteúdo da página. Estes podem diminuir a velocidade da página e causar problemas de instabilidade no caso de alterações complexas. Testes multivariados, como já abordamos antes, testam diferentes combinações de fatores combinando-os aleatoriamente. Estes geralmente exigem muita configuração, uma frente e muito tempo para executar. Você geralmente é melhor servido com testes AB mais simples, que são mais focados. Finalmente, experimentos de implantação são aqueles que mantêm uma porcentagem de usuários de uma experiência. Assim, você pode medir o impacto de um recurso em relação a uma linha de base. Às vezes, os resultados do experimento podem levar à pausa de implantação, mas eles são uma ótima maneira de garantir que você esteja realizando um trabalho impactante. Em seguida, é definir seus critérios de avaliação geral são OBC, é
aqui que você define quais métricas você usará para avaliar um experimento. Essas métricas geralmente representam cada uma de suas principais necessidades de partes interessadas
e, além de um indicador líder de saúde dos negócios. Vamos rever como você deve definir idealmente o seu OSC. Primeiro, escolha o seu KPI principal. Esta é a métrica que seu experimento está tentando impactar também. Defina suas métricas de leads para a integridade dos negócios. Normalmente, essas são métricas que ajudam você a entender se seu experimento foi bom ou ruim para os negócios. Normalmente, você deseja usar uma métrica preditiva em vez de uma atrasada, como vendas. Três, as métricas de diagnóstico ajudam você a determinar por que um resultado de teste ocorreu como aconteceu para melhor, para pior. E, finalmente, quatro, guarda métricas reais são aquelas que você não deve impactar negativamente. Se essas métricas cruzarem determinados limites, o experimento deve ser interrompido imediatamente. Um exemplo disso no comércio eletrônico é dizer, se as vendas caíssem abaixo de 10%, então você gostaria de terminar o teste imediatamente. Essas métricas idealmente devem ser acordadas por todas as partes interessadas, juntamente com as próximas etapas com base em diferentes cenários. Agora é hora de definir seus parâmetros de teste. Estes são os limiares e os critérios de decisão para o seu teste. Aqueles que determinarão se seu experimento gerou e-learning ou não. As definições desses parâmetros dependem da abordagem estatística que você toma. Por exemplo, você pode tomar frequentista ou bayesiano ou sequencial, etc. Em uma seção posterior, vamos nos concentrar principalmente
na abordagem mais freqüente como ela pertence a métricas binárias. As métricas binárias são aquelas que podem ser verdadeiras ou falsas. Em seguida, você tem que desenvolver um instrumento, seu experimento. É aqui que seu experimento ganha vida à medida que você constrói suas experiências de testes, garante que você Qe a filial também e que a análise está sendo coletada corretamente. Não há nada pior do que esperar duas semanas só para descobrir que seus dados estão incompletos ou sujos. Agora que você fez tudo isso, é hora de lançar. Lembre-se, antes de lançar, dê um aviso a todas as partes interessadas.
14. Analisar, documentar e compartilhar e rollout: Agora que seu experimento foi concluído, é hora de analisar seus resultados, então você deve documentar seu experimento e compartilhar suas aprendizagens. Depois disso, você desenrola sua variante vencedora. Se fizer sentido, lembre-se de que você nem sempre tem que lançar uma experiência. Cobrirá análise e documentação em seções posteriores com mais detalhes.
15. Guia de experimentação: Nesta seção, abordaremos como desenvolver um roteiro de experimentação. Assim como um roteiro típico de produtos, há valor no desenvolvimento de um roteiro de experimentação. Em suma. E o roteiro de experimentação é aquele que detalha os experimentos que serão executados nos próximos meses, geralmente mais de um quarto. Há alguns benefícios óbvios em fazer isso. Em primeiro lugar, você é capaz de maximizar e coordenar recursos porque as coisas estão planejadas ou, pelo menos, programadas com antecedência, você é capaz de liberar os recursos certos no momento certo, reduzindo
assim a reserva dupla ou o tempo de inatividade. Em segundo lugar, eles ajudam a evitar colisões de teste. Sabendo o que você vai correr. Ele pode ajudá-lo a evitar a execução de um teste que irá colidir com outro experimento PMs que pode afetar seus resultados. Em terceiro lugar, asseguram também a cobertura. Uma armadilha comum em que os experimentadores caem é colocar muito foco em uma área. Ter um roteiro ajuda você a garantir que todas as áreas importantes sejam atendidas. Em quarto lugar, o benefício mais importante é a visibilidade dos negócios. Todos em uma empresa querem saber qual produto irá construir a seguir. Ter um roteiro de experimentação ajuda a transparência e responder a perguntas para as partes interessadas e uma nota importante enquanto você planeja seu roteiro, no entanto, é deixar folga para iterações e implementações. Como não podemos prever o futuro, você nunca sabe se você quer ou precisa executar iterações em testes ou papel em vencedores. Não ter folga em seu roteiro geralmente implica que você não se importa em aprender sobre os resultados. Então lembre-se de explicar isso.
16. Guia de experimentação - Continuado: Aqui estão dez passos sobre como construir um roteiro de experimentação. Primeiro, especialmente se você é novo na experimentação, comece com experimentos que são de baixo esforço e baixo impacto. Ao fazer isso, você será capaz de aprender as cordas e francamente, cometer erros em um ambiente mais seguro. Fazer alguns pequenos testes e espero que algumas vitórias antecipadas aumentem sua confiança e refinem seu fluxo de trabalho. Para se você tiver o luxo do tempo, eu sei, eu sei. Mas no caso de você fazer, vamos considerar começar a experimentar mais alto no funil. A razão de estar aqui é que os experimentos frontais mais baixos levam mais tempo. Assim, melhorando a conversão nos estágios mais altos de um funil, teoria aumentará o tráfego mais baixo do funil por sua vez, ajudando esses testes a serem executados mais rapidamente. Três, experimentos frontload que abordam questões com o maior risco. Primeiro, aqueles que se beneficiarão de ter mais tempo para abordar. Perguntas importantes difíceis levam tempo para descobrir, fazer experimentos o mais barato possível, sempre pensando em MVP. Em alguns casos, você pode ser capaz de responder
a mesma pergunta através de um teste menor em outro lugar. Cinco, encurtar os tempos de experimento sempre que possível. Isso ajudará você a aprender mais rápido. E aprender mais rápido leva ao sucesso mais rápido. Isso é mais fácil de dizer e um pouco mais complicado de fazer. Vamos mergulhar nisso por um momento. Aqui estão três maneiras comuns de encurtar o tempo de experimento em ordem de minha preferência. Em primeiro lugar, abaixe seus padrões. Sempre fico com olhares quando digo isto, mas é verdade. Bem, vamos entrar em estatísticas líder neste curso. Diminuir seus padrões estatísticos, como poder estatístico
necessário e o nível de confiança, são maneiras
muito válidas de encurtar seus testes apenas
desde que você esteja realmente bem com a redução de seus padrões. Por exemplo, às vezes uma mudança não é muito crítica para o negócio. Então você ficaria bem com digamos, 90% de confiança em vez de noventa e cinco por cento. Em segundo lugar, teste mudanças extremas. Mudanças maiores produziram resultados maiores que são mais fáceis de detectar. O exemplo que eu gosto de compartilhar para ilustrar isso é detectar se há um carro na sua garagem. Quantas observações você precisa? Um, se você for mau, talvez dois. Mas se quisesse detectar se havia uma formiga na sua garagem, precisaria de mais observações que levariam mais tempo. Por último, micro conversões. Às vezes, a área que você está testando simplesmente não recebe muito tráfego movendo o funil ao longo do caminho da conversão, claro, para a próxima oportunidade de experimentar às vezes é um bom lugar para começar. O geralmente obtém mais tráfego e taxas de conversão mais altas, o que normalmente resulta em testes mais rápidos. Agora lembre-se que você melhorar as taxas de conversão acima do funil pode não resultar em ganhos proporcionais mais baixo do funil, mas você faz o que você tem que fazer para começar. Esperemos que este gráfico ilustre esta noção. No eixo y está sua taxa de conversão de linha de base,
ou, em outras palavras, a taxa de conversão base que você está tentando melhorar. Os valores não são importantes aqui, mas a direção da magnitude que estamos subindo significa que a taxa de conversão é maior. No eixo X está o tamanho da alteração. Mudanças mais extremas estão à direita. Como você pode ver, os testes mais curtos são para grandes taxas de conversão e grandes mudanças, enquanto os testes mais longos são para pequenas taxas de conversão e pequenas mudanças. Se eu tivesse que escolher, eu sempre sugiro ir para grandes mudanças primeiro antes de encontrar taxas de conversão maiores. Como o tamanho da mudança tem um impacto maior do que a taxa de conversão atual. Agora vamos voltar ao roteiro de experimentação. Seis. Não deve ser surpresa para os gerentes de produtos, mas ter um atraso de experimentos que apoiam a tomada de decisões é importante. O truque é cronometrá-los para que respondam às perguntas certas no momento certo. Sete, nem sempre pense iterativamente. Você tem que ter uma mistura de tiros lunares e testes iterativos, testar ideias ruins, às vezes, pelo menos más, você estaria bem promovendo, comeu, mina suas experiências para que você possa executar uma após a outra. Nove, as interações do monitor irão para isso mais tarde no curso. Mas a ideia aqui é monitorar como os experimentos interagem uns com os outros. Às vezes, ou melhor, muitas vezes. Você executará experimentos em paralelo. Há um debate sobre se está tudo bem ou não. Mais uma vez, mais sobre isso depois. E, finalmente, dez iterar. Nem sempre os teste. Passem para o próximo teste. Às vezes, você precisa aprofundar mais, o
que enfatiza a necessidade de adicionar folga ao seu roteiro para contabilizar iterações.
17. A equipe de produtos liderados em experiências: Uma coisa é saber o que testar e como estruturar um teste. Outra coisa é executar neles para fazer experimentação, certo? É preciso uma aldeia e você precisa da equipe certa. Mas qual é a equipe certa? Portanto, a equipe que você tem e nós precisaremos
apoiar a experimentação depende do tipo de produto que estamos construindo ou trabalhando, pois isso afeta a complexidade da criação de um experimento. No entanto, em geral, você precisará dos seguintes conjuntos de habilidades em sua equipe. Em primeiro lugar, você precisará de um cientista de dados ou de um analista, qualquer um com um leme em torno de estatísticas. Isto é crítico. Você precisará de alguém que possa interpretar os dados e garantir que eles sejam
coletados e analisados da maneira correta para que seus resultados sejam válidos. Não há nada mais perigoso do que construir em insights inválidos. Dependendo do seu produto, você provavelmente precisará de um usuário pesquisador. experimento deve se alinhar à resolução de problemas do usuário. A pesquisa de usuários é uma ótima maneira de descobrir esses problemas e é uma rica fonte de idéias para experimentação também. Um designer de UX, isolar para sua variável independente pode ser complicado de fazer uma forma que faça sentido em uma jornada do cliente. Um designer de UX irá ajudá-lo a criar algo que fará sentido enquanto ainda coleta seus dados. Engenharia. Isto é óbvio. Alguém tem que construir tudo. Analítica. Você precisará de um recurso para realmente coletar um instrumento os dados corretamente. Qe por último, mas definitivamente não menos importante, eu não posso enfatizar isso o suficiente. Você precisa de um recurso de QA porque os testes são tipicamente, digamos, qualidade de MVP, você precisa absolutamente de QA para executar testes de regressão, verificar se nada está quebrado e as experiências estão realmente fornecendo como esperado. Traga esses recursos no início do planejamento. Então você não perde prazos.
18. Como melhorar uma cultura de experimentação: Agora que cobrimos a equipe, temos que tocar na cultura. Sem a mentalidade adequada, você não será capaz de extrair o valor total da experimentação. E vai parecer um trabalho em vez de uma excitante fonte de provas para tomar decisões. A seguir estão dez dicas sobre como nutrir e experimentar a cultura. Primeiro, você precisa de volume e apoio público. Nada encoraja as pessoas a experimentar do que ter liderança por trás disso. Além disso, a suíte C deve ser incentivada a exigir dados experimentais ao tomar decisões. Claro, isso pode ser muito difícil de fazer. Então, você pode ter que adotar uma abordagem de baixo para cima, onde você pode convencer mais baixo da cadeia a suportar e vendê-lo para cima. Mas se você quer que a experimentação tenha pernas, você ou alguém terá que dedicar tempo para vender liderança. Para ouvir suas partes interessadas e entender suas necessidades e enquadrar a experimentação de maneiras que atendam a essas necessidades. A menos que algo ajude as pessoas a atingir seus objetivos, provavelmente
seria abandonado. Três, compartilhe exemplos e práticas recomendadas. Isso é simples, mas não é feito tanto quanto você pensa. As pessoas aprendem com exemplos. Mostrar potenciais experimentadores como executar experimentos adequados irá ao longo do caminho. Além disso, mostrar sucessos e aprendizagens pode inspirar outros a experimentar também. Para metas de volume definidas, IE, o número de experimentos são lançados ao longo de um período de tempo para colocar a bola rolando rapidamente para as metas de resultados de negócios. Uma vez que as coisas estão indo. Cinco, contratar as pessoas certas. Busque sempre talentos que acreditem no valor da experimentação. Eles não só apoiarão a experimentação, mas o mais
importante, provavelmente acreditarão na tomada de decisões baseadas em dados e evidências, que é algo pelo qual todos devemos nos esforçar. Seis, criar fluxos de trabalho que não só podem dimensionar I0 podem ser automatizados de alguma forma, mas também se encaixam em fluxos de trabalho existentes, pelo
menos nos primeiros dias, você tem que reduzir esses obstáculos. Sete, evite falar em ganhar. Esta é a abordagem errada porque o objetivo da experimentação é aprender. Então, idealmente, cada experimento gera um aprendizado. Então comemore e compartilhe quando aprender algo. Oito, como tal, em tarefas previamente automatizadas, tanto quanto possível. À medida que sua velocidade de experimentação aumenta, você ficará feliz por ter feito isso. Nove, ajude as equipes a definir o sucesso, aprimorar as hipóteses adequadas e os critérios de decisão. No início, qualquer pessoa faz testes sem objetivos reais, o que pode levar à frustração. Dez, finalmente, comunicam aprendendo descontroladamente. Quando a experimentação é vista como uma fonte de informações
importantes, o buy-in segue rapidamente.
19. Comunicação: Isso nos leva à comunicação. O que você deve compartilhar com sua equipe ou organização? Embora isso realmente dependa da organização, eu aconselharia que você compartilhe o seguinte, compartilhe o problema que você está tentando resolver e sua hipótese para dar contexto aos outros. Compartilhe seus resultados de forma factual e imparcial. Evite a interpretação, pelo menos nesta fase, o nível de ações estátuas é dependente da alfabetização estatística do seu público. Depois de ter feito isso, compartilhe sua interpretação de seus resultados e o que isso pode significar para o negócio ou produto. Em seguida, enfatize o aprendizado sobre os valores exatos. Os valores podem variar ligeiramente se você executar novamente um experimento. Por fim, compartilhe suas informações de contato e links para sua documentação para que outras pessoas possam saber mais. Como você deve comunicar essas informações? Um ex-CEO meu disse que para conseguir o seu ponto de vista, você tem que se repetir pelo menos nove vezes. Então, em suma, compartilhe suas aprendizagens de todas as maneiras que puder. No início, você aprenderá rapidamente quais canais são os mais eficazes. Aqui estão as minhas sugestões. Compartilhe-os via e-mail, boletins informativos, almoço e aprendizes ,
infográficos, revisões de negócios, folga, retrofits de produtos, dashboards. E se você estiver se sentindo aventureiro, experimente o vídeo.
20. Documentação: Isso nos leva ao tópico favorito de todos, a documentação. Ninguém gosta de documentação, eu não acho, mas eu já me enganei antes. Mas para aqueles que não acreditam em documentação, eu queria compartilhar os benefícios da documentação sólida para experimentação. A razão mais óbvia é evitar a reexecução de experimentos. E temos muitos experimentadores ou má comunicação. Não é incomum que os testes sejam reexecutados depois de alguns meses ou anos por acidente. Obviamente, outro benefício é que outros podem aprender com o seu trabalho. A documentação pode ajudar a facilitar a comunicação. Um benefício menos óbvio é que ele permite a meta-análise, onde você pode olhar para um grupo de experimentos e reunir insights maiores. A documentação é boa para referência ao tomar decisões. documentação ajuda a melhorar a qualidade dos experimentos, pois você pode aprender com outros desafios. De uma perspectiva política. documentação demonstra o valor do seu trabalho. Às vezes você não pode entregar um resultado, mas ter documentação sobre sua experimentação mostra que você tem aprendido, o que por si só é progresso. Finalmente, a documentação organiza seus pensamentos. Se você documentar enquanto desenvolve um experimento, como você mostrou, isso ajuda a refinar seu pensamento e ajuda a detectar lacunas. Então, finalmente, o que você deve documentar? Esta é uma lista de lavanderia, mas eu sugiro documentar o seguinte título. Dê um nome que você possa encontrar mais tarde. Proprietário que entrar em contato sobre o experimento. Datas do voo. Quando o experimento foi ao vivo? Às vezes, seu experimento impactou algo fora do seu mundo que talvez você precise rastrear. Área testada. Onde você fez o teste? O que você testou? Isso é útil ao reunir aprendizagens maiores. Problema de negócios. Qual era a pergunta que você está tentando responder? Sua hipótese, seus critérios gerais de avaliação, seus critérios de decisão, a descrição da variância, informações sobre a configuração e qualquer aprovação, se necessário. Resultados do teste, incluindo estatísticas aqui para que outros avaliem. Aprendizagens e insights. O que os dados significam para você e para a empresa? E, finalmente, os próximos passos, o que você fez ou fará por causa desses resultados.
21. Introdução ao poder e níveis de confiança desejados: Esta é uma introdução sobre como analisar os resultados. Este é um tópico intermediário a avançado, dependendo do seu conforto com matemática e familiaridade com conceitos estatísticos. Embora você não precise se tornar um especialista em estatísticas, isso ajuda a ter uma noção dos termos para que você possa fazer as perguntas certas ao olhar para os resultados. Existem várias escolas de pensamento quando se trata de estatísticas. Vamos começar com o que é chamado de estatísticas freqüentistas. Este é geralmente o tipo de estatísticas que você aprendeu na escola. Mas antes de começarmos alguns avisos, não
sou professor de estatística. Vou explicar livremente os conceitos estatísticos. Embora a maioria das plataformas de experimentação de terceiros relatem resultados estatísticos, você deve sempre procurar suporte a estatísticas para validar resultados. Finalmente, se você não está interessado em estatísticas, você ou pelo menos incentivado a percorrer o material. O objetivo da experimentação, pelo
menos no que diz respeito à gestão de produtos, é entender se a variável independente tem um impacto significativo em uma variável dependente. Para determinar isso, três critérios devem ser satisfeitos. Primeiro, você coletou observações suficientes para detectar a mudança que você gosta para compará-la com o controle. A probabilidade da ocorrência da variante é muito improvável. E três, não há chance de que o controle e as variantes observadas resultados sejam equivalentes. Em termos estatísticos, isso se traduz em um. Cada variante atingiu o tamanho amostral necessário para o seu nível de confiança é superior a 95% classicamente. E três, seu intervalo de confiança da diferença de médias não atravessa 0. Mas antes de mergulharmos mais fundo, há mais alguns conceitos que precisamos cobrir. Temos que falar de erros experimentais, quais as estatísticas freqüentistas controlam famosamente. Existem dois tipos de erros, tipo um e tipo dois. Erros de tipo um também são chamados de falso positivo. Enquanto digite dois ou falsos negativos. Adoro esta ilustração. Eu sinto que isso captura os conceitos muito bem. O que as estatísticas freqüentistas fazem é relatar os valores observados garantindo que as taxas de erro do tipo um e do tipo dois nunca excedam os limites. O próximo conceito importante de estatística freqüentista é que um valor observado experimentos irá convergir para um valor verdadeiro. O que isso significa é que, se você permitir que um experimento seja executado por tempo suficiente, TI colete amostras suficientes, os resultados medidos de todas as amostras convergem para um único valor. No início de um experimento, o valor geral observado de uma variante estará em todo o lugar. Como você pode ver à esquerda. Você terá que esperar até que as coisas se acalmem ou converjam. Em outras palavras, você tem que esperar até ter coletado amostras suficientes antes de analisar os resultados. Este é o conceito de tamanho amostral mínimo. É a quantidade de amostras que você deve coletar até que você possa confiar em sua observação e ainda confiar que erros do tipo um e do tipo dois estão dentro dos limites. avaliação dos resultados antes de atingir seu tamanho amostral mínimo é chamada de pico e leva a resultados inválidos. Um grande não-não. Como mencionado, o tamanho amostral mínimo é o número mínimo de amostras que cada variante deve atingir para que você possa gerar resultados válidos. Não há problema em coletar mais, mas nunca é certo coletar menos, nem mesmo por uma única amostra. Como é calculado? No entanto, o tamanho amostral mínimo é uma função do seu ID de limiares de taxa de erro falso positivo e falso negativo. Quantos falsos positivos e falsos negativos você está bem com? E a menor mudança que você está interessado? O MDE. Os limiares falso-negativos são frequentemente representados pelo que é chamado de poder. Enquanto os falsos positivos são representados pelo que é chamado de nível de confiança desejado, vamos entrar em como definir o poder o nível de confiança desejado, bem
como MDE. Na próxima seção.
22. Poder e valor P: Nesta seção, analisaremos mais de perto o poder e o nível de confiança desejado. Como mencionado anteriormente, o poder representa o nosso nível de falsos negativos. Tecnicamente falando, algo chamado beta é a porcentagem real de falsos positivos que aceitaremos. Classicamente, a versão beta está definida para 20%. Em outras palavras, estamos bem em termos de falsos positivos. 20% do tempo que executamos este experimento, sendo o
poder um beta menos seria 80%. Realmente, não há razão para que o poder deva ser de 80%. É apenas um valor que alguém escolheu e todos decidiram que estava bem. Então, se você está executando um experimento e você realmente não quer nenhum falso negativo ou muito poucos, sinta-se livre para baixar beta ou melhor, aumentar o poder. Basta saber quanto maior o poder, maior
o tamanho amostral que você precisa. Da mesma forma, algo chamado alfa é são limites aceitáveis para falsos positivos. Classicamente, isso é definido para 5%. Novamente, não há razão para que todos escolham 5%. Então, se ele precisava ter certeza de que você tem menos de 5% de falsos positivos, você pode selecionar um alfa menor. Só para manter as coisas interessantes. O nível de confiança desejado é um alfa menos ou 95%. Observe que, à medida que você aumenta o nível de confiança desejado, tamanho amostral obrigatório também aumenta. O efeito mínimo detectável pode ser o segundo conceito mais difícil que as pessoas têm com as estatísticas freqüentistas. Em poucas palavras, é a menor mudança. É a menor alteração para o seu KPI de interesses, também conhecido como sua variável dependente. Note que eu disse para se preocupar. O que eu quero dizer com isso é que esta é a menor mudança que você realmente vai fazer algo sobre. Digamos que você esteja executando um site de comércio eletrônico e queira testar um novo layout para sua página de produto, normalmente
você não se importará com uma mudança de um centavo na receita por cliente. Mudei tão pequeno que nem valeria a pena o tempo de desenvolvimento. Portanto, você deve definir seu MDE de forma apropriada, semelhante a como o poder e o nível de confiança desejado afetam o tamanho amostral necessário. Quanto menor for o MDE, mais amostras você precisa. A maneira mais fácil de lembrar isso é dizer que você está tentando detectar um carro em sua garagem. Seria uma grande mudança para pegar. Não precisaria de muitas observações ou amostras que seguissem uma mudança como essa. Mas se você está tentando detectar se havia uma formiga em sua garagem, isso exigiria muito mais observações. Então, no início desta seção, mencionei que você precisa de três coisas para determinar se sua variável independente teve um impacto significativo em sua variável dependente. Você precisa de observações suficientes para detectar uma alteração. Isto mencionando cada variante sua amostra. O segundo critério era que sabendo o que sabemos sobre o controle, a probabilidade de suas variantes observadas valor tinha que ser muito improvável. A probabilidade de suas variantes observado valor ocorrendo dado o que sabemos sobre o controle é conhecido como o valor-p. Apenas para tornar as coisas mais complicadas, um valor menos p é conhecido como nível de confiança. Assim, em estatísticas freqüentistas e resultado improvável é quando a probabilidade de suas variantes observado valor, também conhecido como o valor-p, é menor do que o seu alfa, que novamente é classicamente definido para 5%. Ou coloque de outra forma, quando o nível de confiança da sua variante for maior do que o nível de confiança desejado. No final do dia. Se vir que o seu nível de confiança é superior a 95%. Na maioria dos dias, isso é bom o suficiente.
23. Significado prático: Agora que verificamos que atingimos a amostra e que nosso resultado era improvável, eu ou o nível de confiança era maior do que o nível de confiança desejado, classicamente definido em noventa e cinco por cento. A última coisa que temos que verificar é se os valores observados de nosso controle e variante têm alguma chance de ser equivalentes. Este é, de longe, o conceito mais difícil de compreender e estatísticas freqüentistas para testes de divisão AB. Portanto, você pode querer assistir novamente esta seção algumas vezes. Se fôssemos executar nosso experimento muitas, muitas vezes, pensar no infinito, o valor observado do nosso KPI para um determinado cenário órbita em torno de um valor verdadeiro. Um valor que não sabemos porque não
poderíamos executar nosso experimento uma e outra vez. Você pode ver isso ilustrado à esquerda, onde a freqüência
do valor observado é mais alta em torno do valor verdadeiro. Em outras palavras, os valores observados de nosso experimento para nossa variante provavelmente é diferente do que o verdadeiro valor para nossa variante é. Levando este conceito mais longe, se encontrássemos a diferença dos valores observados de nosso controle e nossa variante que também orbitaria um único valor, o único valor verdadeiro da diferença. Em seguida, veja a linha vermelha à esquerda é o nosso valor observado. Nós já sabemos que este não é provavelmente o único valor verdadeiro. Mas o que podemos fazer é estimar mais ou menos um valor. Arranjo provavelmente capturar o valor verdadeiro na maior parte do tempo, este intervalo é chamado de intervalo de confiança. Se esse intervalo capturar o único valor verdadeiro para nossa variante noventa e cinco por cento do tempo, então isso seria chamado de intervalo de confiança de 95%. Assim, como mencionado anteriormente, podemos traçar a frequência de cada uma
das diferenças entre as variantes e o controle. E veríamos que o enredo seria centrado em torno das diferenças. Um valor extraído. Este enredo seria chamado de diferença de meios. Semelhante ao intervalo de confiança de 95%. A diferença de médias dois pode ter um intervalo de confiança de 95%. Sem surpresa, isso é chamado de intervalo de confiança de 95% da diferença de médias. Este intervalo captura a verdadeira diferença entre as médias 95% do tempo. Mas por que isso é importante? Se os valores do controle e da variante fossem idênticos, então a diferença entre eles seria 0. Ou seja, a diferença entre as médias seria 0. Uma vez que não sabemos o verdadeiro valor da diferença para o nosso experimento. E uma vez que o intervalo de confiança de 95% da diferença de médias representa um intervalo que contém o único valor verdadeiro da diferença 95% do tempo. Se esse intervalo de confiança contiver 0, então há uma chance de que o controle e a variante sejam idênticos. Em outras palavras, se descobrirmos que o intervalo de confiança da diferença de médias contém 0, então não podemos dizer que a variante e o controle são diferentes. Coloque de outra maneira. Se nosso intervalo de confiança da diferença de médias não continha 0
, poderíamos dizer que o controle e a variante não eram os mesmos. Agora vamos juntar tudo isso. Quando você atinge a amostra e seu nível de confiança é maior do que o nível de confiança desejado, isso significa que você tem o que é chamado de significância estatística. Mas isso não é suficiente. Se você ver que seu intervalo de confiança da diferença de médias não contém 0, então suas variantes são diferentes com significância estatística, IE, você tem algo que é praticamente significativo. É só quando você tem significado prático. Você pode dizer que sua variável independente tem um impacto em sua variável dependente? Note que estes conceitos não são fáceis de entender em uma sessão. Pode levar alguns pontos de vista sobre isso e leitura extra para realmente compreendê-lo. Mas espero que você se sinta um pouco mais confortável com os termos que você é capaz de fazer as perguntas certas.
24. Correção bonferroni: Como você pode imaginar, um dos maiores problemas das estatísticas freqüentistas é o tamanho mínimo da amostra. A maioria dos gerentes de produtos não tem muito tempo para tomar decisões. A estatística sequencial é uma variação do frequentista clássico em que os valores alfa são dinâmicos com base em dados iniciais. A teoria é que se observarmos uma diferença muito grande no início do experimento, há uma boa chance de que haja uma verdadeira diferença. Então, o que essa abordagem faz é permitir que você pare experimentos mais cedo em casos em que a diferença é muito evidente. Geralmente, as estatísticas sequenciais exigem calculadoras
dedicadas e descobrir significância. Para fechar o frequentista. Há um problema chamado múltiplas comparações que os analistas têm que explicar. Em suma, se você tiver mais de duas variantes ou se quiser analisar mais de um KPI, que é muito comum quando você está tentando entender um espaço problemático. Você tem que explicar o aumento da taxa de falsos positivos. Em suma, quanto mais frequentemente você compara variantes ou analisa métricas, maior
a chance de você ter um falso positivo. Para corrigir isso, você usaria uma correção como o Bonferroni feito, ou mais comumente chamado de correção Bonferroni. Você simplesmente divide seu alfa, mas o número de comparações que você fará. Vamos fazer um exemplo rápido. Você está executando um teste ABC onde um é o controle. Você gostaria de uma taxa efetiva de falsos positivos de 5%,
ou, em outras palavras, um nível de confiança desejado de 95%. Você estará comparando o desempenho de B contra A e C contra A. Estas são duas comparações. Assim, você deve dividir sua taxa de falsos positivos desejada por dois, resultando em um nível de confiança desejado de 97,5. Da mesma forma, se você estiver executando um teste de HIV, mas pretende analisar três métricas, incluindo seu KPI principal, você deve dividir sua taxa de falsos positivos desejados por três.
25. Introdução à Bayesian: Agora vamos falar sobre estatísticas bayesianas. As estatísticas bayesianas são uma abordagem muito popular, uma que eu gosto pessoalmente. Vamos comparar Bayesiano com frequentista. Em primeiro lugar, em bayesiano não há um valor verdadeiro do KPI de interesse, mas sim uma gama de valores esperados com base em dados
históricos chamados de anterior e dados coletados do experimento. Uma previsão desses intervalos é feita, que é chamada de posterior. Não há tamanho amostral mínimo necessário para Bayesiano porque ele não controla qualquer erro. Mas o que ele faz, no entanto, é controlar para
o risco, IE, a perda potencial se você fosse promover uma variante perdedora, porque ele não controla para erros, você não precisa se preocupar com múltiplos problemas de comparação. Semelhante ao frequentista, Pequim tem um conceito chamado intervalo credível, que pode capturar 95% do intervalo de valores esperados. Bayesiano beneficia de ser mais fácil de entender do que frequentista ou sequencial. Mesmo a única queda é que Bayesiano requer simulações para calcular valores,
portanto, muitas vezes exigindo que os cálculos sejam feitos em um servidor. tomada de decisões em Pequim é mais simples do que o frequentista. Embora existam regras de decisão rigorosas disponíveis, decisões em Bayesiano são tão simples quanto decidir se a probabilidade de uma variante ganhar é maior do que aquilo que você acha aceitável. Ou decidir se o risco de promover uma variante é menor do que o que você sente aceitável ou se o elevador esperado com
a variante é maior do que o que você acha que é aceitável? Pode-se dizer que a invasão da tomada de decisão é como jogar. Onde você aposta apenas se você estiver bem com as probabilidades.
26. Interações: Para fechar a análise de resultados irá abranger três tópicos que se aplicam, independentemente da abordagem estatística que você tomar. Vamos começar com a incompatibilidade da proporção da amostra. Como muitas coisas na vida. Às vezes as coisas não saem como planejado. O mesmo se aplica aos experimentos. Às vezes, enquanto queríamos entregar 50%
do tráfego para o controle e os outros 50% da variante,
o tráfego é entregue de forma diferente. Há muitas razões para isso acontecer, incluindo interrupções de serviço, código incorreto, talvez um erro de plataforma de experimentação, etc. Para determinar se isso aconteceu ou está acontecendo. Realizamos uma tecnologia de incompatibilidade de proporção de amostra que calcula a probabilidade de observar uma divisão e tráfego em comparação com o que queríamos que fosse. Se essa probabilidade for inferior a 1%, dizemos que houve um problema na entrega e devemos investigar. Aqui vai uma dica. É uma boa prática realizar uma verificação de incompatibilidade de proporção de amostra logo após o lançamento de um experimento para detectar quaisquer problemas de entrega antecipadamente, bem
como quando o experimento tiver sido concluído. Se a verificação do SRM falhar, você terá resultados inválidos. Em seguida, experimente interações. interações ocorrem quando experimentos que estão vivos ao mesmo tempo e são expostos a comentários, público impactou variáveis dependentes uns dos outros suprimindo ou ampliando os resultados, tornando a análise desafiadora. Existem muitas escolas de pensamento e como lidar com isso, vão desde a execução de experimentos em sequência, experimentos de silos. Então eles são explosivos, audiências mutuamente exclusivas e simplesmente deixá-los correr um sobre o outro. A abordagem mais prática em lidar com interações experimentais é que quando se acredita que a experiência tem uma alta probabilidade de interagir, você deve comparar
o desempenho do público sobreposto com os de os experimentos que se cruzam. Se a alteração percentual for aproximadamente a mesma, não há problema. Caso contrário, há uma interação indicando que os testes devem ser reexecutados separadamente ou considerando um fator adicional.
27. Outros recursos: Para aqueles que estão interessados em aprender mais sobre experimentação, aqui está uma lista de recursos que eu gosto de usar. E com isso, gostaria de agradecer por fazer este curso. Se você tiver alguma dúvida, sinta-se à vontade para entrar em contato comigo no Rommel AT experimento Nation.com.