Transcripciones
1. Promocional: Bienvenido al curso de experimentación y pruebas AB para gerentes de producto, donde aprenderás los fundamentos de la experimentación que todo gerente de proyecto debe conocer. Mi nombre es Raúl molino y tengo 15 años de experiencia en experimentación. He desempeñado roles de liderazgo de ritual digital log-log, 500 Px, la puntuación con Autodesk y Bell Canada. Tengo una licenciatura en ingeniería por el GIL y un MBA. He establecido tres programas de experimentación temporal de alto nivel, además de ahorrar 30% en costos de adquisición de clientes. He liderado un crecimiento que ha resultado en las startups de acto. Y he ayudado a lanzar y expandir la división de comercio electrónico globalmente en todo esto, en la parte posterior de la experimentación. Después de completar este curso, aprenderás por qué la experimentación es una habilidad esencial para todos los gerentes de productos que quieran construir productos impactantes. También aprenderás a diseñar un experimento efectivo, a crear una estrategia de experimentación y a analizar resultados. Te enseñaré importantes marcos relacionados con la estrategia de experimentación, conceptos
estadísticos relacionados con el vocabulario de experimentación. También te enseñaré lo que es un buen diseño de experimentos. También cómo acelerar experimentos y cómo documentar y comunicar experimentos. El estudiante ideal para este curso, Es un PM aspirante o actual o un empresario que busca aprovechar el poder de la experimentación para tomar decisiones basadas en evidencia y entregar resultados. Deberías tener algo de comodidad con Matt para sacar el máximo provecho de este curso y tener un interés genuino en la experimentación. Siéntete libre de mirar la descripción del curso y espero enseñarte pronto.
2. Introducción: Hola, y bienvenidos a una guía de gerentes de producto para experimentación, estrategia de pruebas
AB y análisis de resultados. En este curso, aprenderás por qué los gerentes de productos deben experimentar, por qué deben ejecutar experimentos. Diez términos importantes en la experimentación. Cómo ejecutar un experimento efectivo, cómo desarrollar y hoja de ruta de experimentación, cómo construir un equipo que apoye la experimentación, cómo nutrir y cultura de experimentación, cómo comunicar eficazmente los aprendizajes la experimentación hasta documentar experimentos, luego entraremos en un tema intermedio o avanzado analizando resultados donde cubriremos las estadísticas bayesianas y secuenciales más frecuentadas a un nivel muy alto. Y luego voy a compartir algunos recursos interesantes para mayor lectura antes de sumergirnos un poco sobre mí mismo. Mi nombre es Ronald Santiago. Llevo cerca de 20 años en el espacio digital. He desempeñado roles de liderazgo en marketing, producto y crecimiento en una variedad de empresas, incluidas las de startup, telecomunicaciones, ingeniería, comercio electrónico y otros espacios. Tengo una licenciatura en ingeniería y un MBA. También soy el editor de experimento Nation.com. Para quienes estén interesados en aprender más sobre la experimentación, les doy la bienvenida a visitar.
3. Por Por qué los PMs deben experimentar un experto: Entonces, ¿por qué los gerentes de producto tienen que experimentar? A mí me gusta explicar esto con una historia. Imagina que un día te recogen y te dejan caer en un profundo bosque oscuro. Y alguien te dijo, oye, tú de ahí, donde está esta flecha roja, es un edificio. Y ese edificio se está quemando en ese edificio en llamas cuando eran niños. Y esos niños están sosteniendo gatitos y tu trabajo es salvarlos. Entonces tu primer instinto podría ser correr lo más rápido que puedas hacia esa flecha, pero te garantizo que tropezarás, te toparás con las cosas. Te lastimarás la cara y probablemente estés muy cansado al final de la misma. Al final del día, puedes tener éxito y salvar a los niños y a los gatitos, pero te aseguro que no estarás de la manera más eficiente. Ahora imagina este escenario donde tienes un poco de luz. Eres capaz de ver adónde vas. Eres capaz de evitar obstáculos y eres capaz de evitar lastimarse a sí misma, es un camino mucho más fácil, verdad? Todavía puede lastimarse. posible que aún te caigas, pero definitivamente será un viaje más fácil con menos riesgo, menos lesiones, y probablemente más éxito. No debe sorprender en el escenario que la luz sea una metáfora de la experimentación. experimentación ilumina la forma en que reduce incertidumbre y te muestra el mejor camino a tomar.
4. Aprende , gana y evita que se queme: El modo en que la experimentación hace esto es que permite a los gestores de productos hacer tres cosas. Les permite aprender, ganar y evitar quemarse. Entraré a cada uno de estos. El modo en que la experimentación ayuda a los gerentes de productos a aprender es ayudándoles a reducir la incertidumbre para ayudarles a entender su problema. espacio, la experimentación ayuda a descubrir la causalidad entre dos variables así como a probar teorías que puedan tener. Obviamente, los Gerentes de Producto pueden aprovechar la experimentación para ayudarles a ganar. A lo que me refiero con eso es que pueden usar la experimentación para ayudarles a generar ingresos, optimizar el rendimiento de una característica, o simplemente medir el impacto del futuro que están lanzando. Para ilustrar el potencial de ganancia de la experimentación. la derecha se encuentra una gráfica del desempeño de las empresas que han abrazado la experimentación recientemente. Esos incluyen Facebook, Google, Etsy, Microsoft, en comparación con otras empresas que no lo han hecho. Como se puede ver, los que experimentan tuvieron mejores resultados, al
menos en el mercado de valores. Ahora por supuesto, esto es solo correlación y no causalidad, pero sigue siendo algo interesante de ver. Ahora uno de los beneficios más interesantes de la experimentación, al
menos dos gestores de productos, es que la experimentación ayuda a los gerentes de productos a evitar que se quemen entre cotizaciones. Tener datos experimentales les ayuda a evitar
tomar decisiones que provocarían una pérdida en términos de ingresos o rendimiento. Les da evidencia cuantitativa. Pueden, dos, cuando se impugnan en términos de por qué tomaron una decisión. Y por último, la experimentación puede ayudar a los gerentes del Ártico a balancearse desafiando a
los interesados al probar sus ideas y demostrarles que están equivocados a veces, o en algunos casos, demostrándoles que tienen razón. De cualquier manera, las decisiones deben basarse en datos, no en opinión.
5. ¿Cuándo debes ejecutar Experimentos?: Entonces, como gerente de producto, cuándo debes ejecutar experimentos? Entonces, por supuesto, la respuesta ideal es que deberías estar ejecutando experimentos todo el tiempo. Pero desafortunadamente, la vida real es diferente. Definitivamente hay algunas empresas por ahí que tienen la mentalidad y la capacidad de probar todo, como correcciones de errores, campañas de
marketing, etcétera. Empresas como estas pruebas cada vez que tienen una pregunta, cada vez que lanzan algo, en cualquier momento tienen un conflicto, porque esa es la belleza de los experimentos. Pueden resolver argumentos que podrían mostrar pruebas que puedan probar o refutar la opinión de alguien. Por eso muchas empresas lo hacen en cualquier momento que quieren liberar cualquier cosa. Pero claro, ese es un mundo ideal. La mayoría de nosotros, de hecho, casi todo el mundo tiene algún tipo de limitación, ya
sea en términos de recursos o tiempo. Entonces tenemos que ser más selectivos cuando ejecutamos experimentos. Esto se debe a que los experimentos pueden ser caros. El involucrado a menudo a veces la ingeniería, diseño, el tiempo del producto, las nuestras grandes inversiones. Entonces si alguna vez estás en una situación en la que buscas ejecutar un experimento. Y si bien te sugiero encarecidamente que hagas el mejor esfuerzo para ejecutar un experimento, a
veces hay que considerar si este es el experimento más importante que puedes ejecutar en este momento, ¿
obtendrá este experimento algún aprendizaje importante? A veces estás lanzando una corrección de errores y no esperas ningún cambio en ninguna métrica. Por lo que podría tener que reconsiderar ejecutar el experimento por completo. Pero como regla general, debes ejecutar experimentos cuando tengas alguna incertidumbre o preguntas priorizando cualquier pregunta que te interponga para avanzar. Considera esto. Entonces en el eje y tenemos incertidumbre, y en el eje x tenemos tiempo. En la línea roja se muestra el camino sin experimentación. Entonces esencialmente a medida que pasa el tiempo, tu incertidumbre disminuye gradualmente y en el lanzamiento, él, cae drásticamente. Te fijas en la línea azul, el camino con la experimentación, ves que la incertidumbre cae más temprano en el lanzamiento, tienes muy pocas incertidumbres. Esto se debe a
que con la experimentación temprana, se puede entender más el espacio y hacer los ajustes necesarios reduciendo el riesgo, lo que se ilustra con la diferencia entre la línea roja y la línea azul. El riesgo es lo que no sabes del mercado, tus usuarios, de tu producto, cómo se desempeñará en la naturaleza. Por lo que uno de los mayores beneficios de la experimentación es minimizar ese riesgo.
6. ¿Cómo se comparar la experimentación con otras fuentes de datos?: Una de las preguntas más comunes que escucho es, ¿en qué se diferencia la experimentación de otras fuentes de datos, como la investigación, el análisis y las entrevistas de usuarios? Echemos un vistazo a cada uno de estos por separado. La investigación ayuda a los administradores de productos a identificar problemas. Bueno, la analítica revela comportamientos pasados y muestra lo que la gente ha hecho en el sitio. Encuestas y entrevistas insinúan por qué los usuarios han hecho ciertas cosas. Pero sólo la experimentación demuestra la causalidad. Demuestra estadísticamente que una variable impacta a otra. Sin experimentación, todo lo que tienes es correlación. En algunos campos de la ciencia, existe un concepto de Jerarquía de la Evidencia que intenta clasificar diferentes fuentes de información en función de su calidad y su riesgo de sesgo. Ahora bien, si bien todos los tipos de investigación son susceptibles a sesgos, dependiendo de cómo se recojan los datos. En general, si frontan adecuadamente los ensayos controlados aleatorizados o los experimentos AKA, tienen la más alta calidad y tienen el menor riesgo de sesgo. Esto no quiere decir que debamos ignorar otras fuentes de datos porque son bastante valiosas. Pero más bien, esto es para ilustrar el poder de experimentación para proporcionar perspicacia y aprendizajes con menos sesgo.
7. 10 términos importantes de experimentación importantes: Ahora vamos a cubrir diez términos importantes y experimentación. Si bien esta sección puede parecer seca, te dará el vocabulario para hablar de experimentación. ¿ Qué es un experimento? Un experimento es un procedimiento científico que te ayuda a hacer un descubrimiento, probar la hipótesis, o te ayuda a demostrar un hecho desconocido. Algunos ejemplos están usando un experimento para ver si una nueva función aumentará las ventas, para entender si las imágenes de estilo de vida aumentarán pedidos o demostrarán que las popups aumentan las tasas de rebote. Otro término que escucharás es el término variante. Las variantes también se denominan ramas o tratamientos. En pocas palabras, estas son las diferentes versiones de lo que quieres probar o comparar. En el caso de una prueba AB, ese es un experimento que tiene dos variantes. Y prueba ABC tiene tres varianza, así sucesivamente y así sucesivamente. Los factores son variables mensurables. Puedes cambiar tu control. Cada factor puede tener un impacto en el resultado de un experimento. Algunos ejemplos de factores son el tamaño de un botón, una nueva característica, día de la semana. Es solo que algunos factores son más fáciles controlar que otros en cuanto a tu experimento. Y variable independiente es un tipo especial de factor que pretendes investigar que
crees que impactará el valor de la variable o intereses de KPI llamados la variable dependiente. Cuánto aprendas de un experimento depende de la granularidad de tu variable independiente. Por ejemplo, si decides que tu factor es el color de un botón, aprenderás el impacto del color de un botón en decir, tasa de clics. No obstante, si tu variable independiente es decir, toda
una página de inicio, un diseño, entonces aprenderás el impacto de todo el diseño en la tasa de clics, no necesariamente el impacto de cualquier pieza de la tasa de clics online de las páginas de inicio. Hace poco hablamos de lo que es un experimento. No obstante, un experimento controlado es una prueba AB donde se mantienen todos los factores a través de la varianza constante excepto la variable independiente. A la variable para la que se establece la variable independiente como la línea de base para comparar se le llama control. Cualquier variante que no sea el control se suele llamar retadores. Sin duda, has escuchado el término AB split. Pero, ¿qué significa exactamente mientras que a y b se refieren a la varianza de una prueba? Si hay tres variantes, a menudo se le llama prueba ABC. Cabe señalar que las personas en una variante no experimentan con otros ven en otra varianza. Y una nota importante es que el tráfico no necesariamente tiene que ser dividido uniformemente entre la varianza. Lo que eso significa es que una división AB no necesariamente tiene que ser 50-50 o podría ser 60-40, 30-70, 9010. Tampoco un público entero cómo ser incluido en un experimento. Puedes seleccionar, digamos, 15% de tu audiencia y dividirte dentro de ese 15%. No debe confundirse con una prueba multivariante, que prueba múltiples variantes. Voy a multivariar test es un experimento controlado que intenta diferentes combinaciones de variables independientes para entender su impacto combinado en una variable dependiente. La forma más fácil de recordar esto es que una prueba multivariante prueba una sola variable independiente, mientras que una prueba multivariante prueba múltiples variables independientes a la vez. El término promover simplemente significa exponer una sola variante a todos ustedes son usuarios calificados sin ningún reto. Debe tener en cuenta que no tiene que promover la variante de mejor desempeño. Situaciones en las que tal vez no desee promover necesariamente la variante de mejor desempeño, podrían incluir compromisos ya hechos con clientes o con altos directivos. También hay casos en los que una característica particular en bloques otros trabajos. No obstante, en un mundo ideal, tus decisiones se basan en datos y promoverías la variante de mejor rendimiento. Y por último, no concluyente. Este término es más común con lo que llamamos experimentos frecuentistas. Donde un experimento no concluyente es cuando se han recopilado suficientes observaciones y los datos no apoyan su control ni la variante. Los experimentos no concluyentes no son necesariamente algo malo mientras estés aprendiendo.
8. El ciclo de experimentación: experimentación es un proceso cíclico, como podemos ver en este diagrama. Todo comienza con observar tu industria, tu producto, pero las tendencias, el mercado, tratando de encontrar problemas u oportunidades. Después haces preguntas, ¿cómo puedes resolver tu problema? ¿ Cómo se puede aprovechar una oportunidad? ¿ A partir de ahí? Y elaboras hipótesis que pueden ayudarte a responder estas preguntas. Después prioriza estas hipótesis para asegurarte de que primero trabajes en los experimentos más impactantes. Después diseñas y configuras tu experimento. Cuando se haga la prueba, analiza los resultados, luego documenta tus hallazgos, compartiéndolos con otros. Por último, despliegues tu función o producto en
función de la información que tu experimento te ayude a generar. En este punto, estás de vuelta a observar. Observar cómo trabajas impactó al medio ambiente todo con el objetivo de iterar en tu trabajo. O simplemente pasar al siguiente experimento de tu lista de prioridades. Ahora, veamos cada uno de estos con un poco más de detalle.
9. Observa: Empecemos con observar. Aquí es donde querrás mirar tu producto y tratar de averiguar en qué se puede mejorar. El primero que querrás hacer es realizar un análisis situacional donde comiences con uno,
entendiendo tus objetivos
a, para mapear tu embudo de conversión, esencialmente, entender cómo fluyen los usuarios a través de tu producto. Número tres, poniendo métricas contra tu embudo. Lo que eso significa es poner números de tráfico y tasas de conversión en todos los puntos principales. Por lo que entiendes el desempeño. Y para, después de mirar todo el embudo, recogiendo las métricas que necesitas arreglar o combustible. Una métrica que tiene que ser fija es un área donde los usuarios dejan o tienen una tasa de conversión menor a la deseada, solo
se deben fijar áreas donde la comunicación es sub óptima. El UX tiene fricción y se pueden encontrar otros problemas funcionales. Debe evitar fijar áreas donde tenga que cambiar drásticamente los deseos de su usuario. Por caso, en el caso de un sitio de abarrotes es difícil convencer a un vegano para que empiece a comer carne. Todo eso para decir que no todas las métricas son reparables. Por otro lado, algunas métricas son mucho más fáciles de alimentar. A lo que me refiero con eso es que hay áreas en el sitio se están desempeñando realmente bien, pero no se han maximizado. Aquí la teoría es que es más fácil verter gasolina en un incendio que arrancar un IE, hacer algo bueno, mejorar.
10. Pregunta: En este paso, hay que pensar en todas las preguntas que se deben responder para mejorar tu tasa de conversión. Por ejemplo, si sabes que necesitas aumentar los pedidos y encuentras que estás abandonando en la caja. Tu pregunta podría ser, ¿estoy pidiendo demasiada información en el checkout? Piensa en tantas preguntas como puedas. Es preferible pedir a todos los interesados que participen aquí, donde lo ideal sería que se les proporcionaran las mismas métricas de embudo de conversión antes de tiempo, y luego se les diera la oportunidad de compartir sus mejores ideas contigo. Una vez que estés contento con tu lista de preguntas, es hora de pasar a la elaboración de hipótesis.
11. Crea hipótesis: Si bien todos los pasos cuajada aquí son importantes, el paso más importante es formar una hipótesis. una hipótesis se esboza lo que estás probando a quién y qué crees que sucederá y por qué. Se trata de una poderosa herramienta que ayuda a aclarar tu pensamiento y comunica a los demás lo que estás tratando de aprender. Si bien hay muchos formatos por ahí, prefiero los siguientes para el público de interés. Si hacemos la experiencia variante en comparación con la experiencia de control, esperamos que algo le pase al KPI primario por una razón. El motivo pieza es muy importante ya que se vincula a tu pregunta original. Si encuentras que tu hipótesis no se alinea con lo que estás tratando de aprender, debes repensar tu prueba. Un ejemplo de una buena hipótesis podría ser para nuevos usuarios. Si pedimos su ubicación durante la incorporación, en comparación con no pedirla, esperamos que la retención de 30 días
suba porque podremos entregarles un contenido más personalizado. Y importante tener en cuenta a la hora de seleccionar
a tu público es tratar de evitar sesgos tanto como puedas. Los sesgos pueden sesgar tus datos de una forma u otra, provocando que tomes una mala decisión. Imagina tratar de diseñar un nuevo producto alimenticio y te
sucede que solo seleccionas sujetos de prueba intolerantes a la lactosa, tus resultados de prueba te provocarían que evitaras por completo la categoría láctea. Si bien este es un ejemplo muy obvio, lo mismo podría suceder para los factores que podrías inferir c para minimizar los sesgos, debes aleatorizar tus sujetos de prueba. Por suerte, la mayoría, si no todas, las plataformas de experimentación
en línea pueden hacer esto por ti. No obstante, hacer esto fuera de línea es más difícil. Si tienes que seleccionar los sujetos de prueba tú mismo, debes saber que no todos los métodos de selección se hacen por igual. Algunos tienen sesgos inherentes que debes evitar. Estos son algunos ejemplos. Muestreo de bolas de nieve es cuando permites a los sujetos de prueba
que reclutas para reclutar otros sujetos de pruebas. Ya que a la gente le gusta pasar el rato con otros con valores similares, esto podría introducir actitudes no deseadas y o sesgos. El muestreo por conveniencia es cuando seleccionas sujetos porque son fáciles de reclutar. Ejemplos comunes de esto es cuando le preguntas tus amigos o personas cercanas a ti que sean parte de tu experimento, es mucho mejor preguntar cada tercio, por ejemplo, persona a la que ves si les gustaría ser parte de tu experimento. El muestreo intencional es cuando
seleccionas a mano sujetos de prueba que sientes que representan a tu población objetivo. Por último, el sesgo de sobrevivientes ocurre cuando solo miras a los sujetos de
pruebas que han realizado previamente una acción que quizás no hayas considerado. El ejemplo clásico de esto es cuando durante una guerra, se encomendó a
los ingenieros mejorar el blindaje de los aviones. Miraron todos los aviones que regresaron de la batalla y donde recibieron daños. No obstante, el hecho de que los aviones regresaran significó que los daños que sufrieron en realidad eran sobrevivibles. Y que los ingenieros deberían haberse enfocado en áreas del avión que no resultaron dañadas. Porque claramente, los que sufrieron daños en esas zonas no regresaron. Puede ser un reto decidir qué incluir y qué no incluir en una prueba. ¿ Cómo equilibras entre aprendizaje y practicidad? Este es mi consejo. Elige la granularidad que coincida con el nivel de aprendizaje que estás buscando. Si buscas entender el efecto del color, prueba el color. Si estás buscando entender el efecto de una característica, prueba, el efecto de esa característica, simple o compleja, tus pruebas deberían poder resumir tus cambios en una sola oración. Por ejemplo, estás buscando entender el efecto de un nuevo diseño de formularios en las inscripciones. O estás buscando entender el efecto de un diseño de botones CTA diferente en las inscripciones. Si no eres capaz de resumir tus cambios simplemente, estás comprometiendo el aprendizaje. No obstante, digamos que ni siquiera eres capaz de decidir lo que las pruebas juntas en primer lugar aún por sí solas resumen algo. Mi consejo aquí es buscar calor. Hay momentos en los que no tienes idea de por dónde empezar y
solo tienes en mente el KPI que quieres mejorar. Digamos que estás tratando de averiguar cuáles son los mejores ingredientes para un pastel para que sepa mejor. El tema aquí es que no se sabe qué variables juegan bien entre sí y qué pelean entre sí. Y no tienes todo el año para ejecutar un sinfín de experimentos probando cada variable por separado. Para situaciones como esta, puedes probar lo que se llama diseño factorial fraccional. Es un nombre elegante. Pero lo que esencialmente significa es probar diferentes combinaciones de variables a diferentes valores o niveles fuera de la puerta y buscar qué combinaciones se correlacionan con la mejora a tu KPI de interés. En este paso, solo buscas esperanza en lugar de intentar probar algo estadísticamente. Es una mejor práctica tener carreras de control aquí y allá. Es decir, establece combinaciones donde no estás cambiando variables. De esta manera se puede ver si hay alguna deriva y las medidas. Por ejemplo, volvamos a hacer un pastel. Diga que su horno es inestable y está cocinando más caliente y caliente durante todo el día. Ejecutar una carrera de control aquí y allá podría cogerse si su temperatura está a la deriva. Una vez que encuentres las combinaciones que funcionan bien juntas, haz esas combinaciones que eres variantes. Idealmente, puedes mirar estas combinaciones y resumirlas de forma sencilla. Si no eres capaz de aprovechar el diseño factorial fraccional. También puedes mirar datos históricos, mirando el impacto de diferentes factores en tu KPI a través del análisis de regresión. De cualquier manera, a veces encontrar combinaciones con promesa es una gran manera de averiguar cuál es la prueba.
12. Prioriza tus hipótesis en las hipótesis: Hay muchas maneras de priorizar las hipótesis. Algunos de los populares como el puntaje de hielo, dan peso a diferentes dimensiones como nivel de esfuerzo y confianza, y generan una sola puntuación para comparar experimentos. Cualquiera que sea
el método que utilices, el objetivo final es priorizar las
hipótesis que más impacto tendrán para tu negocio. En las siguientes diapositivas, caminaré por el porqué la priorización de hipótesis es tan importante y cómo sugiero experimentadores priorizar sus hipótesis porque el tiempo es limitado, quieres darte un equipo de producto que la mayor oportunidad para el éxito. Y puedes hacer esto cargando de frente tus experimentos que redujeron la mayor incertidumbre. Él ha corrido esos más adelante en el proceso, te arriesgas a no darle a tu equipo suficiente tiempo de entrega. Ponlo de otra manera. Puedes trazar tus hipótesis a lo largo de dos ejes. De alto impacto versus riesgo, donde el alto impacto es algo que es de alta importancia para su negocio y donde el riesgo es cuánto le costaría si las cosas salen mal. Como puedes ver, primero se deben priorizar los riesgos económicos de alto impacto, estas son hipótesis críticas que son importantes para tu negocio para explorar y representar una gran pérdida si las cosas no van por el camino correcto, muchas veces
sabes lo menos sobre esta zona. Siguiente arriba sería alto impacto y riesgo barato. Esto suele ser para hipótesis que se centran en maximizar su inversión, IE, maximizar el rendimiento en lugar de evitar que algo realmente mal, a menudo se
sabe bastante de esta área. Siguiente arriba es bajo impacto y riesgo barato. Estas son típicamente hipótesis que tienes cuando estás empezando en la experimentación, donde es de tu interés ejecutar experimentos seguros solo para acostumbrarte al proceso. Y por último, tenemos riesgos costosos con muy bajo impacto en su negocio. Estas son hipótesis que deben replantearse y repriorizarse.
13. Experimentación: Ahora que has seleccionado tu hipótesis, es hora de experimentar. Empiezas con el diseño de tus experiencias de variante. Estas son algunas cosas a considerar. Uno, haz lo mejor posible para solo crear experiencias que estarías bien promocionando. De lo contrario. ¿Cuál es el punto? Número dos, el objetivo es aprender de manera barata y rápida. Entonces a la hora de diseñar tus experiencias, siempre piensa MVP. Piensa en lo pequeño que puedes hacer tu experiencia y aún así contestar todas tus preguntas? Tres, Haz lo mejor para representar las condiciones de la vida real. En otras palabras, trate de hacer las cosas lo más cercanas posible a la realidad. Por ejemplo, si quieres cambiar un logotipo, no lo
cambiarías solo en una sola ubicación. manera realista, lo cambias en todas partes. Ahora, eso es un ejemplo un poco extremo, pero probablemente consigas mi 0.4. Por último, la variación debe ser rastreable, que
significa que debes poder descifrarla en los datos, qué experiencias vieron los usuarios, y qué acciones tomaron. Si no eres capaz de dividir el análisis o los datos, entonces será imposible analizar tus resultados más adelante. Puedes encontrar inspiración de todo tipo de fuentes como experimentos pasados, entrevistas a
usuarios, estudios de mercado, y competidores. Una nota rápida, si bien sois competidores son una gran fuente de ideas para experimentos, nunca asumas que solo porque están haciendo algo que significa que está funcionando para ellos. Para todos, ya sabes, están ejecutando experimentos ellos mismos. Otra pieza de consejo es cuando se generan ideas obtenga la entrada de todos sus grupos de interés. Esto ayudará con el buy-in para experimentos contenciosos en el futuro. Además, evite la lluvia de ideas. Alentar a los contribuyentes a mirar los datos y proponer sus mejores ideas. Nada mata un proceso creativo que tener una voz muy dominante en una sesión de lluvia de ideas. A continuación se presentan algunos de los tipos de prueba más comunes. Las pruebas de redirección son las que dividen el tráfico entre dos páginas separadas. El usuario generalmente no notará que han sido redirigidos. Estos son uno de los tipos de pruebas más sencillos. Las plataformas de experimentación típicamente soportan estos de forma nativa. pruebas de bandera de entidad ocultan o muestran la funcionalidad basada en un conjunto de variables, ya sea del lado del cliente o del lado del servidor. Estos suelen requerir soporte de desarrollo. Las pruebas de Visual Editor son aquellas que se crean usando alguna forma de editor wysiwyg. Estas pruebas funcionan interceptando la carga de una página, manipulando el DOM, y luego mostrando el contenido de la página. Estos pueden ralentizar la página y causar problemas de inestabilidad en el caso de cambios complejos. Las pruebas multivariantes, como hemos cubierto antes, prueban diferentes combinaciones de factores combinándolas aleatoriamente. Estos suelen requerir mucha configuración, un frente, y mucho tiempo para correr. Normalmente te sirven mejor con pruebas AB más simples, que están más enfocadas. Por último, los experimentos de despliegue son aquellos que sostienen un porcentaje de usuarios a partir de una experiencia. Por lo que puedes medir el impacto de una entidad contra una línea de base. En ocasiones, los resultados de los experimentos pueden llevar a tener la pausa de despliegue, pero son una gran manera de asegurarse de que estás poniendo un trabajo impactante. A continuación está definiendo tus criterios generales de evaluación son OBC, aquí es donde defines qué métricas usarás para evaluar un experimento. Estas métricas típicamente representan cada una de las necesidades de sus principales partes interesadas
y, y un indicador líder de la salud empresarial. Vamos a repasar cómo idealmente deberías definir tu OSC. Uno, Escoge tu KPI primario. Esta es la métrica que tu experimento está tratando de impactar también. Defina sus métricas de leads para la salud empresarial. Estas son típicamente métricas que te ayudan a entender si tu experimento fue bueno o malo para el negocio. Normalmente se desea utilizar una métrica predictiva en lugar de una rezagada como las ventas. Tres, las métricas de diagnóstico te ayudan a determinar por qué ocurrió un resultado de prueba como lo hizo para bien, para mal. Y por último, cuatro, las métricas reales de guardia son aquellas a las que no debes impactar negativamente. Si estas métricas cruzan ciertos umbrales, el experimento debe detenerse inmediatamente. Un ejemplo de esto en el comercio electrónico es decir, si las ventas cayeran por debajo del 10%, entonces querrías terminar la prueba de inmediato. Estas métricas idealmente deberían ser acordadas por todas las partes interesadas junto con los siguientes pasos basados en diferentes escenarios. Ahora es el momento de definir tus parámetros de prueba. Estos son los umbrales y criterios de decisión para su prueba. Los que determinarán si tu experimento generó o no e-learning. Las definiciones de estos parámetros dependen del enfoque estadístico que se tome. Por ejemplo, podrías tomar frecuencista o bayesiano o secuencial, etcétera. En una sección posterior, nos enfocaremos principalmente en el enfoque más frecuente en cuanto pertenece a las métricas binarias. Las métricas binarias son aquellas que pueden ser verdaderas o falsas. A continuación, tienes que desarrollar un instrumento, tu experimento. Aquí es donde tu experimento cobra vida a medida que construyes tus experiencias de pruebas,
asegúrente de que Qe la sucursal también, y que la analítica se esté recopilando correctamente. No hay nada peor que esperar dos semanas solo para enterarte de que tus datos están incompletos o sucios. Ahora que ya has hecho todo eso, es hora de lanzar. Recuerda, antes de lanzarte, dale un cabezal a todos tus grupos de interés.
14. Anar, documenta y comparte y Rollout: Ahora que tu experimento ha concluido, es hora de analizar tus resultados, entonces debes documentar tu experimento y compartir tus aprendizajes. Después de eso, despliegues tu variante ganadora. Si tiene sentido, recuerda que no siempre tienes que lanzar una experiencia. Cubrirá el análisis y la documentación en secciones posteriores con más detalle.
15. La hoja de ruta de experimentación: En esta sección cubriremos cómo desarrollar una hoja de ruta de experimentación. Al igual que una hoja de ruta de producto típica, hay valor en desarrollar una hoja de ruta de experimentación. En resumen. Y la hoja de ruta de experimentación es una que detalla los experimentos que se llevarán a cabo en los próximos meses, generalmente más de una cuarta parte. Hay algunos beneficios obvios al hacer esto. En primer lugar, eres capaz de maximizar y coordinar recursos porque las cosas están planeadas o al menos programadas con anticipación, puedes liberar los recursos adecuados en el momento adecuado, reduciendo
así el doble de reserva o el tiempo de inactividad. En segundo lugar, ayudan a evitar colisiones de prueba. Saber qué vas a correr. Te puede ayudar a evitar ejecutar una prueba que colisionará con otro experimento de PMs que podría afectar tus resultados. En tercer lugar, también aseguran la cobertura. Una trampa común en la que caen los experimentadores es poner demasiado foco en un área. Tener una hoja de ruta te ayuda a asegurar que todas las áreas importantes capten la atención. En cuarto lugar, potencialmente el beneficio más importante es la visibilidad empresarial. Todo el mundo en una empresa quiere saber qué producto construirá a continuación. Tener una hoja de ruta de experimentación ayuda a la transparencia y contestar preguntas para las partes interesadas y nota importante mientras planeas tu hoja de ruta, sin embargo, es dejar holgura para iteraciones y lanzamientos. Ya que no podemos predecir el futuro, nunca se sabe si desea o necesita ejecutar iteraciones sobre pruebas o rol en los ganadores. No tener holgura en tu hoja de ruta generalmente implica que no te importa aprender sobre los resultados. Entonces recuerda contarlo.
16. La hoja de ruta de experimentación - Continuación: A continuación te presentamos diez pasos sobre cómo construir una hoja de ruta de experimentación. Uno, sobre todo si eres nuevo en la experimentación, comienza con experimentos que sean de bajo esfuerzo y de bajo impacto. Al hacer esto, podrás aprender las cuerdas y francamente, cometer errores en un ambiente más seguro. Obtener algunas pruebas pequeñas y ojalá algunas victorias anticipadas construyan su confianza y refinen su flujo de trabajo. A si tienes el lujo del tiempo, lo sé, lo sé. Pero en caso de que lo hagas, consideremos empezar a experimentar más arriba en el embudo. El motivo de estar aquí es que los experimentos frontales típicamente inferiores tardan más tiempo. Por lo que al mejorar la conversión en las etapas más altas de un embudo, teoría aumentará el tráfico a la baja por el embudo en turno, ayudando a esas pruebas a correr más rápido. Tres, experimentos de carga frontal que abordan preguntas con mayor riesgo. En primer lugar, los que se beneficiarán de tener más tiempo para abordar. Preguntas difíciles importantes toman tiempo para averiguarlas, hacer experimentos lo más baratos posible pensando siempre MVP. En algunos casos, podría ser capaz de responder
la misma pregunta a través de una prueba más pequeña en otro lugar. Cinco, acortar los tiempos de experimento donde sea posible. Esto te ayudará a aprender más rápido. Y aprender más rápido conduce al éxito más rápido. Eso es más fácil de decir y un poco más complicado de hacer. Vamos a sumergirnos en esto por un momento. Aquí hay tres formas comunes de acortar el tiempo de experimento en orden de mi preferencia. En primer lugar, baje sus estándares. Siempre consigo miradas cuando digo esto, pero es verdad. Bueno, nos meteremos en estadísticas líder en este curso. Bajar tus estándares estadísticos como potencia estadística
requerida y el nivel de confianza son formas
muy válidas de acortar tus pruebas solo
siempre y cuando estés realmente bien con bajar tus estándares. Por ejemplo, a veces un cambio no es muy crítico para el negocio. Entonces estarías bien con decir, 90% de confianza en lugar del noventa y cinco por ciento. En segundo lugar, probar cambios extremos. Cambios más grandes produjeron resultados más grandes que son más fáciles de detectar. El ejemplo que me encanta compartir para ilustrar esto es detectar si hay un auto en tu entrada. ¿ Cuántas observaciones necesitarías? Uno, si eres malo quizá dos. Pero si quisieras detectar si había una hormiga en tu entrada, necesitarías muchas más observaciones que tardarían más tiempo. Por último, las micro conversiones. A veces la zona que estás probando simplemente no consigue mucho tráfico moviéndose por el embudo por el camino de la conversión, por
supuesto, a la siguiente oportunidad de experimentar a veces es un buen lugar para empezar. El típicamente obtiene más tráfico y mayores tasas de conversión, lo
que normalmente resulta en pruebas más rápidas. Ahora te importa mejorar las tasas de conversión más arriba el embudo puede no resultar en ganancias proporcionales bajar el embudo, pero haces lo que tienes que hacer para empezar. Esperemos que este gráfico ilustre esta noción. En el eje y está tu tasa de conversión basal, o en otras palabras, la tasa de conversión base que estás tratando de mejorar. Aquí no son importantes los valores, sino más bien la dirección de magnitud que vamos subiendo significa que la tasa de conversión es mayor. En el eje X está el tamaño del cambio. Cambios más extremos están a la derecha. Como puede ver, las pruebas más cortas son para grandes tasas de conversión y grandes cambios, mientras que las pruebas más largas son para tasas de conversión pequeñas y cambios pequeños. Si tuviera que elegir, siempre
sugiero ir por grandes cambios primero antes de encontrar mayores tasas de conversión. Dado que el tamaño del cambio tiene un impacto mayor que la tasa de conversión actual. Ahora volvamos a la hoja de ruta de experimentación. Seis. No debe sorprender a los gestores de productos, pero tener un atraso en experimentos que respalden la toma de decisiones es importante. El truco es cronometrarlos para que respondan las preguntas correctas en el momento adecuado. Siete, no siempre pienses iterativamente. Tienes que tener una mezcla de disparos lunares y pruebas iterativas, probar malas ideas, a veces, al
menos malas estarías bien promocionando, comiendo, extrayendo tus experimentos para que puedas correr uno tras otro. Nueve, las interacciones de monitor entrarán en esto más adelante en el curso. Pero la idea aquí es monitorear cómo los experimentos interactúan entre sí. A veces o más bien a menudo a veces. Ejecutarás experimentos en paralelo. Hay todo un debate sobre si esto está bien o no. Nuevamente, más sobre esto después. Y finalmente diez iteran. No siempre los pruebes. Pasa a la siguiente prueba. En ocasiones necesitas cavar más, lo que enfatiza la necesidad de agregar holgura a tu hoja de ruta para dar cuenta de iteraciones.
17. El equipo de productos dirigida a expertos: Una cosa es saber qué probar y cómo estructurar una prueba. Es otra cosa ejecutarles para hacer experimentación, ¿no? Se necesita un pueblo y se necesita el equipo adecuado. Pero, ¿cuál es el equipo correcto? Por lo que el equipo que tengas y necesitaremos
apoyar la experimentación depende del tipo de producto que estemos construyendo o trabajando ya que esto impacta en la complejidad de configurar un experimento. No obstante, en general, necesitarás los siguientes conjuntos de habilidades en tu equipo. En primer lugar, necesitarás un científico de datos o un analista, cualquier persona con una caseta alrededor de las estadísticas. Esto es crítico. Necesitarás a alguien que pueda interpretar los datos y asegurarse de que se recojan y analicen de la manera correcta para que sus hallazgos sean válidos. No hay nada más peligroso que construir sobre insights inválidos. Dependiendo de tu producto, es probable
que necesites un investigador de usuario. El experimento debe alinearse con la resolución de problemas del usuario. La investigación de usuarios es una gran manera de destapar estos problemas y es una rica fuente de ideas para la experimentación también. Un diseñador de UX, aislar para su variable independiente puede ser complicado de hacer una manera que tiene sentido en un viaje del cliente. Un diseñador de UX te ayudará a crear algo que tendrá sentido mientras aún recolectas tus datos. Ingeniería. Esto es obvio. Alguien tiene que construir todo. Analítica. Necesitarás un recurso para recolectar realmente un instrumento los datos correctamente. Qe último pero definitivamente no menos importante, puedo enfatizar esto lo suficiente. Necesitas un recurso de control de calidad porque las pruebas suelen ser, digamos, calidad MVP, absolutamente
necesitas QA para ejecutar pruebas de regresión, verificar que nada se rompa y las experiencias realmente se están entregando como se esperaba. Llevar estos recursos en una etapa temprana a la planificación. Para que no te pierdas los plazos.
18. Alimentar una cultura de experimentación: Ahora que hemos cubierto al equipo, tenemos que tocar la cultura. Sin la mentalidad adecuada, no
podrás extraer el valor completo de la experimentación. Y se sentirá como un slog más que una fuente emocionante de evidencia para tomar decisiones. A continuación se presentan diez consejos sobre cómo nutrir y experimentar la cultura. Uno, justo al lado del bate, necesitas volumen C-suite y apoyo público. Nada anima a la gente a experimentar que tener liderazgo detrás de él. Además, se debe alentar al C-suite a requerir datos experimentales a la hora de tomar decisiones. Por supuesto, esto puede ser realmente difícil de hacer. Por lo que puede que tengas que tomar un enfoque de abajo hacia arriba donde puedas convencer bajar la cadena para que lo sostengan y lo vendan hacia arriba. Pero si quieres que la experimentación tenga alguna pierna, tú o alguien tendrán que poner el tiempo para vender liderazgo. Escuchar a sus grupos de interés y entender sus necesidades y enmarcar la experimentación en formas que aborden esas necesidades. A menos que algo ayude a la gente a lograr sus objetivos, probablemente se abandonaría. Tres, compartir ejemplos y mejores prácticas. Esto es sencillo, pero no se hace tanto como se pensaría. La gente aprende de los ejemplos. Mostrar a los experimentadores potenciales cómo ejecutar experimentos adecuados irá en camino. Además, mostrar éxitos y aprendizajes puede inspirar a otros a experimentar también. Para objetivos de volumen establecidos, IE, el número de experimentos se lanzan a lo largo de un periodo de tiempo para conseguir que el balón rodando pasando rápidamente a los objetivos de resultados del negocio. Una vez las cosas van. Cinco, contrate a la gente adecuada. Busca siempre talento que crea en el valor de la experimentación. No sólo apoyarán la experimentación, sino que lo
que es más importante, probablemente creerá en tomar decisiones basadas en datos y evidencias, que es algo por lo que todos debemos esforzarnos. Seis, crear flujos de trabajo que no solo puedan escalar I0 se pueden automatizar de alguna manera, sino que también encaja en flujos de trabajo existentes, al
menos en los primeros días, hay que reducir esos escollos. Siete, evita hablar de ganar. Este es el enfoque equivocado porque el punto de la experimentación es aprender. Por lo que idealmente cada experimento genera un aprendizaje. Así que celebre y comparta cuando aprenda algo. Ocho, como tal en previamente automatizar tareas tanto como sea posible. A medida que aumenta tu velocidad de experimentación, estarás feliz de haber hecho esto. Nueve, ayudar a los equipos a definir el éxito, perfeccionar las hipótesis y los criterios de decisión adecuados. Desde el principio, cualquier gente ejecuta pruebas sin objetivos reales, lo que puede llevar a la frustración. Diez, finalmente, comunican el aprendizaje salvajemente. Cuando la experimentación es vista como una fuente de información
importante, el buy-in sigue rápidamente.
19. Comunicación: Esto nos lleva a la comunicación. ¿ Qué debes compartir con tu equipo u organización? Si bien esto realmente depende de la org, te aconsejaría compartir lo siguiente, compartir el problema que estás tratando de resolver y tu hipótesis para dar contexto a los demás. Comparte tus resultados de una manera fáctica e imparcial. Evita la interpretación, al menos en esta etapa, el nivel de las estatuas comparte depende de la alfabetización estadística de tu público. Una vez que hayas hecho eso, comparte tu interpretación de tus resultados y lo que esto podría significar para el negocio o producto. A continuación, enfatizar el aprendizaje sobre los valores exactos. Los valores pueden variar ligeramente si vuelves a ejecutar un experimento. Por último, comparte tu información de contacto y enlaces a tu documentación para que otros puedan aprender más. ¿ Cómo debe comunicar esta información? Un ex director general mío dijo que para poder atravesar tu punto, tienes que repetirte al menos nueve veces. Por lo que en resumen, comparte tus aprendizajes en todas las formas que puedas. Al inicio, aprenderás rápidamente qué canales son los más efectivos. Aquí están mis sugerencias. Compártelos vía correo electrónico, boletines, almuerzo y aprendizajes, infografías, reseñas de negocios, holgura, retrofits de productos, dashboards. Y si te sientes aventurero, prueba con video.
20. Documentación: Esto nos lleva al tema favorito de todos, la documentación. A nadie le encanta la documentación, no
creo, pero antes me he equivocado. Pero para aquellos que no creen en la documentación, quería compartir los beneficios de la documentación sólida para la experimentación. El motivo más obvio es evitar que se vuelvan a ejecutar experimentos. Y tenemos muchos experimentadores o mala comunicación. No es tan raro que las pruebas se vuelvan a ejecutar después de unos meses o años por accidente. Obviamente otro beneficio es que otros pueden aprender de tu trabajo. La documentación puede ayudar a facilitar la comunicación. Un beneficio menos obvio es que habilita el meta-análisis donde se puede mirar a un grupo de experimentos y reunir ideas más grandes. La documentación es buena para hacer referencia a la hora de tomar decisiones. documentación ayuda a mejorar la calidad de los experimentos ya que se puede aprender de otros retos. Desde una perspectiva política. documentación demuestra el valor de su trabajo. En ocasiones no puedes entregar un desenlace, pero tener documentación sobre tu experimentación demuestra que has estado aprendiendo, lo que de por sí es progreso. Por último, la documentación organiza tus pensamientos. Si documentas a medida que desarrollas un experimento, como demostraste, te ayuda a refinar tu pensamiento y te ayuda a atrapar brechas. Entonces, por fin, ¿qué debe documentar? Esto es un poco una lista de lavandería, pero sugeriría documentar el siguiente título. Dale un nombre que puedas encontrar más adelante. Dueño a quien contactar sobre el experimento. Fechas de vuelo. ¿ Cuándo estuvo en vivo el experimento? A veces tu experimento impactó algo fuera de tu mundo que quizá necesites rastrear. Área probada. ¿Dónde probaste? ¿Qué probaste? Esto es útil cuando se juntan aprendizajes más grandes. Problema de negocios. ¿ Cuál fue la pregunta que estás tratando de contestar? Tu hipótesis, tus criterios generales de evaluación, tus criterios de decisión, la descripción de la varianza, información sobre la configuración y cualquier firma si fuera necesario. Resultados de las pruebas, incluyendo estadísticas aquí para que otros los evalúen. Aprendizajes y insights. ¿ Qué significan los datos para ti y para el negocio? Y por último, los próximos pasos, lo que hiciste o harás por estos resultados.
21. Introducción al poder y los niveles de confianza deseados: Esta es una introducción sobre cómo analizar los resultados. Este es un tema intermedio a avanzado, dependiendo de tu comodidad con las matemáticas y familiaridad con los conceptos estadísticos. Si bien no necesitas convertirte en un experto en estadísticas, ayuda a tener una idea de los términos para que puedas hacer las preguntas correctas al mirar resultados. Existen varias escuelas de pensamiento cuando se trata de estadísticas. Empecemos con lo que se llama estadística frecuentista. Este suele ser el tipo de estadísticas que aprendiste en la escuela. Pero antes de que empecemos algunas exenciones de responsabilidad, no
soy profesor de estadística. Explicaré vagamente conceptos estadísticos. Si bien la mayoría de las plataformas de experimentación de terceros reportan resultados estadísticos, siempre
debes buscar soporte estadístico para validar los resultados. Por último, si no te interesan las estadísticas, tú o al menos te animan a despreciar el material. El objetivo de la experimentación, al
menos en lo que concierne a la gestión de productos, es entender si la variable independiente tiene un impacto significativo en una variable dependiente. Para determinar esto, se deben cumplir tres criterios. Una, recolectaste suficientes observaciones para detectar el cambio que te importa para compararlo con el control. Es muy poco probable la probabilidad de que ocurra la variante. Y tres, no hay posibilidad de que el control y las variantes observadas resultados sean equivalentes. En términos estadísticos, eso se traduce en uno. Cada variante ha golpeado el tamaño de muestra requerido a su nivel de confianza es mayor que 95% clásicamente. Y tres, tu intervalo de confianza de la diferencia de medias no cruza 0. Pero antes de sumergirnos más profundamente, hay pocos conceptos más que necesitamos cubrir. Tenemos que hablar de errores experimentales, que las estadísticas frecuentistas controlan famosamente. Existen dos tipos de errores, tipo uno y tipo dos. Los errores de tipo uno también se llaman falsos positivos. Si bien tipo dos o falsos negativos. Me encanta esta ilustración. Siento que capta los conceptos muy bien. Lo que hace la estadística frecuentista es informar sobre los valores observados mientras se garantiza que las tasas de error tipo uno y tipo dos nunca superan los límites. El siguiente concepto importante de las estadísticas frecuentistas es que un valor observado de experimentos convergerá hacia un valor verdadero. Lo que esto significa es que si dejas que un experimento se ejecute lo suficiente, TI recolecta suficientes muestras, los resultados medidos de todas las muestras convergen hacia un solo valor. Al principio durante un experimento, el valor general observado de una variante estará por todo el lugar. Como se puede ver a la izquierda. Tendrás que esperar hasta que las cosas se calmen o converjan. Es decir, hay que esperar hasta que haya
recolectado suficientes muestras antes de analizar los resultados. Este es el concepto de tamaño de muestra mínimo. Es cuántas muestras debes recolectar hasta que puedas confiar en tu observación y seguir confiando en que tus errores tipo uno y tipo dos estén dentro de umbrales. Evaluar los resultados antes de que alcances tu tamaño mínimo de muestra se llama pico y conduce a resultados no válidos. Un gran no-no. Según se mencionó, el tamaño mínimo de muestra es el número mínimo de muestras que debe alcanzar cada variante para que pueda generar resultados válidos. Está bien recolectar más, pero nunca está bien recolectar menos, ni
siquiera por una sola muestra. ¿ Cómo se calcula? No obstante, el tamaño mínimo de la muestra es una función de sus umbrales de tasa de error falsos positivos y falsos negativos ID. ¿ Con cuántos falsos positivos y falsos negativos estás bien? Y el cambio más pequeño que te interesa? El MDE. umbrales falsos negativos suelen estar representados por lo que se llama poder. Si bien los falsos positivos están representados por lo que se llama el nivel de confianza deseado, entraremos en cómo establecer potencia el nivel de confianza deseado, así
como MDE. En el siguiente apartado.
22. Poder y P-Value: En este apartado, echaremos un vistazo más de cerca al poder y al nivel de confianza deseado. Como se mencionó anteriormente, el poder representa nuestro nivel de falsos negativos. Técnicamente hablando, algo llamado beta es el porcentaje real de falsos positivos que aceptaremos. De manera clásica, la beta se establece en 20%. En otras palabras, estamos de acuerdo con tener falsos positivos. 20% del tiempo que ejecutamos este experimento, siendo el
poder uno menos beta sería entonces 80%. En realidad, no hay razón para que el poder deba ser del 80%. Es solo un valor que alguien eligió y todos decidieron que estaba bien. Entonces si estás ejecutando un experimento y realmente no quieres ningún falso negativo o muy pocos, siéntete libre de bajar la beta o más bien aumentar el poder. Simplemente conoce cuanto mayor sea la potencia, mayor será
el tamaño de la muestra que necesitas. De igual manera, algo llamado alfa es límites aceptables para falsos positivos. Classicamente esto se establece en 5%. Nuevamente, no hay razón para que todos elijan el 5%. Entonces si necesitaba estar seguro de que tienes menos del 5% falsos positivos, puedes seleccionar un alfa más pequeño. Sólo para mantener las cosas interesantes. El nivel de confianza deseado es uno menos alfa o 95%. Tenga en cuenta que a medida que aumenta su nivel de confianza deseado, se
le requiere que el tamaño de la muestra también sube. El efecto detectable mínimo podría ser el segundo concepto más difícil que la gente tiene con las estadísticas frecuentistas. En pocas palabras, es el cambio más pequeño. Es el cambio más pequeño a su KPI de intereses, también conocido como su variable dependiente. Tenga en cuenta que dije cuidar. A lo que quiero decir con esto es que este es el cambio más pequeño del que realmente vas a hacer algo. Digamos que estás ejecutando un sitio de comercio electrónico y querías probar un nuevo diseño para tu página de producto, normalmente no
te importará un cambio de un centavo en los ingresos por cliente. Cambié ese pequeño ni siquiera valdría la pena el tiempo de desarrollo. Por lo que debe configurar su MDE de manera apropiada, similar a cómo la potencia y el nivel de confianza deseado impactan en el tamaño de muestra requerido. Cuanto menor sea su
MDE, más muestras necesitará. La forma más fácil de recordar esto es decir que estás tratando de detectar un auto en tu entrada. Eso sería un gran cambio para atrapar. No tomaría muchas observaciones o muestras que seguirían un cambio así. Pero si estás tratando de detectar si había una hormiga en tu entrada, esto requeriría muchas más observaciones. Por lo que de vuelta al inicio de esta sección, mencioné que necesitas tres cosas para determinar si tu variable independiente tuvo un impacto significativo en tu variable dependiente. Necesitas suficientes observaciones para detectar un cambio. Esto mencionando cada variante su muestra. El segundo criterio fue que sabiendo lo que sabemos sobre el control, la probabilidad de que tus variantes observadas valor tenía que ser muy improbable. La probabilidad de que sus variantes observadas valor ocurran dado lo que sabemos sobre el control se conoce como el valor p. Tan solo para complicar las cosas, un valor menos p se conoce como nivel de confianza. Por lo que en las estadísticas frecuentistas y resultado poco probable es cuando la probabilidad de sus variantes observadas valor, también conocido como el valor p, es menor que su alfa, que de nuevo se establece clásicamente en 5%. O dicho de otra manera, cuando el nivel de confianza de tu variante es mayor que tu nivel de confianza deseado. Al final del día. Si ves que tu nivel de confianza es mayor al 95%. En la mayoría de los días, esto es lo suficientemente bueno.
23. Importación práctica: Ahora que comprobamos que golpeamos muestra y que nuestro resultado era poco probable, o bien el nivel de confianza era más alto que nuestro nivel de confianza deseado, clásicamente establecido en noventa y cinco por ciento. Lo último que tenemos que comprobar es si los valores observados de nuestro control y variante tienen alguna posibilidad de ser equivalentes. Este es, con mucho, el concepto más difícil de captar y las estadísticas frecuentistas para las pruebas de división AB. Por lo que tal vez quieras volver a ver este apartado algunas veces. Si fuéramos a ejecutar nuestro experimento muchas, muchas veces, pensar infinito, el valor observado de nuestro KPI Para un escenario dado orbita alrededor de un valor verdadero. Un valor que no conocemos porque no
podríamos correr nuestro experimento una y otra vez. Esto se puede ver ilustrado a la izquierda donde la frecuencia
del valor observado es más alta alrededor del único valor verdadero. En otras palabras, los valores observados de nuestro experimento para nuestra variante son
muy probablemente diferentes a lo que es el verdadero valor para nuestra variante. Tomando este concepto más allá, si encontráramos la diferencia de los valores observados de nuestro control y nuestra variante que también orbitaría un solo valor,
el único valor verdadero de la diferencia. A continuación, ver la línea roja a la izquierda es nuestro valor observado. Ya sabemos que este probablemente no sea el único valor verdadero. Pero lo que podemos hacer es estimar más o menos un valor. Arreglo probablemente capturaría el único valor verdadero la mayor parte del tiempo, este intervalo se llama el intervalo de confianza. Si este rango captura el valor único verdadero para nuestra variante noventa y cinco por ciento del tiempo, entonces esto se llamaría intervalo de confianza del 95%. Por lo que como se mencionó anteriormente, podemos trazar la frecuencia de cada una de las diferencias entre las variantes y el control. Y veríamos que la trama estaría centrada en torno a las diferencias. Uno dibujó valor. A esta trama se le llamaría la diferencia de medios. Similar al intervalo de confianza del 95%. La diferencia de medias dos podría tener un intervalo de confianza del 95%. esperar, a esto se le llama un intervalo de confianza del 95% de la diferencia de medias. Este intervalo captura la verdadera diferencia entre las medias 95% del tiempo. Pero, ¿por qué es esto importante? Si los valores del control y de la variante fueran idénticos, entonces la diferencia entre ellos sería 0. Es decir, la diferencia entre los medios sería 0. Ya que desconocemos el verdadero valor de la diferencia para nuestro experimento. Y ya que el intervalo de confianza del 95% de la diferencia de medias representa un rango que contiene el único valor verdadero de la diferencia 95% del tiempo. Si este intervalo de confianza contiene 0, entonces existe la posibilidad de que el control y la variante sean idénticos. Es decir, si encontramos que el intervalo de confianza de la diferencia de medias contiene 0, entonces no podemos decir que la variante y el control sean diferentes. Ponga otra manera. Si nuestro intervalo de confianza de la diferencia de medios no contenía 0, entonces podríamos decir que el control y la variante no eran los mismos. Ahora vamos a armar todo esto. Cuando golpeas la muestra y tu nivel de confianza es más alto que tu nivel de confianza deseado, eso significa que tienes lo que se llama significación estadística. Pero eso no es suficiente. Si ves que tu intervalo de confianza de la diferencia de medias no contiene 0, entonces tus variantes son diferentes con significación estadística, IE, tienes algo que es prácticamente significativo. Es sólo cuando se tiene significación práctica. ¿ Se puede decir que su variable independiente tiene un impacto en su variable dependiente? Tenga en cuenta que estos no son conceptos fáciles de captar en una sola sesión. Puede que te lleve unas cuantas vistas de esto y una lectura extra para comprenderlo realmente. Pero ojalá te sientas un poco más cómodo con los términos de que eres capaz de hacer las preguntas correctas.
24. Corrección de Bonferroni: Como se puede imaginar, uno de los mayores temas de las estadísticas frecuentistas es el tamaño mínimo de la muestra. La mayoría de los gerentes de productos no tienen mucho tiempo para tomar decisiones. La estadística secuencial es una variación del frecuentista clásico en que los valores alfa son dinámicos basados en datos tempranos. La teoría es que si observamos una diferencia muy grande al principio del experimento, hay una buena probabilidad de que haya una verdadera diferencia. Entonces lo que hace este enfoque es permitirte detener los experimentos antes en casos donde la diferencia es muy evidente. Generalmente, las estadísticas secuenciales requieren calculadoras
dedicadas y descifrar significación. Para cerrar frecuencista. Hay un problema llamado comparaciones múltiples que los analistas tienen que dar cuenta. En resumen, si tienes más de dos variantes o si quieres analizar más de un KPI, lo cual es muy común cuando estás tratando de entender un espacio problemático. Tienes que dar cuenta del aumento de la tasa de falsos positivos. En resumen, cuanto más frecuentemente compare variantes o analice métricas, mayor será la probabilidad de que tenga un falso positivo. Para corregir esto, utilizarías una corrección como la hecha Bonferroni, o más comúnmente llamada corrección de Bonferroni. Simplemente divides tu alfa, pero el número de comparaciones que harás. Hagamos un ejemplo rápido. Se está ejecutando una prueba ABC donde a es el control. Te gustaría una tasa efectiva de falsos positivos del 5%, o en otras palabras, un nivel de confianza deseado del 95%. Estarás comparando el rendimiento de B contra a así como C contra a. Estas son dos comparaciones. Por lo tanto, debe dividir su tasa de falsos positivos deseados por dos, resultando en un nivel de confianza deseado de 97.5. De igual manera, si está realizando una prueba de VIH, pero tiene la intención de analizar tres métricas, incluyendo su KPI primario, debe dividir la tasa de falsos positivos deseada por tres.
25. Introducción a Bayesian: Ahora hablemos de las estadísticas bayesianas. La estadística bayesiana es un enfoque muy popular, uno que personalmente me gusta. Comparemos bayesiano con frecuentista. En primer lugar, en bayesiano no hay un valor verdadero del KPI de interés, sino más bien un rango de valores esperados basados en datos
históricos llamados previo y datos recabados del experimento. hace una predicción de estos rangos, que se denomina posterior. No se requiere un tamaño mínimo de muestra para bayesiano porque no controla para ningún error. Pero lo que hace, sin embargo, es el control por riesgo, IE, la pérdida potencial si fueras a promover una variante perdedora, porque no controla por errores, no
tienes que preocuparte por múltiples problemas de comparación. Similar al frecuencista, Pekín tiene un concepto llamado intervalo creíble, que puede capturar el 95% del rango de valores esperados. Bayesiano se beneficia de ser más fácil de entender que frecuencista o secuencial. Incluso la única caída es que Bayesiano requiere simulaciones para calcular valores,
por lo tanto, a menudo requiriendo que los cálculos se realicen en un servidor. toma de decisiones en Pekín es más simple que frecuentista. Si bien hay reglas de decisión estrictas disponibles, las decisiones en bayesiano son tan simples como decidir si la probabilidad de que una variante gane es mayor de lo que usted siente que es aceptable. O decidir si el riesgo de promover una variante es menor de lo que sientes aceptable o es el levantamiento esperado con la variante mayor de lo que crees que es aceptable? Se podría decir que la invasión de decisiones es como el juego. Donde apuestes solo si estás de acuerdo con las probabilidades.
26. Interacciones de acciones: Para cerrar el análisis de resultados abarcará tres temas que se aplican sin importar el enfoque estadístico que tomes. Comencemos con el desajuste de la proporción de muestras. Al igual que muchas cosas en la vida. A veces las cosas no salen según lo planeado. Lo mismo se aplica a los experimentos. En ocasiones mientras queríamos entregar el 50%
del tráfico al control y el otro 50% de la variante,
el tráfico se entrega de manera diferente. Hay muchas razones por las que esto podría suceder, incluyendo cortes de servicio, código malo, quizás un error de plataforma de experimentación, etcétera. Determinar si esto ha sucedido o está sucediendo. Realizamos una tecnología de desajuste de proporción de muestras que calcula la probabilidad de observar una división y tráfico en comparación con lo que queríamos que fuera. Si esta probabilidad es menor al 1%, decimos que hubo un problema en la entrega y debemos investigar. Aquí tienes una propina. Es una buena práctica realizar una comprobación de desajuste de la proporción de muestras poco después de que se inicie un experimento para captar temprano cualquier problema de entrega, así
como cuando el experimento haya concluido. Si falla la comprobación SRM, tiene resultados no válidos. A continuación, interacciones de experimentos. Las interacciones ocurren cuando los experimentos que están vivos al mismo tiempo y están expuestos a comentarios, audiencias impactaron variables dependientes entre sí ya sea suprimiendo o magnificando resultados, haciendo que el análisis sea desafiante. Hay muchas escuelas de pensamiento y cómo abordar esto, que van desde ejecutar experimentos en secuencia, experimentos de siloing. Por lo que son audiencias explosivas, mutuamente excluyentes y simplemente dejarlas correr uno encima del otro. El enfoque más práctico al tratar las interacciones de experimentos es que cuando se cree que para experimentar tener una alta probabilidad de interactuar, debe comparar el desempeño de la audiencia superpuesta con los de los experimentos que se cruzan. Si el cambio porcentual es aproximadamente el mismo, no hay problema. De lo contrario, hay una interacción que indica que las pruebas deben volver a ejecutarse por separado o considerando un factor adicional.
27. Otros recursos: Para quienes están interesados en aprender más sobre la experimentación, aquí te dejamos una lista de recursos que me gusta usar. Y con eso, me gustaría agradecerles por tomar este curso. Si tienes alguna pregunta, siéntete libre de contactarme en Rommel AT experimento Nation.com.