Transcripciones
1. Acerca de la serie aplicada de datos: Hey, bienvenido al curso se juegan señales de datos con nuestro Este es tu instructor, Cameron Parnham pertenecen de video Mastro Let's Go Through y entienda de qué
se trata este curso . El objetivo del curso es capacitar a los estudiantes para que se conviertan en practicantes de datos de pleno derecho. Por lo que nos estamos centrando en hacer practicantes de personas que puedan ejecutar en datos de eventos desde el
proyecto desde el principio adquiriendo datos hasta transformarlos, cargando en un final posterior nuestro destino y luego realizando análisis de órganos sobre ellos en finalmente logrando algunos resultados de negocios de este análisis, qué haces tú Lo que al tomar este curso es entender el concepto y conceptos de signos de datos, entiendes las diversas etapas en el en el ciclo de vida fuera de una ciencia de datos desarrollas competencia para usar nuestro uso ANDI están en todas las etapas fuera de ANALITICO derecho desde Analítica de Datos
exploratoria hasta directiva una hora. Se necesita para modelar dedo del pie. Por último haciendo predicción utilizando algoritmos de aprendizaje automático aprendió las diversas herramientas y técnicas de
ingeniería de datos sobre la adquisición de datos y la limpieza de datos sobre la transformación datos. Conocimientos adquiridos sobre las técnicas de aprendizaje automático amigo en también aprender cómo puedes usarlas y también lo más importante, entonces puedes usarlas convertirte en un practicante de ciencia de datos de pleno derecho y quién es puede contribuir de
inmediato a datos de la vida real. Proyectos de ciencia nopara mencionar que quieres estar llevando este conocimiento a tu entrevista que
puedas conseguir un puesto en la ciencia de datos. Terry fue esta práctica que queríamos tocar esta cosa en particular fuera de la teoría versus la práctica, datos ,
signos, principios, herramientas y técnicas. Imagen de diferentes signos y disciplinas de ingeniería. No, provienen de informática, ingeniería
informática, información, información, terry probabilidad y palos iniciados, inteligencia
artificial y así uno sobre estudio teórico de signos de datos se enfoca en estos fundación científica y razonamiento fuera de los diversos Jardines de Aprendizaje Misión. Se enfoca en tratar de entender cómo esta misión aprendiendo el trabajo de Salgado en un sentido profundo sobre poder desarrollar tus propios algoritmos en. Desarrolla tu propia implementación de estos algoritmos para predecir un verdadero problema de balón. Tan solo uno habita mucho en nuestras ecuaciones y formales en privaciones y razonamientos. tanto que el pacto está en el alcista tardío en parte de los datos, la
ciencia se centra en un juego las herramientas, principios y técnicas con el fin de resolver problemas de negocio conseguir el enfoque en tratar utilizar las técnicas y herramientas existentes y bibliotecas en cómo se puede tomar estos y un juego ellos para trabajar realmente problemas y salir con negocios merece. Este se enfoca en tener una comprensión adecuada de los conceptos un conocimiento de cuáles son las herramientas y bibliotecas disponibles sobre cómo se pueden utilizar estas herramientas y bibliotecas para resolver problemas del mundo
real. lo que este curso está enfocado en la práctica fuera de signos posteriores, y por eso se llama Inclinación de la Ciencia de Datos Aplicados de los cursos. Esta ciencia de datos es un sujeto transdisciplinario, y es un tema complejo. No tiene principalmente tres áreas técnicas en las que enfocarse. Entonces hay matemáticas y estadísticas que es aprendizaje de misión. Y hay programación en este curso está orientado hacia. Ya sabes, programación está orientada hacia los profesionales de software existentes. Está fuertemente enfocado en la programación y la construcción de soluciones. Tiene limitada y pidió la exposición a explosión requerida. El matemático y las estadísticas en él cubre visión general Off machine learning conceptos te da comprensión
articulada de cómo estos machine learning todos los guardaban libros. Pero el enfoque está en usar la herramienta existente para desarrollar una solución del mundo real. De hecho, 90 95% otro trabajo que más tarde tiempo de ciencia. Simplemente hacer en el mundo real es la práctica de la ciencia de datos. En realidad no, Terry, de mayor ciencia y este curso se esfuerza por mantener las cosas simples y muy fáciles entender. Por lo que definitivamente hemos hecho esto muy sencillo. Nos hemos mantenido alejados de algunos del concepto complejo. Nosotros o intentamos tonificar el dedo del pie hacia abajo Estos conceptos complejos simplemente se mantuvieron alejados de ellos para
que sea fácil de entender para personas de todos los niveles fuera del conocimiento en el campo de la ciencia de
datos. Por lo que es una especie de gran curso de enfermeras. Si se me permite decir que la estructura central que es pasa por los conceptos de mayor sentido para empezar, ¿cuál es exactamente su asignado? ¿ Cómo funciona la ciencia de datos? Se mira el ciclo de vida de los santos de datos con sus diversas etapas del ciclo de vida. Luego entra en algunos conceptos básicos de palos iniciados que se requieren para hacer señales de datos. Después entra en nuestra programación. Se cuestiona a muchos ejemplos de cómo utilizarías nuestra programación para diversas etapas en proyecto de ciencia de
datos. Las diversas etapas en datos enviaron lesionados Ingeniería de datos, esfuerzo
parcial. Qué otras cosas típicamente haces ahí que es la ingeniería de una de las mejores prácticas en ondulación de
datos, cubre esas áreas. Por último, está la parte de modelado y analítica predictiva donde construimos en la misión Aprendizaje o Dios Adams. También miramos Endo y casos de uso para estos algoritmos de aprendizaje automático, y hay algunos temas avanzados también que tocamos. Por último, hay un paquete de recursos que viene como parte de este curso, y ese paquete de resultados básicamente contiene todos los conjuntos de datos. El dato presentó la capa ejemplo de corte de muestra sobre ese tipo de cosas que en realidad
enseñamos como parte de este curso el cual se cubre en los ejemplos todos ellos se dan en
el paquete de recursos. Entonces no conozco el paquete de recursos que tiene todos los datos que necesitas y toda la
muestra básica que necesitas para que experimentes las mismas cosas tú mismo. Directrices para estudiantes, el ayuno este dedo del pie entienden sus datos. Santos es un tema complejo. Necesita esfuerzos significativos para entenderlo. Así que asegúrate de que si te estás quedando atascado, haz revisión y aliviarte los videos y ejercicios que hace. Llamó ayuda de otros libros sobre recomendaciones de tierras y foros de apoyo. Si sus consultas 1000 inquietudes sí, y eso es un mensaje privado, nuestro do publicó esta pregunta pregunta, y estaremos realmente contentos. Toe respondió que lo antes posible. Estamos constantemente buscando mejorar nuestros cursos, por lo que cualquier tipo de feedback que tengas es bienvenido. Por favor, sí proporcionar comentarios a través de mensajes privados son dos correos electrónicos al final del curso . Si te gusta el curso, sí dar dejar una reseña. Las opiniones son útiles para que otros futuros estudiantes tomen este curso y esperen los discos
Maxim de otros cursos futuros de We Do Mastro, queremos que eso sea fácil para nuestros alumnos la relación con el otro. Hacemos cursos de maestría son cursos que están enfocados a la ciencia de datos, realmente a temas básicamente, tecnologías ,
procesos, herramientas y técnicas de data saints on. Queremos que nuestros cursos sean autosuficientes tanto como sea posible, ¿eh? Entonces lo que eso significa es, si eres un existente hacemos estudiante de maestría, harás ver algunos contenidos y ejemplos repetidos a través de cursos. Nosotros queremos hacerse una visión Así que en lugar de decir eso, ¿hay algún punto en el curso? De acuerdo, chica, mira despótico como otros cursos. Date de alta para el otro curso y aprende al respecto. Más bien queremos enfocarnos en este propio curso. Mantener dos cosas en el mismo curso. A menos que ese otro concepto sea un concierto enorme. Que ellos mismos por supuesto separado. Nosotros los queremos a la India como parte de este propio curso. Por lo que podría ver algún contenido que se repite a través de los cursos. Por último, esperamos que este curso te ayude a avanzar en tu carrera. Entonces la mejor de las suertes. Aprendizaje feliz en No te mantengas en contacto. Gracias.
2. Tipos de datos: Hola. Bienvenido a la estadística para la ciencia de datos. En este modelo, vamos a estar viendo algunos de los fundamentos de las estadísticas que se requieren para aprendizaje de
misiones y usos de Análisis Predictivo. Por lo que las chicas fuera de este modelo en particular es básicamente para describir las estadísticas básicas que se requieren para Dale asigna. Ah, muy sencillo, nivel
muy sencillo,
muy sencillo con el que vamos a tratar. Vamos a explicar los conceptos son de muy alto nivel y de una manera muy sencilla. Vamos a una amplia familia y representaciones matemáticas, Asma Sólo posible. Queremos simplemente mantenerlo simple para que todos los que, con diferentes niveles fuera de exposición matemática, puedan entender lo que está pasando. S
o.Espero que esto te sea útil en si sientes que quieres aprender más sobre eso, hay otros cursos y otro material para eso. Estamos tratando de premiarlos en este curso para que queramos mantener pero lo mínimo posible para todos. Nos vamos de pie a uno de los tipos de datos sobre qué son y qué queremos hacer con ellos. tipos de datos juegan un papel muy importante en la ciencia de datos porque Misión Learning Guard Adams normalmente se ven impactados por qué tipo de datos se les está pasando. Por lo que algunos algoritmos de aprendizaje automático son buenos con algunos tipos de datos, que es lo que veremos en el predictivo y arreglaré modelo. Por lo que es bueno aprender qué son este tipo de datos y qué se puede hacer con ellos. Por lo que hay cuatro tipos de datos típicamente con los que tratas el día típicamente difieren en el significado en las operaciones que básicamente puedes hacer en ellas. En estos cuatro tipos de datos se llaman datos categóricos son datos nominales son factores. El segundo pañales, datos
orginales nos dijeron. Intervalo en el feto llamado tema. Entonces, ¿qué son exactamente estos? Empecemos con los datos categóricos categóricos representa categorías sobre tipos. Hemos estado viendo tipos y categorías por todo el lugar. El mejor ejemplo de datos categóricos es el género, siendo el
género masculino o femenino. Entonces, ¿qué tiene de especial esto? Categórico más adelante en que siempre hay un conjunto fijo de valores, como en el caso del género que sólo es masculino y femenino. No tiene ordenamiento implícito nuestra secuenciación. No se puede destrozar secuenciarlos ni ordenarlos en ninguna carrera, una es mejor que la otra es más alta que la otra, por lo que todas ellas son consideradas iguales. Realmente no se pueden comparar, como con una mayor que o una menor que simple. En el caso de los datos categóricos, algunos de los ejemplos son como la lista de frutas como manzanas, naranjas, uvas. En un equipo de futbol, puedes tener diferentes tipos de jugadores, como diferentes er mediocampista delantero son tienes tipos de autos como un tema de siembra. Coop etcétera como FNC. En las categorías religiosas que todos son típicamente se tiene un conjunto fijo de valores en. No tienes ningún tipo de ordenamiento implícito nuestra secuenciación entre ellos. El segundo tipo de Dota se llama datos ordinarios, que también producen. Mitt es como datos categóricos en que también tiene, como un fijarlo de valores. Pero eso es ordenar entre estos valores se puede realmente nuestro ellos y decir que uno es mejor que el otro es más alto que el otro en su típicamente representan una escala fuera medición como una escala de 1 a 10 una escala de uno para luchar, o algo así como un alto medio bajo. Excelente, muy
bueno, Bueno Normalmente los regalos escapan, pero sigue siendo categórico. Datos sobre usted puede hacer comparaciones como se puede hacer mayor o menor que el tipo de comparaciones, pero no se puede hacer ningún tipo fuera de operaciones aritméticas como
Suma, resta, división de
multiplicación en cada una de ellas son algunos de los ejemplos que puedes ver. Es como valoración de calificaciones como Destacado, Muy bueno Bueno. Ese es un ejemplo fuera de los datos normales, siendo
el turno del nivel de dolor el más alto, como de 1 a 10 calificaciones estudiantiles. A B C D e de la es la mayor. ¿ Entonces siempre tienes algo así como lo más alto y lo más bajo puedes realmente compactarlos? Preguntó Impacto datos categóricos. El tercer tipo de datos estará tratando con esto llamado el intervalo Datos. Por lo que en los datos totales es típicamente los datos numéricos en la medición. Es la medición donde la diferencia entre los números tiene algún significado, como la distancia. Por ejemplo, supongamos que nuestro distrito en parte y estar 60 millas entre B y C es de 70 millas. El cuestionamiento es de 10 millas en la distancia. Dile al nihilismo número significativo, una lista significativa en Así que en un intervalo, los datos hay significado con goma referenciada con hasta la distancia aquí representa cosas como tiempo, distancia, temperatura, este tipo de cosas. Lo más importante que quieres notar. Esa suma y resta es posible, como se puede sumar tiempo o restar tiempo son distancias a temperaturas, pero la multiplicación y división no son posibles. No se puede multiplicar la distancia uno y destinado a y obtener otra distancia. Siempre obtendrás coro a distancia. Simplemente no tiene sentido. Dedo del pie no se multiplican y dividen distancias, así que eso es lo que significa. Ejemplos son como la hora del día fechas distancia entre dos puntos temperatura y cosas así. Se trata de datos de intervalo. En el último tipo que verías es lo que se llama la relación. El ratio data como todo lo demás, como cualquier tipo de gator numérico que verías que no califica como cualquier otro
otro tres tipos de datos que acabamos de ver. Todo tipo de operaciones aritméticas son posibles con datos de relación. Es posible una tregua ido, pero cero es un valor válido verdadero en En el caso de un dato de ratio. Algunos ejemplos de éstos son como gran cantidad de velocidad en una especie de datos de medición continua que verías en la vida real? Sí. Considera invade tus datos. Entonces, ¿cómo se compararon todos? Ah, aquí está un buen combate está a cargo entre cada uno de los cuatro tipos. Los mejores grandes valores son aplicables en los cuatro de ellos continúa. Los valores sólo son aplicables en los datos de intervalo y relación. Porque orginal a normal son sólo categorías. Las distribuciones de frecuencia que veremos más adelante son aplicables para realmente todos ellos mueven personales
sindicales. Se aplican sólo relación de viaje foráneo en ordinario Lo siento por el rojo ser en el sí y ordinario y 1,000,000 de personas edades. suma y la resta son posibles con los datos de intervalo y relación. división de multiplicación sólo es posible en relación media y desviación estándar. De nuevo, ¿
vamos a estar mirando qué? Lo que sí son en las futuras sesiones están ahí aplicables sólo en viajes y ratio on. Por supuesto, usted puede encontrar realmente relación como entre A y B en los datos de relación sólo en un ensayo cero es aplicable sólo en el caso fuera de los datos de relación. Entonces esto es todo lo que todos compactan entre sí. Espero que esta presentación se haga te ayude a entender cuáles
son los diversos tipos de datos . Gracias
3. Estadísticas de resumen: veremos nuestro algo sobre alguien estadísticas El sábado seis de alguien son una importante, Una parte muy importante fuera de estadística y analítica. Es algo que siempre estás haciendo como análisis básico para cualquier tipo de datos que
veas . Entonces, ¿qué es alguien estadística cuando tienes,
como, como, un conjunto de observaciones como un conjunto de puntos de datos,
tal vez 10 puntos de datos, 100 libras esterlinas. 1,000,000 puntos de datos. Quieres caracterizarlos de alguna manera sobre caracterizar thes spread sobre el tipo off datos que estás viendo en 23 R cuatro números, Y es por eso que tienes un conjunto de estadísticas de alguien como tú tienes como un
jugador de basquetbol en el jugador de basquetbol tiene Bean escoltando una serie de puntos por cada partido. Se quiere llevar un rendimiento loco del jugador de basquetbol. Por lo que se te ocurre algún tipo de estadísticas de resumen como puntos por juego. Entonces te ves bien. En los últimos 10 juegos, este tipo puntos más altos por juego de 20 pero tiene un promedio de carrera de puntos portadores por partido off 15. Entonces lo que estás haciendo es que estás tratando de conseguir una serie de puntos de datos en este caso, el número de puntos que los jugadores atraparon en cada uno de los partidos al tratar de resumirlos en uno o dos números. Eso representa cómo se veían los valores individuales reales. Entonces esto es lo que llamamos estadísticas resumidas. Por lo que estas observaciones observaciones observaciones tienen un número fuera de puntos de datos y alguien comenzó palos se utilizan para caracterizarlos. Entonces, ¿cuáles son los videos? Alguien, uh, las estadísticas que te miramos empiezan con Tendencia central en puerta son tres
tipos diferentes de ellos, pero solo significan, que no es más que la mediana media y más. Entonces hay variación. variación entre el punto se mide por varianza y desviación estándar en. También hay sesgo cómo los datos son lindos hacia un extremo u otro para medir que tenemos corporal. Ahora vamos a seguir adelante y ver cuáles son cada uno de ellos. Empecemos con tendencia
central, tendencias centrales, una medida fuera. Muy los datos es Stendhal está centralmente 10 hacia Así que empezamos con media todo el mundo es familia con media son la onda promedio. Cómo ser computado también es muy sencillo. Simplemente se suman todos los números y se fueron por el número fuera del recuento de los números
que tenemos . Entonces a todos los números divididos por el conteo y luego obtienes la media son la media bastante simple y directa. A medida menos utilizada tendencia fuera del centro es la mediana no es más que el valor
medio. El valor medio significa que tienes un conjunto de números. ¿ Cuál es el valor medio que encuentras ahí dentro? ¿ Cómo encuentras la mediana? Se toma esto, se desprenden los números y se ordenan en orden ascendente y luego se encuentra, que está exactamente en medio de esa lista. Ese es el valor medio en si el número fuera del recuento de los números es par, Digamos que de 10 números que encontrarías. ¿ Qué o cómo encuentras el medio es que básicamente tomas el entre los Digamos que tenemos, como 10 números. Se toman los dos números medios, suman y se dividen por dos para que encuentren el promedio fuera de los valores medios encendidos. Eso es lo que te va a dar la mediana. Digamos que tienes 10 números. Toma el número 15 6, agréguelos y divídalos por dos, y obtendrás los medios lo siguiente es más no es más que el valor que más ocurre en el conjunto de datos. Entonces te tienes para ti. Decían nuestros datos, donde los números no son únicos, siguen repitiendo más. Ese es el número que más ocurre en cuál se usa dónde y eso depende de la situación. Es muy situación dependiente de qué? En base a lo que estarás usando para medir 10 tendencia central. Muchas veces en realidad podrías mirar a los tres para entender algunas características a bordo de los datos. Entonces esta es una vista. Compute tendencia central. Supongamos que tienes un conjunto de observaciones como estos son los números. 1345578999 Entonces cómo lo haces Así tienes 10 números años cuenta de 10. Uh, algunos de estos números son 60. Basta con sumarlos. ¿ Y cómo me encuentras? Es alguna por conteo, que es 60 mordida, luego debajo de
la seis, el símbolo que se utiliza para media es el símbolo mula diversión. tomate usado suelen representarme. El mediano no es más que el valor medio. Si miras esa lista de números, el valor medio. Entre esto, 10 son el que directorio en el quinto, bajo sexto en la lista, y es decir cinco y siete. Entonces solo tomas esos dos números cinco y siete Adán y divides por dos. En se obtiene 66 es el medio, y el motor es el número más ocurriendo en esa lista. Verás que el número nueve está ocurriendo tres veces, por lo que eso se convierte en el modo. Es así como calculas estas tres métricas simplemente siempre que tengas algún tipo de paquete de análisis
estadístico. De hecho, cualquiera de los lenguajes de programación son las herramientas que tiene proveen bibliotecas o funciones para computar las tres de ellas. Por lo que más o menos no tienes que estar bien en el dedo del pie de la corte manualmente. Cómpralos. Siempre tendrás algún tipo de función. Ayude a que nuestra biblioteca ayude a computar cualquiera de estas cosas. A continuación vienen variantes. Variant se utiliza para medir cómo se distribuyen los valores alrededor de una media. Entonces tú eres el medio, que es la tendencia central. Pero, ¿cómo se distribuyen los valores alrededor de la media? ¿ Están más cerca de lo malo? ¿ Conocen mucho a todos los amigos? Es decir, puedes tener números que van del 4 al 6 con un archivo más mezquino. Y puedes tener números que van del 1 al 10 con una pelea más mala. Por lo que a pesar de que para ambos los cinco más malos, la distribución de estos números es diferente. 4 a 6 y 1 a 10. ¿ Cómo mides esa distribución? Y para eso usas varianza y desviación estándar. Entonces básicamente ves que si lo muy en lo pequeño son el estándar, la desviación es pequeña, muy en la variabilidad en los datos es muy pequeño. Si los valores son altos, la misma capacidad es muy Entonces, ¿cómo se va a la informática? Desviación estándar muy intensa. Por lo que en el lado derecho tienes una mesa, una tabla de ejemplo en esta. Pero vas a ir y empezar a computar la varianza y la desviación estándar. El primero que haces por aquí tienes, como puntos de datos de fuego 54635 y a lo primero que haces es computarme la media del valor. Todos estos valores es por una vez que se computa la media de los valores. Entonces comienzas a restar cada valor de la media. Entonces dices cuatro menos la mezquindad. Cuatro. Por lo que cuatro menos para un 06 menos. Perdón por mi seis es menos dos. Se inicia. Estás haciendo media menos el valor. Entonces para menos seis es menos dos cuatro. Menos tres es uno para menos cinco s menos uno. Entonces obtienes todos estos valores. Entonces, ¿qué haces? ¿ Tu Escudero? Todos estos valores. Entonces Escudero de cero es cero. Tranquilo. Menos dos es cuatro unicidad. Una unidad menos uno es 12 poniente para Entonces, ¿qué pasa cuando escuderos? Básicamente estás eliminando el valor negativo de la lista. Una vez que haces este coro, te sumas todas las plazas, la suma de todas las plazas que hacen el restan cada número de la media y luego te escudero Adama. Y luego los resumiste y obtienes un valor de 10. Y cómo se obtiene la varianza es usted Divide este número 10 por el conteo. Entonces hay una pelea. Cinco valores ahí dentro, Algunos off Squires. El stents, o 10 por cinco es dos. Por lo que la varianza fuera de este dato dicho también lo es. Entonces una vez más, restas cada valor de la media los escucho y luego algunos arriba. Todas las plazas se dividen a algunos fuera Escuderos por dos. Y eso es todo lo que consigues resplandor para encontrar. Desviación estándar. Solo dividido invitado do es ruta tranquila fuera de las variantes y luego se obtiene la desviación estándar. Algo que notan es que las variantes la medida off variantes suele ser la unidad de medida suele ser el cuadrado fuera de la unidad de los valores individuales. Lo que quiero decir al respecto es suponer que cada uno de estos valores representa distancia. Digamos que cada uno de ellos es millas cuatro millas, seis millas, tres millas. Entonces variantes es en realidad cuando te la habitación porque está tranquilo. Todos los valores varianzas dos millas al cuadrado. Entonces hazlo para obtener el valor en la misma unidad en millas, tienes que Squire los montó y obtienes desviación estándar. Entonces aquí se dice el dato, ¿Dónde está donde se tiene una lista puesta en marcha? Dijeron que la distancia y las millas, la principal es de cuatro millas bajo desviación estándar ist 1.41 millas. Entonces eso es todo lo que representas aquí los datos para la media y la desviación estándar que sigue adelante. El siguiente cosa que quieres ver es sobre cuarto de azulejos cuartil se utiliza para encontrar. Básicamente, en realidad te da una medida de nuestro lote fuera de las cosas, por lo que te da una medida de la tendencia central que te da. Medida del rango. El rango no es más que en el valor mínimo y máximo en un conjunto de datos. Alguna medida de los inquilinos y tendencia central mediana del rango, cuál es el valor mínimo en el valor máximo sobre cómo se sesgaron los datos? ¿ Es sesgada hacia el valor mínimo se sesgan hacia el valor máximo. Todos ellos se mide mediante el uso de cabo. Entonces, dado un conjunto de observaciones, ¿cómo encuentras el cuarto más? Daste un conjunto de observaciones que las ordenaste en secuencia en Dividirlas en cuatro
conjuntos iguales . Por lo que tiene un conjunto de valores. El mismo conjunto de valores que viste antes para calcular significan en ti dividirlos en cuarto sentido
igual. Por lo que cada servicio, al 25% contiene 25% de descuento en los valores en el conjunto de datos. Entonces el primer valor que ves es el valor medio. El que se ve en el percentil 25 se llama el primer trimestre. En este caso, son cuatro,
El
que se ve en el percentil 20 se llama el segundo cuarto por debajo de la mediana. El que se ve en el 3er 1 o el 75 percentil es el tercer cuartil sobre uno. El valor máximo realmente forma el cuarto cuartil como valor máximo. El valor medio primer cuartil mediana, tercer trimestre valor máximo. Por lo que al mirar a estos cinco corredores, los hombres primer cuartil mediana el cuarto que max. En realidad usa tu bonita imagen ization off cómo se distribuyen los datos. Algo que quieres ver es ahí entre el valor medio y la mediana, 50% de los valores ocurren. Es decir, valor y mediana 50% de los valores otra vez. De igual manera, entre la mediana y el valor máximo, ocurre
otro 50% de los valores. Y lo más importante, entre el primer trimestre del tercer trimestre,
50% de descuento en los valores, derecho, primer trimestre y tercer trimestre, se produce el
50% de los valores. Entonces así es como miras y tratas de caracterizar los datos y dejarlos ir y mira algunos ejemplos aquí. Entonces aquí hay un set off conjuntos de datos todos de los mismos valores min y Max pero te da cómo los datos pueden variar y tener puedes interpretarlo. Echemos un vistazo a los primeros Datos's y usando 1358 10. Esto es algo así como distribuido equitativamente. Por qué esto está igualmente distribuido es el mejor ins entre el minuto a primeras cantidades como dedo del pie entre el primero y el encuentro Esto, como a medios y tercer cuartil es como tres, por lo que es una especie de distribuido uniformemente entre cada uno de estos números. El 2do 1 que ves es la mayoría de los valores están más cerca de los centros. Se ve que 1456 y 10. Entonces entre el primer y tercer trimestre, es
decir cuatro y seis. Verás que el 50% de los datos ocurre USO 50 persona fuera de los números en tu centro de datos entre cuatro y seis, mientras que el global oscila entre uno y 10. Por lo que te da otro tipo de variación donde un número de callejones están estrechamente empacados juntos en la mediana. Pero hay un montón de valor ahí están los frente, por lo que es una especie de ciertos valores están lejos, pero la mayoría de ellos están empacados en los medios de comunicación. Tercer conjunto de datos es donde se ven 1237 y 10. Entonces a pesar de que los rangos entre uno y 10 el historial de reuniones así el 50% de los valores que acabo de cubrir en 100 en otra 50 persona nudillo entre tres y 10. Entonces está un poco sesgada a la izquierda y miras la siguiente ronda, ves que
te arriesgas a dividirte porque la mediana es de siete. Entonces entre siete y 10 o 50% de tus valores, Pero hemos sido uno sobre siete, otro 50%. Por lo que se están produciendo más mítines entre la mediana y el maxilar simplemente repitiendo, mientras que hay menos número de valores ocurriendo entre los hombres y los medios de comunicación. Esta es una bonita presentación off. Ya sabes, mirar esto es como miras los datos y tratas de averiguarlo, pero menos mirando al trimestre. Intentas encontrar una serie de cosas sobre los datos. Te gusta ver cuál es la tendencia central, cuál es el rango de los datos y se distribuyen uniformemente, se rescatan, incluso se ven reales, todos ellos con sólo mirar los cuartos de final. Lo último que queremos mirarlo alguien arranca los palos es lo que nos llamamos atípicos . Entonces, ¿qué es un atípico en nuestro jugador? ¿ Se produce un valor artístico en un conjunto de datos sobre vestido típicamente hacia el tema axinn o inminente del desierto? Porque ya es obviamente va a ser hacia él al máximo e impar inminente del conjunto de datos todos los jugadores. Por qué son importantes en análisis es que pretenden iniciar los palos que alguien inició del conjunto de datos. Entonces si estás usando datos sin formación de jugadores aprendiendo puede iniciar el comportamiento fuera tu misión aprendiendo algoritmos a Así que esa es una de las cosas principales que quieres recordar . Hay jugadores son muy importantes cuando estás pasando datos al
algoritmo de aprendizaje de misión . Un ejemplo aquí es por lo general tienes un conjunto de observaciones como 1245 en 20. Obviamente ves de inmediato que 20 es como un número de arte sentado ahí, razón por la
que lo llamamos el valor atípico. Por lo que sin jugadores. Entonces vamos a una bandeja que se había desviado para calcular la media y desviación estándar de este dato dicho con y sin nuestros jugadores. Entonces sin jugador, ves el 6.4 más malo y la desviación estándar de 6.94 Pero te quitas a tu jugador y solo tomas los 24 números 124 y cinco e intentas calcular la media Ahora ve la media es solo tres, y la desviación estándar es de solo 1.5. Esto es lo mucho y ojalá puedas empezar. Son números, así que hay que tener mucho cuidado con todos los jugadores. Siempre que mires los datos seg y tienes que decidir que quieres mantener a los viejos jugadores para tu análisis financiero no lo son. De lo contrario va a tener este tipo de desempeño distorsionado. En realidad puede darte la idea equivocada. Análisis
erróneo, acciones equivocadas, todo tipo de cosas. Por lo que quieres tener mucho cuidado con nuestros jugadores. Por lo que esto completa nuestra discusión sobre alguien comenzó
4. Distribuciones estadísticas: Hola. Este es tu instructor, Cameron. Aquí ahora estamos tratando de ir a ver en el apartado sobre distribuciones. Las distribuciones estadísticas son distribuciones de probabilidad. Distribuciones son una manera Bischel fuera de algunas carreras y mostrando tendencias en ti. Si te han utilizado Toe Analytics, estarás viendo mucho sobre estas distribuciones que en tu vida real. Entonces, ¿cuáles son las distribuciones de distribución? Mostrar cómo se distribuyen los valores de datos en un dado. Observación dijo por lo que se tiene un conjunto de datos. Eres coleccionista. Número de observaciones o muestras son ejemplos. Y luego estás tratando de averiguar cómo se reparten estos valores en un conjunto de datos dado. Entonces, ¿cómo te va? Distribuciones es distribuciones básicamente contenían un conjunto de contenedores. Los contenedores son nuestros grupos se muestran en el eje X. Entonces en este gráfico de ejemplo del lado derecho, los contenedores son en realidad como los tipos de retroalimentación que obtienes como excelente. Muy bien, Bueno Farron malo. Por lo que cada uno es un estado encendido. Después se cuenta el número de observaciones que ocurrieron en cada una de las papeleras. Entonces supongamos que recogiste retroalimentación de, digamos, 50 personas y luego quieres mostrar cómo ingeniosa excelencia conseguiste lo maney muy bienes que
obtuviste . Qué mercancía maney te metiste. Es así como los muestras en una distribución es que filetes cada uno fuera de la calificación tipo off y los
pones en el eje X y luego el conteo que encuentras su teléfono como cinco puestos en el eje Y . Y así es como se vería una distribución. Es así como lo haces para un dato categórico u ordinario. ¿ Qué pasa con los datos de intervalo o relación? En el caso de intervalo o ratio, eres Los contenedores suelen ser rangos fuera de valores. conviertes en rangos de valores como 1 a 10 10 a 2020 a 30. Por lo general, son rangos de igual tamaño. Y luego muestras cómo ocurrieron los valores maney en cada off estos rangos. Es así como harías una distribución para datos de intervalo o relación. Aquí te damos un ejemplo de cómo construirías una distribución. Entonces en la parte superior, ya ves, como número 10. Por lo que este es su dato, dijo el dato. Tiene 10 números en ellos on. Yo quiero construir una distribución. ¿ Cómo hago eso? En primer lugar, creo Stubbins de Ben que se muestra aquí es estoy tratando de crear contenedores en el rango de dos números . Quieren hacer de 3 a 4567 a ocho y nueve hoy, y luego se toma cada valor y se pone en el estado correspondiente. Entonces los valores más rápidos para tomo este cuatro y meto en el bin 3 a 4 porque ese es el rango en el que cae. Después te llevas siete en ponerlos en el en el ben 78 porque ese es el arreglo en el que
cae . Después sigues haciendo eso por cada valor que encuentres en el conjunto de datos. Y luego finalmente se cuenta el número de valores que ocurren. Cada uno de los ha sido el número de valores de 1 a 2. El estado querer hacer hay tres valores tu país. Por lo que una vez que tienes el conteo depende plantas los frijoles en el eje X. 123456 789 10 y sangre. El cuenta con el eje Y on. Entonces pop. Poner en los puntos de barras son lo que sea en el programa y así se construye un gráfico de
distribución para un determinado conjunto de datos. Ahora, cuando se tiene distribución que son diferentes formas. Terminas cuando haces una distribución. Entonces cuando tienes, cuando intentas dibujar llano liso en estas parcelas o aquí, digamos Vuelve a la distribución anterior e intentas dibujar SMU, entrena en la parcela así. Por lo que uno de los que manejas distribución, en realidad
puedes dibujar un pequeño avión en la parte superior de todas las barras. En la parte superior de los puntos, obtienes una forma en la forma. Típicamente, que las minas eran una especie de distribución. Es así que hay diferentes tipos de distribución, como la distribución en forma de J. Dices que los valores son los más bajos de Ben tienen valores mucho fuera que los contenedores más altos en el caso. Fuera de una distribución normal, se
ve que los contenedores medios tienen más valores en el en el inferior y el superior para saber que ese número de dinero de valores en el caso de una distribución rectangular, todos los contenedores tienen igual número de valores en una distribución de modelo de compra. Ya ves, los dos baches son dos montañas en las distribuciones de ahí es donde se llama por modelo, lo que hay un no en el dicho inferior. Hay uno que tiene muchos valores en el lado superior, hay una victoria que tiene muchos valores. Después están los positivos. P. Y los negativos que donde en la matanza del pastor, mientras que los huesos inferiores suelen tener un número más de valores. En el caso del Studi negativo, los eventos más
altos tienen más número de valores. Es así como la distribución que son diferentes tipos de distribuciones que típicamente están ahí. Después viene lo más importante llamado distribución de probabilidad. Entonces, ¿qué es una distribución de probabilidad? Este es un concepto poco complejo si quieres prestar más atención a tratar de entenderlo ,
por
lo que asigna una probabilidad dedo del pie a cada sustituto mensurable off. Los posibles resultados a menudo experimentan de nuevo. Aquí hay mucha complejidad. Vamos a calificar uno por uno. Tienes un experimento. Un experimento no es nada, pero estoy recopilando datos. Entonces un hombre extra, tal vez como estoy tratando de encontrar entre 100 pacientes. Ya sabes que tipo Ohka supongamos que tengo 100 pacientes en? Yo quiero encontrar cuáles son los rangos de edad de estos pacientes. Cuando querían mi playera edad oscila de estos pacientes y quiero una trama hasta
distribución regular . Lo que normalmente haría es quitarme la edad de los 100 pacientes de este paciente encendidos, luego ponerlos en cubos de 0 a 10. 10 a 2030 22 30. Al igual que en. Entonces quiero poner el conteo en el eje Y y sacar buena sangre. Ahora esa es una distribución regular. Ahora lo que hace una distribución probablemente es en cosas trazando el conteo en el eje Y. Voy dedo del pie plod la probabilidad de cada uno de estos rangos ocurriendo. Entonces, ¿cómo hago eso? Déjame volver a la trama anterior y luego mostrarte No. Aquí está la distribución de área que construiste. Pero el sol sido brilló en el eje X y cuenta con el eje Y. Ahora solo cambio el dedo del pie de cuenta. Probablemente estar en espera. Debí probablemente haber apagado cada una de estas curvas. Es muy sencillo. Simplemente tomas el conteo en cada uno de los contenedores, preocúpate por el número total de valores y eso se convierte en la probabilidad para cada uno con ser así en este caso, el número total de valores fuera para frenar el conteo, y ahí ha sido un dedo hacer una calle. Entonces tres. Pero entonces nuestro 30.3 es la probabilidad de que el sido deseadopara apuntar a la probabilidad del sido qué? Hermosa. Por lo que traza probablemente en el eje Y de Ben en el eje X que se convierte en tu
distribución de probabilidad . Volvamos al otro tobogán y empecemos a cavar un poco más profundo. Entonces en este caso, digamos que he envejecido en el eje X sobre la probabilidad de que un paciente tenga esa edad es manchada en el eje Y, que estás midiendo diciendo que estoy recopilando un dato de 100 pacientes y luego estoy ponerlos todos en una distribución y luego convertir hacer una distribución probablemente con la técnica Acabamos de acoplar herbal. Por lo que cada posible rangers parte alrededor del eje X, que es, como dijimos, H 0 a 10 10 a 2020 a 30 en adelante, entonces el probablemente ese grupo de edad en particular ocurre es puntual en la Y. probabilidad del
eje es siempre un valor, pero siendo 0 a 1. Por lo que vimos que puede ser como si 30 agentes dictaran 30 pacientes de cada 100 pacientes son
del grupo de edad de 20 a 30 años. La probabilidad de 20 a 30 es de 30 por 100. Bajo este 1000.3, puede tener probablemente distribuciones para ser discretas o continuas. Discretos significa que pueden ser simplemente Vince son. Puede ser. Puedes usarlos para trazar, continuar un conjunto de valores y luego trazar una bonita cubierta sobre ellos, también, para que puedas hacer ambas cosas en términos de distribuciones de probabilidad. Una de las distribuciones más populares que se ve se llama una distribución normal Son la distribución
Goshen. Entonces, ¿qué es una distribución normal? A. La distribución
normal es la distribución donde al bloquear valores fuera, dado el conjunto de datos en un gráfico, se quita el barco y nuestro Melco Así que traza los valores en un gráfico en un dato de Devon y debajo de los datos toma lo que se llama normalmente luciendo rizado. ¿ Qué es un auto de aspecto normal? Echemos un vistazo en el gráfico lateral derecho. Un auto de aspecto normal típicamente lo tiene, asumiendo que son simétricos sobre la media, lo que significa que tomas la media, que es la barra media. Se ve el gráfico siendo cementado. Ambos lados se ven típicamente iguales. No hay goletas. A la izquierda hay goletas a la derecha o algo así como un por moderno algo así. Por lo que es igualmente simétrico sobre la media. Y hay otras características sobre una distribución normal sobre eso es ver. Empecemos con tratar de entender qué significa cada uno de los medios que dice, alrededor del 68% de los valores nuestro vivir dentro de una desviación estándar fuera de la media ¿Qué
significa eso ? Entonces el malo es hermano en el medio? Pero solo llamamos aquí experto. Podríamos haberte llamado también otra vez. Hay un poco diferente, pero no queremos entrar en eso. Y entonces ¿qué hace X más un sigma en lo que es X menos un sigma? Supongamos que sabes, los datos dijeron que la media de los valores es luchar. Entender que la desviación es demasiado así que X más un sigma es cinco más dos que un siete x menos uno significa tres. Por lo que ocurre entre el 3 al 7 68% de los valores. Por lo que el dato dicho tenía 100 valores con una fueron media off cinco y desviación estándar de a 68. Fuera de ellos estaría entre los valores tres y siete. Permítanme repetir. Tengo un día Lo hace fuera 100 valores con una media de cinco desviación estándar de a 68. Fuera de ellos estarán entre tres y siete. Pero sólo, quiero decir más un sigma y mineros medios Una vez que entonces dices que el 95% de ellos estará entre dentro de dos desviación estándar de la media, lo que significa que el 95% de los valores van a estar entre express a una X menos dos, que es lucha más hacer para hacer cuatro. Entonces cinco más cuatro y cinco minutos para el medio, Por qué se estarían produciendo los valores uno y nueve, 94% de los valores. Por lo que sólo te muestra cómo los valores se distribuirían uniformemente sobre si los valores se
distribuyen de esta manera y confirmando dedo del pie esta partícula de forma sobre estos números, se
convierte en una distribución normal sobre la distribución. Entonces, ¿por qué querrías que averigüemos si tus datos son normales o no? Porque una vez que sabes que tus datos parecen una distribución normal, hay mucho fuera de las fórmulas estándar construidas en las que normalmente puedes empezar a jugar . Hay un conjunto de supuestos regulares de que no puedes empezar a aplicar a tus datos. No tienes que sentarte y computar muchas cosas. Ya se computan muchas cosas para ti. Hay agricultores y bibliotecas disponibles para ti, cuales puedes empezar a usar si sabes que tus datos se distribuyen normalmente en. general, logeneral,también se dice que la mayoría de los datos dice que encontrarás se distribuirán normalmente. Conferencias. De acuerdo, debajo a la izquierda, dijo, Ves otro gráfico el cual te está dando cómo se verá la distribución normal para diferentes valores de mu. En diferentes valores se encuentran variantes de la clásica desviación estándar de Myers de Sigma. Sigma Squired es radiante. Entonces, ¿qué valores diferentes de ti y división estándar? ¿ Cómo se ven estos valores? ¿ Apenas las tapas rápidas? Muy angosto. Eso se debe a que se ven las desviaciones estándar del espejo espejo espejo las varianzas bastante menos a medida que una varianza sigue aumentando, la altura de la curva baja en el spread del CO sube. Entonces eso es todo lo que ves. Diferentes distribuciones normales están tomando forma. Aquí hay un ejemplo fuera de una distribución normal. Se trata de empleados fuera de una fábrica de cereales. Muestra sobre el número de años que trabajan las personas y cuántas personas caen en ese número en
particular fuera de tu scategory. Por lo que el número de años se ha trazado en el eje X. El frecuencias es frontal alrededor del eje Y. Eso significa el número de personas. Entonces digamos que la única mirada al número de nosotros trabajamos este ocho hay 100 de su propia gente en que Un particular ha estado en la media off. Este dato es 10.21 La desviación estándar es 4.1. Entonces cuando miras una figura como esta, inmediato te da una bonita imagen. Ización de cómo se difunden los datos. Te fijas en la imagen de la justicia pulgadas. De acuerdo, estos son todos mis datos. Parece que el medio está alrededor de las 11. 11. Basta con mirar el gráfico. Se puede ver fácilmente lo más malo alrededor de las 11. Lo hacen muy bien, difunden los suyos, no sesgados. En fin, tal vez
puedas hacer algunas suposiciones respecto a ellas. A continuación viene una distribución muy importante llamada a por distribución de modelo por
distribución de modelo por una distribución nominal. Una distribución binomial es sobre datos donde la fecha mira ya sea cero o uno. No es un número oficialmente un 01 Supongamos que tienes una prueba, que es que alguna vez activaste a 100 pacientes. Y usted quiere decir: ¿Este paciente tiene cáncer o no? Entonces eso es una prueba. Por lo que tienes 100 pacientes. Haces esta pregunta 100 veces por cada uno de estos pacientes, tienes. Contesté con sólo uno o cero o s o no, ya
que son sólo dos valores posibles, es decir por su llamado por un ejército de sobre una distribución para ese tipo de un dato se llama distribución
binomial. Entonces, ¿cómo trazar una distribución binomial? Supongamos que lo tienes es básicamente describe una probabilidad fuera de un matón, un desenlace que es decir que si tengo bajo pacientes, ¿cuál es la probabilidad de que 30 personas estén 30% de descuento en mis pacientes? Nos encanta el cáncer. ¿ Cuál es la probabilidad de que 50 de descuento a mis pacientes tengan cáncer? ¿ Cuál es la probabilidad de que Sandy off mis pacientes tengan cáncer? Eso es lo que una distribución binomial suele tratar de responder. Entonces digamos el ejemplo del lado derecho, tal vez seamos como 10 pacientes, vale. Y de esto 10 pacientes estaban tratando de encontrar la probabilidad lo que es autoridad que a los pacientes tienen cáncer y que probablemente estos apuntan son 20% de descuento a mis pacientes. ¿ Cuál es el problema con eso? Cinco pacientes fuera podrían tener cáncer en la probabilidad está en algún lugar aquí, como 50.12 son 12% de los pacientes. Entonces si tienes, como, una serie de ensayos en este ensayo y nada más que el número off observaciones en este caso que el número de pacientes, si tengo un número de pacientes y tengo kay, es el número de éxitos, Kay es el número de pacientes entre esto en que podrían tener cáncer. ¿ Cuál es la probabilidad que estás tratando de una fuerte distribución de probabilidad y decir, Vale, cuál es la fiesta de que el 10% de los pacientes, 20% de mis pacientes, 30% de los medicamentos tendrán cáncer. Entonces esta es una trama fuera de toda la probabilidad. Por lo que el problema se traza en el eje Y el número off observaciones en ensayos en el eje
X del número de pacientes y luego tú solo nuestra barra en cuanto a cómo te gustaría ver eso. Aquí un ejemplo de distribución binomial. En este caso, lo que estás haciendo es que estás tratando de voltear una moneda por veces cuando volteas una moneda cuatro veces , lo cual no es más que cuatro observaciones son cuatro ejemplos o cuatro ensayos cada uno. Por cada juicio, vas a conseguir un binomio al alza. Va a ser cabeza o cola. Por lo que sólo hay dos salidas posibles fuera de cada juicio, cabeza o cola. Entonces tú tratandode llevarte los cuatro ensayos y ver cómo maney cabezas totales puedo conseguir. Entonces cuando haces un flip off monedas cuatro veces, estas son toda la combinación posible. Hay 16 combinaciones posibles de cómo te pondrías cabeza nuestro día y en realidad
se muestran aquí. O bien puedes conseguir cabeza, cabeza, cabeza cabeza. Había tenido toma en tal vez alguien como cola de cabeza, cabeza de
cola. Entonces aunque las 16 observaciones que tratas de encontrar cuántas veces voy a conseguir en este producto
a medida con un gráfico aquí y decir exceso, señalando por el número fuera de ella. Entonces, ¿cuántas veces conseguirás cero cabezas? Entonces esa fue la que es cuando consigues todos los cuentos uno de 60. Tan bueno, uno del otro 16 el probablemente dividido por 16 es de 160.6 a 5. Cuál es el probable que llegue a una sola cabeza. Obtienes cuatro veces en esta lista. Ya verás que hay cuatro veces que solo conseguirás una cabeza. Entonces eso son cuatro por seis veces Howard. Tengo sólo 62 cabezas que tiene seis por 16 Onley tres bateó cuatro por 16. Yo te quiero. ¿ Y de dónde sacan las frentes? Eso se gana por 60. El euro Este bonito. Probablemente Eso se está acercando aquí en. Después vas a ella y sangre. Este es el número de hits que conseguirías bajar el eje X en el probablemente estar en el eje y. Y luego consigues esta bonita Belka así. Esto es lo que ejemplo de una distribución binomial. Y puedes usar esto para averiguarlo. Ya sabes como es la propiedad a la que llegaré y luego puedes mirar Ok. Es así como se distribuye la probabilidad a través. Por lo que eso completa nuestra discusión sobre distribuciones. Gracias.
5. Correlaciones de estadísticas: alto en este apartado, vamos a hablar de correlación. correlación es la base fuera de señales de radar y aprendizaje de misión Sigues hablando cuando hablas de señales de datos sobre señales sobre la perspicacia, información, conocimiento, todo tipo de cosas. El fundamento de todos ellos es la correlación. Cuando conoces el aprendizaje de misión, estás tratando de proteger algo pero algunas otras cosas. Aquello que intentas predecir es el objetivo. Esa cosa que estás tratando de usar para predecir se llama la variable Predictor en el dedo del pie. Predecir el objetivo. Tiene que haber una correlación entre el predictor y el objetivo. Si tienes correlación, puedes usar el aprendizaje de misiones para predecir. Si no tienes correlación, entonces no puedes hacer nada. correlación es el fundamento fuera de datos Santos sobre que se ha negociado. Aprende algo más abortado. Entonces, ¿qué es la correlación? La correlación es una conexión de relación mutua entre dos o más cosas. Por lo que hay dos cosas que están representadas por dos conjuntos de números. Cuando dices correlación, significa que cuando un conjunto de números, cuando el valor sube, el otro también sube o el valor baja por un lado. La devaluación también van piedra del otro lado. Por lo que en el lado derecho tienes un gráfico entre la presión negra y la edad en. Se ve que a medida que el ocho aumenta, la presión arterial también aumenta o disminuye. Esto muestra la relación entre la edad variable y la presión variable del pan. En esto, lo que llamamos correlación preguntar. Cuando una cosa sube, la otra también sube. Muestra interdependencia entre dos conjuntos de valores son la interdependencia entre dos valores dos variables. Entonces la correlación, como dijimos de nuevo, es con la correlación entre dos conjuntos de datos es cuánto cambia uno cuando el otro también cambia, cuánto cambia uno, ¿Qué tan de cerca cambia uno cuando el otros también cambios? Y es la base fuera de los signos de datos. Como acabo de explicar, se necesita
correlación entre el predictor y las variables objetivo para que usted haga predicciones
precisas. Y aquí vimos un ejemplo de la edad y la presión arterial midiendo correlación. ¿ Cómo se mide la correlación? Hay una serie de formas en que el brazo asegura, que hemos estado utilizando para medir la correlación, pero la más importante y la más popular es lo que llamamos el
coeficiente de correlación de Pearsons . Estaríamos utilizando esta medida de coeficiente en todos nuestros ejemplos en unos
modelos de analítica predictiva . Por lo que por favor preste mucha atención a esto. coeficiente de correlación de Pearson es un número que varia entre menos uno y más uno, cuanto más cerca esté el valor dos menos uno. Esa correlación más negativa es cuanto más cercana. El valor es de dos más uno. Cuanto más positiva esté la correlación cuanto más cerca, el valor es 20 No hay correlación en los ejemplos para ellos se muestran realmente en los diversos gráficos en la parte inferior. Entonces supongamos que tomas dos variables y sangre una en el eje X por la otra en el eje Y en cada fecha aparte y en cada ejemplo. Nuestra muestra de este producto aquí en este gráfico. Pero, dijo, hay una perfecta correlación positiva sobre el valor. Es una que ves que a medida que aumenta a medida que aumenta el exceso de acceso, ¿por qué también aumenta en un plano
realmente, realmente recto? Cuando la correlación es como 0.8 correlación altamente positiva, verás que casi caen en una pierna recta. Pero hay pequeños altibajos en algún lugar cuando tu valor de 0.3, que es bajo, correlación
positiva, los valores empiezan a extenderse, pero siguen cayendo en línea recta, ya
sabes, alguna palabra en línea recta, pero hay muchas variantes cuando no hay correlación. Por supuesto, los valores están por todo el lugar cuando el valor cero y la correlación negativa es cuando un valor sube al otro pueblo fantasma, eso es lo que llamas una condición negativa. Uno sube, el otro baja. Entonces la misma plomería en la X e y se ve que cuando hay baja correlación negativa, los valores están por todo el lugar. Pero sigue cayendo algo en una línea recta decreciente. Cuando se mueve en una alta correlación negativa, es casi una línea recta sobre un negativo perfecto. Correlación es que fue una línea recta decreciente. Por lo que esta es nuestra correlación entre dos conjuntos de valores puede variar entre uno y otro en. Era importante para ti seguir trazando tus datos en este tipo de gráficos y seguir mirando esa maldita y viendo cómo, qué tipo de correlación estoy viendo en las gráficas y cuál es mi esencia de ser? Coeficiente de correlación midió lo que cada uno de ellos una cosa muy importante que sabemos no damos cuenta de la correlación es cuál es la relación entre correlación y causalidad. Entonces la correlación, como vimos, es que la relación entre dos valores la causalidad es la razón de un cambio en el valor. Tienes variable y variable estar encendido cuando la variable a sube. Donde vas a estar también sube. ¿ Significa que variable un ISS, los autos fuera variable beat? Tomemos un ejemplo sencillo. La relación invadiría los niveles de colesterol Andi. Normalmente verías que a medida que el peso sube, los niveles de
colesterol también suben. ¿ Es una causalidad? ¿ Es esperar una causalidad para la universidad para que los niveles de colesterol vayan? Sí, eso es porque está científicamente probado que cuanto más apagado donde pesas típicamente más lejos tienes en tu cuerpo encendido. Eso significa que va a ser una serie de científicos, no hay razones por las que ahí vas a estar teniendo más colesterol. Entonces hay una razón por la que hay una explicación para esta causalidad que cuando el peso sube, tu nivel de colesterol también sube. Hagamos la pregunta inversa. ¿ El nivel de colesterol es la concisión para Esperar? No, sólo porque tu nivel de colesterol suba no impacta el peso porque científicamente desprobado, es el peso el que está impactando en el colesterol, no al revés. ¿ Verdad? Heurístico. Por lo que la correlación puede no en juego causalidad, por lo que eso es otra cosa importante. Entonces sólo porque a radia, las facturas son más tarde entre sí solo porque usar ables uno sube, el otro sube no significa que uno sea una causalidad para el otro. Entonces digo otro ejemplo fuera del tamaño del pecho. De acuerdo, compactemos. Vestido talla contra el colesterol. 11. Cuando el tamaño de tu vestido sube, típicamente tu nivel de colesterol también sube. ¿ Esto significa que solo eres talla es la causalidad del nivel de colesterol? No, son dependientes. Se correlacionan con 100. Pero la unicidad, no la causalidad para otros sí tuvo. En realidad, 1/3 de costo no eran nada más que tu peso. Entonces espera es la causalidad que así hay una correlación entre tu peso y tamaño de pecho entre tus niveles de peso y colesterol y los de Vader, la causalidad que tus niveles de colesterol suben en tu talla de vestido causa. Entonces correlación hecha, tal vez hacer correlación del dedo del pie entre dos variables puede o bien hacer la causalidad. Podrían tener un costo común, como talla de vestido en duh. Los niveles de colesterol tienen una manera similar al costo común, o puede ser meramente incidental. Puede que no haya razón. Entonces tienes que hacerlo. Siempre que veas una correlación entre dos variables, tienes que seguir, averiguarlo. ¿ Por qué se correlacionan entre sí? ¿ Existe alguna causalidad involucrada? ¿ Esa es una causa común en el balón ahí encima? Puro incidental. Cuando intentas predecir algo en el aprendizaje de misión, quieres las variables predictoras, Toby la causalidad para las variables objetivo. Ahí es cuando la predicción se mantendrá buena en el futuro, cuando tus variables predictoras son la causa de tus variables objetivo, sí lo hace. Comisión Brent El aprendizaje va a ser una buena si eso falta. Si la relación es puramente incidental, no
hay garantía de que la correlación que ves hoy también ocurra mañana si la relación es sólo incidental. Entonces siempre quieres ir y ver la razón por la que algunas variables se correlacionan entre
sí cuando estás haciendo aprendizaje de misión. Entonces aquí hay un ejemplo fuera de una relación entre las tasas de fatalidad vial de Estados Unidos y
limones frescos limones importantes la U. S. De México, algo
interesante que ves es que pregunten a los limones frescos importantes de México. Sigue bajando. El para el primero fue menor. El índice de fatalidad es alto. Entonces, ¿por qué es alta la tasa de fatalidad vial U S que de accidentes viales cuando las importaciones la U. S. A. De México es baja? Esto es puramente incidental. Como ves, esto es culpa de tiempo. Por lo que podría haber dos cosas independientes diferentes que pueden estar sucediendo en este parpadeo de tiempo , lo que está impactando a ambos. Pero la U. S. que fui más tarde no tiene relación con los limones frescos importados la U. S. De México. Entonces tú y ahí ves una correlación aquí. No hay razón para creer que haya alguna relación entre sí. Por lo que hay que tener mucho cuidado cuando veas correlación entre dos variables. Usted ha establecido la verdad de fondo en cuanto a por qué ve este tipo de relación. Por lo que eso completa nuestra discusión sobre las correlaciones. Gracias