Transcripciones
1. Introducción a la ciencia de datos: todo el mundo, Es Max. Y bienvenido a mi curso sobre lo esencial de la ciencia de datos. Ahora, lo primero que vamos a hacer aquí es que vamos a dar una breve, pequeña introducción a la ciencia de datos para que entienda lo que es un científico de datos, y luego vamos a cubrir todo el tipo de tres grandes áreas esenciales que necesitas ser un científico de datos exitoso. Muy bien, entonces ¿qué es la ciencia de datos? Bueno, la ciencia de
datos es una especie de resumirlo de diferentes maneras, pero las partes principales de la misma están transformando los datos en información. Y este es un paso realmente grande porque mucha gente habla de, ya
sabes, datos y Big Date y todas estas cosas. Pero los datos por sí mismos no son realmente tan útiles hasta que puedas convertirlos en información. Y así si solo tienes un montón de números apareciendo en alguna parte y es solo, ya
sabes mucho de ello, nadie puede darle sentido a eso. Y ahí es donde necesitas un científico de datos para poder transformar todo esto toda su vaguedad y tipo de ruido a eso está pasando, y necesitas poder extraer información de ella. Y eso es lo que hace un científico de datos. Ahora, a
qué se hace con esto con esta información o cómo se obtiene esta información, es a través del análisis de sus datos. Entonces una gran parte de ello sería, ya
sabes, limpiar cosas, hacer algunos procesos en él. Y luego analizas una vez que hayas limpiado un poco las cosas, y esa es una de las formas en que luego puedes sacar información de tus datos. Um, a través de este análisis, y se puede especie de continuar y se ven tendencias y patrones y todo tipo de correlaciones, esperemos, en todas estas cosas nuevamente acumularse en esto convirtiendo los datos en componente de información. Um, y luego en última instancia, también
necesitas contextualizar todo lo que tienes, tu computadora no pueda hacer eso por ti. computadora puede hacer una especie de crujir los números y esas cosas, pero es tu responsabilidad también tener sentido, lo que hay frente a ti. Y aunque veas algo, simplemente no
confías ciegamente en él. Pero hay que entender, ¿sabes? ¿ Dónde estoy? ¿ De dónde vengo? ¿ De dónde provienen estos datos? Necesita que sea capaz de contextualizar estas cosas y luego, por
supuesto, poder aplicarlas así como entenderlas. Y así una vez que tienes estos datos, sabes que es genial. Pero convirtiéndola en una información en gran información que puedes usar y
aplicar directamente . Ahí es donde yace el poder rial. Y eso también es una especie del papel de un científico de datos. Entonces eso es lo que son los datos, eso es lo que los signos de datos más o menos. Y entonces, ¿qué hacen los científicos de datos? Bueno, como que ya hablamos de esto sólo un poquito, pero repasémoslo otra vez. ¿ Algún ejemplo más concreto? Y así un científico de datos,
por ejemplo,
obtendría por ejemplo, y procesaría estos datos sin procesar y luego se convertiría en algo un poco claro. Por lo que te puedes imaginar algo así como un flujo de datos entrando. Y es que tienes este dispositivo de medición y constantemente solo está midiendo todo tipo de datos en y porque, como si nada fuera realmente Constance, todo va a estar fluctuando. Yo he estado abajo, y así una fecha asignada a esto sería el jefe de tomar todos estos datos. Es ese tipo de limpiarlo un poco,ya
sabes, ya
sabes, tal vez redujo esta fluctuación que sabes no se supone que esté ahí. Eso es sólo un tipo de cosas de fondo pasando y luego ponerlo en un formato para que pueda fácilmente trazar contra algunas cosas en. Y entonces ya llegamos al siguiente punto que, sabes, una vez que el estado como más limpio, tal vez
puedas hacer algunos cálculos sobre ellos descubriendo los
componentes estadísticos básicos , ya
sabes, like, ¿cuáles son los valores promedio de estos? ¿ Qué? qué estoy lidiando realmente, Ya
sabes, conseguir un primer vistazo a la primera comprensión de lo que en realidad es lo que estás abordando. Y luego una vez que tengas este tipo de comprensión que puedes empezar a hacer algunas visualizaciones que te ayudaron como científico de datos, tal vez ver algunas tendencias o patrones ya. Pero la visualización también es realmente clave porque te permiten mostrárselo a otras personas, y son un gran medio de comunicación. Por lo que nos ayudan tanto a un científico de datos como a ayudar a otros. Cuando intentas transmitirles esta información, está
bien, y luego finalmente, tienes que sugerir algunas aplicaciones de la información, Así que en realidad no es suficiente solo poder mirarla y decir, como, Sí, veo que sube y baja y eso es bueno Pero ¿qué significa eso? ¿ De qué manera esta transferencia a algo útil? Y ese es también uno de los papeles clave de un científico de datos que transfiere información al conocimiento. Y así tienes estos datos en paso de información. Pero también necesitas transferir esta información al conocimiento y esos aires a cosas realmente poderosas que valen mucho, mucho. Y eso es más o menos en lo que se enfoca un científico de datos y luego puedes ir más allá y, ya
sabes, y tomar estos datos y hacer aprendizaje automático con ellos o algo así. Si realmente entiendes lo que está pasando o si tienes alguna hipótesis de, sabes lo que podría pasar para que puedas llevar las cosas mucho más allá. Pero en última instancia este tipo de convertir los datos en información y luego en conocimiento, ese es tipo de su papel, acuerdo, así que vamos a entrar en las técnicas esenciales o en los componentes esenciales de la ciencia de datos. Por lo que el primer componente esencial y como que los tocó. Esto ya son estadísticas, y básicamente vamos a cubrir esto más adelante. Pero vamos a dar ah tipo de envoltura rápida hacia abajo. Por lo que en las estadísticas necesitan entender diferentes tipos de datos que se pueden encontrar. Y así hay día en que puedo venir de diferentes maneras, y volveremos a entrar en más detalle con esto más adelante. Pero no es solo, ya
sabes, te dan un montón de números fecha, puedo venir y muchas maneras diferentes, dependiendo del campo en el que estés. Y por lo que necesitas estar preparado y necesitas tipo de estar consciente de que los datos pueden no siempre ser
solo un número directo para ti. Y entonces, por
supuesto, hay
que entender algunos términos estadísticos clave como usted sabe, los diferentes tipos de medios y también la comprensión, las fluctuaciones y los datos. Y la razón por la que esto es importante es porque estos términos estadísticos clave te dan una visión general de cómo se están comportando estos datos. Y dependiendo de cómo se comporten los datos, es posible
que desee abordarlos de manera diferente. Entonces si sabes que tus datos están muy limpios, hay muy poca fluctuación. Entonces si visualizas las cosas, probablemente
puedas confiar en lo que está pasando o, si quieres tal vez encajar algunas curvas a ella o algo así Pero si ves que hay mucha fluctuación en tus datos visualizando va a ser mucho más difícil porque simplemente ves saltos por todas partes y no estás realmente seguro cuál de esto es realmente cierto. Y cuál de esto es causado por, ya
sabes, como alguna interferencia en algún lugar o alguien está metido con mi sistema. Y así todas estas cosas se te insinuarán a través de términos estadísticos. Por lo que probablemente sea bueno que, ya
sabes, estés un poco cómodo con estas cosas y que puedas obtener algún
significado de ellas. Está bien, en, entonces, finalmente sea y estadísticas poder,ya
sabes, ya
sabes, dividirse en puntos de datos de grupo o segmento para que cuando tengas este conjunto de big data, quieras ser capaz de, ya
sabes, tal vez dividirlo en cosas más pequeñas, comparar diferentes regiones, mirar más en más detalle en algunas cosas y tal vez, ya
sabes, aislar dos componentes porque, ya sabes, oye, estas cosas probablemente van a ser importantes. El resto realmente no me importa tanto. Por lo que ser capaz de especie de localizar y aislar y metal con los datos un poco. Entonces estos son el tipo de componentes estadísticos que vamos a examinar. Muy bien, Así que lo siguiente grande y ya hemos hablado de esto es la visualización de datos. Andi, veremos por qué la visualización de datos es una habilidad realmente clave para los científicos de datos. Y entonces también estaremos cubriendo diferentes tipos de pasto que puedes usar y cómo puedes comparar diferente número de variables. Entonces, por ejemplo, puedes tener un pasto variable donde solo miras una cosa y solo quieres
mirar esto, y quieres ver cómo esto cambia esto. Tienes tu urogallo típico a variable, que probablemente sepas dónde tienes este eje X y un eje Y. Y luego se puede ver como dos variables se relacionan entre sí, donde se pueden tener tres gráficas variables o incluso más altas, y donde se traza tal vez tres cosas diferentes o incluso más si se quiere, siempre y cuando se haga sentido uno al lado del otro, para que puedas comparar múltiples cosas al mismo tiempo, está
bien. Y ahora llegamos a la otra gran cosa que probablemente vas a necesitar como científico de datos , que va a ser la capacidad de programar ahora, no todos los científicos de datos pueden hacer esto, pero esto es realmente, realmente esencial, en mi opinión, a tu rol como científico de datos, porque saber cómo el programa te va a hacer la vida mucho más fácil si sabes programar puedes tomar tus ideas y tus pensamientos, y puedes ponerlos en acciones en la computadora. Y solo puedes automatizar todo lo que puedes personalizar cosas que puedes explorar, puedes crear prototipos , concurso, y no dependes de alguna, ya
sabes, aplicación. No tienes que dominar alguna aplicación. Y si no funciona, si una característica no está ahí, tienes que contactar al servicio de atención al cliente. Y tal vez ni siquiera sea posible. Y luego hay que esperar una actualización. O tal vez algo está molesto con la programación. Es que eres mucho más dependiente de ti mismo, y realmente puedes simplemente hacer lo que sea que quieras hacer. Y no dependes de otras personas ni de las herramientas que otras personas han construido para ti . Pero más bien puedes simplemente ir más o menos y ya sabes, solo haz lo que quieras hacer sin que haya importantes bloqueos de carretera andan. También veremos algunos paquetes esenciales y python. Entonces en programación, nunca se
quiere reinventar la rueda. Siempre quieres empezar con la última persona que queda, y así la capacidad de programar y poder escribir programas sencillos necesitarías
enseñarte a ti mismo. Pero no necesitarías corregir paquetes matemáticos altamente complejos o paquetes de análisis
de datos . Esos ya están ahí fuera. Todo lo que necesitas hacer es poder descargarlos e implementarlos en tu abrigo, y van a funcionar. Ya sabes, han sido probados mucho. Hay unas comunidades enormes trabajando en ellas para mejorarlas y todo. Todo esto es para la comunidad, y así toda la comunidad tipo de trabajo conjunto para mejorarla. Nadie realmente está tratando directamente de hacer mucho dinero con ello, así que no te van a cobrar todas estas tarifas de servicio y todo. Todo el mundo está tratando de mejorar su paquete porque si mejora, todo el mundo también se beneficia de él. Y así veremos algunos de los de la biblioteca. Hablaremos de algunas bibliotecas que puedes usar,
especialmente en python, especialmente en python, y para ayudarte en tu camino con el análisis de datos y convertirte en un científico de datos exitoso .
2. Tipos de datos estadísticos: Hey todos, es max y bienvenidos de nuevo. Entonces en este capítulo vamos a hablar de tipos de datos estadísticos. Ahora vamos a ver los tres tipos diferentes de datos, que se resumen como tipos de datos
numéricos, categóricos y ordinales. Ahora, estos son los tipos de datos de los que hablamos antes. Cómo no puedes esperar que tus datos sean algo numéricos. Y así veremos datos numéricos, pero también veremos los otros dos tipos de datos que quizá
estés encontrando en tu carrera como científico de datos. De acuerdo, entonces hablemos primero de los datos numéricos. Los datos numéricos también se conocen como datos cuantitativos. Y son más o menos cosas que se pueden medir. Es genial. Cosas numéricas con las que puedes hacer matemáticas. Puedes compararlo, ya sabes, decir esto más esto tiene sentido. A es mayor que b. Estos son todos ejemplos de datos numéricos. Datos numéricos ¿podemos dividirnos en dos segmentos diferentes? Uno de ellos va a ser discreto. Y tan discreto significa que los valores sólo toman en números distintos. Y un ejemplo de esto sería, ya
sabes, el CI o algo así y la medición del CI. O si haces un tirón de moneda, el número de veces que lanzas cabezas. Para que puedas, ya sabes, puedes tener 15 cabezas, puedes tener 12 cabezas de 20 lanzamientos de monedas. Puedes tener 500 cabezas de 1000 lanzamientos de monedas o 500 de 600, o todas estas cosas. Pero todos estos son números distintos y ahora no tienen que estar enteros específicamente, pero sí tienen que ser distintos. Entonces ese es el tipo de parte muy importante que, ya
sabes, hay una especie de tamaño de paso con el que estás lidiando. Y por supuesto, todavía puedes decir, oye, ya sabes, voltear ocho cabezas de 20 es mejor que juguetear siete cabezas de 20 si quieres voltear cabezas, es
decir, estamos volteando ocho de 20 es peor que voltear 7 de 20 si vas por tantos detalles como puedas. Entonces todo este tipo de comparaciones que tienen sentido. Entonces esa es la parte discreta de los datos numéricos. Entonces tenemos la parte continua. Y ahora la parte continua es realmente que los valores sólo pueden
asumir cualquier número y no están limitados por el lugar decimal. Entonces un valor que puede Nino puede ser como 1.1 y luego el siguiente valor sería 1.2. Eso no es continuo. Eso sigue siendo discreto porque tienes este tamaño de paso de 0.1. Continuo significa literalmente que cada número de principio a fin puede ser asumido. Y esto no quiere decir que cada número posible en el universo desde infinito negativo hasta más infinito y todos los números imaginarios y todo lo que viene con él que no, eso no se requiere para continuo. Podría ser realmente que apenas cada número entre 01 asumido. Entonces, por ejemplo, digamos que tienes una botella de agua, y esta botella de agua puede contener un litro. Ahora si llenas tu botella y
empieza vacía y la llenas todo el camino hasta la parte superior. La cantidad de agua que has tenido necesitaba para tomar en cada número entre 01 porque no puedes simplemente llenar agua, sabes, y especie de pequeños incrementos de digamos, oye, voy a poner en 0.2 litros cada uno tiempo porque el agua no sólo se teletransportan de a a B. Pero cuando estás vertiendo agua, es más como vemos aquí en el arroyo. Y el nivel del agua sube y sube y sube. Y así la cantidad de agua que tenemos en nuestra copa necesita asumir cada valor entre 01. Entonces ese es un ejemplo de datos continuos para pero
ves que podemos estar limitados a 0 y estar entre 01, no
tenemos que empezar en 0 e ir hasta el infinito o algo así. Pero es sólo que el rango que estamos viendo, cada número puede ser aplicado o cada número puede suceder. Otro buen ejemplo sería la velocidad de un automóvil. Si comienzas, ya sabes, estás parado y estás estudiando y estás estudiando en un semáforo. Y luego quieres acelerar en el límite de velocidad es decir, ya
sabes, 50 millas por hora o algo así. Para llegar a 50 millas por hora desde tu posición de salida, tu auto tiene que asumir cada velocidad en el medio. Y por supuesto que quieres ver que, ya sabes, en tu velocímetro diría algo así como 0 millas por hora, una milla por hora, ya sabes, tal vez puedas entrar como si estuviera yendo 0.10.20.3 o algo así. Por lo que puede parecer discreto para ti, pero no es así como va tu auto. Tu auto no dice como, oh, voy a ir en los escalones de velocidad, se va a acelerar y va a tomar cada valor a partir de 0, subiendo hasta 50 millas por hora. Y lo vas a hacer, cuando estés en esta transición, vas a asumir cada uno de esos valores de velocidad. Entonces así es como se ven los datos continuos. Y es importante entender la diferencia entre esta discreta y continua. Sólo porque tal vez quieras abordarlo de manera diferente. Ahora por supuesto, si estamos tratando con computadoras, son las computadoras no pueden lidiar con el número infinito como en los decimales. Tenemos que cortarlo en alguna parte. Y por lo general los datos continuos se van a redondear en algún momento. Pero sigue siendo importante que sepas que estás tratando con datos
continuos aquí en lugar de discretos, para que sepas, oye, todavía puede haber otras cosas en el medio. Estas son todas estas cosas en lugar de, ya sabes, tener tamaños de escalones específicos y todo lo que ves es solo un poco manojo de líneas. A cada tamaño de paso. Pero se puede esperar que cuando se tiene datos
continuos que todo es sólo un poco
lleno, lleno, todo puede, y hecho incluso bien estar entre ciertos lugares. Entonces eso es, eso es algo importante a notar entre discreto y continuo. De acuerdo, entonces el siguiente tipo de datos que tendremos es categórico. Ahora bien, los datos categóricos realmente no tienen un significado matemático, y es posible que también sepas que son datos cualitativos y datos categóricos. Describe características. Entonces un buen ejemplo de esto sería, por ejemplo, el género. Entonces aquí, no hay un verdadero significado matemático para el género. Por supuesto, ya sabes, si tienes datos, puedes decir que el macho es 0 y la hembra es una. Pero realmente no se puede comparar los dos números a pesar de que se les asignan números. Y puedes simplemente hacer esto para que puedas dividirlo más adelante. Tu computadora puede entender, pero realmente no tiene sentido comparar. No se puede decir, ya sabes, es masculino igual a 0? Bueno, se puede decir que el macho no es igual a la hembra, pero en realidad no se puede decir, es uno mayor que el otro o uno aproximadamente igual al otro. Esas cosas realmente no tienen sentido porque no están bien definidas. ¿ Qué significa eso? Y tampoco se pueden sumar realmente. No se puede decir masculino, femenino. Pero eso no, no te da una tercera categoría ni algo así. Entonces categorías en las que realmente no se les puede aplicar matemáticas, pero hay buenas formas de dividir o agrupar tus datos. Y proporcionan estas bonitas piezas cualitativas de información que siguen siendo importantes. Es solo que, realmente no puedes ir tan bien, ya
sabes, como conspirarlos en un león o algo así. Entonces esas son cosas importantes a tener en cuenta con datos categóricos. Y entonces otro ejemplo sería, por ejemplo, etnia, o también podrías tener nacionalidad. Todas estas cosas son ejemplos de tipos categóricos de datos. Um, sí, Y así como dijimos, puedes asignarles números. Pero eso es realmente solo para tu código para que sea fácil dividirlos, pero todavía no puedes compararlos realmente. ¿ Cómo vas a comparar nacionalidades? Realmente no hay definición para comparar un tipo de categoría con otro. ¿ Está bien? Y así el tercer tipo de datos que puedes encontrar es algo llamado datos ordinales. Los datos ordinales son una mezcla de datos numéricos y categóricos. Y un buen ejemplo de esto serían las calificaciones hoteleras. Entonces tienes calificaciones estelares 001234 o cinco estrellas, o tal vez hasta seis estrellas o lo que sea. Sean cuales sean los hoteles hasta estos días, um, pero todavía no es tan sencillo comparar. Entonces estoy seguro que has visto dos tipos diferentes de hoteles de tres estrellas. Uno de ellos, ya sabes, tenía los mínimos desnudos las camas estaban bien, pero en realidad no era nada especial. Y luego tenías estos hoteles de tres estrellas que podrías haber jurado donde al menos cuatro estrellas. Y así las calificaciones estelares sí tienen sentido. Podemos decir, ya sabes, un hotel de cuatro estrellas es probablemente mejor que el hotel de tres estrellas porque ha habido estándares. Hay estándares para estas cosas. Han sido revisados, ya sabes, si vas a un hotel de cuatro estrellas, ya
sabes qué esperar. Pero aún así, no está completamente definido. Entonces como volver a este ejemplo de tres estrellas, es muy difícil. Sólo di, oye, vamos al hotel de tres estrellas. Es muy difícil saber exactamente qué esperar porque hay diferentes partes de hoteles de tres estrellas. Hay hoteles de tres estrellas que se han desarrollado, como tener una piscina tal vez o algo así. Y luego están esos hoteles de tres estrellas que realmente son más como albergues o algo que acabo de hacer más allá del lugar de dos estrellas. Y así ahí, es mucho más difícil definir o simplemente saber qué esperar. Ahora, si tomas promedios de la zona de sistemas estelares, entonces sí te haces una idea mucho mejor de lo que está pasando. Entonces si tienes opiniones de consumidores o algo así y dices, oh, de 500 opiniones, nuestro hotel tiene una calificación promedio de 3.8. Sepa que el hotel de tres estrellas que está mirando es más o menos un hotel de cuatro estrellas. Se siente como un hotel de cuatro estrellas, pesar de que puede no tener todas esas características calificadoras, ese es el tipo de sentimiento que se obtiene de él. tanto que de otro hotel de tres estrellas, puede que tengas una lectura de 2.9 o algo así y son, ya
sabes, ya sabes, este hotel está más hacia el extremo inferior de las tres estrellas. posible que algunas personas ni siquiera lo consideren como tres estrellas. Y por supuesto, ya sabes, esta calificación puede ser un poco sesgada porque primero fueron a un hotel de tres estrellas diferente, y luego fueron a este y
esperaban algo completamente más de un hotel de tres estrellas. Entonces dijeron Esto no puede ser tres estrellas, esto son dos estrellas. Pero es por la forma en que el sistema de ranking es encontrar debajo y todo. Y así cuando tenemos estos promedios, pero estos números ordinales que el tipo de empezar a tener un poco más de sentido. De acuerdo, entonces repasemos un pequeño ejercicio y veamos si podemos identificar con qué tipo de datos estamos tratando. Entonces lo primero que veremos será la respuesta de la encuesta a la felicidad. Ahora, tienes gente llenando una encuesta y luego esto, y luego una de las preguntas es, ¿cómo calificarías tu felicidad y va a ser mala, neutral, buena, o excelente. ¿ De qué tipo de datos con este B? Bueno, esto sería un tipo ordinal de datos porque sigue siendo una forma de categorías. Y estás pidiendo la opinión subjetiva, pero sí tiene sentido. Ver, aún puedes compararlos. Se puede decir que el excelente es mayor que el bien, bien es mayor que el neutro, neutral es mayor que el malo. Pero, ¿qué significa exactamente ser bueno y excelente? Ya sabes, ¿dónde trazan las diferentes personas la línea para esto? Que todavía hay un poco de vaguedad involucrada, pero generalmente no tiene sentido y no se puede comparar. Y si tienes muchas encuestas y las promedias,
los valores que vas a conseguir probablemente van a ser muy bien representativos o al menos bastante buenos representativos. ¿Está bien? Entonces si miramos lo siguiente que va a ser la altura de un niño. ¿ Qué tipo de datos es ese? ¿ Ahora? No podemos decir que probablemente sea numérico y bueno, en realidad
lo más definitivamente es numérico. Por lo que la altura de un niño es un valor numérico. Pero vamos un poco más profundo y digamos, ¿es discreta la altura de un niño o es continua la altura de un niño? Bueno, aunque cuando mides la altura, obtienes algo así como cinco pies cinco pies tres, o unos 160 centímetros o algo así. No es un valor discreto porque para conseguir esa altura, hay
que haber alcanzado cada altura de cuatro. Y así, aunque por el momento puedas estar midiendo, lo estás redondeando a cuánto puede medir tu cinta métrica. Entonces al igual que tu cinta métrica es una especie de limitar la altura. Pero si tuvieras unos instrumentos de medición
súper precisos, podrías medir no sólo, ya sabes, cinco pies, tres o algo así. Realmente podrías entrar en detalle con las pulgadas y los decimales ahí dentro y todo tipo de pasando. Por lo que la altura de un niño sería un tipo de datos numéricos, pero sería continuo. Está bien, ahora pensemos en hablar del peso de un adulto. ¿ Esperas que el peso de un adulto sea discreto o continuo? Por lo que probablemente podamos estar de acuerdo en que es numérico porque es un valor de peso. Es, está bastante definido para ser un número. ¿ Qué esperas que sea discreto o continuo? Si bien la respuesta correcta aquí va a ser continua de nuevo, porque para alcanzar un cierto peso, hubieran tenido que haber alcanzado cada peso en el medio antes. Entonces nuevamente, el peso es algo que podemos considerar como continuo. ¿ Todo bien? Y así finalmente, veamos el número de monedas en su billetera. Nuevamente, ya podemos por el nombre, dice el número de monedas. Por lo que probablemente podemos estar de acuerdo en que este es un tipo numérico de datos, pero el número de monedas en su billetera sin ser discreto o continuo? Bueno, la respuesta sería discreta porque realmente no importa. Cual es tu nota tus monedas, podrían ser 57 piezas, que podrían ser piezas de 25 centavos, 10 o cinco o unas, cualquier cosa como un dos o algo así. Pero no van a ser, pero el número de monedas que vas a tener, vamos a sumar un número entero. Para que puedas tener una moneda, puedes tener dos, puedes tener tres, todas estas cosas, pero no puedes tener infinitas fracciones de una moneda. No se puede tener, digamos, ya sabes, la raíz cuadrada de 2 número de monedas, eso realmente no tiene sentido. Por lo que tienes un tamaño de paso definido, tienes una moneda. Y luego si tienes una segunda moneda que tienes que hacer, porque la tercera cantidad de tres, vas a ir a tamaños de paso de uno. Por lo que para el número de monedas en tu billetera estaríamos teniendo datos numéricos discretos.
3. Tipos de medios: Hey todos, es max y bienvenidos de nuevo. En este tutorial, vamos a hablar de los diferentes tipos de promedios. Ahora, vamos a ver los tres tipos diferentes de promedios, que es la media, la mediana, y el modo. Muy bien, empecemos. Entonces empezaremos con el medio. Ahora, el medio es el promedio típico que conoces. Y realmente lo que significa es que simplemente suma todos sus valores hacia arriba y luego los divide por el número total de valores que tiene. Ahora, los grandes pros del medio es que es muy fácil de entender. Tiene sentido. Simplemente tenemos todo lo que tenemos y sólo una especie de pero todo para arriba y luego dividirlo por lo que tenemos. Y eso debería darnos una buena representación de lo que es el promedio. Y también toma en cuenta todos los datos. Um, entonces ya que estamos sumando todo y luego dividiendo por cuántos datos tenemos, estamos tomando en consideración cada punto de datos. Ahora, hay algunos problemas con esto. Entonces uno de los problemas es que la media puede no ser siempre la mejor descripción. Y veremos por qué cuando veamos ejemplos para cuándo deberíamos usar la mediana y el modo. Y la media también está muy afectada por los valores atípicos. Entonces ya que estamos tomando todo en consideración, siempre si tenemos grandes valores atípicos, así realmente va a cambiar cómo se ve nuestro medio. Entonces si solo tenemos valores normales entre 15 y todo de repente tenemos como 10 mil ahí dentro. Eso realmente va a afectar a nuestro medio. Por lo que la media está fuertemente influenciada por los valores atípicos. Y cuanto más grande es el valor atípico, más influye el medio. Está bien, así que veamos algunos ejemplos del medio. Pasaremos primero por un ejemplo trabajado y podemos ver nuestro conjunto de datos aquí, que es solo un montón de números. Y lo que vamos a hacer para calcular la media, ya que sólo vamos a tomar cada uno de estos números y vamos a sumarlos. Y podemos ver el resultado total que conseguimos aquí. Y luego lo siguiente que vamos a hacer es que vamos a tomar este resultado total y
vamos a contar la cantidad de puntos de datos que tenemos. Y vamos a dividir uno por otro, lo que luego nos da nuestro medio, como podemos ver aquí. Entonces ese es un ejemplo de cálculo de la media, pero veamos algunas aplicaciones de ejemplo de la media. Entonces, ¿cuándo lo usaríamos? Bueno, buena aplicación diría, si miras el tiempo que te lleva caminar hasta el supermercado. Por lo que a veces el paseo un poco más rápido y tal vez te lleve 20 minutos llegar allí. A veces caminaba un poco más despacio. Se necesita el 25, pero en promedio te lleva algún lugar como 22 o tal vez 22 minutos y medio o algo así. Entonces si dices que voy a ir al supermercado, te
gusta Me va a llevar tanto tiempo llegar ahí. Otro buen ejemplo de la media sería la puntuación de examen para una clase. Por lo que para tener una buena comprensión de cómo lo hace la gente en un examen o en una clase, puedes mirar el puntaje medio del examen el año pasado. Y como hay puntuaciones de exámenes son algo así en un arreglo más pequeño, una reunión va a ser buena de usar porque se puede conseguir cualquier cosa entre 0. Pero hablando de manera realista, probablemente nadie va a conseguir un 0. Por lo que tu rango es aún más pequeño y así estás menos afectado por los valores atípicos. Y como que sabes lo difícil que va a
ser la clase sólo por poder comparar sus medios. Entonces si miras una clase y su media es más alta que la otra, pero tienen un gran número de alumnos o algo así, entonces probablemente puedas decir, oye, es más fácil conseguir una buena nota aquí, algo así. O tal vez, ya sabes, algunas de estas sobreutilización más simple sin sumergirse demasiado en ella. Muy bien, Otro buen ejemplo de lo malo sería decir, ¿cuánto chocolate requiere cuando se obtiene este tipo de antojo dulce? Y no vas a decir como, oh, no, requiero una barra de chocolate, dos barras de chocolate o tres. Pero como vas a decir,
oh, en promedio, ya sabes,
requiero, ya sabes, tal vez tres cuartos de una barra de chocolate. Y a veces puede que quiera un poco más porque me apetece. Y cuando empiezo a comer chocolate, lo anhelo aún más. A veces, ya sabes, lo tengo arriba primero y como, el sabor simplemente no se sienta bien conmigo ahora mismo. Y así tengo un poco menos. Pero estas son una especie de la cantidad de cosas. Entonces como si tienes este antojo, ya sabes, o dices, Oh, voy a tratar de ser fuerte o eres como, bueno, conozco este sentimiento y sé si tres cuartas partes de una barra de chocolate o algo así, soy
se va a sentir bien, mi antojo va a quedar satisfecho. Por lo que como que sabes qué esperar. Por lo que estos son algunos de los ejemplos de cómo nos enfrentaríamos a una media. Bueno, cuando usaríamos el medio. Está bien, entonces veamos lo siguiente que va a ser la mediana. Ahora, la mediana representa el valor medio en su conjunto de datos. Ahora si tienes un número par de puntos de datos, realmente no
tienes un valor medio. Y así en ese caso, la mediana va a ser la media de los dos valores. Entonces van a ser los dos valores medios sumados para luego dividirlo por dos. Entonces los pros de usar un valor de mediana es que la mediana a veces puede ser más precisa que la media, y veremos algunos ejemplos de esto. La mediana también divide uniformemente tus datos para que no te afecte realmente la media en el sentido de que si tienes un valor atípicos en la media y arrastra todo a la derecha. Podría ser que tu valor atípico arrastra las cosas hasta ahora a la derecha. Todos tus datos están a la izquierda de la media y solo los valores atípicos a la derecha. Entonces ese sería un caso extremo, pero eso no puede suceder. En tanto que la mediana, ya sabes, siempre está ubicada directamente en el centro de tus datos. Y a la mediana tampoco le importan los valores atípicos. Entonces si tienes un valor atípicos enorme es al principio y al final, realmente no le importa porque los valores atípicos por definición no son muy comunes porque son atípicos. Y así si tienes algunos al principio o tienes algunos al final, van a ser muy pocos en número, lo
que los hace atípicos. Y por lo tanto a la mediana realmente no le importan tanto los valores atípicos. Un estafa, sin embargo, es que la mediana realmente
no te da mucha información sobre el resto de los datos. Seguro. Ya sabes lo que hay en el centro. No sé cómo se comporta todo a mi alrededor. Solo sabes dónde está el centro de nuestros datos. Entonces veamos algunos ejemplos. Haremos un ejemplo trabajado para nosotros donde vemos nuestro conjunto de datos aquí. Y podemos contar cuántos valores tenemos. Si vas de izquierda a derecha, entonces podemos decir que tenemos 123456789,
10, 11, 12, y 13 puntos de datos. Entonces tenemos un número impar. Y así nuestro valor mediano, nuestro valor central, va a ser el séptimo punto de datos
porque son seis desde el principio y también son seis desde el final. Está igualmente espaciado tanto desde el principio como desde el final. Y por eso vemos nuestro valor medio aquí es 26. Se encuentra directamente en el centro. Ahora bien, ¿para qué sirve la mediana? Bueno, la mediana se usa a menudo si miras los ingresos de los hogares de un país. Porque si fueras a usar el medio, entonces estos multimillonarios, simplemente te darían por completo, ya
sabes, te darían una descripción falsa de lo que realmente es un ingreso familiar promedio. Porque normalmente, si tienes como un valor promedio y puedes decir, oh, el ingreso promedio de los hogares de esta familia sería decir, 40 mil dólares o algo así, o ese sería el valor mediano. Pero si en cambio utilizaras el medio, entonces todos los multimillonarios y millonarios del país, cambiarían ese ingreso familiar. Y entonces dirías, oh, ya sabes, el ingreso promedio del hogar por familia se vería como 60 K. Y esa es una mala representación porque en realidad no te da una mirada realista a lo que tiene la familia familiar promedio. Y la familia familiar promedio realmente lo hace. Está centrado en como 40 K y seguro, hay gente debajo de ellos, habrá alto, pero eso es lo que hay en medio. tanto que si utilizaras la media en su lugar, para tu promedio, recibirías este ingreso familiar inflado, que no sería representativo para el resto de tu, el resto del país. Otro buen ejemplo con la mediana sería la distancia que la gente cubre para llegar a trabajar. Entonces si miras esto en términos de kilómetros, entonces puedes decir como, oh, ya sabes, algunas personas, caminaron a trabajar y es como un kilómetro como
mucho, así que algo así. Y entonces puedes esperar que la gente viaje. La mayoría de las personas recorren los tres kilómetros para trabajar. Y seguro que hay algunos, ya sabes, que viajan mucho más allá porque quieren vivir fuera de la ciudad. Y hay algunos que recorren distancias
muy, muy cortas porque tienen una casa justo al lado la oficina o su casa es la oficina o algo así, dependiendo de donde trabajes. Entonces puedes mirar, ya sabes, como, dónde en el medio, cómo viaja la gente para trabajar, qué hora o a qué distancia necesitan cubrir? Y así sería otro buen uso de la mediana. Una mediana. Otro buen valor de mediana es ¿qué gastas habitualmente cuando compras un nuevo artículo de ropa? Y así, claro, a veces puede ir a esa costosa tienda de ropa y podrías conseguir una chaqueta que cuesta, no
sé, al norte de una pareja 100€ o dólares, sea cual sea el sistema que quieras usar. Y a veces puedes ir a una tienda de segunda mano y conseguirla por muy barato. Pero normalmente si vas a tiendas, una chamarra, no sé, tal vez Castiel como un $100 o algo así. Y así, ya sabes, si sales, puedes esperar pagar unos 100 dólares. En realidad no. Llevando a ese tanto contador a qué historia te metes. Por lo que la mayoría de las tiendas que vas a visitar
van a tener ese precio para la chamarra. Entonces ese sería otro buen uso para la mediana. De acuerdo, veamos el tercer tipo de promedio que podemos hacer, que es el modo. Ahora el modo mira el valor más común en tus datos. Y no está realmente definido si hay varios valores más comunes. Pero si solo hay un valor más que ocurre, entonces eso es lo que sería tu modo. Y así veremos un ejemplo de esto en un segundo. A los pros de usar el modo es que no sólo es aplicable a los datos numéricos. Entonces si miras categorías, por ejemplo, entonces puedes decir: Hey, tenemos cinco personas de EU y dos de Canadá y una de Francia. Y sabes que el modo va a ser EU porque hay cinco personas de EU. Entonces el modo es el gran promedio. Eso no sólo es aplicable a los datos numéricos en el sentido de que técnicamente también lo
puedes aplicar a categorías o dos números ordinales si
lo deseas, para que puedas decir el país más común que tenemos donde el, el tipo promedio de país que esperaríamos aquí es EU y seguro que hay otros países, pero el promedio o el más común va a ser EU en este caso. Entonces sí, y luego por supuesto, el otro pro es que permitimos ver lo que es más común, lo que más aparece. Un gran uso del modo. Si hay casos en que los valores recurrentes suceden mucho, lo cual es el caso de los números discretos, por ejemplo. Por lo que en números discretos, los valores se repiten con frecuencia. Y así es bueno usar el modo. El modo va a ser que no realmente, nuevo te dan una buena comprensión el resto de los datos similares a lo que teníamos para la mediana. Pero además, no es realmente aplicable si solo tienes un montón de diferentes tipos de datos, entonces realmente no va a haber un modo si no hay suficiente de cada dato y no es realmente bueno usar el modo. No quieres tener miles de puntos de datos y son valor más recurrente. Se repite como tres veces, Eso no es bueno. Se desea utilizar el modo para situaciones en las que los datos se repiten con frecuencia. Entonces como vimos el ejemplo de país, pero vamos a ver realmente un ejemplo trabajado, pero también algunos otros ejemplos para el modo. Entonces el ejemplo trabajado aquí volvería a ser, tomamos nuestro conjunto de datos y podemos contar cuántas veces aparecen números diferentes. Y así si pasamos por los números, veremos que el 26 ocurre más. Y así ese va a ser nuestro modo aquí. Entonces tenemos 22 y 25 que ambos ocurren dos veces, pero 26 ocurre tres veces. Y así 26 va a ser nuestro modo, va a ser nuestro valor más ocurrido. Ahora, el modo va a ser útil para cosas como el pico de un histograma. Entonces si dibujas este histograma y si no sabes qué es un histograma, no te preocupes. Eso también lo cubriremos en una conferencia posterior cuando entremos en la visualización de datos. Pero el pico de un histograma que te va a mostrar el modo de los datos, el datum más ocurrido. Un buen, otro uso del modal sea si miras los ingresos de los empleados y acompañas. Porque eso acompaña, ya sabes, puedes volver a tener al jefe, que quita el medio. Y se puede tener un personal de nivel superior a los que tipo de cambio de la mediana. Pero si 1 tercio de tus empleados gana salario mínimo, eso no sólo va a ser el mejor promedio o decir que un 40% de tus empleados ganan un salario mínimo probablemente no son tus empleados porque eso no sería un muy buen sistema de tener. Pero si el 40 por ciento de los empleados la empresa que estás buscando ganan el salario mínimo. Eso no es algo realmente bueno tener. Y si miras el modo, verás fácilmente que el promedio en este caso sería ganar salario mínimo porque eso es lo que gana la mayoría de la gente. Y claro, ya sabes, el jefe, él o el CEO o algo así, ya sabes, puede
que el medio suba fuertemente. Y luego el hecho de que tengas altibajos. Si miras el valor mediano, es posible que incluso estés demasiado lejos, demasiado lejos a la derecha que realmente no consideras. Estos empleados en absoluto están en las mismas cantidades. Pero realmente quieres conseguir esa descripción, que es lo que se obtiene aquí desde el modo. Y entonces también el resultado de una elección es donde se utiliza el modo para y seguro, a veces se puede tener sólo dos valores, a veces se puede tener tres. Pero si tienes candidatos diferentes y dices que tienes cinco candidatos diferentes, entonces la persona con más votos
va a ganar la elección porque más tienen. Y así ahí, de nuevo, usarás el modo.
4. Difusión de datos: Hey todos, es max y bienvenidos de nuevo a mi tutorial. Entonces en esta conferencia, vamos a ver la difusión de datos. Y vamos a empezar con mirar los términos, rango y dominio. Entonces vamos a pasar a entender qué significa varianza y desviación estándar. Y luego finalmente, veremos la covarianza así como la correlación. Muy bien, así que empecemos con el rango y el dominio. Ahora. Vamos con el rango. Por lo que el rango es básicamente la diferencia entre el valor máximo y el mínimo en nuestro conjunto de datos. Entonces eso es, eso es un poco sencillo de pensar. Entonces, solo pasemos por esto con un ejemplo trabajado. Vamos a montar una empresa en la ciudad, y esta es la única empresa del pueblo. Y el dueño de la empresa gana un salario de 200 K al año. Y luego los empleados, todos
tienen salarios diferentes, pero los empleados más bajos, o tal vez los trabajadores de medio tiempo, ganan algo así como 50 K al año. Entonces tenemos datos sobre un poco que van desde 15 k hasta 200 K. Y así nuestro rango es la diferencia entre el valor máximo y el mínimo en nuestro ADN. Entonces tomamos 200 K y le restamos 15 k. Y tenemos un rango de 185 K en salario. Entonces así de grande puede cambiar nuestro salario. Entonces puede, si empezamos a 15 k, puede ir todo el camino hasta 200 k Así que esa es una gama de 185 K de personas asalariadas en esta empresa puede tener, de acuerdo. Y el dominio va a ser los valores que son los puntos de datos pueden asumir o la región en la que se encuentran nuestros puntos de datos. Entonces si volvemos a mirar este ejemplo, nuestro dominio va a empezar en 15 k y subir hasta 200 K. Entonces lo que el dominio define, define tipo de puntos de inicio y final o a define una sección en nuestros datos. Y así en este caso, el dominio definiría a Nino lo empezaríamos a los 15 venía y terminaría hasta un 100 K. Y lo que el dominio nos
dice es que todo o todos los salarios dentro de entre 15 k y 200 K, que ellos son posibles. Pero dentro de este dominio o dentro de esta empresa, no
es posible tener salarios fuera después de este dominio. Entonces si nuestro dominio nuevamente es de 15 k a 200 K, entonces no podemos tener un salario de 14 k porque eso está fuera de nuestro dominio. Y tampoco podemos tener un salario de 205 K porque de nuevo, eso está fuera de nuestro dominio. Por lo que prácticamente todos los salarios dentro de 15 a 200 K son posibles. Cualquier cosa fuera del dominio no es posible porque eso ya no está en nuestro dominio. Muy bien, así que sigamos adelante y veamos la varianza y la desviación estándar. Y hablaremos primero de la varianza. Y lo que nos dice la varianza. Nos dice más o menos cuánto difieren nuestros datos del valor medio. Y mira cada valor medio, y mira lo diferente que es cada valor del valor medio. Y entonces nos da la varianza. Hace algún cálculo y realmente no necesitamos conocer la fórmula. Es más importante ahora solo para entender el concepto de varianza. Y entonces lo que realmente nos dice variantes es que nos dice cuánto pueden fluctuar nuestros datos. Entonces si tenemos una alta varianza, eso significa que muchos de nuestros valores difieren mucho del valor medio y eso hará que nuestra varianza sea mayor. Si tenemos una varianza baja, eso significa que muchos de nuestros valores están muy cerca del valor medio. Y así eso hará que nuestra varianza sea más baja. Y ahora si volvemos a la desviación estándar, la desviación estándar es literalmente sólo la raíz cuadrada de la varianza. Entonces si entiendes uno, entonces también entiendes al otro. Y ahora podemos combinar esto si conocemos el rango de nuestros datos para especie de obtener una mejor sensación de los datos. Y así usemos un ejemplo donde tenemos dos países diferentes, países a y B.
Y tienen la misma altura media para las mujeres, que en este caso diremos que es de 165 centímetros o cinco pies, cuatro. Y diremos que el rango de alturas para ellos podría ser idéntico. Entonces digamos que pueden variar. El rango, digamos podría ser como 30 centímetros o algo así. Se puede ir a cualquier lugar desde decir, 150 todo el camino hasta 80. O incluso podemos aumentar eso y decir como en cualquier lugar desde
tan bajo como 140 hasta dos metros o algo así. Pero sólo mantengamos el rango para estos igual. Y ambos tienen una altura media. Ahora bien, si el país a tiene una desviación estándar de cinco centímetros, que es aproximadamente de dos pulgadas, y el país B tiene una desviación estándar de diez centímetros, que es aproximadamente cuatro intereses, entonces lo que se puede esperar conocer estos valores es que si vas al país a, las personas que vas a ver van a ser mucho más parecidas en estatura. Por lo que nuestra desviación estándar es menor. Eso significa que nuestros valores difieren más bajos de la media. Y así eso significa que muchas de las mujeres que vas a ver van a estar muy cerca de unos 165 centímetros o cinco pies, cuatro más, menos dos pulgadas. Entonces es muy lo que puedes esperar cuando vas a esta empresa, en, cuando vas a este país, es que todos van a estar, muchas de las mujeres van a estar sobre esa altura. En tanto que si vas al país B, tienen una desviación estándar mucho mayor. Y así no se puede esperar que todos sean alrededor de 504 porque fluctúa mucho más. Y así si vas a ese país, puedes esperar ver mucho más mujeres de diferentes alturas, tanto más altas como más cortas que 54. Muy bien, y así es como podemos usar la varianza y la desviación estándar o la desviación estándar para
darnos un poco más de perspectiva sobre nuestros datos y tipo de permitirnos inferir algunas cosas sobre nuestros datos. Está bien, Así que hablemos de covarianza y correlación. Y la covarianza estarán ya tiene el nombre varianza en ella. Pero la covarianza se mide entre dos variables diferentes. Y mide más o menos si tienes dos variables. Entonces digamos que tenemos, ya sabes, yo bebiendo café por la mañana y mi cansancio general. Entonces si uso estos dos valores y ya sabes, obtengo puntos de datos, esto es cuánto café bebo por la mañana y así es lo cansado que me siento esta mañana o algo así. Y entonces lo que hace la covarianza es ver cuánto difiere o cambia uno de estos valores cuando cambio el otro. Entonces, ¿qué significa eso, por ejemplo, bueno, si bebo más café, cuál sería la covarianza, cuánto cambia mi cansancio? Entonces eso es lo que haces con la covarianza. Ya ves, dices, yo cambio uno, ¿cuánto afecta eso? La otra cosa que miro? Y ahora la correlación es muy similar a la covarianza. Por lo que especie de normalizamos la covarianza
dividiendo por la desviación estándar de cada variable. Entonces lo que eso significa es que obtenemos la covarianza para mi beber café versus sentirme cansado. Y entonces simplemente nos dividiríamos por la desviación estándar de la medición y el café y una desviación estándar de mí sintiéndome cansado. Y entonces realmente lo que estamos haciendo con la correlación es que solo estamos bajando a términos relativos que se ajustarían mejor a nuestros datos. Entonces esa es un poco la idea abstracta. Lo importante que hay que tener en cuenta es que estamos mirando uno y estamos viendo cuánto cambia eso, y estamos viendo cuánto esos cambios afectan al otro. Muy bien, Así que hay diferentes tipos de valores de correlación que podemos tener y pueden oscilar en cualquier lugar entre 11 negativos o así. Su dominio está entre el negativo 11 y una correlación de uno significa una correlación positiva perfecta. Entonces eso significa que cuando una variable sube, la otra sube. Entonces para mi ejemplo de café, eso sería si tomo café por la mañana, entonces también me siento más feliz. Entonces cuanto más café tenga, más feliz me siento. Y por supuesto que va a haber un límite. Pero digamos que solo bebo hasta dos tazas de café o algo así y puedo beber cualquier cosa en el medio. Y cuanto más tengo, más feliz estoy al respecto. Entonces esa sería una correlación positiva. Cuanto más tengo de café, más tengo de felicidad. Y así como subirían juntos. Y luego cuando nos acerquemos a 0, el punto cero va a significar ninguna correlación con nosotros. Entonces cualquier cosa entre 01 va a ser una especie de correlación ligeramente positiva. No va a ser un súper fuerte. Y vamos a ver más algunos ejemplos en la siguiente diapositiva. Pero sí, entonces cualquier cosa entre 01 va a ser una especie de ligera correlación positiva, no súper fuerte. Y cuanto más cerca te acerques a 0, más significa que no hay correlación. Entonces un ejemplo para el caso 0 sería que no importa cuánto café beba por la mañana. No va a afectar a si no están relacionados. Uno no afecta al otro. Para que pudiera beber una taza de café ganando un día soleado y una taza de café durante el día lluvioso. Y no va a cambiar el clima, no
va a afectar el clima. Por lo que son más o menos incorrelacionados. Y entonces también podemos bajar al rango negativo. Y así cuanto más nos acercamos a uno negativo o si llegamos exactamente a uno negativo, esa correlación de uno negativo significa una correlación perfectamente negativa. Y así aquí podemos tomar nuestro ejemplo de café versus cansancio. Y así cuanto más café tenga, menos cansada voy a estar. Entonces el café sube y el cansancio baja. Entonces así es como podemos entender esta correlación. Y viene de la covarianza. Por lo que es importante entender la covarianza. Generalmente utilizamos la correlación porque la correlación, porque nos dividimos por la desviación estándar de cada uno, se ajusta mucho mejor a nuestros datos. Ahora, hay una cosa que es muy importante recordar, y es que la correlación no implica causalidad. Entonces sólo porque dos cosas estén correlacionadas, eso no significa que una cause la otra. Entonces un buen ejemplo de esto. Si vivo en un clima donde suele estar nublado por
la mañana y sé que es soleado por la tarde, pero cada mañana cuando está nublado, tomo café y luego se hace soleado por la tarde. Eso no es a pesar de que puedan estar correlacionados. Yo bebiendo café y se hace soleado. Es yo beber café no causa que esté soleado. Eso es solo por casualidad. Esto sólo porque sucede todos los días y por casualidad hay este tipo de correlación que aparece. Pero eso no significa que mi café bebiendo, ya
sabes, resulte en que el clima mejore. Una causación sería yo bebiendo café y yo sintiéndome menos cansado o yo bebiendo café y me sintiéndome feliz por ello porque me gusta el sabor, esas serían causaciones. Entonces eso es algo importante a tener en cuenta, sólo porque las cosas estén correlacionadas no significa que uno cause el otro. De acuerdo, así que veamos estas cosas en una gráfica. Y así aquí tenemos de nuevo los ejemplos de los que hemos hablado, pero podemos especie de ver cómo se verían los datos para diferentes tipos de correlaciones. Y así podemos ver una perfecta, una perfecta correlación de uno. Entonces uno sube, el otro sube. Podemos ver en el lado izquierdo, y prácticamente conseguimos esta línea recta realmente bonita. Entonces un valor sube, el otro valor sube con él. Y luego cuanto más cerca lleguemos a 0, menos relacionada o menos correlación hay entre ellos. Y luego más tipo de varianza tenemos en los datos. Entonces notaremos para el caso de correlación perfecta, que es el uno o el caso de la anti-correlación perfecta, que es el menos, que nuevamente tuvimos el ejemplo de más café, menos cansado. Y en esos casos, ya sabes, tenemos una línea delgada muy bonita y nuestros datos no saltan mucho. Pero cuanto más nos acercamos a 0, menos podemos ver a uno causando al otro, y más podemos ver nuestros datos tipo de dispersión. Y así sería como se vería la correlación en términos de gráficos.
5. Quantiles y percentiles: Oigan a todos, son burlas y bienvenidos de nuevo. En este tutorial, vamos a pasar por cuartiles y percentiles. Está bien, así que empecemos. Entonces, ¿qué son los cuantiles? Bueno, los cuantiles nos permiten dividir nuestros datos en ciertas regiones que si estamos tratando con la probabilidad, todos
tienen la misma probabilidad de ocurrir. O si solo estamos tratando con tamaños de datos, queremos dividir nuestros datos en regiones iguales. Entonces eso es lo que podemos hacer con cuantiles, es sólo dividir todo para que cada vez que lo dividamos, ya sabes, tengamos cantidades iguales de datos. ¿Está bien? Y así un ejemplo de cuantil sería algo conocido como cuartil. Y así es cuando dividimos nuestros datos en cuatro regiones iguales, ahí el nombre cuartil. Entonces un cuantil es el nombre general para hacer este procedimiento de división. Y luego si decimos cuartil, eso significa que estamos haciendo cuantiles pero para cuatro regiones iguales. Y entonces esto es algo que probablemente verías muchas veces páginas de admisiones universitarias
en línea o algo así. Y dicen, el 25 por ciento superior de nuestros aspirantes tiene al menos un puntaje de prueba de como 90 por ciento o algo así, ya sabes. Y entonces dirían que el 25 por ciento inferior para los aspirantes o nuestros estudiantes de admisión o admitidos o algo así, tienen un puntaje de prueba. Es decir, no sé, 70 por ciento o 75 por ciento o algo así. Y entonces el puntaje medio de la prueba es del 85%. Entonces así te irías por cuartiles, es que tendrías el 25 por ciento más bajo sin embargo, medio, 25 a 50, entonces tienes el 50 a 75, y luego tienes el 25 por ciento superior. Por lo que el 75 por ciento a un 100. Y mira que tienes estas cuatro regiones iguales, que también incluyen tu valor mínimo en la parte inferior, tu máximo en la muy superior. Y en el medio, tienes tu valor medio. Entonces ese es el valor directamente en los lotes medios porque lo estás dividiendo en, para regiones iguales. Y así el valor que separa al segundo quintil, Cuál debería ser el 25, 250 del tercer cuartil, que sería de 50 a 75, ese valor ahí sería el valor mediano. ¿ Está bien? Y así si entras en percentiles, percentiles que pueden haber sido un nombre que
tú, probablemente has escuchado antes. El percentil vuelve a ser un ejemplo de cuantil. Pero en lugar de decir, ya
sabes, como un cuartil, lo hacemos por, porque, un percentil significa girarlo en 100 segmentos iguales. De ahí los percentiles, los perks nombre al principio aunque. Esa es una especie de donde están el por ciento. Y puede que hayas notado por ciento significa de un 100 o así eso es si estás familiarizado con el porcentaje, entonces ese también es el mismo tipo de razonamiento de donde viene esto. Y así tenemos percentiles, lo que significa dividirte en ti 100 segmentos iguales. Y así un ejemplo de esto se usa a menudo en los puntajes de las pruebas. Entonces si alguna vez has tomado algo como los SAT o algo así, entonces obtienes un puntaje de prueba. Pero también obtienes un percentil. Y la razón que se hace eso es para juzgar no a ti contra las pruebas, sino a ti contra todos los demás. Y así si es una prueba difícil, entonces algo así como conseguir un puntaje de prueba del 60 por ciento, pero estás en el percentil 95, significa que tu puntuación es en realidad mucho mejor. Y entonces lo que puedes decir con percentiles, por ejemplo, es que cada percentil en el que estás significa que eres mejor que esa muchas otras personas. Entonces, por ejemplo, si te alcanzan el percentil 99, eso significa que eres mejor que el 99% de las personas que se hicieron
la prueba, el percentil 95 sería 90. Eres mejor que el 95 por ciento de la gente que se hizo la prueba o algo así. Y por eso los percentiles a menudo se usan para las pruebas y a menudo se usan para la normalización. Porque te permiten tomar en consideración, ya sabes, estos factores de como, ¿es una prueba difícil, es una prueba más fácil. A lo mejor más gente está anotando más alto. Por lo que realmente no te juzgan directamente frente a la prueba, pero te normalizan contra todos los demás que se hicieron la prueba. Por lo que haces la prueba, obtienes una anotación. Y luego tienes los cheques de percentil donde yace ese puntaje relativo a todos los demás. Y así estos
percentiles, te permiten dar una buena normalización y te permiten hacer grandes comparaciones porque te permiten especie de eliminar algunos de estos factores. A dificultad de prueba. Y por supuesto, ya sabes, siempre puede haber suerte involucrada en las cosas y eso puede que no se filtre de manera individual. Pero si haces esto por muchos estudiantes, y por eso también se hace en este tipo de grandes pruebas estandarizadas es que obtienes un percentil junto con tu puntuación para que entiendas si, tal vez si tu puntuación es menor. Pero la prueba fue muy dura, todavía se
puede ver, ya sabes, yo, lo
hice muy bien porque la gente encontró esta prueba muy dura y fue aún más difícil para ellos de lo que era para mí.
6. Importanza de visualización de datos: Hey todos, es max y bienvenidos de nuevo. En este tutorial, vamos a hablar de la importancia de la visualización de datos. De acuerdo, entonces de lo que vamos a hablar es primero vamos a ver el papel que la computadora juega un poco para nosotros y para qué papel está hecha la computadora. Entonces vamos a ver qué papel debe desempeñar el humano en cuanto a la ciencia de datos. Entonces vamos a ver la presentación de datos. Y por último, hablaremos de interpretar datos. Muy bien, Así que empecemos y hablemos del papel que coloca la computadora. Ahora, la computadora es
mucho, mucho más rápida de calcular que un humano porque para eso está hecho. Está hecho para crujir números, está hecho para hacer cálculos rápidos. Ya sabes, si piensas en lo rápido que hay ordenadores en el rango de gigahercios. Entonces giga significa mil millones, así que simplemente hacen miles de millones de cosas cada segundo. Y así son realmente buenos para hacer cosas repetitivas porque pueden hacerlo tan rápido. Y entonces podemos darles estas tareas lógicas en cuanto a programación. Y les damos una estructura y simplemente lo
hacen y lo pueden hacer una y otra vez. No van a estropear. Sólo puedo repetir lo mismo. No se cansarán de ello. Y son realmente buenos y son muy rápidos en hacer estas cosas. Entonces ese es el papel que la computadora debe jugar para ti. Sé una especie de medio para conseguir estos crujidos de números duros y todas estas cosas hechas. Por lo que realmente no hay necesidad de que trabajes un poco todas estas matemáticas complicadas porque tu computadora puede hacerlo mucho mejor y mucho más rápido que tú. Y también es menos propenso al error si lo codificas correctamente. Así que esa es la única parte en la que entras y sólo va a estropear si te metes la pata. Pero en general, nuestra computadora hace exactamente lo que le decimos haga y es realmente bueno y es realmente rápido en ello. Ahora bien, ¿qué papel debe desempeñar un humano en términos de ciencia de datos? Bueno, los humanos se han desarrollado naturalmente para identificar patrones y lo hemos hecho primero para sobrevivir. Para que si estamos caminando por alguna parte y veamos un, no
sé, un gran depredador escondiendo eso. Podemos identificar ese patrón del depredador y podemos como que lo podemos escoger, a
pesar de que está tratando de camuflarse. Por lo que los humanos, por naturaleza se han vuelto
muy, muy buenos en identificar patrones. Y también puedes ver esto si miras las nubes y ves cosa o
ves formas de animales en las nubes u otras cosas. Entonces esos patrones en realidad no están ahí, pero los humanos se han vuelto tan buenos en identificar patrones. Podemos ver las cosas en muchos, muchos lugares. Y así es en lo que los humanos son realmente, realmente buenos. Somos capaces de mirar las cosas en, somos capaces de escoger patrones. Ahora, otra cosa que es realmente buena para los humanos es que somos muy creativos. Y a través de su creatividad, también
podemos usar la memoria y traerla fuera del conocimiento. Y también podemos usar un entendimiento general de así que estas son todas las cosas que las computadoras no pueden hacer. Entonces las computadoras son una especie de medio para conseguirnos cosas. Pero una vez que en realidad está ahí, es nuestro trabajo usar nuestras habilidades de reconocimiento de patrones. Y por supuesto, puedes entrenar algoritmos de aprendizaje automático para patrones
específicos más adelante o casos específicos y hacerlos realmente buenos en eso. Pero en general, si no sabes exactamente lo que va a venir, entonces nuestro primer paso como científico de datos sería tratar de identificar estos patrones. Usas tu creatividad, usas tu memoria, ya sabes, traes todas estas cosas diferentes. Usa todas estas cosas diferentes que te hacen humano y usa todo eso en los datos, todas estas cosas a las que una computadora simplemente no tiene acceso alguno. ¿ De acuerdo? Entonces usando, ya sabes, estás considerando todo esto. El mejor modo de hacer todo esto sería en términos de visualización de datos. Por lo que no puedes simplemente mostrar hojas de cálculo con un montón de números que realmente no te ayudan. Porque mirando los números, es realmente difícil escoger patrones. La mejor manera de hacerlo sería simplemente trazar valores. Y luego si tenemos estos visuales frente a nosotros, entonces realmente podemos identificar patrones. Podemos ver que las cosas van arriba y abajo y las podemos ver fluctuando y las podemos ver y hacer unas líneas muy delgadas. Podemos simplemente mirar un gráfico y sólo podemos ver las cosas. Y por supuesto, ya sabes, necesitamos un poco de práctica para entender lo que esa gráfica está tratando de decirnos. Pero una vez que entendemos la gráfica y en general, entonces podemos mirar nuevas gráficas y simplemente podemos ver las cosas. Para que podamos empezar a ver patrones. Y tal vez no siempre sean ciertas. Pero eso no significa que no podamos elegirlos. Y entonces eso es más tarde. También harías algunas pruebas tratando de ver si esos patrones con verdadero, si tienen sentido. Pero en general, la visualización de datos es muy buena para esto porque
te permite invocar todas tus características humanas. Las cosas que son realmente buenas que nos hacen humanos. Las cosas de las que hablamos en la última diapositiva, todas las cosas como la computadora no pueden hacer. Y a veces te ocupas sólo de estos números. Es la visualización de datos es para ti y $0.01 para que puedas ver estas cosas e intentar elegirlas y usarlas más adelante. Pero también si estás tratando de mostrarle estas cosas a otras personas. Entonces tal vez tengas que hacer una presentación y yo tipo de resumen. Entonces quieres asegurarte de que tus visualizaciones de datos sean buenas porque las personas que lo van a estar mirando están mucho, mucho menos capacitadas en mirar datos y analizar datos que tú. Y así si tratas de transmitirles un mensaje y solo les enseñas una gran hoja de cálculo con números y solo señalas como aquí, mira, mira, mira estos números, ya sabes, aparecen y van a ser como, Qué ¿Estás hablando? Por eso es realmente importante tener realmente buenas habilidades de visualización de datos. Una de ellas es para permitirte hacer tu trabajo, pero la otra parte de ello es mostrárselo a otras personas y para algo que te ayude a transmitirles información. Ya lo sabes? Y por supuesto, hablamos de valores estadísticos. Y los valores estadísticos son muy importantes y nos pueden dar una buena idea sobre los datos y lo que está pasando dentro de los datos. Pero visualizar datos es sólo llevarlos al siguiente nivel. Y ahí no bastan los valores estadísticos. Nos pueden dar, ya sabes, nos pueden ayudar, nos pueden apoyar,
eso nos puede dar ideas. Pero si realmente queremos entender lo que está pasando, alguien que sólo tenga que echar un vistazo a lo que está pasando. Y por supuesto que lo son. También es importante asegurarse de elegir las visualizaciones correctas y todo. Porque otras veces puede que te veas extremadamente raro. Pero justo esta habilidad de poder
presentar datos tanto para ti como para otras personas,
como muy, muy importante para un científico de datos. Y luego pasamos a interpretar datos. Y ya hemos tocado esto en la última sección. Pero realmente con la visualización de datos, solo te permite ver estos datos y te permite aplicar algún razonamiento al sistema. Y así puedes, si miras los datos, o ves algo que es genial. Eso significa que puedes intentar probar algo, ver si en realidad está ahí donde no ves nada. Y eso también te dice algo que realmente
no eres capaz de escoger un patrón para que no lo
haya, no hay nada obvio que esté pasando ahí. A lo mejor algo subyacente Eso es más complicado, pero obvio para el usuario. Simplemente no ahí. Y así todas estas cosas te permiten tipo de facilidad, son mucho más fácilmente analizar tus datos y tipo de prepararte dónde vas a hacer después de eso? Entonces la visualización estándar que realmente te da una comprensión profunda y
profunda de lo que está pasando con tus datos. Y luego cuando interpretamos estos datos y miramos estas visualizaciones, ya sabes, tal vez veas dips y ya sabes, tal vez ves algunas colinas en alguna parte. Podemos tratar de entender todo esto trayendo nuestro conocimiento exterior. Entonces otra vez, en qué es realmente bueno el humano, podemos traer en el contexto de las cosas. Ya sabes, tal vez la gente salga a almorzar aquí. Y por eso disminuye la actividad. O tal vez todo el mundo es común trabajar por la mañana. Y por eso aumenta la actividad en comparación con las seis AM. Entonces todas estas cosas, y podemos traer todos esos contextos. Podemos traer todo este entendimiento para tratar de interpretar el gráfico de datos, tratar de entender mejor lo que está pasando. Y entonces por supuesto, vamos a ver esperemos algunas tendencias o patrones. Por supuesto, como dije, estos pueden no estar siempre ahí. Entonces, en realidad somos tan buenos en el reconocimiento de
patrones que podemos ver a veces patrones y realmente no estamos ahí. Y así un buen ejemplo otra vez de esto sería sólo mirar las nubes en el cielo. Y se puede ver patrones animales pueden ser, pero eso realmente no está ahí. Eso es solo nuestras mentes, ya sabes, identificando todos estos patrones. Y entonces, sí, eso es, por eso la visualización de
datos es tan importante para un científico de datos. Es por todo este enorme aspecto humano, es solo clave en la ciencia de datos. Es clave y analítica de datos para poder entender lo que hay frente
a ti, para poder traer estos conocimientos externos, para poder contextualizar esta creatividad que es realmente clave para un buen científico de datos. Y una computadora puede ayudarte con todo esto. El equipo puede ayudarte a hacer el crujido de números y computadora puede ayudarte a configurar las visualizaciones y puede trazar lo que quieras para ello. Pero en última instancia depende de ti elegir la visualización correcta debido a mirar los datos, para poder comunicar también la visualización. Todas esas cosas depende de ti. Y por eso el humano es tan,
tan importante en la ciencia de datos.
7. Uno de gráficos variables: Hola a todos. Es Max y bienvenido de nuevo. En este tutorial, vamos a ver una gráfica variable. Entonces en realidad vamos a ver algunos de los tipos de gráficos que podemos hacer de los que hablamos en nuestro último tutorial donde
acabamos de ver la importancia de la visualización de datos. Entonces ahora vamos a entrar en la visualización de datos y ver los tipos de gráficos que tal vez quieras usar o que tal vez quieras elegir. Muy bien, y así las gráficas que vamos a mirar en términos de gráficos de una variable van a ser histogramas, gráficas de
barras, y gráficos circulares. Entonces empecemos con histogramas. Ahora, podemos ver un ejemplo de un histograma a la derecha. Pero lo que realmente es genial de los histogramas es que nos muestra la distribución de los datos y nos muestra la distribución a través de todos los valores en nuestros datos. Y así nos muestra lo que menos sucede, y también nos muestra lo que más pasa. Y los histogramas, nos dejan ver dónde se concentran nuestros datos y también nos dejan ver cómo se distribuye. Y así a través de
esto, como que muestra un comportamiento general. Y así que realmente lo que es un histograma es que mira cada valor y sólo mira con qué frecuencia ha ocurrido ese valor. Y entonces lo que vemos aquí, por ejemplo, es que alrededor de 0, tenemos lo más ocurriendo. Entonces si el valor que estamos viendo, y conforme nos movemos hacia la izquierda y a medida que nos movemos hacia la derecha, estos valores comienzan a caer por lo que comienzan a ser menos frecuentes. Y así es lo que nos muestra un histograma. Este diagrama nos muestra una especie de frecuencia con la que ocurren estas cosas. Y así existen diferentes tipos de histogramas que puedes encontrar. O quiero decir, generalmente un histograma es solo esto trazando una frecuencia versus tu valor. Y así hay diferentes formas en las que puede verse este histograma. Una de ellas es la que acabamos de ver que no es una distribución
normal o se llama get like histograma porque sigue esta distribución gaussiana o esta distribución normal que ya sabes, pero también podemos tienen un valor en descomposición exponencial. Por lo que empezamos muy alto. Y cuanto más lejos nos alejemos del valor inicial, más rápido va a disminuir. Y en realidad se puede comparar eso con el gosh, a
diferencia o con la distribución normal. Por lo que la distribución normal parece más bien una campana. Es como que sube y luego se curva hacia abajo lentamente, mientras que el exponencial, se corta muy rápido y luego se ralentiza más adelante. Por lo que sí tienen comportamientos diferentes. Y entonces por supuesto, también
podemos conseguir no solo un pico como vemos en este primer caso y el gosh, a diferencia de la distribución, pero también podemos conseguir cosas como dos picos o incluso podemos conseguir tres picos o más. Podemos tener picos extendidos muy grandes. Y así nuestros histogramas, hay medios para mostrarnos cómo se distribuyen estos datos. Hay medios para mostrarnos, ya sabes, qué cosas ocurren con mayor frecuencia, mientras que nuestros datos se concentraron. Pero eso no significa que vayan a tener que tener un valor específico. Y así hay formas específicas. Por lo que hay muchas formas diferentes que son histogramas pueden asumir. Y dependiendo de qué forma obtienes, eso también nos dice algo muy diferente sobre nuestros datos. Está bien, Entonces la siguiente parte variable que veremos va a ser parcelas de barras. Y entonces lo que hacen las parcelas de barras es que pueden parecer un poco similares a los histogramas al principio, pero son muy diferentes en cierto sentido porque las parcelas de barras nos permiten comparar entre diferentes grupos. Y entonces eso es lo que vemos en el eje x allá abajo mientras miramos a diferentes grupos. Y así usamos la misma variable y podemos comparar esa variable sobre diferentes grupos. Y así si miramos eso en ejemplo, entonces lo que vemos de la derecha aquí es mirar a diferentes países. Y lo que mostramos es que mostramos el promedio del impuesto sobre la renta. Y así vemos que el país B, por ejemplo, tiene el impuesto sobre la renta promedio más alto, mientras que el país D tiene el impuesto sobre la renta más bajo. Y así a través de esos, ya sabes, seguimos viendo sólo la variable del impuesto sobre la renta, pero pudimos comparar iss sobre diferentes grupos, sobre diferentes categorías, si se quiere. Por lo que otros ejemplos serían si nos fijamos en los grupos de control y en los grupos de prueba. Entonces si estás haciendo algún tipo de estudio médico o tal vez algún estudio de psicología o algo así. Siempre quieres tener tu grupo de control. Y luego puedes tener diferentes tipos de grupos de prueba. Y luego se puede trazar cada uno de estos grupos como una gráfica de barras y se puede ver la misma variable, pero se puede ver cómo eso cambia sobre los diferentes grupos. Otro ejemplo sería algo así como comparar alturas masculinas versus femeninas. Entonces tienes un grupo que es masculino, el otro que es femenino, y solo puedes trazar su altura promedio, um, y luego el impuesto, el impuesto sobre la renta de diferentes países, que es lo que hemos visto a la derecha aquí. Está bien, y así el último gráfico variable que vamos a ver va a ser gráficos circulares. Y los gráficos circulares que permiten hacer es que nos permiten Seccionar nuestros datos y podemos ocultar la división en percentiles. Y debido a esto, podemos ver de qué están conformados nuestros datos. Por lo que todo el Pi corresponde a un 100 por ciento. Y luego como que lo cortamos en diferentes rebanadas. Y a través de ese rebanado. Y entonces ojalá voy alguna codificación de color como lo hemos hecho aquí y tal vez incluso etiquetar o lo más definitivamente longitudes de onda para que sepas, qué rebanada corresponde a qué valor. Podemos ver en qué categorías, um, ya sabes, o en qué categorías se componen nuestros datos. Y así podemos ver lo que es más prominente. Pero también podemos ver lo que es menos prominente y todas estas cosas. Y entonces otra vez aquí podemos ver también distribuciones no tan bien como en el histograma, pero aún podemos ver distribuciones en términos de dominio, en cuanto a cuántos grupos hay. ¿ Te pierdes los datos repartidos uniformemente, está muy concentrado en una parte del pastel? Todas estas cosas permiten, ya
sabes, es, eso es lo que podemos hacer con los gráficos circulares. Obtenemos este bonito tipo de Grupo Visión general de una variable. Por lo que ejemplos de esto serían que se puede ver la distribución étnica en una universidad. Y así puedes tener un gráfico circular y solo cada rebanada de pastel que es representar una etnia diferente. Y dependiendo de cuánto de nuestro porcentaje que integre el perfil universitario total, así de grande sería la rebanada de pastel. Y así se puede ver el dominio de algunas etnias así como de minorías. Pero también se puede ver solo por cuántas rebanadas son. Se puede ver cuántos grupos etnias diferentes hay. Y otro ejemplo sería que puedes dividir las reseñas de estrellas para un producto. Entonces, en lugar de mirar la crítica de estrellas promedio, también
puedes usar un gráfico circular y puedes ver cuántas de mis reseñas o cinco estrellas, cuántas de ellas eran cuatro estrellas, 321. Y así ahí se puede de nuevo, diré que consiga este bonito panorama diferente de cómo funcionaría el sistema de revisión.
8. Dos gráficos variables: Oigan a todos, es max y bienvenidos de nuevo. Ahora vamos a hablar de dos gráficas variables. Entonces las gráficas que vamos a ver van a ser parcelas de dispersión, gráficas de línea, histogramas 2D son histogramas bidimensionales y parcelas de caja y bigote. Está bien, así que empecemos con parcelas de dispersión. Ahora, para una gráfica de dispersión, lo que estamos haciendo es que realmente estamos dispersando por todos los puntos de datos en una gráfica. Y así más o menos cada punto de datos que
tenemos, le ponemos un poco de punto en la gráfica. Y las parcelas de dispersión son geniales porque nos permiten ver propagación de datos entre dos variables. Por lo que siempre estamos trazando una variable en el eje x y luego otra variable en el eje y. Y simplemente nos permite ver cómo se distribuyen
los datos para estas dos variables. Y luego a través de eso, también podemos ver áreas más densas. También podemos ver algunas áreas escasas, y también podemos mirar las correlaciones. Entonces tal vez recuerdas en la conferencia hablamos de correlaciones. Pudimos ver a través de parcelas de dispersión donde aquellas correlaciones donde o donde no había ninguna correlación. Entonces todas estas cosas, Para
eso son realmente las tramas de dispersión, realmente agradables. Parcelas de dispersión. Por supuesto, también podemos usarlos para tener, como vemos aquí, un pequeño cúmulos. Entonces no todo necesita estar conectado por una línea o una curva. A lo mejor algo se parece más a un círculo. Y así es lo que las parcelas de dispersión nos pueden mostrar también. Ellos pueden mostrar un poco estas agrupaciones y vemos un clúster aquí. Pero tal vez, ya sabes, tienes parcelas más grandes y luego habría más pequeñas, ya
sabes, como 10 pequeñas agrupaciones diferentes para cosas diferentes. Por lo que tiene nuestros costos son realmente geniales para eso porque simplemente nos muestran dónde se encuentran los puntos de datos para estas dos variables. Y entonces podemos usar nuestra celda de ver, ya
sabes, como cómo, ¿cómo se ven estos? Do, ¿una variable afecta a la otra? O tal vez ciertas agrupaciones que podemos ver donde nuestras zonas densas, donde es escasa. Dónde están las cosas concentradas, ya sabes, es todo repartido por todo el lugar está en
muy, muy estrecho y sólo en región específica. Las parcelas de dispersión nos permiten ver todas estas cosas muy fácilmente. Y así algunos ejemplos en los que podríamos usar parcelas de dispersión serían si vemos, si miramos el gráfico de la derecha, podemos mirar algo así como un precio de auto versus el número de autos vendidos. Por lo que cada uno de estos puntos de datos representa más o menos un auto que se ha vendido. Y entonces el eje x nos dice el precio que se ha agotado el auto. Y el eje y nos dice la cantidad de autos que se han vendido a este precio. Y así lo que vemos aquí, por ejemplo, muy fácilmente ponerlos más de lo que el auto tiene precio, se vende elástico. Y entonces tal vez puedas pensar en términos de, bueno, más sea su precio, tal vez la gente no quiera comprar un auto tan caro. A lo mejor encontraron una versión más barata del mismo. Entonces tal vez sea solo una cosa de branding, por lo
que es más caro. A lo mejor hay algo igual de buena calidad que es más barato. A lo mejor la gente simplemente no tiene suficiente dinero. Entonces ese es probablemente un gran árbol de factores que la gente simplemente no tiene suficiente dinero para comprar estos autos caros. Y así es que por eso se dejan. Y así puede verse un poco diferente en términos de ganancias. Pero cuanto más alto tenga el precio del auto, la última vemos que se vende. Entonces ese es un ejemplo de una trama de dispersión. Entonces algo más que podemos ver es quizá el ingreso versus años de educación. Entonces veríamos en el eje x, cuántos años alguien ha sido educado. Y entonces veríamos los ingresos corrientes. Y eso sería sólo un punto en la gráfica. Y podemos hacer eso por muchas, muchas personas diferentes. Y luego podemos ver cómo diferente educación para diferentes personas, cómo eso afecta sus ingresos actuales. Entonces eso es otra cosa para la que podemos hacer una gráfica de dispersión. También podemos volver a uno de los ejemplos anteriores que usamos muy temprano, donde hablamos de personas que viajan para trabajar. Y solo podemos trazar la distancia recorrida versus el tiempo que tarda y viajó al trabajo. Y entonces podemos ver tal vez algunas personas viajan más rápido. Podría ser que algunas personas viajen la misma distancia, pero una tarda más que la otra porque una va por Kiara, la otra va en bicicleta, la otra toma transporte público, todas estas cosas. Entonces todo eso podemos ver en las parcelas de dispersión y solo tipo de tomar en cuenta estas diferentes situaciones y ver cómo todo eso busca el, para la población general de nuestros datos o simplemente generalmente para datos. Entonces tiene que, las parcelas son realmente,
realmente geniales como una especie de primero ir solo a identificar también tendencias, identificar regiones. Solo te estoy dando una buena visión general de tus datos. Ahora, lo siguiente que veremos es que van a ser parcelas de línea. Y las parcelas de línea en algún sentido son algo similares a las parcelas de dispersión. Entonces tenemos la misma base del x y del eje y, pero los puntos están conectados. Y ahora es muy importante saber cuándo elegir parcelas de línea y parcelas de dispersión. Por lo que las parcelas de línea pueden llevar consigo muchas ventajas con ellas porque esta conectividad, nos hace muy fácil ver tendencias porque podemos ver hacia dónde van estas líneas, no sólo tratar de conectar los puntos de nuestra cabeza. Ya sabes, como que conecto los puntos. Pero eso es exactamente lo que yo soy una trama de líneas hace, es que conecta los puntos para nosotros. Y así podemos ver estas líneas. Es genial si queremos ver una evolución de algo. A lo mejor quieres ver una evolución a lo largo del tiempo. A lo mejor quieres ver una evolución sobre el espacio y evolución con la gente, algo así. Justo si nuestros puntos de datos están conectados, es genial usar una gráfica de líneas. Entonces si sabemos que lo que pasó antes está conectado a lo que sucede ahora, es genial usar parcelas de línea porque las parcelas de línea
nos muestran cómo evolucionan las cosas porque todas están conectadas como una línea. Pero si vamos a hacer parcelas de dispersión y sólo un poco trazamos puntos al azar. Y sólo porque si volvemos a ella o tipo de auto vendido precio de auto ejemplo, sólo porque alguien compró un auto caro o si miramos el auto caro y se ha comprado, digamos como cinco veces, entonces miramos a unas tarjetas más baratas y compraron un 100 veces. No hay realmente una conexión lógica que hacer entre los dos. Y así si usáramos parcelas de línea donde deberíamos usar parcelas de dispersión, realmente lo que veríamos es solo un montón de líneas por todo el lugar. Entonces por eso es importante saber cuándo usar parcelas de línea. Y uno, usas diagramas de dispersión porque puede ser muy, muy útil. Si utilizas una gráfica de dispersión en lugar de una gráfica de líneas, va a ser un poco más confusa porque
tienes que intentar conectar los puntos tú mismo en tu mano. Pero si usas una trama de líneas en lugar de una trama de dispersión se va a ver realmente rara porque solo hay líneas por todo el lugar y realmente no se puede ver nada. Entonces un ejemplo donde podríamos usar parcelas de línea es que tenemos la distancia típica versus tiempo. Para que puedas mirar, ya sabes, lejos que alguien o qué hora es y luego lo lejos que ha viajado alguien. Tan sólo una curva general de distancia versus tiempo. Eso es muy, muy común. Y se puede ver el beneficio de la empresa frente al número de empleados. Entonces, cuantos más empleados implican un empleo, ¿cómo cambia eso sus ganancias? Entonces por supuesto, tienen que pagar más a los empleados, pero tal vez los empleados también puedan hacer más trabajo. Y ojalá, ya sabes, ese tipo de cancela lo que les pagas y luego aumente las ganancias de esta empresa. Y luego qué podemos ver de la derecha aquí como podemos ver tu creatividad y cómo eso cambia con el estrés. Por lo que podemos ver que cuanto más estresado tu, la última UR creativa. Y aquí también es bueno usar una parcela de línea porque tipo de avance gradual y estrés. Y así cada punto y estresa tipo de relacionados. Y cuanto más alto subes y estresas, menor bajas y creatividad. Y así hay este tipo de relación donde podemos ver esta evolución. Entonces, cuanto más te estresas, menos creativo se vuelve. Tan lima más un realmente bonito aquí porque no hay este movimiento caótico por todas partes. Pero es muy bonito y es muy fácil ver esta línea. Es muy fácil de seguir. ¿ De acuerdo? Entonces la siguiente gráfica de la que podemos hablar es de histogramas bidimensionales. Ahora hemos visto histogramas unidimensionales en el último tutorial donde miramos la propagación de datos y
miramos picos y cómo las cosas acababan de distribuirse a la derecha y a la izquierda. Pero también podemos hacer un histograma bidimensional. Y algo un histograma bidimensional es que es un histograma unidimensional, pero es un histograma más o menos para cada punto de la otra variable que estamos viendo. Entonces realmente lo que estas cosas nos permiten ver es que nos permiten ver cómo las diferentes distribuciones de las dos variables son relativas a otra. Entonces podemos ver aquí, por ejemplo, en la región roja que para esos valores específicos, ellos, suceden mucho. Por lo que esa combinación de valores sucede mucho. Y así somos capaces de especie de volver a señalar estas ocurrencias de frecuencia. Y también somos capaces de mirar las caídas, Pero somos capaces de señalar eso a dos valores específicos ahora en lugar de solo uno, que es lo que hicimos con el histograma 2D. Y estas cosas son mucho más difíciles de ver en las parcelas de dispersión. Porque en parcelas de dispersión, si tenemos un valor ocurriendo un 100 veces, simplemente
sería el mismo punto y el punto no se haría más grande. Ahora por supuesto, puedes hacer el punto más grande tú mismo si quisieras. O puedes cambiar el color o algo así. Pero realmente si haces una gráfica de dispersión y lo mismo le pasa a un 100 veces sólo va a parecer un punto. En tanto que para los histogramas bidimensionales, podemos ver que no es sólo, no está pasando unos, sino que en realidad podemos ver la frecuencia de esas variables. Son esas, esas dos variables juntas. Entonces un ejemplo de un histograma bidimensional sería si miramos los precios de los boletos versus los boletos vendidos. Y así si miras la esquina inferior izquierda y podemos especie de ver este pico rojo. Entonces eso es precios de boletos más baratos, pero los boletos también se venden con frecuencia. Entonces sabemos que los boletos a ese precio se venden con bastante frecuencia. Y estas podrían ser, ya sabes, como nuevas bandas de marca en ascenso. Estas podrían ser como, ya
sabes, bandas tipo estándar a las que tal vez quieres llevar a alguien en un día, pero no quieres gastar demasiado dinero en un boleto, pero aun así una considera una buena idea. Y así ese es un buen precio de entrada. Eso vende muchos boletos porque te da el placer del evento
p sin hacerlo demasiado caro. Y luego si te mueves más hacia mayores precios de boletos, y luego si te mueves más hacia más boletos vendidos, entonces puedes ver que para boletos
altos, precios altos de boletos, que serían, ya
sabes, como estos grandes bandas. Entonces podemos volver a ver cuántos boletos hemos vendido. Por lo que podemos ver eso por un precio más alto. Y si subimos y se venden boletos, así que si quieres ver muchos boletos vendidos por un alto precio, entonces los peeks rojos nos van a dar a todos estos artistas más famosos. Entonces ese es un tipo de aplicación. Pero claro, hay muchos, muchos mejores. Son sólo estas cosas. Ya sabes, si, si estás en el momento y puedes algo así, entonces te darías cuenta, Oh, aquí es cuando un histograma bidimensional sería algo genial para mí usar. Por lo que muchas de estas gráficas, son geniales de saber. Y una vez que estás en el momento, entonces es mucho más fácil para ti escoger qué gráfica sería mejor representativa. Por último, la última gráfica que vamos a ver va
a ser una trama de caja y bigotes. Y quiero que las parcelas de caja y bigotes nos permitan hacer es que nos permitan ver la propagación dentro de nuestro datum. Entonces no es solo como una gráfica de barras que solo nos muestra un valor, sino que en realidad podemos ver el spread estadístico. Entonces podemos ver valores medianos, que es lo que vemos aquí. Podemos ver cuartiles. Los pequeños puntos del exterior en realidad nos muestran atípicos. Y entonces lo que las parcelas de caja y bigotes nos permiten hacer es que
nos permitan ver esta información estadística, pero nos permiten verla visualmente. Y eso hace que comparar entre diferentes grupos, que es lo que estamos haciendo aquí mucho más fácil. Y así un buen ejemplo de eso sería si miramos los precios de las entradas para los partidos de futbol para diferentes equipos. Por lo que diferentes equipos y diferentes equipos por supuesto utilizan diferentes estadios y tienen diferente popularidad. Estos, y algunos equipos pueden ser mucho más caros o sus precios de boletos tal vez mucho más caros que otros. Y así podemos comparar estos precios de entradas usando parcelas box y whisker. Y entonces podemos ver, ya sabes, ¿cuál es el extremo más alto de estos costos? Por lo que esos van a ser los asientos más lujosos. Y luego vamos al fondo. Y esos van a ser los asientos menos lujosos, probablemente los donde estás parado. Y luego tienes valores medios dependiendo de, ya
sabes, los asientos estándar y dónde te encuentres en el estadio. Si estás cerca del campo, si estás más lejos del campo, pero sigues sentado. Todas estas cosas que podemos ver aquí y eso es lo que nos da la difusión. Podemos comparar eso a través de diferentes equipos y podemos ver el spread entre diferentes equipos, pero también podemos ver qué equipos son más caros. Ya sabes, ¿dónde varían más los precios para un equipo específico? Entonces tal vez algunos equipos tienen un super lanzamiento y luego tienen tus lugares de pie que son simplemente mucho más baratos. Y así se vería una propagación mucho más grande. O tal vez algunos equipos sólo tienen, ya sabes, solo asientos y ver, verías un spread mucho menor. Y así todas estas cosas, somos capaces de comparar usando parcelas box y whisker sobre diferentes grupos.
9. Gráficos de tres y altos variables: Oigan a todos, es max y bienvenidos de nuevo. En este tutorial, vamos a hablar de tres y más gráficos variables. Entonces las gráficas que vamos a
verlo, van a ser heatmaps. Y luego también veremos las parcelas de barras multivariables, así
como cómo podemos agregar más variables a algunas de las gráficas de menor dimensión de las que hemos hablado antes. Está bien, así que empecemos con los mapas de calor. Ahora lo que los heatmaps nos permiten hacer es que nos permitan trazar dos variables unas contra otras y la x y la
y, y las leyes para mostrar una intensidad o un tamaño o algo
así en la dirección z o hacia nosotros. Entonces un ejemplo de esto, que es un poco de lo que he intentado ilustrar a la derecha, es un cliente que se mueve a través de una tormenta. Y así podemos rastrear el camino del cliente en la dirección x e y de la tienda. Por lo que puedes obtener una especie de vista de pájaro y ver a dónde se mueven. Y los puntos más oscuros en realidad nos dicen las posiciones en las que pasan más tiempo. Entonces podemos ver que pasan un poco de tiempo al principio se mudaron en hombres y luego se detienen uno elegir ¿qué vamos a ver esa mancha oscura siendo? A lo mejor encontraron como el pasillo del caramelo o algo así. Había un trozo específico de caramelo que querían. Y luego siguieron adelante y luego empezaron a
ir o a correr un poco la esquina a la vuelta de la esquina. Y tal vez llegaron a la sección de frutas y verduras allá y escogieron varias cosas. Y luego empezaron a dirigirse hacia el mostrador de caja, lo cual sucede al final y se están moviendo a un paga más constante. A veces se detuvieron a mirar un poco, pero simplemente continuaron avanzando. Y así las tres variables que hemos mostrado aquí, como hemos mostrado allá, exposición en la tienda, mostramos ahí y posición en la tormenta y al color. También hemos mostrado el tiempo que pasan en cada posición. Entonces eso es lo que podemos usar, mapas de calor cuatro. Y entonces otro ejemplo de un mapa de calor sería, por ejemplo, si tomas una linterna y la mueves por la pantalla. Y realmente lo que estás mostrando es la cantidad de tiempo que has mostrado la linterna en una región específica. Entonces eso es un poco más de ejemplo de un mapa de calor, pero normalmente mapa de calor, como su nombre
lo indica, te permite rastrear posiciones. Y así se usa muy a menudo para cosas como rastrear los clientes a través de las tiendas son solo rastrear la ubicación de la gente en general, donde les gusta pasar su tiempo. Y la intensidad que se ve en cuanto al color suele ser la cantidad de tiempo que pasaron ahí. Muy bien, Así que también podemos hacer parcelas de barras multi variables y multivariante barplot. Entonces es esto muy similar a un solo parcelas de barras donde acabamos de trazar un valor sobre diferentes grupos. Pero en lugar de solo poner uno, como
que los hacinamos juntos y trazamos varios. Y así un ejemplo de esto sería que trazamos anotaciones de goles, goles anotados para equipo los tiros tomados sin gol, así
como los tiros en blanco. Y así podemos ver tal vez hay equipos que disparan gol lectivo sin anotar menos, pero eso se debe a que también disparan menos y por lo tanto también disparan menos en blanco. O tal vez hay algunos equipos que tu anota mucho y eso es porque disparan un montón. Simplemente no golpean el blanco con tanta frecuencia. O tal vez haya equipos realmente buenos que marcan mucho y también disparan mucho en blanco. Y así todas estas cosas podemos entonces comparar sobre diferentes grupos. Y así para eso podemos usar parcelas de barras multivariables. Si hay varias variables, eso nos daría una mejor comprensión
del sistema que sólo mirar las variables de una a la vez. Pero también sería realmente genial si pudieras compararlos todos,
entonces podríamos usar parcelas de barras multivariables para eso y simplemente ponerlos en la misma trama de barras. Y luego podemos ver cómo cambiaron, ya sabes, dentro de un grupo. También podemos ver cómo cambian sobre diferentes grupos. ¿ De acuerdo? Y algo que podemos hacer es que también podemos simplemente agregar dimensiones
extra a los gráficos de dimensiones inferiores que hemos tenido. Y algunos estaban un poco limitados a tres dimensiones porque esa es la cantidad de dimensiones espaciales en las que vivimos. Pero si tomamos la gráfica de dispersión, por ejemplo, donde empezamos con sólo el eje x y el y y puntos ubicados. Lo que podemos hacer es realmente agregar un tercer eje, para que podamos tomar la x y la y,
y luego podemos agregar una z.
Y y luego podemos agregar una z. eso nos da una dimensión de profundidad extra, que es exactamente lo que vemos aquí. Entonces, en lugar de simplemente trazar a diferencia de un campo bidimensional, a diferencia de un plano, en realidad podemos trazarlo en un volumen. Entonces podemos ver este tipo de bola dispersa que hemos hecho, un poco, poco de bola que hemos hecho aquí, que se encuentra en el centro de nuestra parcela. Y así esto puede ser realmente genial porque nos permite ver profundidad a. El problema con esto es que tenemos instantáneas cada vez. Y así realmente estamos viendo instantáneas bidimensionales. Y así para tener la mejor comprensión de esto, necesitamos rotar nuestras parcelas de dispersión o nuestras parcelas como las hacemos, para que también podamos sumar en nuestra percepción de profundidad. Porque en este momento si lo estamos viendo, puede
parecer tridimensional, pero en realidad es solo una instantánea bidimensional. Y para conseguir la mejor comprensión si nuestra trama de dispersión se encuentra más hacia nosotros en más tareas a la izquierda o algo así. O tal vez es realmente alto y cercano a nosotros, o tal vez es realmente bajo y lejano. Para entender todas estas cosas, necesitamos poder rotar nuestras parcelas de dispersión para que podamos verlo desde diferentes ángulos, lo que luego nos da esta percepción de profundidad. Y podemos hacer lo mismo con los gráficos de líneas 3D. Entonces aquí vemos un ejemplo de tal vez cuál es la posición de un esquiador como estás esquiando abajo de una colina. Y entonces podemos rastrear eso a través del tiempo y vemos que son algo así, van bajando por la colina y este bonito movimiento en zigzag como deberías, y solo podemos rastrear su posición a lo largo del tiempo. Entonces aquí hemos agregado esta dimensión extra al gráfico de líneas 3D, en lugar de solo tomar tal vez un tiempo y una posición en un tiempo o algo así. Hemos sumado una segunda posiciones, en realidad
fueron incluso una tercera posición. Entonces tenemos la x al 1, hace esa posición, y luego simplemente la rastreamos a lo largo del tiempo. Y así eso nos da toda esta línea aquí. Y así es como podemos tomar estas parcelas de menor dimensión que hemos mirado antes en, solo
podemos agregarles dimensiones extra si queremos, siempre y cuando aún sea fácil de ver, siempre y cuando tenga sentido donde que estamos mirando. En realidad sólo somos capaces de tal vez sólo darle una bofetada en otra dirección allí y, ya
sabes, comparar otra variable.
10. Programación en la ciencia de datos: todo el mundo, es Max. Y bienvenidos de nuevo en este tutorial vamos a tocar en la tercera sección mayor Eso es realmente genial para los científicos de datos. O eso debería ser esencial de los científicos de datos, que es la capacidad de programar. Está bien. Y entonces, ¿por qué programamos? Bueno, hay diferentes razones por las que queremos poder programar. El 1er 1 va a ser la facilidad de automatización. El segundo será la capacidad de personalizar. Y por último, es porque hay muchas grandes bibliotecas externas para que utilicemos que solo hacen que nuestro trabajo mucho más fácil. Um, está
bien, pero así que empecemos. Hablemos de la facilidad de automatización para nosotros. ¿ A qué te refieres con eso? Bueno, poder programarlo realmente te permite prototipar realmente rápido nos permite automatizar las cosas, y también nos da el beneficio extra de si tenemos algo en la mente, solo
podemos tomar eso y tipo de puesto en la computadora programándola. Y así podemos automatizar todo muy rápido, y no tenemos que hacer estas tareas repetitivas. Um, ya
sabes, tal vez copiar pegar cosas en o desde Excel o todas estas cosas. Si sólo queremos repetir algo o queremos cambiar rápidamente algo y simplemente cambiar una cosa pequeña, no
tenemos que hacer muchas cosas. Podemos simplemente cambiar eso en nuestro código y luego hacer clic en play y dejar que la computadora se encargue de todo eso por nosotros en lugar de que tengamos que hacer todo manualmente. Por lo que es muy fácil para nosotros automatizar las cosas y también para hacer reportes. Es muy fácil crear automáticamente estos informes. Ya sabes, todo lo que tienes que hacer es configurar tu programa para tratar los datos que vas a
darle , y luego puedo crear automáticamente informes cada semana. Y los informes pueden ser diferentes porque le das un dato diferente. Um
, aún debe tener el mismo aspecto, pero los datos, los valores pueden ser diferentes. Y así eso simplemente crearía automáticamente todos estos informes para ti. Y no tienes que hacerlo todo tú mismo. El programa lo hace por ti, Um, pero tú has construido el programa y le estás dando estos datos diferentes. Por lo que todavía estás haciendo todo el análisis. Es solo que se llega a omitir la parte de copiar pegar y como mirar a través y hacerse cargo de
los valores y hacer todo el formato de solo hacer el mismo informe una y
otra vez. Yo estoy de todo Se cuida por ti, y todo lo que tienes que hacer es solo poner los datos correctos,ya
sabes,
justo ya
sabes, fuera todo lo que quieras hacer y luego haz clic en play y deja que la computadora se encargue de
todo eso por ti porque recuerden, eso es lo que las computadoras hacen bien en hacer estas tareas repetitivas. De acuerdo, también
queremos poder programar porque realmente nos permite personalizar. Es muy fácil una vez que entramos en el análisis de datos, y cuando vemos cosas que obtenemos estas ideas que queremos expandir o diferentes direcciones en las que queremos avanzar o analizar y poder programar, realmente sólo nos permite toma todo eso y ponlo en código y simplemente elige esa dirección y debilita muy fácilmente, sumerge mucho más en nuestro análisis y descubre las cosas rápido porque depende de nosotros hasta donde queremos ir. Y así esta capacidad de personalizar con programación. Es Es Es muy, muy importante porque no dependemos de nada más. No dependemos de,ya
sabes, ya
sabes, algún software y tal vez se descompone. O tal vez no sabemos cómo usarlo a la perfección. Y tenemos que leer el manual y leerlo como una sección de ayuda. No, pero sabemos programar. Y acabamos de escribir exactamente lo que queremos hacer exactamente donde queremos llevarlo, exactamente lo que queremos ver, y podemos personalizar muy, muy rápido con eso. También podemos prototipo muy, muy rápido sin encendido Tal vez si una visualización no está funcionando, convertir una gráfica de dispersión en una gráfica de línea es muy fácil. Simplemente cambias una palabra. Entonces todas estas cosas son muy,
muy fáciles de hacer con la programación porque tenemos todo ese poder al alcance de la mano, y solo podemos, ya
sabes, cambiar todo lo que estamos viendo, todo que se ha calculado, tal vez quieras calcular una cosa extra sobre, retomar algo más porque es irrelevante. Todas estas cosas fueron capaces de personalizar, y todo eso podemos hacer porque somos capaces de programar así que realmente lo que estamos haciendo es que estamos haciendo los datos. Nuestro por lo que estamos tomando el control total de los datos estaban tomando el control total de dónde queremos
ir con nuestro análisis, qué queremos ver y qué queremos mostrar. Está bien, s Así que hablemos de primeras bibliotecas, pero también te damos dos grandes pipa en bibliotecas con las que deberías, ya
sabes, ya
sabes,
tal vez te sientas cómodo o que quizá deberías considerar usar para el análisis de datos. Entonces, primer lugar, ¿qué son las bibliotecas? Las bibliotecas de Will son piezas de código. He sido pre escrito por otros que solo puedes tomar y usar. Y así un muy buen ejemplo de esto es algo conocido como biblioteca de matemáticas. Y así que eso tiene todas las funciones cuadradas llevando al poder, ya
sabes, tomando lo exponencial, asignado el co signo todas estas cosas que sabes y quieres usar. Pero tú no quieres un programa tú mismo. Entonces al igual que prácticamente evita ese paso medio de que tengas que programar la ecuación para calcular un signo, porque todas estas cosas, esas son cosas que no queremos hacer. No queremos distraernos de nuestro objetivo. Queremos poder hacer exactamente lo que queremos hacer sin tener el programa completamente. Otras cosas. Y así es lo que las bibliotecas airen genial para su desarrollado por la comunidad para que todos los usen. Ya sabes, todos se están ayudando unos a otros y estas bibliotecas, simplemente traen mucho poder con ello. Y así una de estas bibliotecas se llama pandas y Panoz se parece más o menos a excel, pero nos permite hacer o podríamos hacer programación con ella, lo que simplemente lo hace mucho mejor, porque podemos hacer las cosas tan rápido con él. Podemos hacer toda esta personalización. Podríamos hacer toda esta automatización, mientras que, ya
sabes, como Excel. Si le das demasiadas cosas, demasiado para correr, simplemente
empezaría a estrellarse porque tiene que manejar todas estas otras cosas. Todas estas otras cosas visuales, ya
sabes, la u I. Y hay mucho Mauritz mucho. No es una estructura tan bien dónde está y programando el programa. Ya sabes, tu computadora simplemente pasa por todo paso a paso. No tiene que cuidar todas estas cosas de visualizaciones. Simplemente hace los cálculos abajo. Pero aún podemos hacer todo tipo de gestión de datos con ellos para que podamos cambiar nuestros datos . Podemos soltar columnas, debilitar, dividir las cosas. Ya sabes, podemos dividir las cosas por fila. Podemos escoger a cierta Rose. Podemos incluso hacer cálculos estadísticos sobre nuestros datos para que podamos decir, ya
sabes, hey, calcular la media para esto. Ni siquiera tenemos que,ya
sabes,
hacer ya
sabes, su propia fórmula para calcular el significado o para calcular la desviación estándar o para calcular la correlación entre diferentes columnas. Todo eso se puede hacer con Panoz con solo un ya sabes, un par de palabras clave. Y así es realmente fácil hacer análisis de datos con él porque todas las funciones que están ahí y sabemos exactamente lo que queremos hacer, no
tenemos que escribir el código para todo ello. Entonces si quisieras mirar las correlaciones, solo
decimos, Hey, Hey, paneles hacen correlaciones en lugar de tener que,ya
sabes,
codificar ya
sabes, todas las correlaciones por nosotros mismos haciendo, ya
sabes, citando todo ese algoritmo y eso hace que sea realmente fácil y realmente rápido obtener resultados y llegar a donde te diriges porque no tienes que ir a ninguno de estos
lugares medios . Puedes simplemente saltarte al intermediario de tener que, ya
sabes, bien, Todos esos. Te las hago crecer a ti mismo, y solo podrías usarlas para que tengas tu inicio. Tienes tu idea. Sabes exactamente lo que quieres hacer. Y puedes hacer exactamente eso para llegar a tu meta. Um, la otra biblioteca, eso es muy cool será Matt plot lib, que es lo que uso mucho para la visualización de datos. Me permite crear gráficos, me
permite visualizar mis datos, permite un montón de personalización, por lo que realmente podría simplemente mover todo a su alrededor. Puedo mover mis espinas. Puedo encender y apagar las cosas. Ya sabes, todas estas cosas son muy fáciles de hacer con mi popular. Hay mucha personalización genial que soy capaz de hacer con ella. Entonces estos son el tipo de dos bibliotecas privadas básicas que probablemente deberías
conocer quizá dónde puedes ver algunos de mis otros cursos. Uno de ellos paneles se ocuparía de la parte de análisis de datos y mapa lote lib te ayudaría a lidiar con la parte de visualización de datos de la misma.