Transcripciones
1. Introducción: Bienvenido al cero Toe nuestro curso de héroe, donde aprenderás programación de arte y cómo aprovechar poderosas herramientas de análisis estadístico para señales de datos. Mi nombre es David, y soy profesor de científico del clima con más de 10 años de experiencia utilizando nuestra programación también para un investigador y un profesor. Me apasiona la enseñanza, y me esfuerzo por que el contenido de mi curso sea accesible para todos, sin importar cuál sea tu nivel de experiencia. He diseñado este curso para girar en torno al uso de conjuntos de datos de la vida real paso a paso instrucciones sobre prácticas manos en las actividades para que puedas aprender nuevas habilidades fueron voto poniéndose calvo en teoría compleja. Al finalizar este curso, habrás desarrollado una base de habilidad básica para programar y son capaces de realizar análisis estadísticos ampliamente utilizados y están familiarizados con los votados. Generar gráfico significativo de resultados. El estudiante ideal para este curso está interesado en ampliar sus
capacidades de análisis de datos sobre aprender mejor trabajando con ejemplos de riel, no
hay requisitos para inscribirse más que una disposición para aprender nuestra programación. Siéntase libre de echar un vistazo a la descripción del curso en. Esperaré con ansias verte a la vista
2. Introducción a R: Me gustaría comenzar con una breve introducción a nuestra programación y hablar de por qué es una realmente, cosa
realmente,
realmente buena de usar. Nuestro primero de todo, es absolutamente gratuito. El programa en sí es libre de instalar toda la funcionalidad adicional que estaremos utilizando es libre de instalar para que puedas escoger este programa en tu propia máquina o en tu
computadora de oficina y nunca tener que pagarlo. Are también es un lenguaje de programación, por lo que es altamente personalizable. Puedes realizar tareas muy únicas, muy personalizadas anuncia tareas porque estás escribiendo todo en pudo. También es fácil volver a ejecutar esos análisis complejos porque se enfría. Todo se guarda en un archivo de script, por lo que puedes abrir eso años después. ONU. análisis realizado en exactamente la misma semana también es realmente fácil de automatizar y son así que esto es algo enorme para ahorrarte tiempo. Ya sabes que lleva mucho tiempo hacer análisis a mano, sobre todo si estás haciendo algo realmente repetitivo en un gran conjunto de datos. Pero debido a que se trata de un lenguaje de programación, podemos iterar a través de ese conjunto de datos a través de esos análisis. Tareas, a diferencia de la computadora, hacen el levantamiento pesado por nosotros. También es genial y son porque puedes producir gráficos realmente de alta calidad y de
aspecto realmente profesional para que realmente puedas elevar tus hallazgos en tus resultados. También hay muchos paquetes o extensiones diversos disponibles y son así que hay mucha funcionalidad incorporada en el programa base de nuestro, Pero también hay muchos,
muchos cientos de paquetes por ahí que se han desarrollado toe add funcionalidad adicional al programa base. Estaremos usando muchos de esos. También hay montones de comunidad. El recurso es así que hay tantas personas que usan están en el mundo que las posibilidades son que no importa qué problema te encuentres y estás codificando a alguien más probablemente ya haya tenido el mismo problema que ha publicado una solución en línea. Por lo que Google es tu amigo. Hay muchos blogs y el recurso está en ayuda. Andi jittery ALS por ahí que puedes aprovechar un encontrar una solución a tu problema son
también es enormemente utilizado, un académico en investigación comercial, Mawr y más personas están usando nuestro todos los días, y es mucho convirtiéndose en el estándar para el análisis estadístico y la ciencia de datos, y finalmente nuestro como código abierto, lo que significa que la funcionalidad se agrega continuamente dedo son así, siempre
está evolucionando para proporcionarle funcionalidad adicional para realizar nuevos análisis tareas. Dicho todo eso, también
hay razones por las que son pueden ser un dolor enorme, sobre todo cuando estás empezando y aprendiendo por primera vez son como carril de mando impulsado. Por lo que no tiene sentido pinchar camino hacia el Nirvana. No hay sistemas de menús encendidos. Todo tiene que ser citado a mano. Entonces junto con eso viene una curva de aprendizaje muy empinada. Es igual que aprender un nuevo idioma es un reto y tomará algún tiempo. Pero estoy aquí para ayudarte con esto. Entonces comparemos nuestra curva de aprendizaje con la curva de aprendizaje de otros programas. Obviamente, cuanto más tiempo pases aprendiendo algo, cuanto más tiempo practiques, mejor te volverás. Pero algunas cosas son más difíciles que otras. Entonces si miramos ahí nuestra curva de aprendizaje, verás que inicialmente es muy empinada, y lo bajo podemos perder a algunos de ustedes en el camino. Yo estoy aquí para ayudarte a superar esa joroba y llegar a una meseta donde te conviertes en un
experto seguro , nuestro usuario, para ilustrar lo ampliamente que se utiliza en todo el mundo. Yo quiero hacerle esta pregunta. Yo quiero preguntarte, ¿Qué son los Piratas? ¿ Lenguaje de programación favorito? Bueno, es son, por
supuesto, son metes. Eso es sólo una pequeña broma. Pero por favor únete a mí en el siguiente video, donde vamos a ver ejemplos de nuestro código y ver cómo leer el cordón, mirar su estructura y determinar qué está haciendo en realidad, Así que te atraparé en el siguiente.
3. Cómo leer el código: en este video, me gustaría mostrarles brevemente una pieza de ejemplo de nuestro código y hablar de cómo
reconocemos lo que está haciendo el cable, cómo leer el cable sobre cómo pensamos sobre su estructura. Entonces, ¿por qué leemos esa pieza de código? ¿ Qué deberíamos estar buscando? ¿ Deberíamos estar buscando letras o palabras? ¿ Deberíamos estar mirando los números? Deberíamos estar mirando los símbolos que se utilizan? Bueno, en realidad no deberíamos estar mirando ninguna de esas cosas. En primer lugar, no. En primer lugar, deberíamos estar buscando los comentarios. Los comentarios han sido escritos por la persona que escribió el código en primer lugar en el explicar qué está haciendo el código. Entonces es vital que leamos esos. Siguiente. Vamos a ver el peso, espacio, los carriles vacíos, la hendidura que está alrededor del barco, el cordón que nos dice mucho sobre la estructura del cordón sobre lo que está haciendo el cordón. Entonces vamos a ver lo que había en cerrar ese espacio en blanco. Estas podrían ser palabras como función o fin, o podrían ser símbolos, incluyendo corchetes, paréntesis y llaves. Entonces vamos a ver los ensambles palabras en letras sobre último de todos los números que se
están utilizando. Entonces mientras miramos hacia atrás este ejemplo, pedazo de código, lo primero que buscamos son comentarios. Este comentario me dice que esta pieza de código es una simulación binomial. Si leo la descripción ahí abajo, me dice
que esto podría ser calcular la proporción fuera de cabezas en cuentos que se logran al lanzar una moneda. Notarás que hay bloque de comentarios está encerrado por hashtags o pone signos y son el hashtag Roponen. Sane le dice a la computadora, No lea esto. Esto es Hablar humano. Esto es inglés. No tengo que correr esto. Entonces aquí es donde buscamos explicaciones fuera de lo que realmente hace el cordón. Podemos entonces empezar a mirar el espacio en blanco aquí y en línea. 23. Vemos que hay algún espacio en blanco. Esto indica que Ok, hemos tenido algunos comentarios. Ahora vamos a empezar a hacer algunos podría. No tenemos más espacio en blanco abajo en el carril 32. Entonces eso indica que del 24 al 31 todas esas líneas de código están haciendo una cosa, luego en línea 33 al 44. Tenemos otro trozo de Courtis separado por algún espacio en blanco. Entonces eso dice, otra sección de la corte está haciendo otra cosa. Otra cosa que tenemos pasando es la sangría en las líneas 34 a 43. Cada línea de código allí está sangrada o girada hacia adentro. Eso me dice visualmente, que cada línea ahí, como con n o parte fuera del bucle for externo que está pasando aquí. Entonces también empezamos a notar que hay algunas llaves en algunos paréntesis. El corsé rizado en esta instancia indica dónde está sucediendo un bucle de cuatro. Todo dentro de esas llaves rizadas de Lane 33 Toe Lane 44 tenemos código que se está ejecutando en iterar dentro de un bucle. También tenemos paréntesis y paréntesis, aire generalmente indicando dónde está sucediendo una función. Por lo que aquí tenemos ver paréntesis. Esta es la función innata concurrente que une o agrupa elementos. También tenemos símbolos y operadores en este código. Si vamos del dedo del pie del carril 26 He circulado algo que parece una flecha es un Chevron, seguido de un guión o un guión que es el operador de asignación y son tan aquí en línea. 26. Estamos asignando un número tain a la variable voltea aquí abajo. Dentro del bucle for, tenemos una sentencia F, que evalúa si yo es mayor que dos. Entonces este es un operador lógico. Se está evaluando si yo es mayor que dos fueron devueltos, verdadero o falso. Y entonces, por último, tenemos signo desigual. He dibujado un círculo por aquí abajo. Esto viene dentro de una función. Ondas asignando algo a un argumento llamado Main Dentro de la función aquí está asignando proporción fuera de cabezas una cadena de texto, por lo que los programas son simplemente instrucciones. Son flujos secuenciales fuera de las instrucciones que leerá la computadora. Entonces yendo de líneas de código a una salida agradable, bonita figura. Bonito borrador no es mágico. Es simplemente la computadora leyendo esas líneas de corte. Entonces tenemos que pensar cuidadosamente un barco, el orden que les presentamos a los de sobre si la computadora les va a tener sentido o no, según endure Dextre, un gran ingeniero de software, gran padre fuera de la computación. Todos los programas se pueden estructurar y a cuatro formas posibles podemos tener una secuencia podemos tener facilidad de
rama, debilitar de bucles y podemos tener módulos. Entonces eso es Luca, cada una de estas diferentes clases de estructuras. En pocas palabras, porque cada uno de estos constituye la base para la lógica de programación. Tenemos un flujo secuencial estricto donde simplemente tenemos una pieza de cordón, otra pieza y otras claves, y realiza sobre análisis. Por lo que estira piso secuencial. El paso 123 en Tada tendrá entonces algo llamado rama, que es una declaración condicional. Por lo que esto sería como una declaración if. Tenemos algo que se hace en su lugar. Uno, lo es. Entonces prueba comer. prueba alguna declaración lógica. Nunca me vuelvo verdadero o falso, y eso determina si seguimos a Puff uno o si seguimos el camino a para que puedas ver el código se está ramificando en dos o más caminos. Entonces tenemos bucles, estos aire continuamente repitiendo hasta que se cumpla la condición. Por lo que se podría pensar en esto como un bucle a través de una tabla de datos. Una tabla de datos con, Digamos, 100 rosa. Empiezas por la regla uno. Realizas algún análisis dentro del bucle, luego vas a crecer 2345 Así que iteraste a través de 100 rose hasta llegar a la última al final de paradas de bucle. Los módulos simplemente están poniendo muchas partes de análisis o pasos de acorde con una función A. Entonces aquí tenemos varios pasos partes de corte que estamos siguiendo secuencialmente. Y en lugar de escribir cada una de esas líneas cada vez, queremos que la computadora lea,
Um, Um, debilite poner cuatro de esas cajas cuatro de esos pasos de código con módulo o función interminable , y luego podemos llamar a toda esa funcionalidad. cualquier momento que lo
queramos, votaremos calificando todos los pasos individuales. Entonces estas son cosas cada uno de estos aspectos del código que vamos a ver a medida que pasemos por este curso. Pero más allá de la estructura, ¿qué más estamos mirando? Estamos viendo variables. Va a tener diferentes tipos o estructuras diferentes a ellos. Hay vectores que son grupos fuera del mismo elemento que son matrices, que son esencialmente tablas fuera de columnas y crece. Y luego dentro de nuestra hay una estructura especial llamada marco de datos, que es una tabla de datos. Pero puede contener diferentes variables con diferentes elementos, por lo que podría contener datos numéricos. que podrían contener datos de texto. Podría contener muchos tipos diferentes de variables En la misma tabla de datos. También tenemos operaciones, estos verbos de ajo y el lenguaje estos términos de acción aérea. Pueden ser sustracción de suma matemática, división de
multiplicación donde podrían ser unos operadores lógicos como mayores que menores o iguales a. Y entonces tenemos la forma en que estamos interactuando el diálogo entre nosotros en la máquina. Por lo que al volver a mirar este trozo de cordón, podemos ver ramas dentro de él. Tenemos aquí abajo una declaración if que evalúa si soy mayor que dos. Si yo es mayor que dos, correremos. El tribunal se encuentra dentro de esa declaración if. También tenemos un bucle aquí que es bucle para yo y uno de los ensayos de colon. Entonces esto es decir que para uno a través de la duración de los juicios que asignamos más arriba con, Lane 27 es 100. Entonces para uno a 100 ojos yendo a igualar uno en la primera generación, voy a igualar a en la segunda generación 34 etcétera hasta que llegue a 100 nanita
terminará . También tenemos marshals dentro de esto. Podríamos tener alguna función en dentro de que tenemos una función de muestra en dentro de que tenemos una función inventada, innata. Entonces aquí estamos, encapsulando muchos pasos dentro de una función. Y luego tenemos datos y tenemos operadores. Estamos asignando datos numéricos a monedas dos cabezas, dos volteretas, dos ensayos para acelerar. También estamos realizando operaciones lógicas con el mayor erudito y también el signo igual . Ahí lo tienes. Es así como miramos el cordón. Hemos empezado a entender qué está haciendo, cómo leemos el cordón. Entonces no, sigamos sin más preámbulos y practiquemos realmente escribir código.
4. Instalación de R y RStudio: Entonces, empecemos. Lo primero que tenemos que hacer es instalar dos programas. El primer programa es nuestro mismo. Y luego tenemos que instalar nuestro estudio, que es más una interfaz gráfica de usuario que nos permite interactuar más fácilmente con nuestro Así que abre tu navegador Web yendo a Internet en Google o busca nuestra descarga. Y lo primero que debería surgir es el nuestro proyecto de computación estadística. Demos click en que Nana dice que nuestro sitio web y luego el lado izquierdo vemos un montón de menús. Tenemos una descarga en un botón cran, así que da click en Cran. Esto nos lleva a una lista de espejos o servidores que esencialmente albergan nuestro alrededor del mundo . Entonces lo que sea que seas, desplázate hacia abajo hasta un servidor o materia que esté cerca de tu ubicación. Voy a desplazarme hasta la Universidad de California,
Berkeley. Universidad de California,
Berkeley. Universidad de California, Pero debes escoger algo que esté cerca de donde realmente te encuentras. Al hacer clic en que no me bajaron y robaron nuestro tengo tres opciones. Descarga nuestro para Lennox descarga nuestro para Mac y descarga nuestro para Windows. Entonces estoy en un Mac, así que voy a dar click Descargar nuestro para Mac. Es me lleva a una página adicional donde consigo un instalador de paquetes para la versión 3.6 punto uno fuera nuestro se actualiza continuamente. Entonces solo ven a esto y toma la versión más reciente que se va a descargar. Una vez descargado, puedes instalarlo. El siguiente que vamos a buscar es nuestro estudio descargar On. El primero que surge es descargar nuestro estudio de nuestro estudio, Dr. Cohn va a dar click en eso. Esto nos lleva a nuestro sitio web de estudio, y nosotros perdonamos a Lord, nuestro escritorio de estudio para descarga de clic gratis se desplaza un poco por la página, y podemos elegir nuestro sistema operativo de nuevo. Yo soy un Max cuando voy a hacer clic en la Opción Makbul West, y eso también se va a descargar, y luego puedes instalarlo. Puedes y abrir nuestras desde tus aplicaciones, no
sea que estés en un Mac o desde archivos de programa. Si estás en ventanas y cuando abres nuestra obtienes la ventana son consola, por lo que este es un hueso muy desnudo limitado Mira nuestro Te dice solo un poquito sobre el programa en sí, y te da un cursor parpadeante, un carril de comando al que se puede comenzar la calificación podría. Entonces, por ejemplo, puedo escribir dos más dos desmarcar que eso Sí, sigue igual para eso es bueno saber, tan preciso. O introduce todo mi código en la consola aquí, pero sé un poco engorroso. Si quiero crear múltiples líneas de código y añadirlas y cambiarlas y volver atrás, ábralas, guárdalas ese tipo de cosas. Entonces lo que vamos a hacer es no usar el son consola misma. En cambio vamos a utilizar nuestro estudio que se comunica con él. Entonces cuando abramos nuestro estudio después de que te hayas instalado, verás
que hay múltiples dolores, y lo primero que vamos a hacer es ir al archivo en nuestro estudio, y vamos a hacer un nuevo archivo, nuestro guión, Por lo que esto abrirá una nueva ventana. Entonces tenemos cuatro dolores o cuatro ventanas aquí, y este nuevo do es documento de guión sin título, vacío. Entonces aquí puedo empezar a escribir líneas de cordón y luego puedo ejecutarlas. Y la consola que está aquí abajo en la ventana inferior izquierda. Entonces esta es solo una versión más pequeña fuera de la consola son en sí para que pueda escribir script en la ventana
superior izquierda, ejecutarlo en la ventana inferior izquierda encendida. Al hacer eso, comenzaré a ver que las variables que creo o conjuntos de datos con los que estoy trabajando están pobladas en la ventana superior derecha. eso se le llama medio ambiente. Eso me muestra cada variable con la que estoy trabajando en mi entorno actual. Y dará un resumen de esas variables y luego en la parte inferior, dolor
derecho. Tenemos algunas cosas interesantes. Tenemos una ficha para parcelas. Por lo que aquí es donde aparecerán todas las figuras que creemos podemos exportarlas. De Aquí hay diferentes tipos de archivos. También tenemos una ficha de ayuda, que es
realmente, muy útil. Nos da explicaciones de las funciones, por lo que podemos conseguir ayuda muy fácilmente. Entonces, por ejemplo, tengo la función de trama ya abierta aquí. Me dice cuál es la función de trama. Me da una descripción, me
dice cómo usarlo, me
da los argumentos que requiere. Y además, si me desplaza más abajo hasta la parte inferior, me da ejemplos de cómo usar esa función así como enlaces a funciones relacionadas. Y puedo buscar cualquier función aquí. Entonces una de las primeras que estaremos usando hay una tabla de punto de caña para que pueda escribir y leer tabla de
puntos aquí hit Return on. Me da necesidad de documentación y ayuda para ello. Me dice lo que hace me muestra el uso de la misma me dice cuáles son los argumentos tan realmente, realmente útiles. Muy fácil de conseguir ayuda en el entorno de nuestro estudio aquí. Podríamos estar buscando ayudar a una función en la ventana derecha de Boston. ¿ Por qué estaban escribiendo o usando la función y la ventana superior izquierda y ejecutándola en la ventana inferior izquierda? Por lo que es un ambiente muy agradable hacer nuestra programación para obtener ayuda de inmediato también, con esta ventana de entorno aquí arriba, podemos ver lo que estamos creando de inmediato y tener una idea de si se ve bien, Coronel. Por lo que vamos a usar nuestro estudio para toda nuestra programación en esta clase, y te animo a que sigas usándolo en el futuro es un ambiente muy cool toe work y hace que nuestra programación sea mucho más fácil.
5. Introducción a los análisis básicos: hola y bienvenidos al curso. Estoy realmente súper emocionado de que estés aquí en. Estoy muy emocionado de comenzar nuestro viaje y dos están juntos en este último. Vamos a aprender tantas cosas nuevas que vamos a seguir construyendo sobre esas a medida que trabajamos con riel Data sets a través de la clase. Pero esto es lo que vamos a aprender específicamente en esta primera sección fuera de la clase. En primer lugar, vamos a aprender a cargar datos en nuestro entorno donde van a larrin ho, para elaborar o pre procesar los datos para comprobarlos en busca de posibles errores sobre cómo solucionar esos errores que podamos encontrar. También vamos a aprender a crear parcelas básicas, incluyendo silbido a gramos, parcelas de
caja y parcelas de dispersión, así
como algunos otros tipos de parcelas básicas. También vamos a estar calculando estadísticas descriptivas. Estas incluyen cosas como media y mediana de sus maneras de salir describiendo un dato dicen, sobre la población de interés. También vamos a estar trabajando con varios tipos diferentes de variables, incluyendo vectores en algo llamado factores. Vamos a estar creando marcos de datos que son realmente importantes objeto de datos dentro de nuestro entorno de
programación. También vamos a crear funciones definidas por el usuario donde no sólo usamos funciones incorporadas dentro de las nuestras realmente vamos a crear algunas propias. También vamos a aprender a iterar a través de los vectores en marcos de datos, utilizando estructuras de looping con el fin de automatizar nuestro código. Y luego, por último, vamos a realizar estadísticas inferenciales. Cosas como pruebas T, una novas, correlación y regresión. Me refiero a diferencia entre estadística descriptiva inferencial como la estadística inferencial alos para preguntar y responder más en deuda. ponen preguntas sobre nuestros datos para obtener insights. A menudo los datos que estarán funcionando dentro de esta primera sección de la clase se llaman Tiempo y Vida. Se trata de un conjunto de datos que en realidad ayudé a crear hace muchos años, y es un conjunto de datos donde preguntamos a individuos del público ¿Cuántos años crees que tienes? los miembros del público se les dio un trozo de papel con este diagrama de pelo cruzado en él. Ya verás que hay ah, carril negro
horizontal sobre una línea negra vertical por el medio, y se les pidió que miraran esta cruz aquí e imaginaran que el carril horizontal es tiempo en el carril vertical, intersecándose con él es el presente se les pidió entonces a la gente que pensara en dónde se encuentran en su vida y que dibujen líneas verticales. En este diagrama. Les pedimos que dibujaran una línea a la izquierda del carril vertical central, indicando cuándo nacieron y dibujaran una línea a la derecha de la línea central vertical , indicando cuándo o dónde piensan que morirán. Entonces realmente estamos pidiendo a la gente que juzgue, ¿Dónde están ahora mismo? En comparación con sus lapsos de vida? En otras palabras, ¿qué edad piensan realmente que tienen? ¿ Están cerca de la muerte o es mucho más en el futuro? Entonces, por ejemplo, si fuera a llenarlo esa encuesta, pondría
mi nacimiento bastante cerca de presentar porque no soy tan viejo. Y pondría mi muerte donde creo que voy a morir una línea vertical que pondría no
camino ,lejos hacia el futuro, , porque creo que voy a vivir para siempre. Entonces mediríamos estos carriles en. Nos determinaron hasta dónde piensa alguien que está a través de su vida. Podríamos entonces comparar esto con tablas actuariales que los estadísticos utilizan particularmente a los
involucrados en el seguro de vida y venta de ese tipo de pólizas. Esas tablas le dicen a los estadísticos cuánto tiempo es probable que viva alguien en base a cuándo
nació , por lo que podríamos comparar la edad que tiene alguien estadísticamente con la edad que cree que tiene. Cuando hicimos eso, podríamos determinar si su idea si yo viejo que son fue negativa en comparación con la edad que tienen en realidad. Y si ese fuera el caso, eso significaba que se sentían más jóvenes de lo que realmente son. Significa que se sienten más jóvenes. Piensan que están más lejos de la muerte, entonces en realidad lo están, y algunas personas obtendrían un número positivo. Algunas personas estarían sobreestimando su tiempo en la vida. Se pensaría que son mayores, entonces en realidad lo son. Y entonces también les pedimos a estas personas un montón de otras variables, cosas como si estuvieran casadas, si están empleadas, cosas como si estuvieran casadas,
si están empleadas,
¿a cuánto va su nivel educativo? Usaríamos esas otras variables para predecir cómo piensan que son las personas mayores. Entonces vamos a entrar en estos datos, digamos, empecemos a mirarlos, y sé que te va a encontrar fascinante reunir estos insights y dedo del pie analizar este conjunto de datos y crear algunas cifras realmente interesantes y visualizaciones de lo que aprendemos al respecto. Entonces, empecemos. Te veré en el siguiente video.
6. Preparación de tu entorno de programación: antes de empezar a escribir cualquier código real y son. Creo que es una muy buena idea configurar un sistema de carpetas para almacenar nuestro código, nuestros datos en nuestra salida. Por lo que he creado una carpeta de detección uno en mi computadora. Puedes crearnos donde quieras en un lugar que funcione para ti. Si buscamos en mi Sección una carpeta, entonces
verás que tengo algunas carpetas para salida de datos y algo llamado SRC que significa fuente. Ahí es donde voy a guardar nuestra decodificación de código fuente que en realidad estaban escribiendo. Si hago click en la carpeta de datos, verás que ya he hecho cargado el archivo time and life data dot txt que como nuestro
archivo de datos en el que vamos a estar trabajando y leyendo en la primera sección fuera del curso. También pudo ver la carpeta recogida nocturna donde vamos a almacenar parcelas y generalmente salida, y también la carpeta fuente donde vamos a guardar nuestro código fuente. Entonces, habiendo configurado eso, nos vamos a abrir el dedo del pie. Nuestro estudio en nuestro estudio es un gran ambiente para trabajar y lo son y notarás que tenemos un archivo de script sin título y el dolor de la parte superior izquierda. Si no tiene eso, puede abrir un nuevo archivo de script yendo a archivo nuevo en nuestro script. Aquí es donde vamos a empezar a escribir cuerda. Entonces lo primero que debemos hacer es llamar el archivo de guión y crear un poco fuera de un comentario donde vamos a escribir qué es ese código como barco, para
qué sirve. Por lo que ya he creado algún script para hacer esto. Yo sólo voy a copiar un final, pero y tú puedes copiarlo en tu documento sin título. Y todo esto, como de nuevo, son hashtags. AARP señales propias que indican a la computadora que no es para leer que esos son comentarios humanos en Dive escrito que esto es una introducción al análisis estadístico y nuestro estoy diciendo que vamos a hacer oración de datos en análisis básico y estamos usando el datos de tiempo y vida originalmente preparados por mí. David Keeling Esta noche tenemos algo escrito en el archivo de guión. Probablemente deberíamos guardarlo, Así que para hacer eso, podemos presionar el botón guardar o podemos ir archivo guardar como y vamos a navegar a lo que sea que hayas creado tu sección una carpeta, entra a la carpeta fuente, y luego vamos a nombrar este archivo al guardarlo. Entonces voy a simplemente llamar a este análisis estadístico de subrayado código de subrayado. Entonces dándole una descripción básica, algo que voy a entender. Y lo voy a guardar en la carpeta fuente. Entonces ahora ya no es sin título. Le hemos dado un nombre, y podemos seguir haciendo clic en el botón de guardar a medida que continuamos con el ADM. O más líneas de código a esto. Así que cámbiame en el siguiente video donde vamos a empezar a calificar el cable. En realidad leo en el conjunto de datos y empiezo a comprobarlo en busca de errores al sur. Nos vemos entonces.
7. Lectura en un conjunto de datos y cambiando los nombres de las columnas: Empecemos escribiendo nuestras primeras líneas de nuestro código. En realidad lo primero que voy a hacer es escribirme un comentario que diga, Aquí es donde estoy cargando y preparando de nuevo los datos requeridos. Escribir comentarios son súper importantes, no solo para ayudarte. Cuando miras hacia atrás a la corte, has escrito, pero también cuando alguien más mira tu acuerdo, les ayuda a dar sentido a lo que realmente estabas escribiendo. Por lo que la función que vamos a utilizar para leer y los datos se llama Lector Table. Esta es una función, por lo que tiene una tabla de retortas de nombre, y va seguida de paréntesis. Dentro de esos paréntesis es donde especificamos argumentos, separados por comas y amenaza clase. Vamos a usar muchas,
muchas funciones, muchas funciones, así que los animo a cada vez que nos encontramos con una nueva función, pausar el video encendido, Busca al infierno en esa función. Por lo que ya he cargado para ayudar aquí abajo en el fondo. Dolor de la mano derecha para la tabla de puntos reid Y recuerda, puedes buscar cualquier nombre de función usando la barra de búsqueda aquí, así que lee, no tabla requiere tres argumentos. El primer argumento es la ruta y el nombre del archivo a cualquiera que sean sus datos en su máquina. Pero para hacer las cosas un poco más fáciles, voy a usar el archivo Función de masticaciones de perros. Cuando corro en esto,
esto en realidad abrirá una ventana del buscador o ventana del Explorador de Windows y esa baja yo iba a
navegar a lo que sea que los datos estén en nuestras máquinas. El siguiente argumento se establece dicho se requiere porque nuestras necesidades de saber qué tipo de separador es entre los datos y nuestro conjunto de datos. Por lo que puede haber oído hablar de los valores separados por coma de CSP, pero en realidad vamos a usar un conjunto de datos de punto txt aquí. Por lo que esos tabulador aire separaron valores. Entonces entre cada columna y no conjunto de datos, hay una pestaña y nuestras necesidades de saber qué es eso. Entonces sabe dónde hay separación entre columnas y para precisar que vamos a poner comillas
dobles. Voy a poner slash t Así es como nuestra nariz un personaje de tabulador. El último argumento es encabezado on. Tenemos que especificar si cabecera es igual a false o hander igual a true. Si header es igual a true, entonces se va a suponer que la primera fila de datos y nuestro conjunto de datos es en realidad los encabezados de columna o nombres de columna en nuestro conjunto de datos no tiene nombres. Y así en realidad vamos a decir Header es igual a false para que nuestro sepa que los primeros datos de
carretera son solo la primera fila de datos en no llamarle nombres. Ahora. Podríamos ejecutar esto tal como está, pero es mucho más útil si lo asignamos a una variable. Entonces lo voy a asignar a una variable llamada Life Data usando el operador de asignación Chevron y el Dash. Entonces vamos a ver qué sucede cuando ejecutamos esta línea de código usando retorno de comando o retorno de control , dependiendo de qué máquina propia por lo que de inmediato abre una ventana del buscador. Entonces aquí es donde voy a navegar a mi carpeta Sección uno,
la carpeta de datos dentro de esa. Y aquí es donde encuentro mis datos de tiempo y vida punto txt que ya he descargado de
la página web de la clase. Entonces voy a dar click en eso y seguir adelante ábrelo tan inmediatamente. Se ve que en la ventana del entorno hablar bien. Tenemos datos de vida es un marco de datos. Tiene 210 observaciones sobre 13 variables. Por lo que se trata esencialmente de una tabla de datos con 13 columnas y 210 filas. Podemos verlo con más detalle si hacemos clic en el botón de flecha blanco y azul que muestra es que tenemos columnas V una a través de la 13. Entonces otra vez especificamos dedo del pie son que no había encabezados en este conjunto de datos, por lo que nuestro ha ido adelante hizo algunos ahora ahí. No, lo más descriptivo. Entonces tendremos que hacer algo al respecto. Pero también nos permite ver una muestra de los datos que hay en cada una de estas columnas. Nos dice si es un entero, un factor. Origin America's, eso dice, es el tipo de datos que hay en cada columna. Y luego nos da los primeros bits de datos en los que están, cada uno fuera de las columnas, otra forma de ver los datos y la nuestra es simplemente apretando los datos de vida, no variable que creamos. Y ejecuta eso, y verás que nuestros imprime el conjunto de datos a la consola inferior izquierda para que podamos ver las 13 columnas, pero solo las primeras 76 filas arte sí. Esto corta el conjunto de datos para que no llene la consola con
volúmenes de datos particularmente grandes . utiliza otra forma fresca en la que podemos ver el conjunto de datos. El cabezal de la función del cabezal regresará por defecto para seis filas de un conjunto de datos. Por lo que especificamos datos de vida. Pero digamos que no queremos solo roles sexuales. Digamos que queremos 10 filas, pero podemos, en el segundo argumento, especificar cuántas reglas queremos. Cuando corremos eso obtenemos apenas las primeras 10 filas fuera de los datos de vida, otra función genial para conocer como cola. Esto hace exactamente lo mismo que la cabeza. Pero como habrás adivinado, eso realmente mira la cola o el final del conjunto de datos, y puedes especificar cuántas reglas quieres ver desde la última regla de vuelta en el conjunto de datos . Lo siguiente que queremos hacer es arreglar esos nombres de columna. V uno a la 13 no es muy descriptivo, y no nos va a ayudar cuando estamos tratando de analizar este conjunto de datos. Por lo que ya he preparado una lista fuera de los nombres de variables que están en este conjunto de datos. Yo sólo voy a copiarlos y pegarlos, y aquí cuando regrese esto un poco para que puedan verlos. Todos estos son todos fuera de los nombres de las variables. Te darás cuenta de que las he puesto todas y citas dobles. Esto nos dice que hay texto cadenas de su lenguaje humano, no para que se lea. Andi. También tengo los de Coleman entre ellos porque lo primero que queremos hacer con estos ya que queremos idear innatos juntos usando la función C y esto va a crear un vector sobre estos como elementos, todos estos textos cadenas juntas y luego lo que vamos a hacer ya que vamos a un signo no a Los nombres de columna fuera del conjunto de datos para que pueda usar los nombres de llamada de función. Puedo darle datos de vida y luego puedo asignar cadenas de texto Maiken Katyn 82 a eso. Veamos qué sucede cuando solo destacamos los nombres de llamadas datos de vida y no ejecutamos Nos da el V uno a través del 13 para que en realidad podamos asignar encima de esos nuevos nombres. Entonces cuando ejecutamos toda esta pieza de código y no importa que regresemos al final de estas líneas porque tenemos coma. Ahí hay nariz para seguir buscando otra línea de código hasta que llegue a los
paréntesis de cierre para que podamos correr todo esto juntos. Y lo que vemos de inmediato es que en la vida data TV uno a través de las 13 columnas nombres
todos han sido reemplazados por nombres de cadenas de texto más descriptivos que reconocemos como humanos. Entonces únete a mí en el siguiente video, donde vamos a explorar el estado que más lejos, vamos a comprobarlo por errores que pueda tener encendidos. Vamos a arreglar esos Evers para que te atrape en el siguiente.
8. Comprobación de errores en un conjunto de datos: Lo siguiente que queremos hacer es revisar el conjunto de datos en busca de posibles errores. Por lo que quería comentar Aquí, revisa el conjunto de datos en busca de errores en una de las formas más fáciles que podemos buscar problemas en el conjunto de datos es usar esta función de resumen. Entonces vamos a decir datos resumidos de vida y ejecutar eso. Déjame solo hacer que la consola se maximice para que podamos ver qué pasó cuando entramos corriendo. Resumen Datos de vida esencialmente realiza un resumen estadístico sobre cada columna dentro del
conjunto de datos . Entonces sacamos cosas como la mediana de los hombres, Mean y Max, el primer cuartil del tercer trimestre, los datos de cada columna, y de inmediato puedo ver que hay un problema y la columna de tiempo. Veo que hay algo aquí llamado cualquier día en su 10 de descuento ellos saben en nuestro discurso, cualquier medio, no un número o en valor faltante. Entonces ese es un tema. Tenemos 10 todos en la columna Tiempo. También parece que tenemos 10 en los 10 años y la muerte en números de valores faltantes en otros lugares , también. También vemos que en la columna Sexo tenemos M para masculino y F para femenino 100 participantes de cada uno, pero también tenemos un espacio en blanco para 10. Entonces debido a que el sexo es en realidad una variable factorial, no usa ninguna. Pero en cambio, cuando ve un valor faltante o inexistente, crea un factor fuera de nada. Por lo que también tendremos que arreglarlo para eso. También, cuando miro la columna de edad, puedo ver que esto se registró en meses, edad de protesta, menta en meses y lo que veo. Nuestros números están todos bastante unidos. Pero entonces tengo un valor máximo aquí abajo. 1430. Si dividiera eso por 12 para averiguar la edad de esa persona en años, encontraría que esa persona tiene más de 119 años. Es posible que hayamos muestreado a un participante que es así de viejo, pero es bastante improbable. Lo que posiblemente es más probable es que debido a que la edad está cerca de la hora en este conjunto de datos, tal vez alguien que registró este conjunto de datos haya transpuesto 14 30 o 2 30 de la tarde y por la edad para participante. También tenemos 10 valores faltantes en este frío también empiezo a notar que en la temp corporal, la temperatura corporal de los participantes y grados Fahrenheit tienen un valor muy bajo de 90.8. Cerca de la temperatura promedio del cuerpo humano es de 98.6. Por lo que la atención de 19.8 lo significaría. Esta persona se encontraba en hipotermia sobre probablemente muerta. También tengo un valor máximo de descuento 118 F. Esta persona también estaría muerta. No es posibletener el cuerpo humano a esas temperaturas, por lo que tendremos que corregir por mínimos. Otra cosa que noté sobre la temperatura corporal es que tenemos 11 Eneas. Por lo que tenemos hasta mawr valores faltantes aquí que en algunas de las otras columnas. Entonces vamos a ir a arreglar estos. Bueno, primer lugar, en
primer lugar,
veamos otra forma de visualizar estos errores. Una buena forma de hacerlo es crear una trama de caja. Podemos decir box plot of life data, y específicamente quiero mirar a la edad porque vimos que ahí
pasaba algo gracioso con los 1413 meses. Entonces para hacer eso porque los datos de vida son un marco de datos, puedo usar el signo del dólar y la edad correcta. Y eso significa para nuestro que sólo me interesa mirar la columna de edad dentro del marco de
datos de vida . Entonces cuando corro en eso realmente obtengo una gráfica básica de caja de todos los datos, y puedo ver que a 1430 el valor es mucho más alto que todo lo demás es un
mentiroso muy fuerte fuera . Podría hacer lo mismo con la temperatura corporal especificando datos de vida, signo de
dólar, temperatura
corporal. Puedo correr eso y ver que Sí, tengo la temperatura corporal 118 F, la persona que se está quemando. También tengo un par de valores que son mucho más bajos,
mucho más fríos de lo que debería ser el cuerpo humano. Entonces puedo ver visualmente a esos mentirosos y ver que ahí debe haber un error. Otra cosa que puedo hacer para visualizar donde están todos esos valores faltantes se usa. Eso es punto en una función, y cuando suministre el dedo del marco de datos vida es perro, cualquier cosa que se va a hacer es buscar en cualquier lugar que haya un valor faltante, y cuando corro, ¿
No qué obtenemos? Bueno, si me lo permite,
alguien es la consola. Puedo ver que ha pasado por nuestro marco de datos en todas partes donde no hay en ninguna, pone un valor falso. Y en todas partes donde no hay ninguno, se pone realidad. Entonces como estoy buscando dinos, por ejemplo, veo el en la fila 24. Hay un verdadero valor. Entonces eso significa que este es un valor que falta en la Fila 24. Andi COLUMNA seis. No hemos impreso todo el conjunto de datos porque se ha cortado de nuevo para que la persona preserve el espacio. Pero lo que puedo hacer es mirar la cola del conjunto de datos. Puedo darle datos de vida, y puedo especificar que quiero las últimas 35 filas. Yo quiero hacer eso. Eso lo veo. Ah, sí, ahí está donde están todos los demás y los valles Estos ahí es donde faltan valores y rosa. Entonces de la fila 201 a 210 todo faltan valores. Entonces esto me da una manera realmente bonita de ver rápidamente dónde yacen los problemas. En este conjunto de datos, otra cosa que puedo hacer es especificar quiero sacar la rosa de mi conjunto de datos donde me faltan valores para ver solo esas rosas específicas. No, una forma de que podamos hacer eso es usar el ¿Hay alguna función de nuevo? Y ponemos a su hija cualquiera dentro de otra función llamada Rose ums. Entonces estoy enfrentando Rose ums, paréntesis y es puerta cualquiera dentro de ella. Por lo que Rose Sums esencialmente va a resumir los valores de lo que sea en cada fila. Entonces se va a calcular el número fuera de Eneas porque eso es lo que no hay es hacer su regreso. Si hay alguna ahí o no en Rose Ums se va a resumir esos números de cualquiera en cada carretera. Entonces realmente sólo quiero ver a Rose donde su brazo o Eneas que cero. Quiero ver a Rose donde existen Aeneas, por lo que puedo poner en un operador lógico aquí mayor que y puedo especificar cero. Yo quiero la rosa donde el número de Eneas son mayores a cero. Entonces puedo usar estas funciones dobles aquí con el operador lógico para subestablecer o
extraer de los datos de vida, y lo hago diciendo datos de vida en cualquier corchetes corchetes, y nuestro aliado fue subestablecer una nota de marco de datos dentro de corchetes. Tenemos que especificar la fila en la columna separada por un coma. Entonces voy a poner una coma aquí después de cero. Entonces aquí estoy, contando el número de enemigos que están en cada fila en. Entonces busco a Rose, donde hay Maura, Anais que cero donde existen Eneas sobre. Entonces digo, quiero cada fila en el conjunto de datos de vida donde eso sea cierto especificando el coma y luego dejo los espacios en blanco de designación de columna. No voy a poner nada después de ese coma. Entonces esto le gustará a la gente todas las reglas donde hay enemigos en él, se enfriará cada columna a través de esas rosas. Entonces veamos qué pasa cuando ejecutamos esto. Cuando corremos que vemos, obtenemos la fila 24 luego obtenemos la carretera 201 a 210. Entonces esto lo está sintiendo en cualquier lugar donde tengamos un valor faltante. Por lo que en la Fila 24 tenemos la mayor parte de los datos se ha recogido, pero la temperatura corporal le falta una grabación aquí. Nos falta el registro de temperatura corporal para el participante número 24. Pero para el participante 201 al 210. Estamos fastidiando. Absolutamente cada Piensa apagado. Ahí está nos faltan todos los datos y subió a uno a 210. Entonces por favor únete a mí en el siguiente video donde vamos a arreglar estos errores se iban a
deshacer de las Eneas. Nos vamos a deshacer de los valores mentirosos fuera en. Vamos a reemplazarlos por valores adecuados y arreglar este conjunto de datos. Entonces te veré entonces.
9. Fixing en un conjunto de datos: habiendo identificado los errores en este conjunto
de datos, lo siguiente que queremos hacer es tratar de corregir esos errores. Es una de las formas más fáciles en que puedo deshacerme de los valores que faltan en un conjunto de datos es usar esa función que cualquier hija conoció. Veamos qué pasa cuando dirijo a cualquier médico. Amit, se
puede ver que imprime a la consola Se necesita un conjunto. Recuerda de antes que teníamos un valor faltante fuera de la temperatura corporal en la fila 24. Entonces cuando usamos a cualquier perro omitir no, sólo se va a quitar ese valor alguno de esa regla. Pero se va a quitar toda la cuerda. Y eso puede no ser deseable porque era el único valor que faltaba y escribió 24. Había otros puntos de datos de grabación, por lo que no queremos perder necesariamente todos esos datos que en realidad fueron recolectados. De acuerdo, nuevo, se
puede ver aquí que va de la Carretera 23 a la fila 25 falta la carretera número 24. Entonces otra forma en que puedo sortear esto es usar las sumas asadas y se piensa cualquier función que usábamos previamente, Así que sólo voy a copiarlas aquí. Lo que vemos aquí de nuevo es que estamos contando el número de Eneas en cada fila en. Entonces podemos sacar sólo esas filas que tienen mawr que cero Aeneas del conjunto de datos. Entonces realmente escuchar lo que queremos hacer es cool it rose que tienen menos números de Eneas. Entonces, dependiendo de lo que decida para su conjunto de datos, puede determinar cuántos valores faltantes desea entre columnas. Entonces aquí vamos a cambiar. Cero 22 y vamos a cambiar son mayores que el dedo del pie signo menos que así. Esto va a almohada rosa del conjunto de datos donde hay menos de dos malestar. Entonces va a educar Rose, donde son cero Aeneas, donde no faltan datos y tiene una rosa más fresca donde solo falta punto de
datos. Entonces si cambio esto a tres, sacaría reglas donde faltan 01 o dos puntos de datos. Entonces esto es lo que podrías decidir. Cuántos puntos de datos faltantes todavía está bien, Sólo
vamos a decir que sólo queremos un valor faltante, por lo que puede faltar una variable en toda la regla. Entonces veamos qué pasa cuando corremos que voy a hacer la consola más grande. Vamos a salir a ver si escribió 24 sigue ahí. Sí, lo es. Todavía hemos escrito 24 incluidos en el conjunto de datos con ese valor faltante para la
temperatura corporal . Entonces ahora ¿cómo creo el conjunto de datos con sólo esos valores únicos que faltan? Y bueno, simplemente
puedo ir a este carril 30 que acabamos de escribir. Puedo escribir datos de vida, y puedo asignar la salida fuera de esa línea de código que acabamos de ejecutar. Entonces aquí estoy seleccionando todas las filas donde hay cero para hasta un valor que falta. Animas firmando todos esos subió a la vida datos. Entonces estoy escribiendo sobre el conjunto de datos de vida con solo la rosa que tienen cero o hasta un punto de datos
faltante. Entonces recuerda que teníamos todas esas Eneas en la última rosa y subimos a una hasta 210. Veamos qué pasa. No, cuando ejecutamos esto y luego ejecutamos un resumen de nuestro nuevo objeto de datos de vida. Lo que podemos ver de nuevo es nuestro resumen estadístico de cada columna. Yo lo sé. Vemos, por ejemplo, que el tiempo y la edad y la muerte no tienen esos 10 y un Zen ellos. Por lo que nos hemos deshecho de esas filas que tenían múltiples Eneas. Pero aún tenemos habitación 24 que tiene uno en un No está apareciendo en temp corporal. Entonces lo siguiente que queremos hacer es buscar a Rose que tenga un valor faltante para que podamos volver a tu código. Sé que podemos volver a ver los datos de la vida. Podemos usar esa disfunción Rosa y es punto cualquiera y queremos ver valores donde faltan más de cero valores en una cuerda. Cuando corremos que esto se va a enfriar sólo la fila donde tengo un valor faltante contra él saca Road 24 el único valor que falta es ese para la temperatura corporal. Entonces, ¿cómo saco sólo ese valor faltante? sólo me interesa ese valor faltante para la temperatura corporal. Eso es realmente a lo que quiero llegar. Y quiero reemplazar por algo. Yo quiero arreglarlo. Entonces una forma en que puedo hacer eso es otra vez usando es dot any y puedo especificar datos de vida dólar cuerdo temp corporal. Entonces estoy tirando nota cada valor de la temp corporal. Y entonces estoy usando eso para subestablecer entre corchetes de temp corporal, toda
la columna de temp corporal. Entonces de nuevo, estoy especificando Life data Dollar ST temp corporal que enfría sólo esa columna para una
temperatura corporal . Entonces puedo usar los corchetes para subestablecer desde la temperatura corporal. Entonces, por ejemplo, si hago tiempo corporal de datos de vida, solo ejecuto eso. Me dará todos los 200 valores fuera de la temperatura corporal, incluyendo el cualquier valor en la Ruta 24. Entonces eso es esencialmente un vector de números y un subconjunto Aiken, no Victor por un vector lógico. Entonces como si cualquier recuerdo estuviera probando ya que están en cualquier valor o no está ahí, está devolviendo falso donde no hay y cierto si es así, correrá el riesgo de convertir un valor verdadero en la Fila 24. Entonces si ejecuto estos dos juntos, voy a estar sub ajustando ese vector off body temperature by True's on falsies en el único lugar donde es verdad no es el valor 24 Así que por eso sólo volverá. Y un valor 24 es un A No. ¿ Qué puedo hacer con eso? Bueno, puedo reemplazar ese valor con la mediana fuera de la columna. Entonces puedo decir que donde esa cualquiera es que acabo de seleccionar. Voy a asignar a eso cualquiera voy a firmar el valor mediano de datos de vida Signo de dólar, Temp
corporal. Voy a decir que quiero cualquier punto r m en igual. Cierto. Entonces aquí estoy diciendo que este cualquier valor va a ser reemplazado por el valor mediano de todas las mediciones de temperatura corporal que sí hemos registrado en el conjunto de datos. Y voy a decir que cualquier RM es igual a verdadero para quitar cualquier valor. Porque si corro la estadística mediana sobre la temperatura corporal de datos de vida, se va a devolver un editor porque todavía están en algún valor en su presente. No, vamos a reemplazar ese valor por el valor de la mediana. Entonces veamos qué pasa cuando corremos en que lo hemos corrido. No, vamos a correr es cualquiera otra vez. En la primera parte de esto se obtiene un cero numérico. No hay ningún valor porque hemos reemplazado ese de la línea 24 con el valor de la mediana fuera del conjunto de datos. Entonces si voy a los datos de vida
Andi, especifico que quiero la fila 24. Todas las columnas recuerdan los primeros valores subieron y coma. Siguiente valores columnas. Si dejo columnas en blanco con algún corchetes que regresará, todos ellos en die run Que me da escribió fue para Y ahora veo que la temperatura corporal en lugar de ser cualquiera en lugar de faltar, ha sido reemplazado por 97.4, que es el valor mediano de todas las temperaturas corporales registradas. Por lo que reemplazó el valor faltante aquí por un valor U. Lo siguiente que queremos tratar de hacer como Luke para los mentirosos fuera y la temperatura corporal. Entonces recuerda que no, solo teníamos un valor faltante, pero también teníamos algunos que eran poco realistas simplemente no físicamente posibles. 118 F y cerca de 90 grados para esos sería realmente demasiado lejos realmente para llamar, esa persona estaría en serio, grave problema médico. Hey tendría un problema realmente grande en sus manos. Entonces, ¿qué? Lo vamos a hacer ahora es buscar esos valores atípicos y una forma de que podamos acceder fácilmente a volantes como diciendo, Bloque box plot, dot stats Y vamos a darle los datos de vida sobre especificar temp corporal. Por lo que esto se va a ejecutar en la caja tiros bloqueados que es función solo en nuestra
columna de cinta corporal . Entonces veamos qué pasa cuando corremos que nos da múltiples cosas. Nos da estadísticas que nos da, y para este tamaño de muestra nos da confianza. Y nos da algo que llamó estos volantes de aire. En el conjunto de datos, tenemos un 91.41 18 y 19.8 en un 11 Así que estos aire probablemente mediciones poco realistas para la temperatura de la persona. Estos son errores. Había algo malo con el termómetro o la persona que usaba. No estaba debidamente entrenado, por lo que queremos deshacernos de estos. Queremos reemplazarlos por valores realistas MAWR. Entonces una forma en que podemos hacer que ha vuelto a su box plot dot stats on. Podemos especificar a partir de ella usando el voto sano del dólar para que podamos acceder a esos valores de voto los cuatro valores en teléfono eran valores atípicos estadísticos aquí al usar el dólar visto en la salida de un derecho de función. Por lo que hemos utilizado signos de dólar para acceder a columnas y a un marco de datos, pero también podemos usar el signo de dólar para acceder a atributos o salida o valores desde dentro de una función. Entonces cuando hacemos justamente esa línea de código, obtenemos sólo esos cuatro valores que box grafican estadísticas de puntos identificadas como si jugadores. Entonces lo siguiente que podemos hacer con esto es que podemos asignarlos a avena variable. Ellos son los jugadores que podemos correr eso. Entonces no Oates, habremos aparecido. Y nuestro entorno tenemos outs que dice que es en numérico victor es los números para todos ellos. 18 91 1 No, podemos reemplazar esos valores outs por la mediana de la temperatura corporal, igual que hicimos con el valor faltante. Entonces lo que queremos hacer es acceder a los datos de vida Onda. Queremos acceder en particular a cualquier temp corporal. Entonces vamos a poner los datos de vida dólar diciendo temp corporal y luego vamos a usar
corchetes para subestablecer sólo de la columna de temperatura corporal de los datos de vida. Vamos a decir donde todos los datos de vida están diciendo, Body Tim está en nuestros votos vector eso Queremos extraer cualquier valor que sea uno de esos cuatro que fue identificado como un difunto mentiroso. Por lo que podemos hacer eso y estamos haciendo porcentajes y porcentajes outs. Eso es lo que esto está haciendo es decir que cualquier valor de la temp corporal que esté con N los cuatro valores y outs como parte fuera de que outs de Enter se va a extraer de la
temperatura corporal . Cole s Así que estamos subset aquí otra vez. Veamos qué pasa cuando ejecutamos esto. Entonces dice que tenemos esos cuatro valores porque estamos sacando los
valores de temperatura corporal ahí en el vector mentiroso fuera. Entonces tenemos los mismos cuatro valores que tenemos en outs, y ahora vamos a asignar sobre los que vamos a escribir en Top Waltham. El valor mediano para datos de vida signo de dólar, temp
corporal. Vamos a usar ese cualquier punto nuestro argumento am de nuevo solo para asegurarnos de que no estamos siendo fastidiados por ningún valor que falte. Entonces vamos a ejecutar esto lo sé. Hagamos un resumen de datos de vida una vez más solo para ver cuánto arreglamos. Entonces hagamos más grande la consola y veamos este resumen. Por lo que acabamos de trabajar en la temp corporal. Entonces ahora vemos que el mínimo para cuerpo Champions 94 eso es más aceptable. Vemos que el máximo es de 100.3, y eso es probablemente que esa persona esté un poco caliente, pero eso sigue dentro de los huesos de la realidad en
adelante, tampoco vemos ningún valor faltante. Por lo que este conjunto de datos es solo un barco fijo. Ya no tenemos valores faltantes. Onda. También hemos fijado que valores irrealistas,
esos valores irrealistas, temperatura
fuera del cuerpo. Por lo que la próxima vez que queremos hacer es arreglar a esa persona realmente irrealista de 119 años con los 1430 meses de descanso de su edad registrados. Entonces lo que podemos hacer para arreglar eso es,
digamos, digamos edad del signo del dólar de los datos de
vida. Vamos a usar los corchetes para subestablecer datos de vida, dólar diciendo edad. Por lo que estamos viendo golpeado de datos de vida donde los datos de vida son iguales a 1430. Entonces tenemos que usar El signo doble igual es un operador lógico y nuestro si uso un solo signo
igual. Nuestro lo sabe como operador de asignación. Por lo que queremos valorar aquí si son iguales o no. Entonces estamos usando el signo doble igual. Por lo que estamos sacando de la edad de los datos de vida donde la edad de los datos de vida es igual a 1430. Si corremos solo eso, obtenemos 1430 porque ahí es donde 1430 equivale a 1430. Vamos a asignar encima de eso, la mediana de datos de vida edad de signo del dólar, y vamos a usar el cualquiera. No vuelva a quitar argumento solo para asegurarnos de que no tengamos valores faltantes que estén afectando a un cálculo de ese medio. Entonces estamos reemplazando ese 1430 dentro de la mediana de edad. Por lo que corre la mediana de edad que tu rápido es de 307 y 1/2 meses. Entonces estamos reemplazando ese valor de 1000 former y 30 por tres y 7.5, para que podamos hacer eso en Vamos a volver a revisar el resumen de datos de vida. Vayamos a ver la edad. Edad no es decir que los mínimos 216 el máximo es 811. Por lo que nos hemos deshecho del valor no 1430 y lo reemplazamos por el valor mediano de la edad. Lo último con lo que tenemos un problema aquí es comprar a esa columna seis. Tenemos machos y hembras 100 de cada uno, pero luego tenemos esta en blanco y tenemos cero de ellos. Entonces ahí es donde teníamos algún valor que faltaba valores en el sexo en una llamada de tributo. Por lo que realmente queremos deshacernos de esos valores faltantes, pero no son reconocidos como ninguno porque es una variable factorial. Entonces tenemos que hacer algo un poco diferente aquí para arreglarlo. Lo que tenemos que hacer es decir,
bajar niveles, bajar niveles, y esto va a buscar variables factoriales con n datos de vida, el primer argumento y el segundo argumento y niveles de caída como lo que vas a dibujar como y esto va a buscar variables factoriales con n datos de vida,
el primer argumento y el segundo argumento y niveles de caída como lo que vas a dibujar como
nivel y el factor. Entonces si especificamos M o F aquí para deshacernos de cada macho o cada hembra, y no factor variable Pero lo que queremos deshacernos es entonces faltar valores los espacios que tenemos. Cero detenido lo arriba. Entonces estamos diciendo excluir igual a nada entre comillas, sin espacio, sólo nada entre esas citas. Entonces no, podemos Assane eso a los datos de vida y eso eliminará esa variable de factor vacío de nuestro seis frío. Sé que podemos ejecutar resumen de datos de vida una última vez. Sé que podemos ver que la columna de sexo solo tiene objetivos para machos s para hembras y no hay
valores vacíos son niveles de factor vacíos ahí. Por lo que hemos limpiado completamente este conjunto de datos. Nos hemos deshecho de los valores faltantes. Hemos reemplazado los valores faltantes por valores más realistas que los valores medianos. También hemos identificado a los compradores en el conjunto de datos nuestros valores erróneamente altos y físicamente imposibles y hemos reemplazado aquellos con valores medios y también hemos eliminado una variable de factor
vacía. Entonces únete a mí en el siguiente video donde vamos a empezar a mirar las variables en este conjunto de
datos, haciendo algunas parcelas y realizando algún análisis muy básico. Por lo que te atraparé en el próximo
10. Explorar un conjunto de datos (histogramas, planos de datos y estadísticas descriptivas): Hola y bienvenidos de nuevo en este video, vamos a hacer algunas parcelas básicas y ejecutar algunas estadísticas de muestra sobre las
variables continuas . En este conjunto de datos, recordarás que existen variables continuas como la edad, la medida de diferencia. Y luego hay variables categóricas, como el sexo sobre la educación en este conjunto de datos. Pero antes que nada, vamos a explorar las variables continuas. Lo primero que he hecho es crear una caja con un comentario dentro de ella, diciendo que aquí es donde estamos explorando estas variables continuas. Entonces eso solo separa visualmente esta sección de cordón de la sección anterior donde
estábamos arreglando el conjunto de datos. Y lo primero que voy a hacer es cambiar el dispositivo gráfico. Entonces la última vez que hicimos una trama de caja como esta en la parte inferior, derecha, viste que, también, atrapó toda la ventana de trazado y recuerda que podemos exportarla desde aquí usando guardar su imagen o guardar como pdf. Pero digamos que quiero crear dos parcelas en. Yo quiero que estén uno al lado del otro. Yo quiero verlos a los dos a la vez. Lo que puedo hacer es usar la función par y puedo especificar el argumento MF Row y voy a decir que es igual. Ver un coma, también. Entonces yo soy cómplice en coming juntos aquí. Un coma al uno especifica que quiero una regla, y los dos especifica que quiero columnas. Entonces esencialmente esto se va a dividir, están trazando ventana por el medio, y me va a permitir trazar una parcela primero por el lado izquierdo, y luego la segunda trama irá por el lado derecho. Entonces ejecutamos eso. Esencialmente, no
vemos que se haya hecho nada, pero nos ha dividido esa ventana de conspiración. Lo siguiente que quiero hacer es crear una esta graham fuera de esa
variable dependiente , que es la medida de diferencia. Si recuerdas la introducción a este conjunto de datos, recordarás que una medida de diferencia es negativa cuando el participante piensa que
son más jóvenes de lo que realmente están en su positivo cuando la menta de protesta piensa que son mayores de lo que realmente son. Entonces hagamos un hist un gramo usando la función de prueba, y especificamos a eso los datos de vida Stoller, mismo diff para la medida de diferencia o variable dependiente. Vamos a etiquetar el eje X sobre esta historia, Graham, usando X, light o X lamb. Vamos a etiquetar el eje X con la medida de diferencia de texto donde eso tiene que estar entre comillas porque es lenguaje humano, así son no lo van a leer. Vamos a decir el título principal de esta trama y el argumento principal es igual a cualquiera. Te explicaré por qué es eso. Posteriormente,
vamos a darle ocho colores a las barras de Hester Graham, ambos celeste, entonces se pueden especificar colores como cadenas de texto. Déjame abrir este documento que te muestra colores Andi. Cómo los reconoce como anillo de texto para que pueda especificar algunos colores muy específicos usando nombres
muy específicos para esos colores en nuestra voluntad. Reconocedlos. Te animo a jugar con esto y probar diferentes nombres de nuestros colores. Se puede encontrar una descripción de la zona tirada. Esto es ah, pdf con los diferentes colores en sus nombres. Simplemente voy a usar celeste porque es un bonito color para Let's Run This primero. Hester Graham. Ahí vamos y la historia Graham ha aparecido a la izquierda en el sitio de esta trama en lugar estar centrado y ocupar toda la ventana de trazado. Lo siguiente que me gusta hacer es añadir una representación fuera de densidad a lo largo del eje X fuera de esta historia, Graham. Y para ello, voy a usar la función de alfombra. Voy a suministrar datos de vida dólar diciendo muerte. Ver qué pasa cuando corremos, No seguir viendo el siseó un gramo para ver qué pasa. Ya verás que todos estos pequeños guiones han aparecido a lo largo del eje X. Entonces supongo que es sólo otra indicación visual fuera de donde se encuentran los datos en nuestro conjunto de datos, además de tener las barras mismas en el más alto un gramo para llevarme un
poco esta trama . Lo último que me gustaría hacer es crear un cuadro delimitador alrededor de él, usando la función de caja, este cuadro abierto y cerrado paréntesis, y eso crea un bonito cuadro delimitador alrededor de mi trama ordena un poco, hace que se vea un poco más profesional y pulido. Lo siguiente que voy a hacer es crear una trama de caja que aparecerá en el lado derecho . Entonces voy a decir parcela de caja. Voy a darle vida Data Dollar visto def y luego voy a especificar una etiqueta Y para el eje
Y de la gráfica de caja como medida de diferencia on. Entonces voy a decir otra vez, Main es igual a cualquiera. Todavía no voy a dar un título principal, y también voy a decir color igual a Skyy Blue para mantenerlo consistente con la
trama anterior . Añadamos la parcela de caja. Ahí vas. Obtenemos una bonita parcela de caja en la segunda posición de trazado. La segunda columna fuera de esta ventana de trazado. Ahora voy a restaurar realmente el dispositivo gráfico de nuevo a una sola ventana de trazado, y para ello, utilizo la función de parte que usamos arriba. Pero voy a quitar el to y podría uno ahí. Por lo que vuelvo a ser una regla una columna o una sola ventana de trazado. Ya verás que eso no le hizo nada a nuestras parcelas. No cambia lo que ya está tramado. Sólo actuará sobre lo que aún tenemos que tramar. No, puedo agregar un título a la trama comentario a mí mismo aquí que estoy agregando un título. Podría hacer eso usando la función de título y puedo especificar main igual a diferencia maker. Veamos qué pasa cuando hago esto. No, obtengo una tabla principal de medida de diferencia centrada por encima de ambas parcelas. Si no hubiera especificado, Main es igual a cualquiera aquí atrás en cada una de estas parcelas que hice. Si les hubiera dado una tabla, entonces habrían tenido títulos individuales arriba centrados por encima de cada parcela. Por lo que usando parte en esta semana, ningún Onley Aloes es trazar parcelas separadas en la misma página. Pero también Aloes es agregar títulos generales por encima de múltiples parcelas. Si configuramos el dispositivo gráfico de trazado de nuevo a un solo, muy ve una Fila dos columnas. Entonces esa es una manera ordenada de que puedas hacer que tus parcelas tengan un aspecto mucho más profesional. Lo siguiente que me gustaría hacer es crear un nuevo marco de datos en él. Vamos a almacenar estadísticas de resumen, así que voy a llamar a este nuevo dato enmarcado Si y voy a decir que def es un dato no enmarcan, y dentro de esa función puedo empezar a crear un marco de datos sobre especificar diferentes columnas de datos. Entonces la primera columna voy a etiquetar N por tamaño de muestra y voy a decir que es igual a la duración de la vida data dólar visto muerte. Veamos qué pasa cuando acabamos de ejecutar tierra Life Data dólar. Decir la muerte que devuelve 200 tierra para es una función que calcula cuánto tiempo es un vector. Por lo que cuenta cuántas filas tiene. Esto es decir que los datos de vida dólares y si son 200 participantes de largo, así que eso es como sabemos que es. Podemos entonces crear otro atributo llamado Hombres. Y vamos a decir que los hombres son iguales a la función de los hombres aplicada dedo del pie vida, data dollar, mismo diff. Cuando corro, los hombres funcionan por sí mismos. Obtengo en valor mínimo en el conjunto de datos. Voy a firmar no a los hombres. Voy a calcular una serie de estas estadísticas sumarias. Entonces solo voy a copiar y pegar en algo que preparé antes para que veas que tenemos tierra de Tenemos hombres. También tenemos varianza media máxima y desviación estándar. Por lo que estoy usando la funcionalidad incorporada dentro de nuestra para calcular cada una de estas medidas
estadísticas sobre Nana Miss firmarla a un nombre de variable dentro de este nuevo marco de datos que estamos creando. Veamos qué pasa cuando dirijo esto. Crea un nuevo marco de datos, así lo verás y nuestro entorno aquí arriba tenemos un nuevo marco de datos llamado Muerte es una observación apagado, siete variables. Entonces si miramos a la muerte, vemos que tenemos y 200. Tenemos un mínimo de máximo, una mediana de varianza y desviación estándar. Por lo que hemos creado esencialmente un siete columnas de datos de una fila establece estos diferentes valores
estadísticos. En el siguiente video, voy a probar tus nuevas habilidades de codificación telefónica pidiéndote que crees un silbido parcelas de gramos y caja así como resúmenes estadísticos para uno diferente de las variables en este conjunto de
datos. Entonces te veré entonces.
11. Desafío #1: crea trabas y resumen estadístico de una variable: Hola. En este video, te
estoy poniendo tu primer reto. Quiero poner a prueba tus habilidades de codificación solo un poquito. Quiero que crees un hist, un gramo, una gráfica de caja Onda, Resumen
estadístico para la variable independiente de edad en nuestro marco de datos de vida. Y para darte una pista para esto, esto debería ser realmente similar al código anterior que hicimos para la variable. Entonces, esencialmente, quiero que hagas exactamente lo mismo, pero para la variable de edad. Así que adelante y pausa esta nota en video. Trata de trabajar en eso. Y si te quedas atascado, vuelve a este valor porque no voy a mostrarte la solución a este reto. Buena suerte. Entonces ahora estás de vuelta en este video y quiero mostrarte cómo hacer esto. Entonces la forma más fácil de hacer esto es en realidad regresar nuestro código interno, y vamos a seguir adelante y copiar todo desde el tendido 47 por el carril 66. Lo vamos a pegar debajo. Nuestro reto en esencialmente todo aquí es muy similar. Excepto que tenemos que cambiar la diferencia. Variable a la variable edad. Entonces el primer lugar que veo la variable de diferencia aquí está en la historia. Graham, quiero cambiar vida Data dollar diciendo muerte a datos de vida dólar signo edad Puedo y cambiar mi texto aquí. Ya no voy a estar tramando la medida de diferencia. En cambio, estoy trazando la edad y puedo agregar algo para hacerlo un poco más descriptivo. Al ver en meses para evitar confusiones, voy a dejar el resto de esto. Esa misma persona está implosionando. Algo diferente aquí. Cambiemos el color. Digamos que va a ser alguien que es el color en o Onda. También vamos a cambiar la alfombra debajo de la trama,
la densidad a envejecer en lugar de sordos. Iban a hacer lo mismo aquí abajo en la parcela de caja. Tenemos que cambiar la muerte a la edad. Vamos a cambiar la etiqueta del eje Y a envejecer en uno de algunos va a copiar esa cosa desde arriba. Voy a cambiar el color también a salmón y luego les voy a dar un título edad
participante en lugar de medida de diferencia. Por lo que este es el título título título general para ambas parcelas. Voy a decir edad participante. Lo siguiente que voy a hacer es cambiar este marco de datos Def dos de ocho años Efraim y reemplazar las estadísticas de resumen sobre la medida de diferencia por la de la variable de edad dentro de este marco de datos. Entonces sólo voy a cambiar la muerte a la edad. Y luego voy a pasar y cambiar por todas partes donde se hace referencia a los datos de defunción a la edad. Entonces solo voy a seguir adelante en copiar esto y cambiar cada uno de estos. Tienes que tener cuidado cuando estás haciendo esto. No, a ritmo en su propio lugar o dos. Quitar cualquiera de los paréntesis, por lo que casi hecho reemplazando cada una de estas muertes por la variable edad. Entonces sigamos adelante y corramos esto y verás que Ahora tenemos un juez y nuestro entorno . Onda podemos mirar lo que es, es y hombres, max media varianza mediana y desviación estándar. Entonces tenemos ah valor estadístico para cada una de estas medidas en una observación para siete variables, Esencialmente. Por lo que son siete columnas de una regla a través de cada uno de estos nombres de variables que creamos dentro de ella. Entonces ahí tienes. Ese es el reto de ir a la completitud. Espero que logres eso sin mirar esta solución. Pero si no lo hiciste, no te preocupes por ello. Esto sigue siendo días muy tempranos. Sigamos escribiendo código más emocionante sobre tratar de mejorar tu comprensión de nuestro sobre el aprendizaje Cosas realmente geniales. Entonces te atraparé en el próximo.
12. Exportar tranchas y resumen estadístico: hola Y este video, me gustaría mostrarles cómo configurar un almacenamiento de poot para resúmenes estadísticos para cualquier cosa impresa en la consola y también para un opiáceo gráfico como parcelas. Entonces para ello, vamos a crear un archivo de texto de Onda pdf al que nos estamos hundiendo o fuera poniendo todo lo que estamos haciendo en nuestro entorno. Entonces déjenme crear un co significado aquí al principio de nuestro cable variable continuo que
escribimos en los videos anteriores y luego simplemente decirlo aquí. Vamos a configurar cifras poniendo a un pdf sobre tabular o estadístico en comida a un
archivo de texto . Y voy a estar usando rutas de archivos y directorios aquí. Por lo que tienes que asegurarte de que vas a cambiar estos por lo que sea apropiado en tu máquina porque no compartimos las mismas rutas de archivo. Entonces la primera función que vamos a usar como pdf en el argumento que voy a usar como archivo y voy a especificar una ruta de archivo No. Y Mac, eso es lo que estoy usando. Puedo ir a mi ventana de buscador y puedo ir a mi carpeta de salida de la Sección uno y mi carpeta de clase You'd Amy. No, en un Mac cuando hago clic derecho en Oh, puesto, obtengo una opción de copia para copiar esa carpeta, pero si mantengo pulsada opción verás que obtengo una opción de copia diferente. Tengo que copiar Oh, poner como Nombre de ruta siempre y cuando esté manteniendo pulsado el botón de opción en el teclado. Entonces eso es lo que quiero hacer. Quiero hacer click izquierdo mientras mantiene pulsado el botón de opción y copiar Okkert como su nombre de ruta . Ya verás cuando vuelva a copiar esto en el script R, obtengo mi ruta de archivo con la barra inclinada que está mirando hacia adelante. Lo siguiente que tengo que hacer como poner comillas alrededor de eso, y luego finalmente, y la carpeta de salida, tengo que tener otra barra hacia adelante y crear mi nombre de archivo, cual voy a llamar corn vars dot pdf. Porque en esta sección del cordón, estamos viendo variables continuas, y tiene que ser un pdf de punto. Lo siguiente que voy a hacer es crear un fregadero para el texto y para las cosas impresas la consola. Entonces voy a decir función de hundimiento, y voy a especificar esta misma ruta de archivo. Entonces solo voy a copiar todo dentro de las cotizaciones. No tengo que decir archivo igual y la función ST. Simplemente especifico la ruta del archivo. Ahora tengo que cambiar el archivo que va a conv nuestro punto txt porque la
función de fregadero va a bien todo a un archivo de texto. Tampoco pdf No, Si estás en Windows, esto será un poco diferente para ti. Entonces te voy a dejar un comentario para que te ayudes a averiguar cómo meter tu camino aquí . Entonces si estás usando Windows, tienes que copiar la ruta del archivo desde la barra de direcciones del Explorador de Windows o tienes que mantener presionada la tecla Mayús y hacer clic derecho en la carpeta. Por lo que aguanta, Shefki y derecho Haga clic en la carpeta. No, esto solo es aplicable en máquinas de ventanas. Y cuando hagas eso, obtendrás algo como esto. Entonces si mi computadora fuera una máquina de Windows, conseguiría algo como ver al Dr. Coloane. Entonces obtendría barras atrás a través de mis carpetas a través de mis directorios a esa
carpeta de salida en la sección uno de la carpeta que dañes y de nuevo eso será diferente
dependiendo de dónde creaste estas carpetas en tu propio equipo. Pero hay un problema con esto porque te das cuenta de la barra inclinada alivian sus barras inversas y solo van a reconocer barras delanteras. Por lo que hay que pasar y cambiar manualmente estos para reenviar barras inclinadas, anotar barras hacia atrás, o puedes hacer una doble barra inversa y nuestra voluntad reconocerá eso, así que de cualquier manera, tienes que hacer una de esas cosas. Un posible trabajador en esto. Si estás en Windows, si no quieres cambiar manualmente todas estas barras inclinadas como para asignar algo a disponible llamado path, vamos a usar el portapapeles de lectura. Esta es una función, y nuestra si estás usando windows sólo eso leerá lo que has copiado en el portapapeles. Por lo que aún has ido a tu Explorador de Windows a la barra de direcciones y has copiado la dirección a algo que se ve así que vendrá con la barra hacia atrás que ella es. Pero cuando ejecutes esta función de portapapeles de lectura, llamará a P desde no portapapeles, y automáticamente lo convertirá en puerto. Are es capaz de leer. Entonces dentro de camino, en realidad
habrás almacenado algo que se ve así. Por lo que la ha convertido en la antigua lectura de Arkan. Entonces esa es solo una forma de trabajar en torno a ella. Y Windows A te deja jugar con eso y decidir por ti mismo con qué prefieres trabajar ? No. Lo siguiente que quiero agregar al código es imprimir ciertas medidas estadísticas . Así que recuerda previamente creamos este marco de datos de muerte que tenía los resúmenes estadísticos , como hombres de tamaño de muestra, mediana
máxima media, etcétera. Entonces vamos a agregar después de ese carril esos carriles de podría vamos a dejar un comentario que dice, cuando una impresión no marco de datos redondeada a tres dígitos, voy a usar la función print, y voy a poner en comillas dobles muerte. Esto sólo va a imprimir sordo como lenguaje humano para que yo sepa lo que es. Y luego voy a decir imprimir otra vez. Voy a imprimir el marco de datos de muerte que creamos arriba, y voy a hacer coma Digits es igual a tres que vagarán ese marco de datos y los datos dentro de él a tres dígitos para que lo tenga bonito y recortado no. Lo siguiente que queremos hacer es que queremos bajar y hacer lo mismo para la
variable de edad que completamos es parte de este reto de secciones. Entonces después de crear el marco de datos de edad, vamos a hacer lo mismo Vamos a imprimir cotizaciones de agente y vamos a imprimir el marco de
datos de edad redondeado a tres dígitos sobre las últimas cosas que tenemos que hacer son tenemos parar hundiéndose. Simplemente decimos fregadero abierto y cerrar paréntesis. También tenemos que apagar el dispositivo gráfico usando dev dot off paréntesis abrir y cerrar encendido Cuando ejecutemos ambas funciones, se detendrá Oh, poniendo a la lámina de texto. Dejará de poner al pdf, y ahorrará esos apagados para que podamos abrirlos hasta que corremos. Sink and dev dot off No cerrará esos archivos en. No vamos a poder ir a mirarlos. Y luego las últimas cosas que iban a hacer vamos a quitar la edad y vamos a quitar la muerte usando la R y la función. Esto elimina ambas variables de nuestro entorno para que no nos confundamos con ellas más adelante. Sepa que tenemos fuera ponerlos a un archivo de texto. Ya no necesitamos realmente esas variables y nuestro entorno. Entonces sigamos adelante y ejecutemos toda esta sección de código una vez más. Solo voy a llamar significaban estas ventanas cosas específicas que te mostré. Entonces vamos a correr desde la mentira 47 hasta el final aquí, y verás que en el entorno sabemos que solo tenemos nuestro marco de datos de vida con el que
empezamos , y también tenemos que out valor de arreglar los datos. Digamos que hemos quitado la edad y hemos quitado si también notarás que aquí no se tramó nada . Eso se debe a que las parcelas, cuando tienes un PDF corriendo estás enviando las parcelas directamente a ese documento. No aparecerán en la ventana de parcela en nuestro estudio. Entonces vamos a nuestra carpeta,
una carpeta a la que enviamos estas cosas, y vemos que tenemos una parada de fuego de maíz. PDF y tenemos con viers sobre txt. Echemos un vistazo al con virus dot txt primero, y verás que tenemos la muerte y luego nuestras estadísticas de muestra fuera de la mediana de hombres y max etcétera para medida de diferencia. También hemos envejecido impreso y después las estadísticas resumidas para ello. Por lo que esta es una gran manera de almacenar la salida estadística para que siempre puedas volver y abrirlo. No se está perdiendo en la consola que tú también lo has impreso. Lo tendrás ahí para que puedas volver y hacer más análisis al respecto más adelante. Si miramos en el maíz vars dot pdf ¿Qué vemos? Bueno, vemos nuestra diferencia medir el Hester Graham y la trama de caja que creamos previamente . Y también tenemos una edad participante silbó un gramo en la parcela de caja que nosotros completamente previamente. Y esto es en un documento pdf de dos páginas que podemos abrir oferta podemos exportar a lo que
podamos utilizar y publicaciones o análisis posteriores. Entonces ahí lo tienes. Es así como se sabe la salida gráfica poot en la salida estadística. Dos carpetas en tu máquina. Entonces únete a mí en el siguiente video donde vamos a explorar las variables categóricas en el conjunto de
datos. Te veré entonces
13. Explorar variables categorical (planos de (bar proporciones , las partes de múltiples parte): Hola Y bienvenidos de nuevo en este video, vamos a explorar las variables categóricas dentro del conjunto de datos y ejecutar algunas estadísticas de muestra muy básicas porque sus variables categóricas eran básicamente solo van a mirar hacia fuera la proporción que son en los diferentes niveles dentro de cada variable categórica. Entonces lo primero que me gustaría hacer es realmente mirar una mesa. Vamos a realizar conteos de cada variable factorial en cada nivel dentro de ella. Entonces, por ejemplo, puedo ejecutar la función de tabla en datos de vida Dólar cuerdo seis. Ahora bien, tal vez
recuerden que la variable de sexo es M para masculino y F para femenino. En eso, tenemos 100 de descuento cada uno. Puedo comprobarlo brevemente otra vez usando la función str o estructura. Simplemente voy a ejecutar esto en la consola y puedo ejecutar eso en datos de vida. Y cuando haga eso, verás que obtenemos el resumen igual que hicimos en el menú desplegable en el entorno. Y vemos que el sexo es efectivamente un factor. Variable con dos niveles f sobre em. Entonces veamos más en deuda al sexo soportable mediante el uso de la función de mesa cuando estamos sobre la mesa. Vemos que tenemos 100 EFS para femeninas y 100am para machos. Podemos ejecutar la función de tabla en otras variables categóricas. Por ejemplo, podemos decir vida de mesa, dólar
de datos diciendo matrimonio. Este es el estado civil sobre los participantes. Lo que vemos aquí es que todo son ceros y unos. Tenemos 132 ceros, personas con las que no estamos casados y 68 personas que están casadas para que puedas seguir adelante y jugar con la función de mesa en todas las demás variables categóricas. Pero lo siguiente que vamos a hacer ya que vamos a configurar un dispositivo gráfico que Carlos es abrir múltiples parcelas a esta misma ventana al igual que lo hicimos anteriormente. Y vamos a montar aquí un dispositivo gráfico donde tenemos que subir y tres columnas y nuestra ventana de salida. Entonces para hacerlo de nuevo, usamos par y el argumento MF Row vamos a especificar que pueden función Katyn ocho, y esta vez vamos a escoger para calmar tres, significando subir por tres columnas sobre. Vamos a ejecutar eso para que se imprimen nuestro dispositivo gráfico por tener seis parcelas a través él. Vamos a tener un papel de tres y una proporción de la trama, y luego podemos tener otra fila de tres por debajo de eso. Entonces las primeras parcelas que iban a hacer para nuestros looks de corteza. Entonces vamos a crear diagramas de barras fuera de la proporción de sujetos y cada factor de cada variable
categórica. Y para ello, vamos a decir que la trama de barras estaban usando la función de reloj de barra encendida. Y en lugar de que el primer argumento sea los datos que queremos hacer enter bar plot, en realidad
vamos a especificar la función de tabla en. Vamos a decir vida de mesa, dólar
de datos diciendo sexo. Entonces sabemos que desde arriba eso que devuelve 100 machos y 100 hembras. Pero ahora lo que vamos a hacer es que vamos a dividir eso por la longitud de los datos de vida dólar diciendo sexo. Recuerde, la función de tierra devuelve la longitud de una columna o un conjunto de datos. Entonces aquí estamos teniendo un calcular la longitud del sexo, que es de 200 participantes en. Estamos dividiendo la mesa de 100 hembras y 100 comidas por esa longitud de 200. Por lo que tanto las 100 hembras como las 100 comidas estaremos divididos por 200. Entonces vamos a especificar el color. Sólo voy a usar celeste otra vez, pero siéntete libre de jugar con esos colores dondequiera que te apetezca. También voy a especificar por qué extremidad por qué Lim es un argumento que restringe el por qué el acceso a un lapso establecido o a unos límites establecidos. Y porque aquí estamos calculando proporciones. Yo quiero que el eje Y se limite entre cero origen y uno porque si se etiquetan el
eje y 1.1 o 1.2, entonces no tendría ningún sentido porque no se puede tener su proporción que es mayor una vez. Yo quiero asegurarme de que nuestra se esté comportando ahí. Lo siguiente que quiero agregar a esta función es en etiqueta X para sexo, y quiero tener una etiqueta Y por proporción. Y luego voy a decir que el título principal de esta trama es sex off participantes. Entonces voy a especificar que los nombres utilizados para nombrar los bares y esta trama van a ser comida femenina Andi en lugar de solo usar AM. Y si ahí vamos, vamos a correr eso. Se puede ver que obtenemos una pequeña parcela de bar en la primera venta de nuestra matriz de dos por tres. Te lo vamos a decir un poco arriba agregando un límite de caja tal como lo hicimos antes. Lo hace un poco más limpio. Sé que puedes seguir adelante haciendo lo mismo con otras variables categóricas, así que solo voy a copiar el código. Lo mismo está arriba, pero voy a cambiar el sexo por el matrimonio. Variable categórica on. Entonces voy a cambiar la etiqueta X a casada en Leave Proporción tal como es, y luego voy a decir que el título principal de la trama como estado civil en diez centavos va a cambiar los nombres de los bares para saber no casado Andi. Sí, estamos casados. Intentemos ejecutar eso. Ahí lo tienes. Estamos consiguiendo lindas parcelas de bar. Están mostrando proporción fuera de variables categóricas en cada nivel fuera de la
variable categórica . Entonces si tenemos machos, hembras o si nos hemos casado sí o no y así se puede seguir haciendo esto por las otras variables categóricas, y seguirán poblando en esa ventana de trazado. Recuerde que cuando termine de trazar, siempre
debe restaurar el dispositivo gráfico de nuevo a una sola configuración de trazado. Tan solo para que no te den sorpresas repentinas cuando vengas a trazar tu siguiente artículo. Y así te atraparé en el siguiente video donde realmente vamos a empezar a ponernos inferenciales con para estadísticas sobre su comienzan a hacer preguntas más específicas usando pruebas
estadísticas como las pruebas T en Nova. Vamos a empezar realmente queer ing este conjunto de datos. Por lo que te veré en el siguiente video.
14. Trabajar con tipos de datos (vectores, de vectores, de factores , cuadros de datos): Hola. En este video, nos vamos a estar preparando para realizar análisis estadísticos adicionales que
nos permitan responder preguntas inferenciales sobre su conjunto de datos. Entonces he creado aquí un nuevo cuadro de comentarios que va a separar esta parte del código y explicar qué tal y como estamos haciendo en Primero que nada, vamos a analizar variables categóricas lo antes de hacer esto. Es muy beneficioso si ante todo adjuntamos las variables de los datos de vida. Entonces los nombres de las columnas y los datos de vida es lo que vamos a adjuntar a nuestro entorno. Entonces veamos qué es eso. Vamos a usar la función adjuntar. Simplemente lo estoy abasteciendo con datos de vida. Por lo que estamos suministrando adjuntar con datos Life, que es nuestro marco de datos que tiene nombres de columna dentro de él. Y cuando ejecutemos eso, verás que ha adjuntado los siguientes nombres de variables. Entonces, no, en realidad
podemos usar esos nombres de variables directamente sin tener que hacer referencia a los datos de vida en nuestro entorno. Entonces, por ejemplo, solíamos obtener un resumen que usábamos para tener que hacer datos de vida edad del signo del dólar, por ejemplo, sobre eso nos daría un resumen estadístico de la variable de edad dentro de los datos de vida. Pero ahora lo hemos adherido. Podemos deshacernos del dólar diciendo que también podemos deshacernos de los datos de la vida y simplemente decir edad. Y voy a reconocer de qué estamos hablando para que podamos hacer eso y obtener un
resumen estadístico de vejez saber que hemos adjuntado estas variables. También queremos ordenar un poco nuestras variables factoriales o categóricas y darles niveles dentro de su estructura categórica, nombres que son más descriptivos. Entonces, por ejemplo, en el sexo, todo lo que tenemos en este momento es am para masculino o F para femenino. De verdad queremos llamarles comida y hembra. Entonces lo que vamos a hacer es que vamos a decir sexo. Podemos referirnos a eso no directamente porque lo hemos apegado a nuestro entorno y podemos decir sexo de función factorial. Y podemos decir etiquetas iguales para ver paréntesis, femeninas y masculinas. Lo que estamos haciendo dentro de esta función de factor es que estamos diciendo que la variable de sexo cambia sus etiquetas cambian. Eso es niveles dentro de la variable categórica de sexo a femenino y machos, o transformar FFT, femenino y AM y dos masculinos sobre sobreescribir la variable de sexo. Entonces, ¿dónde están firmando encima de la variable de sexo. Entonces veamos qué pasa cuando ejecutamos eso. No, Si hago un resumen fuera de sex stone aquí y la consola ver, me pongo en lugar de f n m femenino y masculino. Por lo que he ido adelante. Estoy preparado código para transformar nuestras variables categóricas y dos etiquetas más descriptivas. Entonces aquí hay algo que preparé previamente. Tenemos matrimonio. Estamos cambiando las etiquetas de ceros y unos, también. No casados y casados. Estamos cambiando el trabajo. Variable de ceros y unos dedo del pie
desempleados, variable familiar desempleada sólo tiene que ver con si el participante siente que tenía
mucha familia rodeándolos para apoyarlos. Entonces si no tienen familia o tienen familia y luego el nivel educativo del participante, Ya sea hs para preparatoria, te agarraste para subterráneo o posgrado para licenciatura. También notarás aquí que estoy usando un signo igual para reasignar estas variables y son que puedes usar un signo igual o el operador de flecha que hemos estado usando previamente para hacer asignaciones, pero prefiero usar el operador de flecha. Igual a mí, sería demasiado fácil confundir con un operador matemático, así que prefiero usar el signo IRA, Pero puedes usar igual si lo deseas. Entonces sigamos adelante y ejecutemos estas otras variables. Los estamos cambiando por algo mucho más descriptivo. Aquí se puede ver que están apareciendo en nuestro entorno. Lo siguiente que queremos hacer es crear marcos de datos para la variable dependiente en para las variables independientes categóricas. Entonces la variable dependiente es lo que nos interesa, y es la variable de respuesta la medida de diferencia. Queremos determinar o predecir qué es la medida de diferencia y los participantes en base a todas
las demás variables que colectamos. Y también vamos a utilizar variables categóricas, independientes, que son las variables predictoras de las que estaban tratando de proteger la variable dependiente. Y eso es lo que vamos a ver aquí. Pero antes que nada, queremos crear un marco de datos para la variable dependiente. Vamos a decir que la variable dependiente viene de sordos otra vez. Hemos adjuntado esto para que puedas referirte a él sin el marco de datos de vida. También vamos a decir que estamos haciendo un gato adulto de data frame para
variables categóricas y vamos a decir data dot frame y vamos a darle sexo un
trabajo matrimonial , familia en educación Así que estamos haciendo un nuevo marco de datos aquí que tiene las trabajo, variables sexo matrimonio,
trabajo,
familia y educación dentro de él. Entonces sigamos adelante y ejecutemos los dos. Se puede ver que también se suman a nuestro entorno. Y entonces lo último que queremos hacer es crear un vector de nombres de variables. Vamos a crear un vector o variable Nombres on iban a hacer eso. Vamos a decir variables vars pensadas categóricas, y lo vamos a suministrar con los nombres de columna recuerden, usamos no función antes de ir a suministrar una columna. Nombres de vida data dot cat Así que ha tomado los nombres de colon de nuestro nuevo marco de datos de
data data data cat . Andi los ha asignado a la variable vars dot cat. Entonces si corremos, solo vars dot cat, vemos que tenemos sexo, matrimonio, trabajo, familia y educación. Entonces cuando volvamos en el siguiente video, vamos a continuar nuestro análisis estadístico de estas variables categóricas, y en realidad vamos a hacer eso usando nuestra propia función que vamos a crear. En lugar de usar funciones existentes, vamos a crear las nuestras propias, así que es muy emocionante en. Esperaré verlos en el próximo video.
15. Crear una función personalizada para análisis de análisis estadístico (t, (t-test, de trazado) de: hola y bienvenidos. En este video, estaremos definiendo nuestra propia función. El propósito de la función es buscar relaciones entre las variables categóricas y nuestro conjunto de datos. Entonces cosas como educación, sexo, familia, empleo y estado civil sobre si alguna de esas variables no ha impactado en la medida de
diferencia. Entonces, ¿qué edad o joven se cree que tiene? Entonces realmente, lo que queremos hacer es analizar las diferencias en los factores o niveles dentro de estas
variables categóricas . Entonces, por ejemplo, queremos ver si hay una diferencia entre hombres y mujeres y
cómo perciben la edad que tienen o si hay una diferencia entre parejas casadas y solteras y cómo perciben qué edad tienen. Pero antes de que realmente escribamos esta función, lo que quiero hacer es mostrarte cómo se va a ver la salida y lo que nos estamos esforzando por crear. Por lo que he hecho la consola sobre más grande para que puedas ver la salida que vamos a estar recibiendo, por lo que sabrás este año que dice signo de dólar femenino. El primero que permita que funcione que vamos a crear hará es que creará un resumen
estadístico de la medida de diferencia para todas las participantes femeninas. Por lo que podremos ver lo que la mediana y media etcétera o participantes femeninas como en. Y también podremos ver cuáles son esas estadísticas sumarias para los participantes masculinos. Entonces si miramos esto realmente rápido, vemos que significan para las participantes femeninas como un 0.57 activo y la media para
los participantes masculinos es un poco menor en negativo 3.437 Así que solo mirando estos medios
posiblemente imaginaría que los machos tienden a pensar que son más jóvenes de lo que realmente son porque tenemos un valor más negativo en promedio y los participantes masculinos, La otra cosa que estamos haciendo aquí es crear una trama. Entonces si miramos toda la ventana aplaudida en la parte inferior derecha, veremos que tenemos una trama de caja. Esto ha dividido a las participantes femeninas y a las participantes masculinas. Hemos etiquetado el eje X cada uno de nuestros on hemos etiquetado el Por qué acceder a una medida de diferencia , que es lo que estamos tratando de descifrar, y ya verás aquí que estas dos parcelas de caja y bigote se ven bastante similares el macho significa con la línea audaz es un poco más baja que la media femenina, pero no se ven tan diferentes. Entonces, realmente, lo que queremos hacer es ver si esas diferencias y significan que estamos observando en el recuadro OLP y en los resúmenes estadísticos es estadísticamente diferente. En un camino que conducimos es decir, usar algo llamado prueba T. En una prueba T se observan diferencias entre medias y a sub poblaciones, por lo que nos dice si significan en el grupo femenino off. El medidor de diferencia es realmente estadísticamente diferente a la del grupo de correo sobre si, dehecho, hecho, las hembras y los machos a lo largo y diferentes poblaciones ya que realmente hay una diferencia entre machos y hembras cuando se trata de la edad que piensan que tienen. Entonces cuando ejecutamos la prueba T, obtenemos este resultado estadístico. En lo que más nos interesa es el valor P que número aquí, el valor de 0.2453 p nos habla de significación lo porque se trata de una prueba
estadística inferencial . No tenemos hipótesis, y tenemos una hipótesis alternativa. El nula hipótesis es que las hembras y los machos no son diferentes y cómo perciben edad que tienen, por lo que no hay diferencia. Y significan entre hembras y machos. Estadísticamente terrorista, si yo las ganancias es, es que esos valores medios de medición de diferencia son en realidad diferentes, que hay una diferencia entre machos y hembras. Y si el valor P va por debajo de 0.5 vamos a rechazar la hipótesis nula de que
no hay diferencia en. Vamos a decir que hay evidencia estadística de que hay una diferencia en la realidad entre machos y hembras y cómo perciben la edad que tienen ahí. Porque eso es P valores 0.2453 Eso significa que no es menor a 0.5 No podemos rechazar la
hipótesis nula , y no podemos decir que realmente haya alguna diferencia entre machos y hembras aquí. Entonces lo otro que hace esta función es que agrega el valor P a la trama. Por aquí, verás que tenemos valor P 0.2453 y lo último que hace la función es que etiqueta la gráfica de caja con un título. Esto es sexo, porque esta es la diferencia entre las comidas y las hembras así y se vio a qué salida
vamos . Veamos cómo escribimos la función en sí. Entonces voy a seguir adelante y minimizar la consola. Y esta es la función que ya he escrito. He escrito algunos comentarios comenzando en carril 175 y y la función se llama inicialmente en Lane 180 se ejecuta hasta 222. Sé que esto es bastante código muchos carriles aquí, pero vamos a ir a través de él una línea a la vez realmente llegar y explicar lo que está haciendo en realidad. Por lo que los animo a Primero que nada, escuchar la explicación fuera de las líneas de código que entran en esta función antes de intentar realmente copiar el cable. Dejaría eso hasta después, o posé el video y lo haría así que empezaremos con los comentarios que nos he dejado aquí Digo que esta es una función para el análisis de variables categóricas independientes frente a la . variable dependiente
continua. Entonces nuevamente, nuestra variable dependiente como nuestra medida de diferencia que depende de todas las demás variables que fueron muestreadas. Eso es lo que estamos tratando de proteger. Y las variables categóricas independientes son las variables como educación, familia, sexo y demás que son categóricos significados no son continuos. Son ceros y unos masculinos, femeninos ahí. No, una medida continua sobre las funciones puede venir como parte de los paquetes que instala y es, o puede crear los suyos propios. Entonces lo que estamos haciendo aquí es definir nuestra propia función en que estamos nombrando la función maiz cat fun. Ese es un nombre que se me ocurrió. Podrías llamarlo como quieras. Yo lo he llamado no porque estamos tratando de predecir o mirando una variable continua la medida de
diferencia en. Estamos viendo la influencia de que las variables categóricas tienen un no, y esta es una función. Entonces lo he llamado fondos o la disfunción divertida de Cone Cat tomará tres argumentos. Entonces sabemos que dentro de paréntesis es donde podríamos argumentos para funciones. Vamos a tener tres de ellos en esta función sobre esto es donde estamos definiendo la función y todas estas líneas han podido. Pero una vez que tenemos que encontrarlo, entonces
podemos llamarlo en cualquier momento que queramos sin tener que volver a escribir todas estas líneas, así que solo lo llamamos y se lo damos a tres argumentos y se ejecuta en segundo plano. Reenfocar, tener que escribir todos estos carriles de corte fuera una y otra vez. Entonces ese es el verdadero poder de las funciones que te permite usar una tarea de análisis compleja una
y otra vez sin tener que escribir dedo del pie una y otra vez. Por lo que en línea 100 ochenta, donde nombramos a la función lo vamos a llamar Cone Cat fun. Entonces es igual que estamos definiendo una variable. Estábamos usando el operador de asignación, el iro, el Chevron con el guión, y estamos diciendo que la diversión del gato Kong va a ser asignada una función. Entonces esa es una función, función y azul ahí, y estamos diciendo paréntesis y al nombrar los tres argumentos que requiere. Por lo que he llamado al primer argumento cada uno de nuestros para esto que significa esto como cada
variable categórica . Por lo que estamos enviando a uno de los alcanzados a estas funciones. Acabo de llamarlo cada uno de nuestros donde luego consiguió el segundo argumento. Se llama nombre. Ese es el nombre de la variable categórica, y luego tenemos respuesta. Esa es la variable dependiente o la medida de sordera Entonces eso es lo que le damos a esta función. El primero que sí ofendemos a la función es que tenemos aquí una llave rizada y eso realmente define dónde comienza la funcionalidad real. Por lo que hemos nombrado a la función con gobierno los tres argumentos. Pero esta es realmente la carne de la función. Esto es lo que lo hace dentro, No Curly Brace me volví. Escribí un comentario yo mismo diciendo, Lo primero que vamos a hacer como imprimir estadísticas de alguien fuera de la variable dependiente por cada variable independiente y factores dentro de ella. Entonces aquí es donde imprimimos un resumen estadístico que debemos buscar que previamente en la consola. Entonces la media la mediana a excepción de las hembras justa ve a los machos bien, Así que lo estamos haciendo para cada nivel dentro de la variable categórica. Por lo que para la educación, retiramos busto un resumen comprobable para esas mentas de protesta que sólo en la
educación preparatoria los que tienen educación de pregrado y los que tienen una educación de posgrado . Por lo que para ello, utilizamos la función T apply. Se puede buscar que arriba en la ayuda esencialmente t apply va a realizar o aplicar una función a través de rose over conjunto de datos. Entonces estamos dando t Aplicar la variable de respuesta de medida de diferencia y estamos diciendo que queremos aplicar una función de resumen a través de todos los valores de medida de diferencia que son correspondientes a la variable categórica en cada elemento dentro de ella. Entonces aquí es donde estamos diciendo,
OK, OK, haz un resumen a través primero de todo,
todas las hembras dentro de la variable categórica de sexo y la India alguien a través de todas las comidas dentro del sexo Variable categórica Vamos entonces para imprimir eso en la consola. Entonces así es como obtenemos nuestra salida que miramos aquí abajo de hombres femeninos primer portale medio etcétera. Entonces lo siguiente que vamos a hacer es que vamos a hacer una trama de caja. Vamos a crear una gráfica de caja fuera de la variable dependiente subdividida por cada
variable independiente sobre factores dentro de ella. Por lo que utilizamos nuestra función de trama de libros que hemos visto antes. Precisamos que la garra de caja es respuesta y luego usamos el operador tilde para decir que queremos respuesta contra cada variable que estamos dando a esta función. Entonces, en primer lugar, le
damos la variable sexo. Queremos trazar medida de diferencia de respuesta Verre ve cada factor y la variable de sexo. Vamos a decir que en el título principal off, la trama es igual a nombre, por lo que el nombre es uno de los argumentos de la función. Por lo que le estaremos suministrando el nombre de la primera variable factor lucha, que es sexo. Entonces ahí es donde se pone el seis título de aquí en la trama deportiva y lo estamos suministrando con Why Lab For Why label? Y estamos diciendo que eso es igual a medida de diferencia. Entonces eso va a etiquetar o por qué acceder. Lo siguiente que tenemos que hacer es tener una declaración de ramificación y nuestro flujo de programa aquí porque hay una variable categórica que no tiene dos factores dentro de ella. Tiene tres. El variable de educación. Tenemos pregrado y posgrado de secundaria, así que si volvemos a mirar nuestro entorno,
vemos que la educación tiene tres. La familia tiene que trabajar, tiene que casarse, tiene dos niveles y los insectos tiene dos niveles. Por lo que existe la posibilidad de que tengamos una variable categórica entrar en esta función que tiene tres niveles fueron defendidos de bachillerato y posgrado. Y eso es un problema porque la prueba T para ver si realmente hay una
diferencia estadística dentro de los niveles en la variable factorial como lo hicimos para las
pruebas T masculinas versus femeninas solo se puede usar cuando hay niveles demasiado dentro del factor. Entonces si tenemos más de dos como lo hacemos en educación, entonces tenemos que aplicar en su lugar análisis de prueba de varianza. Entonces para dar cuenta de esto, hay posibilidad de que un factor de tres niveles llegue a esta función. Tenemos que usar declaraciones if para ramificar el cordón. Entonces si un factor de dos niveles como el sexo, masculino y femenino llega a esta función, bajamos una rama. Si un factor de tres niveles como la educación, donde hay pregrado y posgrado de secundaria llega a esta función, seguirá una rama diferente sobre hacer un análisis diferente. Entonces por eso esta función es realmente inteligente. Entonces vamos a hacer una declaración if y esta afirmación if es evaluar si los niveles en cada barra son iguales a dos o no. Entonces, ¿cómo vamos a hacer eso? Bueno, le
estamos dando cada lejos, que, como digamos, nuestra variable de sexo y luego los niveles funcionan aquí. Se va a la función interior en primer lugar, de Teyla cuántos niveles hay en cada lejano. Entonces para el sexo, se va a decir, Y entonces vamos a calcular la longitud sobre esos niveles así que va a contar uno a una nen. Vamos a valorar con el doble signo igual a ese operador lógico que vamos a valorar como este número igual a dos. Entonces, sí, con el sexo habrá comida y hembra. Va a haber dos niveles. El largo va a ser igual a, y por lo tanto dos es igual a dos. Por lo que esta afirmación si sería cierta. Y por lo tanto haríamos lo que viene después siguiendo el corsé rizado. Es así como configuras una declaración if, dices f paréntesis y pones una declaración lógica que quieres evaluar. Y luego, si eso es cierto, vas a la corte va a ejecutar lo que viene siguiendo el corsé rizado. Entonces si es sexo lo que va a ser cierto en, entonces va a realizar una prueba T, por lo que vamos a realizar t test usando t dot test on. Damos que la variable de respuesta de la medida de diferencia en cualquier variable que nos hayamos dado a la función, por lo que Si somos sexo de cumbre, evaluaremos sexo masculino, femenino en una medida de diferencia y realizaremos 80 puntos función de prueba sobre eso en. Entonces vamos a asignar abierto de esa función a la prueba T variable. Podemos man print t test prints, la salida de la función, y eso es lo que viste aquí abajo en la consola. Y imprime toda esta salida estadística a la consola para que podamos verlo. Lo siguiente que queremos hacer es tener una declaración if con en esta declaración if. Entonces estamos anidando una declaración if aquí dentro de otra cerveza conmigo. Entonces la razón por la que estamos haciendo esto es porque lo hacemos un valor P que tiene muchos ceros, muchos dígitos después del punto. Andi, si tenemos un valor P que se está apagando y demasiados dígitos más allá del punto decimal, eso puede ponerse un poco desordenado. Y no es realmente lo hecho ni realmente correcto reportar un valor P que tenga muchos dígitos después del punto. De verdad, Si tuviéramos, digamos, 20 dígitos después del punto, Así 0.0 etcétera. Entonces, en un sentido estadístico sobre una publicación para ser profesional, querrías solo reportar que el valor P como menor a 0.1 eso es todo lo que dirías. Porque una vez que llega a ser inferior a 0.1 realmente no tenemos tanta confianza y eso ya. Y no queremos reportar eso en una publicación. Esta afirmación if va a evaluar si el valor P de la prueba T se ha vuelto realmente, realmente pequeño y muy largo pasado el punto decimal o no. Entonces vamos a decir si y luego le suministramos con prueba t. La variable que creamos arriba con el local fuera de la prueba estadística T iban a decir dólar ST p punto valor. Por lo que la salida de la función de prueba T tiene atributos dentro de ella, y podemos acceder a esos atributos usando signos de dólar igual que hicimos y marcos de datos y uno de esos atributos de una prueba T como valor de pedo. Entonces estamos diciendo aquí que si la T prueba el valor P es menor a 0.1 entonces si eso es cierto, vamos a crear una variable llamada valor P y vamos a firmarla una cadena de texto entre comillas
dobles ahí fuera menos de 0.1 Así que eso es lo que estamos haciendo. Si esto es cierto, por
eso se coloca dentro de esos corchetes rizados ahí. No, si eso no es cierto, no
vemos más. Entonces esto es lo que pasa si el valor P no es menor a 0.1 Nos saltamos asignando valor P a la cadena de texto menor a 0.1 y en su lugar bajamos y nos sape Evil se va a asignar la T prueba p valor, pero vamos a redondearlo apagado a cuatro dígitos significativos. Entonces estoy usando la función romana. Pero estoy diciendo Roman al valor del valor P que obtenemos la función de prueba T y estoy usando su segundo argumento fuera dígitos igual para así de nuevo, esta Nestea. Si aquí todo lo que está haciendo es mirar el valor P de la prueba T que se realizó arriba aquí, y está buscando y evaluando no es menor a 0.1 Si es y voy a crear una variable, tiene el texto cadena menor a 0.1? Pero si no lo es, voy a redondear el valor P a cuatro dígitos, y voy a decir que no a la variable p mal. Lo siguiente que hacemos es que vamos a sumar el valor P a la trama. Cianosis. Por aquí, esta gráfica de caja que creamos tiene valor P colon 0.2453 por encima de ella. Entonces esos son los que informan sobre los aplausos. Agradable y conveniente. Entonces para cuando alguien mira menos trama más adelante, ven estas dos parcelas de caja. Ellos ven que son bastante similares. A lo mejor se preguntan, ¿Son realmente lo mismo? ¿ En qué son diferentes? Bueno, teniendo el valor P aquí mismo, les
diremos eso. Entonces vamos a pegar juntos el valor p del texto con el valor P real que salió una prueba
estadística. Entonces vamos a decir,
Pete, Pete, laboratorio del
mal para la etiqueta P Value. Estamos creando nueva variable aquí, y le estamos asignando que la función de pegar y pegar los mínimos es pegar cadenas de texto y números juntos. Entonces estamos pegando juntos ese texto el lenguaje humano apagado entre comillas dobles, P valor maíz y luego diciendo coma P. Val. Entonces hay P mal es lo que guardamos aquí arriba en esta afirmación if. Entonces si se trataba de un número realmente pequeño, va a ser menos de cero punto usuario uno. Si no fuera menor a 0.1 PVA en realidad igualará el valor P redondeado de la
prueba estadística . Lo siguiente que hacemos es añadirle eso a la trama. Agregamos AARP evil P Value etiqueta a la trama utilizando la función de texto M. Entonces así es como logramos obtener la llamada P Value en 0.2453 por encima de esta trama. Entonces ese es el valor P no fue menor a 0.1 Fue 0.2453 y probablemente algunos otros dígitos, pero lo redondeamos a cuatro dígitos significativos allí. No, el resto de esta función básicamente hace lo mismo, excepto que tenemos aquí la sentencia else F que se va a evaluar si los niveles fuera
variable son mayores a dos. Por lo que esto va a atrapar la educación. La educación tiene tres niveles, por lo que la educación pasará por este análisis en el fondo. Esta función que estamos definiendo, que esencialmente es exactamente la misma que lo que hicimos para que nivelara la variable categórica arriba. Pero la única diferencia dice que vamos a estar haciendo o realizando en análisis de varianza porque hay tres niveles. Un análisis de varianza busca esencialmente diferencias en las medias a través de tres
niveles o Mawr en una variable factorial. Entonces eso es lo que tenemos que usar aquí. Entonces va a realizar un análisis de varianza, y va a hacer lo mismo para evaluar si el valor P es muy pequeño. Y si es no, lo va a redondear y luego va a agregar eso a la trama. Entonces eso es lo que sucederá cuando se nos suministre la variable educativa función. Otra vez. Te animo a que vuelvas a ver este video. Escucha la explicación de esta función. Sé que esto tiene Bean lo más complicado que hemos hecho hasta ahora, y no es fácil cuando se empieza a definir una función, y también cuando esta función es relativamente larga y haciendo muchas cosas diferentes que tenemos . Si las declaraciones anidadas dentro de otras declaraciones F y tenemos algunas pruebas estadísticas arrojadas aquí para otra vez, Rita leyó los comentarios aquí en Gua Church. Otra vez la explicación en video. Pero básicamente, esta es función que hemos definido. Y dentro de la función creamos resumen estadístico, creamos una gráfica de caja, y luego tenemos una declaración de ramificación que se cierra para hacer frente a si tenemos que factorizar niveles o tenemos tres niveles de factores, y que está solo es ramificar el cable dentro de esta función. Entonces, mira esto un poco más. Cuando volvamos en el siguiente video, realidad
vamos a usar esta función en vamos a anidar esta función dentro de una estructura de
looping que nos permite iterar a través de todas nuestras variables categóricas y hacer
que la computadora haga el trabajo de todos los análisis para nosotros. Entonces esto va a ser esperemos muy útil, video
muy importante, y espero verte. Entonces te atraparé en el próximo
16. Escribir un bucle para ejecutar la función de análisis personalizado: hola y bienvenidos. De vuelta en el último video, creamos nuestra propia función definida por el usuario para realizar tareas de análisis muy específicas en nuestro conjunto de
datos. Entonces, ¿qué quiero hacer en este video asegurarte cómo llamar o cómo usar esa función? Y también vamos a colocar esa función dentro de una estructura de bucle corto, de
cuatro bucles que nos permitirá reiterar esa función a través de nuestras cinco variables categóricas
independientes. Por lo que nuestra educación, empleo
familiar, estado
civil y variables sexuales alos para automatizar el análisis en lugar de calificar todo a lo largo de cinco veces. Entonces lo primero que tenemos que hacer es que tenemos que ejecutar esa función que creamos para
que se convierta en parte de nuestro entorno y nuestro reconozca eso como una función. Entonces voy a volver arriba, desplazarme de nuevo hacia arriba por el guión que escribimos de vuelta a donde definimos la diversión del gato de maíz en la línea 180 Lo estoy destacando todo el camino hasta la cerradura rizada en la línea 222 y voy a seguir adelante en carrera eso y verás que se ejecuta en la consola. Corrimos todos esos carriles concuerdan toda la definición de función porque no ha hecho nada bien. No nos dan aplaudo. No obtenemos ninguna estadística de ocho poot porque eso es igual de definir la función. Todavía no le hemos enviado nada, así que hemos definido la función y verás la ventana del entorno final. Ahora tenemos cabeza en funciones frías y tenemos diversión con gato y ya está aquí. Dice que es una función y dice como los tres argumentos que definimos que requiere para que se ejecute. Entonces lo siguiente que vamos a hacer ya que vamos a crear una estructura viva donde realmente
podamos usar esta función, Entonces lo primero que voy a hacer es crear un comentario para nosotros básicamente aquí. Digo que este es un bucle que vamos a enviar variables categóricas para realizar el análisis y la función usando la función que definimos anteriormente. Este bucle va a reiterar o seguir corriendo por la tierra fuera de todas las
variables categóricas que están en el marco de datos categórico que creamos antes, y vamos a usar una variable a la vez, así que si miramos hacia atrás a nuestro medio ambiente arriba tu top ¿verdad? Recuerda, creamos un gato de punto de datos de vida. Este es un marco de datos que sólo contrata son cinco variables categóricas en él. Pero claro que tiene 200 participantes viejos. Por lo que son cinco columnas y 200 rosas. Entonces para empezar este bucle, vamos a escribir cuatro. Y vamos a decir yo esto como el término índice o el número fuera de federaciones que
está encendido el bucle . Yo sólo lo estoy llamando. Puedes llamarlo como quieras. Tiendo a pensar que soy bueno porque significa índice o federación, y voy a decir en Y entonces voy a escribir el número uno Coloane. Y luego voy a decir length off life data dot cat. Entonces digo aquí que voy a calcular la duración de la vida data dot cat. Veamos qué sucede cuando acabamos de ejecutar los datos de la duración de la vida. Dog Cat me dice que está bien, correcto, porque hay cinco variables en el marco de datos life data dot cat no me dice 200. Esa es una serie de participantes. Me da cinco siendo la caída de tierra del número de variables y estoy diciendo de una a cinco. Entonces en esta estructura de boca aquí, básicamente
estamos diciendo que voy a igualar a uno en la primera Federación de lo que
equivaldrá a 345 y luego se detendrá. Entonces eso es todo lo que esto está diciendo. Es decir que voy a igualar a uno. Ganará igual a 34 y cinco a medida que genere a través de este bucle. Entonces, ¿qué vamos a hacer a la vista el bucle? Bueno, actualmente
volvemos a utilizar llaves, vamos a crear unos carriles en blanco para que escribamos este bucle. Notarás que el en denso para es automáticamente, pero esto es para ayudarnos visualmente. Vean eso. De acuerdo, esto es un bucle encendido. Todo está sangrado es lo que Luke está haciendo en cada iteración. Entonces si vamos a explicar las cosas a nuestra función, tenemos que en primer lugar, definir variables para los argumentos que la función requiere. Entonces voy a decir cada uno de nuestros recordar Ese es uno de los argumentos que
adquiere la función , y lo voy a decir. Life data dot cat y voy a usar corchetes para subestablecer ese marco de datos y recordar, entre corchetes podemos dar a los números. Damos el número de regla Número de columna Coma. Y si quiero todo fuera de la rosa, dejo en blanco. Recuerda, antes queríamos todas las columnas Así que nos íbamos a blanco, así que no pude nada en coma. Y entonces especificé qué llamarlo quiero. Y aquí voy a decir yo porque yo en la primera generación a través de este bucle va igual uno. Entonces, en efecto, estoy diciendo que quiero subestablecer desde la vida data dot cat data frame la primera columna todas las filas. Entonces estoy parado toda la primera variable categórica a cada uno de nuestros estoy creando una nueva variable llamada cada lejos que tiene toda la variable categórica en ella y luego tengo que
definir sin nombre otro argumento que la función requiere. Y voy a decir que el nombre se va a comer. Bueno, vars no gato recuerdan vars dot cat que definimos previamente y es como un vector que tiene los nombres fuera de Oliver cinco sexo variable categórica trabajo matrimonial, familia, una educación. Entonces voy a poner corchetes después de él para subestablecerlo, y sólo voy a poner yo porque esto no es un marco de datos. Bars dot cat es sólo un vector apagado. Cinco cosas El sexo, el matrimonio, trabajo, la familia y la educación es sólo una dimensión. Por lo que sólo tengo que precisar yo sin coma aquí en cuando igual a uno en la primera generación . A través de este bucle, tomará el primer elemento de nuestro Perro Gato, que es el sexo en la segunda generación del trabajo de toma matrimonial, etcétera a medida que recorre. Y entonces lo último que queremos hacer dentro de nosotros para loop es, digamos, fondo
con gato. Entonces estamos llamando a la función que creamos, y le damos los argumentos de que requiere cada nombre lejano y luego el tercer argumento que decir que requiere ahí como respuesta on para respuesta, voy juntos life data dot devi the variable dependiente la variable de respuesta y verás en nuestro entorno que los datos de vida dot devi, como un vector numérico que tiene 200 valores, tiene la medida de diferencia para todos los 200 participantes. No es un marco de datos. Es sólo un vector de 200 valores. Le estoy dando todos esos 200 valores a la función. Ahora puedes estar
un poco confundido pensando, Whoa, dijimos cada nombre lejano no deberían este tercer argumento ser viaje de respuesta? Tenemos que llamarlo así. No, ese es sólo el nombre del argumento que definimos en la función. Podemos dar lo que queramos como argumento de respuesta. Simplemente sucedió el que llamé a cada barra y nombre aquí igual que los argumentos y la función. Por lo que cada lejos aquí estoy definiendo una nueva variable fuera de la función con la primera columna fuera del marco de datos categórico. Y entonces y estoy diciendo el nombre de esa variable viene de las barras. Gato Oscuro. El primer elemento de eso podría haber llamado a estos cualquier cosa que quisiera y ponerlos en la función en lugar de cada lejano en nombre. Entonces ese es el bucle cuatro completo ahí. Y como esto iteraba se va a ejecutar la función, dándole una variable a la vez. Después hará el segundo, el tercero, el cuarto y el quinto. Entonces, para darles un ejemplo de esto, podemos seguir adelante en carrera. Esto por tan solo tiró una federación y para hacer eso voy a bajar a la consola y voy a decir que voy a firmar yo el número uno. Entonces eso es un mínimo. Yo para ejecutar lo que Sen nos salvó para un bucle donde la gente dejándolo iterar a través de todo. Voy a decir que soy igual a uno y luego sólo voy a ejecutar el código que está dentro del bucle cuatro. No voy a correr el cuatro bucle en sí. Sólo estoy ejecutando este cable una vez, y lo que sea que sea no será igual al número uno. Y así cuando corro que obtengo la salida que vimos antes de obtener los resúmenes estadísticos para diferencia femenina y masculina medir su qué? Las diferencias entre varón y hembra. Obtengo la fruta de avena de la a alguna prueba t tirada con el valor P para que la pelota explote por aquí con un valor P agregado a la parte superior de la misma. Entonces no lo he hecho no has visto antes esos resultados. Te mostré esos cuando estábamos definiendo la función en primer lugar. A ver qué pasa cuando digo yo también voy a firmarlo. Entonces ni vamos a seguir Destacado. Justo lo que hay en este for loop otra vez. Sólo la perspicacia. El carnes de los cuatro loop on run que saben que yo igual a saber. Ya verás que se ha ido a la segunda variable categórica Onda. Podemos ver aquí en la consola que tenemos el resumen para no casados, y tenemos el resumen para casados, y se puede ver que tenemos un medio para los que no están casados. Eso es positivo. 3.432 así parece que las personas no casadas piensan que son mayores de lo que realmente son. Y luego para los que están casados, tenemos un fuertemente negativo 12.556 Valores medios aparece que los que están casados
piensan que son más jóvenes. Entonces en realidad lo son. Y así si queremos saber si esa es una diferencia estadísticamente significativa o no, podemos ver el valor P que vemos aquí. P valora un número muy pequeño. Esto es 9.238 e al negativo 10. Eso es para notación científica. Por lo que esto es 19.238 veces 10 al negativo 10. Entonces ese es un número muy pequeño. muy significativo, Umbralmuy significativo,
mucho más bajo y 100.5 que solíamos rechazar la hipótesis nula, lo que significa que podemos ver que hay una diferencia estadísticamente entre los que están casados y los que no están casados. Entonces cuando nos acercamos y miramos la trama de caja que creó, vemos que no se casó con valores mucho más altos, luego se casó. Entonces parece que cuando estás casado, piensas que
eres más joven de lo que estás. El valor P de la prueba T confirma eso, y este valor P es muy pequeño. Por lo que la función ha reportado correctamente como menos de 0.1 a diferencia de escribir en 9.238 veces 10 a la negativa 10. Entonces esto es interesante parece que si estás casado, te sientes más joven y tal vez te sientes más feliz. Entonces eso es Ah, eso es un resultado para los libros para que puedas seguir adelante y correr este bucle de cuatro. No. Y cuando hagas correr todo el asunto, saldrá adelante, y recorrerá todas las variables y la ventana de trazado. Por ejemplo, la última variable que produjo fue la variable de educación, y vemos aquí una diferencia ligeramente significativa entre bachillerato y
aparece grand . Aquellos con más educación se sienten más jóvenes de lo que realmente son, lo cual es algo interesante. Y podemos volver a parcelas más antiguas haciendo clic en esta flecha azul izquierda aquí para que también puedas ver apoyo
familiar. No parece ser una diferencia si tienes familia o no. Trabajo. Ya sea que estés empleado o no parece que las personas que están empleadas que tienen trabajo, tienden a pensar que son más jóvenes de lo que realmente son. Y esa es una diferencia estadísticamente significativa ahí. No es menor a 0.1 Así que se reporta que redondeó a cuatro decimales y luego estamos vuelta al matrimonio. Y por supuesto, también
tenemos variable de sexo ahí que hemos visto antes, por lo que puedes recorrer por parcelas aquí así. Y luego en la consola, obtendrás la salida estadística impresa Si te desplazas hacia atrás hacia arriba. En primer lugar, conseguir el sexo. De acuerdo, entonces tenemos matrimonio. Después tenemos empleo, su familia y luego último de todo, tenemos el nivel educativo sobre los resultados de la Unova porque fueron tres niveles con n esa variable categórica. Digamos que se quiere guardar automáticamente estas cosas, lo que hemos hecho antes. Digamos que queremos, Como estamos ejecutando esto para Luke, que las parcelas se poblen en un documento pdf on ¿Queremos tener toda esta estadística impresa a la consola ir a un archivo de texto para que podamos tener esas fácilmente disponibles abrirlos cuando no estemos todavía en nuestro entorno o en otra máquina, o enviarlos a alguien o lo que sea? Entonces lo que se debilita debido a un bajo para que eso suceda es que podemos configurar una función pdf y una
función de fregadero que enviará estos análisis y estas tramas a nuestra máquina. Por lo que he agregado un prepreparado líneas de combustible de cancha aquí en 2 25 3 a 28. Lo que estamos haciendo aquí otra vez, una configuración de dedo de almacenamiento bajo, las cifras para ir a un documento pdf sobre la estadística y cuatro para ir a un archivo de texto. Entonces estoy usando la función pdf. Estoy especificando a dónde va esto en mi máquina. Estoy usando la ruta aquí a un archivo pdf. Estoy llamando estadísticas de cat var y mi carpeta de abrigo sobre mi carpeta Sección una para la clase Demi . Y luego estoy usando la función de fregadero y especificando una ruta a un archivo de texto al que estoy llamando nuevo estadísticas de
cat VARS. Tendrás que cambiar estas rutas y nombres de archivos a donde sea que se adapte a tu máquina, donde quieras que vaya tu salida. Y recuerda, si estás en una máquina Windows que él cortó ella tiene que ser barras delanteras y no salpicaduras. Y luego después del bucle de cuatro, vamos a querer dejar de hundirse ante el texto fallar. Y también vamos a querer dejar de enviar cifras al pdf. Entonces para hacer eso, cerramos el fregadero diciendo paréntesis de fregadero abierto y cerrado y luego dev dot off para cerrar el dispositivo gráfico. Entonces veamos qué sucede cuando ejecutamos todas estas líneas de código. Entonces ya lo hemos hecho, y no vimos que pasara nada con las tramas. No vimos nada imprimiendo en la consola ni en el disco que estamos ejecutando. Pero no, Si vamos a nuestra carpeta en nuestra máquina Andi, abre la ventana del buscador aquí. Si vamos a la carpeta de nuestra máquina, voy a pasear hasta mi carpeta jammy. Voy a mi sección uno a mi salida. Ahora tengo dos carpetas nuevas aquí, una llamada cat vars stats. Y aquí es donde obtengo un PDF en cada página del documento pdf. Tengo esas cifras que hemos creado. Entonces los concibo en el pdf y lo miro en cualquier momento. Y entonces también tengo el gato muy empieza todo ese resultado estadístico fácilmente disponible ahí y se archivo de texto. Entonces en el siguiente video, vamos a seguir adelante haciendo unos pasos muy similares de análisis indefinidos en nueva función para analizar nuestras variables continuas en contraposición a nuestras variables categóricas. Por lo que vamos a continuar nuestro análisis sobre completar nuestro examen fuera de este conjunto de datos de vida
o conjunto de datos de tiempo y vida. Entonces espero que te estés divirtiendo. Por ahora, estamos dibujando ya algunas ideas realmente significativas a partir de estos datos. Andi, te atraparé en el próximo video
17. Escribir un bucle para crear trotas de disperso: hola y bienvenidos por lo siguiente que vamos a hacer en el script ya que vamos a
empezar a analizar las variables continuas que tenemos en nuestro conjunto de datos. Estos incluyen la edad, la temperatura corporal, cosas como frecuencia cardíaca, nivel de red de apoyo de participantes así como cómo calificaron su propia salud. Entonces he creado un cuadro de comentarios aquí que va a separar esta nueva sección de código para es visualmente y he dicho que se trata de variables continuas. Vamos a ejecutar estadísticas descriptivas. Una vez más, vamos a hacer algunas parcelas de dispersión, mirar algún análisis de correlación así como hacer algún análisis de regresión y ejecutar algunos diagnósticos para eso. Por lo que dentro de esta sección de cordón, estaremos definiendo otra función estaremos usando effin else on también estará limpiando , puesta en hacer que las parcelas se vean un poco mejor. Entonces lo primero que realmente queremos hacer es crear un marco de datos para las variables continuas independientes, tal como lo hicimos antes para las variables categóricas. Entonces lo que voy a decir es la vida data dot corn. Recuerda antes teníamos un gato perro, pero estoy diciendo datos de vida punto maíz para las variables continuas. Voy a asignar a esta nueva función de marco de datos de marco de punto de datos. Entonces estoy haciendo un marco de datos y le voy a dar la temp corporal de edad variable. Recuerden que podemos referirnos a estos sólo usando sus nombres porque los hemos adjuntado a nuestros entornos que ya no tenemos que hacer referencia a datos de vida Dólar diciendo que cada uno de estos debilitan. Basta con utilizar los nombres tal como son. También queremos que Teoh adjunte nivel de soporte de frecuencia cardíaca en salud. Estos airean las variables continuas restantes en nuestro conjunto de datos. Entonces sigamos adelante y corramos eso. Ya verás que obtenemos un nuevo marco de datos llamado Life data dot corn. Son 200 observaciones de cinco variables, y puedo usar un pequeño globo manera árabe en el dedo del pie. Mira lo que son de edad, tamp
corporal apoyo de frecuencia cardíaca en salud y me da de nuevo muestras de estas cosas. Todos son ya sea enteros o números en do. Ellos son viejos continuos. Lo siguiente que me gustaría que hiciéramos es crear un vector fuera de los nombres de las variables para los nombres de nuestras variables continuas, así que solo me voy a hacer un comentario. Estoy creando un vector de estos nombres de variables y voy a crear un nuevo objeto llamado vars. El Dr. Korn es como hicimos nuestro virus Dark Kat previamente para variables categóricas. Y voy a usar esa función de nombres de llamada otra vez para obtener nombres de columna. Y voy a extraer la llamada de nombres del maíz de punto de datos de vida. El de la vida lo hizo hace dot com data frame que acabamos de hacer. Entonces voy a conseguir una columna Nombres de ella. En lo que va que sé tener un nuevo objeto aquí valor en mi entorno llamado vars dot cone at como vector de carácter con los cinco nombres de esas variables continuas, igual que previamente hicimos vars perro gato para las variables categóricas, lo siguiente que vamos a hacer es hacer parcelas de dispersión de las cinco de estas variables continuas independientes. Y para hacer eso, vamos a usar una estructura corta y en
bucle una vez más. Por lo que esto te dará la oportunidad de explorar bucles un poco más allá en la práctica, escribiendo esos de nuevo, empezamos con cuatro. Vamos a decir para yo y uno a través de la longitud off life data dot corn taken life data dot corn es el nuevo marco de datos que hemos creado. Si ejecutamos longitud de vida data dot com, nos dirá
que tiene un terreno para cinco porque son cinco variables dentro de ese
marco de datos . Y estaban cantando esto para Luke que voy a ser igual a uno a cinco. Entonces en cada generación, la primera generación igualaré a una la segunda generación de igual a tres y así sucesivamente. Y para iniciar el botín, tenemos que usar un corsé rizado. Voy a crear algo de habitación y volver a citar el bucle donde sangrada se da cuenta de la funcionalidad que va a suceder dentro de este bucle de cuatro. Entonces está sangrada, y vamos a escribir cada uno de nuestros una nueva variable llamada cada uno de nuestros Cuando vamos a decir datos de
vida, Dr. Korn y vamos a subconjunto no usando los corchetes una vez más Di coma, otra vez debilito subestablecer un marco de datos utilizando corchetes. El primer número es el número de regla y luego el número de columna de coma. Entonces si dejo mantas número de carretera va a volver todo rosa y voy a subfijar una columna veces en la primera generación. A través de esta mirada, igualaré a uno. Por lo que voy a extraer sólo la primera columna de datos de vida punto Khan y estoy asignando no a nueva variable llamada cada uno de nuestros voy a entonces escribir nombre creando una nueva variable, nombre
frío encendido. Yo voy a decir que eso es vars punto maíz y voy a subponer eso usando hielo otra vez. Esto es igual a lo que hicimos antes para las variables categóricas para virus dot con. Se trata de un vector de caracteres. Por lo que hay cinco nombres y no vector. Entonces en cada generación por aquí, estaré sacando uno de esos a la vez, dependiendo de lo que sea igual, ya sea 1234 o el quinto elemento en vars Dr Korn. Y luego, en lugar de llamar a una función definida por el usuario como lo hicimos anteriormente aquí, voy a usar la función gráfica incorporada. Y voy a decir cada uno de nuestros datos de vida, Dr Devi, para que como nuestro conjunto de datos anterior que conformamos, eso son sólo las 200 observaciones toda la variable dependiente la medida de diferencia para que como vector numérico aquí en nuestro entorno. Tenemos un juego
numérico, Eric Vector 200 observaciones fuera de esas distintas puntuaciones, Así que le estoy enviando la variable continua. Estoy parado en la medida de diferencia en. Entonces voy a decir que la etiqueta X,
la etiqueta de acceso Y, va a igual nombre, que he definido aquí como el primer nombre de variable y mi cono de punto vars. Y entonces voy a decir la etiqueta Y como igual a medida de diferencia porque la medida de diferencia va a ser constante en el eje Y, no importa qué Variable estuviera enviando para cada variable continua. Siempre estamos evaluando eso contra la medida de diferencia para que pueda etiquetar el porqué de los
ejes de acceso medida de diferencia. Deshazte de este extra aquí tirado y veamos qué hace esto cuando lo ejecutamos. Una vez más, podemos bajar a la consola. Podemos decir que se me va a asignar uno, y volvemos a no ejecutarlo. Y entonces podemos correr sólo las líneas de código que están dentro de esto para Luke. Y ahí vamos. Entonces se está ejecutando sólo la primera variable, que, si miramos las barras dot com, la primera variable es la edad y podemos ver aquí que tenemos un juez. Esto es y meses de nuevo. Podríamos tener príncipes y meses, pero sólo estamos usando el nombre. Entonces solo estamos viendo la edad. Tenemos una gráfica de dispersión con círculos vacíos que indican puntos de datos individuales con la relación entre la edad en la diferencia de grabación. Mide al participante para que podamos seguir adelante corriendo todo este bucle de cuatro y veremos que en realidad se hace todo fuera de las cifras. Por lo que la última variable fue la salud. Howdy. Los participantes calificaron su salud. Podemos usar la Flecha Azul para retroceder por parcelas anteriores que conmigo. Por lo que también podemos ver apoyo aquí cómo se miden las tarifas de los participantes, su red de soporte. Yo lo apoyo. Se sintieron encendidos. También tenemos frecuencia cardíaca que medimos para cada participante. Onda. Contamos con temperatura corporal para cada participante y luego de vuelta al arrancar edad inicial. Entonces esto como una salida rápida, haciendo múltiples parcelas, usando muchas variables diferentes y dejando que nuestro haga el trabajo por ti. Iterando a través de todas esas cinco variables, Andi las comparó con la medida de diferencia. Entonces en lugar de escribir trama cinco veces hemos creado el for loop Onda. Podemos conseguir que nuestro haga esa conspiración y todo ese trabajo por nosotros. Así que quédate con él. En el siguiente video, estaremos creando nuestra segunda función definida por el usuario a una mentira fue hacer análisis y
particularmente análisis de regresión todas estas variables continuas Teoh Responder Mawr
preguntas involucradas sobre ellas, por lo que te atraparé en el próximo.
18. Crear una función personalizada para el análisis de estadísticas (correlación y regresión): hola y bienvenidos de nuevo en este video. Vamos a definir otra función y nuestro código. Y esta función nos va a permitir hacer análisis todas las
variables independientes continuas y buscar relaciones entre esas variables independientes sobre la
variable dependiente o las medidas de diferencia. Entonces como lo hacía antes, ya
he pegado en esta función, y lo vamos a pasar y discutirlo una línea por vez. Pero antes de que hagamos eso, quiero mostrarles a qué vamos, qué va a producir realmente la función. Entonces déjame maximizar la consola en Vamos a verlo en la trama que salimos de esta función. Entonces lo primero que hace esta función es que evalúa esa
correlación de momento de producto de Pearson . Por lo que obtenemos un R Value de Pearson de esta función. Correlación de Pearson o R de Pearson es un valor entre cuello, si uno en uno positivo. Si el valor es positivo, significa que existe una correlación lineal completa entre la variable independiente y la variable
dependiente. Si el R del Pearson valora un cero, significa que no hay correlación alguna. Y si son R de Pearson El valor es uno negativo. Significa que existe una correlación lineal negativa completa entre la variable independiente y dependiente. Entonces cuando ejecutamos la correlación de momento de producto de Pearson, obtenemos ante todo, un valor p. Y esto nos dice si la correlación es estadísticamente diferente de cero o no. Ya sea que exista una correlación positiva o negativa estadísticamente significativa entre las variables en, vemos aquí que el valor P es menor a 2.2 veces 10 a la negativa 16. Ese es un valor P realmente
muy significativo, muy pequeño mucho menor que 160.5 Así que podemos suponer que la correlación aquí es fuertemente diferente de cero. Pero lo que en realidad es donde bajamos aquí más allá del valor de correlación real que se ha telefoneado y es negativo 0.558 Así que eso significa que hay una correlación
negativa bastante fuerte entre nuestra variable independiente y nuestra variable dependiente aquí. ¿ Y qué estamos viendo ahora mismo? Estamos viendo la edad. La función ha puesto aquí este encabezado para personas de edad avanzada. Rodeados de los hashtags se encuentran señales de pino. Por lo que entre la edad sobre la variable dependiente, esperamos una fuerte correlación lineal negativa. Entonces eso es otra cosa que esta función va a hacer por nosotros. Se va a crear una trama de dispersión, como se puede ver aquí en la parte inferior de la ventana de trama. Genial. Y está creando una trama de dispersión con la edad en el eje X. Recuerda, eso es en meses en la diferencia. Medir nuestra variable dependiente en el eje Y y podemos ver aquí. Si nos limitamos a mirar los puntos negros, los puntos de datos aquí, podemos ver que existe esta pendiente descendente que mayor se vuelve la edad, más negativa tiende a volverse la medida de diferencia. Por lo que tiende a ser que el mayor es el más joven que en realidad piensan que es. Supongo que se podría decir que cuanto más cerca de la muerte, alguien como más lejos le gusta pensar que es de ella, lo cual puede tener algún sentido. Otra cosa que hace la función aparte de crear la gráfica de dispersión ya que dibuja una
línea roja a través de los datos que esto como el ajuste de un modelo lineal o una línea de regresión. Se trata de una línea de mejor ajuste a través de todos los puntos de datos, por lo que podemos ver visualmente que esta línea roja está disminuyendo de izquierda a derecha, lo que indica que su edad aumenta hasta el eje X. La medida de diferencia va bajando para volverse más fuertemente negativa. Otra cosa que hace la función es que agrega, la R ajustada al cuadrado del modelo lineal, o regresión por encima de esta trama. Por lo que ahí r regresión cuadrada y lineal explica la cantidad de varianza que el
modelo lineal está cubriendo o está explicando. Por lo que este modelo lineal está explicando un barco 31% de descuento en la varianza dentro de estos datos. Entonces es hacer un trabajo razonable de explicar por qué tenemos esta disminución el valor P aquí como el valor clave en la regresión lineal. Y si el valor P aquí es menor a 0.5 significa que la pendiente de esta regresión lineal es significativamente diferente de cero. Entonces aquí tenemos un valor P que es menor a 0.1 también fueron función interminable fuera, poniendo la salida estadística o análisis de encajar esa regresión lineal y no asegurar aquí. Entonces ahora que hemos visto lo que está haciendo la función, veamos de nuevo los carriles individuales fuera de la función. Te animo a que antes que nada, escuchen mi explicación fuera de lo que esta función está haciendo antes de empezar realmente a copiar por los carriles del cordón. Siempre puedes pausar el video y hacer eso, pero creo que es mejor si no intentas copiar el cable mientras en realidad lo estoy explicando en primera instancia. Por lo que he leído en un comentario yo mismo aquí diciendo esta función. En cuanto al análisis de variables continuas independientes contra variables dependientes continuas, esta vez lo
estamos llamando cono de maíz divertido. Entonces porque estamos analizando variables continuas contra la variable dependiente continua, he dicho que es continua, continua, y lo llamo divertido para la función. Y de nuevo, estamos asignando la función a esa al darle los tres argumentos a cada lejano nombre y respuesta, tal y como lo hicimos antes con el fondo de casquillo de maíz que hicimos en el video anterior. En primer lugar, vamos a crear el encabezado que tipo de ordene nuestra salida estadística, íbamos a decir una nueva variable llamada Encabezado, y vamos a asignarle usando la función pegar, una fila fuera Hashtags coma nombre que estamos obteniendo del segundo argumento de la función coma, una segunda fila de etiquetas hash para hacer un bonito divisor y su cabecera y la estadística a put, y vamos a imprimir ese encabezado que acabamos de hacer usando la función de pegar. Entonces vamos a imprimir los resultados de una correlación de Pearson. Por lo que para ejecutar la prueba de correlación, usamos la prueba de punto core como la función y dentro de los paréntesis, le
vamos a suministrar la variable de respuesta. Por lo que nuestra diferencia mide para cada participante y luego vamos a abastecer en la variable
continua independiente que queremos evaluar la correlación con nuestra
medida de diferencia . Entonces, por ejemplo, en la edad, estoy dando la medida de diferencia aquí. Y luego le estoy dando la edad de los participantes a esta función de prueba de puntos centrales. Y entonces estoy imprimiendo la salida fuera de esa función. Todos los análisis estadísticos dos consola D. Lo siguiente que estamos haciendo es crear la trama. Entonces lo que estamos diciendo función de trama, paréntesis, cada uno de nuestros. Entonces estamos dando, por ejemplo, la variable de edad donde ellos al decir que el por qué variable en esta trama va a ser la respuesta que medida de diferencia estaban entonces etiquetando el eje X con el argumento de nombre que entramos en esta función para que en este caso sea la edad. Y entonces estamos diciendo, ¿por qué el amor? ¿ O por qué etiqueta igual a medida de diferencia? Esa siempre va a ser la medida de diferencia, porque la etiqueta blanca siempre es la variable dependiente o medida de diferencia, no importa qué variable estuviese leyendo en esta función. Y entonces estamos diciendo que tipo es igual a P porque queremos una gráfica de puntos. Queremos puntos o una gráfica de dispersión en, luego usando una función adicional llamada PCH, y estoy diciendo que es igual a 19 que determina qué tipo de puntos obtengo. Por lo que PC H equivale a 19 me da círculos llenos. Por lo que te dejaré leer la ayuda sobre Plaut y buscar qué otros valores PCH puedes usar. Completas correr con eso si quieres. Pero PCH equivale a 19 regalos. ¿ Están estos círculos llenos Y entonces yo digo, Mira, petróleo es igual a negros. Digo que el color es igual al negro. Por eso nos estamos llenando puntos negros en esta trama de dispersión. Lo siguiente que hacemos y esta función es que encajamos un modelo lineal usando la
función L am , y le estamos dando la respuesta, la medida de diferencia y estamos diciendo, Tilda, la variable que lo estamos dando en términos sobre la variable continua independiente. Entonces, por ejemplo, si estamos usando la edad, sería la diferencia. Medir Tilda, la variable de edad que estaría dando a la función del modelo lineal. Y entonces estamos asignando abierto de esa función de modelo lineal al ajuste variable. Podemos entonces agregar la fiesta de ese modelo de Lanier a la trama que hemos hecho usando esa función de
línea de abeja que agrega un carril a cualquier parcela. Onda. Nosotros le damos el ajuste. Entonces esa es la salida del modelo lineal que definimos previamente dos carriles. Y entonces estamos diciendo Coma on estaban diciendo que el color va a igualar rojo y ámbar diciendo calma L W d es igual a dos L W d es el argumento por línea. Espera Así que tú, por defecto aquí, tienes uno. Lo he hecho un poco más pesado, un poco más grueso Línea roja al decir L W D igual a dos estaban creando entonces un resumen fuera del modelo lineal o grasa de regresión suministrando a la función de resumen el ajuste que salida fuera de la función una vez más y vamos a un letrero abierto de ese resumen a una nueva variable llamada Fit Some. Y entonces podemos imprimir, no encajar algunos a la consola para que podamos ver un resumen estadístico fuera de nuestro modelo lineal Ahora, igual que lo hicimos anteriormente. Estoy usando una declaración de ramificación aquí para ordenar nuestros valores P. Entonces de nuevo, si el valor clave tanto menor a 0.1 queremos simplemente reportar que como menos de 0.1
No queremos tener montones de dígitos lejos mucho más allá del punto decimal. Andi, si no es menor a 0.0.1 estoy redondeando a cuatro dígitos significativos. Yo estoy haciendo esto usando el ajuste algunos. Por lo que el resumen del ajuste estadístico no es variable que creamos un par de líneas arriba sobre y luego usando el dicho dólar para acceder a sus atributos. Y entonces estoy accediendo al mar o año por coeficiente. Atributo Andi. Dentro de eso, estoy accediendo a la segunda regla de la cuarta columna, entretenidos corchetes para subestablecer ese atributo coeficiente y encajar algunos. Ahí es donde encontraré el valor P dentro del O Poot off esa función de ajuste de modelo lineal . Entonces, en esta sentencia f, puedo evaluar si ese valor p estoy sacando ese coeficiente es menor a cero puntos usuario uno. En cuyo caso, si lo es, si eso es cierto, estoy creando una variable llamada valor P que va a ser menor a 0.1 como cadena de texto y comillas allí. Y si no es cierto, estoy diciendo de lo contrario se va a asignar el valor P de cuatro dígitos significativos redondeando ese valor p que estoy sacando de ese resumen estadístico de ese modelo lineal encajan con el ajuste algunos que creamos. Lo siguiente que quiero hacer es agregar esto es una etiqueta a la parcela con el fin de conseguir la R cuadrado en el valor P aquí arriba en esta parcela para que la gente pueda verlo fácilmente. Voy a crear una variable llamada lab Tech star label text on. Voy a Igual que usando la función de pegar voy a pegar juntos la cadena de texto AJ se ajustan un punto d j e imputando nuestro capital son zanahorias diciendo a para ajustada R colon
cuadrado. Entonces esa es una bebida de texto. Voy a ritmo junto con eso. El fila de hecho encajar algunos puntos ajustados r al cuadrado. Por lo que no hay efectos en ese resumen del ajuste estadístico. Estoy usando el signo del dólar para enfriar y atribuir. Ese es el r ajustado al cuadrado. Y en realidad se llama un punto deejay r punto cuadrado dentro de esa salida estadística. Entonces así es como accedo al valor R cuadrado. Y estoy redondeando eso a cuatro dígitos significativos solo para ordenarlo un poco. Y luego estoy usando otro coma en pegar el valor P cool on y luego otro coma para pegar eso junto con el valor P que se ha determinado aquí arriba en esta anterior declaración de
ramificación F y luego voy a agregar eso a la trama. Por lo que estoy usando la función de texto M. Yo le estoy suministrando el texto de laboratorio que definí previamente, y estoy diciendo coma y dándole el argumento Side es igual a tres que nos dice que
quería estar en la parte superior fuera de la trama en contraposición a debajo, o bien bien sitios o dejar buscas la ayuda en eso. Entonces quiero configurar el dispositivo gráfico usando el Comando Leo una cuadrícula de dos por dos que será poblada por cuatro figuras. ¿ Por qué estoy haciendo eso? Porque esta función que estamos definiendo aquí en realidad también va a hacer diagnósticos sobre la trama de regresión. Entonces si voy hacia adelante, una trama aquí te va a mostrar cómo se ve. Obtenemos nuestro diagnóstico de trama diagnóstica estándar para nuestra regresión. Por lo que obtenemos una parcela de residuos residuos están ahí, entra en la regresión obtenemos una gráfica Q Q. ¿ Qué muestra si los residuos de regresión se distribuyen normalmente. Ese es uno de los supuestos de regresión de que tienen que ser distribuidos normalmente. Así que debilita la prueba aquí en botín visualmente para ver si nuestra regresión es en realidad 50 dokey si está violando alguna de las suposiciones fuera de regresión o no. Pero para juntar todas estas parcelas en una sola ventana de trazado, tenemos que cambiar el dispositivo gráfico. Y lo que estoy haciendo aquí es decir en la función de diseño, estoy suministrando una matriz donde
especifico, voy a tener cuatro parcelas. 1234 en. estoy poniendo en una matriz de dos por dos para reglar matriz de dos columnas a Con el fin de obtener necesidades , cuatro para mostrarse uno al lado del otro, a diferencia de ir en páginas individuales. Estoy usando este comando matricial con las funciones de diseño. Te dejaré buscar la ayuda en eso. Pero Leo es una forma muy útil de dividir parcelas en una sola página. Donde entonces, diciendo defectos de trama o trazar la fiesta fuera. Estos modelo estadístico sobre no trazarán por defecto estas parcelas diagnósticas. Y como ya hemos establecido que Leo sea una matriz de dos por dos
, los pondrá para a una página. Y entonces lo último que estamos haciendo en esta función es volver a ajustar el dispositivo gráfico a su valor predeterminado. Una parcela, una columna, una regla, una parcela por página. Entonces esa es la función ahí. Por lo que te animo a que vuelvas a escuchar la explicación en Busca la ayuda en cada una de estas nuevas funciones que estamos usando y lee estos comentarios que he dejado a lo largo de esta función otra vez, esto es muy similar al anterior función que definimos para variables categóricas excepto no, estamos haciendo parcelas de dispersión, una supuesta a box plot, y estamos ajustando un modelo lineal al mirar sus diagnósticos. Entonces, por favor únete a mí en el siguiente video donde realmente vamos a ejecutar esta función, vamos a colocar que incite un bucle de cuatro. Vamos a ver gráficos fuera de nuestras variables continuas independientes y ver si
tienen alguna relación estadística con la variable dependiente. Entonces te veré en el próximo.
19. Desafío n° 2 de 2 2: escribe un de bucle para ejecutar la función de análisis personalizado: Hola. Y bienvenido de nuevo en este video, me gustaría ponerles su segundo reto. Me gustaría poner a prueba tus habilidades de bucles un poco más. Y lo que les voy a pedir que hagan es crear un bucle for que genere a través de
las variables continuas en el marco de datos que creamos, quiero que digan, y una variable a la vez al nuevo fondo de maíz que acabamos de definir en el video anterior. Y para darte una pista en esta tarea, lo
hicimos previamente para variables categóricas. Entonces eso está lejos. Luke se verá muy similar para seguir adelante en pausa tu video. Ahora, antes de empezar a explicar cómo hacer esto. Así que bienvenidos de nuevo, todos. Espero que hayas logrado crear un bucle de cuatro, y te esté funcionando bien si no te preocupas por ello,
pues bucles son muy complicados. Entonces voy a seguir adelante a la derecha el bucle cuatro con, ya
sabes, Así que lo primero que voy a hacer es crear un comentario para mí mismo. Aquí estoy diciendo que este es un bucle para enviar variables continuas a
función de análisis continuo que definimos en el video anterior. Lo primero que queremos decir como cuatro. Este es un bucle de cuatro, y vamos a decir yo y uno a través de tierra fuera de los datos de vida punto maíz. Por lo que este es el marco de datos variable continua que creamos previamente. Datos de vida dot com Puedes ver que está aquí arriba. En nuestro entorno se encuentra 200 observaciones fuera de las cinco variables continuas edad, cuerpo, tamp, soporte de frecuencia
cardíaca y salud todas esas variables numéricas continuas. Lo siguiente que necesito, por
supuesto, como corsé rizado, empiezo el bucle for con el corsé rizado. Recuerda que en la primera parte de esto estábamos diciendo yo y 13 longitud vida data dot cone recordar con relleno sanitario de datos de vida punto Conus ¿Cuántas variables aire hay? Van a ser cinco, y estamos diciendo de uno a cinco y luego voy a igualar de uno a cinco. Entonces en la primera iteración de este bucle, la primera vez que se ejecute, igualaré una segunda vez de legal 234 y luego cinco. ANANAND. Se dará por terminada. Entonces la primera línea de este Luton en denso es por supuesto, porque eso muestra visualmente que estaban con final Ah, estructura de
bucle Vamos a definir disponible, llamado cada barra. Puedes llamar a esto como quieras. Yo sólo voy a ser consistente aquí y llamarlo más a cada uno. Y estoy diciendo que eso va a igualar los datos de vida punto con para que el marco de
datos variable continua . Y estoy sub configurando eso usando los corchetes. Andi I nuevamente corchetes un loto para subestablecer un marco de datos. El primer valor entre los corchetes dice es el camino en coma separa la columna. El número es el segundo número. Entonces aquí, cuando digo life data dot colon corchete cuadrado, estoy poniendo nada para la Rosa. Entonces somos un giro todos los caminos. Y luego después del coma compitiendo yo para que extraiga lo que lo llame fuera La iteración del bucle estaban encendidas. Por lo que la primera vez por el bucle voy a igualar a uno. Se extraerá la primera columna, que en datos de vida puntan maíz como edad segunda vez a través de la temp corporal y la frecuencia cardíaca eso en donde voy a definir una variable llamada nombre. Vamos a decir que eso es igual a vars dot corn y vamos a poder I Entre corchetes vars dot corn creamos previamente podemos buscar un ambiente de hora aquí como bares dot con. Se trata de un vector de personajes con cinco cadenas de caracteres y temp corporal de edad, apoyo de frecuencia
cardíaca en la salud. Entonces como iteramos a través del saludo, igualaré a uno primero por lo que recogerá el nombre edad que igualará a temp corporal tan educado. Y así entonces vamos a mandar estas nuevas variables que creamos a nuestro fondo de maíz el 1 es cada una de nuestras que estamos enviando. Ese es el primer argumento para Cono cono diversión o después va a decir nombre. Y vamos a decir una vida,
un dato Dr Devi, esa es la variable dependiente o la medida de diferencia otra vez aquí como un entorno life data dot devi como los 200 participantes diferentes puntuaciones? No, esto llamará a la función y le enviará estas variables. Pero recuerda, antes de ejecutar esto por un bucle, tenemos que haber corrido ya la función una vez y ya he hecho no aquí, pero tendrás que haber escrito todas esas líneas de esa función que discutimos en el video anterior. Tendrás que ejecutar eso en realidad. Entonces adelante y corre eso para que sea en nuestro entorno, ya
sabes, Ver, en el entorno tenemos subpartida de funciones. Tenemos con fondo conoce tan bien como el fondo de gato de maíz que definimos previamente. Entonces no, podemos seguir adelante y ejecutar este bucle de cuatro en Ha pasado por la salida los
resúmenes estadísticos a la consola. Por lo tanto debilitar desplazamiento hacia arriba un poco sobre vemos tenemos estadística Kupfer edad un valor p un valor correlación. Tenemos salida de error del modelo lineal. Entonces tenemos rumbo a la temperatura corporal. Tenemos análisis de correlación de valor P aquí en DSO on. También tenemos las parcelas. Entonces retrocedemos uno aquí y vemos que esta es la trama de salud, no valor p significativo que carril de regresión lineal no es diferente de cero. Es plano. Por lo que no podemos decir que la salud está teniendo alguna relación para volver a través de más diagnósticos al valor clave variable de soporte no menor a 0.5 Así que no podemos decir que no
línea de regresión sea significativamente diferente de cero. Por lo que no hay relación entre el apoyo y la medida de diferencia. En el conjunto de datos, podemos volver a través de más diagnósticos a la frecuencia cardíaca y al valor P, no menos que apuntar a sus cinco. Por lo que ninguna relación estadística entre la frecuencia cardíaca y la medida de diferencia retrocede a través de más parcelas diagnósticas a la temperatura corporal de nuevo. P valor no significativo, no menos que apunte a tus cinco. Por lo que ninguna relación entre la temperatura corporal en la diferencia mide de nuevo a través de mawr. Y esto es lo que ya vimos. El variable edad allí como una relación estadística entre la edad onda medida de diferencia medida. Entonces podemos decir que las personas mayores, tiendo a pensar que son más jóvenes de lo que realmente están encendidos. Las personas más jóvenes tienden a pensar que son mayores de lo que realmente son. Entonces en esa nota que concluye la primera sección de análisis y calificación de código. Pensé que te resultaba útil, y espero que llamaras por teléfono el análisis que hemos estado haciendo algo interesante. El siguiente video concluirá esta sección con un resumen apagado. Lo que hemos aprendido tanto en términos de calificación son podría así como lo que hemos aprendido en términos de análisis estadísticos. Y luego pasaremos a la segunda sección de la clase, que se centrará en el análisis de series temporales. Te veré entonces.
20. Revisión de cursos: Hola. Enhorabuena a ustedes por lograrlo a través del curso. Espero que hayas aprendido muchas, muchas cosas nuevas y que te parezca interesante en el camino. Espero que estén aplicando todas estas cosas nuevas a un conjunto de datos de Riel life realmente haya ayudado con tu comprensión de cómo usar nuestra falta de importancia fuera de lo que estamos haciendo para completar tareas
realmente de análisis. Dicho eso, repasemos un poco sobre hablar de todas las cosas que hemos aprendido en nuestro Así esto es lo que hicimos en la primera sección de la clase en la que cargamos datos. Cambiamos los nombres de las columnas. Por lo que vamos en un conjunto de datos desde un archivo en su computadora en DWI. Cambia las columnas. Limpiamos esos datos, así que comprobamos si hay errores, y también solucionamos esos errores. Muchos de los otros se asociaban con valores faltantes, pero también teníamos valores poco realistas para cosas como la temperatura corporal encendida para meses de envejecimiento. Por lo que aprendimos a dar cuenta de esos findem Andi, arreglarlos. También aprendimos a crear muchas parcelas básicas diferentes. En esta primera sección de la clase, creamos flotadores de barras para la proporción fuera de un factor muy ve otro factor en nuestro conjunto de
datos. Creamos parcelas de caja para mostrar las diferencias entre las diferentes variables y nuestro conjunto de datos. También nos encontramos con silbidos A gramos, y también hicimos parcelas de dispersión tantas parcelas básicas diferentes que te llevarán a través de
muchos análisis descriptivos diferentes. También creamos parcelas múltiples o parcelas multiparte, donde injerto numerosas parcelas en la misma página. Esto podría ser realmente útil si estás enviando algo para una presentación o el informe o una publicación. También nos fijamos en poner cifras sobre análisis estadísticos a archivos pdf y a archivos de texto. Entonces a medida que pasamos, en particular, esas funciones y esas estructuras de looping dedo del pie del otoño un registro, fue muy útil tener parcelas y estadística ocho puestos que estamos produciendo van directamente a documentos pdf on to archivos de texto. Trabajamos con muchos tipos diferentes de variables de datos y están incluyendo vectores, que son grupos fuera de un solo elemento. También se trabajó con factores que son para variables categóricas que tienen valores diferentes con fend ellos. Entonces, por ejemplo, la variable de sexo teníamos machos y hembras, así que trabajamos con esos datos francos y también creamos marcos de datos y trabajamos con esos. Aprendimos a crear nombres de columnas. Aprendimos marcos de datos de subconjunto de totus, así que eso fue muy útil. Donde la celeridad para crear sobre la función así a través de ella están utilizando funciones todo el tiempo . Y la mayoría de esas funciones provienen del propio programa o de paquetes que
instalaremos a lo largo de esta clase. Pero también estamos aprendiendo aquí la percepción errónea de cómo escribir nuestras propias funciones para realizar tareas de análisis muy específicas en nuestro conjunto de datos. También aprendimos a usar estructuras de looping para automatizar nuestro código para crear múltiples análisis y gráficas múltiples para diferentes variables a la vez, sin tener que escribir muchas, muchas más líneas de cordón repetitivo. Y también aprendimos a usar las declaraciones if toe over cord para ramificarse en flujos diferentes para
dar cuenta de diferencias y tipos de análisis que tenemos que realizar. También realizamos muchas pruebas estadísticas. Creamos estadísticas descriptivas. Aprendimos a resumir nuestros datos usando medias medias en otras medidas de generales, estadísticas
descriptivas, y también aprendimos hoy a realizar pruebas estadísticas inferenciales que nos dicen algo un poco más en deuda para mejores datos. Por lo que usamos las pruebas T en las de Nova. Utilizamos el análisis de correlación, y también realizamos regresiones y miramos brevemente las parcelas diagnósticas para esas regresiones. Y por último, quizás lo más importante, aquí analizamos un conjunto de datos de riel life. Entonces tomamos datos reales de un estudio que realicé hace años y en realidad realizamos análisis estadístico
básico al respecto. Creamos parcelas de los datos, visualizamos los datos y también respondimos preguntas sobre estos datos. Entonces veamos brevemente algunas de las cosas que descubrimos. Esta fue una de las parcelas de caja que creamos. Esto está mostrando la variable independiente del matrimonio en el eje X en. Estamos mostrando la medida de diferencia en el camino de acceso. Entonces otra vez, no
nos hemos casado y nos hemos casado. Entonces los individuos que no estaban casados por la izquierda y los que estaban casados por la derecha y entonces tenemos la medida de diferencia. Y recuerda, si la medida de diferencia es negativa, significa que el individuo piensa que son más jóvenes de lo que realmente son. Se perciben a sí mismos es más joven, y si la medida de diferencia es positiva, se
perciben a sí mismos como mayores o más a lo largo de su vida de lo que
realmente son . Y lo que encontramos fue que hay una diferencia estadísticamente significativa entre casados y no casados, y encontramos que quienes están casados en realidad son más propensos a percibirse como más jóvenes o no tan lejos en su vida . Realizamos una prueba T para ver si había una diferencia real, estadísticamente significativa entre estos dos grupos, y encontramos que fue significativa. Entonces podemos decir estadísticamente que los que estuvieron casados ¿realmente se perciben
a sí mismos como más jóvenes? También encontramos algo similar con estatus laboral. Tenemos desempleados a la izquierda y empleados a la derecha, y encontramos que los que están empleados están trabajando 10 para encontrar que son más jóvenes o sienten que son más jóvenes de lo que realmente son. Y nuevamente, realizamos una prueba T a menos que y encontramos que fue estadísticamente significativo con un valor P menor a 0.5 Luego llegamos al nivel educativo donde tenemos educación preparatoria, educación licenciatura en nivel posgrado educación, y aquí encontramos que cuanto más educado eres, más avanzado estás en tu escolaridad. Cuanto más percibes que eres más joven de lo que realmente eres. Entonces lo hicimos en una prueba de nova de esto porque aquí tenemos más de dos grupos. Realizamos un análisis de varianza entre estos grupos y encontramos que fue estadísticamente significativo que haya de hecho una diferencia entre estos grupos y que entre más educación tengas, más joven crees que eres. Y luego finalmente miramos algunas de las variables continuas que miramos a la edad de participante. En meses después, nos encontramos con que cuanto mayor es el participante, generalmente
es más joven que sienten que son. Y nuevamente, realizamos un análisis de regresión al respecto y encontramos que esto es estadísticamente significativo . Esta correlación negativa aquí es estadísticamente diferente de ninguna correlación . Entonces estamos encontrando aquí que las personas más jóvenes tienden a pensar que son mayores de lo que realmente son. A las personas mayores tienden a pensar que son más jóvenes de lo que realmente son. Por lo que hemos realizado ah, mucho análisis bastante básico pero muy informativo aquí, y espero que hayas encontrado esto interesante y espero que hayas disfrutado aprendiendo a hacer todas estas cosas y son