Transcripciones
1. Introducción a el curso: Hola a todos y bienvenidos a este curso. Ahora en este curso, te enseñaré el lenguaje de programación R desde el principio hasta un lugar donde podamos convertirnos en expertos y resolver constantemente nuestros problemas de datos. Ahora, R es el lenguaje de los datos, por lo que es vital para la ciencia y el análisis de datos. No obstante, sin embargo, para este curso, no es necesario ser un experto. Puedes ser un principiante completo, solo interesado en aprender sobre la ciencia de datos. O un x-bar, buscando que tu análisis diario sea más fácil aprendiendo son. Ahora r se está volviendo realmente popular en estos días por multitud de razones. Principalmente porque la gente se ha interesado más en perseguir la ciencia de datos. Con el crecimiento actual de big data y machine learning en casi todas las industrias, la demanda de datos sigue funcionando y por lo tanto la demanda de analista sigue aumentando. Y esto abre muchas oportunidades para poder
trabajar en diferentes sectores y diferentes áreas. Y con el clima actual, gente tiene el deseo de poder trabajar a distancia y trabajar freelance para tener un poco más de flexibilidad en cómo se volvieron a convertir. Entonces con la ciencia y el análisis de datos, esto definitivamente es algo que puedes perseguir. Ahora, por qué es importante son, es uno de los principales lenguajes de la ciencia de datos. Otro lenguaje principal es Python. Pero Python es un lenguaje muy genérico que se puede utilizar para muchas cosas diferentes. Y realmente es el lenguaje de los programadores. Tomado prestado. R es el lenguaje de los científicos de datos y estadísticos. Entonces una de las principales razones por las que R es genial es porque es libre y de código abierto. Y esto significa que nuestras grandes comunidades trabajando y eso son comunidades muy solidarias que pueden ayudarte si tienes alguna pregunta o algún problema con algún análisis. Y también trabajan continuamente en la elaboración de paquetes. Los paquetes son algo que puedes instalar y son para problemas de datos muy específicos. Hace que resolverlos sea mucho más fácil. Voy a ir tres paquetes y futuros videos tienen que instalar estos y cómo usarlos. Ahora algo que el ADH hace realmente bien es la visualización de datos. Y eso es algo que ningún otro lenguaje de programación se acerca ni siquiera. Y la visualización de datos es realmente importante para la ciencia de datos, sobre todo porque nos ocupamos de gráficos y gráficos y datos. Entonces esto es algo que es realmente bueno y ahora
son si te interesa la ciencia de datos o R, y piensas que esto podría ser útil para ti entonces definitivamente echa un vistazo a este curso y espero que lo disfrutes. Gracias.
2. Lección 1: instalación de R y Rstudio: Hola a todos y bienvenidos a este video. Esta será una breve introducción a nuestra descarga R y RStudio y ligada a los conceptos básicos de cómo se ve nuestras funciones. De acuerdo, así que para descargar nuestro, sólo
vamos al r-proyecto dot org. Venimos aquí para descargar R y el Pentágono, nuestro país en el que estamos, damos click en el enlace correspondiente y nos llevará a tener un E2. O podríamos simplemente ir a Cloud, que nos redirigirá automáticamente al servidor dependiendo de nuestro país. Entonces haces clic aquí y luego cobramos al descargar son el que es para nuestros ordenadores o si estamos usando un Windows
o un Mac y volver a descargar la descarga de LaCo, ¿algo más? De acuerdo, entonces una vez que hayamos descargado R, es importante tener un buen IDE o plataforma para quedarse sin él. Y en mi opinión, RStudio es realmente bueno. Por lo que solo venimos aquí a preguntarte productos do.com, RStudio. Y hay dos versiones de RStudio. Ahí está la versión de código abierto o gratuita, y hace la versión anterior la cual viene con un precio. Y para ser honesto, realmente no
hay necesidad de la versión anterior a menos que sea una gran institución o empresa ese juego de temporada. Para los individuos independientemente de lo que lo estén usando para el libre debe ser más que suficiente para sus necesidades. Por lo que solo tienes que hacer clic aquí. Y una vez más, hacemos click en la versión gratuita. Y descargamos dependiendo de nuestro equipo, ya sea que estemos usando un Windows o Mac o cualquiera de los relevantes. Y nos conectamos. De acuerdo, Una vez que tengamos F industria aún, así es como se ve. Podría parecer un poco complicado y complicado, pero es muy fácil y sencillo de usar. Cuenta con cuatro cuadrantes. Y el primero, aquí es donde entraríamos nuestro código, tu derecho, lo que queremos. Y el código, se saldría aquí. Entonces dependiendo de lo que llamemos entonces veremos por aquí al fondo. Ahora, este tercer cuadrante, que entorno está vacío, muestra aquí es donde enumerará cualquier función u objeto que hayamos creado. Ahora esto era puede parecer un poco extraño ahora funciones y objetos. Pero una vez que empecemos a usar Got, se convertirá en segunda naturaleza. Empieza a usar estas palabras. Es muy fácil. Y dos años bajo montaña 10 stand. De acuerdo, Entonces el cuarto cuadrante parece probablemente muy familiarizado con los títulos de archivo y esta diferentes carpetas que tenemos. Entonces eso es básicamente lo que es. Esta primera pestaña, tenemos nuestros archivos que parcelas. Entonces cualquier trama que creemos aquí en el primer cuadrante, lo
podemos ver aquí. Ahora paquetes. El cabello, he hablado brevemente de ello. Es por eso que instalamos paquetes para ayudarnos con nuestro coach y manager más fácil. Y por supuesto entonces puedes usar la ayuda y el espectador. Ahora, vamos a entrar en todo esto con mucho detalle, pero esto es solo un resumen básico de cómo se ve RStudio. Por lo que no da tanto miedo cuando lo abres por primera vez. Y por supuesto, estos cuadrantes, podemos moverlos dependiendo de cómo te guste, qué usamos más, qué buscamos más. Y es realmente muy fácil de usar y la densidad es como lo sabremos en futuros videos. De acuerdo, así que gracias por ver este video. Espero que eso haya sido útil y te veo en el próximo.
3. Lección 2: datos y proyectos: Hola a todos y bienvenidos de nuevo a este curso. Entonces si hubiéramos tenido una breve introducción sobre cómo instalar R y RStudio y una breve mirada a los diferentes cuadrantes y sobre lo que hacen. Por lo que para esta lección, nos centraremos en cómo importar datos creando proyectos y alguna pequeña manipulación de datos. ¿ De acuerdo? Por lo que para importar datos y utilizarlos, lo mejor sería crear un proyecto. Ahora, con crear un proyecto en espectáculos demasiado pesado, enseñar el día a añadir una nueva película, todo se queda en un solo lugar. Entonces para iniciar un proyecto, vamos por aquí, creamos un proyecto. Nosotros le damos un nombre. Proyecto 1. No muy imaginativo, pero hace el trabajo. Crea Project ahora, vale, esperemos a que se cargue esto. ¿ De acuerdo? Entonces déjame arreglarlo otra vez. ¿De acuerdo? Por lo que ha creado este proyecto uno aquí en nuestra carpeta. Ahora no acaba de crear esto en RStudio también ha creado esto en nuestro equipo. Entonces si voy a mis archivos, verás ahí este proyecto. De acuerdo, Así que esta es mi foto de laptop, y ya ha creado esto automáticamente para mí en mi disco duro. No tuve que venir aquí y creadores. Entonces si hago un proyecto en Ostia, automáticamente crea dos on para mí en mis propias carpetas. Entonces si vengo aquí a proyectar uno, entra aquí, y esta es la carpeta superior para el proyecto. Ahora puedo pegar lo que quiera y ahora ya he copiado datos que sí quiero. Y he pegado el pelo es Hey, me gustaría renombrar esto para que sea más fácil de tratar. Sólo Theta uno. Hagámoslo más sencillo de tratar. ¿ De acuerdo? Entonces los datos uno o este es el archivo que he creado. Ahora elijo hacer CSV porque es mucho más fácil de tratar. Es muy eficiente. Ahora, también puedes hacer esto con hojas de Excel o cualquier otra cosa. Y te voy a mostrar eso en futuros videos. Pero por ahora, sólo voy a hacer el CSV. Y solo para aclarar, puedes descargar o cambiar tu hoja de cálculo de Excel en un archivo CSV. Eso también se puede hacer. De acuerdo, entonces ahora que estamos de vuelta, ahora podemos ver que los datos que habíamos pegado en nuestra carpeta ya aparecieron aquí. No obstante, esto no se importa exactamente a RStudio, solo
está apareciendo porque está en esa carpeta. Ahora podemos importarlo ya sea haciendo clic en él desde aquí o viniendo a importarlo desde, Hey, creo que la mejor manera de hacerlo es comenzar a escribir código e importarlo vía código. Por lo que una forma de hacerlo sería leer CSV. Por lo que se muestra automáticamente. Ve ahí, escribes el título de lo que quieres importar. En este caso es data one, theta one dot CSV. Y sí Control Entrar y patrimonio. Este es mi dato que tenía y ahora lo está leyendo para mí. Entonces estos son todos los nombres. El edad en años, género, estatura en metros. Entonces como puedes ver, todo se ha presentado. No obstante, esto no es muy útil porque acabamos de leer los datos. La mejor manera de utilizar estos datos es convertirse en un objeto. Para que pueda dar el, algún otro título. Puedo llamarlo de cualquier manera, pero volveré a ir con los datos uno para que sea fácil sentirse con este signo de flecha. Y déjame simplemente leer esto. Está bien. Entonces como puedes ver, se muestra aquí arriba. Ahora, como dije, cada vez que creemos un objeto, oh, o, ya sabes ,
cualquier función, se mostrará en nuestro entorno. Entonces ahí está nuestro entorno y lo que hicimos ahora es recrear un objeto. Este es el título del objeto data uno, y le hemos asignado algo, y este algo es este archivo. Hemos asignado este archivo a los datos uno. Ahora para ver los datos, puedes fácilmente simplemente dar
click aquí abajo y podrás verlo todo. Nueve observaciones para variables. Entonces son cuatro columnas y nueve filas, como podemos decir aquí. De acuerdo, así que esto se ha creado fácilmente. Es así como importas datos. Es muy fácil y muy sencillo. Y así hicimos un objeto. Por lo que es muy fácil de usar y simple. Ahora, vamos a seguir adelante y hacer alguna manipulación más de estos datos. Entonces las manipulaciones o cuanto más rápido
vamos a usar si van a ser bastante simples. Apenas los fundamentos de la misma. Entonces, por ejemplo,
podemos hacer eso. ¿ De acuerdo? Tan nuevo derecho, tenía datos de una manera que lo hace. Nos da las primeras seis observaciones que tenemos y todos los datos de ahí. Ahora como puedas para encabezar, claro que tenemos cola y luego hacemos datos. Uno. Sí, y por supuesto Control Enter. Ahora bien, es muy importante que tengamos realmente claro nuestro titulado, porque en este momento no están identificando datos uno con la t minúscula, minúscula d porque tenemos originalmente con un caso más grande, entonces esta es la única forma en que lo reconocería. Entonces si cambio toda la T mayúscula y trato de lista de ejecución. Entonces como recuerdas, correr está controlado. Placenta nos dará el timbre seis. De acuerdo, así que eso fue muy simple mirar las cabezas y colas de nuestros datos. Bueno, también podemos hacer es buscar los datos en sí mismos. Entonces si VJ, VJ Día 21, y hacemos clic en Control Enter, automáticamente
conseguimos esto aquí. Estos datos para nosotros, nuestros datos se presentan en una mesa muy bonita aquí y podemos fácilmente visibles. Ahora, vamos a volver a esto. Y puedes volver a cambiar cuando queramos. Es mucho más ordenado que decir esto,
porque esto realmente es sólo tratar de almacenar de la
manera más eficiente posible nueve observaciones y cuatro variables. ¿ De acuerdo? Para que podamos volver aquí. De acuerdo, entonces ahora que hemos hecho esto, intentemos extraer datos de aquí. Entonces, por ejemplo, queremos escribir primero el objeto que queremos abordar. Entonces eso sería el dato uno y lo que queremos sacar de ellos. Entonces por ejemplo, quiero ver. Por lo que el primer número que siempre ingresarás sería el RI. Entonces, ¿qué papel quiero abordar? Yo quiero la tercera fila y quiero ver qué columna, Digamos la primera columna. Y sí Control Enter. Ahora, Zach, Eso me dará la información. Zach, sin embargo, el resto es Charlie query,
David, Emily, Molly, ¿y qué tipo de libro? Realmente lo que hicimos es sólo la tercera fila, si volvemos aquí, que somos rápidos. Zach. Entonces eso es correcto. Ahora bien, si queremos una específica en lugar de albergar una fecha específica y podemos tener toda una fila. Entonces podemos hacer eso tirando hacia abajo, por ejemplo, queremos la segunda fila, pero queremos, podemos dejar esto en blanco. Por lo que puedes dejar la columna en blanco. Y entonces nos dará toda la fila. Como lo hace aquí. Empezó ser Emily 26 femenil 175, Emily 26, femenil 175. Y de la misma manera que podemos hacer eso para theta one. Podemos hacer, dejar esto en blanco. la cuarta columna D, tenemos una cuarta columna sola. Basta con revisar. Sí. Por lo que puedes hacer Control Shift Entrar y nos dará todos los datos de la cuarta columna. Entonces si solo para comparar, aquí está. Y lo tienes, y esas son solo simples manipulaciones de cómo extraer datos
específicos de nuestro lo que sea. De acuerdo, Entonces hay un dato musulmán en lugar de simplemente escribirlo como este nivel de demanda de línea específica y estás hablando con alguien que puede hacer es hacer datos uno. Entonces ese es nuestro objeto que estamos tratando de abordar, el signo del dólar. Y luego inhalar, podemos escoger la variable específica de la que queremos la información. Por ejemplo, quiero el orden del día. Y si hago clic en Control Enter, me dará todo lo diferente me dará esa variable en particular. Ah, sí, esa columna en particular. Entonces femenino-femenina, si solo puedo dar clic aquí y compararlo con el ADN, y sólo vamos al género. Hembras, tres machos a hembras, tres machos y hembra, varón, hembra. Le da toda una columna. Ahora podemos hacer eso para todas las demás variables también. Entonces dólar firma y luego elige cualquiera y te debería dar esa información ese respecto. Entonces esta fue una forma muy sencilla de extraer datos. Espero que este video haya sido útil. Entonces solo para recapitular, hemos tenido un AKA datos importantes creando un proyecto, creando un objeto. Entonces cómo llegamos hasta aquí, y luego extraer datos usando diferentes métodos, no es la cola de cabeza luego extraer datos específicos y luego una variable específica. Entonces espero que esto haya sido útil y espero verlos en mi próximo video. Gracias.
4. Lección 3: paquetes: Hola a todos y bienvenidos a este curso. Entonces hoy seguiremos aprendiendo sobre son, y ya hemos tenido una breve introducción a lo que es R, cómo instalar R y RStudio, y cómo importar datos, crear un proyecto, y algunas pequeñas manipulaciones de datos. hoy estaremos centrándonos en los paquetes. Ya lo he mencionado brevemente. Esta vez entraremos un poco más de profundidad. Por lo que los paquetes son pequeños paquetes de código o funciones preprogramadas. Podemos, podemos instalarlos y usarlos para problemas tan específicos, problemas estadísticos
muy específicos, y para manipular los datos de una manera que queramos. Tan fácil una vez que pasamos por ellos y los entendemos más claramente. De acuerdo, tan rápido queremos instalar un paquete, almacenar paquetes, código muy sencillo que escribimos. Instalemos paquetes. Y hacemos corchetes abiertos, marcas de
voz, y luego escribes el nombre del paquete que queremos instalar. Ahora, quiero tidyverse. Y debido a las verticales, instalar instalado, no necesito instalarlo. Por lo que una vez que no has almacenado en RStudio, no
necesitas volver a instalarlo. Pero cada vez que queremos usarlo, necesitamos escribir
el cambio de control tidyverse de la biblioteca o requerir tidyverse. Y por supuesto que me perdí las marcas del discurso. Está bien. Por lo que aparecerá aquí. Quiere ser desafortunado que no tengamos que
usar ambos solo una vez y quiera reventar pagos. Ya es un efecto. ¿ De acuerdo? Entonces la razón por la que quiero instalar tidyverse es porque no es solo un paquete. Tidyverse es una colección de paquetes muy poderosa. Utiliza muchos paquetes diferentes, como de playa, GG plot dos, muy bueno para la visualización de datos, pero lo lograrás a través de esto a medida que vayamos más allá de nuestro curso. Por lo que una vez que haya instalado marea de nosotros, tenemos acceso a una serie de paquetes. Por lo que hoy nos centraremos principalmente en paquetes que se relacionen con la manipulación de datos. Por lo que las funciones específicas en las que nos vamos a centrar es, por ejemplo, seleccionar variables específicas de todo el conjunto de datos. Filtrando datos específicos que queremos fuera de un gran conjunto de datos. Organizar los datos, por ejemplo, en un orden específico, mutándolos y resumiendo. Entonces para hacer esta manipulación, necesitamos tener acceso a los datos. Y si has visto mi lección anterior, ya
hemos hecho un objeto. Hemos convertido nuestros datos en un objeto que podemos ver por aquí. Entonces estos son nuestros datos los cuales estaremos utilizando hoy y vamos a manipular estos datos. De acuerdo, entonces ahora que hemos tenido una breve introducción, vamos a empezar por usar nuestros datos y seleccionar muy, seleccionar una variables muy específicas fuera de ella. Entonces para empezar, escribimos datos uno que es nuestro objeto, y son estos datos los que estamos tratando. Y a lo que utilizamos se le llama operador de tuberías. Por lo que Control Shift más M y relaciona estos tres signos juntos. Y lo que es este punto saca datos a un camino y lo hace pasar por una
especie de sistema de filtración por lo que queremos hacer con ellos. Entonces lo que estaremos haciendo es, por ejemplo, estás seleccionando pocas variables como IEEE solo una, el nombre y la altura. Entonces ahora que he hecho control y, y tenemos específicamente justo el nombre y la altura Fuera de todos estos datos. Acabamos de tener los nombres y la altura. Muy fácil de usar. Por supuesto que podemos agregar más variables como son también quieres edad? Y a eso tenemos ahora nombre mayor edad. Por lo que es muy fácil de usar. Acabamos de reducirla los datos en lo que específicamente queremos. Entonces eso es sólo seleccionar. Lo que también podemos hacer es filtrar los datos. Entonces para filtrar los datos, Es el mismo proceso. Llegamos al dato uno. Y de nuevo usamos el operador de tubería. Ahora escribimos filtro y hacemos edad 24. Entonces si paso por esto, me
da la información para cualquier persona que tenga menos de 24 años. Por lo que se siente en mis datos buscar exactamente lo que estoy buscando. Entonces si cambio esto a algún día son ocho. Si lo cambio por algo que tenga más de 20 años por mayor de 24, todos me dan el resto de los datos. Ahora si miramos por aquí, eso es una especie de lo que tenemos ahora porque lo estábamos haciendo más o menos de lo que no metimos a David en ninguno de ellos porque no era igual a fue sólo porque David
ya tiene 24 y nosotros no conseguirlo como uno de nuestros conjuntos de datos. Por lo que es muy importante tener cuidado con estas cosas. Por lo que a esto se le llama filtrar nuestros datos. Y por supuesto podemos sumar más a esto. Por ejemplo, podemos hacer y y, y altura. Entonces probemos esto. Por lo que es cualquiera que tenga más de 24 años y altura de ancho superior a 1.7. Por lo que nos ha dado todos los conjuntos de datos para ellos. Podemos usar esto en combinación para que puedas hacer seleccionarlo y solo queremos el nombre, edad y altura. Y entonces podemos recargar término para los datos específicos para que no tengamos algo como Janda. Si no queremos la agenda fuera de ella, no
queremos los nombres. Podríamos hacer eso y dejarme sacar el nombre de esto. Ahora sólo queremos la altura y la edad de las personas, pero también queremos filtrar. Por ejemplo, exactamente por qué lo he hecho antes solo para mostrar cómo combinar diferentes funciones. Para que pueda envejecer y puedo volver a hacer 24, altura. Nuevamente, puedo hacer 1.71.7. Y hagámoslo. Ahora eso me da los mismos datos, pero acabamos de quitarle el nombre. Nosotros, así que sólo queríamos que las edades aumentadas para ver cuántos datos, por ejemplo, tenemos. Entonces así es como combinamos diferentes funciones también. Entonces, ¿quién echaría un vistazo a seleccionar datos y filtrar aquí? Ahora lo que también podemos hacer es arreglarlo. Entonces, por ejemplo, si miro exactamente esta misma función que hemos hecho, podemos arreglar esto. Y para arreglar. Y podemos hacer como arreglista por altura. Por lo que nos ha arreglado yendo del lado más pequeño al más grande. la misma forma que podemos hacer eso, por ejemplo, el iterador de alta TBA arreglarlo desde la edad. Y eso porque de 2006 a Titán II, por supuesto, se
trata sólo de los datos que ya hemos filtrado para mayores de 24 años y altura superior a 1.7. ¿ De acuerdo? Por lo que ya hemos pasado por encima de seleccionar, filtrar y arreglar. Ahora vamos a repasar los datos mutantes. Nuevamente, utilizamos el operador de tubería, por lo que nuestros datos pasarán por un operador de tubería. Y por ejemplo, queremos mutarlo por, digamos que queremos cambiar la altura y queremos a veces eso por un 100. Entonces porque la altura está en metros, si yo veces por una imagen del 100 por ciento, así depende de lo que quieras mirar hacia fuera. Por ejemplo, es realmente fácil si quieres cambiar las unidades de algo como heroína o cambiar las unidades de altura de metros a centímetros. Y aquí está. Es el mismo dato, pero tenemos otra, tenemos otra línea, Otra,
lo siento, tenemos otra variable, que son los metros por 100. Como se puede ver que el título ha cambiado aquí porque han cambiado el título a altura, metros veces 100. Entonces nos daría los centímetros y nos da la altura de todos en centímetros. que hace que sea muy fácil trabajar con datos para que solo quieras en una unidad específica. Ahora bien, esto es algo que podemos, ya sabes, este es un ejemplo muy pequeño, pero podemos usarlo para funciones más complejas. Y para familiarizarse más con ello, hay que, ya
sabes, una búsqueda un poco más experimentada, algo más cosas en línea como un tipo diferente de sitios web para ver qué otro tipo de mutaciones podemos hacer. Porque realmente este es un tema del que sólo tenemos que seguir aprendiendo. No podemos aprender todas las funciones de memoria, pero siempre tenemos que investigarlas. ¿ De acuerdo? Entonces la última función en la que quiero enfocarme es resumir datos un operador de tubería. Resumir. ¿ De acuerdo? Entonces lo que esto hace es que me da una variable específica. Por ejemplo, la altura mediana es una especie de resume toda la variable, todas las variables o toda la variable de altura. Y me lo da como, ya
sabes, una mediana, la mediana que puedo hacer max. Entonces me da la altura más alta que hay, y eso es 1.82. Y si comparamos esto con nuestros datos, lo
hacemos manualmente. ¿ Por qué no puede la mediana? Debería ser lo mismo. Entonces esto es, he resumido, como he mencionado, estos son algunos ejemplos muy pequeños y muy básicos de, de manipulación de datos. Entender funciones
más complejas o códigos más complejos que podemos usar usando tidyverse u otras funciones. Tendríamos que buscar hacer más investigación y
buscar en función de lo que necesitemos en nuestros datos y de lo que estamos manipulando. Porque hay toneladas de paquetes por ahí que podemos usar para nuestros datos para ayudar a hacer una, hacerla más fácil y manejable para nosotros. De acuerdo, Entonces ahora surge la pregunta, ¿de
dónde sacamos los paquetes y de dónde encontramos lo que necesitamos? La forma más fácil de hacer esto es entrando en la página web de la nuestra misma. De acuerdo, entonces ahora estoy de vuelta en la página web ante la cual Ben, oye, buffonería o descargando. Si vamos por aquí, vuelve a la automática. Puedes ver aquí hay una opción para paquetes. Y una vez que pinchemos aquí, esto nos mostrará una tabla de paquetes disponibles ordenados por fecha de publicación o por nombre. Y luego oye, podemos, por ejemplo, buscar exactamente lo que queremos. Entonces es algo así,
pero así es como vamos a encontrar lo que queremos y luego
podemos descargarlo dependiendo de lo que necesitemos, el paquete específico que queremos para nuestros datos, para el tipo de manipulación que queremos. De acuerdo, Entonces espero que esto haya sido útil. Fue una breve introducción a la instalación de paquetes y alguna manipulación específica usando el paquete tidyverse o de playa, que era el paquete específico en tidyverse que estábamos usando. Y realmente esto otra vez, solo
estamos explorando y aprendiendo y divirtiéndonos usando esto. Entonces espero que hayan aprendido algo y los veré en mi próxima lección. Gracias.
5. Lección 4: diagramas dispersos: Hola a todos y bienvenidos de nuevo a este curso. Por lo que seguiremos buscando paquetes. Ya tuvimos la suerte instalando tidyverse y usando marea de nosotros para manipular datos. Hoy van a ser como una aplicación está anti diversa para la visualización de datos. Ahora podemos usar eso para visualizar datos de muchas maneras diferentes, desde histogramas hasta diagramas de caja hasta gráficos de líneas. Pero específicamente hoy estaremos viendo parcelas de dispersión. Por lo que tendré pautas de cómo
se puede crear una gráfica de dispersión y hacer cambios en ella usando datos que tenemos. Y en futuros videos nos estaremos centrando en diferentes tipos de visualización de datos para crear una gráfica de dispersión con rapidez y tener acceso a los datos. Por lo que voy a negrosidad es adjuntar iris nada. Se trata de datos que existe con tidyverse. Por lo que si usas esto, fácilmente
podemos adjuntarlo y verlo. Está bien, eso está bien. Ahora puedo hacer ver IRS. Eso es muy cuidadoso ser todo gorras bloquean porque diferencia muy pequeña y hacer un cambio muy grande en el código. Ahora esto son solo datos que existe y vamos a estar como invertir hoy para crear una trama de dispersión de bien, así que como dije antes en una de las primeras y la primera lección, creo, lo que tenemos ahora son solo datos, pero necesitamos convertir esto en un objeto que podamos usar. Porque sólo tener el día a día de madera, es realmente difícil de manipular. Entonces voy a hacer un título IRS ahora, este es el objeto que quiero y hacer un RI. Y luego quiero asignar algo al tema. Por lo que le asignaré iris a esto. Ahora, la mayoría de la gente quiere cambiarlo este nombre, este objeto nombró algo diferente por la vida para mantenerlo tal como está, pero hace que sea más fácil de usar y entender. De acuerdo, entonces hemos creado este objeto de unas 150 observaciones de cinco variables. Entonces vamos a estar usando este objeto con estos datos para hacer nuestro diagrama de dispersión. Y es muy sencillo. Nosotros haríamos parcela de GG. Ahora estamos usando la gráfica GG porque este es un paquete específico dentro tidyverse que se utiliza para la visualización de datos. Entonces los datos que queremos, iris y V, ¿no? En cuanto a la estática, y luego abrimos corchetes y como pueden ver aquí nos muestra x e y rápido. Entonces lo que queremos como nuestro eje x y lo que queremos tenernos a todos eje y, lo
ponemos en, en el mismo orden. Por lo que quiero que mi longitud de patrón sea mi x y mi ancho de pétalos sea mi eje y. Entonces sólo voy a escribir eso en el mismo orden entre mis corchetes. Longitud de pétalo, sí. Y luego ancho de pétalos. Está bien. Control, Entrar en una trama aparece aquí. Ahora si puedes ver que
no hay puntos en un punto geométrico para los datos, acaban de trazarlo como x e y. para incluir eso, lo que podemos hacer es añadir punto geom. Y vamos a ejecutar esto. Y aquí estamos. Nos da los puntos geométricos para los datos también. De acuerdo, Entonces esto es realmente lo básico de crear una trama de dispersión. Mezclamos parcelas GG, el paquete que desea utilizar. Planeamos, descanso los datos que queremos, luego una estática, AES, nuestra x e y. y luego decir que queremos las gráficas de datos también. Y podemos cambiar esto un poco también. Por ejemplo, podemos agregar que queríamos que el tamaño de cada parcela fuera, digamos, cinco, y luego correr esto mucho más grande. 3, creo que es mejor. ¿ De acuerdo? Para que podamos hacer pequeños ajustes como queramos. ¿ De acuerdo? Ahora, para estos datos específicos, esa línea no funciona porque no es algo que esté conectado. Se trata de un pétalos
diferentes o flores diferentes que estamos usando y no tiene sentido usar alinear la cadera. Ahora esto es, agregaremos una línea si
quisieras crear un gráfico de líneas, pero esta es una gráfica de dispersión por lo que no necesariamente la necesitamos. Por lo que sólo estoy feliz de dejarlo así. Déjame limpiar mi consola. Y aparece con otras líneas. Como yo sé,
podemos hacer esto un poco más complejo, por ejemplo, agregando en un color que no está determinado solo por un color aleatorio. Entonces si yo soy entonces el color igual a las especies. Y corre esto. De acuerdo, Entonces en nuestros datos
teníamos tres tipos diferentes de especies. Ahora lo que han hecho es que esto separó las diferentes especies en diferentes colores simplemente agregando el tipo simple de color es igual a especies. Por lo que es una muy buena forma de analizar nuestros datos y de facilitarle la lectura. Por lo que antes era sólo puntos diferentes y diferentes parcelas de dispersión por todas partes. Entonces de esta manera podemos ver datos específicos que queremos abordar, no escuchar, lo hemos hecho. Podemos manipular aún más
haciendo cambios en el tamaño de
los diferentes puntos en lugar de hacer el tamaño solo tres, digamos 50. Echo de menos esto. Yo puedo venir aquí y puedo decir que el tamaño está a ser determinado por,
por ejemplo, ¿qué queremos? Oye, los datos de Locard eran específicos, queremos es longitud de sépalo por ejemplo. Yo quiero que eso se determine, que para determinar el tamaño de las parcelas específicas. Para que yo pueda hacer eso. Ahí está. Y déjame hacer esta prueba. Por lo que también tiene otra clave de que se crea. Entonces la diferente longitud que es, el diferente tamaño de la trama como podemos ver. Por lo que esta es una muy buena manera de traer diferentes variables de datos dentro de una gráfica de dispersión. Podemos cambiar el color, el tamaño del punto, y cómo, cómo se presentan los datos. Ahora bien, esto es bueno y fácil de leer, pero hay otra forma en que podemos presentar los datos de las diferentes especies, por ejemplo, o podemos separar lo que quieras. Déjenme mostrarles eso. Entonces si solo voy aquí y añado un plus, puedo hacer activo. Ahora se comprará por sí mismo o puedes simplemente teclearlo. Ahora mismo. ¿ En qué quiero que se rompa? Por ejemplo, específicamente quería tratar con las especies. De acuerdo, vamos a ejecutar esto. De acuerdo, así como podemos ver estos datos, esto ya no está solo separado por los diferentes colores de la especie o la longitud del sépalo y el tamaño del punto se crea su propia gráfica de dispersión para cada diferentes especies. De acuerdo, Entonces espero que esto haya sido útil. Hemos repasado cómo crear una gráfica de dispersión, hay que cambiar el tamaño de los datos específicos y asignarlo a algo como hemos hecho la longitud sepal, asignar el color a algo específico, crear diferentes diagramas de dispersión en el mismo gráfico. Por lo que ha sido un breve por una introducción lo suficientemente minuciosa en las parcelas de dispersión. Y esto te dará la confianza para hacer un poco más explorando una buena visualización de datos. Es una zona muy emocionante para estar. Y con nuestra visualización de datos y diferentes gráficos se presentan, uh, tan bien. Entonces creo que este definitivamente uno de los mejores puntos de nuestro supongo espero que ustedes hayan aprendido algo y los veré en mi próxima lección. Gracias.
6. Lección 5: gráficos de barra: Hola a todos y bienvenidos de nuevo a este curso. Seguiremos aprendiendo sobre la visualización de datos. Y el video anterior nos enteramos de las tramas de dispersión. Y este video se enfocará en gráficos de barras o gráficos de barras. Entonces lo primero que necesitamos saber es que existen dos tipos diferentes de gráficos de barras. Ahora si solo escribo eso aquí abajo, geom bar, sale cabecera. Existen dos tipos de gráficos de barras. Ahora, para una breve explicación de las diferencias en la barra, barra geom, la altura de la barra es proporcional a los casos de ese grupo. En tanto que en G on Call, aquí es donde elegimos qué valor debe representar la altura. Entonces en geom llamado, les
damos dos valores, uno x e y, y dingy y Bob, les
damos un valor. Y dependiendo del número de esos valores, Así de alto estará el jefe en barra Gm. Esto será mucho mejor explicado a medida que avancen cuando les muestro ejemplos de ambos. ¿ De acuerdo? Entonces solo para explicar geom, geom bar o geom llamados ambos son gráficos de barras. Y para crear estos, una vez más, estaremos usando el paquete tidyverse, que usamos para crear también parcelas de dispersión. Y más específicamente la trama de GG. Entonces si solo escribo eso aquí, j más parcela GG y luego la fecha que queremos. Ahora ya lo hemos discutido antes de que los datos del iris vienen con entonces tidyverse, y ya hemos creado un como objeto en la lección anterior. Entonces sólo nos referiremos a eso que estoy usando aquí. Entonces iris y una stat x. Entonces abrimos esto e inhalamos ponemos esa única variable porque vamos a ser barra de geom de zinc, sólo
podemos pintar una variable. Por ejemplo, específicamente quiero mirar a la especie. Entonces, ¿cuántos tipos diferentes de especies que se encuentran en el escenario? Ahora si miro estos datos, como pueden ver, aquí
hay diferentes tipos de especies. Entonces quiero echar un vistazo a cuántos de estos diferentes tipos de especies tenemos. Como pones a, hey, la forma en que ya está, el código no sabría qué tipo de función realizar a menos que
realmente hagamos más g, m barra de subrayado. Y por supuesto, abrir y cerrar paréntesis. Y tipo pesado. De acuerdo, Entonces esto no es un gran ejemplo porque las diferentes especies de los 50, 50, 50. Por lo que en realidad no muestra la diferencia entre ellos porque no hay diferencia que si obtiene los datos, como se puede ver, hay un 150, Así que 50 de cada especie. Pero esta sigue siendo una buena manera de mostrarte la diferencia entre las diferentes formas en que podemos representar los datos en un gráfico de barras. Ahora algunas pequeñas manipulaciones que podemos hacer, por ejemplo, es que podemos agregar tirón de subrayado. Y por supuesto fui más paréntesis. ¿ De acuerdo? Así es, acabamos de darle la vuelta, así que hemos cambiado el eje de cómo era antes. Ahora esto es muy útil si tienes muchos datos y no
quieres que toda esta escritura esté demasiado agrupada en el eje x. Entonces si pones esto, las escrituras en el eje y, puedes tener muchos tipos diferentes de muchos gráficos de barras diferentes. May diferentes barras para el gráfico de barras. Supongo que otra manipulación que no podemos hacer es que podemos cambiar el título de los diferentes ejes. Podemos hacer eso por denke plus labs. Y luego nuestra x, que será lo que pongamos aquí, coma, y luego y, que será lo que pongas en las marcas de discurso, coma, luego título. ¿ De acuerdo? Ahora para nuestro eje x, una cosa a tener en cuenta es que aunque esto pueda parecer nuestro eje x, este sigue siendo el eje y. Acabamos de darle la vuelta. El propio eje no ha cambiado. Entonces si queremos cambiar esto,
este sigue siendo el eje y y y tal vez quisiéramos nombrarlo, por ejemplo, numerar nuestra x en lugar de especies, numerar nuestra x en lugar de especies,
nuestro nombre por ejemplo, SP. Y con respecto al título, no estoy seguro, así que tal vez sólo ninguno. Y sólo vamos a ejecutar esto. Está bien. Aquí está su número de especies y ningún título porque no hemos dado en uno. De acuerdo, así que esta fue una breve introducción a la barra geom, que es un tipo de gráfico de barras. El otro tipo de vigilante al que vamos a echar un vistazo es una llamada geom. De acuerdo, entonces una cosa que tenemos que saber Fujian es que necesitamos darle dos variables, y x y la y Entonces para hacer eso, tenemos que manipular nuestros datos va a estar volviendo a una de las lecciones que tuvimos en el principio sobre manipular datos y poner esos en acción. Entonces, por ejemplo, quiero usar los datos de Iris. Y quiero controlar Shift M, llévalo por el filtro. Y luego por ejemplo, cuando un clip por clip en la escuela por especies. Por lo que todos los datos que tengamos se agruparán por especies. Y una vez más, podemos llevarlo a través de la tubería y podemos por ejemplo, y podemos resumir, por ejemplo. Ahora, quiero entrar aquí para hacer una nueva variable, por ejemplo, PM e igual a la mediana de longitud de pétalos. ¿ De acuerdo? Entonces ahora que hemos creado este viejo running y esto es lo que
obtenemos para las diferentes especies fueron pandillándolas de longitud media, por lo que solo obtenemos un número por cada uno. Nos hará mucho más fáciles a los dispuestos los gráficos de barras. Es por eso que estoy haciendo es tan pequeños datos y por supuesto será la segunda revisión de cómo manipular datos, que habíamos aprendido en nuestras lecciones anteriores. Ahora bien, estos datos por sí mismos no son
tan útiles, por lo que tenemos que convertir esto en un objeto para que sea más fácil de tratar. Por lo que SB para especies y PL 4 longitud de pétalos. Entonces podemos hacer eso y vamos a correr esto. Y aquí estamos. Hemos creado otro objeto con tres observaciones de dos variables. De acuerdo, entonces ahora que tenemos estos datos, podemos trazar esto en un gráfico de barras. Entonces hagamos GG trazar corchetes abiertos. Ahora los datos que desea utilizar, que serían SP, PL, porque este es el dato que tenemos aquí. Y AES. Ahora, como dije anteriormente, con usar una G on call y desnudar barra Gm con llamada Jiang, lo que estaremos haciendo es que les estamos dando variables t. Entonces aquí tenemos que poner dos variables diferentes y ya tienes dos variables. Entonces eso sería especies, sí, y pl. ¿ De acuerdo? Como pueden ver, nada ha aparecido porque no les hemos dado una función con la que trabajar. Por lo que siempre recuerda poner un G de guardia si llama B18 o geom bar si quieres, Gm bar. ¿ De acuerdo? Entonces ahora tenemos las longitudes medianas de pétalos para los tres tipos diferentes de especies como tenemos aquí. Ahora una cosa esta noche es que tenemos geom llamado HIPAA. Si sí cambiamos esto a G on bar, no
va a funcionar. Recibirás un mensaje de error porque dirá aquí, solo puede tener una x sobre y. no
podemos tener sesgados si tenemos barra Gm, razón por la
cual estarías usando G on call. Entonces sí, una vez más, esto ha salido. Ahora, podemos volver a usar las mismas manipulaciones aquí también. Por lo que da la vuelta una vez más para que sea fácil si hubiera un montón de variables de datos diferentes, los diversos tipos de especies que simplemente harían más fácil ver escrito en lugar de todo en la cuenta aquí arriba. Está bien. Pero no necesariamente quiero, así que me alejaré de esto. Y una vez más, podemos usar los laboratorios para darle un título. Por ejemplo, quiero que x sea alto. No es muy práctico. Pero justo como ejemplo, no
olvides las marcas del discurso. Y entonces título sería x Ahora definitivamente esto no es lo que está mostrando la gráfica. Esto sólo para mostrar que podemos cambiar la variable, los títulos de estos diferentes x,
y, y el título de todo el gráfico de barras. Porque esto no es muy práctico. Entonces, solo eliminemos esto que hemos hecho nombrar y demostrando que esto puede cambiar. Y podemos cambiar eso muy fácilmente. Y volveremos a tomar su propio título de PR y especie. De acuerdo, Así que esto fueron gráficos de barras y gráficos de barras, espero haya sido útil. Ya hemos discutido los dos tipos diferentes. Cómo trazarlos, cómo hacerles cambios, cómo cambiar el título. Si quieres aprender más sobre esto, es solo cuestión de jugar con él para ser honesto. Por lo que es un gran lugar para empezar. Y espero que hayas aprendido algo. Te veré en mi próxima lección. Gracias.
7. Lección 6: más visualización de datos: Hola a todos y bienvenidos de nuevo a este curso. Por lo que esta será nuestra última lección sobre visualización de datos. Ya hemos echado un vistazo a la visualización de datos en lo que respecta a las gráficas de dispersión y los gráficos de barras. hoy tendremos una breve mirada a los otros tipos de visualizaciones de datos como histograma, diagramas de caja y gráficos de líneas. De acuerdo, entonces empezaremos como normalmente lo hacemos. Gg paréntesis de parcela, nuestros datos, IRS , brackets
abs, y los datos, la variable específica que queremos que aborden. Entonces para esto más rápido de lo que vamos a estar haciendo un histograma. Y el histograma sólo podemos poner en una variable que el histograma nos debe presentar. Entonces aquí dentro, me gustaría longitud de pétalos. Y como dije, tenemos que expresar la función que necesitamos. Por lo que sería GO subrayado histograma. Y eso es correr esto. De acuerdo, Entonces este es nuestro histograma. Ahora por supuesto, los que están familiarizados con el histograma, si quieren cambiar el ancho de banda, coman dulces que podamos. Como un inhere ya dice que se ha ido con el default. Entonces oye, vamos a ir con por querer cambiar. Tendría que ir dentro de los paréntesis. Ben. Entonces ancho, y yo iré con uno que se ejecute esto. De acuerdo, y herencia. Entonces por supuesto podemos cambiar esto sin embargo nos guste a lo que sea adecuado para nuestros datos y lo presenta de la manera más eficiente y efectiva. Por lo que 2s claramente no es bueno. Incluso podemos ir con 0.5. De acuerdo, así que gracias a todos. Gracias por escuchar. Podemos jugar con esto para cambiarlo por lo que sea mejor para nuestros datos. Entonces así es como haríamos un histograma. Otro tipo de datos sin embargo y un enfoque en es crear diagramas de caja. Por lo que parcela GG, IRS un VS. Y con las parcelas boxeadas tenemos que pagar en dos variables diferentes. Entonces por ejemplo, quiero la especie y luego la longitud del sepal por ejemplo. Y por supuesto que debería darle una función para crear un boxplot, geom underscore boxplot. De acuerdo, Entonces Harris dice que esto está mostrando la parcela de caja para los diferentes tipos de especies. Una parcela de boxeo es para la diferente longitud de sepal. Por lo que este sería nuestro rango intercuartil, Q12 y 3, y nuestros valores más altos y más bajos para cada especie diferente. Y también nos han hecho una anomalía aquí. De acuerdo, Entonces esta es una forma muy fácil de dibujar una trama de caja. Entre más experimentemos y empecemos a usarlo, más se pueden hacer cambios, pero eso concertará la experiencia y el tiempo y cuánto de la investigación al respecto. De acuerdo, Así que el tercer toque en un breve toque en es un gráfico de líneas. Entonces parcela GG, IRS, como por ejemplo, quiero hacer longitud de
pétalos y ancho de pétalos. ¿ De acuerdo? Ahora ponemos en la función, y en este caso quiero línea de subrayado G M. Y vamos a ejecutar esto. De acuerdo, entonces nos mostró esta línea. Tos. Ahora por supuesto esto no es ideal porque en un gráfico de líneas, esperaríamos tener un dato. Sería un dato por cada eje x e y. Y a medida que miramos nuestros datos, estos no son los mejores datos para usar para dibujar un gráfico de líneas. Pero nos llegó la idea de cómo sumarnos en qué cambiar. Ahora, es, como podemos decir, son los mismos principios. Geom boxplot, histograma geom, línea geom. Y hay muchas más funciones que podemos encontrar en tierra. Entonces lo he hecho, esto ha sido útil y espero que sea más que solo
te haya dicho de cómo usar estos diferentes aspectos dada la confianza para aprender sobre ti mismo. Porque creo que eso es lo más importante con aprender sobre programación. Y el aprendizaje es sobre todo porque hay paquetes que se están desarrollando todo el tiempo. Entonces si hay algo específico que estás buscando, tendrías que ir a cavar y encontrar el paquete que necesitas. Es realmente importante que dominemos la habilidad de buscar e investigar y encontrar lo que queremos. De acuerdo, Así que gracias a todos. Gracias por escuchar.