Bootcamp de programación de R para ciencia de datos y aprendizaje automático

Sunil Kumar Gupta

Obtenga acceso ilimitado a todas las clases

Clases enseñadas por líderes de la industria y profesionales activos

Los temas incluyen ilustración, diseño, fotografía y más

Obtenga acceso ilimitado a todas las clases

Clases enseñadas por líderes de la industria y profesionales activos

Los temas incluyen ilustración, diseño, fotografía y más

Lecciones en esta clase

- 1.
  
  Introducción
  
  1:15
- 2.
  
  Instalación de R
  
  7:15
- 3.
  
  Instalación y exploración de RStudio
  
  11:34
- 4.
  
  Por qué aprender R
  
  5:15
- 5.
  
  Primer programa de R y operadores en R
  
  11:06
- 6.
  
  Tipos de datos en R
  
  8:33
- 7.
  
  Creación de vectores en R
  
  5:49
- 8.
  
  Secuencia en R
  
  14:59
- 9.
  
  Función de replicación
  
  5:09
- 10.
  
  Acceso a elementos vectoriales
  
  8:04
- 11.
  
  Manipulación de vectores en R
  
  5:39
- 12.
  
  Reciclaje de elementos vectoriales
  
  5:22
- 13.
  
  Ordenación de elementos vectoriales
  
  5:35
- 14.
  
  Toma de decisiones en R
  
  9:55
- 15.
  
  Control de bucle con repetición y mientras se usa el bucle
  
  6:18
- 16.
  
  Para el bucle y la siguiente sentencia
  
  5:10
- 17.
  
  Funciones en R
  
  13:01
- 18.
  
  Matrices en R
  
  13:04
- 19.
  
  Factores en R
  
  7:53
- 20.
  
  Marcos de datos en R
  
  16:14
- 21.
  
  Combinación de marcos de datos
  
  9:03
- 22.
  
  Análisis de datos en R desde un archivo CSV
  
  18:44
- 23.
  
  Creación de un gráfico circular en R
  
  8:30
- 24.
  
  Análisis de datos de empleados
  
  13:30
- 25.
  
  Lectura de archivos de Excel en R
  
  7:05
- 26.
  
  Lectura de archivos xml en R
  
  13:45
- 27.
  
  Lectura de un archivo JSON en R
  
  9:30
- 28.
  
  Creación de la trama de bares
  
  14:06
- 29.
  
  Gráfico de barras apiladas en R
  
  5:33
- 30.
  
  Boxplot en R
  
  9:04
- 31.
  
  Boxlot usando el conjunto de datos de mtcars
  
  10:37
- 32.
  
  Boxplot con notch
  
  7:04
- 33.
  
  Histograma y distribución del histograma
  
  11:12
- 34.
  
  Histograma de dibujo con la función hist
  
  12:53
- 35.
  
  Uso de breaks xlim ylim en el histograma
  
  14:19
- 36.
  
  Gráfico de líneas básicas para series temporales con ggplot2
  
  19:56
- 37.
  
  Detección de tramas y matrices de trama en R
  
  16:24
- 38.
  
  Encontrar la media en R
  
  19:00
- 39.
  
  Encontrar la mediana y el modo en R
  
  18:33
- 40.
  
  Qué es la regresión lineal
  
  16:51
- 41.
  
  Predicción con modelo de regresión lineal
  
  15:11
- 42.
  
  Lectura de CSV, creación de modelos LR y predicción
  
  11:11
- 43.
  
  Regresión múltiple
  
  10:18
- 44.
  
  Predicción del millaje en automóvil con regresión múltiple en R
  
  9:36
- 45.
  
  Regresión logística
  
  14:18
- 46.
  
  Distribución normal
  
  5:58
- 47.
  
  Distribución normal con la función de dnorm y pnorm
  
  8:08
- 48.
  
  Distribución normal con qnorm y la función de rnorm
  
  4:54
- 49.
  
  Recursión en R
  
  7:24
- 50.
  
  Encontrarás el factorial de un número usando la recursión en R
  
  5:42
- 51.
  
  Datos de muestra de una población
  
  9:41
- 52.
  
  Programa para verificar los números primos
  
  14:52
- 53.
  
  Programa para verificar EVEN u ODD
  
  5:09
- 54.
  
  Programa para verificar los negativos positivos o CERO
  
  3:32
- 55.
  
  Programa para verificar el año bisiesto o NOT
  
  6:20
- 56.
  
  Programa para tablas de multiplicación
  
  3:07
- 57.
  
  Cuáles son los valores que faltan y tipos de valores
  
  12:40
- 58.
  
  Imputación de valores NA que faltan en el conjunto de datos
  
  7:18
- 59.
  
  Imputación de valores faltantes con el método PMM
  
  16:40
- 60.
  
  Análisis de conjuntos de datos con funciones de R
  
  13:25
- 61.
  
  Manipulación de datos con el paquete dplyr
  
  18:43
- 62.
  
  Introducción a los paneles de control interactivos brillantes en R
  
  7:01
- 63.
  
  ShinyApp crea un panel de control interactivo con Shiny
  
  15:02
- 64.
  
  Algunos ejemplos de aplicaciones brillantes en R
  
  15:08
- 65.
  
  Aplicación Shiny de archivos en RStudio
  
  4:16
- 66.
  
  Generación de informes descargables en Shiny
  
  6:54
- 67.
  
  Análisis de Covarianza
  
  13:31
- 68.
  
  Handson con la biblioteca dplyr
  
  17:46
- 69.
  
  Regresión lineal simple con el conjunto de datos de Airquality
  
  7:59
- 70.
  
  Lidiar con valores que faltan
  
  5:44
- 71.
  
  Comprobación de los valores que faltan
  
  7:50
- 72.
  
  Recodifica los valores que faltan
  
  4:39
- 73.
  
  Árbol de decisión
  
  10:13
- 74.
  
  Entropía y ganancia de información
  
  6:29
- 75.
  
  Cálculo de la entropía en el árbol de decisiones
  
  9:36
- 76.
  
  Cálculo de la ganancia de información para el árbol de decisiones
  
  12:18
- 77.
  
  Las manos en el árbol de decisión en R
  
  11:57
- 78.
  
  Ventajas y desventajas del árbol de decisión
  
  10:01
- 79.
  
  Introducción al proyecto 1
  
  4:14
- 80.
  
  Proyecto 1 - Previsión de precios de acciones
  
  13:52
- 81.
  
  Análisis de datos de Uber en Project 2 con R
  
  30:04
- 82.
  
  Segmentación de clientes en Project 3 con R
  
  11:35
- 83.
  
  Proyecto 3 Parte 2 Segmentación de clientes con R
  
  12:02
- 84.
  
  Proyecto 4 - Introducción - Recomendación de películas
  
  20:02
- 85.
  
  Proyecto 4 -Parte 1- Sistema de recomendación de películas con R
  
  12:53
- 86.
  
  Proyecto 4: parte 2: sistema de recomendación de películas
  
  19:11
- 87.
  
  Proyecto 5 Introducción a la detección de fraude con tarjetas de crédito
  
  16:20
- 88.
  
  Importancia de la detección de fraude en línea
  
  10:12
- 89.
  
  Cómo lidiar con conjuntos de datos desequilibrados
  
  16:22
- 90.
  
  Detección de fraude sin modelo
  
  15:25
- 91.
  
  Creación de conjuntos de datos de capacitación y prueba
  
  9:01
- 92.
  
  Métodos de muestreo aleatorio sobre y bajo el muestreo
  
  9:33
- 93.
  
  Uso de ROS y RUS juntos para el equilibrio de datos
  
  6:26
- 94.
  
  Ventajas y desventajas de SMOTE
  
  4:13
- 95.
  
  Aplicación de la técnica SMOTE en el conjunto de datos de capacitación
  
  9:00
- 96.
  
  Predicción de casos de transacciones con tarjetas de crédito con el modelo
  
  6:22
- 97.
  
  Introducción a ggplot2
  
  22:24
- 98.
  
  Trama con chispas y nerviosismo
  
  11:41
- 99.
  
  Parcela de bares y hostogram
  
  11:39
- 100.
  
  Gráfico circular con ggplot2
  
  5:56
- 101.
  
  Trazados de líneas con ggplot2
  
  17:21
- 102.
  
  Visualización de datos con ggplot2
  
  24:21
- 103.
  
  Agregarás estética de color a las tramas
  
  11:44
- 104.
  
  Afinación de la estética de la trama
  
  8:10
- 105.
  
  Modificación de temas, etiquetas, títulos y ejes con el tema Función
  
  8:17
- 106.
  
  Proyecto 6
  
  9:01
- 107.
  
  Manejo de datos de fecha y hora en ggplot2
  
  13:21
- 108.
  
  Funciones de POSIXct y POSIXlt con el ejemplo
  
  9:00
- 109.
  
  Proyecto 7 Transformación de datos y resumen
  
  9:22
- 110.
  
  Project 7, parte 2, Filtrado de datos y escalas de color
  
  15:00
- 111.
  
  Crearás tramas interactivas con plotly y ggplotly
  
  13:56
- 112.
  
  Introducción a Plotly y características clave
  
  6:52
- 113.
  
  Trabajo con Plotly
  
  23:04
- 114.
  
  Creación de gráficos 3D en R
  
  10:09
- 115.
  
  Creación de tramas interactivas con Highcharts
  
  8:25
- 116.
  
  Proyecto 8 Visualización de datos de Airbnb en la ciudad de Nueva York
  
  9:35
- 117.
  
  Análisis y visualización de datos de COVID 19 en Project 9
  
  16:40
- 118.
  
  Proyecto 10 Dibujo de flores usando las matemáticas en R
  
  24:06
- 119.
  
  Project 11 Análisis y visualización de los ganadores del Premio Nobel con R
  
  22:22
- 120.
  
  Proyecto 12 Cómo encontrar la fuerza de la espada con R
  
  11:17
- 121.
  
  Introducción al aprendizaje automático
  
  14:27
- 122.
  
  El papel del aprendizaje automático
  
  11:33
- 123.
  
  Tipos de aprendizaje automático
  
  14:37
- 124.
  
  Flujo de trabajo de aprendizaje automático
  
  11:54
- 125.
  
  Principio de GIGO
  
  14:08
- 126.
  
  Algoritmos de aprendizaje supervisado
  
  16:53
- 127.
  
  Regresión lineal
  
  10:15
- 128.
  
  Realización de regresión lineal en R
  
  11:03
- 129.
  
  Predecir la altura de una persona usando regresión lineal
  
  10:34
- 130.
  
  Regresión logística
  
  8:30
- 131.
  
  Predicción de abandono de clientes con regresión logística
  
  7:11
- 132.
  
  Algoritmo de KNN
  
  7:51
- 133.
  
  Implementación de kNN
  
  5:52
- 134.
  
  Árboles de decisión y bosques aleatorios
  
  11:56
- 135.
  
  Algoritmo de máquinas vectoriales de soporte
  
  17:21
- 136.
  
  Cómo entender el análisis de regresión
  
  10:06
- 137.
  
  Comprensión del modelo de regresión lineal
  
  9:48
- 138.
  
  Comprensión de la cedasticidad en la casa
  
  7:40
- 139.
  
  Comprensión de la normalidad
  
  6:11
- 140.
  
  No hay multicolinealidad perfecta
  
  6:12
- 141.
  
  Conceptos de regresión lineal simple y formulación
  
  4:59
- 142.
  
  La teoría del método de los mínimos cuadrados explicada
  
  4:19
- 143.
  
  Ejemplo del método de menos cuadrados en la regresión lineal
  
  3:42
- 144.
  
  Conclusión y trabajo de proyectos
  
  2:54

Nivel principiante

Nivel intermedio

Nivel avanzado

Todos los niveles

277

Estudiantes

Proyectos

Acerca de esta clase

El "Bootcamp de programación R para ciencia de datos y aprendizaje automático" es una clase intensiva diseñada para equipar a los estudiantes con los conocimientos y habilidades esenciales necesarias para analizar datos y construir modelos de aprendizaje automático con el lenguaje de programación R.

Durante la clase, los estudiantes aprenderán a usar R para la manipulación, visualización y análisis estadístico de datos. También aprenderán a aplicar varios algoritmos de aprendizaje automático, como la regresión lineal y los árboles de decisiones para resolver problemas del mundo real.

La clase cubrirá los siguientes temas:

Introducción al lenguaje de programación R
Manipulación de datos con R
Visualización de datos con R
Análisis estadística con R
Regresión lineal
Árboles de decisión
Construirá y evaluará modelos de aprendizaje automático con R
Aplicaciones de R en la ciencia de datos y el aprendizaje automático
Proyecto: predicción de precios de acciones con R

Los estudiantes tendrán la oportunidad de trabajar en ejercicios y proyectos prácticos para aplicar sus conocimientos en escenarios del mundo real. Al final de la clase, tendrán una base sólida en las técnicas de programación de R y aprendizaje automático, lo que les permitirá construir modelos predictivos y extraer ideas de los datos.

Conoce a tu profesor(a)

Sunil Kumar Gupta

Profesor(a)

I have 12+ years of experience working in IT industry working for companies like HCL and Infosys.

He has done his Machine Learning and Artificial Intelligence course from IIM- Kozhikode.

He has done B.Tech(CSE) from SRM University, Chennai.

I have worked and trained students on various technologies including Data Science, AI, ML, Python, Java, Software Development etc.

Ver perfil completo

Habilidades relacionadas

Desarrollo Más Desarrollo Ciencia de datos

Level: Beginner

Proyecto de clase práctica

El proyecto "Predicción de precios de acciones con R" tiene como objetivo construir un modelo de aprendizaje automático que pueda predecir los precios de las acciones futuras de una empresa en función de los datos históricos de precios de las acciones.

Después de completar la clase, los estudiantes deben seguir los pasos que se muestran en la conferencia del proyecto y completar el proyecto discutido en la conferencia. Los estudiantes pueden descargar y usar el archivo de datos "googlestockprice.xlsx" adjunto y usar el mismo script R para ejecutar el proyecto.

Después de completar el proyecto, los estudiantes deben cargar la captura de pantalla del resultado final al crear un proyecto en la sección de proyectos de esta clase para obtener comentarios y revisión.

Valoración de la clase

¿Por qué unirse a Skillshare?

Mira las galardonadas Skillshare Originals

Cada clase tiene lecciones cortas y proyectos prácticos

Tu membresía apoya a los profesores de Skillshare

Aprende desde cualquier lugar

Ve clases sobre la marcha con la aplicación de Skillshare. Progresa en línea o descarga las clases para verlas en el avión, el metro o donde sea que aprendas mejor.

Transcripciones

1. Introducción: Hola y bienvenidos al campo de entrenamiento de programación de clase R para ciencia de datos y aprendizaje automático. En esta clase, te estaré enseñando a agregar programación, que es el segundo lenguaje de programación más popular que se está utilizando en el campo del aprendizaje automático y la ciencia de datos. El primer bin, Python. Entonces, si quieres aprender programación R y quieres sobresalir en tu operador en ciencia de datos y aprendizaje automático, entonces esta es la clase adecuada para ti. Yo soy Sunil, tu profesor para esta clase. Tengo años de experiencia trabajando empresas de desarrollo de software y analistas de tecnología durante últimos 12 años y los últimos seis años he estado enseñando personas en temas de ciencia de datos y aprendizaje automático. Entonces te enseñaré programación desde lo básico hasta el tema muy avanzado. Y veremos cómo podemos usar nuestra programación sin ley para analizar los datos, para visualizar los datos y cómo podemos usar la programación R para hacer que nuestros modelos de ciencia de datos y aprendizaje automático sean utilizados en el campo del aprendizaje automático y la ciencia de datos. Entonces, si estás interesado en aprender y programar para la ciencia de datos y el aprendizaje automático, entonces esta es la clase adecuada para ti. Entonces si te interesa inscribirte en esta clase, y te veré dentro de la siguiente conferencia. Gracias. 2. Instalación R: Hola y bienvenidos. Entonces en esta conferencia, vamos a ver el proceso de instalación de arte. Y al final de esta conferencia, podremos ejecutar nuestros programas dentro de nuestra consola. Así que comencemos a instalar R en nuestra máquina. Tenemos que ir a la página web. Conducto de glándula cran son proyecto de guión. Observando a la oscuridad. Cnn punto son proyecto guión o hacia usted, que es el sitio web oficial hasta nuestra programación. Y se puede ver el archivo R completo. Cuando vengas aquí, es posible que veas un ritmo diferente si venimos en otro momento después de unos meses. Pero más o menos, verá aquí la Red Integral de Archivos R. Y luego aquí verás descargar e instalar R. Y aquí verás las diferentes opsins del sistema operativo que puedes descargar R4. Entonces aquí estamos en la máquina Windows. Entonces iré con esa descarga R para Windows. Si estás en Linux o si estás usando macOS, puedes ir a los sistemas operativos correspondientes. Por lo que necesitamos hacer clic en la descarga R para el respectivo Sistema Operativo de mis hijos. Estoy dando clic en las ventanas. Aquí. Puede seleccionar instalar R por primera vez. ¿Bien? Y aquí iremos con la descarga R para punto o punto para Windows. Haga clic en eso o no. O guión cuatro punto 0, n2 guión punto verde archivo EXE comenzará a descargarse. Es el archivo de 83.6 MB. Y mi internet es un poco lento hoy, desde la mañana. Por lo que está tomando algún tiempo. Si estás en Internet de alta velocidad, puede tardar unos minutos y se descargará el archivo EXE punto . Solo espera a que se descargue. Y una vez hecho, donde iniciaremos el estilo y el proceso. Ahora se ha descargado el archivo EXE punto. Tenemos que hacer doble clic sobre eso. Y llegará el aviso para instalar el arte. Solo necesitamos hacer clic en Sí para permitir que el administrador acceda al proceso de instalación. Y una vez que hagas eso, el aviso de escucha de histonas vendrá así. Y aquí necesitamos seleccionar el idioma para que puedas seleccionar el idioma tuyo y dar click en. Bien. Ahora necesitamos conocer la condición de Thompson como GNU General Public License Agreement. Entonces hay que leerlo y luego tenemos que dar click en el Siguiente. Ahora puedes seleccionar el directorio. Lo estoy guardando en el archivo C por defecto directorio. Y tenemos que dar click en Siguiente. La cosa ya existe porque ya estaba ahí. Así que solo hago clic para instalar de cualquier manera. Da click en él y podrás dejarlo como está y dar click en Siguiente. Haga clic en Siguiente. Aquí puedes, si quieres, puedes seleccionarlo para no crear la carpeta Menú Inicio, ¿bien? Si quieres, quiero que me creen. Por lo que voy a hacer clic en Siguiente. Y aquí tienes que seleccionar, solo seleccionas los datos. siguientes descensos son atajos para que puedas lanzar el arte fácilmente. Siempre que quieras escribir programa, simplemente puedes hacer clic en ese intestino extra de la trama y puede comenzar. Haga clic en Siguiente. Y ahora lo impar se está instalando en nuestro sistema. Puede tardar unos minutos. Difícilmente. Tomará de dos a 3 min como máximo. C aquí. Ahora la rpart, estamos en interiores para punto o punto a conjunto de rígido. Y está diciendo que está terminado. Así que basta con hacer clic en el acabado y R se instala en su máquina. Para verificar que impar instalado o no, necesitas hacer clic en el Inicio de Windows y solo necesitas desplazarte hacia abajo para comprobar si los artistas, no lo son. Ver aquí. Ahí está la carpeta de arte. Y al hacer clic en él, haga clic en la carpeta de arte, verás que las dos opciones son I1, I3, un T6, y agregar tal T4. Entonces, si estás en sistemas operativos Windows siete o Windows diez o superiores, puedes ir con la versión de cuatro bits. De lo contrario se puede ir con el 386. Bien, entonces estoy por debajo de las máquinas de 64 bits, así que voy a hacer clic en esto y se perderá r. Entonces esta es la R Do Re, y esta es la consola R. Y aquí podemos empezar a escribir el programa del corazón. Supongamos que me encantan cuatro más cinco y me va a dar nueve. Si escribes el sencillo programa Hello World para el arte. Así que tenemos que escribir impreso. Y luego en la sola cita hola mundo, y se imprimirá Hola mundo. Entonces nos vemos ahora. Este es el sencillo programa Hello World en R. Así que así es como nuestros programas pueden ejecutarse en la consola. Pero para este curso no vamos a utilizar nuestra consola GUI. En su lugar vamos a usar RStudio, que es y IDE para R. Y eso es más preferible y mejor opción para proceder con la programación R. Por lo que en la próxima conferencia, comenzaremos a descargar e instalar RStudio. Me ves en la siguiente conferencia. 3. Instalar y explorar el RStudio: En la conferencia anterior, hemos descargado e instalado en nuestra máquina. Y hemos visto cómo trabajar con la consola de arte, ¿verdad? Sí. Pero no vamos a proceder con esto. Entonces vamos a descargar RStudio para este curso. Y a lo largo de este curso, estaremos usando RStudio. Rstudio es un IDE de Entorno de Desarrollo Integrado para programación R. Y con eso, podemos hacer las cosas fácilmente y podemos manejar las cosas de manera organizada y AD, ayudan mucho en la programación. Así podemos recubrir con facilidad y podemos ver los resultados con él. Entonces la semana que viene vamos con el RStudio. Entonces, primero lo primero, necesitamos descargar RStudio. Entonces para descargar RStudio, necesitamos ir al art studio.com. Este es el sitio web oficial de RStudio. Y cuando lleguemos al sitio web de RStudio, verá las diversas opciones como productos, soluciones, clientes, recursos y muchas cosas. Y en la parte superior se puede ver la descarga no hará clic en eso. Antes de eso, solo veremos cuáles son los productos de nivel en RStudio. Entonces ahí está nuestro estudio, el IDE premier para R. Entonces servidor RStudio es su señal ya está ahí. Y los paquetes de RStudio también están ahí. Entonces vamos a usar RStudio, el ID, y luego usaremos paquetes R para varios usos cuando exportemos ese aprendizaje automático de ciencia de datos, todas esas cosas entonces estarán usando paquetes R. Bien, así que los paquetes RStudio y R vamos a usar. Así que por favor haga clic en RStudio. Por lo que RStudio es un entorno de desarrollo integrado para el arte. Incluye editor de resaltado de sintaxis de consola que admite la ejecución directa de código, así como herramientas para plotting, historial, depuración y qué administración. Bien, así que todas estas cosas que podemos hacer con el RStudio, vamos a usar la última versión hasta RStudio un punto tres. Y hay dos versiones de RStudio son nivel que es RStudio Desktop y RStudio server. Entonces no vamos a usar el servidor RStudio. Vamos a usar RStudio en nuestras paradas de cubierta, así que haremos clic en eso. Y cuando veas otro extra de almacenamiento, nuevamente, verás las dos opciones, razón de código abierto, que básicamente es una cosa gratuita, y RStudio Desktop pro, que es para uso comercial y para que este artista lea extra pro, tenemos que pagar $995 cuerpo. No vamos a usar este comercial. Vamos a utilizar para este curso, la versión gratuita de código abierto de RStudio, es decir, una GPL versión tres, licencia gratuita. Entonces voy a hacer clic en eso. Descarga, RStudio extra. Haga clic en eso. Y al hacer clic en eso, llegarás a la fase de descarga dura para hacer. Y aquí podemos elegir esta versión gratuita y dar clic en Descargar. Y cuando hagas clic en Descargar , te llevará a tu respectivo sistema operativo. Ya terminamos. Entonces aquí voy a descargar RStudio para Windows. Si estás en otro sistema operativo, puedes hacer clic en ese. Al igual que Coben a macOS, Fedora, BBN, sea cual sea el sistema operativo que tengas, solo tienes que seleccionar ese archivo clic de la mano en Descargar. Entonces descargaré RStudio para Windows y haré clic en eso. Y artistas, artista studio dot EXE archivo se va a descargar. Empezará a descargarse aquí. Entonces voy a esperar por eso. Así que este archivo EXE punto RStudio ha sido descargado, así que solo necesito hacer doble clic sobre él. Así que los artistas reducen asistente de configuración ha comenzado. Entonces, ¿por qué solo necesitas hacer clic en Siguiente Siguiente? Solo tendrás que dar click en Siguiente Siguiente y ya se hará. No hace falta hacer nada extra. De esta manera haga clic en Siguiente, Siguiente, Siguiente. Y se hará en un par de minutos. Por lo que se ha hecho la configuración del estudio de artistas. Simplemente haga clic en Finalizar y RStudio se ha estancado por completo en sus máquinas o simplemente Ahora la aplicación de interrupción de tareas está ahí, simplemente haga clic en conducta. Se lanzará un estudio de artistas. Entonces los de Cel están cargados. Rstudio, Bueno, parece este año verás la opción de escribir tu guión. Y esta es la consola donde podemos ver los resultados de esos scripts. Y luego en esta esquina superior derecha se puede ver el medio ambiente, la historia. Cualquiera que sea el comando y desechado estamos corriendo corriente dorsal. Se puede ver entonces esa conexión y luego tutorial. Entonces, si quieres aprender sobre paquete en particular o algo así, puedes ir aquí y aprender sobre eso. Y luego aquí se pueden ver los archivos en el directorio de trabajo los archivos se mostrarán aquí. Entonces las parcelas, cuando usamos parcelas y todas las gráficas, y si corremos algo paisaje para trazar algo como cosas gráficas, todas esas parcelas y todas pronto estarán aquí. Los paquetes que utilizamos en nuestro script. Esos paquetes serán nuestro nivel aquí. Entonces todos los paquetes que están instalados aquí. Y solo puedes seleccionar, y si quieres eliminar ese paquete, puedes eliminar de aquí. Si quieres conocer más sobre el paquete, puedes dar click en este enlace y puedes conocer más sobre el paquete. Entonces aquí puedes ver el nombre del paquete y luego la descripción del tipo del paquete y la redacción del paquete, y luego explorar y luego eliminar la mafia. La opción de paquete está ahí. Si quieres instalar un nuevo paquete, solo tendrías que hacer clic en Instalar y nuevo nombre del paquete tienes que especificar y se descargará. Bien, y entonces aquí hay una ayuda ops y quieres aprender sobre R y RStudio, o quieres ir a los manuales son grandes para hacer manuales, puedes ir aquí y obtener la ayuda sobre cualquier tema, bien, Entonces estas cosas las hemos visto connexins y tutoriales y todo estará aquí. Y a partir de aquí, los tres puntos. Puedes ver al hacer clic en esto, puedes seleccionar el directorio de trabajo que deseas configurar para tu RStudio. Así que supongamos seleccionar nuestro 2020 como directorio de trabajo. Así que sólo voy a seleccionar eso. Y luego tenemos que dar click en esta opción más opsin y Establecer como Directorio de Trabajo es que solo necesitas dar click sobre eso. Así que el conjunto senior, WD dijo que WE es el comando para establecer nuestro directorio de trabajo. Así C o D colon arte impreso donatario. Este árbol se ha establecido en el directorio de trabajo. Entonces, si no quieres hacer desde aquí, puedes usar este comando para establecer el directorio de trabajo, ¿de acuerdo? Y entonces aquí puedes crear una nueva carpeta, puedes eliminar, puedes renombrar todas esas opciones a nuestro nivel aquí y aquí solo podemos escribir tanto nuestro script por más cinco. Y esta ejecución, puedes seleccionar esta línea y vas a dar click en Ejecutar y este script o esta sentencia se estará ejecutando y verás el resultado aquí, phi plus pipe entonces simplemente puedes, si quieres imprimir algo, hola, RStudio y quieres hacer clic en Ejecutar, verás que hay LTL hola, RStudio. ¿Bien? Y en la historia vas a estar viendo todos los comandos que se están calculando. ¿Bien? Entonces estas son las cosas y este archivo lo puedes guardar. Si desea guardar este archivo, puede hacer clic en Guardar, y se guardará en su directorio de trabajo actual. Para que puedas dar cualquier nombre sonrojado. Se guardará nuestro archivo. Bien, de manera similar, si queremos crear un nuevo archivo, solo necesitas dar click aquí y verás el grupo del artista. Vas a crear nuestro archivo script o notebook o archivo R markdown. Veremos qué es el archivo de rebajas R. Estaremos aprendiendo sobre esta ágil. ¿Bien? Y luego si haces clic, puedes crear un nuevo proyecto o nuevo directorio, o puedes ir al directorio existente. Y aquí se puede ver el control de versiones. ¿Bien? Entonces estas son las diversas opciones de nivel. Si vuelve a hacer clic en el archivo, verá el Script Nuevo Archivo R. Mcdonald's, esas cosas que puedes ver aquí. Y parcelas de oro que hemos visto aquí. Lo mismo. Construir, depurar las herramientas de perfil no lo son. Así que exploraremos todas las opciones de cuándo y dónde sea necesario. Y exploraremos todas esas cosas por ahora. Esta es la parte de escritura de guiones, y aquí veremos que un juez, y aquí podemos ver directorio de trabajo actual oscuro y tramas y todo. Si usamos, puedes ver que tus paquetes se pueden instalar y son enormes desde aquí. Y aquí se puede ver la historia y todo. Bien, entonces esto es todo sobre RStudio. Y ahora ya estamos listos para comenzar con la programación R con este RStudio Ib. Entonces, a partir de la siguiente conferencia, vamos a aprender nuestra programación. Entonces Steven escribe la siguiente conferencia. 4. Por qué aprender R: Hola y bienvenidos. En esta conferencia, vamos a aprender por qué son, por qué deberíamos estar aprendiendo el lenguaje de programación R? Entonces, para responder a esta pregunta, tenemos que pasar por dos cosas. Lo primero es, ¿qué es r y por qué debemos aprender son sus regiones detrás de aprender nuestra programación? Entonces comencemos con ¿qué es r? Así que r es el lenguaje más popular en el mundo de la ciencia de datos. Los análisis de datos son estáticos. Por lo que es muy utilizado en el análisis de datos que son tanto estructurados como no estructurados en la naturaleza. Hoy en día estamos obteniendo una gran cantidad de datos que se llaman big data, que en su mayoría no están estructurados. Y si quieres analizar esos big data, puedes hacerlo fácilmente con la programación R o impar. Impar. Impar. Odd es un lenguaje de programación y software y calentamiento para análisis estadísticos y gráficos. La presentación y el reportaje de lo que han creado Eros yamaka y Robert Jackson man y la Universidad de Auckland, Nueva Zelanda. Y actualmente están bloqueados por nuestro equipo central de desarrollo. Entonces R es inventado por yamaka y Robert Gentleman. Y por eso es que su nombre es extraño porque en invierno el nombre empieza con nuestro Roth y Robert y lo nombraron en base a su nombre. Y se llama nuestra programación de ellos. Regiones para aprender R. R es de código abierto y de libre acceso de software de código abierto se puede conectar y jugar. Y si queremos contribuir al arte que también tú puedes hacer. Y es la licencia pública general de GNU. Así que no hay necesidad de pagar nada por ti mismo libremente están nivelados. Y esa es la mejor razón para usar nuestra programación. Compatible multiplataforma. Entonces, ya sea que ejecutes nuestro programa bajo Windows o Linux o macOS, no importa. Funcionará a la perfección y te dará el mismo resultado en cualquiera de estas plataformas. ¿Son estos artistas altamente flexibles y evolutivos de naturaleza flexible? Y está muy evolucionando. Y actualmente es más de 2 millones son mucho más de 2 millones de usuarios están utilizando nuestras industrias de programación y dominios. Ampliamente utilizado nuestra programación. Al igual que nombra a la industria y encontrará el uso de nuestra programación en ese dominio financiero que utilizan para detectar transacciones fraudulentas en el dominio de las telecomunicaciones. Se utilizan la programación del arte. También. Lejos hay perfiles de suscriptores. En el dominio de la biología, encontrarás la herramienta de biología computacional para realizar análisis del genoma. Muchos, muchos dominios. Están usando R. Y es una comunidad enorme, como te dije, 2 millones usuarios y usan la comunidad de desarrolladores. Y extraño es tener más de 10 mil. Los últimos paquetes y carencias de funciones incorporadas cat en diversa necesidad. Entonces, si quieres realizar una operación de suma simple o quieres encontrar la media de algunas funciones son algunos números. O quieres hacer como algunas representaciones gráficas más de tus datos. Puede hacerlo fácilmente con los paquetes de auditoría y las funciones integradas. Y nuestros paquetes son excelentes para la manipulación de datos, visualización de datos, aprendizaje automático , ciencia de datos y modelado estadístico, imputación y muchos otros paquetes que están etiquetados para jugar. R es excelente para la visualización. Y R paquetes como GG plot a Gibbs usted crea visualización para que pueda visualizar los datos fácilmente con nuestra programación. Y muchas empresas importantes como Facebook y Google, están usando el arte para sus diversas necesidades. Odd es igual a la parte del lenguaje es que análisis estadístico y la ciencia de datos a od es ampliamente utilizado en ciencia de datos, aprendizaje automático, análisis de datos, minería de datos, todas esas cosas. Entonces od es el lenguaje de referencia para todas estas cosas. Y si queremos aprender, si quieres adentrarte en esa ciencia de datos y aprendizaje automático, siento que comienzas con la programación. Porque si conoces los conceptos básicos sobre programación, puedes ir fácilmente a aprender ciencia de datos y concepto de aprendizaje automático y puedes implementar esos conceptos, esos algoritmos con programación extraña fácilmente. 5. Primer programa R y operadores en R: Hola y bienvenidos de nuevo. Entonces en esta conferencia vamos a escribir nuestro primer archivo de script R, o primero nuestro programa, y veremos alguna sintaxis de nuestra programación. Bien, entonces primero lo primero, tenemos que crear nuestro archivo. Así que creé en la conferencia anterior primeros datos, sólo voy a cerrarlo. Y sólo tenemos que dar click aquí. Y seleccionaremos nuestro guión. O puede, alternativamente, utilizar el control shift y para crear nuestro archivo script. Y aquí, lo que voy a hacer, voy a tratar de guardar esto dando click aquí. Puedes poner controladores y dar este nombre primero. Se descompuso. Ok. Punto. Punto, punto es por qué elecciones y qué programas. Bien, agrega un guión. Así que sólo voy a hacer clic en Guardar. Así que ahora nuestro primer archivo de script de programas artísticos está hecho. Ahora lo que voy a hacer, sólo voy a empezar con algunas variables. Supongamos X, X 0s y oreja valiosa. Y quiero asignar el valor siete u ocho. Entonces aquí podemos asignar un valor usando un guión menos que signo, eso es así x Y cuando usamos menos de ocho, significa que este objeto x en nuestra programación, todo es un objeto. Entonces podemos llamar a x como variable n, o podemos llamarlo como un objeto. Como objeto o variable. Entonces x es un objeto, y le estamos asignando un valor ocho. ¿Cómo podemos comprobarlo? ¿Ahora no está teniendo valor ocho? Entonces tú, al hacer clic en Ejecutar aquí, verás y verás aquí en la pestaña Entorno global aquí, puedes ver x valores x Así x objeto está recibiendo un bucle while. Se. Simplemente podemos usar el comando print. Y podemos poner x dentro. Y luego cuando ejecutemos esto, obtendremos el valor ocho. Bien, ya estamos llegando. Ahora, lo que voy a hacer, simplemente escribiré un programa para sumar dos números. Entonces usaré x igual a ocho y asignaré y igual a nueve. Y luego, así que mira aquí lo que hice. Me asigné a x, a y, y luego he usado otra variable u objeto todavía. Y he asignado x más y igual a jet. Y lo que hice, imprimo detalle para que obtengamos el x plus y en muerto. Entonces jet vamos a llevar X más Y, X más Y más 917. Entonces estamos obteniendo valor I, sólo 17. Del mismo modo, lo que voy a hacer, también podemos usar una cadena. El porche, pierdo mi primavera. Y le asignaré algún valor de cadena. Supongamos que me voy de mi casa. Algo, ¿de acuerdo? Esta es la cadena que estoy asignando a mi valor de cadena. Así que ahora el objeto MyString va a estar consiguiendo lo que mi casa, ¿verdad? Entonces lo que voy a hacer, solo intentaré imprimirlo mi valor de cadena, e intentaré ejecutar esto. ¿Por qué están consiguiendo sumador? Porque no he ejecutado esta línea y nuestra ejecución de esta declaración impresa. Así que tenemos que ejecutar línea por línea, ¿de acuerdo? Y si queremos ejecutar de una vez, solo necesitas dar click sobre la fuente. Así que haga clic en fuente y todo será igual a 17 para esta impresión y luego mi página de inicio para este valor de cadena. ¿Bien? Entonces esta es la manera que quieres. Una vez más. Supongamos que estoy usando x. Igual a 910. Imprimir x aquí. Y yo dirijo esto, voy a conseguir ocho. Entonces porque esta declaración la tengo y tú creaste antes, así que me estoy poniendo X4 ocho. El nuevo valor, x igual a nueve, x igual a diez no se ejecuta. Entonces para ejecutar eso, lo que tengo que hacer, y va a correr esta línea. Y si ejecuto esta declaración, de nuevo, voy a obtener el valor n, correcto. Si ejecuto toda esta fuente, lo que obtendré primero, obtendré x más y 17 porque aquí, hasta aquí, el valor x es ocho. Pero cuando procedemos en el programa, valor X se reasigna a diez. Y por eso estamos obteniendo el valor X como diez aquí. ¿Bien? Entonces el valor MyString es una variable de cadena, U y X, Y, j, los otros números, ¿de acuerdo? Y supongamos algo, si quieres apoyarlo, no quiero usar x igual a diez. Puedo comentarlo usando Hess. Bien, entonces ahora esta declaración no será ejecutada. Entonces ahora si ejecuto todo este programa, guión completo, lo que voy a conseguir, obtendré x igual a ocho. ¿Bien? No voy a sacar el sol, el director general. Ahora estoy obteniendo el valor x es el valor x en 818910. Si me quito este comentando, nuevo, voy a estar recibiendo diez. El valor de C x está bajando. Entonces, si quieres bajar algo, puedes usar a Hess, esa declaración será comentada abajo. Del mismo modo, podemos realizar todos los operadores matemáticos sobre las variables. Entonces supongamos que quiero usar cuatro en cinco. Voy a conseguir 25, 20. Si quiero, como, usar 25/5 y conseguimos cinco. Entonces todas estas cosas que podemos hacer, podemos realizar todos los operadores matemáticos aquí. Supongamos que quiero usar 25/2, voy a obtener 12.5. Entonces todas estas cosas que podemos hacer aquí, también podemos usar nuestras cosas exponenciales también. Supongamos que quiero usar tres exponenciales a la regla exponente. Vamos a conseguir nueve, ¿verdad? Así que ejecuta esto y mira aquí va a estar recibiendo nueve. De igual manera, si uso 25 exponencial 25, ¿cuánto obtenemos? A ver. Bien. Entonces este es el gran valor. No debería haber usado. 25 exponenciales dos obtendrán 625, supongo. Sí, es x 25. Entonces todos estos operadores matemáticos los podemos usar aquí. Si quieres usar seis exponencial, seguirás obteniendo seis, ¿verdad? Si hacemos dos, conseguirán 36. Entonces todos estos operadores matemáticos y cálculos los podemos usar en R como de costumbre, ¿de acuerdo? De igual manera, también podemos realizar sustracciones. 78 menos tres más seis obtendrán 22. Así que hemos visto como Edison sustracción multiplicación, exponencial, y tenemos operador especial que es módulo. También. Supongamos que voy a usar 45 y modelo, vamos a usar dos veces. Entonces 45 modeladores. Supongamos que uso cinco. Entonces 45 módulo phi dará cero, ¿verdad? Sí. Y si usé 45 módulo cuatro, obtendré uno, z. Así que si uso 25, tres sin bordes, obtendré 41. ¿Bien? Por lo que el módulo mantendrá el resto. Entonces 3/20, 5/3 nos dará 13 en 824 y luego obtendremos el uno como recordatorio. Bien, entonces cuando realicemos división, el resto se dará como módulo. Entonces estos son los operadores que hemos visto en el sentido de multiplicación exponencial Jackson, y luego el módulo. 6. Tipos de datos en R: Hola y bienvenidos de nuevo. En esta conferencia, vamos a aprender sobre los tipos de datos en la programación R. Entonces, a diferencia de otros lenguajes de programación como Java o C, o C plus plus, donde declaramos una variable, declaramos la variable sin tipo de datos, ¿verdad? Supongamos que, si queremos usar una variable de número entero, declararemos que int x. ¿ verdad? Ahora, flotar por qué nuestro personaje la x ¿verdad? Cuerda. ¿Por qué ensanchar un, ensartarlo así, verdad? Pero en nuestra programación, no declaramos variables con tipo de datos, ¿verdad? Supongamos que he limpiado mi probablemente, como aquí, he asignado x o diez, ¿verdad? He asignado diez a la x. Así que a este objeto se le asigna un valor obtenido. Entonces el tipo de datos de este objeto se convertirá en tipo de datos, tipo de datos de este número diez, ¿verdad? Entonces esta variable o esta, supongamos que esto es diez como número entero. Por lo que este tipo de datos de objeto se convertirá en número. Si asigné x igual a alguna cadena, esta se convertirá en la variable de cadena de caracteres. Entonces no decidimos por adelantado lo que sea que asignemos a la variable u objeto, ese objeto se convertirá en tipo de objeto. Entonces son cuatro o menos como nuestra luz de espejo dinámico brillante. Entonces no ponemos el tipo de datos por adelantado. Se decidirá qué tipo de valor va a ese objeto. Y ese objeto se convertirá en ese tipo de objeto valioso, ¿verdad? Entonces déjame crear otro archivo donde vamos a estar viendo los tipos de datos arriba. Entonces déjame despejar esta ventaja. Bueno, entonces básicamente hay seis tipos arriba de nuestros objetos. Y son como, Oh, recto, inferior. Recto. Después enumera. Y luego tenemos a Alice. Y luego tenemos matrices. Y entonces tenemos factores. Factores y luego estudio. ¿Bien? Y luego tenemos dataframes. ¿Bien? Entonces estos son los otros seis tipos de objetos que tenemos en nuestra programación. Entonces déjame explicarte esto. Tipos de datos uno por uno o tipos de objetos uno por uno. ¿Bien? Entonces lo primero, vamos a ver el vector, así vector objeto con el objeto más simple en nuestra programación. Y la muerte, supongo que tiene seis tipos de datos. Entonces ya veremos, supongamos que uso x es igual a verdadero. Y si imprimo x, lo que nos guste, voy a llegar a escribir y apoyar eso. Si quiero saber qué tipo de datos es este x, qué puedo hacer, puedo usar print y luego puedo usar vidrio dentro de la clase de edad de impresión X. ¿Bien? Y si ejecuto esto, estoy obteniendo la clase de x es lógica, así que este es el tipo de datos lógico de salida. ¿Bien? De igual manera, contamos con soporte numérico. Si asigno x igual a 90, y déjame simplemente copiar esto a y. y voy a poner más de y aquí. Y si ejecuto toda la fuente, la clase de por qué columpiarse nómada, ¿verdad? Entonces ahora no estamos asignando otorrea, no declarando el tipo de datos de y Cualquier valor que estemos asignando en base a eso. Las variables son, se está decidiendo el tipo de datos. ¿Bien? Por lo que tuvo que rehabilitación dada una lógica. Entonces es lógico. Y aquí hemos dado nómadas, por lo que es noético. Lo siguiente es India, ¿verdad? Supongamos que 90.9. Entonces, ¿cuál será la C? No es tasa nómada. Ahora lo siguiente es realmente un entero delgado. Entonces supongamos D, y voy a asignar algunos valores, por supuesto 34. ¿Bien? Y luego usaré impresión brillo Plaza de. Cuando uso la clase de impresión depende de usted, ¿qué portón trasero? Verás, me estoy volviendo nómada. Lo siento, me estoy poniendo interior. No, clase arriba este entero d es arriba tipo de datos entero, ¿verdad? De igual manera, tenemos complejo supongamos y declaramos un número complejo, tres a más cinco altos. ¿Correcto? Y cuando pongo cluster V, Lo que nos gusta, vemos la clase de I es compleja, así que esta V, cada complejo número dos más phi. Del mismo modo, supongamos el seno C como un programa ReLu. Si subo el vaso a ver lo que sería aquí para ser personaje, ¿verdad? Así que déjame correr toda la fuente C. Ahora estoy consiguiendo el cristal hasta el personaje de sis. Lo siguiente es que en absoluto soportado, voy a usar azul y le asignaré un nuevo carácter para dibujar y usar Java. Y si imprimo clase de problema B, sería, veamos. Es lo crudo. ¿Bien? Lo siguiente es que los objetos impares se llaman vectores, ¿de acuerdo? Entonces estos son los tipos de vectores como el vidrio y w es una varilla de cerca. C es la clase de carácter de v es número complejo más o p es entero, la clase de y es numérico y el primer plano x es lógico. Entonces estos son los tipos de datos o tipos de objeto, se puede decir en nuestra programación. Así que déjame guardar este archivo también. Tipos de datos. En la próxima conferencia veremos cómo podemos crear nuestro vector, ¿de acuerdo? 7. Crear vectores en R: Hola y bienvenidos de nuevo. Así que en la conferencia anterior hemos visto los diferentes tipos de datos en la programación R. En esta conferencia, vamos a aprender sobre vectores. Cómo podemos crear un vector con la mayoría de las personas elemento, más de un elemento o Control N. Voy a crear un nuevo archivo de script R. Y en esto, vamos a anotar nuestros pasos para crear un vector con múltiples elementos, más de un elemento. ¿Bien? Entonces lo que voy a hacer, voy a tratar de crear y recta hockey. Así apoyo. Quiero crear un vector llamado g. Y quiero asignarlo a múltiples valores. Entonces en nuestra programación, cuando queremos crear un vector con múltiples elementos, tenemos que usar una función llamada función C, ¿verdad? Por lo que esta función C nos permitirá crear y recta con múltiples elementos. ¿Bien? Entonces cuando veas y luego cerramos corchete, y luego dentro de eso podremos escribir nuestros elementos de soporte. Quiero crear el nombre de un país. Supongamos que Alport, Australia, Gran Bretaña. Bien. Sudáfrica. Apoyar elementos digitales. Estoy creando dentro de este vector. Bien, entonces podemos usar la función para crear y vectorizar con múltiples elementos. ¿Verdad? Ahora, solo uso print y pongo Ci. Por lo que esto imprimirá los valores dentro del director. Entonces déjame dirigir esto. Déjame guardar este archivo. Y voy a guardar este archivo como punto Rector. ¿Bien? Y todos estos archivos serán nuestro nivel dentro este directorio de trabajo actual que tenemos comprimidos. Y voy a dar fe de estos archivos. Entonces ya puedes descargar y puedes caminar sobre eso. Bien, entonces déjame ejecutar este archivo fuente. Ahora estamos, déjame despejar esta consola y ejecutarla y ejecutarla de nuevo. Entonces mira aquí ahora estamos obteniendo el valor para el vector t como Australia, Gran Bretaña, Sudamérica y Rusia, ¿verdad? Entonces esto dice, y vector con múltiples elementos dentro de él. Podemos, hemos visto cómo clasificar. Hemos visto como podemos crear nuestro vector con un solo elemento como India. Y nos dará el valor en el cerebro. Nos dará en la auditoría. Así que de esta manera podemos crear y vector y objeto con un solo elemento y podemos usar la función c para crear un vector con múltiples elementos. Y supongamos, si se desea imprimir vidrio de G, ¿cuál será la salida? ¿Puedes adivinar? A ver. Carácter C, los caracteres nulos. Entonces nos está dando el carácter cluster t vector S. Supongamos que si cambio esta t 0, perdón, permítame primero imprimir esta clase de t. Así que el cluster por favor caracter aquí. Ahora lo que voy a hacer, sólo voy a cambiarlo 200, un valor numérico, ¿de acuerdo? Y voy a tratar de correr, traté de ejecutar esto. Y luego voy a tratar de ejecutar esta última declaración C. Y ahora estamos levantando el vaso. B tiene un nómada. De igual manera, si cambio aquí 120367900. Y si ejecuto este archivo fuente, lo que obtenemos, obtendremos el 12367900. Y la clase de G ahora se cambia a numérica. Entonces, cualquiera que sea el dato vaya a usar en función de ese tipo de datos del vector se decidirá no adelantado como la programación C o Java, ¿de acuerdo? Entonces esta es la diferencia entre C y Java n, ¿verdad? Entonces, lo que sea que uses en base a eso, se decidirá. 8. Secuencia en R: En esta conferencia, vamos a aprender sobre la secuencia. Vamos a aprender sobre la función de secuencia en r. Entonces, ¿qué hacemos con la función de secuencia que veremos? Pero antes de eso, déjame decirte una cosa más importante que me he olvidado de incluir en la conferencia anterior, y eso es el apoyo. Estoy creando un vector y usando la función C. Y si como aquí, he creado una función usando solo valores numéricos. Entonces la clase de esto será numéricamente porque todos los elementos son numéricos. Y si le di un carácter y luego voy a dar numérico, y luego voy a pasar por un lógico y luego voy a dar I entero. Y si ejecuto esto, y si primero me dejo llevar esta recta, mira, ya sabes, hola, 67 a través de todo a una cotización. ¿Por qué? Porque si nosotros, si creamos una función de vector z y si uno de los elementos es de carácter, todos los demás elementos con un entero numérico o lógico, se convertirá en una cadena. Entonces si yo, déjame copiar esto, y si pongo vaso de mojado, va a estar entrando en personaje. Entonces todos los demás elementos serán convertidos al personaje. Si algún elemento es carácter, todos los demás numéricos, dios, lógicos o enteros, todos los demás elementos se convertirán al carácter y la clase de ese vector será carácter. Así que recuerda esto, si todo numérico, será numérico. Si toda la clase entera será entera, pero si se mezcla de entero y carácter, el entero se convertirá en el carácter. Si alguien, cualquier elemento es un carácter, todo se convertirá en el personaje. Bien, entonces eso es para aclarar. Lo siguiente es que voy a crear un nuevo archivo script. No sé por qué esto no va a subir. Bien. Eso es algún tipo de errores. No sé por qué. Entonces ahora vamos a aprender sobre la secuencia. Entonces en R podemos crear una secuencia de números como supongamos que quiero crear del uno al diez. Quiero imprimir los números del uno al diez. Eso lo puedo hacer en dos pasos. De dos maneras. Eso lo puedo hacer en dos pasos, pero de dos maneras puedo hacerlo. Puedo usar un operador de dos puntos o puedo usar la función de secuencia. Entonces primero, lo que voy a hacer, voy a tratar de crear una secuencia de números. Lo asignaré a algún valor. Supongamos que quiero obtener la secuencia. Supongamos que voy a decir, a ver, estoy creando una lista, veremos que vamos a estar teniendo valor. Quiero asignarle un valor uno a siete o uno para obtener, o uno a cien. Entonces, ¿cómo puedo hacer eso? Un colon, 100. Si hago un color al 100 y yo, si lo ejecuto, lo que va a hacer, creará una secuencia 1-100. Déjame ver. Ver aquí. 1200 números han sido generadores, por lo que creará una secuencia de números, 1-100. Entonces déjame poner la consola a la derecha. Entonces ahora será fácil de entender y escribir el código aquí y la salida estará aquí. Y déjame, bien. Entonces ahora lo que tenemos que hacer para crear cualquier secuencia, tenemos que dar el primer número desde donde queremos comenzar. Y luego tenemos que dar el número final. Supongamos que si obtengo diez y falló en esta herramienta, creará una secuencia 1-10. Entonces, si queremos crear una secuencia, puedes usar este operador de dos puntos y puedes crear una secuencia de número. Supongamos que quiero crear números 1-20, o quiero crear dos a 20. ¿Cómo podemos hacer eso? Si ejecuto esto, lo que vamos a llegar a ver, vamos a conseguir 2468 hasta 20. Entonces todos y cada uno de los elementos. A los números de secuencia como uno se multiplicarán por 22 se multiplicarán por dos. Así. Vamos a conseguir, bien. De igual manera, puedo crear la secuencia de los puntos. Quería crear una secuencia de 2.5 a cuatro. Yo puedo hacer eso. Si imprimo f c Aquí, estoy recibiendo 2.53, 0.5 porque el siguiente será para valle. Por lo que imprimirá la secuencia a partir de 2.52. Y si uso aquí 40, va a estar dando el ecto 0.53, 0.5 hasta 39 puntos para él, ¿no? De la misma manera, supongamos que quiero crear una secuencia a partir de dos dos dos puntos, 20 menos uno. Y si imprimo D, puedes adivinar cuál será la respuesta? A ver. Ahora estamos consiguiendo de uno a 19. Por qué viene uno a 19 porque nadie va a ser menos de este 1.20. Por lo que en realidad va a generar el número De uno es a 19, a menos 11 y menos 119. Entonces las juntas nos darán el mismo resultado aquí mismo. ¿Bien? Lo siguiente es también podemos hacerlo de otra manera. Puedo usar, perdón. Puedo usar una variable a, puedo asignar un valor ocho. Y entonces lo que puedo hacer, puedo, quiero generar números 1-8. Así que puedo, si ejecuto esta herramienta, lo que voy a conseguir, me meteré en secuencia de números 1-8, ¿verdad? Entonces de esta manera también podemos hacer, podemos asignarle un valor a la variable u objeto e, y luego podemos ponerle uno es a él en lugar de ponerle puñetazo, podemos poner uno es a a. y esto también nos dará el mismo dígito. De uno a ocho números me han generado. Puedo poner uno menos a también y ver cual será el resultado de cero a siete porque lo hará, se generará una secuencia menos 172027. Si pongo un menos uno en paréntesis. Y si trato de ejecutar esto, ahora me sale uno a siete porque esto se ejecutará primero, ¿de acuerdo? Entonces será 7.1 será uno porque no estamos restando éste de aquí. Porque si está en el paréntesis dentro y dentro, al soporte se le darán las preimpresiones más altas. Entonces esto se ejecutará primero. Uno es a siete, significa. Generará números 1-7. Aparte de esto, podemos usar secuencia para crear una secuencia de números para apoyar que te dará SEQ finita y voy a dar una coma, una coma cinco. ¿Qué resultado obtendré? Conseguiré la secuencia de números 1-5, ¿verdad? Del mismo modo, si doy una secuencia de nueve, y qué secuencia diana digital de los números 1-9. Aquí, estoy dando uno a cinco, significa 1-5. Y si no estoy dando el cuarto dígito, lo que tomará, generará 1-9 por defecto, ¿de acuerdo? Esa, esa es la naturaleza predeterminada de la secuencia. ¿Bien? Lo siguiente es que también podemos usar esta función de una manera diferente. Puedo usar de acuoso para suponer 8.2 a 32. Y si lo ejecuto, qué va a hacer, va a generar números a partir de un 32, 32, ¿bien? Del mismo modo, también podemos usar secuencia ya que puedo mantener el número frontal. Entonces puedo dar el número dos, supongamos ocho. Y entonces puedo dar a lo que estos dos irán aquí. Lo hará. Esto se conoce como el paso. Entonces déjame escribirlo aquí. Secuencia asignar a coma, coma grava de apoyo, paso a. Este argumento es paso. Entonces déjame correr esto primero y luego te lo explicaré. Mira aquí lo que estamos obteniendo. Estamos consiguiendo. 24681012. Lo que está haciendo, en lugar de crear una secuencia de 234 hasta 12, lo que está haciendo, está creando, nos está dando sumando dos a cuatro. Hay una brecha a la derecha, porque hemos dado el valor del paso como dos. Entonces dos más 244 más 266 más 28, entonces vamos a diferenciar hasta entre estas dos secuencias. Entonces eso es lo que el argumento paso usuario, este es el paso hacia fuera cuando este es el argumento paso, ¿verdad? También podemos ver otro ejemplo. Supongamos que quiero crear una secuencia de diez, 10-25. Y quiero aumentar la secuencia por vino, siete llamas. Entonces déjame dirigir esto. Cl saudí, lo que estamos obteniendo, consiguiendo, la secuencia de números se está iniciando desde diez porque has dado diez y va hasta el 25. Y lo que está haciendo, es sumar 0.75 en los valores de cada uno o diez, comenzará, luego agregará 0.75, luego 10.75, lo que va a hacer, agregará otro 0.75, 0.5, 12.25. Entonces este byte, siete, cinco minutos , aumentará el valor en 0.75. Supongamos que si hago esto por tres, qué va a hacer, agregará 101-316-1920, 2.25. Si aumento esto en valor a cinco, lo que va a hacer, va a 1015, 2025 así. ¿Bien? Entonces de esta manera podemos generar la secuencia. Hay otra cosa que se llama longitud. Entonces supongamos que quiero crear números 25-50, y quiero mantener la longitud igual a seis. Lo que va a hacer aquí, nos está dando a partir del 25, luego 630, luego 35.40, 45, y luego 50. Por lo que generará una secuencia de seis números entre 25. Y si lo hago, supongo, entonces lo que va a hacer, va a generar los números 25, 27. Entonces lo que va a hacer, 25-50, va a generar diez números con la igualdad, como 205-20-7303 punto, algo así. ¿Bien? Si le di 100, va a generar cientos de secuencias, ¿verdad? Si se lo di a uno, lo que va a hacer, va a generar sólo un número 25-50. Si doy dos, va a generar dos números. 25.50. Si me quedo con tres, estará en dividirlo por tres, vea un 2,537.5 y 50, ¿bien? Así. Por lo que intentará generar tres secuencias, 25-50. 9. Función replicar: En esta conferencia, vamos a aprender sobre la función replicar. Entonces, qué función replicar hará. Entonces usaremos esa app rep significa que replicar y cuando queremos replicar algo. Entonces, entonces déjame mostrarte con un ejemplo. Entonces supongamos que quiero crear una secuencia donde quiera repetir 58 veces. Voy a usar esa función y voy a dar cinco que quiero repetir. Y aquí voy a dar tiempos tres veces 28. Entonces, lo que hará esta función Replicar, se repetirá cinco veces. Entonces lo que ves aquí, 5558 veces. ¿Bien? Entonces esta función Replicar replicará el mismo número. Replicar significa repetir, se repetirá ocho veces. Del mismo modo, también podemos usar caracteres. Apoyo que nos va a dar. Y luego voy a especificar tiempos iguales a tres o dos. Imprimirá tres ds, ds, ds, ds. Se creará una secuencia de BSD SDS tres veces. ¿Bien? Así que recuerda esto, lo que sea lo que estemos dando aquí, se agotará por número de veces, ¿de acuerdo? De la misma manera podemos usar incluso, podemos pasar el objeto a la otra función de aplicación. Supongamos que quería, he creado para apoyar la función de replicar arte. Quiero crear una variable R. Bueno, quiero generar la secuencia 3-6. Entonces lo que este tres a tres a seis vamos a hacer impar. Si imprimo se creará 34568 soporte. Yo uso la función replicar aquí. Y lo que voy a hacer, voy a pasar este arte podría replicar. Y aquí se obtiene veces dos veces. Lo que hará esto repetirá esta secuencia, 3-6 dos veces. ¿Bien? Entonces si ejecutamos esto, lo que va a dar, obtendrá 3456 y luego otra vez 32562 veces. Si lo hago tres, esta secuencia se repetirá tres veces. Entonces 3456, nuevamente 3456, y nuevamente 3456. Entonces número de veces se repetirá, toda la secuencia se repetirá tantas veces, ¿verdad? De la misma manera que tenemos, perdón, tenemos otro argumento aquí. En esa función de aplicación. Es decir, supongamos que voy a usar nuestro mismo objeto son, y quiero aplicarle cada uno a él. Si aplico cada año, he aplicado tiempos iguales a tres. Ahora estoy aplicando cada uno igual a dos. Entonces qué va a hacer, vamos a ver. Supongamos que dirijo esto. Lo que está haciendo. Es el, cada elemento 3-6 se repetirá dos veces, y luego pasará al siguiente número de meses, significa tres, dos veces 33, luego pondrá 44, luego 55, luego 663-344-5566. Entonces cada elemento se repetirá y luego se procederá al siguiente elemento. Y antes en el tiempo, lo que se repetirá cada elemento. ¿Aquí? Cada elemento se repetirá, y luego pasará al siguiente elemento. Y aquí se repitió toda la secuencia. 3456, luego 3456 otra vez. Y sin embargo, 3344 apoyó nuestro retrato. Tres, lo que va a hacer, lo hará, cada elemento será el protector, tiempo 333444, luego 555666. Entonces esta es la diferencia entre tiempos y cada uno en la función replicar. En la función replicar hay dos argumentos veces entonces cada vez repetirá toda la secuencia que muchas veces. Y cada voluntad, cada elemento se repetirá para esto muchas veces. Y entonces la secuencia se creará como 333444, así. 10. Acceder a los elementos vectoriales: Hola y bienvenidos de nuevo. En esta conferencia, vamos a aprender sobre el acceso a elementos vectoriales. Hemos visto como podemos crear vector en R. Ahora lo que voy a hacer, voy a crear y vector Henry tratar de acceder al elemento de vectores. Veremos cómo podemos acceder a los elementos vectoriales en R. Así que para eso, necesito crear un archivo y le voy a dar un nombre. Ric punto R. ¿Bien? Ahora lo que voy a hacer, voy a crear un rectángulo con un nombre, mes. Y para el vector mes, lo que Alice alto y bajo. Meses. Enero, febrero, marzo, abril así. ¿Bien? La función c, y voy a tratar de almacenar los valores ene. Lo que estoy haciendo aquí, estoy creando y vector, y estoy instalando ese vector en el mes del objeto, ¿de acuerdo? Y entonces, ¿cuántos almacenando los valores? Enero, febrero, hasta diciembre. Bien. Ahora hemos creado y recta cómo accederemos a los elementos del vector. Entonces para eso, lo que voy a hacer, déjame despejar la consola aquí para que podamos ver el resultado aquí. Entonces, si corro esto y corro mes, enero a diciembre, ¿bien? Entonces, ¿y ahora y si quiero acceder a la app play? Agosto o septiembre así, bien, para eso, lo que tenemos que hacer, puedo crear puedo crear otra herramienta de mes de soporte vectorial. Y para esto, lo que voy a hacer, voy a mes enorme. Y era el tramo mayúscula y sólo ves función. Y dentro de la función C, me quedaré con el índice para el soporte este 1 de enero de 2344. Coma siete. Coma nueve. Bien. Entonces, um, quiero acceder al mes por 7.9 y una herramienta de fray print month. Entonces, si ejecuto estos dos, lo que obtenemos ahora estoy obteniendo abril, julio y septiembre porque lo que el índice es cuatro, luego 567 para julio y para septiembre es nueve. Así que de esta manera podemos llamar a nuestro acceso los elementos de una función vectorial. Un vector. Así vector objeto podemos acceder como la X sería si se quiere acceder a elemento particular. Eso se puede hacer. Si lo cambio a tres, capa uno y dos veces. Y si ejecuto estas dos declaraciones, lo que lleguemos a ver, sí, obtendremos March y luego normales y voltearlas es lunes, mayo. Entonces así, podemos acceder a los elementos vectoriales. También podemos x es los elementos vectoriales usando lógica usando indexación lógica. Cómo hacer eso. Así que supongamos que voy a crear otro objeto, mes tres y soportado a qué mes quiero acceder cada mes. Y el corchete mayúscula y dentro de la función C, lo que voy a hacer, primero voy a dar soportes true, y luego voy a dar false. Y luego me voy a poner falso. Entonces voy a ser verdad. Entonces supongamos que estoy pasando estos cuatro valores, verdadero, falso, falso, verdadero. Y si yo, si imprimo el mes tres, ¿qué pasará? Déjame correr esto y ver el resultado. Lo que estamos consiguiendo, lo estamos consiguiendo ene. el primer mes es Jan plato verdadero. Entonces está imprimiendo aquí. Después el siguiente Falso, Falso. Entonces febrero, marzo será falso, significa que no lo será, no estamos accediendo a febrero y marzo, ¿verdad? Entonces estos dos valores no estarán ahí también. Es febrero, marzo no está impreso aquí. Entonces para el cuarto a esta verdad. Entonces estamos llegando a cuatro. Y luego el resto de elemento que no hemos dado. Entonces viene ya sea mayo, agosto y septiembre. Se está repitiendo. Entonces, supongamos lo que está haciendo. Es de nuevo, haciendo la misma pelea en esto. Janet Gran Bretaña alcalde gas septiembre y diciembre. Entonces está repitiendo la cosa. Bien. Lo siguiente es lo que podemos hacer. Podemos usar indexación negativa. Entonces supongamos que voy a crear otro objeto, mes para y lo que voy a hacer, vamos a asignar para el mes para mes de alcohol, y al menos ver función. Y aquí hay un proyectil que da menos dos coma menos cinco. Entonces, qué va a hacer esto y apoyar imprimir mes cuatro. Y si ejecuto estos dos, ¿qué pasará? Estoy consiguiendo Jan March y luego tal vez no, Hay febrero y mayo no impreso porque menos dos significa la segunda indexación menos dos que cada febrero, febrero no sea no queremos acceder menos dos y -5 min el segundo mes y el mes al que no queremos acceder excepto que todo lo demás se imprimirá. Bien. Por lo que no se imprimirán febrero y mayo. Consulta aquí, febrero y es posible que no lo imprima. Acepte que todos los demás estén impresos. Si pongo -12, entonces diciembre no se imprimirá también. Entonces ahora la norma ellos alguien no está ahí. Entonces, si quieres acceder a elementos y si queremos dejar algunos elementos, puedes usar dopamina para ese índice y no se imprimirá. 11. Manipulación vectorial en R: Hola y bienvenidos de nuevo. Entonces en esta conferencia vamos a aprender sobre la manipulación vectorial. Entonces veremos cómo podemos formar una lesión dentro de los elementos vectoriales. Cómo podemos sumar dos vectores, cómo podemos restar dos vectores, cómo podemos realizar la división dentro de dos actores. Y veremos cómo podemos hacer multiplicación de los vectores. Entonces comencemos. Entonces voy a crear un archivo de script R y le voy a dar un nombre. Muchas manipulaciones tontas. Bien. Entonces déjame despejar la consola aquí para que podamos ver correctamente. Bien, entonces primero lo primero, lo que voy a hacer, voy a realizar automático, muchas veces no es dentro de dos con dos vectores. Entonces primero, primero, lo que vamos a hacer, vamos a crear dos vectores, vamos a crear, apoyar nuestro vector F1. Y voy a crear un vector, el vector F1. Y lo que voy a hacer, voy a asignar algunos valores. Supongamos que aún no lo están, 95 algo. Bien, entonces voy a crear un vector, F1 y copiar y pegar. Y voy a crear otro vector, F2. Y vamos a llegar a alguna parte cargas como a tipo D y 20. ¿Bien? Eso va a dar, bien. Entonces ahora tenemos dos vectores, F1 y F2. Quiero realizar suma. ¿Bien? Lo que voy a hacer, voy a crear otro vector, otro objeto a. y lo que voy a hacer, voy a asignar F1, el F1 más F2. Entonces, lo que estoy haciendo aquí, estoy agregando estos dos vectores, F1 y F2 y asignándolo a objetar a. Bien, entonces ahora lo que voy a hacer, voy a imprimir a. Entonces déjame ejecutar este n. Así que ya terminaste digitalmente. Ves ya sabes, ¿qué me va a dar? Estoy obteniendo el resultado 24, 24, y más 212. primer elemento de estos dos vectores Se agregará el primer elemento de estos dos vectores, 12 más 214. Entonces 78 más ocho es 690 más 31, 25 más 25, 30. Entonces de esta manera podemos realizar una región. Supongamos que quiero realizar algunas pistas y lo que voy a hacer sólo voy a copiar esto. Realmente di con los inquilinos ese día. Sí. Y voy a traer lágrimas y y lo que voy a hacer, haré F1 menos F2. Entonces F1 menos F2. ¿Si hago qué portón trasero? Ver estoy recibiendo 107060 y -20 y otra vez, 12 menos 21078-70, 90 -30, 65 -25, 20. Entonces de esta manera podemos realizar la resta de la misma manera. Si y Su multiplicación, voy a crear sobre m y qué baja F1 y F2. E imprimiré, si ejecuto esto, lo que obtendremos obtendrá 12 cuando dos a 24, 78 en 862490 en 3027005205125. De igual manera, podemos realizar la división. Entonces supongamos que creo un vector d y lo que haré F1 dividido por dos. E imprimiré trato. Y si ejecuto esto, lo que te voy a enfermar por dos al 678/9, 0.759, 0.7, 5.90, 233 5/25 es 0.2. ¿Bien? Entonces de esta manera podremos realizar una resta, multiplicación y división decentes . Entonces déjame escribir aquí, esto es multi aplicación. Y entonces esta es la región. Entonces de esta manera podemos realizar suma, resta, multiplicación y división en el recto. Y a esto se le llama manipulación vectorial. 12. Reciclaje de elementos vectoriales: Hola y bienvenidos de nuevo. Entonces en esta conferencia, te voy a decir algo que no tengo del todo, no te has enseñado en la conferencia anterior. Y esa es una pregunta muy singular que podrías haberte preguntado si se trata de una clase física o fuera de línea. Y debes haber entrado en, esta pregunta, podría haberte venido a la mente también. Entonces supongamos que tengo dos vectores, F1 y F2. Y F1 está teniendo cuatro elementos, y F2 está teniendo sólo dos elementos. ¿Y si voy a añadir estos dos vectores? Supongamos que voy a realizar condiciones iniciales a F1 más F2. Entonces aquí cuatro elementos y aquí dos elementos, una lista. Entonces, ¿cómo va a hacer? Entonces en R, si tratamos de realizar F1 más F2, si tratamos de sumar dos vectores desiguales, entonces el segundo vector, que es de menor longitud, significa que el vector sorta será, los elementos serán reciclados para hacerlo oscuro longitud del primer vector. Entonces, en este caso, ¿qué pasará? El vector se volverá así. Internamente. ¿Qué? F2 será como dos coma ocho. Coma dos, coma ocho. ¿Bien? Así que f dos se convertirá en algo así, ¿de acuerdo? Tú también, se repetirá hasta que haga el número de elementos en la F1. Entonces hay cuatro elementos, por lo que se repetirá a él, a ello. Entonces esto se convertirá en algo así. Y luego realizará la operación automática. Déjame correr esta tierra de mano con la que me ocupé que vas a tener una mejor idea. Déjame aclarar esto y dirigir esto. Ver aquí. Ahora el resultado es 14, 86, 90 a 13. Cómo más cuatro, perdón, dos más dos. Lo siento, 12 más 214. Y luego 78 más 886, y luego 90 más dos. Porque los dos, se repetirá. Así 90 más 292.5 más 813. Entonces esto se volverá así. Si agrego aquí un elemento más, supongamos 80. Y si ejecuto esto, ¿qué pasará? A ver. Mira aquí estamos recibiendo un error aquí. La longitud de objeto más larga no es un múltiplo de la longitud del objeto inicial. Significa ahora ver todavía por. Este elemento es un fourt hasta está teniendo dos elementos. Dos elementos. Y F1 es divertirse es tener variables phi, ¿verdad? Nos estamos endeudando. El segundo, el primer elemento a esto es tener dos elementos y este es tener cinco. Entonces cinco no es un múltiplo de dos, ¿verdad? Por eso estamos llegando a porque dos, si divides cinco por dos, obtendrás ese resto uno. En este caso, esta reputación no funcionará. Pero si agrego un elemento más, supongamos siete. Y si traté de ejecutar esto, esta vez va a funcionar. Ahora estamos consiguiendo el gráfico porque ahora el número de elemento es seis aquí. Y el segundo es 22268/2, ¿verdad? Seis es Múltiple hasta la primera L. Elementos más largos, vectores más largos tendrían la marca. Tantos números. Número de elementos sería aplicación múltiple ¿ ciertos elementos les gusta seis, verdad? Entonces seis es el multipolar a esta función, esta multiplicación o división o suma que puedes realizar. Pero si son cinco, entonces dos no serán el phi no será el múltiplo de dos, y arrojará un error como este. ¿Bien? Entonces espero que lo consigas. De igual manera, si quieres realizar multiplicación, eso también puedes hacer. Aquí, estamos consiguiendo la división de multiplicación, Todo estará hecho. Entonces el reciclaje de elementos ocurrirá solo si más suaves sean los elementos en el vector más largo es el múltiplo de los elementos en el vector ordenado. Entonces vectores más largos, número de elementos sería el múltiplo de esos elementos, ¿de acuerdo? Número de elementos sorta. Bien. Espero que sea claro para ti. 13. Ordenar los elementos vectoriales: Hola y bienvenidos de nuevo. Por lo que en esta conferencia vamos a aprender acerca de quién es la clasificación de vectores. Entonces veamos cómo podemos ordenar los vectores. ¿Bien? Entonces lo que vamos a aprender, vamos a hacer clasificación recta. ¿Bien? Entonces para esto tenemos una función llamada sort. Así que vamos a usar la función sort. Entonces primero lo primero, déjame crear y vector 0 naufragio. Y para esto, voy a dar algún número aleatorio, 349-082-7543, algunos números aleatorios. ¿Bien? Y supongamos que quiero ordenar estos elementos vectoriales. Entonces lo que puedo hacer, simplemente puedo crear otros objetos son naufragio. Y lo que voy a hacer, voy a llamar a las barras de función sort esto lo que es vector nulo a la función sort. Y lo que va a hacer esta función de ordenación. Se iniciará este vector. Y entonces lo que voy a hacer, simplemente voy a imprimir inicio. Entonces aquí estoy imprimiendo el vector ordenado y este es el recto adicional. Y estoy pasando este vector a la función sort, y luego estoy imprimiendo el valor del vector ordenado. Ejecutemos esto y veamos que definitivamente quede claro esta terminal y vuelva a ejecutarlo. Verás, ya sabes, estamos obteniendo un vector ordenado. Entonces 349, 273-043-6408. Por lo que se ordena en orden creciente. Entonces por defecto se ordenará en orden creciente. Entonces los elementos más bajos se moverán primero y luego seguirá aumentando. ¿Bien? Así que de esta manera podemos ordenar y vectorizar en R. ¿Y si quiero ordenar esta corteza? Quiero en orden decreciente. Entonces para eso, lo que puedo hacer, puedo usar la misma función sort. Y aquí lo que voy a hacer, sólo voy a seguir disminuyendo, disminuyendo. Es lo lógico. Y si, voy a dar verdad. Entonces disminuyendo, voy a mantener el inconveniente porque por defecto es falso. Y eso va a hacer. Incrementando el orden, ¿verdad? Orden ascendente. Por defecto, se ordenará en orden ascendente. Entonces lo que voy a hacer, voy a hacer ellos creando verdad cultural significa que ordenará el vector en orden decreciente. Así que vamos a ejecutar esto y ver ahora esta clasificación en la limpieza o un 98 primero, luego 463-06-3420, 79.4. Así que de esta manera podemos ordenar en orden decreciente. Lo siguiente es que vamos a ver clasificación de carácter, carácter, recto de carácter. Entonces eso también podemos hacer suponer que tengo un rectángulo, uno, que es tener algunos valores como para algunas cosas aleatorias. Y el país rojo, azul. Cualquier cosa en forma de personaje. Bien, entonces este es el vector de caracteres. Es tener valores en carácter. Y supongamos que quiero ordenar esto y quiero almacenar el valor del vector ordenado en el veterinario para que funcione. Llamaré a la función sort y pasaré esta recta a la función sort. Y si ejecuto estas dos líneas, ¿qué algoritmo? ¿ Qué es lo que te gusta? Déjenme llevar a esta herramienta de impresión. Entonces si ejecuto esta línea, lo que nos gusta y te pones azul, entonces country que cuatro, luego ahogo, dendrita. Por qué es así porque B, luego C, luego F, luego r. bien, Así será en orden alfabético. ¿Y qué pasa si quiero clasificar ? Pero era más duro. Te puedo dar una llamada decreciente para dibujar y ahora ver eso merecido. Es cuando empezamos a sonrojar son entonces f, luego C, y luego B. Así que D debe resolver la pobreza algodón, será así podremos ordenar los vectores, tanto el carácter como el número, ¿bien? 14. Toma de decisiones en R: Hola y bienvenidos de nuevo. Entonces en esta conferencia vamos a aprender sobre la toma de decisiones en nuestro, en nuestros otros lenguajes de programación. Tenemos la declaración if, tenemos if else, y tenemos sentencia switch. Con eso, podemos realizar la toma de decisiones. Si una sentencia significa si algo es verdadero, entonces se ejecutará la siguiente declaración. Y se sintió significa si algo es cierto y si estás dando una condición y esa condición no se cumple, entonces se ejecutará la sentencia else. Switch verá cómo probará la variable para la igualdad. Aquí está la lista de valores, así veremos si más. Y luego veremos el interruptor. Así que permítanme crear nuestro archivo script aquí. Y voy a darle un nombre a esto. Toma de decisiones, arte oscuro. Algas. Déjame despejar la consola para que podamos ver que el gel. Entonces primero lo que veremos, ya veremos si lo siento, necesito escribir aquí primero. Veremos si declaración. Bien. Entonces primera realidad, si declaración. Y si es, si es pluvial, es consistente, consistente. Ahora expresión booleana y siguiente declaración. Entonces, si la expresión booleana es verdadera, entonces se ejecutará la siguiente declaración. Apoya lo que voy a hacer aquí. Voy a crear un objeto a, y voy a asignar un valor 67. Puedes escribir cualquier cosa, ¿de acuerdo? Y lo que voy a hacer, voy a escribir si declaración, si es decir menos de 70, entonces lo que voy a hacer, voy a tratar de imprimir es menos de 17. ¿Bien? Supongamos que esto es lo que quiero realizar. Entonces, si ejecuto esto, ¿qué obtendré? Ver ese resultado que estoy obteniendo es menos de 70. Supongamos que si cambio este valor a 75, 75. Y si traté de ejecutar esto, ¿qué pasará? No voy a obtener ninguna salida porque E es 75. Y si voy dentro de esta declaración if, va a estar cosiendo un menos de 70 es mayor que 70. Por lo que no entrará en esta declaración. No cumplirá perro si condición y esta declaración no se imprimirá, ¿verdad? Entonces esto se llama declaración IF, ¿verdad? Del mismo modo, puedo escribir como un entero de punto. Entonces la otra parte es entera, y luego voy a pasar E. Y una luz es. Entonces déjame correr esto porque aquí es un numérico. Y lo que estoy probando todavía, si es un entero, entonces necesito imprimir es un entero, ¿verdad? Si pongo, haz de esto un entero, tendiendo igual a 75 L. Y si ejecuto esto, mira, ahora a es un entero. Será la pintura. De esta manera. Si esta condición se cumple a través, se imprimirá esta declaración posterior. ¿Bien? Del mismo modo, podemos poner aquí una declaración else. Si cada entero, entonces se imprimirá esto. Puedo imprimir alguna otra cosa. El lago es nómada. Bien, entonces si corro, esto es un entero. Si cambio esto a numérico, y si vuelvo a ejecutar esto, lo que obtendremos, lo que obtendremos es numérico. Déjame intentarlo. Si toqué todavía es numérico. Y si ejecuto esto, ¿qué pasó? Bien, tengo que poner esto. Y si ejecuto esto, string es un entero. Necesito cambiar la declaración aquí, Nueva Reliquia y aquí entero ¿verdad? Ahora. Porque a es nómada, esta condición se está haciendo realidad. Entonces es la impresión es nómada, tasa es numérica, es Nómada. Y esta afirmación no lo es, no va a la otra parte. Así que de esta manera podemos poner una por ahora veremos sentencia switch. La sentencia switch. Así que vamos a cambiar la declaración supondrá que tengo un vector D y voy a usar switch. Y luego ideas a través de lo que voy a hacer. Voy a apoyar cuatro coma uno. Y voy a dar 2345. Y luego cerraré el interruptor. Entonces si pongo en d, qué valor vamos a obtener. A ver. Cuando te den cuatro, porque estoy pasando por lo que va a hacer la declaración de cambio de lo que va a hacer. Pasará al cuarto valor, e imprimirá ese valor. Entonces un año para hay 1234, por lo que imprimirá cuatro. Supongamos que estoy escribiendo aquí otra cosa. Hola. Entonces se imprimirá este hola. ¿Bien? Déjame mostrarte esta impresión hola. Y supongamos que si hago uno o dos, va a estar imprimiendo a, irá a la correspondiente por favor. Bien. Hasta el momento dos, irá a la 12. Se imprimirán estos. Para tres, irá al hola por cuatro, irá al hola. Cinco, se imprimirá 55. Entonces lo que va a hacer, una sentencia switch permite que un valioso sea probado para la igualdad contra la lista de valores. Entonces estos son la lista de valores. Y para ellos, la indexación es de 1,234.5. Sea cual sea el índice que le dé, ese valor del índice se imprimirá. Supongamos que di tres. Por lo que se imprimirá el valor del índice tres. 3 min, 1233. ¿Comprarás un regalo para? Entonces se imprimirá hola. C. Entonces de esta manera podemos usar sentencia switch en el corazón. 15. Control de lazo con repetir y mientras se usa el loop: Hola y bienvenidos de nuevo. Entonces en esta conferencia vamos a aprender sobre la declaración de bucle en nuestra, ¿qué es un bucle? Un bucle es una función. Se puede decir un bucle. Con un bucle, podemos ejecutar una sentencia o grupo de sentencias varias veces. Entonces cuando ponemos loop, cuando ponemos una sentencia dentro del loop, se ejecutará varias veces hasta que se cumpla la condición, ¿verdad? Hasta que a menos que esté satisfaciendo la condición se mantendrá en bucle la misma declaración una y otra vez. Así que una sentencia loop nos permite ejecutar una sentencia o grupo por grupo de sentencias varias veces. Y hay tres tipos arriba. Hay tres tipos de declaración de bucle en R. El primero es reputado, el segundo es un bucle while. Y entonces tenemos el muy popular one loop. Entonces lo que voy a hacer, primero comenzaré con un bucle repetido. Entonces veamos qué es repetir loop en R. Así que supongamos que tenemos un recto que está teniendo los ferrocarriles apoya a la India, Burton, ¿de acuerdo? Así. Entonces voy a decir un poco más tarde. Entonces tenemos n vector que está teniendo valores India, EU y Gran Bretaña. Y supongamos que estoy tomando otra ruta capaz, supongamos que le di un recuento de nombres. Y lo estoy dando como apoyo para Kant igual a cuatro. Y entonces lo que voy a hacer, fue la función de pies sucios aquí. Y quiero imprimir el vector de número particular de tiempo. ¿Bien? Entonces lo que voy a hacer es imprimir informe que di. Si cuentas aquí, si contar es menos de diez, entonces lo que quiero hacer, quiero imprimir rec. ¿Bien? Entonces dirán Qué letra. Entonces, si ejecuto esto, ¿qué pasará? A ver. Nos vemos. Seguirá imprimiendo esto porque el conteo es para y para qué condición he dado. Me dan si la cuenta es inferior a diez, así que este Ford siempre será menor a diez, ¿verdad? Entonces lo que voy a hacer, voy a usar aquí contar, contar más uno. Entonces cada vestido y yo aumentaré el valor de conteo a uno. Ahora, déjame parar esto. Y déjame volver a ejecutar este código. Ahora mira lo que pasa. Lo imprime 123456 veces y es el extremo. La primera vez que vendrá. El conteo es igual a cuatro. Por lo que se imprimirá cada vez que vayas de nuevo. Así que el conteo se convertirá en cinco. Entonces otra vez imprimirá cuatro. Después 54678 hasta nueve. Después extranet, el conteo se convertirá en diez. No va a imprimir, va a imprimir 45. Se imprimirá 445,678.9. Entonces en cuanto a la corriente neta se convertirá en diez, saldrá de este bucle. Entonces este es el bucle habitual. ¿Bien? Así que de esta manera podemos usar el bucle de repetición, ¿de acuerdo? De la misma manera, intentaremos usar el bucle while. Entonces lo que voy a hacer, voy a enorme salvaje. Y de nuevo, el recuento de Waterloo es menor de lo que se supone. Si bien el conteo es menos de ocho, lo que voy a hacer, voy a imprimir condados senior para y lo que le estoy dando un conteo menor a ocho, entonces va a imprimir wake y aumentará el conteo mientras bucle bien en uno. Entonces, si ejecutamos esto, obtenemos India-U.S. cuatro veces, ¿verdad? Debido a que va a imprimir 44, se imprimirá perfil. Se imprimirá para seis, se imprimirá 47. Y en cuanto el conteo se convertirá en ocho. Saldrá de este bucle while. ¿Bien? Así que de esta manera podemos usar el bucle while. 16. Para obtener un lazo y la siguiente declaración: En esta conferencia, vamos a aprender acerca de for loop en R. Así que supongamos que estoy creando un vector d rectalmente, que estará conteniendo algo así como dos a 20, ¿de acuerdo? Tableros, si traigo t me darán los números 2-20. ¿Bien? Ahora lo que voy a hacer, voy a escribir aquí, voy a hacer. Voy a usar una variable i en D. Así que por cada valor de I en el, para cada valor en este vector d, Lo que quiero hacer, quiero imprimir, ¿verdad? Y luego quiero hacer yo más uno. Yo igual a I más uno. Déjame, bien. Diré con carta. Entonces déjame correr esto y ver qué estamos obteniendo. Lo que estoy recibiendo, estoy recibiendo 234 hasta 20. Entonces lo que está haciendo, es comprobar si este yo, en el, para i, va a ser 11 no está ahí, entonces lo va a aumentar en uno. Entonces vendrá y comprobará aquí también, es que en D dos, entonces volverá a hacerlo, yo igual a tres, luego imprimirá tres. Así. Imprimirá 20 y luego saldrá del bucle. Así que de esta manera podemos usar el for-loop, ¿verdad? De la misma manera lo que puedo hacer. Si pongo aquí algo sencillo. Voy a quitar esto. Y si, ¿qué más hacer? Puedo poner condición de montón aquí dentro. Si llamo también, Apoyo 15, entonces voy a, lo que voy a hacer, voy a imprimir, escribo. Si me igualo a 15, imprimiré. He cambiado aquí, voy a poner a continuación. Y luego voy a imprimir. Imprimir, derecha. Entonces nos vemos, ¿qué va a pasar? Déjame correr esto para por qué nos estamos metiendo en esos. Esto lo hemos vuelto a hacer. ¿Qué, qué está pasando aquí? Quiero cada valor y yo, está imprimiendo esto, pero está comprobando el valor. Si llamo a dos aviones, lo hará. Qué hacer el siguiente. Entonces aquí se ve 2345678 hasta 13, 14, está imprimiendo correctamente y luego es pensar, bien, yo igual a 15. A continuación, Siguiente significa que se saltará esta titulación. Por lo que aquí no se imprimirán 15 porque el próximo mes se saltará este trazador. Entonces llamé a una preimpresión significa esta dirección y nos escaparemos y la huella no se imprimirá. Y luego irá a la cisteína y luego 161-718-1920, reimpreso. Entonces el mes que viene, se saltará que me vista. Y entonces si uso aquí, supongamos 17, entonces se omitirán las titulaciones 17. Imprimir 16, 17 no se imprimirán, y 18, bien, Así que si quieres saltarte un nitrógeno puedes usar el siguiente. Espero que tengas la idea de cómo usar a continuación. Nos vemos en la próxima conferencia. 17. Funciones en R: Hola y bienvenidos de nuevo. En esta conferencia, vamos a aprender funciones en R. En R hay dos tipos de funciones. Entonces, una es funciones incorporadas, funciones incorporadas y la otra son funciones definidas por el usuario. Definido. ¿Bien? Entonces hay dos tipos de funciones, funciones incorporadas y funciones definidas por el usuario. Entonces primero, déjame decirte qué es una función. La función es en realidad como si queremos ejecutar o algún grupo de declaraciones y realizar algunos cálculos, queremos Nuestro hacer algo. Entonces es básicamente como una función es una palabra clave. Y en V funcional básicamente por diversión grupo de declaraciones, ¿bien? Nuestro grupo de funciones de cálculos grupales. Realizaremos algún cálculo o haremos algo que sea una función. ¿Bien? Entonces déjame decirte la estructura básica de una función. Entonces supongamos que nuestra función toma, supongamos que esta es una palabra clave de función en R. Y lo que se necesita, se necesitan argumentos, ¿verdad? Entonces se necesitan argumentos, por lo que puede tomar cualquier número de aumentos aumentados, uno, coma dos. Entonces esto va a ser una función, ¿de acuerdo? Y en esta función podemos hacer cualquier cosa con estos argumentos, ¿verdad? Supongamos que estos argumentos pueden tener algunos valores, así puedo apoyar, puedo usar algunos de estos para aumentar, así puedo realizar aumento uno más dos. Y me puede gustar imprimir algunos de estos 12 meses tres. Entonces esta es una función donde lo que estoy haciendo, estoy realizando algunas de estas para aumentar, aumentar y aumentar a, y estoy encontrando algunas de estas para aumentar una herramienta más Segmento. Entonces esta es una función y puedo llamar a esta función pasando el argumento. Entonces supongamos que voy a dar algún nombre a esta función, alguna función, y asignarle esta, toda esta función. Y le voy a dar un nombre, alguna función. ¿Bien? Ahora, ¿qué puedo hacer? Puedo llamar a esta función ¿verdad? Encabeando los dos argumentos, argumento uno, argumento dos. Para que pueda divertirme un poco. Y aquí puedo realizar tres comas seis. Puedo pasar. Si ejecuto esto, déjame correr el primero bajo algo de diversión esto. Y luego ejecuto esto, mira, Bien, sí, halcones uno, lo es. Así que déjame ejecutarlo de nuevo. Y si llamo a la función pasando, bien, esto también está mal saudí por este error. Y si llamo a esta función pasando estos dos argumentos, 3.6, obtendré el resultado como nueve, porque tres más seis a nueve. Entonces esta es una función definida por el usuario, mano derecha, ya hemos visto función incorporada. Entonces, ¿cuáles son las funciones incorporadas que hemos visto, hemos visto secuencia como secuencia una coma ocho. Y esto nos dará la secuencia de los números 1-8. Entonces esta función de secuencia es una función incorporada que tenemos en nuestro, así que esta es una función incorporada ejecutándola. No necesitamos escribir un programa para imprimir los números 1-8. Esto va a hacer automáticamente porque en esta secuencia la función se ha escrito detrás, como en la coda lejos que está, se ha definido que cuando usamos secuencia y vamos a proporcionar dos argumentos. Una es ayudar, generará los números 1-8. Entonces eso ya se ha definido y por eso se les conoce como, conocido como enorme, perdón, funciones incorporadas, ¿verdad? Entonces estas son funciones incorporadas la manera similar que hemos visto algún verano. Uno es 28. Y esto nos dará la suma de números de uno a él. Nos dará las estadísticas de resultados de la misma manera. Tenemos la función principal. Entonces estoy escribiendo, sí, quiero decir, como supongamos que voy a llegar al número 23, coma 90, 87. Y si no me vi y vamos a leer 23 también puede significar dos coma nueve. Y el dental gratis, voy a conseguir 5.5. Así que podemos usar doc significa alguna secuencia de todas estas funciones incorporadas. Así que hemos visto que estos anuncios son de función definida por el usuario, definida por el usuario. Y esta secuencia y algo de agua. Funciones incorporadas. ¿Bien? Ahora lo que voy a hacer, podemos ver cómo podemos llamar a esta función de suma. ¿Bien? Entonces déjame copiar esta suma. Entonces podemos llamar a esta función aportando aquí los argumentos. Y también podemos llamar a esto como x, uno a cuatro coma dos a nueve. Ahora me estoy poniendo 13 de esta manera también, podemos, esto es y posición y esto es variar el argumento, nombre, argumento, el argumento uno igual a. Para que un argumento sea igual a nueve, así podemos aportar. Entonces esta es otra forma de llamar a la función, ¿de acuerdo? Ahora lo que voy a hacer, voy a escribir nuestra función para encontrar la plaza arriba ciudades no tienen nadie de series de números. Entonces lo que voy a hacer aquí, te voy a matar. Función silenciosa. Y lo que voy a pasar a esto y pasar un número por mano. Lo que voy a hacer, voy a crear una secuencia de números, así que voy a usar el bucle for aquí. Y lo que voy a hacer por mí en un a diez, bien, así que sea cual sea el número este va a ser de ese número a diez. Quiero crear una secuencia numérica de números. Y entonces lo que quiero hacer, quiero asignar, renuncio. Quiero cuadrar el valor I y asignarlo a b. Y luego quiero llevar al valor b, ¿de acuerdo? Entonces esta es la función función raíz cuadrada que estoy definiendo aquí. Y ahora lo que voy a hacer, voy a llamar a esta función cuadrada pasando un soporte numérico para lo que va a hacer. Primero creará los números 4-10, y luego requerirá 45678 hasta diez, e imprimirá los números. Bien, entonces déjame dirigir esto. Mira aquí estamos consiguiendo cisteína. El primer número será 44 cuadrado 16, luego imprimirá cisteína. Entonces el siguiente número será cinco. Imprimirá 2055 al cuadrado 25, y luego 630-67-4097 al cuadrado. 409849 es cuadráticamente 1.10 cien cuadrados. Así que de esta manera podremos crear una función sencilla que encontrará esta tranquila serie de números. Entonces el número de Syriza es cuatro a diez y estamos llegando aquí cuatro a diez cuadrados. Cada número será cuadrado y vamos a estar consiguiendo lo siguiente es lo que voy a hacer. Voy a encontrar la suma del número par. Entonces voy a escribir un programa para encontrar algunos de los números pares entre dos números. ¿Bien? Entonces qué voy a hacer, supongamos del uno al diez. Primero quiero encontrar uno a número par, 1-10, suma de números pares, ¿de acuerdo? No es una suma cuadriculada de los números pares. ¿Bien? Entonces lo que voy a hacer, voy a escribir una función suma de función par. Y lo que voy a hacer, voy a escribir aquí, primero, voy a generar el número par. Y cómo generar número par. Y ves alginato uno a diez número par. Entonces lo que voy a hacer, multiplicaré el número por dos. Por lo que será resumir los números 1-10. Y luego lo que voy a hacer, voy a imprimir y en la impresión lo que hago la suma de estos números par, así y fomentar el número par, esta secuencia de números para sumar, función de suma y luego se tuerce. Entonces antes de eso, permítanme llevar al número dado. ¿Bien? Y luego saldré y llamaré a la función par. ¿Bien? Entonces déjame dirigir esto. Bien, esta es la c. C. minúscula Usted primera vez que obtiene 246810, suma de números pares 1-10. Entonces estos son algunos a menudo incluso el número 1-20, ¿de acuerdo? Porque me estoy multiplicando por dos. Si lo hago cinco, será cuanto antes lo que hayamos escrito. No sería eso, bien. 246810. Bien. Entonces de esta manera podemos tender suma de números pares, suma de números. Y luego cuando termines con esta función, algunos de número par. Entonces sumará todo y nos dará el resultado. ¿Bien? Entonces, cuando se sume estos números llegarán a 110. Entonces de esta manera estamos consiguiendo que algunos de los números pares del 2-2001 al 20. ¿Bien? Entonces de esta manera lo podemos hacer. Lo siguiente es que voy a hacer función de llamada sin documento. Esto es muy sencillo, llamando a la función sin argumentos. Entonces lo que voy a hacer aquí, simplemente voy a crear una función, hola, h función palabra clave aquí. Y dentro de la palabra clave function, lo que sí veo incluso aquí también nos hemos llamado algunos de par, algunos de incluso función sin pasar ningún argumento. ¿Bien? Lo mismo que vamos a hacer aquí también. Lo que voy a hacer aquí, simplemente voy a usar una impresión y voy a decir Hola. ¿Cómo estás? ¿Entonces? Oh, el arrendamiento. Di hola. Yo sólo lo llamo. Bien. Entonces antes de eso tengo que ejecutar esto. Entonces déjame correr esto y ver, sí, vamos a recibir hola y como estas esta manera podemos llamar a una función sin aumento. 18. Matrices en R: Hola y bienvenidos de nuevo. En esta conferencia, vamos a aprender sobre métricas en nuestro análisis matricial, concepto muy importante y necesitamos entenderlo. Porque cuando vamos más allá de esta clase, cuando vas y tratas implementar el concepto de arte para analizar los datos tú, cuando intentas usar la manipulación de datos R4, visualización de datos, o incluso la minería de datos, análisis de datos y en proyectos de ciencia de datos en machine learning. Entonces las matrices van a estar muy llenas y vamos a utilizarlas en muchos lugares. En nuestra matriz. Es un objeto o un objeto. En el arte, todo es un objeto. Y de esa manera, las matrices son también nuestros objetos, ¿verdad? Entonces las matrices son los objetos de arte en que los elementos del mismo tipo atómico Organizar. Entonces en matriz, matriz vamos a agregar en el mismo tipo de elementos, mismos tipos atómicos de elementos en disposición rectangular bidimensional. Por lo que será a la piedra de diamante matrices rectangulares. Matrix es una función. Entonces, ¿cómo vamos a crear la matriz? Vamos a utilizar la función matricial que está incorporada en R. Crear métricas y arte. La sintaxis sería matriz. Y luego proporcionamos los datos, determina los elementos de la matriz que vamos a proporcionar aquí. Y entonces vamos a proporcionar número de filas y rho es número de filas en la matriz y luego n columnas, número de columnas en la matriz. Y luego vamos a decir por fila, queremos agregar en los elementos por fila, por columna que vamos a definir por este argumento. Y entonces vamos a dar a los diamantes hijos que le llamaron llamado medios. Vamos a mantener el nombre de las dimensiones. ¿Bien? Entonces los datos son vector de entrada, que se convierte en los elementos de datos de la matriz que puedes dibujar es el número de filas a crear y college número de columnas a crear por rho es pista lógica si es verdadera, los elementos del vector de entrada están dispuestos por fila. Entonces, si quieres crear una matriz asignando los elementos por fila, tenemos que dar por rho igual a true. De lo contrario será, por defecto, será en forma de columna, ¿de acuerdo? Valores columnares, como si se nos diera el elemento uno al diez, serán 12 o tres. Columna sabia será, si das verdad, entonces irá por Hockey Viral. Y dim name es nombre asignado a las filas y a las columnas. ¿Bien? Entonces este es lo fundamental que deberíamos estar conociendo. Y ahora lo que voy a hacer, voy a desviar matriz. ¿Bien? Entonces para eso, ya he creado nuestro archivo donde he escrito pocos programas, son pocas funciones para crear métricas para que no perdamos nuestro tiempo en escribir el código y una y otra vez. Y mientras se escribe lleva mucho tiempo. Entonces ya he creado estas dos matrices puntean nuestros archivos. Explique qué voy a hacer en todos y cada uno de los pasos. ¿Bien? Entonces, primero, vamos a crear una matriz donde los elementos se arreglen secuencialmente por columna, por defecto. ¿Bien? Entonces supongamos que estoy creando una matriz y le estoy dando un nombre M1. Entonces uno será un objeto en NADH que va a contener esta matriz. Entonces voy a usar la función matricial. Y aquí lo que estoy pasando, estos son los datos que estoy pasando. 12 a 35 significa que creará los números 12-351213, 14 hasta 35. Entonces esto se hará datos y luego lo que estoy dando lo siguiente, Andrew, número de filas seis. Así que solo estoy pasando los datos y dando la fila número de filas. Quiero crear una matriz que está teniendo número de Rogers seis. Eso es. No estoy dando ningún valor de columna ni nada. Sólo estoy pasando la unidad de datos a 35 números y número de Rogers seis. No voy a dar por fila o columna ese argumento. No voy a pasar por aquí. Entonces solo estoy creando una matriz que está teniendo, que se creará con las seis filas y se rellenará con los datos a 35. Entonces déjame crearlo. Si ejecuto esto. Nos vemos, M1 es uno es a seis, por lo que uno es a 412 a 36 se proporcionarán datos. Y si imprimo esta matriz M1 C aquí, ahora tenemos seis filas, 123456 filas suman seis carreteras. Y en estas seis filas están los datos 12, 13, 14. Consulta aquí primero la columna uno rellenará el año columna 112, 131-415-1617. Después irá a la columna para después 24 a 29 y después 30 a 35. De esta manera, entonces los datos se están llenando por columna sabia, ¿verdad? Para lavar la columna uno, columna dos, después la columna tres. ¿Bien? Porque no he dado nada, sí, no he especificado por rho igual a algo aquí. ¿Bien? Lo siguiente es, si uso por rho igual a falso, lo que va a hacer, va a hacer lo mismo. Entonces si ejecuto esto también, nuevamente, obtendré la misma salida, se volverá a imprimir la misma matriz. Pero si proporciono aquí el mismo código por rho igual a true, ahora la matriz se creará llenando primero las filas. Así que al ras 12131415, se fallará la primera fila. Después 16, 17, 18, segunda fila, luego 2021, 22, fila 24, así. Bien, tan rápido, las reglas se rellenarán. Y luego la segunda fila, luego la tercera fila así. Y aquí estaba primera fila, luego segunda fila, primera columna, segunda columna, tercera columna, así estaba llenando aquí. Primera fila, segunda fila, tercera fila en forma de fila, o en columna o fila. Entonces si quieres llenar los datos por fila, tienes que dar por rho igual a true. ¿Bien? Entendido. Lo siguiente es dar los nombres de columna y fila. Supongamos que quiero dar el nombre de la columna aquí, y quiero dar ese nombre de fila también. Cómo puedo hacer eso. Puedo usar la función C y puedo dar nombre a las filas de columna. Entonces supongamos que quiero entonces un seis filas. Quiero dar a cada fila nombre fila uno, fila dos fila, fila seis. Entonces voy a usar la función c y voy a crear un objeto de nombres de fila, y voy a crear otro objeto nombres de columna en lugar de mantener la columna uno, columna dos, la columna tres, la columna cuatro, nombre que quiera dar, Usted puede darle. Luego mientras se crea la, mientras se crea la matriz, lo que voy a hacer, primero voy a pasar abajo matriz de datos dentro de la matriz funcional bosque ave los datos. Y luego voy a dar número de filas, seis. Entonces voy a dar por fila a través de esto, puedes dar verdadero o falso lo que quieras, ¿de acuerdo? Y entonces aquí, el siguiente argumento se considerará nombre dimensiones nombre. Y aquí lo que voy a hacer, voy a crear una lista. Y dentro de la lista, lo que voy a hacer, voy a pasar los nombres de fila y columnas de fila como argumento de dos. Entonces esto creará las dimensiones para la matriz. Las filas y el nombre de la columna se extraerán de aquí y se pasarán a la lista. Y creará la fila y columna con el nombre de la matriz. Entonces déjame correr estas dos líneas. Bien, lo siento, necesito dirigir todo esto. Ver aquí. Ahora estamos obteniendo una matriz con el nombre de la columna, columna uno, columna dos, columna tres, columna cuatro. Y los nombres de fila como fila uno, fila dos, fila tres, fila cuatro, fila cinco, filas seis. De esta manera, primero necesitamos crear una lista de columnas arriba nombre de columna y nombres de fila de columna y nombre de columnas. Y tenemos que proporcionar esos para atenuar el argumento de nombres bien, a través de nuestra lista, ¿de acuerdo? Y entonces se creará una fila y se darán nombres de columna en esa matriz. Lo siguiente es acceder a los elementos desde la matriz. Entonces supongamos que quiero acceder al elemento desde el M5, esta matriz, primera columna y tercera fila. Entonces, ¿cómo puedo hacer eso? La tercera fila, tres coma uno, m phi, y luego el corchete y tres coma uno. Significa que quiero buscar la tercera columna, la tercera fila y la primera columna. El primer argumento es para la fila y el segundo es ¿qué columna? Tercera fila, se imprimirá el primer elemento. Tercera fila significa esta y la columna de un mes, abundante. Entonces si corro esto, me sale, debería tener 20 años, 32. Voy a ver aquí que estamos recibiendo 20. Entonces m5 es la matriz. Y quiero terminar la tercera columna, tercera fila, primera columna, tercera fila, primera columna. Del mismo modo, quiero primero de valor de la quinta fila, segunda columna voltear a través. Este es el antecedente de volteo a través de la segunda columna, por lo que la 29ª se imprimiría aquí. Sí, estamos recibiendo 29. Del mismo modo, supongamos que quiero la primera fila seis. ¿Bien? Así puedo dar m phi y rho seis y valor de columna. Lo dejaré. Entonces, si das así, ¿qué conseguirás? Obtendrá la fila seis valor c aquí, 323-033-4305. Entonces esta es la fila seis. Eso lo conseguirás. ¿Bien? De igual manera, si quiero acceder a la segunda columna, puedo dar, puedo dejar la fila y puedo dar valor de columna de un litro. Y si ejecuto esto, voy a conseguir que la columna te vea. 13, 17. Esta es la columna 213-17-2120, 5.20, 9.33, 29, 30. Así que de esta manera podemos presentar el valor de la columna. Lo siguiente es la suma y resta de matriz. Podemos hacer multiplicación, suma, resta y división con matriz de pato. Entonces supongamos que tengo la matriz M1, déjame imprimir esto. Ver este es el M1 y tengo otra matriz que es M2. Entonces ambas son la misma matriz, pero cuáles son las métricas diferentes, diferentes pero los valores son los mismos. ¿Bien? Entonces soporte, quiero agregar m1 y m2, así que simplemente puedo hacer m1 más m2. Y voy a asignar este valor a algún objeto. Entonces si ejecuto esto, y si imprimo el valor de suma c aquí, obtendré la garantía para 36 como están almacenados 2012 +12, 241-313-2614 más 14, 20 así. Bien, de manera similar podemos hacer m1 menos m2 y obtendremos 000 porque ambas métricas son iguales, ¿ verdad? M1 en m2. Podemos hacer multiplicación, perdón por esto. 12 en 12, 24, 30 y entretener una vez que se volvió así. ¿Bien? Y de la misma manera podemos realizar la multiplicación matricial donde el, cada elemento se dividirá por cada elemento, ¿bien? Bueno, por 121, así. ¿Bien? Entonces de esta manera podemos usar matrix y podemos realizarla no es resta y podemos acceder a los elementos de la matriz. 19. Factores en R: Hola y bienvenidos. En esta conferencia vamos a aprender sobre Dustin R. Entonces, ¿qué influye en? Los factores son los objetos de datos, como hemos aprendido hasta ahora que todo es un objeto. Y así los factores también son objetos de datos en R que se utilizan para categorizar los datos. Entonces básicamente se utilizan factores para categorizar los datos y luego almacenarlos, categorizar los datos en los niveles. Entonces primero clasificará los datos, y luego creará Spot etiquetado , esquivar categorizar datos. Y entonces guardará esas etiquetas, ¿de acuerdo? Almacenará esos datos en esos niveles, ¿verdad? Y se utilizan factores para representar los datos categóricos. Y pueden almacenar tanto cadenas como enteros. E hicieron un vector entero teniendo un nivel. Supongamos vector entero que tiene un nivel, algo así. ¿Bien? Entonces básicamente supongamos que tenemos datos, supongamos un varón o una hembra. Para que podamos almacenar eso. Es mejor almacenar eso como un 0.1, ¿verdad? Entonces que lo que va a hacer supongamos que tenemos un dato donde masculino y femenino, algunos datos poblacion donde tenemos nuestros datos para masculino y femenino, ambos. Qué factores harán creará una categoría de datos con masculino y femenino, y almacenará esos datos en la categoría de masculino y femenino. Y luego fácilmente puedes encontrar cuántos machos hay y cuántas hembras hay ahí, algo así. Bien. Déjame abrir el archivo que he creado cuatro vectores. Entonces ya he creado un factor de archivo en R punto R. Y aquí también voy a cómo crear un factor en R. El primer paso para crear un factor en R es crear un vector. Entonces aquí lo que estoy haciendo, estoy creando un vector para la profesión facial. Y aquí dentro del vector profesión habrá Dr. Ingeniero Carpintero, Dr. mecánico, piloto, DR carpintero en Kenia así. Bien. Entonces hay algunas profesiones que he creado aquí. Entonces este es el vector profesor donde he guardado al profesor de las personas. ¿Bien? Entonces, si ejecuto estas dos líneas, qué va a hacer, va a crear y vector para Francia y derecha. Y contará con el Dr. Ingeniero Carpintero, Dr. así que vea adoptante se repite el derecho. Dr. tantos doctores están ahí, ¿verdad? Entonces supongamos que este es un vector que he creado. Si quiero comprobar si este vector es nuestro factor o no, puedo usar una función aquí llamada cada factor. Entonces cualquier cosa, si queremos verificar si un factor o no, puedes usar cada función factor y pasar ese vector u objeto a la función de cada factor y te dará que es un factor o no. Bien, así que vamos a ejecutar esto. Ver aquí nos está mostrando falsas. Significa que este vector no es un factor. Este es un vector, no un factor. Entonces, ¿cómo convertir a este profesor y vector en un factor? Eso es lo que vamos a hacer. El siguiente paso. El siguiente paso es aplicar la función factor. Así apoyo. Ahora quiero convertir este proficiente con un factor. Entonces estoy creando otro, creando otro objeto que es factorizado subrayado. Profesor. Bien, entonces ahora usaré la función factor y pasaré este vector de profesión a la función factor para que este vector de profesión se convierta en el factor. ¿Bien? Ahora bien, si ejecuto esto, y si ejecuto esto, qué asignar, mira aquí. Ahora, en este paso vamos a crear el factor a partir de este vector profesor. Entonces ahora este factor, profesor factor nasal, así que puedo comprobar aquí es factor. Aquí nos está mostrando a través. Y cuando estoy imprimiendo este factor profesional, que es un factor, lo que estoy obteniendo lo estoy obteniendo estoy obteniendo el mismo resultado. Dr. carpintero de interiores, dr. Así, los mismos datos. Pero aquí estoy consiguiendo otra salida que son las etiquetas. Y las etiquetas son maestra de carpintero, doctor así que todas esas cosas van a ser sin etiquetas, ¿verdad? Los otros niveles son carpintero, Dr. conductor en junior, mecánico, piloto y maestro. Si utilizo la función table y paso este factor, la función table, lo que va a hacer, nos va a dar lo mismo, etiquetas, ¿bien? Y si uso resumen, lo que nos gusta. Si usas a alguien, vas a estar obteniendo ¿cuántos carpinteros hay en estos datos? Entonces al carpintero, tres médicos, un chofer, al ingeniero, al mecánico, al piloto, y a los maestros. ¿Bien? Así que de esta manera podemos crear y vectorizar en el factor. Factor verá que ha creado un factor, carpintero Dr. y nos está dando los datos de que hay dos médicos. Hay dos carpinteros, tres médicos, un conductor así. Por lo que categorizará los datos. Ahora bien, el factor, ¿qué factor ha hecho? Se ha categorizado estos datos, estos datos en la categoría de profesión como carpintero, Dr. y nos está dando los números como estos muchos carpinteros o sus principales médicos cuando los ingenieros están ahí en nuestros datos. Entonces el factor será útil al analizar los datos que son datos categóricos, ¿verdad? Entonces veremos cómo podemos hacer análisis categóricos usando factores en R. Así que por ahora, basta con entender cómo crear un factor en R a partir del vector, ¿bien? Entonces podemos aplicar la función factor al vector y ese vector se convertirá en el factor. Y la condición es que este profesor vectores esté teniendo algunos datos categóricos. ¿Bien? Y luego podemos verificar cada función de factor. Con la función, cada factor, podemos comprobar si un vector es un factor o no, ¿de acuerdo? Y podemos usar tabla para ver los niveles del factor y podemos usar la función de resumen para comprobar cuáles son los números hay como cuántos hay Dr. ¿cuántos ingenieros hay? Entonces alguien arriba del factor será visto usando la función de resumen, ¿de acuerdo? 20. Marcos de datos en R: Hola y bienvenidos de nuevo. Entonces en esta conferencia vamos a aprender sobre DataFrames en nuestra programación y cómo podemos usar DataFrames. Eso lo que el tema de esta conferencia. Entonces déjame decirte primero qué es DataFrame. Dataframe es una tabla o una estructura bidimensional similar a una matriz en la que cada columna contiene valores de una variable y cada fila contiene un conjunto de valores de cada columna. Entiendes lo que dije. Dataframe es una estructura similar a una tabla o matriz bidimensional, se puede decir, en la que cada columna contiene valores de una variable. Cada columna contendrá valores de valores de una variable, y cada fila contiene el conjunto de valores de cada columna. ¿Bien? Y es un caso especial de lista en el que cada componente de cada componente tendrá la misma longitud y cada componente formará la columna y el contenido de los componentes en la carretera. Entendido. Cada componente forma la columna. Cada componente formará la columna y el contenido del componente formará las carreteras. Entenderás cuando hagamos las prácticas, lo entenderás mejor. Por lo que un DataFrame en R tendrá las siguientes características. Lo primero es que los nombres de fila deben ser únicos. Así que el nombre de la fila siempre debe ser único. Así que los nombres de fila, así que sería único. No puedes tener los mismos nombres de fila en un DataFrame, ¿de acuerdo? Así que cada nombre de fila debe ser único y luego nombre de columna no estar vacío. Entonces nombre de columna, así que no esté vacío. Debería ser un no vacío. Así que todos los nombres de las columnas tendrían entradas, ¿de acuerdo? Y los datos almacenados en un DataFrame pueden estar fuera de factor numérico son tipos de caracteres. Por lo que cualquiera de estos datos de tipo puede almacenar en DataFrame, factor numérico o tipo de carácter. Y cada columna, por lo que contiene el mismo número de elementos de datos. Entonces, cada columna contiene el mismo número de elementos de datos. Entonces DataFrame como una tabla o una matriz bidimensional como estructura en R, en la que cada columna contiene el valor de una variable y cada fila contiene el conjunto de valores de cada columna. ¿Bien? Entonces comencemos con lo práctico. Bien, entonces lo que he hecho, ya he escrito programa y el nombre del archivo es DataFrame punto r. Lo que estoy haciendo aquí, estoy creando un DataFrame. Así que DataFrame se puede crear de la siguiente manera a qué, cómo creamos un DataFrame. Nosotros usamos. Data.frame. La función data.frame utilizará para crear un marco de datos. Y esto es estudiante es un objeto al que voy a asignar este DataFrame. ¿Bien? Entonces data.frame. Y luego lo que estoy haciendo aquí, primero, estoy creando un número de serie. ¿Bien? Entonces número de serie, estoy creando 1-5. Y luego ocho, estoy dando, estoy usando la función c para crear la edad, ¿de acuerdo? Estoy creando un vector aquí, ver 201-15-1030, 5.45. Entonces A's tendrá estas entradas. Entonces estoy creando nombre. Nombre tendrá las muchas entradas. Bien. Entonces cinco entradas, Shaggy, Ronnie son los actuales John y Tom, y luego estoy cerrando esto. ¿Bien? Así que de esta manera podemos crear un DataFrame. Entonces déjame ejecutar esta línea primero para que obtengas un DataFrame. Ver aquí. Entonces déjame imprimir esto. Director General Estudiantil. Ahora bien, el alumno es un DataFrame, ¿verdad? Y lo que está conteniendo, es que contiene una fila o columna ese número de serie, edad y nombre, porque hemos dado número de serie, luego ocho, y después nombre. Y cada columna. El número de serie y el nombre contendrán los valores. Qué número de serie contendrá el valor uno a cinco, por lo que 12345 números de serie y luego envejece 201-15-1030, 5.40. Y el nombre tendrá estos valores, ¿de acuerdo? Entonces cada columna tendrá los valores de nombre, nombre, variable. Eso es lo que aprendimos en la parte de teoría. Así que de esta manera podremos crear nuestro alumno DataFrame, que tendrá el número de serie de la columna es un nombre, y tendrá los valores de fila. Del número de serie 1-5, edades 21. Y este cinco es, hemos dado un nombre, tenemos un especificado en la variable name. Entonces estos valores variables se convertirán en la entrada a esta tabla, ¿verdad? Entonces es una estructura similar a una mesa. ¿Bien? Entonces esto es lo que se conoce como DataFrame en R. Y podemos ver la estructura hasta nuestro DataFrame usando la función STR. Podemos usar STR y luego podemos pasar el DataFrame. Nos dará la estructura del DataFrame. El DataFrame tenía estructura y diremos dataframe. Y es tener cinco filas de tres valiosas. Ver aquí 12345. Entonces cinco objetos, o cinco filas y tres variables. Tres variables son de serie, el número es un nombre. Estas son las tres variables. Los nombres de las columnas se conocen como variables. Entonces tres variables y cinco filas, cinco objetos de tres variables. Y estas variables son número de serie, es y nombre. Entonces el número de serie es entero, es numérico, y marinas de carácter, tipo y senior, cada variable o cada columna tendrá el mismo número de elementos como el número de serie es uno a cinco. La edad también es tener cinco entradas y nombre también está teniendo cinco entradas, ¿verdad? Entonces todos deberían tener el mismo número de entradas, ¿verdad? Bien. Supongamos que si doy seis años, ¿qué pasará? Déjame ejecutar este DataFrame de edición. Porque el número de serie está teniendo uno a 6.8 es tener solo cinco entradas, y el nombre también está teniendo cinco entradas, ¿verdad? Entonces aquí, qué error estamos obteniendo error en el marco de datos y es demandar argumentos que implican diferente número de filas seis y 6.5. Entonces una variable es tener seis filas, seis ítems y todas las demás están teniendo 51 hojas. Entonces por eso nos está mostrando el error. Por lo que debería ser de 55 para cada uno. Bien, entonces aquí puedes poner cinco y luego cuando lo ejecutemos, no vamos a estar recibiendo ningún error. Y va a estar funcionando con éxito. Con el STR. Podemos obtener la estructura del DataFrame. Lo siguiente que vamos a aprender, puede acceder a los componentes de DataFrame como una lista o como una matriz. Entonces primero veremos acceder a la lista de Leica. Entonces podemos usar, si quieres acceder a listas similares, podemos usar cualquiera de estas tres. Podemos usar nuestro operador de dólar o podemos usar el soporte doble, o podemos usar el soporte simple, ¿de acuerdo? Para acceder a los datos desde el DataFrame. Bien, entonces supongamos que quiero acceder al nombre desde el DataFrame es estudiante, uno de los nombres. Entonces si puedo hacer eso con este alumno, y luego dentro de la columna, puedo pasar el nombre de la variable o el nombre de la columna. ¿Bien? Y si ejecuto esto, obtendré todos los nombres del DataFrame. De igual manera, puedo hacer lo mismo con este símbolo de dólar, ¿verdad? Operadores de dólar estudiante, ese es el nombre DataFrame, y luego dólar, y luego el nombre de la columna o un nombre de variable. Entonces aquí, si ejecuto esto, voy a obtener el mismo resultado estudiante senior nombre dólar. Te dará nombre a todos los alumnos. ¿Bien? Y de igual manera, podemos hacer esto también, es rentar. Y en el soporte. Nuevamente, dentro del corchete, podemos pasar el nombre. Estas tres cosas te darán el mismo resultado. ¿Bien? Ahora, podemos hacer como aquí hemos dado nombre. El nombre es esa tercera columna justo dentro de este DataFrame. Así podemos pasar también el número de columna, estudiante tres, así te dará la tercera columna. El nombre. Nombre es la tercera, tercera columna en este DataFrame. Mira, si llego a, nos va a dar la edad. Ca, nos va a dar el Is. De esta manera podemos pasar el número de columna y obtener los datos del DataFrame. Ahora lo siguiente es modificar los elementos DataFrame. Podemos modificar el DataFrame también como C le dará a ese alumno, es decir un nombre DataFrame. Y entonces aquí vamos a mantener el 11 significa la primera fila, y luego voy a dar H. Y quiero modificar la primera fila es 291. ¿Bien? Entonces déjame correr esto y déjame imprimir al alumno. Ver aquí. Ahora la primera fila es, se modifica a 91. Antes eran 21, ahora son 91. Así que de esta manera podemos. Modifique los elementos del marco DataFrame. Podemos agregar filas al componente Roche al DataFrame. Supongamos que quiero añadir otra fila. Supongamos que aquí hay cinco filas, ¿verdad? Quiero agregar una fila más al DataFrame Halloween, puedo hacer, puedo usar la función rbind. Nuestra función se utiliza para agregar una fila en el DataFrame. Dentro del rbind, necesito pasar el nombre del DataFrame y luego arriba para usar una lista. Y dentro de la lista tengo que pasar el número de serie seis, luego la edad de veinte años, y luego los nombres serían hay una variedad, así que nada que esté vacío. Todo lo que tenemos que dar, hay tres columnas, así que tenemos que dar tres columnas aquí. El número de serie es n, nombre. Y si ejecuto esto, agregará una más, filas, fila. Incautación seis, veinte remedio se ha agregado al DataFrame estudiantil. Del mismo modo, también podemos agregar componente de columna al componente de columna al DataFrame. Y cómo podemos hacer eso, podemos hacerlo con el C1. C1 significa Columbine son vitaminas fila se unen. Bien, entonces la función cbind, solíamos agregar una columna en el DataFrame. Entonces dentro de lo mismo, necesitamos pasar el nombre DataFrame. Y entonces tenemos que suponer una columna que quiero agregar como país. Entonces tengo que dar a la columna nombre país y luego después de usar la función c y tengo que pasar el país número de países. Entonces aquí necesito pasar los seis países que hay en ellos, ¿no? 12345, ¿bien? Y si ejecuto esto, porque el sexto valor, no nos hemos comprometido. Entonces no es el año que viene. O en un DataFrame está teniendo solo cinco filas a, es agregar la Phi una, ¿bien? Así que de esta manera podemos agregar otra columna, como contrario a nuestro DataFrame. Lo siguiente es que podemos asignar el país en una lista como manera, como listas como asignación, podemos usar estudiante dólar país. Significa que en el DataFrame, vamos a agregar otra columna. Es decir, ese será un país de nombre. Y vamos a sumar las entradas como estos países, ¿de acuerdo? Seis EN india, neutral y EU, Japón y China. ¿Bien? Y si ejecuto estas dos declaraciones, voy a conseguir que el país se haya agregado aquí y los nombres de los países están aquí. De esta manera podemos agregar una columna en una lista como asignación. ¿Bien? Lo siguiente es que podemos eliminar un componente de DataFrame. Entonces podemos eliminar una columna entera usando esta cosa. Bien, estudiante, eso es nombre DataFrame, dólar aquí nombre de columna, nombre, y puedo asignar null. Entonces, si asigno null, se eliminará toda la columna. Entonces déjame correr esto y verte. Ahora. El número de serie es y países su columna de nombre ha sido eliminada porque hemos hecho que la columna de nombre sea nula. Bien, así que de esta manera podremos eliminar toda la columna. De la misma manera podemos eliminar una fila entera. Entonces para eliminar toda la fila, lo que podemos hacer, podemos usar student y menos dos, y luego podemos eliminar toda la fila. Entonces déjame dirigir esto. Aquí. Se ha eliminado la fila dos. Dos son dos huella Nueva Zelanda que ha sido eliminada. Entonces, si quieres eliminar una fila en particular, puedes proporcionar aquí menos dos significa que la segunda fila será eliminada del DataFrame del estudiante. Así que de esta manera podemos eliminar una fila completa de un DataFrame. Entonces así es como podemos crear un DataFrame usando data.frame. Y podemos proporcionar el número de columnas o el número de variables. Y entonces tenemos que proporcionar el número de valores para esas variables que se va a llamar número de ítems aquí cinco. Entonces todas las A y nombres serían 55, entonces solo creará un DataFrame. Entonces podemos obtener la estructura de un DataFrame usando la función STR. Entonces podemos poner en fase la columna particular usando proporcionando el nombre de la columna usando este paréntesis o el símbolo del dólar. Y podemos comprar el número de columna. Podemos modificar DataFrame así, elementos DataFrame como este y todas esas cosas, cbind, Irvine, todas esas cosas que hemos visto, ¿verdad? Entonces espero que tengas una mejor comprensión de DataFrames en R. Y espero hacerte entender qué es DataFrame y cómo podemos caminar con los DataFrames. Nos vemos dentro de la siguiente conferencia. 21. Combinar los marcos de datos: Hola y bienvenidos de nuevo. En esta conferencia, vamos a aprender sobre cómo podemos combinar vectores en DataFrames. Significa que suponemos que tenemos tres o cuatro vectores. Y quiero crear un DataFrame a partir de esos vectores. Entonces, ¿cómo podemos hacer eso? Y luego en segundo lugar, lo que intentaremos hacer, intentaremos combinar también los DataFrames. Bien, así que comencemos. Entonces, primero lo primero, para combinar los vectores, necesitamos crear el vector. Entonces aquí lo que estoy haciendo, estoy creando para vectores, nombres, ciudad, código postal y salario. Entonces estos cuatro serán los cuatro vectores que estoy creando son cuatro objetos que estoy creando. Y yo, lo que voy a hacer, voy a combinar estos cuatro para crear un DataFrame. Entonces estos cuatro vectores crearán un DataFrame para mí. Bien, entonces el primer rector son los nombres. Y en el nombre vector lo que estoy dando en los nombres vector lo que estoy dando, estoy usando la función C y estoy dando los nombres de la lactamasa Parsons, Rockies, Henry y mono. Y luego el segundo vector es vector ciudad. Y dentro de esto le estoy dando a este particular sus respectivas ciudades llamadas como Bangalore, Londres, Nueva York y Mumbai. Bien, y luego voy a dar el código de regalo para estas ciudades en el tercer vector. Y entonces el cuarto vector es salario, en el que estoy instalando su salario respectivo. Entonces esto tendrá el salario dermis, salario raqueta y recientemente y mantisa. Sueldo de mantisa. Estos cuatro vectores los podemos crear por esto que hemos aprendido en el capítulo vectorial en la conferencia de vectores. Entonces déjame dirigir esto. Así que esto va a crear estos cuatro vectores, ¿de acuerdo? Ahora quiero combinar estos cuatro vectores y crear un DataFrame. Quiero crear un DataFrame usando estos cuatro vectores. Así que quiero combinar estos cuatro vectores y crear un DataFrame. Entonces para eso, lo que estoy haciendo, estoy dando un nombre DataFrame aquí implica detalles. Entonces, los detalles del punto EMP serán el nombre del DataFrame. Lo que voy a hacer, voy a usar la función cbind para combinar estos vectores. ¿Bien? Entonces porque este nombre ciudad código profundo será, ese será el equipo de columnas. Entonces, naturalmente, estoy usando C bind aquí para combinar los nombres de las columnas, ciudad, código postal. Y tristemente estas son las cuatro, estas serán las cuatro columnas en el DataFrame. Entonces estoy usando c wine y estoy proporcionando el nombre de las columnas, como nombres, vector, vector de ciudad, código postal y salario. ¿Bien? Entonces déjame dirigir esto. Bien. Ahora déjeme imprimir los detalles del empleado. Bien. Entonces déjame ver los detalles de los patrones. Ver aquí. Ahora el detalle del empleado es DataFrame. Y podemos ver las columnas nombre, ciudad y código postal y salario. Y las entradas son maniquíes, carga bancaria y código postal y salario, Rockies city, Londres, tienes esto y el salario. Entonces Henry. Mira aquí a partir de estos cuatro vectores para los que hemos creado, comenzando con estos cuatro vectores, hemos creado uno DataFrames, ¿verdad? Supongamos que si pongo los nombres y si corro este nombre, lo que voy a conseguir, voy a conseguir un líder llamado de manera similar, ciudad y el callejón de las corrientes. Así que he combinado los vectores en un marco de datos. Entonces ahora tenemos aquí una estructura similar a una tabla que es un DataFrame. Entonces ahora tenemos un DataFrame. Del mismo modo, ¿qué voy a hacer? Voy a leer, puedes usar la función cat C-A-T para imprimir algo. Bien, entonces aquí solo estoy imprimiendo el archivo DataFrame a partir de cuatro vectores. Y esto, entonces vendrá así. Bien, entonces el primer DataFrame de cuatro vectores es esto implica detalles, detalles de puntos EMP. ¿Bien? Entonces, si quieres imprimir un titular, puedes usar la función de chat, ¿de acuerdo? Y luego imprimir los datos del empleado que ya he impreso aquí. Y puedes imprimirlo aquí también. Y entonces lo que estoy haciendo ahora, esa siguiente tarea es que quiero combinar dos DataFrames en uno. Así que tenemos un DataFrame implica detalles que hemos creado a partir de los cuatro vectores. Ahora lo que voy a hacer. Crea otro vector, lo siento, voy a crear otro DataFrame, detalles del empleado a los detalles del punto EMP también, con la función DataFrame Hale-Bopp. Y aquí, de forma manual. Dentro del DataFrame voy a dar el nombre vector c t vector, código postal, salario. ¿Bien? Entonces de esta manera también podemos crear, en el primer paso lo que hicimos. Hemos creado el nombre ciudad, código postal, vector salario por separado, y luego lo hemos pausado para cbind función para crear un DataFrame. Y lo que estamos haciendo ahora, estamos pasando directamente estos vectores. Estamos creando los vectores dentro de la función DataFrame. No estamos envejeciendo C Y, y aquí estamos usando data.frame, función DataFrame para crear un DataFrame. Y dentro de la función DataFrame estamos pasando, estamos creando nombres. Vector, vector de densidad, luego vector de código postal y entradas también estamos dando aquí solo, ¿de acuerdo? Salario y un factor de borde de cuerda falso. ¿Bien? Y luego si ejecutamos esto, estaremos creando un DataFrame. Eso también son los detalles de los empleados. ¿Bien? Y si ejecuto esta herramienta, qué va a conseguir, obtendremos el segundo DataFrame que se emplee. Tiende a nombrar código estratégico y hay 3.2 RAM en minúsculas y push pop. Y su código postal de la ciudad y sus respectivos salarios impresos aquí. Ahora tenemos los dos DataFrames, detalles del empleado e implican detalles a lo que quería hacer. Quiero combinar las filas de ambos DataFrame y crear otro DataFrame que sea todos los detalles del empleado, que contendrá todos los detalles implícitos desde implique uno y empleado hasta DataFrame. Entonces estoy creando otro objeto, todos los detalles de punto empleado punto. Bien, este será el DataFrame que combinará las filas del empleado DataFrame, DataFrame e implicará detalles al DataFrame. Entonces para esto, lo que voy a usar, voy a usar son comprar fuera de banda porque queremos combinar las carreteras aquí, tres filas y aquí cuatro filas a esta cuatro filas. Y estas tres filas, quiero combinar y crear otro DataFrame. Por eso estoy usando fuera de banda para combinar las filas. Y luego dentro del Audubon, voy a proporcionar el primer DataFrame y luego el segundo DataFrame. Y luego podemos usar la función de chat para imprimir los titulares que combinados implican detalles. Y luego puedo imprimir. Bien, entonces déjame dirigir esto. Nos vemos. Ahora tenemos todos los detalles implícitos DataFrame, que contendrá las siete filas, las cuatro del primer DataFrame, y el último tercio es del segundo DataFrame. Así que de esta manera podemos combinar dos DataFrames. ¿Bien? Entonces, ¿cuáles son las cosas que hemos aprendido? Primero, hemos aprendido a crear un DataFrame a partir de vectores. Y luego hemos visto cómo podemos combinar los dos DataFrame en un marco de datos. Bien, así que de esta manera podemos combinar los DataFrame y podemos crear un DataFrame a partir de los vectores también. Nos vemos dentro de la siguiente conferencia. 22. Analizar los datos en R desde un archivo CSV: Hola y bienvenidos de nuevo. Entonces en esta conferencia vamos a aprender el concepto muy importante, y eso es el análisis de datos en R. Entonces lo que vamos a hacer en esta conferencia, primero, vamos a tratar de leer un archivo CSV, archivos CSV separados por comas. Y es como un asiento real que se te ocurra. Y contendrá la suma de detalles implícitos. Y luego lo que haremos, intentaremos leer ese archivo CSV con nuestra programación. Y luego después de leer los datos, intentaremos analizar los datos que hay dentro del archivo CSV de detalle del empleado. Y trataremos de obtener algunas ideas a partir de esos datos. Bien, entonces déjame mostrarte primero el archivo CSV. Entonces este es el archivo CSV que he creado. Y vamos a ver aquí este es el empleado detalles punto archivo CSV y es un archivo separado por comas. Entonces el primer ID de empleado, nombre del empleado, salario, datos hasta incorporarse y departamento. Estas son las cuatro columnas. Estas serán la columna de la mesa o asiento Excel, se puede ver. Y entonces esta será la primera fila. Los valores separados por comas. El uno será el ID del empleado, luego roster será ese nombre del empleado. El sueldo será de 3 mil. Ellos tocaron uniéndose a esto. Y entonces departamento será CSE o algo así. Bien. Entonces estos son los algunos datos que he guardado dentro de este archivo CSV. Y ahora lo que voy a hacer, intentaré recuperar estos datos, estas columnas y valores de fila a través de nuestra programación. Y luego intentaremos analizar los datos. Así que el primer tipo es leer un archivo CSV a través de nuestro, bien, así que déjame ir al código. Lo primero que tenemos que hacer, tenemos que establecer nuestro directorio de trabajo. Entonces para establecer el directorio de trabajo, necesitas ir a los archivos aquí, esta sección, y ver cuando haces clic en estos tres puntos aquí, te llevará a la puedes navegar por los archivos en tu computadora. Y aquí lo que voy a hacer, iré al Art 2020 porque este es mi directorio de trabajo y quiero establecer este lugar como nuestro directorio de trabajo. Yo seleccionaré eso. Y ahora estamos dentro de este directorio art 2020. Ahora quiero que esta tasa impositiva tenga un directorio de trabajo, así puedo hacerlo. Puedo ir a esto más a menudo. Y aptitudes año, Establecer como Directorio de Trabajo, así voy a dar click en Establecer como Directorio de Trabajo. Bien, así que de esta manera podemos hacer este nuestro directorio 2020 como nuestro directorio de trabajo. Alternativamente, puede simplemente usar el conjunto de comandos WD. Set WD es una función que establecerá el directorio de trabajo. Wd significa directorio de trabajo y segmentos configurando el directorio de trabajo. Así que configurando el conjunto de trabajo, WD es la función dentro de la que puedes proporcionar la ruta para tu directorio. Y esta ruta será tu directorio de trabajo cuando ejecutes esto. ¿Bien? Entonces ahora hemos establecido el directorio de trabajo. Lo que he hecho, he guardado los datos del empleado dot archivo CSV aquí para que nos sea fácil a los que leímos eso. No necesitamos pasar la ruta completa aquí ya que tenemos dentro, estamos dentro del directorio de trabajo y nuestro empleado tilde dot CSV archivo también está en el mismo directorio, ¿de acuerdo? Y si no está ahí, entonces tenemos que dar la ruta completa aquí y parte completa para este archivo. ¿Bien? Entonces, el primer paso es que queremos leer el archivo CSV en todo momento. Entonces lo que voy a hacer, primero voy a crear una variable que puedas decir u objetar en nuestros datos emplear, datos de puntos EMP. Esta es una invariable donde quiero almacenar lo que sea que voy a leer de este archivo CSV. Para leer un archivo CSV lo que necesitamos, necesitamos una función llamada read.csv. Por lo que read.csv se utilizará para leer el archivo CSV. Y dentro de esta función, read.csv, necesitamos proporcionar el nombre del archivo CSV punto para que nuestro nombre de archivo sea detalles del empleado punto CSV. Eso es. Cuando ejecutemos esta función, leerá los datos de este empleado punto CSV y almacenará dentro de este empleado datos. Entonces déjame correr esto primero. Ver aquí. Ahora cuando ves aquí, está mostrando nos está mostrando empleado EMP dot data ocho objetos de cinco variables. Significa que hay ocho filas y cinco columnas en el archivo CSV. Identificación del empleado, uno a ocho implica nombre. Estos son el nombre implícito, tasa salarial subiendo uniéndose. Y tiene, puedes ver los detalles aquí. Entonces ahora hemos leído el archivo CSV y hemos almacenado los datos dentro de estos datos de punto EMP. Ahora puedo imprimir estos datos de punto EMP y ver qué detalle está conteniendo. Sólo ejecutarlo y nos vemos. Déjame correr esto otra vez. Ahora estamos consiguiendo la mesa que me gusta estructura, ¿no? Identificación Emp, nombre del empleado, salario, fecha de incorporación y departamento. Estos son los nombres de las columnas y estos son los valores, ¿verdad? Filas. Para las columnas correspondientes, ¿verdad? Hay ocho filas y cinco columnas. Cinco variables significan cinco columnas. Entonces, ¿puedes relacionar qué tipo de datos es este en el arte? Esto se llama DataFrame. Dataframe tendrá la estructura similar a una tabla, ¿verdad? Entonces, lo que sea que leamos del archivo CSV, se almacenará como un marco de datos en R. Y podemos verificar si esto es un DataFrame o no usando cada dato. Cada función dot data.frame, derecha, es la función dot data.frame. Y podemos pasar este objeto de datos de empleado. Entonces déjame dirigir esto. Ver aquí está dando el resultado como verdadero. Significa que este empleado EMP dot data es nuestro DataFrame. Sea lo que sea que leamos a través de esto, read.csv obtendrá un marco de datos. Entonces ahora tenemos un DataFrame aquí. Lo siguiente es que ahora tenemos aquí nuestra estructura similar a una tabla DataFrame. Ahora puedo encontrar el número de columnas usando una función llamada. Entonces puedo usar un carbón y luego puedo pasar el nombre del DataFrame aquí. Y nos dará el número de columnas en el DataFrame. Entonces este archivo CSV está teniendo cinco columnas. Del mismo modo, podemos usar y rho, y rho es número de filas. Cuando ejecutemos esto, obtendremos el número de filas, ocho filas en este DataFrame. Mira aquí con qué facilidad hemos leído el archivo CSV y hemos creado una tabla o un DataFrame en R. Y ahora estamos encontrando con n dos puntos y fila número de columnas y número de filas en este DataFrame. Ahora, vamos a conseguir alguna información interesante con R. Así que ahora quiero encontrar el salario máximo. ¿Cuál es el salario máximo de un empleado? Así puedo usar la función max y puedo pasar los datos del empleado. Sueldo en dólares. Significa que quiero pasar la columna salarial, esta columna salarial a la función max, la columna salarial, datos de puntos EMP. Salario en dólares significa que esta columna voy a buscar y la estoy pasando a la función máxima. Para que esa función max funcione internamente y encuentre el máximo de estos salarios. Entonces nos va a dar, nos da el resultado 95,200. Déjame imprimir este salario máximo. Mira aquí estamos obteniendo el salario máximo de un empleado es de 95,200. ¿Bien? Entonces de esta manera podemos encontrar el salario máximo. También podemos encontrar el salario promedio usando la función media. Entonces dentro de la función principal, lo que haremos proporcionará esta columna salarial. Y nos dará el salario promedio de los empleados. Tu salario promedio de la plaza. Cada salario de él coloca 53 mil 009, 24. Y si usamos suma de todos los empleados sueldo y dividimos entre ocho, porque hay ocho empleados obtendrán la misma tasa que CEO. Entonces de esta manera podemos encontrar el salario promedio de los empleados. De la misma manera podemos encontrar el máximo. Podemos encontrar el detalle del empleado teniendo salario máximo, hemos encontrado que 95,200 es salario máximo. Uno implica conseguir. Ahora podemos encontrar a ese empleado con este detalle. Entonces podemos usar la función de subconjunto y podemos pasar esto implica datos. Y entonces podemos poner otro argumento aquí, salario igual al salario máximo. Entonces, lo que vamos a hacer, vamos a encontrar a ese empleado que está teniendo el salario máximo. Por lo que nos va a dar el detalle del empleado que está teniendo con obtener el salario máximo de lo implícito. Déjame dirigir esto. Consulta aquí este empleado nombres profundos está recibiendo el salario máximo y estos son sus datos. Así que de esta manera podemos poner punto puede ser sueldo más soleado detalle del empleado que está recibiendo el salario máximo. Entonces de esta manera podemos encontrar al empleado que está recibiendo el salario máximo, el salario más alto. De la misma manera. También podemos ejecutar esto. Consigue que todos los empleados trabajen en finanzas, trabajen en departamento de finanzas y obtengan salario superior a 85,000. Mira aquí, este es el departamento, entonces este es el departamento de finanzas. Hay dos empleados y ambos están consiguiendo vender más de 85 mil. Entonces, ¿qué condición estamos dando? Estamos dando llamando a la función de subconjunto y proporcionando los datos de los empleados. Y entonces estamos dando una condición como departamento igual a finanzas y los salarios estarían por encima de 85 mil. Por lo que nos dará todo el empleado detallado cuyo departamento es finanzas y salarios, más de 85 mil. Déjame imprimir esto. Déjame correr esto. Aquí. Nos estamos insinuando. Déjame ejecutarlo de nuevo. Entonces aquí estamos obteniendo el ID de empleado 3.8 significa para el y correr. Estos son los dos empleados que pertenecen al departamento de finanzas y su salario es superior a 85 mil. Por lo que estos dos empleados contratan departamento, finanzas, departamento de finanzas, y sus salarios más de 85 mil. Lo siguiente es, quiero encontrar los implica quién se unió a partir del 2000 o después. Entonces tenemos una fecha de unirnos aquí también, ¿no? Entonces quiero encontrar a todos los empleados que se incorporaron después del 2000. Honor, después del 2000. Y así puedo proporcionar los datos del empleado y puedo dar fecha a Ashdod. Y dentro de eso voy a dar la fecha de incorporación. Entonces datos hasta ahogándose estoy proporcionando a esta fecha función. Y esto debería ser mayor que agrega fecha para iniciar sesión. Primero de enero de 2000. Bien. Entonces, todos los empleados cuyos datos arriba Joanne son mayores que este tutorial, First Gen to Tarjan obtendrá esos detalles de los empleados aquí. Entonces déjame dirigir esto. Espera otra vez, mira aquí. Entonces ahora estamos consiguiendo las implica Priyanka Mahesh. Entonces nos conocen cuando estos cinco implica que se han incorporado en el 2000 y después de eso o no después del 2000, se han incorporado a la compañía y estamos obteniendo los detalles del empleado. Quienes se unieron en, uh, on son a menudo 2000. Así que de esta manera, podemos analizar el archivo CSV y los datos que tenemos dentro del archivo CSV en Excel. Entonces este es un análisis bastante genial que podemos realizar con las funciones simples. ¿Correcto? Ahora lo que quiero hacer, hemos leído un archivo CSV, ¿verdad? Hemos leído el archivo CSV y hemos realizado todos estos análisis. Ahora lo que quiero hacer, quiero escribir un archivo CSV. Quiero obtener algunos datos. Quiero generar algunos datos, y quiero que esos datos se publiquen en un archivo CSV. ¿Cómo puedo hacer eso? Eso lo puedo hacer con esto. Write.csv. Read.csv está leyendo el archivo CSV. Y write.csv significa leer o escribir un archivo CSV. Queremos escribir un archivo CSV. Cualesquiera que sean los datos, estos datos que he encontrado como implican quién se unió después del 2000, ¿verdad? Entonces quiero escribir esta tabla o estos datos en un archivo CSV. Entonces pasaré este objeto unido después del 2000 a este write.csv. Y aquí voy a dar el nombre del archivo CSV. Entonces me dan el nombre del archivo CSV como empleado punto entrelazado después del punto de origen del diente csv. Por lo que todos estos datos serán escritos en este archivo CSV. Se creará un nuevo archivo CSP. Bien, entonces déjame, déjame ver si este archivo ya está, mira aquí, este archivo ya está ahí. Entonces lo que voy a hacer, voy a borrar esto. ¿Bien? Y luego volveré y luego ejecutaré esto. Bien, entonces déjame dirigir esto. Y déjame ir a la carpeta aquí. Ver aquí ahora tenemos un nuevo archivo creado. Déjame mostrarte los datos. Aquí. Tenemos 12345 filas. Me ha dicho que pasó por Eddie que los datos hasta n son 2000 2018, 2,914.2018. Todos estos implica se han sumado después del año 2000. Entonces datos similares están aquí. Y ahora que los datos se han puesto dentro de este nuevo archivo CSP, empleó punto joint afterthought y ver lo fácil que es obtener el resultado aquí y escribir ese resultado en un archivo CSV que hemos creado hace un momento a través de nuestro todo, también podemos escribir los resultados en un archivo CSV. Y ahora puedo leer, usar el punto de lectura csv para volver a leer este archivo CSV e imprimirlo. Entonces déjame dirigir esto. Aquí. Aquí también estamos obteniendo el mismo resultado. Así que de esta manera podemos escribirnos a través archivo CSV y podremos leer un archivo CSV. Y podemos realizar todos estos análisis como encontrar el salario máximo, encontrar al empleado que está teniendo, quién está recibiendo el salario más alto. Podemos encontrar a los empleados que se unen después de una fecha determinada. Podemos encontrar el salario promedio de los empleados. Podemos encontrar la media del salario. Podemos encontrar muchas otras cosas, lo que sea necesario para su negocio. Si quieres. Llega a una conclusión particular ampliando los datos, puede hacer con el, con las funciones impares y puede analizar sus datos. Entonces espero que hayas llegado a conocer la fortaleza de nuestra programación y cómo enlumbrar datos en la programación R y leer y escribir, leer y escribir un archivo CSV. Nos vemos dentro de la siguiente conferencia. 23. Crear un gráfico de tarta en R: Hola y bienvenidos de nuevo. Entonces en esta conferencia, vamos a aprender sobre el gráfico circular. Entonces déjame primer año estas consolas y objetos y déjame cerrar este archivo. Y he creado un archivo que se llama byte char Tatar. Entonces he escrito el programa, he escrito las funciones para crear gráfico circular usando datos. Entonces suponemos que tenemos algunos datos y queremos trazar esos datos en un gráfico circular. Y queremos analizar los datos para que podamos hacer en nuestro, muy fácilmente, un anuncio también es popular para esta función, porque podemos visualizar los datos usando varios gráficos. Entonces una de las guitarras es gráfico circular y que vamos a aprender en esta conferencia. Entonces, primero, primero, primero, tenemos que crear los datos para el gráfico. Entonces estoy creando un vector n y estoy dando valores como 307-82-3309, algo así. Puedes dar lo que quieras. Y luego estoy creando etiquetas a, B, C, D para este valor. Entonces el valor será 30, 78, c, 23, y D 39, así. ¿Bien? Ahora puedo obtener el nombre del archivo de datos para el chat, sea cual sea el gráfico que esté obteniendo lo estoy creando, le puedo dar un nombre como abc dot PNG o un gráfico circular dot PNG. Entonces supongamos que le voy a dar un nombre por Jarred dot PNG. Cualquier cosa que puedas dar. Bien. Entonces le estoy dando un nombre. Puedo usar la función PMT y puedo dar archivo igual al nombre de archivo. Así que quiero crear un gráfico circular punto archivo de imagen PNG. Lo que sea que se haya agarrado que va a crear, que se almacenará en un formato de imagen de archivo PNG. Bien, Así que eso también puede hacer con esta línea. Entonces esto es opcionalmente, si quieres archivo PNG en un archivo de imagen, entonces puedes crear con esto. De lo contrario puedes venir directamente aquí y puedes usar la función de pastel y puedes pasar los datos. Y así esto entrará en los datos y luego podrás pasar las etiquetas. Estos son los niveles. Entonces, cuando se creará el gráfico circular con estos datos, y estos datos se etiquetarán con a, B, C, D. Bien, así y luego dev.off significa que este archivo será dado de baja en el, en el sistema. ¿Bien? Entonces déjame ejecutar este código aquí. Así que déjame correr. Bien. Entonces CEO, ahora tenemos pero no estamos viendo ese gráfico aquí. No sé por qué. Entonces déjame correr esta parte otra vez. Ver aquí. Ahora tenemos un gráfico circular con las etiquetas a, B, C, D. Así que E es tarde. V es el que más se parece al 78. Así es, el área más grande para b y luego d y C. De esta manera, con estos datos simples, hemos creado esta representación gráfica. Y déjame ir al becario de arte y director general, debe haber un archivo creado. Ver aquí gráfico circular. Ese archivo PNG ha sido creado con esa representación gráfica. Entonces mira aquí, este archivo de imagen también creado y mira aquí el a, B, C, D. Estas son las etiquetas y este es el valor de datos es 78, es algo que hemos dado. Un valor es 30, y C10 es 23, 29 así. Bien, pues mira, creemos que hemos creado una representación gráfica de nuestros datos y podemos presentar nuestros datos así. Bien, entonces déjame volver al núcleo. Entonces este es el comando, esta es la función PNG para crear un archivo PNG a partir de nuestra gráfica. Bien, entonces esta es nuestra gráfica y este es nuestro archivo PNG para esa gráfica. ¿Bien? Entonces, si quieres enviar a través del gráfico, puedes crear un archivo PNG y enviarlo por correo electrónico. ¿Bien? Así que de esta manera podemos crear un gráfico circular. Bien, lo siguiente es, ahora quiero crear otro gráfico circular. Y para eso estoy creando como implica y su salario. Entonces estoy creando un vector salarial y le estoy dando esos salarios impulsivamente y apoya pero nuestro salario y los nombres de los empleados cada enfermo menos una fecha y todas esas cosas. ¿Bien? Entonces estos son los dos vectores que estoy creando salario y los nombres. Entonces obviamente va a tener esta élite preguntarlo, pero han sido 800 así. ¿Bien? Y lo mismo con B y D. estoy tratando de crear un archivo PNG, sueldo punto PNG para la gráfica que va a dibujar y el por salario y nombres estoy pasando y pasando el salario como dato y nombre como etiquetas. Entonces el siguiente gráfico circular que vamos a crear, se creará con base en el salario y los nombres serán etiquetas como aquí, ABCD hizo en estos niveles estará ahí y se guardará. Pero BUN y esas cosas. Bien, entonces déjame crear este trato aquí. Déjame dirigir esto. ¿Bien? Esto otra vez. Ver aquí. Ahora tenemos un gráfico circular con los nombres como obviamente el park j tan. Y cuál es el uso de los datos gráficos están trazando. Porque con esto, podemos ver que, bien, titin es Aaron menos salario de música está teniendo menos salario, pero uno N far oak está teniendo bastante buen salario. El dólar y Ellen es Erin cada salario. Entonces con esta gráfica, podemos analizar fácilmente los datos sin mirar los datos de una manera más profunda podemos ver esto y podemos llegar a la conclusión de que música está teniendo el menor salario después de eso, Satanás está teniendo poco más que cada enfermo. Y luego el buck y Ellen, y luego bobina y tela y tela es lo que más está teniendo, la mayor parte de los elementos celulares de nuestros lucas teniendo fotocopias obteniendo el salario más alto, rs1,000 patrimonio. Entonces podemos hacer este análisis viendo el gráfico circular y ver aquí, debe haber un archivo salarial se ha creado aquí, ver aquí. Entonces esto lo puedes enviar por correo electrónico y puedes poner así. Bien. Entonces este es el enorme gráfico circular. Y con esta sencilla función pipe, podemos crear un gráfico circular por y tenemos que escribir los datos y tenemos que proporcionar las etiquetas. Este nombre es una etiqueta que estamos bien. Gracias. Bien. Veremos el resto de las cosas como cómo podemos analizar el detalle del archivo CSV en la próxima conferencia. Entonces te veré dentro de la siguiente. 24. Analizar los datos de los empleados: Hola y bienvenidos de nuevo. Entonces en esta conferencia vamos a analizar los datos del empleado punto CSV archivo que hemos visto en las conferencias anteriores. Y vamos a obtener los datos de este archivo CSV. Lee los datos del archivo CSV, y vamos a crear un gráfico circular. Y ya veremos cuáles son las cosas que podemos hacer con el gráfico circular. ¿Cuáles son las cosas gráficas que podemos analizar con el gráfico circular? Cómo podemos iluminar los detalles del empleado. Del gráfico circular. Para leer un archivo CSV, usamos el read.csv y pasamos el archivo CSV aquí. Y voy a almacenar eso en los datos de puntos EMP. Esto ya lo hemos visto. Entonces ejecuto esto y obtenemos los datos en el objeto de datos punto EMP. Ahora, esta será una tasa de DataFrame. Recuerda, ¿verdad? Entonces, si imprimo estos datos de empleado, datos de punto EMP, obtendrá también marco de datos. Les gustará la estructura aquí mismo. Estos datos los estamos obteniendo de este archivo CSV. Ahora, quiero dibujar, quiero obtener un gráfico circular como este para esto implica, ¿de acuerdo? Entonces para hacer eso, puedo usar la función pipe y puedo crear un gráfico circular. Entonces quiero crear un gráfico circular basado en el salario. Entonces lo que voy a hacer, voy a usar datos de puntos EMP, ensalada de dólares, todos esos elementos. Sube la columna salarial este DataFrame. Y va a crear un gráfico circular y etiquetar lo que voy a dar, voy a dar la etiqueta como nombre del empleado. Entonces, datos de puntos EMP, dólar, nombre de subrayado de E&P, nombre del empleado. Por lo que creará un gráfico circular como este, y este será el salario del empleado y los niveles serán los que impliquen nombre. Entonces déjame correr esto y ver aquí estamos consiguiendo gráfico circular donde estos bloques representarán el salario y los niveles de implica tema. Entonces con este gráfico circular, podemos ver claramente eso. Ver eso. Entonces D está secando el salario de este mes. Randolph estaba dibujando este salario imprescindible, ¿verdad? Tan profundos sueldos tasa máxima. Y vemos aquí, por lo que los salarios profundos son máximos de 95,200. Y mi cabello se está secando menos sueldo, ¿verdad? Entonces si vemos el salario, 7,800, bien. Así que de esta manera podemos obtener un gráfico circular basado en el salario y el nombre del empleado y las etiquetas. Bien, lo siguiente es que quiero trazar el gráfico, el título y la paleta de colores arcoíris, así que quiero que sea más colorida. Entonces aquí lo que voy a hacer, voy a usar la función pipe. Pasar el sueldo, después implicar nombre. Entonces este es el dato, entonces esta es la etiqueta y la media, media igual al salario del empleado. Este será el rumbo de este gráfico. ¿Bien? Entonces este será el rubro Para este gráfico. Y entonces lo que voy a usar, voy a usar call igual a color arcoiris se llama arco iris. Y para eso, lo que le voy a dar a empleados longitud de datos de punto, ¿de acuerdo? Luego toca los datos del empleado. Bien, entonces déjame dirigir esto. Ahora. Estamos recibiendo una gráfica muy colorida o una gráfica circular donde el rubro es el salario del empleado y los nombres son las etiquetas y el salario. Estos bloques están representando el. Implica salario. ¿Bien? Así que de esta manera podemos hacer un gráfico circular colorido, que se ve mucho mejor que el anterior, así puedes usar esto también. Lo siguiente es que quiero crear las etiquetas. Entonces lo que voy a hacer, a ver, sí, estamos dando los niveles como empleándolos que ya está ahí en este DataFrame ¿verdad? Ahora quiero crear mis propios niveles. Entonces lo que estoy haciendo aquí, voy a crear porcentaje del salario, otras etiquetas, ¿bien? Entonces, lo que estoy haciendo aquí, estoy creando un objeto cinco por ciento, y estoy usando la función round. Y lo que estoy haciendo aquí, cien en sueldo de empleado dividido por algunos de esos salarios de todos los empleados. Bien. Entonces básicamente lo que estoy haciendo, estoy encontrando el porcentaje de nacimientos y muertes de salario de cada empleado con base en el salario total. El salario total sumará todos los salarios. Y luego vamos a tratar de averiguar cuánto está saliendo Susanna. ¿Cuál es el salario de Susanna en porcentaje? El salario total. Bien. Entonces estamos obteniendo este valor porcentual de pipa. Y entonces lo que voy a hacer, voy a trazar el sueldo del dentista en gráfico circular. Entonces para eso, voy a usar la función pipe. Y aquí los datos serán el mismo salario de los empleados, esta columna, columna salarial. Y entonces las etiquetas serán el porcentaje de tubería. Entonces la etiqueta en lugar de nombre ahora estoy proporcionando cinco por ciento, ¿de acuerdo? Entonces será 1%, 2% así. ¿Bien? Y luego el rubro principal, estoy dando, analizando este salario por chat, ¿de acuerdo? Y luego la Collette, me quedo con el mismo esquema, arcoiris. Y aquí estoy dando las lentes y datos, datos empleados, salario, salario y proporcionando como duración. Bien. Entonces déjame, y luego otra cosa que estoy dando, estoy dando los ligandos, ligandos o algo se va a imprimir aquí para especificar qué significa, R, qué color va a OXO, lo que implica. Por lo que se colgará en la esquina superior derecha. Y entonces aquí estoy dando datos de empleados. Dólar, nombre del empleado significa el nombre del empleado. Y entonces estoy dando el cex significa que será el valor de la longitud o anchura de esa cosa. Una vez que dibuje esto, se le entenderá. Entonces déjame, entenderás una gráfica de estrellas viene C aquí. ¿Bien? Entonces déjame dirigir esto también. Y ahora déjame ver. Sí, ahora nos pusimos el nombre. Estamos obteniendo los números porcentuales como la suma de los salarios totales de todos los empleados. Esta persona, la verde que es tan profunda, que está recibiendo 22.1% del salario total. Y luego correr nuestros ojos consiguiendo 19 puntiagudos. Entonces esto, esta legión, esto se llama lesiones. Esto, esta es la lealtad. Y basado en los bloques de color verde, esos son el pan pertenece al prión. Entonces con esta gráfica, se puede entender que los salarios de Priyanka aprendieron 0.6 por ciento del salario total, ¿verdad? De la misma manera en esto pertenece al Michael, Michael celular es 25.6. Y los salarios más bajos de esta persona que es riba que estás viendo es tener menos salario, 0.2 por ciento. Así que de esta manera podemos crear nuestras propias etiquetas y podemos poner las leyendas para cada nivel. Y esto es más específico como cuánto está recibiendo el 1% en porcentaje, porcentaje de salario. Lo siguiente es que podemos dibujar el gráfico circular 3D. Y para eso necesitamos descargar esta matriz de parcela de biblioteca. ¿Bien? Entonces si no estamos, si no está ahí para tu RStudio, puedes llegar al archivo. Puedes ir a los paquetes y puedes hacer clic en los paquetes de instalación. Aquí puedes dar tu nombre, nombre biblioteca iniciado, que deseas descargar y hacer clic en la instalación. Una fiesta no está ahí. Puedes hacer click en Instalar y esta biblioteca se instalará en tu máquina, RStudio dentro de Data Studio y podrás usarla. Entonces necesitamos esta biblioteca, trazar trucos para crear gráfico circular 3D. Y dentro de esa biblioteca tenemos la función 3D circular. Y con eso podemos pasar los datos, ese es el salario del empleado. Las etiquetas darán el nombre del empleado. Y luego explorado punto a y principal es placentas salario en 3D. Bien, déjame ejecutar esto para ver, y ahora estamos obteniendo gráfico circular 3D. Justo aquí. Estamos obteniendo un gráfico circular 3D como este es el resumen de Sudán. Esto es sin duda hasta el anticuerpo de carne Michael atravesando C, muy menos salario por menos cosas o la masa así. Entonces esta es la representación 3D de los salarios de los empleados. Y así podemos ver aquí, y esto se verá mucho mejor que el gráfico circular 2D. Entonces de esta manera podemos crear un gráfico circular y podemos analizar los datos en el art. ¿Bien? Por lo que también puedes probar con tus propios datos. Intentas crear tus propios vectores y luego tratar de dibujar el gráfico circular. Puedes analizar los datos de un archivo CSV, crear tu propio archivo CSV y hacer todas esas cosas. Así que quiero que ustedes creen su propio proyecto así, y tanto esos gráficos estos gráficos circulares en la sección de proyectos de esta clase. Y veremos que podemos proporcionar nuestros feedbacks y todo. Por lo que se compartirá entre nosotros, todos los estudiantes y conmigo también. Entonces intentas crear o crear tus propios datos así, e intentar visualizar tu base de datos creando el gráfico circular o un gráfico circular 3D son como encontrar la media, encontrar el salario promedio, todas esas cosas. Bien. Entonces y empujado a los proyectos excelentes. 25. Leer el archivo de Excel en R: Hola y bienvenidos de nuevo. Entonces en esta conferencia vamos a aprender cómo podemos leer un archivo Excel a través del arte. Es bastante simple y necesitamos instalar un paquete, y luego tenemos que cargar ese paquete. Y luego necesitamos leer el archivo Excel a través de un simple código de una línea, y luego podemos imprimir los datos. Entonces veamos cómo podemos hacer eso. Entonces lo que he hecho, he creado un mismo detalle empleado, archivo Excel, los mismos minoristas que he guardado en este archivo Excel que teníamos en nuestro archivo CSV. Entonces son los mismos datos, pero he creado un archivo Excel a través de ese archivo CSV. Y lo que he hecho por eso, las apps simplemente abren ese archivo CSV. Lo que voy a hacer es que no tengo el Microsoft Excel aquí. Entonces qué voy a hacer, sólo voy a ir al y aquí tenemos los datos del empleado punto archivo CSV, ¿no? Voy a abrir eso aquí en el asiento de Google. Y veremos que se creará en x. Y si veo que sí, entonces ahora tenemos la placa de nombre de la columna, identificación del empleado, nombre del empleado, salario, fecha de incorporación y departamento, y todos los detalles en formato Excel. Ahora lo que voy a hacer, sólo voy a descargar este archivo en formato de ética Excel. Entonces haz clic en ese formato Microsoft Excel, descárgalo. Entonces ahora se ha descargado y me he quedado con eso. Guardé ese archivo aquí en nuestro directorio de trabajo. Entonces lo siguiente es que ahora tenemos este empleado detalles dot Excel como x, y nada. Eso significa que el archivo de Microsoft Excel aquí en nuestro directorio de trabajo, ese es nuestro 2020. Entonces lo que tengo que hacer, lo primero que necesitamos es instalar este paquete. Y el nombre del paquete es XLSX. Así que para instalar un paquete en R, podemos usar esta sintaxis install.packages, y podemos proporcionar el nombre del paquete que queremos instalar. Al ejecutar este comando, se instalará el soporte de ética de excel. Alternativamente, también podemos ir a esta pestaña de paquete aquí. Y tenemos que dar click en el Instalar. Y aquí tenemos que proporcionar X como X, ¿bien? Y puedes dar click aquí Instalar y se instalará. Entonces podemos hacer de cualquier manera, y se instalarán los empacadores XLSX. Este paquete es requerido porque necesitamos leer ese archivo Excel a través de nuestra programación. Y necesitamos las bibliotecas que están incorporadas en el paquete excel. Así que basta con hacer clic en Ejecutar y esto se hará. Bien. Entonces qué voy a hacer, simplemente lo cancelaré porque ya tengo instalado este paquete. Simplemente da click sobre esto y se instalará, ¿de acuerdo? Y puedes ir aquí y puedes hacerlo también. Apenas tardará un minuto para tu tiempo y este paquete se instalará. Lo siguiente es una ópera que necesitamos mover esta cosa porque todavía no está ahí en nuestro archivo script. Después de instalar la biblioteca o el backend, hay que eliminar esa línea. Todavía no va a la pelea del licor Otro Guión. Entonces lo siguiente es que queremos leer o Excel archivos de ética. Y hay una función en esta biblioteca. Entonces necesitamos cargar la biblioteca, necesitamos cargar el paquete, así vamos a usar library y luego nos quedaremos con el nombre de la biblioteca XLSX. Y entonces lo que necesito, necesito usar la función v punto XLSX. Significa que queremos leer un archivo Excel, un archivo de Microsoft Excel. Y aquí, primer argumento, necesitamos dar dinero para dar el nombre del archivo. Entonces la imagen final, detalles del empleado puntean XLSX. ¿Bien? Y entonces tenemos que darle el índice de asientos, índice igual a uno. ¿Bien? Y esto, lo que sea que estemos leyendo aquí a través de este Excel de punto rojo, estamos almacenando a la vista u objeto dentro de un objeto. Datos de subrayado de empleados, datos de subrayado de E&P. Entonces esto tendrá todos los datos que estamos leyendo de este archivo de Excel. Y entonces simplemente vamos a imprimir eso. Entonces déjame ejecutar este archivo y ver que aquí estamos obteniendo el resultado, identificación del empleado, nombre del empleado, salario, terminan uniéndose y departamento. Entonces de esta manera es bastante simple. Podemos leer a través del podemos conseguir que los mayores accedan a él, podemos leer eso ¿verdad? Así que bastante simple. Cargar la biblioteca. Primero instale el paquete, luego cargue la biblioteca. Entonces tenemos que leer el archivo Excel simplemente proporcionando el nombre del archivo Excel. Y tenemos que almacenar estos datos en objeto en un objeto. Y luego simplemente imprimimos ese objeto para llegar a ver qué está almacenando ese objeto. Básicamente se trata de almacenar todos los detalles de la hoja de Excel. Bien, espero que hayas llegado a saber cómo podemos leer un archivo Excel. Así podemos leer un archivo de Excel mediante el uso función de lectura punto XLSX. Y necesitamos proporcionar el nombre del archivo Excel. Y luego simplemente obtendremos todos los datos dentro del archivo Excel. Entonces el paquete es XLSX que necesitamos instalar. Y necesitamos cargar la biblioteca XLSX antes de usar la función XLSX. Entonces esta es la forma en que podemos leer un archivo Excel, un archivo Microsoft Excel a través de nuestra programación. Tú dentro de la siguiente conferencia. 26. Leer el archivo xml en R: Hola y bienvenidos de nuevo. Entonces en esta conferencia vamos a aprender cómo podemos leer un archivo XML a través de nuestra programación. Entonces vamos a escribir un código y a través del cual vamos a leer archivo XML. Entonces primero lo primero, déjame decirte qué pieza. Archivo Xml. Entonces un archivo XML es un XML. Xml significa XML Extensible Markup Language e insert lo llamamos XML Extensivo Lenguaje de Marcado. Y es similar a como reescribir HTML, lenguaje de marcado de hipertexto, ya sabes, para escribir páginas web y todo de la misma manera, XML Extensible Markup Language. Es un archivo de datos. Y en este archivo guardamos los datos es como una base de datos, igual que almacenamos datos en la hoja de Excel también. almacenamos datos en un archivo de texto, También almacenamos datos en un archivo de texto, y los almacenamos en la base de datos también. De la misma manera, almacenamos datos en archivos XML, es decir, Extensible Markup Language. Se trata de un formato como un documento HTML, como en documento HTML, utilizamos las marcas y todo para almacenar el documento de la misma manera. Xml también, utilizamos el marcado para mantener los datos dentro del archivo. Pero aquí usamos etiquetas personalizadas. En HTML, todo está predefinido. Pero en XML podemos crear nuestras propias etiquetas como HTML. Tenemos que usar el impuesto de lenguaje predefinido más antiguo que es específico del HTML, pero en XML podemos escribir nuestro propio impuesto, lo que queramos. Podemos crear una etiqueta para eso. Y es por eso que seleccionas lenguaje personalizado basado en etiquetas o una extensión de archivo ese fin de semana. Voy a archivar lenguaje de marcado que podemos usar aquí etiquetas personalizadas para definir los objetos y los datos dentro de cada uno de los objetos. Entonces podemos definir el objeto personalizado y podemos poner los datos de acuerdo a eso, cualquier dato que queramos portar para las etiquetas que podamos hacer. Los archivos Xml pueden ser pensados como una base de datos basada en texto como MySQL. Utilizamos a los jóvenes para mantener los datos en una tabla y formato raw y decidimos qué tipo de columna queremos insertar de la misma manera Es una base de datos basada en texto. Entonces ahora lo que voy a hacer, no quiero crear un archivo XML desde cero. Y quiero usar lo mismo nuestros datos, mismos detalles que teníamos en nuestro archivo CSV, detalles del empleado punto CSV, y luego tenemos claro al empleado detalle punto archivo Excel. Entonces quiero tener el mismo tipo de datos, los mismos datos en XML ágil. Entonces para eso, podemos ir y crear manualmente un archivo XML. De lo contrario, también podemos utilizar este sitio web de herramientas de conversión dot IO, donde solo podremos navegar por el archivo Excel y podemos convertirlo en un archivo XML. Entonces déjame mostrarte. Entonces, cuando vienes a este sitio web herramientas de conversión dot edu slash convertir slash Excel a XML. Entonces esta fase, cuando vengas aquí y nosotros, cuando navegues y solo pongas los datos de tu empleado archivo Excel aquí. Así que ahora estoy usando este archivo XLSX de detalles del empleado para crear un archivo XML basado en estos datos de archivo. Así que solo necesitas seleccionar el archivo. Y luego tenemos que hacer clic en el Ejecutar converger en este archivo Excel se convertirá en un archivo XML. Y tardará unos segundos y tu archivo XML se preparará automáticamente. Entonces lo que he hecho, ya he descargado este archivo XML aquí, detalles del empleado archivo dot xml. Y vamos a tratar de leer este archivo XML. Es tener los mismos detalles que los datos del empleado, ¿verdad? Entonces bien, entonces lo que he hecho, lo he modificado y he guardado sólo para registros aquí. Y si ves el archivo que acabo de crear dentro de descargas y este archivo XML, verás datos. Ocho empleados lo identificaron a la altura. ¿Eso está bien? Así que así, podemos hacer eso. Entonces déjame copiar y pegar estas dos horas. Sí. Bien. Entonces a Lake rehab instaló el paquete XL XX para leer el archivo Excel. De la misma manera para leer el archivo XML, necesitamos instalar el paquete XML. Y para eso, necesitamos usar install.packages y necesitamos proporcionar el nombre del paquete XML. Alternativamente, podemos ir al paquete de instalación, y aquí podemos proporcionar el nombre del paquete XML. Y tenemos que dar click en Instalar y se instalará. Entonces no lo voy a volver a instalar porque ya lo he instalado. Y si no lo has instalado, solo tienes que ejecutar esta línea o puedes venir aquí y proporcionar el XML aquí, y puedes hacer clic en Instalar, y tardarás unos segundos en instalar el paquete, o apenas un minuto para instalar el paquete. Una vez instalado el paquete, necesitamos eliminar esta línea porque el paquete ya está instalado. Lo siguiente es que necesitamos cargar el paquete XML o biblioteca. Entonces necesitamos usar el comando o necesitamos usar la biblioteca de scripts. Y tenemos que proporcionar el nombre del paquete. Entonces tenemos que cargar el paquete, bien, entonces biblioteca. Y necesitamos proporcionar el nombre del paquete XML. Por lo que todas las funciones y requeridas para leer el archivo XML se escribirán dentro de esta biblioteca XML. Y que todas las funciones incorporadas serán nuestro nivel para nosotros. Lo siguiente es que necesitamos y los métodos de biblioteca también. Esto es necesario para este paquete XML. Bien, y luego lo siguiente que tenemos que hacer, necesitamos usar la función XML parse. Archivos xml es una función que se requiere para leer, leer un archivo XML. Entonces usaremos análisis XML y necesitamos proporcionar el nombre del archivo para el archivo XML. Así archivo igual al nombre del archivo. Entonces nuestra imagen final, detalles del empleado punto xml. Y necesitamos, sea lo que sea que vaya a obtener de este archivo XML, necesitamos almacenarlo dentro de este objeto de detalles del empleado. Porque en R necesitamos almacenar todo dentro de un objeto como variables se puede decir. Entonces implican detalles, variable u objeto se quedarán con lo que seamos. Obtenemos de este archivo, archivo XML a través de esta función de análisis XML. Entonces ahora todos los detalles de este archivo xml de puntos de detalles implícitos se almacenarán en este objeto. Ahora necesitamos imprimir ese objeto. Así que déjame correr hasta aquí. Bien, déjame ver aquí. Se trata de imprimir el archivo XML como un acordeón Bly implica ID1 y Glassdoor fecha salarial de incorporarse al departamento. Bien, Así que mira aquí estas son las etiquetas definidas por el usuario que hemos creado para nuestro archivo XML. Bien, nos vemos todos los detalles que estamos obteniendo para que podamos leer el archivo XML así. Xml analiza la función para leer el archivo XML en C. O podemos usar la función XML food node, el nodo raíz hasta el archivo XML. Entonces estamos instando al nodo raíz y estamos pasando los detalles del empleado, E&P subrayado detalles objeto al nodo raíz y luego vamos a imprimir este nodo raíz. Entonces déjame correr estas dos líneas. Si pongo nodo raíz uno, me va a dar los detalles del primer nodo entramado implica ID1. Si pongo uno de dos, me va a dar el nombre. La primera fila para verte emplear nombre priyanka Rostow desde el primer nodo. Si pongo dos hasta lo que voy a conseguir, voy a obtener el nombre del segundo implica que es la identificación del empleado. El nombre del empleado es. Así así podemos acceder a cada nodo. Puedo poner tres de uno. Supongamos que tres de tres van a obtener sueldo del alquitranado le juega, bien. Y de la misma manera podemos encontrar cuántos nodos hay ahí, cuántos Norths hay en nuestro archivo XML para eso, podemos usar tamaño XML y podemos proporcionar el objeto nodo raíz que obtuvimos de la raíz XML. Así que cuando ejecutemos esto, vamos a hacer número de norte. Así que déjame imprimir esto. Número cuatro porque este archivo de Excel lo he guardado solo para empleador lo es. Entonces nos está demostrando que hay cuatro norteños que están ahí. Tenemos cuatro nodos cuando están implícitos, uno en brillante para emplear D3 e ID de empleado para. Entonces nos está dando el qué al norte en el archivo XML. Ahora lo principal es que una vez que obtenemos estos datos, los datos XML los podemos leer a través de R. Necesitamos convertirlos al DataFrame porque es muy fácil leer datos o manipular datos cuando están en el formato DataFrame, ¿verdad? Entonces en Are hay una función llamada XML a DataFrame. Significa lo que sea que tengamos en este archivo xml de datos de empleado punto, podemos convertir directamente eso para trabajar DataFrame mediante uso de la función XML a DataFrame y todos los detalles. Lo almacenaremos en el guión bajo del empleado DataFrame y luego podremos imprimirlo y veremos que vendrá como DataFrame. Entonces déjame ejecutar esto y ver ahora todos los detalles están en tabular o en formato DataFrame en nuestro ID de empleado senior, nombre del empleado y planificación de datos salariales y departamento. Entonces con esto, con esta sola línea de código, podemos convertir un archivo XML hacia DataFrame en programación R. Y esto es bastante útil cuando hacemos nuestro análisis exploratorio de datos y aprendizaje automático y ciencia de datos. Así podemos convertir fácilmente archivo XML a un DataFrame y luego podemos proceder más allá para analizar los datos o la forma que queremos crear gráficos y todos los plotting y todo. Entonces todo ese tipo de analíticas que podemos hacer en este DataFrame. Entonces es bastante fácil hacer todas esas cosas en nuestra programación. Espero que entiendas cómo podemos leer un archivo XML. ¿Cómo llegamos a saber eso, cómo, cuántos nodos hay con este tamaño XML? Y luego cómo podemos convertir un archivo XML a nuestro DataFrame en R usando XML a DataFrame, ¿verdad? Entonces eso es todo para esta conferencia. Nos vemos dentro de la siguiente. 27. Leer el archivo JSON en R: Hola y bienvenidos de nuevo. Entonces en esta conferencia, vamos a aprender a leer el archivo JSON en nuestra programación. Entonces lo que vamos a hacer, vamos a aprender qué es el archivo JSON, luego vamos a crear un archivo JSON. Y luego finalmente intentaremos leer ese archivo JSON a través de nuestra programación. Así que comencemos. Entonces, primero debemos estar sabiendo qué es un sulfito. Entonces Jason significa JavaScript Object Notation, y es un formato de archivo estándar de código abierto. Por lo que es formato de archivo estándar abierto y formato de intercambio de datos. Así que básicamente formato de archivo de Pascua también, y formato de intercambio de datos también. Eso significa que podemos almacenar los datos y los utilizamos para el intercambio de los datos. Además, que solo tienes texto legible por humanos. En esto, escribimos texto legible por para almacenar y transmitir objetos de datos que consisten en pares de valores de atributo. Significa que será como Primero vamos a pares de valores clave, todas esas cosas sitio. Si conoces el MongoDB o cualquier base de datos sin secuela, debes estar sabiendo que hay una base de datos de documentos donde guardamos, almacenamos datos en forma de pares de valores clave. Entonces habrá una clave, y para esa clave, habrá un valor correspondiente de la misma manera justo en la misma manera justo en también tú solo los pares de valores de atributo. Significa que habrá un atributo y ese atributo, habrá un atributo, pares de valores y tipos de datos agregados. Básicamente cualquier otro valor también, y básicamente editó ese tipo. Entonces yo, espero que hayas llegado a saber qué es Jason en teoría, déjame saber cómo podemos crear un archivo JSON. Entonces nos vemos pronto. El archivo es un archivo muy sencillo. Tenemos que poner datos dentro de estas llaves. Y dentro de las llaves, lo que haremos, usaremos ese par de valores clave para almacenar datos. Entonces supongamos lo que voy a hacer, voy a almacenar los mismos datos de este empleado solamente. Hemos visto cómo almacenamos esto en un archivo CSV como aquí. Y luego hemos visto cómo podemos almacenarlo en un archivo Excel. Y luego hemos visto cómo podemos almacenar eso en un archivo XML. Y ahora veremos cómo podemos almacenar el mismo detalle de empleado en un archivo JSON. Entonces para eso, como dije, viste el mejor truco de formato de archivo. Aquí, ID de empleado. Todas las identificaciones de los empleados, guardaré en una matriz de uno a ocho. Entonces todas las identificaciones de empleado de uno a él, como si tuviéramos ocho ID de empleado. Así que tenemos, hemos restaurado a todos los que están en. Y hemos dado nombre de atributo es ID de empleado, y los valores son uno a ocho, ¿verdad? Y este colon es el lado izquierdo del colon. Estos colonos que separan la clave y el valor son atributo y valor. Por lo que lado izquierdo de las colonias, identificación de empleado y el lado derecho es el valor correspondiente. De la misma manera tenemos empleado subrayado nombre, eso es un atributo y todos los nombres de los empleados, esta Priyanka va a estar correspondiendo a esto implica cualquiera o sentarse los dos últimos son me gusta React todavía hay partes uno a cuatro a mi prisa por lo que estás viendo así. Bien, entonces estamos almacenando la matriz salarial, luego estamos almacenando el entrenamiento de datos en él y luego departamento en él. De esta manera, en el departamento, podemos poner datos en el archivo JSON y he guardado este Azure detalles del empleado punto JSON. Ahora sabemos cómo almacenamos los datos en archivo JSON. Entonces lo siguiente es que vamos a tratar de leer esto, en los datos de archivo a través de nuestra programación. Entonces hagámoslo. Entonces voy a abrir, ya he escrito el código. Entonces voy a abrir ese archivo JSON de lectura que he escrito. Y para ello, necesitamos instalar el paquete. Nuestros invitados en esto, en este back-end Ministro instalado. O puedes instalarlo ejecutando esta línea de código. Y puedes venir al paquete de instalación. Y puedes poner aquí o éste. Y puedes hacer click en el Instalar y se instalará. Así que también puedes usar este script de comandos. Entonces necesitamos usar la biblioteca o el axón. Y luego tenemos que proporcionar el nombre del archivo JSON. Y el nombre del archivo JSON es detalles del empleado hacia el Sol. Y aquí vamos a usar una función de esta biblioteca son Jason, Eso es de Jason. Significa que vamos a leer los objetos a partir de nuestros datos, desde los detalles del empleado punto js en este archivo JSON, archivo igual al nombre final que necesitas proporcionar. Y esto de la función JSON leerá los datos de este archivo JSON y lo que sea que lea realmente almacenados en este objeto E&P subrayado detalles. Entonces simplemente lo imprimiremos. Entonces déjame mostrarte aquí. Déjame ejecutar esto y ver aquí está leyendo los datos como identificación de empleado, uno a ocho nombres de empleados. Estos son los empleados nombrados que el salario, y luego viene la fecha de ingreso y luego los departamentos. Así que mira aquí cómo vivimos con una línea de código de una sola función simple. Y solo estamos proporcionando el nombre del archivo y está leyendo todos los datos del archivo JSON. Lo siguiente es ahora con este fin de semana. Imprime los datos. Entonces podemos ver aquí se está imprimiendo los datos del archivo JSON. Ahora, como sabemos en nuestro, es bastante fácil y es bastante recomendable obtener los datos en un formato DataFrame. Así que podemos simplemente ahora los datos del archivo JSON están en este objeto en los detalles de subrayado de E&P, podemos convertirlo en el DataFrame mediante uso de un marco de puntos de datos oscuros ágil. Así que cuando usamos esta función como.data.frame y pasamos este objeto con apenas conseguir más viejos los documentos de archivo o los datos. Este objeto está obteniendo todos los detalles de este archivo JSON. Y cuando pasemos este objeto minorista empleado al como.data.frame, convertirá estos datos. Ahora el formato es así. Tomará estos datos y los convertirá en un DataFrame en R. Y estamos restaurando que detalla nuestro DataFrame en E&P underscore data underscore frame. Y cuando imprimimos esto obtendrá los datos en un formato DataFrame. Entonces déjame dirigir esto. Mira aquí ahora estamos obteniendo datos en nuestro formato DataFrame en R. Así que es bastante sencillo que podamos leer ese archivo JSON con la función from JSON. Y luego simplemente pasamos este objeto, que es obtener todos los detalles de los detalles del empleado o del sol y convertirlo en el DataFrame usando esta sencilla función como.data.frame y pasando este objeto. Lo que este objeto JSON, o un objeto Python que está llevando los datos del archivo JSON, un DataFrame en R. Y simplemente podemos imprimir esa mano CEO, qué hermoso se está transformando en un DataFrame. Así que de esta manera podemos, podemos leer nuestro archivo JSON y convertir los datos de ese archivo JSON en un DataFrame en programación R. Y para eso, podemos usar este DataFrame para analizar los datos y hacer un mayor procesamiento, estamos creando gráficas y todo lo que quieras hacer lo puedes hacer con este DataFrame. Entonces así es como podemos leer el archivo JSON usando nuestra programación. Nos vemos dentro de la siguiente conferencia. 28. Crear un gráfico de barras: Hola y bienvenidos de nuevo. Entonces en esta conferencia vamos a aprender sobre otro gráfico de visualización o gráfico que podemos crear usando R. Y eso es gráfico de barras o un gráfico de barras, como se puede ver, gráfico de barras. trazado de barras o un gráfico de barras o El trazado de barras o un gráfico de barras o un gráfico de barras es uno de los tipos de visualización gráfica más comunes que debes haber visto en tu oficina o en tus proyectos y todo. Siempre que intentamos visualizar algo pronosticando, lo usamos gráfico de barras. Y cuando veas este gráfico, este es un gráfico de barras. Y te darás cuenta de que debes haberlo usado muchas, muchas veces, ¿verdad? También podríamos obtener el mismo tipo de gráfico de barras en nuestro Microsoft Excel. Y cuando tratamos de visualizar algo, incluso cuando dibujamos algo en una pluma y papel. Para visualizar algo, lo más probable es que dibujemos gráfico de barras. Así que barplot es uno de los tipos más comunes de visualización gráfica. Y es hacia la relación entre una variable numérica y categórica. Entonces, ¿qué significa? Significa que el CEO, el a, B, C, D, este eje x será como algo que va a ser muy categórico como. Ahora bien, ¿cómo son las semanas o los días en una semana? Al igual que el domingo, lunes, martes, nuestro enero , febrero, marzo, abril, mayo, junio, así. Y este eje y será la representación numérica para estos meses, como ingresos de una organización o salario de empleados. Entonces este eje x, ABC serán los empleados, y este será ese su salario respectivo. Entonces este exceso leerá la parte numérica y esta será la parte categórica, ¿verdad? Entonces cada entidad de la variable de categoría se representa como una barra. Entonces este es el bar. Y por eso se llama gráfico de barras, porque el valor numérico se está mostrando como una barra. Así que eso es genial, se conoce como el gráfico de barras y tamaño de la batería presentan el valor numérico. Entonces este tamaño se representa como este es en algún lugar alrededor volteando. Esto es en algún lugar alrededor de 13, Esto es en algún lugar alrededor de las siete, y esto es en algún lugar solo, nueve, y esto es alguna decisión. Entonces el valor E es 15, el valor b es siete, valor c es nueve, el valor es ocho. Y este valor e es 13. Así que así. Este tamaño de cuerpo representará ese valor numérico. Si ABC o empleado, estos son sus respectivos salarios, ¿verdad? Así que de esta manera podemos usar el gráfico de barras y en R podemos dibujar gráfico de barras simplemente usando la función de gráfico de barras. Así función de trazado de barras. Y dentro de la función solo proporcionaremos algunos, pero amateurs y nuestros datos. Y creará la gráfica de barras, esta función de gráfico de barras para crear gráficos de barras. Puede ser tanto barras verticales como horizontales. Y la sintaxis es barplot y tomará el argumento th. Estos bordes serán el vector, vector de datos. El vector que contendrá todos los datos. Y este xlab es eje X, Y es eje y, así, a, B, a, a, B, C, D será el eje x, xlab e y será el eje y, este principal. Y entonces el nombre buey será el, ¿ verá qué es esto? Esto es, esto será como nombrar así. 123, como déjame decirte esto. Este cero a 14, como el salario del empleado será el dato. Y estos nombres que son serán el nombre de los implica. ¿Bien? Entonces este borde y el nombre comienzan tanto los vectores para tener ese mismo número de datos, ¿verdad? El mismo número de operadores de números de datos sería el mismo en el borde llamado start. Ok, bien. Veremos que HE, el vector o matriz que contiene el valor numérico del gráfico de barras. Como dije, xlab es el nivel del eje x. ¿Por qué el amor es el nivel del eje y? Y principalmente el título del autobús. Entonces aquí con esto dará el título del gráfico de barras como salario del empleado. Y luego llamado inicio argumenta un vector arriba nombres apareciendo otro cada parte, como dije, para esta barra, esta barra b así. ¿Bien? Y la llamada se utiliza para mantener los colores a las barras como aquí nos dan diferentes colores. Entonces, si quieres hacer un gráfico colorido, usamos la llamada. Argumento, bien, Henry, más allá de eso. Bien. Entonces aquí hay un ejemplo sencillo. Lo que estoy haciendo aquí. Estoy creando un nuevo vector y contendrá esto, estos muchos números. ¿Bien? Entonces este vector contendrá tantos números, ¿de acuerdo? Y quiero crear un gráfico para esto. Entonces lo que voy a hacer, simplemente voy a crear este vector Q y voy a pasar esta función de gráfico de dos barras del vector Q. Y va a crear el gráfico de barras para nosotros. Y éste, archivo PNG igual a b, no un PNG igual al nombre del archivo. Puede crear un archivo de imagen hasta el gráfico o gráfico de barras, y puede guardarlo en su sistema. Y para eso, usamos la función PNG. Y dentro de eso usaremos el archivo Col2 y cualquier nombre del archivo quieras dar que puedas dar aquí. Por lo que en base a estos datos o carta se crearán y los datos del gráfico se guardarán en este archivo de imagen. Y luego usaremos la función de gráfico de barras para dibujar el gráfico de barras por nosotros. Y luego dev.off significa que guardaremos el archivo y se escribirá en nuestra máquina local. Entonces vayamos al RStudio y ejecutemos este código. Entonces aquí estoy creando un vector para la entrada de datos. Entonces, en base a estos datos, se creará el gráfico de barras. Ahora estoy creando un archivo para escribir el gráfico de barras sobre eso. Estoy dando archivo PNG igual a y aquí se puede dar cualquier nombre. Puedes dar abc, abcd, no PNG, el nombre que quieras, puedes, ¿de acuerdo? Entonces voy a dar un gráfico de barras a, b, c, d, ¿de acuerdo? Y luego usaremos el gráfico de barras para crear un gráfico de barras, y luego lo guardaremos, derecho, dev.off, guardaremos el archivo. Ahora voy a correr todo el asunto y ver si por alguna extraña razón la trama no se vende aquí. Pero como ven aquí, ahora, nuestro gráfico de barras ha sido creado. El archivo ha sido creado aquí. Nos vemos. Entonces bien, 12345678 entradas, ¿verdad? Y aquí tenemos 12345678. El más largo es de 9,001.99 mil. Así que de esta manera podemos darte un gráfico de barras dobles. Entonces este es un simple gráfico de barras que hemos creado en base a estos datos, ¿verdad? Lo siguiente que podemos hacer, podemos ir un poco más allá e intentar crear un poco más interesante. Voy a tener, entonces lo que he hecho aquí, he creado un dato como B, un vector o un dato que esté conteniendo los bebés nacidos en cada mes como B contendrá el vector V contendrá a los bebés nacidos en mes como enero 5.600, febrero a marzo, 7.800 bebés nacidos así hasta el verano. Bien. Entonces este es el dato de 12 meses para los bebés nacidos en un mes en particular. Y entonces, entonces este es el valor numérico. Y, y lo que estoy haciendo, estoy creando otro vector M, que contendrá el nombre del mes, correcto, para cada valor, el vector de nombre de mes correspondiente estoy creando que es enero, febrero, diciembre contendrá, bien, Así que esto está claro. Estoy creando el valor numérico aquí y el nombre para cada barra que estoy creando aquí para enero factorial 600 así. ¿Bien? Entonces estoy creando un archivo, bebés nacidos punto PNG. Y estoy pasando ese objetivo final a puntear la función PNG. Bien, colectando diagrama de conductos, nombre del archivo de imagen. Y luego lo que estoy haciendo, simplemente estoy trazando el gráfico de barras basado en estos datos. ¿Bien? Entonces, lo que estoy haciendo, me veo obligado a trasladar el valor V. Entonces estoy ingresando los datos como basados en estos datos, quiero crear un gráfico de barras, ¿de acuerdo? Y luego nombre.org significa para nombrar el cada barra estoy pasando este vector m. El vector M se dispersa en enero, febrero. Por lo que el eje x será enero, febrero, y el eje y será el número de bebés nacidos en un mes en particular. Después xlab, les estoy dando mes. Y y laboratorio, estoy dando bonos a los bebés en ese mes. Entonces color le estoy dando verde. Y principal significa el golpeo del gráfico. Le estoy dando carta de bonos a bebés. Y luego para cada barra. Estoy dando un bajo, bien, y luego estoy guardando el archivo. Entonces déjame dirigir esto. Bien, así que lo he hecho correctamente. Veamos que el mayor, ahora tenemos otro expediente. Nace bebé punto PNG. Ahora. Tenemos este enero, febrero, marzo, abril, mayo, junio, julio. Fue así. Y entonces aquí tenemos los maybes bond data lake enero, en algún lugar alrededor de 5,000 algo bebés nacidos en febrero en algún lugar para diluir, algo así. Bien. Así que la mayor cantidad de bebés nacen en noviembre y después julio. Esa es la, al ver este gráfico de barras, podemos llegar a conocer esa norma. ¿Cuál es el mes en nace la mayor cantidad de bebés y después de eso? Julio. Entonces julio y número, primer número y luego segundo es julio. Consulta aquí para 7 mil 304 de julio. Ahora en amigo 9,800. Empecé el 9 de julio mil y el número 9,800. Así que de esta manera podemos darme el apoyo. Quiero cambiar este color a rojo. Y si ejecuto esto, vea ahora nuestro gráfico se convierte a leer, ¿verdad? Se puede ver que hay un pequeño borde con color amarillo. Déjame cambiarlo a verde para que podamos ver que puede ser temprano o hacerlo limpio y ejecutarlo de nuevo. Este archivo, ver, ahora viene limpio. El Barnard es verde. Así que de esta manera podemos crear un gráfico de barras o un gráfico de barras usando impar. Entonces espero que quede claro para el numérico y para el nombre, nombre.org. Estoy pasando este vector m, este vector m y B y mandando otro vector de entrada principal. Y luego xlab, mes. Y por qué los bebés de laboratorio nacidos y de color rojo pueden ser descargados. Golpear es carta de nacimiento del bebé y el biberón es verde. Entonces dev.off guardará el archivo en nuestra máquina local. Entonces espero que quede claro cómo podemos crear un gráfico de barras simple y cómo podemos crear este tipo de gráficos de barras. Entonces hemos visto como hemos creado esto. Y luego tenemos a James para leer, escribir, y también hemos creado este sencillo gráfico de barras. Así que de esta manera podemos crear un gráfico de barras, ¿verdad? Nos vemos dentro de la siguiente conferencia. 29. Gráfico de barras apiladas: Hola y bienvenidos de nuevo. Entonces en esta conferencia vamos a sacar, vamos a visualizar una trama de bar muy interesante que nos dará una muy buena riqueza real. ¿Qué está pasando en una organización como trimestral, cobraron región sabia? Cómo podemos trazar usando la gráfica de barras. Eso es lo que vamos a ver. Entonces para hacer eso, lo que he hecho, el trimestral, el niño, lo que cada mes en realidad, lo que he hecho, he creado una matriz, ¿bien? Entonces tengo todos estos ingresos que no he guardado dentro de la matriz. Así que he creado una matriz con los ingresos desde hace cuatro meses. Cuarto uno, trimestre, dos, cuarto trimestre tres cuarto, trimestre, cuarto, cuarto, dos, trimestre, tres, cuarto cuarto. Entonces estos nichos lo que cada trimestre y cuatro cuartos hay, ¿verdad? Entonces, para cada trimestre, estos son los ingresos. ¿Bien? Entonces he creado una matriz, y lo que voy a hacer, pasaré esta matriz como dato de entrada a nuestra gráfica de barras. Entonces estoy pasando la M aquí y luego el principal ingreso total. Y luego llamado inicio en trimestre, estoy pasando trimestre. Trimestre. Quarter es un vector que contiene el valor Q1, Q2, Q3, Q4. ¿Bien? Entonces esta L barras también, nombre.org, y luego xlab será cuarto, el nombre y las patas blancas. La vida silvestre será el ingreso. Y luego coloreado. Voy a pasar. Otro vector. Colores para los que quiero dibujar. El fondo será como colorido. Una vez dibujado, te explicaré cuatro colores. He creado un vector y es valor continuo, azul, rosa, amarillo y verde. Y luego el trimestre. Y luego lo que he hecho, he creado las regiones, regiones como este, oeste, sur, norte. ¿Bien? Así que también tengo bien, y la matriz, qué tipo creó cuatro filas y cuatro columnas. Y estoy arreglando desarrollado por el rock y averiguaré lo que estoy haciendo por legión. Estoy agregando la leyenda también arriba a la izquierda. Y lo que soy bastante indulgente le estoy dando a su región son colores llenos. Región ve esta región sur, este, oeste, sur, norte. Bien. Y me siento con los colores, cada color también. Sí. Bien. Entonces déjame correr esto primero. Entonces mira aquí, esta es la matriz y mira qué ingresos trimestrales. Entonces este tipo de gráfico de barras o parcela estamos llegando aquí para el cuarto uno. Este es el trimestre TO, este es el resultado o conductor nuevo cuadrático tres este y cuarto cuarto, esta cosa aquí, esta azul, rosa, amarillo, y verde para estos colores, he creado un teorema de leyenda y diciendo que el azul es para región Sur, amarillento para cada región. Y el verde es para la región Oeste y no para la región rosada. Y el sur es azul, ¿así es amarillo? Bien, entonces al ver esta gráfica o la gráfica de barras, podemos encontrar fácilmente esos resultados trimestrales digitales para cada región. Sur. Este es el ingreso para el trimestre uno para de la misma manera para el Norte, este es el ingreso para el oriente. Este es el ingreso para el trimestre dos, trimestre, tres, trimestre, cuatro así. Entonces es bastante fácil encontrar y visualizar cosas usando la trama de barras, ¿verdad? Y cómo entonces que primero hemos creado nuestro vector de color, luego vector cuarto, y luego vectores de región y luego reactivos que he usado en la leyenda. Y las métricas se actualizaron cuatro por cuatro. Bien. Y aquí estoy creando un archivo PNG de punto de ingresos trimestrales. Y aquí estoy pasando el trimestre, este trimestre como un nombre y luego Nuevo, y estoy llenando los colores sin pasar por el vector colores. Así que de esta manera podemos conseguirlo Plate qué capas y usando nuestra gráfica de barras. ¿Bien? Así que también puedes jugar con tus datos e intentar crear alguna trama de barras hermosa, guapa y colorida. Stevens citó la siguiente conferencia. 30. Boxplot en R: Hola y bienvenidos de nuevo. Entonces en esta conferencia, vamos a aprender sobre la trama de caja. La gráfica de caja es un método para representar gráficamente grupos de datos numéricos a través de sus mosaicos silenciosos. Te diré ¿qué son estos cuartiles? Entonces es básicamente un hijo gráfico de datos numéricos. Agrupar datos numéricos como lo hacemos en una gráfica de barras y todos de la misma manera. Boxplot también está ahí. Pero en esto, representamos un grupo de datos en una caja. Entonces será tropical, pero será una caja mientras te guste el gráfico de barras. Tenemos barras de los datos y agrupamos una beta. Aquí. Tendremos el laboratorio, caja de los datos de Grubhub y las gráficas de caja son medidas de qué tan bien distribuidos en los datos, en el conjunto de datos. Entonces, será como un cuatro mayores. Lo que es que como se distribuirán los datos en ese conjunto de datos, ¿verdad? Entonces ya veremos cuando dibujemos el boxplot. Déjame decirte una cosa más. Las gráficas de caja son medidas de qué tan bien distribuidos si los datos en el conjunto de datos, dividen los datos en tres cuartiles. Entonces, ¿qué son estos cuartiles? Como se puede ver en esta imagen, que hay tres cuartiles. Uno es el cuartil uno y el cuartil dos, y este es el cuartil tres. Y esta es la gama intercuartil. Esta gráfica representa el mínimo, mediana máxima, el primer cuartil y el tercer cuartil. Entonces esta parte C, esta es la caja de datos SAP, ¿de acuerdo? Y estos vientos son valores atípicos este punto, y este punto es que son son de clase, este es el valor atípico mínimo. Y este es el máximo o resplandor, ¿verdad? Y entre esta caja y la línea azul aquí está la mediana. Esta es la mediana de todo el conjunto de datos. Entonces esta es la mediana, mediana del valor de todo el conjunto de datos. Y estos son el valor mínimo de clase antigua y el valor máximo. Y esta línea azul es la mediana. Y este es el dato máximo que está cerca de la mediana. Entonces esto, estos son otros datos útiles en realidad. Entonces esto es mínimo, esto es máximo. Y este es el, este rango de año en año, este dato intercuartílico, y este se conoce como Q1. Q1 cuartil, primer cuartil, y esto se conoce como tercer cuartil. El primer cuartil, y el tercer cuartil y primer cuartil, yo cesionario, percentil y tercer cuartil, o cuartil 75. Y en R, utilizamos la función boxplot para dibujar o para dibujar nuestra trama de caja. Y de esta manera proporcionar los incrementos similares como datos X, no lo que con los nombres y Maine. Entonces te diré ¿qué son estas cosas? Entonces X es un vector o fórmula. Entonces aquí x es un vector de fórmulas. Entonces veremos que esto es básicamente nos quedamos con Bu, cosas para liberar que son fórmula relacional sobre la que se va a dibujar la trama de caja. Y luego los datos, obviamente los datos de los que vamos a dibujar esta relación, edX, escriben la fórmula x Entonces esta es la fórmula o relación sobre la que vamos a dibujar los datos y este dibujar la gráfica. Y estos son los datos, datos reales de los que obtendremos esta fórmula o un vector. Y notch es un valor lógico. Establecer como verdadero para dibujar nada verá lo que no es en un poco. Primero, déjame decirte el significado de esto. Aumentos. De qué se trata. Los valores lógicos establecen S2 para dibujar ancho de la caja proporcional al tamaño de la muestra. Entonces agua con, si se establece a través de esta caja el tamaño será proporcional a todo el conjunto de datos, tamaño de todo el conjunto de datos, ¿bien? Entonces, si no es cierto, no será proporcional a todo el conjunto de datos. ¿Bien? El siguiente es el nombre. Nombres es el grupo de etiquetas que se imprimirán debajo de cada parcela de caja. Entonces esta es una trama de caja. Y para esto, si quieres dar algún nombre, puedes dar eso a través del argumento de los nombres. Y Maine obviamente es el nombre de la Gráfica. Bien, entonces título de la gráfica podemos dar con la media. Ahora viene lo que no es. Las muescas en los lados de la gráfica de caja se pueden interpretar como una compañía y luego el intervalo alrededor del valor medio. Y la altura de los nazis tontos medianos más o -1.7 en IQR dividido por raíz cuadrada de n, donde IQR es el rango intercuartil. Hemos visto lo que es el rango intercuartil. Entonces este es el rango intercuartil entre el percentil 25 y 75. Esta es la gama intercuartil. Entonces básicamente, este es el, ese es el valor n, ¿de acuerdo? Donde IQR es el rango intercuartil definido por el percentil 25 y 75. Y Yan es el número de los puntos de datos en el conjunto de datos. El número total de puntos de datos en el conjunto de datos es N. Y puedes ver aquí esta es la gráfica de caja y esta es la salida atípica, máxima. Este es el valor atípico mínimo, y este es el valor medio, ¿verdad? Y este es el percentil 25 o Q1, y este es el percentil 75, es decir Q3. Y este valor, esta cosa, la novena y la no, esto se conoce como el no este valor de aquí para aquí se conoce como notch. Notch es el intervalo de confianza 795 de la mediana. ¿Bien? Entonces a partir de la mediana, esta es la mediana y esta, y este valor se conocerá como notch. ¿Bien? Entonces cuando pones no igual a verdad, puedes ver esta curva en esta cosa. Si pones notch no igual a dos, vas a estar viendo una línea recta aquí. Esto no, no va a estar ahí. ¿Bien? Entonces de esta manera, ver aquí en esta muesca es falso. Entonces verás como esta boxplot, y si pones no igual a true, estarás obteniendo esta muesca. Bueno, significa que la mayor parte de los datos aquí serán, estarán cerca de la mediana y será intervalo muy seguro de los datos como valor medio es esto y este más y menos de ellos medio como aquí. Los puntos de datos concentrados estarán cerca de la mediana y representarán esos datos verdaderos, ¿verdad? Entonces ahora tenemos la comprensión básica de lo que es boxplot, qué es el título tranquilo, ¿qué son los valores atípicos? Y ¿cuál es el cuartil mínimo y qué son los cuartiles máximos? ¿Qué es el rango intercuartílico? ¿Y qué es Q1? Percentil 25, y Q3 es el cuartil 75, ¿de acuerdo? Y este es el valor medio. Entonces veremos en la próxima conferencia cómo podemos dibujar un boxplot basado en los datos que tenemos en nuestra Estelle Blake, vamos a usar mt cars, vamos a usar mt cars, que es un conjunto de datos real que está disponible dentro del paquete de autos o la ADA dentro del plato de arte para restablecerse. Y usaremos ese conjunto de datos de autos vacíos para dibujar la gráfica de caja basada en el MPT y el número de cilindros. Entonces te veré dentro de la próxima conferencia. 31. Boxlot con un conjunto de datos de mtcars: Hola y bienvenidos de nuevo. En esta conferencia vamos a dibujar una trama de caja, ¿de acuerdo? Y vamos a usar un conjunto de datos de autos vacíos que ya está disponible en nuestra distribución. Entonces sabemos que necesitamos descargar este conjunto de datos. Ya está incorporado en nuestro entorno o nuestra distribución. Entonces podemos usar eso directamente e intentamos presentar esos datos de autos vacíos en una parcela de caja. Bien, entonces veamos cómo podemos hacer eso. Entonces primero, déjame mostrarte lo que hay en esa caja. ¿Qué es eso en los autos vacíos? Entonces primero déjame pagar para acceder al Voy a crear una entrada de datos y autos vacíos que ya están disponibles dentro del interior aunque. Impares y uno significó. Y lo que voy a hacer, voy a tratar de ejecutar esto y ver qué hay ahí. Déjame imprimirlo. Aquí. El auto vacío, nuestro conjunto de datos y enfermedad teniendo como una computadora portátil guarda que Martha exporta el tablero 1017 ordenada para Dr. Riley y el equipo de investigación de escritorio deben ciudades y todas estas tarjetas, detalles están ahí como millas por galón. ¿Qué es la mielina? Cada auto millas por galón. Y luego el número de cilindros, los motores del motor tendrán el número de cilindros, como consiguió 2468, número de cilindros en el motor. Y luego desplazamiento, HP. ¿Cuál es el punto de acceso y el peso de arrastre de los autos? Todos esos parámetros se dan aquí en estos datos que son autos vacíos. Entonces lo que voy a usar, no voy a usar todo el conjunto de datos. Voy a usar C, D y E. Obtengo una Lee millas por galón y número de cilindros. Bien. Entonces para eso, qué voy a hacer. Bien, Entonces usemos estos 2 mi por galón n número de cilindro. ¿Bien? Y lo que voy a hacer, voy a imprimir y luego voy a la cabeza enorme. Y luego paso estas entradas de datos para que podamos ver lo que viene. Déjame correr estas dos líneas y ver. Ahora estamos metiendo los autos y su kilometraje, millas por galón y número de cilindros en eso. Están en la cárcel. Entonces estos dos detalles los estoy obteniendo con esto, bien, así que ahora voy a usar esta entrada de datos, que llevará las millas por galón y número de cilindro arriba. Y voy a tratar de dibujar nuestra trama de caja. Bien, entonces lo primero que voy a hacer, voy a crear un archivo PNG para almacenar la gráfica en un archivo y tenía archivo enorme igual a Allen le dio algún nombre como autos vacíos, cuadro plot punto PNG. Bien. Entonces voy a dar el nombre del archivo como autos vacíos caja parcela punto PNG. Y entonces ahora lo que voy a hacer, voy a tratar de dibujar el boxplot y para la dieta y perder boxplot. Y aquí lo que voy a hacer, voy a dar dos millas MPG por galón con el número de cilindros. Bien. Entonces voy a dibujar voy a Crear un diagrama de caja entre estos mpg y número de cilindros. ¿Bien? Y luego lo que voy a dar, voy a dar datos de acuerdo a esta entrada de datos, nuestros autos vacíos. Entonces voy a mantener los datos iguales a los autos vacíos. ¿Correcto? Entonces. Lo que necesitamos conservar A continuación, necesitamos obtener el xlab. ¿Qué se hará? ¿Qué queremos escribir? Escribirá X Lab número de cilindros. ¿Y por qué el laboratorio será blanco? El laboratorio será mpg millas por galón. Bien. Entonces lo siguiente, lo que guardaremos, mantendremos principal igual a mis pequeños datos. Datos. Más duro dará tarjetas mielinizado. Bien. Después guardaremos el archivo. Bien, dev.off. Bien. Entonces lo que estamos haciendo aquí estamos, estamos creando una parcela de caja, mpg y número épsilon n al auto, y estamos usando el conjunto de datos autos vacíos y el eje x se numerará hacia arriba cilindro y el eje y será millas por galón. Y el nombre de la gráfica serán autos, datos de kilometraje. ¿Bien? Y déjeme dirigir esto. Bien. Bien. Entonces esta es nuestra trama, la trama de caja que hemos dibujado. Vendrá aquí. Ahora el rubro es el nombre de la tabla es datos de kilometraje del auto. Y este es el número de 468 esbeltos, y esto es millas por galón. Y la gráfica de caja de datos. ¿Bien? Así que de esta manera podemos dibujar sin embargo, podemos hacer parcelas de caja. Si quieres entender una vez más, te lo diré. Lo que hemos hecho es sencillo. Tenemos, estamos utilizando datos de autos vacíos, los cuales ya están disponibles en nuestra, nuestra distribución, por lo que no necesitamos crearlos ni descargarlos. Ya está incorporado en el medio ambiente. Entonces estamos usando esto, toman o dos autos vacíos significa que vamos a usar este conjunto de datos de autos vacíos, que está teniendo toda esta información sobre los autos, diferentes autos. Y luego lo que estoy haciendo, estoy usando una parcela de caja y estoy dibujando la parcela de caja entre este cilindro número arriba y kilometraje por galón para cada auto. ¿Bien? Y estoy usando datos y pre-comps. Y para x, x es, estoy usando el número épsilon ahí y el eje y mpg, ¿bien? Y luego el nombre de la gráfica estoy dando mis datos en vivo y luego estoy escribiendo ese archivo debido a algunos trajes en mis auditorías que hacer. No puedo ver las parcelas aquí. Y por eso lo que he hecho. Lo he escrito al archivo carro vacío, boxplot punto PNG. Y podemos ver el archivo aquí. Entonces esta es la gráfica de caja y esta es la mediana. Esta es la mediana, ¿verdad? Y esta es la salida mínima. Y ese es el máximo o mínimo. Y es Adam. Sin valor medio para el número de vendedores. Así motor de cuatro cilindros. Mis lentes aquí y el kilometraje medio es algo aproximadamente 26, 27 mi por galón o número de cilindros seis. Está llegando alrededor de 20, 20 millas por galón y número de cilindro, si es ocho, la mielina alrededor 15 galones por 15 mi por galón, ¿verdad? Así que de esta manera podemos dibujar una parcela de caja de los autos vacíos. Nos vemos dentro de la siguiente conferencia. 32. Boxplot con muesca: Hola y bienvenidos de nuevo. Así que en la conferencia anterior hemos visto cómo podemos dibujar nuestra trama de cajas utilizando el conjunto de datos de autos vacíos. Y en base a este número hasta cilindro y kilometraje por galón. Así que en base a estos dos parámetros no son dish dos características de este conjunto de datos. Hemos dibujado la trama de caja y hemos visto cómo se ve la trama de caja. Entonces autos, datos de kilometraje aquí, mpg y número hasta cilindro 46 8 mi por galón. Sí, 15 2025. Y esta línea negra es la mediana de cada grupo. ¿Bien? Entonces autos de cuatro cilindros, autos de seis cilindros y uno de cilindros. Ahora, en realidad podemos dibujar la misma trama de caja con no. Entonces hemos visto lo que no lo es. Ahora. Ya veremos como no. Si ponemos notch llamado un verdadero cómo va a cambiar esta boxplot y NADH se usa para dibujar, como te dirá cómo se relaciona la mediana de cada grupo entre sí, ¿verdad? Cómo las medianas son diferentes grupos coinciden entre sí. Bien, así que hagámoslo. Y también veremos, también intentaremos poner algunos colores en esta gráfica boxplot para que quede bien, ¿de acuerdo? Y también vamos a tratar de nombrar este eje x. Bien, así que hagámoslo. Entonces primero lo primero, lo que voy a hacer, voy a cambiar este nombre a boxplot width. No. Bien. Y entonces lo que voy a hacer, simplemente voy a poner no igual a, perdón, no igual a verdad. Y ahora, déjame dirigir esto. Ahora déjame ir aquí. Mira aquí, tenemos, así que nuestra gráfica era así. Ahora bien, cuando pongo no igual a verdad, nuestra gráfica ha cambiado a esto. Y mira, ya sabes, esta es la mediana de cada una de las gráficas, ¿verdad? Cada uno de los conjuntos de datos en cada uno del grupo, como cuatro cilindros, seis cilindros. Y cómo se relacionan estas medianas son diferentes entre sí, cómo coinciden entre sí. Sin embargo, vea la mediana. Cómo van estas cosas, vienen los nazis por cada uno de estos grupos. Ahora, déjame poner algo de color en las deudas. Entonces lo que voy a hacer, voy a enorme. Y luego pongo rector y escucho qué algoritmo le das. Rojo, verde, amarillo. Ahora estoy dando tres colores. Rojo, verde, amarillo, amarillo. Y déjeme dirigir esto. Déjame ponerle algún nombre María Callas al hockey. Entonces eso tendrá las diferentes, diferentes gráficas, imágenes. Ahora podemos tener diferentes colores para diferentes grupos o cajas. Y antes era así, sin color y sin colores de ancho de muesca, muesca, ancho de muesca. Bien. Ahora, déjenme dar algunos nombres aquí. Bien. Entonces aquí, los kilometraje. Tarifa alta para autos de cuatro cilindros, kilometraje es alto para seis cilindros, mediano, y para el cilindro, esta ley dará los nombres alto, medio y bajo. Para que cuando veamos ahora boxplot, entendimos, entenderemos que este es el auto promedio alto y este es medio y esto es gasolina de bajo kilometraje. ¿Bien? Así que eso es genial. Nombres hotel dan alto, medio, bajo. Bien. Déjame dirigir esto. Entonces nos vemos y ahora en vez de 46.8, tenemos alta, media y baja. Así que así podemos, ¿verdad? Y si quieres más específico, puedes poner como porcelana tan alta, algo así para que quede más claro. Excelente, medio, bajo, así. Bien. Bien. Entonces de esta manera también lo puedes poner. Entonces espero que llegues a entender cómo puedes poner boxplots. Entonces también intentas verte en la siguiente conferencia. 33. Histograma y distribución de Histogramas: Hola y bienvenidos de nuevo. En esta conferencia vamos a aprender sobre histogramas. Entonces veremos cuál es nuestro histograma. Y también veremos los tipos de histogramas y cómo podemos dibujar sobre cómo podemos poner histograma en base a nuestros datos en nuestra temporada táctica. Bien, entonces aquí veremos la parte de teoría y aprenderemos qué es el histograma. Entonces déjame decirte. Un histograma no es una presentación apropiada de la distribución de datos numéricos. Entonces es básicamente un gráfico como gráfico de barras o gráfico de barras que hemos visto. Simplemente parecía tipo de distribución representar esta distribución de datos numéricos. Entonces básicamente, si tienes datos numéricos, puedes dibujar una gráfica o una gráfica o Brad y el histograma es una representación muy apropiada de la distribución de los datos numéricos. Entonces básicamente se usa ¿qué? Los datos numéricos, y que los datos numéricos deben ser naturaleza continua la mayoría de las veces, fueron introducidos por primera vez por Karl Pearson. Entonces Karl Pearson ha introducido el histograma. Otra forma de decir histograma, como otra definición de histograma es una visualización gráfica de Brita usando partes de diferentes alturas. En un gráfico de barras, hemos visto que el autobús murió de la misma manera. histograma también es una visualización gráfica de datos utilizando barras sub diferentes alturas. Es similar a un gráfico de barras o histograma agrupa los números en rangos. Entonces, si ves gráfico de barras, no se agrupa los datos en el rango como diez a 2020 a 30. No se encargará. No agrupará los datos, pero en el histograma, agrupará los datos en los rangos. Y luego pondrá en los rangos el gráfico de barras, gráfico de barras con números . Agrupar números en los rangos te dará un histograma. Entonces espero que el panorama se esté aclarando. Veremos las imágenes también. Veremos la representación real de cómo el gráfico de barras es diferente del histograma. Entonces aquí es bueno señalar ese gráfico de barras más agrupar los datos numéricos en rangos, como si tuvieras datos 10-100. Por lo que va a crear las barras. Y con eso, también organizará los datos 10-2020 a 30 en los grupos. Y va a crear caminos. Entonces será un histograma, la altura de cada barra vendida, cuántos caen dentro de ese rango. Entonces básicamente te dará una idea de que 10-20, ¿cuántos números hay? ¿Cuántos apoyos? Si estás mirando el salario de las personas. Entonces te dirá como diez a 20, ¿cuántas personas hay? ¿Cuántas personas hay así? Bien. Crear un soleado histórico, crear un histograma proporciona una representación visual de la distribución de datos. El histograma puede mostrar gran cantidad de datos y la frecuencia de los valores de datos. Entonces, como lo que hace, agrupará los datos en los rangos. Por lo que te dará la frecuencia como diez a 20. ¿Cuántos? Por lo que también te dará la frecuencia, soportará un valor de datos particular. Te dirá cuántas veces está ocurriendo, la frecuencia de los valores de datos, la mediana y la distribución de los datos pueden ser determinados por tu histograma. Entonces, la mediana y la distribución de los datos también se pueden determinar por histograma. Además, puede resolver cualquier valor atípico son lagunas en los soportes de datos. Tenemos los datos 10-140 a 50. No tenemos ningún valor. Entonces te dirá que de 40 a 50, no te mostrará el bar. Entonces con la representación gráfica, puedes encontrar, bien, 40 a 50, no tenemos ningún empleado. Por lo que te mostrará la brecha en los datos, y también te mostrará el valor atípico. Supongamos que tienes como diez a 100 y luego tienes otra barra que viene de 17180. Entonces todos los bloques de datos tenderán a 100 y otra gráfica está muy lejos. Está mostrando 171-81-7180 rangos y un valor atípico que fácilmente podemos identificar mirando el histograma. Entonces histograma, o gran manera de resolver esto sacude datos continuos, continuos que te dije antes, como la altura y el peso si quieres. Entonces el histograma es el más adecuado para ese tipo de radar. Entonces aquí tengo. Entonces solo te estoy mostrando cómo puedes diferenciar el gráfico de barras y los histogramas. Entonces nos vemos en el histograma no hay hueco. Es una muy continua, como 468 hasta 24. La barra empieza a entrar. Aquí puedes ver la diferencia entre histogramas y gráficos de barras. Entonces aquí se puede ver el histograma, es muy continuo así. Ignora las brechas entre las barras aquí mismo, el gráfico de barras que puedes ver te está mostrando lo diferente como enero, febrero, marzo, y hay una brecha entre las barras. Entonces este es el principal diferente que como en un histograma. Las barras estarán no habrá hueco entre las barras y el gráfico de barras tendrá algunos huecos entre las barras. ¿Bien? Entonces esa es una diferencia pictórica que puedes encontrar entre los histogramas y los gráficos de barras. Ahora viene el histograma de distribución o ¿cuántos tipos de histogramas hay? Distribución normal, se puede ver así. Entonces, en una distribución normal, es probable que se produzcan puntos en un lado del promedio como en el otro lado de la evidencia para verte datos de este lado, lado izquierdo, y en el lado derecho son casi iguales, ¿verdad? Entonces esa es la distribución normal. Y si vamos a la distribución bimodal, te arrojará en una distribución bimodal. Hay dos picos, C-O, hay un pico, y hay otro pico. Hay dos picos en los datos. Por lo que este será bimodal en un dato de distribución bimodal. Entonces nos separamos y analizamos como distribución normal separada. Entonces esta es una distribución normal y esta será otra distribución normal. Y cuando dos distribuciones normales se junten, creará una distribución bimodal. Esta es la distribución normal y esta es la distribución bimodal. El tercer tipo de distribución o histograma es una distribución sesgada a la derecha. Lo que es distribución sesgada derecha o histograma, o distribución sesgada a la derecha también se llama distribución sesgada positivamente. ¿Por qué se llama distribución sesgada positivamente porque ve que los valores sesgados vienen en el lado derecho, cero a infinito, a la derecha? Entonces estos son los valores positivos. Entonces, cuando está del lado derecho, los dos valores de empuje están sesgados. Lo hará, llamamos una distribución sesgada a la derecha. En una distribución sesgada a la derecha, se produce una gran cantidad de valores de datos en el lado izquierdo, con un número menor de valores de datos en el lado derecho. Mira aquí, en el lado izquierdo, hay más valores de datos, y en el lado derecho, el número va disminuyendo, ¿de acuerdo? Bien, es distribución sesgada uniformemente cuando los datos tienen un límite de rango en el lado izquierdo del histograma, por ejemplo, límite de G. Y el siguiente es la distribución sesgada a la izquierda. Aquí. La distribución sesgada izquierda también se llama negativamente. ¿Por qué negativamente? Porque en el lado negativo se está sesgando. En una distribución sesgada izquierda son grandes. Número de valores de datos que ocurren en el lado derecho. Por lo que el número va en aumento de izquierda a derecha. Entonces, cuando nos estamos moviendo a la derecha, el número va en aumento ¿verdad? Y menos cantidad de valores de datos debajo del lado izquierdo o lado izquierdo es menor valor que el lado derecho. Más valores es una distribución sesgada a la izquierda. Y una distribución sesgada a la derecha suele ocurrir cuando los datos tienen un límite de rango. En el lado derecho de este diagrama, e.g Límite, como cientos. ¿Bien? Entonces estos son los cuatro tipos de histogramas. Una es la distribución sesgada a la izquierda, luego hemos visto la distribución sesgada a la derecha, luego la distribución bimodal, y luego la primera es la distribución normal. Histograma. Ahora, ¿estás solo hist función en la función de hist JIST para crear histograma Y tomará pocos parámetros o argumentos para dibujar un histograma. Bien, entonces eax es, ¿qué es X? X es un vector de valores para el que el histograma es un gráfico. Entonces esta x es un vector para el que queremos dibujar el histograma, el main, xlab y ylab. Principal. Principal. Principal es el título para el histograma, y xlab son las etiquetas del eje, bien. Como frecuencia o cualquier otra cosa, si quieres portar. Y luego x, lima y salvajemente son los rangos de valores X e Y. ¿Bien? Y luego se rompe Brexit vector único dando los puntos de ruptura entre las celdas del histograma son función de vector computacional puntos de ruptura en un solo número dando las ventas de un histograma. Bien, ya veremos qué se rompe en un detalle. Entonces tenemos el carbón que es color y luego tenemos la frontera que ya conoces. Entonces en la siguiente conferencia veremos el ejemplo de cómo podemos usar la función hist para dibujar nuestro histograma. Así que vamos a dibujar un histograma usando la función hash en esa siguiente conferencia. 34. Histograma de dibujo con la función de los hist: Hola y bienvenidos de nuevo. Entonces en esta conferencia vamos a escribir nuestro primer programa para histograma. Entonces lo que vamos a hacer, vamos a crear un vector que contendrá nuestros datos. Y luego con ese vector, vamos a hacer un histograma. Vamos a trazar que los datos tienen un histograma. Entonces comencemos con esto. Entonces lo que he hecho, ya he creado un archivo punto R que es histograma punto R. Y he escrito el código. Entonces te mostraré cuál es el curso. Entonces ya he escrito el código para que podamos ahorrar tiempo por escrito, bien, así sucesivamente. Lo que estoy haciendo, estoy creando datos vectoriales para la gráfica. Entonces estoy creando los datos aquí. Entonces estoy creando, estoy creando un vector y estoy asignando ese vector a x Así que x es n vector que está conteniendo datos, lago para impresiones y 17,000, 3,006 más soporte externo. El salario pocos implica que estoy almacenando en este vector x. entonces este vector X es nuestro dato y que está conteniendo apoyo, el salario de los empleados. ¿Bien? Entonces este es el salario del implica propano Tao Qian, así. Bien, Luego en algunos rangos como preppy a 2050 a 60, 20 a 30, 40 P2P así. Bien, entonces ahora qué siguiente cosa, lo que este va a ser el ejemplo de histograma muy simple. Bien, entonces ahora tenemos los datos. Quiero trazar un histograma. Entonces lo que voy a hacer, voy a crear archivo de imagen de histograma foster. Así que voy a usar la función PNG y vamos dar archivo igual a histograma punto PNG. Y entonces lo que voy a hacer, voy a usar la función hist que te he dicho en la conferencia anterior. Así que aquí estoy creando el histograma, ¿de acuerdo? Entonces usaré la función hist y voy a pasar esta x. ¿Qué es x? X son los datos para los que vamos a trazar el histograma. Bien, entonces estos valores irán aquí con X. Entonces X es un vector de datos, datos vectoriales. Entonces lo que estoy dando xlab equivale a salario y luego color lo estoy dando como verde y el borde le estoy dando amarillo. Así que todavía no estoy dando demasiados parámetros. No estoy pasando demasiados parámetros. Sí. Sólo xlab que voy a dar sueldo, luego arriba color, voy a dar verde y la frontera, voy a dar Eslovaquia. Y luego guardaré este archivo de imagen gráfica nuestro sistema que es depth dot off. Bien, entonces antes de movernos, déjame establecer nuestro directorio de trabajo. Entonces para hacer eso, lo que voy a hacer, y sin embargo lo que voy a hacer, lo guardaré. Entra en este directorio. Y lo siguiente que voy a hacer, iré a más. Y sin embargo lo que voy a hacer, voy a establecer directorio de trabajo. Bien, entonces ahora guardaré este archivo. Entonces espero que los pasos sean bastante sencillos. Estoy creando un vector X con los datos. Entonces estoy dando usando la función PNG para crear un archivo de imagen para toda nuestra gráfica para que podamos ver y podamos utilizar. Y luego lo estoy guardando en nuestro archivo local por Deborah off. Bien. Y estoy usando hist función a riñón hace histograma con los datos y pasando x vector aquí y luego el x lab, estoy dando el nombre sueldo y color verde y trueque será color amarillo. Así que ahora he guardado, ahora he hecho así todo este archivo fuente. Haga clic en Fuente, y esto está hecho. Lo siguiente, necesito ir a la Unidad D, ir a nuestro 20 y ver aquí nuestro firewall con la histona. Déjame verificar el nombre del archivo. La imagen final, esta gráfica superior punto PNG. Y si él también, creo que este es el nombre del archivo histograma gráfico PNG. Bien, así que esta es la forma en que tengo mi borrar todos los demás que he creado antes. Entonces ahora tenemos el histograma de x. Y aquí lo que estamos creando, estoy dando el, déjame quitar esto, borrar esto. Déjame ejecutar el programa otra vez. Déjame cambiar esto a rojo. Y la frontera será el hockey amarillo. Déjame correr esto otra vez. Déjame ver si el archivo en general para ver tu histograma. Esto es salario y aquí frecuencia. Y luego aquí están los rangos como diez a 2020 a 30,030 a 40,040, 2050 a 60,000. Entonces ahora se puede ver cómo el histograma está siendo oscuro. Entonces diez a 20 mil, cuántos implica están tratando salario 10-2123. Verifiquemos esto con los datos. Bien. Entonces vamos a aquí, vamos aquí. 22 tienden a 2010 a 23, así que diez a 2012. Y luego tenemos otro, tú tienes una ventaja dos. White está haciendo. Bien. Y entonces tenemos $20 o 2,000,017,000.15 mil. Entonces estos son los tres implica dibujar tristemente 10-20. Por lo que está mostrando tienden a 2310 a 23 empleados. Entonces de esta manera dividirá los datos en los rangos y los hará nuestros grupos o de diez a 23 empleados, luego 20 a 32 implica menos 25 datos también. 20 a 31. Empezaron a ver de 20 a 30. Tenemos dos empleados. Bien. 25.020, 2000. Eso también es cierto. Totalmente. Después 30 a 42. Nuevamente, 30 a 42, 34, t1, y t2 uno. Bien. 30 a 40 también a siguiente es de 40 a 50, solo hay un empleado ahí. Entonces veamos para T2, T4, T5. Y mira esto está más que perfectamente bien. Entonces 40 a 50 solo uno implica durante el siguiente es el último, T2s t Tenemos cuatro implica. Veamos eso más de 5012, luego tres, y luego cuatro. Entonces tenemos cuatro, ¿verdad? A ver, si hay que confiar en la ciudad, tenemos cuatro implica. Entonces de esta manera agrupará los datos y dirá la frecuencia. Al igual que si ves esto, puedes decir fácilmente ese criptosistema más de 50,000 sueldo para empleados o dibujar de diez a 23 empleados, 20 a 32 implica y 40 a 50, solo uno en precio ahí que está recibiendo salario por P2P. Entonces de esta manera se dibujará el histograma y agrupará los datos en función de la frecuencia. ¿Bien? Definirá un rango o Beta, y luego te dirá la frecuencia de ocurrencia de los datos en ese rango. Así ocurre de diez a 23, 20 a 32 trabajadores, 30 a 42 trabajadores, 40 a 52 de ocurrencia y luego se pone la placa de Petri t para agonista. Entonces lo hará, lo que hará, agrupará los datos en pocos rangos y luego te dirá la ocurrencia de datos en esa tendencia. Entonces diez a 20, hay tres datos, 310 a 20 y es Jacqueline tres veces. ¿Bien? Entonces de esta manera, así de esta manera podemos decir que tres empleados se están secando, tristemente 10-20. Entonces esta es la significación del Histograma. Ok. Lo siguiente es lo que he hecho. He tomado nuestros diferentes datos aquí. Soy lo que estoy usando, 114-567-8910. Bien. Entonces entonces lo mismo, estoy dando un archivo diferente gráfico de programa embellecido, un punto PNG. Y aquí lo que estoy usando, x sin x, estoy pasando año. Solo los puntos de datos son diferentes. Los valores de los datos son diferentes aquí. Bien. Y bastante simple después, 114-567-8910. Bien. Y luego lo estoy guardando para bien. Ejecutemos esto y veamos qué estamos obteniendo. Entonces déjame encontrar el histograma gráfico uno aquí. Ahora. Se trata de definir los datos. Me gusta de cero a dos. Cómo está definiendo el rango es de cero a 22 a 44 a 64,628.8 a diez. Entonces g rho 22, ¿ cuántas ocurrencias? Dos ocurrencias que así G fila dos a 11, estas dos son menos de dos, ¿verdad? Entonces cero a dos para corregir. Lo siguiente es a dos por uno. Entonces dos a cuatro. Sólo cuatro ¿Hay uno? Después cuatro a seis a cuatro a 65.6 para escribir de seis a 8782 nuevamente, y luego 9108 a diez a 9.10. Entonces de esta manera está dividiendo los datos en dos rangos, cero a dos, o dos a 44 a 66 a 8.8 a diez. Y luego nos está dando la frecuencia de ocurrencia de datos 0-22 dos veces dos a cuatro, una vez cuatro a seis. Repetir el precio, ¿de acuerdo? A ocurrencia de valores 4-6, ¿verdad? Sí, 5.6. Entonces de esta manera también, puedes cambiar el color desde aquí. Puedes hacerlo negro. Y saber que la gráfica estará en el negro. Así que de esta manera podemos cambiar el color hasta el histograma. Te veré en la próxima conferencia. Estaremos viendo algunos otros ejemplos de histograma. 35. Usar brotes de ylim en el histograma: Hola y bienvenidos de nuevo. Entonces, en la conferencia anterior, hemos visto cómo dibujar un histograma. Hemos visto dos ejemplos, dos datos diferentes. Así que hemos tomado un vector. Y luego en el segundo ejemplo, hemos tomado los datos muy simples. Y ahora lo que vamos a hacer, vamos a aprender a usar break, a usar limit, y, limit y break bonds, estos tres parámetros a la función hist para dibujar un histograma con break y x limit. Bien, entonces he escrito el código. Entonces primero, voy a usar el mismo vector donde tenemos la sutilmente de tus persianas leyendo desde el origen de preimpresión hasta 60,000. Entonces estoy creando un vector x que hemos hecho en la conferencia anterior. Y luego estoy creando un archivo de destino donde almaceno este histograma. Estoy usando la función p y g y estoy dando finalmente Mises a Brex dot PNG To con Brex dot PNG. Este será el nombre final que se creará en el nombre del archivo que se creará en el que estará nuestra gráfica, nuestro histograma estará en dibujado, bien, y luego aquí con la función hist, estoy creando el histograma. Entonces estoy pasando el vector x aquí en los datos. Y luego le estoy dando nombre xlab agrega peso y color. Estoy dando azul, mano la frontera. Le voy a dar ese verde. Y luego x límite que estoy dando. Aquí, estoy usando un argumento que es excelente. Los límites x. Para el eje x, le estoy dando el límite cero a 40,000. Y vea que nuestros datos están conteniendo los valores 15-60 de tolerancia están cubiertos. Los datos van más allá para t, Pero aquí estoy haciendo un ciclo, limitando que los valores del eje x a cero a 40,000. ¿Bien? Y por qué extremidad es GTO a diez. Bien, tan bueno, por qué eje será la frecuencia de ocurrencia de los datos como cero a diez o cero a 20, lo que sea que creamos. Nuestra apertura implica un sueldo de dibujo 0-2020 a 30 o 30 a 40, así. Bien. Para que esté levantando dedo del pie. Entonces y luego estoy usando otro parámetro aquí, se rompe igual a dos. Entonces déjame primero que sea uno. ¿Bien? Entonces, lo que estoy haciendo, le estoy dando al Brexit igual a uno. Veremos qué impacto está poniendo este Brexit igual a uno en nuestro histograma. Y luego estoy guardando el archivo. El histograma que se generará guardará en este dedo del pie con el archivo PNG de punto Brex para guardar eso en nuestro local, viéndolos usando db dot off. Con esto, se guardará en nuestra máquina. Entonces ahora este es el código, código simple de una línea que estamos pasando algunos parámetros con ladrillos. Xlim. Xlim, xlim está limitando los valores de datos en el eje x, los límites y para el eje y break entenderán cuando ejecuto este código. Entonces estarás entendiendo mejor cuando veas la salida. Y con esa visualización, entenderemos qué hace realmente el Brexit. ¿Bien? Así que permítanme ejecutar esta fuente mantener Fuente, haga clic en la fuente y esto será así que permítanme abrir los archivos de salida. Así que aquí hay dos con el archivo Brexit se ha creado. Déjalo abrir. Ahora el expediente, nuestros números históricos. Entonces verás aquí, ya que he dado descansos iguales a uno, estamos viendo solo una barra grande, ¿verdad? cero a 40, y está mostrando 0248 empleadores están intentando salario entre éste a 40. Déjame verificar eso. Ver aquí, tenemos total 10.12 3456, 1234, 5670, 2408. Pero tenemos una lista, 702, 40, supongo 123, 456.7. Todos los demás son más de 40, ¿verdad? 1234. Bien, entonces ahora podemos ver esta gráfica. Déjame cambiar los ladrillos a dos. Entonces ahora verás que habrá dos particiones. ¿Bien? Entonces déjenme, cuando vuelva a aparecer el archivo, ver aquí ahora tenemos cero a 40. 40 sueldo se ha dividido en dos partes, cero a 20.22, 40, y luego 42 estado mostrando por separado, ¿verdad? Entonces ahora todo el conjunto de datos se ha dividido en tres, pero de cero a 40 desde aquí. Desde aquí hemos comenzado cuando cero a 40. Entonces cero a 40 datos, cero a 40 datos se han dividido en dos partes. Cheeto a 20.0 a 60, c, cero a 20.0 a 22 400,220.02, 400,223.22, 44 datos y 40 a 65. Bien. Entonces déjame mostrarte la diferencia. Si pongo t cero a t aquí, ¿qué va a pasar? Los datos de cero a 60 se dividirán en dos partes. Déjame Así que vuelves a abrir el archivo. Ahora, G cero a 60 se ha dividido en tres partes porque no tenemos datos más allá de la seguridad. No está mostrando la otra sino de cero a 60 deuda web. Tenemos datos. Por lo que los datos de toxicidad de Quito se han dividido en tres partes. Entonces esta etapa, lo que rompe lo hace x lim cero a 60. Si lo hago 50, ¿qué va a pasar? De cero a 50 datos se dividirán en dos partes. Bien, déjame dirigir esto. Y así viste que puedes, déjame hacer clic en Fuente y déjame ir al archivo y abrirlo de nuevo. Ahora, J22 pocos datos previos se han dividido en tres partes. Bien. Lo tengo. Cero a 2020 a 40, luego 40 a 60 se junta, ¿verdad? Por lo que se está mostrando hasta 50. Bien. Si lo hago tres, ¿qué pasará? A ver. Déjame abrirla otra vez. Te veo atender a 2020 a 40.40 a 60. Déjame Sigamos experimentando. Si lo hago cuatro, ¿qué va a pasar? Ver, ahora está mostrando diez a 2020 a 30, 30 a 40, 40 a 50, y luego 50 a 60 serán separados. Entonces 12340250 los datos se han dividido en cuatro, ¿verdad? Eso es lo que hemos pedido por R2P, así que lo dividimos en cuatro. Si lo hago cero para suponer 32, 30 mil datos se dividirán en cuatro partes. Así que permítanme abrir el archivo otra vez. Diez a 20.20 a 30, porque no tenemos tantos datos, ¿verdad? Así que de diez a 2020 a 30 y luego 30 y más allá se ha dividido. Porque nosotros si yo también lo hago, a ver. 30 datos se han dividido en dos partes. El primero es 0220 y luego 20 a 40 y más allá, ¿verdad? Así que déjame sacar mi retrato como G nada a T y dejar que haga para y vea. La salida. La seguridad de la puerta A2 se ha dividido en 1234 partes. Déjame volver a abrir el archivo para ver el archivo objeto C y G, cero a 6110 a 2020 a 30, 30 a 40, 40 a 50 a 60. Bien, entonces esto es lo que hacemos con los descansos. ¿Bien? Entonces esto es lo que x Lim y salvajemente, salvajemente moles. Así puedes Nuestro CEO, mientras que la imagen haciéndolo está restringiendo la frecuencia del eje y a cero a diez. Entonces, supongamos que si cambio eso, si cambio esto para apoyar a sus seis únicos, ¿qué pasará? Déjame ejecutar esto y abrir ese archivo actual. Ver aquí ahora estamos viendo frecuencia cero a seis. ¿Bien? Así que de esta manera podemos restringir el eje x y el eje y donde se encuentra el xilema y ampliamente soportado. Si lo hago Por lo que va a pasar. Es bueno experimentar con el código para ver la salida. Y cuando veas la salida, sabrás el uso real del parámetro C. Obtienes un dos para, uno poco para él está bien. Si lo hago soportes, lo haré de cero a dos. ¿Qué va a pasar? Ahora estoy cambiando el eje y, la frecuencia. Ya veo, ves, ya sabes, va como esta. frecuencia alélica de ocurrencia total a la misma va a la derecha. Así que de esta manera, podemos jugar con el código en cualquier lenguaje de programación, bit R o Python o cualquier cosa. Si quieres aprender, tienes que empezar a jugar con el código y empezar a jugar con los parámetros. Y si cambias el parámetro, verás el impacto exacto de ese parámetro. Y en ese sentido, aprenderás mejor y obtendrás las implicaciones, impacto exacto de ese argumento en particular, parámetro particular en una función en particular. Al igual que en su función, sabemos qué es x, qué es x lab, qué es el color, ¿qué es el borde? Que es x Lim. Hemos visto cómo xlim está impactando el histograma, cómo el parámetro de miembro salvaje está impactando el histograma y cómo los ladrillos están impactando el, impactando el histograma. Entonces, cuando experimentas, cuando juegas con el código y sus datos, obtendrás mejores conocimientos y una mejor comprensión del código. Entonces espero que tengas que entender qué es lo que está ligado al X , y se rompe y cómo impactan en nuestro histograma. Entonces con eso, vamos a verle dentro de la siguiente conferencia. 36. Tabla básica de la línea para las series de tiempo con ggplot2: Hola y bienvenidos de nuevo. Entonces en la conferencia anterior hemos visto cómo dibujar un histograma. Ahora nos estamos moviendo a alguna gráfica muy interesante. Puedes ver nuestro gráfico básico de líneas. Y esto es muy importante porque esto va a ser importante cuando aprendas más sobre series temporales o problemas en tu viaje de ciencia de datos. Y esto es, en esta conferencia nos va a gustar ver cómo podemos dibujar un sencillo gráfico de líneas para nuestras series de tiempo usando GG plot, que es un paquete en R. Entonces, ¿qué es el tiempo desde entonces? Primero, tenemos que entender eso. Entonces déjame llevarte a las definiciones básicas, muy básicas de Wikipedia sobre series de tiempo. Una serie temporal es una serie de puntos de datos. Entonces, básicamente, sus puntos de datos de trabajo de CD indexados están listados o agarrados. Por lo tanto, puede ser indexación de la serie de puntos de datos, o puede ser levantar series de puntos de datos, o puede ser una serie de representaciones gráficas de puntos de datos en orden de tiempo. Entonces puede ser cualquier cosa menos nuestro orden de tiempo. Entonces una serie de puntos de datos indexados en orden de tiempo. Eso significa que los puntos de datos se basan en el tiempo, por lo que deben construirse bajo el tiempo. Entonces cuando tenemos datos en los que se basan, que se basan en el tiempo para un periodo de tiempo determinado o tiempo particular en Teach basado en el tiempo entonces esa serie una Brita. Podemos, cuando trazamos, obtenemos una trama de serie temporal. Entonces Lee más común, o series de tiempo y secuencia tomadas en un punto sucesivo, igualmente espaciado en el tiempo. ¿Qué significa? Las medias son series de tiempo es una secuencia que hemos bloqueado ¿verdad? Series temporales o secuencia de puntos de datos indexados en orden temporal. Y más comúnmente en series de tiempo es una secuencia tomada en citas sucesivas, igualmente espaciadas en un tiempo. Supongamos en nuestra línea de tiempo, vamos a tomar puntos sucesivos, igualmente espaciados en tiempos de todas las 0220 4 h, luego tomaremos de cero a 3 h que de tres a 6 h 32, 9 h nueve a 12. Éxito temprano, dos puntos igualmente espaciados como tres, intervalo de 3 h que estamos tomando. Entonces ese será un dato 0.326, 6299 a 12, así. Bien. Entonces estoy dando un ejemplo. No es lo exacto. Pero se puede entender como qué línea de tiempo, cero a 24 h y pocas cosas que están pasando cada una, en cada segundo, cada minuto, ¿verdad? Entonces cuando documentamos esos puntos de datos, como en algo de cuatro estrellas, estos son los datos de la segunda hora. Estos son los datos sobre la tada. Estos son los datos. Entonces, cuando definimos esos datos sucesivamente igualmente espaciados en el tiempo, te dará la serie de tiempo, secuencia de series de tiempo. Por lo tanto, es una secuencia de datos discretos de tiempo. No es continuo, es de naturaleza discreta porque estamos tomando puntos de tiempo igualmente espaciados de esos datos. Entonces estamos haciendo un discreto. Entonces esta es la definición. Ahora lo que vamos a hacer, vamos a tratar de entender esto trazándolo. Cuando tramemos, entenderemos más al respecto. Bien, Entonces antes de trazar, pedimos instalar la librería GG plot two, que puedas ir al paquete e instalar ese GG plot dos. ¿Bien? Entonces para esto necesitamos Biblioteca GG parcela dos y el jugador, ¿bien? Por lo que se requiere de estas dos bibliotecas. Y luego lo que hagamos, crearemos un dato ficticio. Entonces lo que voy a hacer, voy a crear un DataFrame que contendrá día. Estarán agitados como punto. Eso significa que tomará datos en este formato como el total de primera generación 15. Y entonces lo que voy a hacer, quiero de aquí a cero también. Investigación a 4 min, 365 días. Entonces de aquí a 365 días, arriba cada día como primera generación luego 31 de diciembre de 2014 así, tardaré de tres a cinco días. Y para fecha particular en lo que estoy tomando el valor, estoy usando la función runif. Ya sabes, lo que es ejecutar una función corriendo zorro y va a crear qué, qué va a hacer. Se creará una secuencia de números rectos, 4365. Por lo que creará una secuencia de números. Entonces, ¿qué va a hacer la función ejecutándose? Genera las desviaciones aleatorias de distribución uniforme y se escribe como runif. Entonces, lo que hará, genero generará fácilmente el número n de números aleatorios que renderizará. Entonces, lo que estamos haciendo aquí por valor, estamos generando investigación de iniciativa para borrar números aleatorios para cada día. Entonces asignaremos el primer número generador aleatorio hasta la fecha, uno, como este. Y luego el segundo número generado aleatoriamente se asignará a la segunda fecha. ¿Bien? Así que no estamos solo, solo estamos usando los números generados aleatoriamente a partir de esta función estándar. ¿Bien? Pero también estamos sumando a eso por, también somos secuencia genética de menos 142 a 40. Y esa secuencia somos lo que estamos haciendo. Estamos tomando una raíz cuadrada de eso y luego estamos dividiendo con esos 10 mil. ¿Bien? Entonces básicamente queremos la salida de esto. Vamos a añadir a lo que obtenemos de esta función runif. ¿Bien? Entonces runif dará los desvíos aleatorios y una distribución uniforme. ¿Bien? Entonces lo que obtenemos de esto a la fecha, día y valor que vamos a almacenar en este DataFrame, estamos creando un DataFrame que lo hará, que contendrá dos valores, t y valor particular de estas dos funciones que vamos a obtener, veremos cómo tenemos, cuáles son los valores que estamos obteniendo, ¿bien? Y luego lo que haremos, solo voy a imprimir los datos para mostrarte qué datos estamos obteniendo. Y luego con estos datos DataFrame, lo que voy a hacer, usaré la gráfica GG para trazar estos datos. Entonces voy a pasar este marco de datos. Y entonces lo que esto va a hacer, voy a proporcionar el eje x como un eje t e y como un valor. Más. Voy a usar la línea geom, función dos y luego los valores xlab, ¿de acuerdo? Y luego voy a imprimir la impresión, voy a imprimir el producto. Bien. Lo siguiente, qué voy a hacer, qué va a hacer esta función de línea geom aquí. Puedes ver tus fuentes Zoom nine sobre lo que hará. Conectará los puntos en orden de la variable en el eje x y G. Y en realidad, creará polvo como trama de escalón de escalera. Ok, entonces básicamente lo que va a hacer, unirá los puntos y creará la gráfica. ¿Bien? Entonces aquí vamos a estar usando pocos símbolos como porcentaje, d es d como un número cero a 31. El porcentaje se creará como un porcentaje entre semana capitalmente es como un día de la semana abreviado, como el lunes. Y esto será agitación y jammies porcentuales. Mes cero al 12 y presentado b y mayúscula B se abreviará y se abreviará un mes abreviado como Jan y enero completo no se agravará. Y entonces el porcentaje Y y porcentaje de capital Y serán Herramienta, porcentaje de vitaminas de dos dígitos todavía, y los porcentajes de capital Y serán de cuatro dígitos todavía. ¿Bien? Entonces esta es la abreviatura básica que vamos a usar. Entonces vayamos al RStudio e intentemos ejecutar este código. Entonces estamos usando la trama GG y la biblioteca de jugadores aquí. Y entonces lo que estoy haciendo aquí, estoy usando datos. Estoy creando un DataFrame aquí, datos ficticio con acetato similar. Y entonces estamos creando valor aleatorio usando este runif y secuencia. Y luego estoy imprimiendo el, lo que sea que estemos obteniendo del runif que te voy a mostrar lo que obtenemos de la función runif y lo que obtenemos como dato. ¿Bien? Entonces déjame ejecutar este código aquí. ¿Bien? Entonces déjame correr esta cola aquí. Entonces ahora te voy a mostrar lo que estamos obteniendo. ¿Bien? Entonces mira aquí, para la función runif, estamos obteniendo este valor, bien, 0.3, 44.4. Así, generará 365. Vientos. Bien, y luego para los datos que estamos obteniendo, d, como el 1 de enero, John, total y lejos entre y estamos obteniendo este valor. Bien. Y luego para la proteína 31, 3 y 4 de diciembre estamos obteniendo, así que estamos obteniendo estos datos y valor en nuestro marco de datos. Y ahora lo que voy a hacer, voy a pasar el marco de datos a los datos de la gráfica GG y luego salir llamar hoy Y igual a valor. Y voy a usar la línea geom para trazar los datos y luego lo que va a estar ahí o lo que estoy usando aquí. Estoy usando la escala de desviación promedio, guión bajo, fecha de subrayado. Y aquí estoy dando los niveles de deuda que x v. ¿Bien? Entonces déjame ejecutar todo el código. Da click en la fuente y ve la trama aquí. Entonces déjame imprimir el piso. Ver aquí. Ahora estamos obteniendo datos de una serie temporal todavía Jan 2014, 2014, julio 2014, octubre 2014, y ene 2015. Bien. Y si ejecuto esto, vamos a conseguir que nos vamos a abreviar enero, julio a lo que n. Entonces va así. Si utilizo mayúscula Y, b, small b, y d, lo que obtenemos, obtendremos el año completo como 2014, luego Jan one tours en 14 indumentaria uno así. Bien. Y esta es la semana, ¿verdad? Entonces te mostrará las semanas, las tardías. 13, semana, 26, semana 3093, y así sucesivamente. Bien. Si una montaña enorme, ¿por qué nos va a dar el mes, por qué? Mes y YC. Tan deprimente enero totalizando 14 aprobaciones para tunelar proteínas así. Entonces este es el aquí que estamos viendo el mes en el eje x. Aquí estamos viendo la montaña juntos. Estamos viendo el valor particular en ese momento. ¿Bien? Entonces esta es la forma en que podemos dibujar una serie de tiempo simple. Aquí. Podemos modificar esto un poco. Y aquí estoy usando SLB, nuestra biblioteca de equipos en eso puedes, si no tienes, puedes ir a los Paquetes, dar clic en Paquete, clic en Instalar y puedes instalarlo, y luego puedes usarlo. Entonces estoy usando los mismos datos que hemos creado en el anterior. Justo ahora. Y aquí lo que estoy haciendo, todo, estoy usando tema en la línea geom. Estoy aportando el color como verde. Hesíodo es la línea negra. Por ahora, estoy cambiando eso a verde. Así que aquí la línea geom, voy a proporcionar color, el color al verde. Entonces será que la gráfica estará en el color verde. Y luego tema subrayado Ipsum, estoy usando blast para el equipo. Lo que me dan x dx t punto x elemento punto TXT guión bajo t En realidad ángulo. Estoy dando 45 y solo estoy dando uno. Entonces, lo que hará este ángulo 45, girará esta gráfica a 45 grados. Entonces déjame ejecutar todo este código. Ver aquí. Ahora la gráfica viene así. Y los 45 grados, por lo que se convierte a 45 grados. Así que de esta manera podemos usar este ángulo igual a 45 antes supongo t. Veamos qué diferencia estamos obteniendo. Un artista cambia ligeramente. Déjame cambiarlo para apoyar 160. ¿Ves alguna diferencia si pongo 45? Y ahora lo voy a cambiar. Doe 145. A ver si estamos haciendo alguna diferencia. Ahora viene como enero de 2020, octubre de 2019. Así. La gráfica está cambiando la tasa. Si lo hago 45. Se viene así. Y cuando lo estoy haciendo como supongamos 90 grados, va a estar entrando de manera diferente. Lo es. Esta representación está cambiando, ¿verdad? Enero. Esto, esta cosa está cambiando, ¿verdad? Si lo hago diez grados. Y si planeo y veo aquí cómo esto sea lo que sea que estemos escribiendo aquí, enero de 2019, ese ángulo se está cambiando, ¿verdad? Si lo hago, supongamos que ve TDD, veamos cómo este género no cambia. Déjame convertirlo en una entidad. Cuando juegues con los datos, sigue adelante. ¿Se puede dar para entender lo que realmente son diferentes? Lo estás haciendo bien. La oreja. Es como a mediados, finales de enero de 2019. Ahora se está mostrando como una imagen espejada de enero de 2019. Entonces esta es la diferencia. Bien. Así que así podemos en ese nivel, ¿de acuerdo? Entonces orientación al nivel del eje x, cadenas de fin de semana como esta, ¿de acuerdo? Si pones 90 grados, vendrá en un grado de TI. Entonces espero que ahora tengas claro qué diferente está haciendo este ángulo ¿correcto? Ahora está en el grado 90. Entonces de esta manera podemos usar los textos del elemento y podemos cambiar la orientación de los textos como enero, así. ¿Bien? Entonces de esta manera podemos hacer eso. 37. Matrices de trazado y trazado en R: Hola y bienvenidos de nuevo. En esta conferencia vamos a aprender sobre la trama de dispersión. Entonces, ¿qué es scatterplot? Una gráfica de dispersión es un tipo de parcela. Nuestro diagrama matemático usando coordenadas cartesianas para mostrar valores ¿qué suelen configurar dos variables mejor? Entonces significa que es lo simple. Si tomas nuestro plano x, y, necesitamos poner puntos en el plano, x e y, x coma y punto necesitamos trazar así que no vamos a dibujar líneas son seguras ni nada, sino solo los puntos donde vamos a babear así apoyar al Majlis y el número de cilindros, así sucesivamente. Cilindro. El número épsilon en el eje x y mi leyenda el eje y. Entonces será como cuatro comas. El número de cilindros es de cuatro y la mielina se está triplicando aún cuatro. Sube tu huella un punto en el avión cartesiano vamos a poner. Entonces es una bastante simple. Si los puntos están codificados, uno, sigue siendo valioso, se puede mostrar. Bien, entonces lo que estoy haciendo aquí, voy a dibujar un conjunto de datos que son autos vacíos, esos son los datos de entrada. Set. Nuestro nivel con eso ya hemos utilizado en nuestros ejemplos anteriores. Así que voy a usar el conjunto de datos de autos vacíos que está fácilmente disponible con nuestro, nuestro entorno. Entonces lo que este carros vacíos, WHO Lab va a tener. Tendrá que datos respecto a los autos como número épsilon, mielina oscura, y peso del auto y otras cosas. Bien, entonces a partir de este conjunto de datos, lo que estoy haciendo, voy a recoger el número de cilindro y mielina, y eso significa número de cilindros y el Majlis del costo particular que voy a obtener de este conjunto de datos. Entonces estoy usando recta. Ver cilindro de mielina. Mielina, eso significa mielina cilíndrica. Y lo estoy guardando en este objeto. ¿Bien? Entonces, si ejecuto estos dos, ¿qué voy a conseguir aquí? Entonces estoy consiguiendo detalles de varios autos como Mazda, Datsun, y estoy consiguiendo el número épsilon, es decir seis, exportación de formaldehído. Y el kilometraje es uno a uno. De manera similar, Lotus Europa, número épsilon, es decir comida y mielina es 34 para Bandera. Es cilindro, y la mielina es para señalada, mientras que Woof 142 e número de cilindros es cuatro y la mielina es 21. Entonces de esta manera estamos consiguiendo Los cuentos para muchos autos, varios autos y su kilometraje. Bien. Entonces ahora lo que voy a hacer, voy a crear un diagrama de dispersión que muestre a los dioses y luego mi lista. Entonces para eso, lo que estoy usando, estoy usando una función PNG y estoy dando el nombre del archivo scatterplot como mi lista plot dot PNG. Y luego estoy usando la función plot. Se utilizará la función de trazado simple para dibujar esta gráfica de dispersión. Y sin embargo estoy proporcionando esa x igual a la entrada. Entonces x es básicamente el vector de entrada. Entonces obtienes x igual a lo que estoy proporcionando. Estoy proporcionando entrada como un número de cilindros. El eje X, x será cilindro de entrada. Significa que estoy recibiendo el número de cilindros, ¿de acuerdo? Y el eje y será importante. Mpg entrada dólar mpg significa que estoy obteniendo estos datos mpg, mpg. Entonces esa es mi lista A eje x será cilindro número de cilindro y eje y será kilometraje, millas por galón. Bien. Y xlab le estoy dando nivel del eje x del eje x. Me dan número arriba cilindro porque estoy poniendo número de cilindros ahí. Y para eje y estoy dando nombre como mielina y x limit estoy dando cuatro a ocho porque número de cilindros están leyendo 4-8 o diez. ¿Bien? Entonces estoy dando de cuatro a ocho para el límite del eje x. Y el límite del eje y, estoy dando diez a 35. ¿Bien? Y el nombre de la gráfica o el nombre de la trama de dispersión, estoy dando número arriba cilindro, cilindro versus sin sentido. Mi costo de punto láser, bien. Y entonces estoy usando guardado oscuro o apagado para salvar la pelea. Por lo que aquí está bastante claro. Ahora, guardemos este archivo y usemos este nombre como autos vacíos. Ca va a cilindro menos bien. Y luego guárdala. Bien, ahora vamos a ejecutar esto. Así que vamos a ejecutar este archivo fuente. Por lo que ahora es exitoso más adelante. Ahora, ver el archivo de salida es para ser dispersado, trazar mi lista de producto. Entonces mira qué nombre hemos dado. Se nos da kilometraje parcela punto PNG. Entonces esta es la trama. ¿Bien? Entonces veas ya sabes, el nombre del equipo de diagrama de dispersión es número de cilindro para esta mielina y eje x, estoy cosiendo número arriba cilindro que cada 45678 y eje y es mielina, 10, 152-025-3035. ¿Bien? Y aquí con cada punto, supongamos que éste es el punto. Este punto es para el número épsilon, es decir cuatro, porque el valor del eje x es cuatro y el valor del eje y está en algún lugar alrededor de 21 o 22. Entonces cuatro cilindros y mielogeno Frontier 14 cilindro, otro punto, 4.23 o 2023, luego 2044 , coma 24, y luego cuatro coma 26, 27, así para aproximadamente 30143034 coma cuatro. Entonces número de cilindro para, y estos son los kilometraje para los autos de cuatro cilindros. Y nos vemos pronto como un punto, x coma y punto en este plano cartesiano en el plano x-y bidimensional. Y estamos poniendo los puntos como número de cilindro cuatro y mis religiosos 21 señalan algo, ¿bien? De la misma manera, el eje X seis significa número de cilindros, seis señalan este número seis. Los autos que no tienen cilindros como seis, tenían teniendo esta vaina de mielina tantas. Esta mielina como una huella, 16171516 a 2021 hito. Esto, podemos saber que los protectores de seis cilindros comienzan a dar menos kilometraje en comparación con los autos de cuatro cilindros y llegan a los autos de cilindros de aire. Ellos son mis lentes para ese lazo. Entonces los autos de ocho cilindros le están dando a la mielina lo más bajo. Entonces la mejor mielina es darle a Garza el número de cilindros, cuatro y luego seis greens. Con esta trama dispersa, podemos llegar a la conclusión de que el número de cilindros están decidiendo el kilometraje del automóvil, menor sea el número de cilindros en el automóvil, más será la mielina. Eso significa que si el número de cilindros está aumentando, el kilometraje va disminuyendo. La incautación por el kilometraje es más seis mielina, reduciendo. El número de cilindros está llegando a ocho. La mielina se reduce aún más y es más baja entre los autos de 46.8 cilindros. Entonces el número a, vaina de mielina. Inversamente proporcional al número de cilindros, el cilindro, el número de cilindros en el motor del automóvil es menor, kilometraje será mayor, y el número de cilindros en el automóvil será mayor, kilometraje será menor. ¿Bien? Entonces con este tipo de diagrama de dispersión, podemos llegar fácilmente a la conclusión solo mirar el gráfico, ¿de acuerdo? Y es la, una de las gráficas más simples que puedes ver y es bastante fácil de analizar y obtener los detalles del propio gráfico. A continuación lo que estoy haciendo, solo voy a dar el nombre del archivo como autos vacíos y discutir el diagrama de dispersión o anochecer o colchón. Entonces lo que voy a hacer aquí, voy a usar la función de par en R. Y con esta función de par podemos hacer como colchones arriba de la tabla. Y cómo podemos hacer eso. Podemos tomar los puntos de datos del conjunto de datos de autos vacíos. Y a cada tasa. Kilometraje por cilindro de desplazamiento de galón. De este conjunto de datos, datos de autos vacíos, estoy obteniendo datos iguales a m prefabricados significa que estamos usando este conjunto de datos de autos vacíos. Y a partir de esto, estamos utilizando estas cuatro variables son cuatro columnas, como Wait, MPG, millas por galón, desplazamiento y número de cilindro. Y columna F4. Estos cuatro parámetros se utilizarán para hacer gráficas como se tomará el peso y el gráfico de dispersión se dibujará en función del peso. Y mi lista, peso y desplazamiento, peso y número épsilon.de la misma manera, se tomará mielina y luego las gráficas serán no como Mileage Plus peso menos, más desplazamiento, luego cilindro Mileage Plus. Entonces kilometraje versus cilindro, kilometraje versus desplazamiento, kilometraje versus peso. Entonces de esta manera, se tomará una variable y se dibujará la gráfica con respecto a las tres variables. Aquí estoy dando como nombre la matriz de scatterplot de autos vacíos . Entonces primero permítanme encomiar al principal. Y primero voy a usar, voy a empezar por el sencillo. Sólo voy a tratar de dibujar al MP. Mi lista era este número diagrama de Epsilon que hemos dibujado aquí sin par. Entonces lo que hago, voy a tratar de sacar unas cervezas oscuras solo usando MPG y cilindro. Y veamos cuál será la salida. ¿Bien? Así que vamos a ejecutar esto. Y el nombre del archivo es esta C aquí. Nos vemos. Entonces la misma salida. Pero aquí lo que estamos viendo, estamos viendo en forma de matriz. Entonces aquí está lanzando MPG millas por galón y nadar número épsilon doc. Entonces puedes ver aquí MPG millas por galón y aquí número de cilindros. Entonces puedes el número épsilon que es para todos los autos de cuatro cilindros son tus 46.8. agrupan aquí por millajes respectivos o curan la mielina de cuatro cilindros aquí, luego mielitis de seis cilindros, y ahora es cilindro mi lista. Entonces, si combinas estos dos obtendrás este diagrama de dispersión. Si combinamos estos dos, obtendremos este. Ceo, no vamos a conseguir lo anterior, estamos metiendo este número de cilindros en mi lista. Esta gráfica la estamos obteniendo, voy a subir cilindro en mi lista. Ahora estamos viendo la aversión al eje y. Esta será la del kilometraje. Bien. Y el número de cilindros siendo Sonia y la mielina está siendo Sonya por separado en forma de matriz, ¿verdad? Lo mismo pero en representaciones distintas. Ok. Ahora déjame ir al código y déjame comentar esta línea y luego descomentar esta línea. Ahora estoy usando DUF para variables. Y déjeme dirigir esto. Y ahora vea la gráfica cómo viene esto. Entonces abre esto. Ahora vea las cuatro variables, peso, MPG, desplazamiento y cilindro. Entonces entonces aquí el peso, el desplazamiento del Majlis y el cilindro ayudando a Sonya. Todo bien. Entonces este despilfecho delgado. 123 456-789-1011, se ha extraído 12.4 cisteína. Bien, déjame trazar en realidad. Y con estas cuatro cosas, así que cuatro por cuatro matriz marido, ¿verdad? Así que de esta manera podemos usar estas cervezas para crear la matriz de parcela para ese conjunto de datos. Entonces esto creará la matriz del diagrama de dispersión para que podamos usar para crear matrices de bloques. Bien. Nos vemos dentro de la siguiente conferencia. 38. Encontrar la media en R: Hola y bienvenidos de nuevo. En las próximas conferencias, vamos a aprender sobre estadística en R. Así veremos cuáles son las funciones que tenemos incorporadas en nuestra programación que podemos utilizar para análisis estadístico en R. Y eso va a ser muy útil en nuestro cuerpo. Eso será muy útil en el aprendizaje automático, inteligencia artificial, el aprendizaje profundo, y todas esas cosas. Entonces, la estadística es lo principal si queremos obtener información de los datos. Y el análisis de artículos es fundamental para los algoritmos de aprendizaje automático. Entonces deberíamos estar conociendo cuáles son el análisis estadístico y los dormitorios. Entonces, en las próximas conferencias, vamos a aprender sobre estas cosas, análisis estadístico en nuestra programación. Así que comencemos. Hay muchas funciones incorporadas a través de las cuales podemos hacer análisis estadísticos. Y estas funciones son herramientas muy útiles y solo unidad para usar el nombre de la función y hay que pasar el vector de datos, lo tomó con algunos argumentos, y su trabajo estará hecho. Por lo que es bastante fácil hacer todo el análisis en nuestra programación. Entonces ahora vamos a ver qué es media y cómo podemos calcular la media. Entonces también veremos qué es la mediana. Y luego veremos más. Así que básicamente vamos a aprender en esta conferencia, media, mediana y modo. Bien, así que comencemos. Entonces, primero, ¿qué es lo que significa? La media se calcula tomando la suma de todos los valores divididos por el número de valores. Entonces es como promedio. Entonces ya sabes cómo calcular el promedio. Yo apoyo tienes números 12345 y quieres obtener el promedio de esto. Entonces harás uno más dos más tres más cuatro más cinco dividido por número de valores. Entonces número de flechas, amarillo, 5/5, así obtendrás el promedio. Entonces el promedio es medio. La media también es la media es equivalente a la media. Entonces la media es suma de valores en un vector, nuestros datos, algunos valores en los datos divididos por el número de datos. Bien, entonces déjame mostrarte cómo podemos hacer eso en R. Y para calcular la media, hay una función en R llamada función principal. ¿Bien? Entonces déjame escribir un programa para eso. Primero, déjame decirte qué significa la parte de sintaxis, y luego iremos a escribir esto. Para mí. Usamos esta función mean y cuáles son las cosas que la llevaremos, tomaremos x y ese será el vector de datos. Y entonces tomará otro argumento que sea igual a cero. Y luego oscuro. Entonces, qué va a hacer eso y cuál es la corriente, veremos cuando hagamos nuestras prácticas. Entonces es justo y luego punto RM igual a falso. Y eso es todo. ¿Bien? Entonces esta es la función principal básica en arte donde x es el recorte del datavector, y luego un auto. Entonces, ¿qué es x? X es el vector de entrada. Entonces déjame decirte aquí, x es el vector de entrada, que contendrá los datos de fecha. Y entonces nuestro sueño aquí estamos usando el recorte aquí se usa para bajar algunos valores de ambos extremos. Entonces, si le das sueño igual a cero, no bajará ningún valor. Pero si le das uno, bajará uno valores de cada lado. Entonces es Si deseas soltar valores de ambos extremos, tanto los extremos de este vector x. Bien, ya veremos, y entenderemos mejor. Y Adán oscuro lo hará, lo que hará. Simplemente les quitará los valores faltantes. Entonces es para eliminar los valores faltantes. Entonces x es el vector de entrada, vector de datos. El recorte es valores de sequía tanto de los extremos como de los ejércitos NMDA. Y quita eso. Valores faltantes. Supongamos que tiene un conjunto de datos y faltan valores mayores. Entonces, si quieres eliminar esos valores, puedes usar cualquiera que no sea igual a true. Entonces cuando esto terminó nuestra imagen llamada falsa, significa que no eliminará las cargas que no están teniendo ninguna. No eliminará los índices que no están teniendo valores. Cuando usas esto como un verdadero, eliminará todos los valores faltantes. Bien, lo tengo. Puedes ponerlo verdadero o falso en base a tu requerimiento. Así que permítanme comentar esto. Entonces ahora lo que vamos a hacer, vamos a crear un vector simple. Entonces lo que estoy haciendo aquí, voy a crear un rectángulo que sea vector de entrada. ¿Bien? Entonces voy a crear un vector de entrada. Entonces lo que voy a hacer, voy a usar supongamos que esos datos. Supongamos uno enorme como el vector de entrada, o simplemente uno enorme. Y voy, voy a, voy a dar algunos valores aleatorios aquí. ¿Bien? Supongamos que tengo 789, 671-250-6304 a 405-80-9907, menos dos, -34, 32-21, todos esos, todos los moradores. Entonces tenemos nuestro vector de entrada que está conteniendo los valores. ¿Bien? Y ahora supongamos que quiero encontrar mezquino. Entonces, entonces lo que puedo hacer, simplemente puedo usar supongamos media de una que voy a crear una variable aquí. Media subrayado a, eso significa media de a. ¿Bien? Y simplemente usaré la función mean y voy a pasar esta una a, voy a pasar el EBITDA aquí. Entonces lo que va a hacer esta función media, tomará esto, hizo este vector como entrada y calculará la media de estos valores. Entonces déjame que esto signifique subrayado. Por lo que nos va a dar la media de estos valores. ¿Bien? Déjame dirigir esto. Aquí. Estamos obteniendo valor medio como 33.7, 8571. Entonces este es el promedio de estos valores son medias de estos valores. ¿Bien? Entonces así es como podemos encontrarlos. Media del vector de entrada a partir de la media de datos de entrada de los datos. Por lo que estas medias de estos datos son 33.78. ¿Bien? Entonces lo siguiente, lo que vamos a aprender es cómo aplicar y deducir átomos. Entonces supongamos que voy a crear otro vector aquí. Déjame poner este terminal o consola a la izquierda, ese será EG. Entonces voy a ir a las pinturas y voy a poner esto a la derecha para que podamos verlo aquí mismo. Bien. Entonces significa que está aquí, bien. Ahora, lo que voy a hacer, lo haré, lo siento. Vamos a eliminar los valores faltantes. ¿Bien? Entonces, supongamos que tengo el mismo vector con algunos valores faltantes, ¿de acuerdo? Entonces estos son el valor que falta. Supongamos que uno está aquí. ¿Bien? Entonces para estos, no tenemos Beta es NA no aplicable. ¿Bien? Entonces, ¿cómo eliminar estos valores faltantes? Entonces podemos simplemente, si uso media, subrayar a, perdón. Y voy a usar media o como que obtenemos el resultado. A ver. Entonces déjenme. Verás, no estamos viendo ningún resultado porque tiene los valores de NA. ¿Bien? Entonces ahora si pongo una media de una coma y las obscuridad igual a verdad, ¿qué va a pasar? Nos va a dar, vamos a ver. Lo siento, he usado y eso está mal. Entonces déjame correr esto otra vez. A ver ya estamos obteniendo el valor. ¿Bien? Si quito alguno que se altere por aquí, y si lo vuelvo a ejecutar, ¿qué va a pasar? ¿Para ver? Verás, no estamos recibiendo ninguna. ¿Bien? Entonces, si quieres obtener la media de este vector bajando el valor de NA, entonces tienes que usar cualquiera que el otoño se llame verdadero y esto te dará el bien. Entonces lo siguiente, lo que voy a hacer, voy a usar la función de recorte, así que usando la opción Trim aquí, ¿de acuerdo? Entonces lo que he hecho, he creado un vector C, que es tener RelU, valores simples, 1234567. ¿Bien? Y si ejecuto esto y encuentro la media de esto conseguiré algún valor medio. Eso es cuatro. ¿Bien? Entonces y cómo estamos consiguiendo cuatro, porque uno +2, 361-015-2120 8/7 es igual a cuatro. Ese es el promedio simple. ¿Bien? Ahora, lo que voy a hacer, simplemente voy a por siete aquí. Entonces. Voy a poner uno aquí, pongo cuatro aquí, y tres aquí. Entonces simplemente, solo estoy poniendo los valores que un lugar aleatorio. ¿Bien? Entonces esta no es una matriz ordenada, ¿verdad? Entonces, si encuentro la media de esto, otra vez, me sacaré la foto. Bien, tenemos el mismo valor, ¿verdad? Si pierdo recorte igual a cero, ¿qué pasará? A ver. Vamos a conseguir los cuatro ¿verdad? Ahora bien, si uso 0.13 igual a 0.1, lo que va a hacer, va a ordenar este Addie. Ordenará esto en orden ascendente, y luego caerá aquel donde un valor de cada lado. Entonces veamos qué significa que estamos llegando hasta aquí. Estamos obteniendo por Y porque bajará 1.7 y el resto de valor para dos más 244 más 36 más 399 más 514, y luego más 62020/5 es cuatro, ¿verdad? Si sueño Coulter a lo que va a hacer, dejará caer a los dos Alice de su lado. Y de nuevo estamos consiguiendo para. Entonces déjame poner esto el original, el ordenado. Entonces solo voy a comentar aquí y voy a poner 123,456.7. Entonces, lo que hará esto igual a cero a 0.2, eliminará 1.2 de este lado y 67 de este lado. Entonces, ¿qué conducirá? 345. Por lo que recaerá con la C igual a tres coma cuatro coma cinco. Entonces siete más tres más 47 más 51212 dividido por tres cuartos. Entonces ahí es donde volvemos a conseguir cuatro. ¿Qué pasará si pongo diez? Llamamos 2.3 y ejecutamos esto. Ordenará y eliminará tres valores de cada lado. Y otra vez, vamos a conseguir por y, llamamos si quitamos 123 de este lado y cinco sextos n de este lado, otra vez, vamos a conseguir el 41 de los cuatro va a quedar, ¿verdad? Sólo quedarán cuatro y la media de cuatro será cuatro. ¿Bien? Entonces así es como funciona. Déjame, voy a poner algunos valores más aquí, 910910 aquí. Y vamos a ejecutar esto. Mira ahora estamos obteniendo la media como phi y porque eliminará tres valores, 1,234.78, 7910 de esta búsqueda. Entonces, lo que nos queda , se fue con 45.6. Entonces 4561, ¿cuál será el medio? Serán 15, ¿verdad? Algunos de los por 5 s por 15/3. Eso significa número de valores tres ahora, así que huella dividida por tres, obtenemos, vamos a obtener cinco. Entonces así es como podemos usar la función trim. Entonces primero, lo que va a hacer, va a ordenar esto en un resort, este vector, y lo hará así. Y luego quitará a tres a los que pierdo del lado este, del, de principio tres y del final tres. Y lo restante te conseguirá la media. Bien, así es como funciona este sueño. ¿Bien? Entonces, si quieres eliminar los valores desde el principio y el final, tanto el final como nosotros queremos encontrar el promedio, o puedes usar el recorte y el valor solo Texas 0.1. No quieres que uno signifique uno inalámbrico de su lado. 0.2 significa dos letras mías, digamos 0.3 min, tres valores de cada lado. ¿Bien? Entonces así es como funciona. Y si quieres eliminar los valores faltantes, puedes usar cualquier punto Arab igual a true. Eliminará estos valores NA del conjunto de datos y te dará los valores restantes, y encontrará la media de esos valores restantes, restantes. ¿Bien? Entonces así es como funciona nn dot autumn and trim. Nos vemos dentro de la próxima conferencia donde aprenderemos sobre mediana en cómo encontrar la mediana en el arte. 39. Encontrar la mediana y el modo en R: Hola y bienvenidos de nuevo. En esta conferencia vamos a ver cómo podemos calcular la mediana de los datos, ¿bien? Entonces, ¿cómo podemos encontrar el valor medio? Entonces, primero lo primero, estaremos conociendo cuál es la mediana. Entonces, la mediana es el valor medio más alto en una serie de datos. Entonces supongamos que tenemos esta serie de datos. Entonces queremos encontrar el valor medio de esta serie de datos. Así que comencemos. Bien, entonces medial, lo más relevante, el valor que viene en el medio, No es como yo, que es el valor promedio de la serie de datos. Pero esta es la media, que si trazamos estos datos en algunas x's, entonces, ¿qué valor vendrá en el medio? Es decir, el valor, vamos a encontrar, la mediana. Así que la mediana es el valor medio más en un conjunto de datos está bien. Y para encontrar la mediana, usamos la función median en r. Entonces usaremos la mediana de la función en el arte. Entonces no yo DNAA, es mediana. Entonces usaremos esta función, mediana, ¿de acuerdo? Me DIN mediana para encontrar la mediana. El conjunto de datos. Entonces este es el conjunto de datos que he creado y esta es la función median. Y cuáles son los valores que tomará. Tomará la E y el vector de entrada. Y entonces tomará cualquier llamada de otoño oscuro a falso o verdadero, lo que quieras puedes dar. ¿Bien? Si queremos eliminar valores, puedes poner punto Adam. Si quieres eliminar los valores N A, puedes ponerlo en Aram igual a false. Hemos visto cómo usar el NADH en la conferencia anterior donde hemos discutido sobre la media. Entonces a la misma funcionalidad y también a cualquier elemento de datos. Según false significa que no eliminará los valores faltantes. Y si n no es igual a true, eliminará los valores faltantes. ¿Bien? Entonces ahora si ejecuto esto, lo que nos gusta, voy a conseguir, voy a conseguir la mediana de esta serie. Pondré la tuya mediana subrayada a y asignaré esta mediana a esta. Pero **** duro así de bien, esta variable, la mediana de la edad del subrayado. Entonces déjame imprimir esto. Entonces, si ejecutamos esto, obtenemos la mediana como como algún valor medio de estos datos. La serie Seizes es nueve, ¿verdad? Supongamos que voy a usar, voy a poner algunos valores más aleatorios como 6745, 2245, 4722, 9979. Y ahora si traté de encontrar, obtendremos 33. ¿Bien? De igual manera, lo hará, intentará encontrar el valor más medio del conjunto de datos. Lo haré gratis y esto conseguirá 44, ¿de acuerdo? Por lo que intentará encontrar el valor medio más del conjunto de datos está bien. Así es como encontramos la mediana de una serie de datos, nuestro conjunto de datos. Ahora, lo siguiente es que vamos a aprender que es encontrar modo. ¿Bien? Así que ahora usaremos para tratar de encontrar el modo. Lo que hemos aprendido aquí, no hemos encontrado la mediana. Entonces ahora aprenderemos a encontrar más. Entonces, ¿cuál es el modo? modo es el valor que tiene el mayor número de álcalis del centro de la ciudad. Supongamos que tenemos esto. Déjame copiar esto. Y déjame crear el conjunto de datos para este hallazgo más problema, ¿de acuerdo? Y este es nuestro conjunto de datos donde tenemos soporte este 45, 45 está ocurriendo muchas veces, así que 45 que el tuyo, voy a quitar este pseudo 45, y luego voy a conseguir para diverso. Así que t Aquí, 45 está repitiendo 1234 veces, ¿verdad? Apoyo. Entonces este modo de hallazgo significa mod Pascua. Número de encontrar el número máximo de ocurrencia o por valor, ¿verdad? Entonces modo es el valor que tiene mayor número de documentos en nuestro conjunto de datos. A diferencia de la media y la mediana, el modo puede tener tanto numérico como carácter. Entonces primero veremos cómo encontrar el modo de este conjunto de datos numéricos. Y luego diremos tratar de encontrar para el conjunto de datos de caracteres también. Entonces si uso mod porque no hay función incorporada para encontrar más en R. ¿Bien? Entonces, lo que haremos, crearemos nuestra propia función personalizada para encontrarlos el número máximo de ocurrencia de valor de datos en un conjunto de datos. Bien, entonces para eso, lo que voy a hacer, voy a crear función. Entonces, lo que pueda aquí, usted obtendrá por la suma, ¿de acuerdo? Así que voy a crear el modo de función región, ¿de acuerdo? Y lo que voy a hacer, voy a dar este nombre como ellos lo han hecho. Vamos modo. Bien. Y para esto, lo que voy a hacer es usar la función y luego pasar esto. Bien, entonces, ¿cuál es el conjunto de datos? ¿Bien? Y bajo esto lo que voy a usar, encontrar una edad de subrayado única, única. Valor tan único en eso lo que quiero encontrar. Entonces para esto, lo que voy a usar, voy a usar una función única que está en el arte. Y lo que voy a hacer, voy a pasar esto a por aquí. Entonces esta función única me dará el valor único en este conjunto de datos. ¿Bien? Así que permítanme simplemente traer esto puede venir a la escuela. Ellos saben lo que voy a hacer. Simplemente usaré más de eso se llama a. y lo que voy a hacer, solo voy a llamar a esto seleccionar Modo hecho falso y bien, así y voy a pasar un líquido sobre esto. ¿Bien? Así que permítanme encomiar esto y necesito ponerlo en el modo, modo, y eso se llama a. bien, entonces déjame ejecutar esto de nuevo. Entonces mira aquí lo que estoy obteniendo ahora. Estoy obteniendo lo mismo este conjunto de datos ¿verdad? Ahora. Lo que tengo que hacer, necesito hacer algunos cálculos aquí. Necesito escribir algo de lógica aquí para encontrar el valor único número de ocurrencia de un particular. Nos enteraremos así de este número 45, número más ocurrido en esta serie. ¿Bien? Entonces para esto, lo que voy a hacer, voy a usar guión bajo único a. y lo que voy a aplicar aquí, me encanta jugar rico, oscuro max. Y luego usaré tableta, tableta, tableta. Y luego lo que voy a usar la función match. Y lo que voy a hacer, voy a usar pasta, un coma, único y hace buen día. Bien. Y ahora si consigo el retorno, si ejecuto esto, voy a conseguir el modo, ¿de acuerdo? Sí, 45, me estoy haciendo para digitalizar 45. Entonces así es como podemos. Para crear una función definida por el usuario para el modo de búsqueda. Entonces aquí estamos creando nuestra propia función, devolver subrayado más, que es tomar este vector como vector entrada o los datos de entrada que estamos dando los datos aquí. Entonces esto lo hará, este conjunto de datos irá dentro de esta función. Y aquí lo que estoy haciendo, estoy creando otro valioso subrayado único j. Y aquí estoy usando la función incorporada en R que es única, única. Por lo que le dará el único bien digno. Y entonces lo que estoy usando para este hallazgo, este subrayado único a, um, no lo diste a punto max, que es el, que está ocurriendo número máximo de veces. Entonces estoy haciendo coincidir con esta e, este conjunto de datos original con este conjunto de datos único y encontrando qué número está sucediendo la mayor parte del tiempo y estoy obteniendo el resultado. Así que aquí estoy creando otro modo subrayado j, y solo estoy llamando a esta función y nos dará el mayor número de ocurrencia, el número más ocurrido de este conjunto de datos. Eso es 45. Si supongo que un buen 76, la mayoría de veces. Y si traté de ejecutar esto, ¿qué va a pasar? A ver. Ahora estamos obteniendo 76 como el número que más lucha. Entonces de esta manera podemos usar esto, podemos deshacer lo mismo con el texto que tu soporte de MBA. Quiero crear carácter subrayado algún conjunto de datos. Y aquí lo que voy a hacer, voy a poner algunos valores de cadena. Supongamos que voy a poner el nombre del país como India, EEUU , Sudáfrica, Australia así. Y lo que voy a hacer, voy a apoyar eso. Le ganaron pocas veces a esta Australia. Bien. Repite esta Australia dos veces, bien. Y repita este fingir dos veces. Bien. Entonces ahora este es el, este es el conjunto de datos donde hemos escrito dos veces y Australia dos veces. ¿Bien? Y quiero encontrar el modo apagado. Eso se llama tarde. Entonces, lo que puedo hacer, solo puedo llamar a este modo de subrayado de retorno. Y yo puedo simplemente Boss este conjunto de datos aquí a esta función modo escrito, ¿de acuerdo? Y si imprimo esto, conseguiré el Australia como resultado. Entonces déjame dirigir esto. Bien, entonces me olvidé de poner C aquí, tonto error que he cometido. Entonces déjame poner esto aquí. Bien. Entonces vamos a parar la cosa está bien. Entonces estábamos mejorando porque no hemos puesto aquí C. Ahí es donde te estás metiendo en ello. Y estaba tan ignorando eso, no lo vi. Bien. Lo siento mucho por eso. Déjame correr esto otra vez y te veo. Ahora estamos consiguiendo a Australia lo digital, así que las hostilidades reportan dos veces y Gran Bretaña es el doble. Entonces estamos consiguiendo a Australia. Déjame probar algo. Al igual que puse Australia probablemente mande todo dos veces también. Tanto las cosas como dos veces. Déjame ver lo que conseguimos. Obtenemos Gran Bretaña. Entonces, cuando consigas las primeras subvenciones de acciones primero, bien, así que finge vendrá primero y luego Australia. Y supongamos salida también la salida de la India. Dos veces que vemos lo que obtenemos. En C, estamos consiguiendo India, cómo k. y supongamos salida, finja primero, Curtis. Y lo puse aquí. Y si ejecuto esto, vamos a ver, estamos consiguiendo a Gran Bretaña. Entonces, ¿qué hacemos alguna vez el primer documento al que se le dará mayor preferencia Entonces, a pesar de que meridiano, India y Australia están ocurriendo dos veces, nos está dando el resultado como Gran Bretaña que llamamos finge que está al ras AL hockey. Y si pongo Australia, déjenme poner otra vez a Australia. Y si ejecuto esto ahora, llegamos a Australia y de alguna manera nos apegamos a ellos. Así que de esta manera podemos encontrar el modo de nuestros datos más a partir de nuestros datos. Mayor valor de marketing de nuestro conjunto de datos. Nos comemos. Dataset de caracteres o conjunto de datos numéricos. Bien, para que podamos crear nuestra propia función yo no modo, donde perdemos función única y luego aludiremos a qué punto max. Y vamos a tablet eso y vamos a hacer coincidir y encontrar el número máximo de ocurrencia de un valor en particular. Bien, así que de esta manera podremos usar más. Así que hemos visto reunirse en la conferencia anterior y mediana y modo en esta conferencia. Entonces ahora sabemos hacer lo básico de estas cosas, media, mediana y modo en nuestra programación, aunque Morty no tenga función incorporada. Para encontrar más, hemos creado nuestra propia función de usuario para encontrar el modo de un conjunto de datos. Espero que tengas que entender cómo hacer eso. Nos vemos dentro de la siguiente conferencia. 40. ¿Qué es la regresión lineal: Hola y bienvenidos de nuevo. Entonces, en las conferencias anteriores, hemos visto cómo podemos hacer análisis estadísticos en R para machine learning o data science. Entonces estas son las cosas que son muy útiles y deberíamos estar conociendo todas estas estadísticas para seguir adelante en machine learning e inteligencia artificial o deep learning, lo que quieras aprender más. En este curso, estamos aprendiendo ciencia de datos y aprendizaje automático a través de nuestra programación. Entonces tenemos césped media, mediana y modo, donde hemos visto esa función inversa para encontrar media y mediana, mientras que no tiene función incorporada para encontrar el modo. Entonces lo que hemos hecho, hemos creado una función definida por el usuario que hemos creado unas fuentes personalizadas y para encontrar las, para calcularlas más. Y después hemos calculado el modo que hemos hecho en la conferencia anterior. Para que puedas ir a ver eso si no lo has visto. Entonces, ¿qué más? Ahora, vamos a aprender un concepto muy importante que se llama regresión lineal. La regresión lineal es muy importante y es ampliamente utilizada en el aprendizaje automático y la inteligencia artificial. Entonces, si quieres seguir adelante, tienes que saber qué es la regresión lineal y cómo puedes usarla para predecir. Entonces, la regresión lineal es un modelo de aprendizaje automático. Con eso, podemos predecir los valores en base a, supongamos que tenemos datos, supongamos que tenemos datos aquí, altura y peso, donde tenemos el peso de la proporción. Y con base en el peso de la proporción, estamos calculando la altura o anchura y la altura. Queremos calcular el peso de la proporción. Entonces cualquier cosa que se quiera establecer la relación entre estas dos variables, altura y el peso. Podemos hacer eso y para predecir, supongamos que se trata de los datos de muestra que tenemos, que hemos recopilado a través de nuestros experimentos. Entonces ahora tenemos los datos de altura y peso. Y en base a estos datos, suponemos que tenemos estas discrepancias cosa hasta 19 conjunto de datos aquí. Y en base a este conjunto de datos, queremos entrenar nuestro modelo, el modelo de aprendizaje automático sobre el modelo de regresión lineal. Y supongamos que quiero una nueva altura de una persona, voy a dar una nueva alta tecnología no está presente en esta columna y quiero predecir el peso esperado de esa persona. Entonces lo que hago, entreno mi modelo con estos datos. Y cada vez que doy en nueva estatura de una persona, ello, el sistema predecirá el peso de la persona, el peso esperado de la persona con base en el cálculo y va a hacer. Entonces de esta manera, podemos predecir nuestro peso de una persona en función de su estatura. Entonces entrenaremos con estos datos y cualquier dato, cualquier dato nuevo que podamos dar altura. Y pronosticará el peso esperado de esa persona. Bien, entonces eso es lo que vamos a hacer a través de la regresión lineal. Entonces, ¿qué es la regresión lineal? La regresión lineal es como método estadístico táctico utilizado en finanzas, inversión o cualquier otra disciplina que intenta determinar la fuerza y el carácter de la relación entre una variable dependiente, generalmente denotada por Y, y una serie de otra variable conocida como variable independiente. Entonces, ¿qué entendiste lo que es este modelo, si algún método para encontrar la relación entre dos variables, una es independiente, Hannah que es dependiente. Entonces, ¿qué depende de lo que sea independiente? Supongamos, en base a la altura, quiero encontrar el peso de la porción aquí, altura, que estamos dando la entrada será como, se llamará como variables independientes. Entonces aquí la altura será variable independiente y el peso será la variable dependiente ya que con base en la altura, estamos prediciendo el peso. Entonces, en base a la altura, la entrada que tenemos como altura, que esto se basará en el valor que queremos predecir. Con base en la altura que queremos predecir. altura será la variable independiente, y el peso será la variable dependiente. Porque dependiendo de la altura, estamos prediciendo, el peso, altura serán aunque variables independientes, y el peso será la variable dependiente. ¿Bien? Entonces tienes que saber qué es la variable dependiente e independiente, ¿verdad? Por lo tanto, la variable dependiente se denota por Y. Y las variables independientes son la serie de otras variables. Entonces habrá una hoja. Supongamos que tienes una empresa y quieres predecir los ingresos de la empresa. Por lo que los ingresos de la empresa pueden ser sólo una variable. Para que podamos predecir en base varias otras cosas como cómo se está desempeñando su empresa, ¿cuál es la apropiada, cuál es la pérdida? Oye, cuántos clientes tienes, cuántos clientes perdiste, y cómo, cómo le estás dando Salish a nuestras implica. Entonces todos estos componente salarial, ganancia, pérdida, condición del mercado, todas estas son las variables independientes que van a definir tus ingresos. Entonces los ingresos aquí son una variable dependiente y todas las demás cosas que van a afectar a tus ingresos se llaman variables dependientes. Entonces ahí, puede haber muchas variables dependientes y solo habrá una variable independiente que vamos a predecir. ¿Bien? Entonces, el análisis de regresión es un proceso estadístico set-top para estimar la relación entre una variable dependiente, a menudo llamada resultados. Entonces, qué resultado vamos a obtener que se llama variable dependiente. Y una o más variables independientes. Entonces una o más variables independientes implica salario, ganancia, pérdida, condición del mercado, todas esas cosas a menudo llamadas predictores o covariables o características. Así que a estas también se les llama características en función de las características que vamos a predecir algún valor. Voy a hacer algo en particular, ¿de acuerdo? Y a estos también se llama predictores porque nos van a ayudar en los ingresos o el peso de una persona. La forma más común de análisis de regresión, análisis es la regresión lineal. ¿Bien? Entonces aquí hay análisis de regresión múltiple como múltiple o iban a enviar un análisis de regresión lineal simple, regresión lineal, todas esas cosas. ¿Bien? Entonces en la regresión lineal lo que hacemos, encontramos investigador encuentra que la línea son combinación lineal más compleja que más se ajusta a los datos de acuerdo con el criterio matemático específico. Bien, entonces, ¿qué significa mar? Estos son los datos Nick peso en el eje x y Altura en el eje y. ¿Bien? Entonces, basándonos en la altura, vamos a predecir el peso de la proporción. Entonces aquí, si ves estos son los puntos. Estos apunta como 64, 64, R1, 77 KG, 177, altura. El peso es de 64 puntos algo, ¿verdad? Entonces este punto, estos son los puntos de datos que tenemos. Entonces, lo que hacemos con la regresión lineal, tratamos de encontrar una línea aquí. Intenta encontrar aquí una línea que represente los datos, que los preparará. Datos de resultados como soporte, encuentras cualquier punto aquí como 65. Y cuando trates una línea aquí, ésta cruzará ahí, obtendrás un punto y construirás sobre este peso. Obtendrás esa altura son mejores que esta altura y valor, obtendrás el valor X, ¿verdad? Entonces este punto te dará la combinación x e y, o datos de altura y ancho, ¿verdad? Entonces, cuando trates una línea aquí, obtendrás la indicada. Supongamos que se nos da 65.8 o estamos dando 162 tiene el más alto. Entonces, cuando vengamos aquí, obtendremos el valor x aquí. Es decir, ese será el peso de la persona. Entonces intentaremos encontrar una línea que represente correctamente la línea, ¿de acuerdo? Y datos, ¿verdad? Datos según los criterios matemáticos específicos. ¿Bien? Entonces regresión lineal, estas dos variables o a través de una ecuación. En regresión lineal, estas dos variables, dependientes e independientes, desgastarán la potencia exponente de ambos niveles digitales es uno. Porque lo que vamos a usar estas una simple ecuación de línea escribir y es igual a m x más c. Y es igual a m x más c, donde m es la pendiente y el valor constante, ¿bien? Entonces es una constante, ¿verdad? Entonces aquí m x m es pendiente. Entonces en base a esto, podemos trazar cualquier línea, ¿verdad? Entonces esta es la ecuación de línea simple, ¿verdad? ecuación de línea recta y es igual a mx más c. Entonces, basándonos en esta X e Y, tratamos de encontrar esta línea que realmente representará esos datos, datos altura y peso. Y como se les llama su poder es uno, y cuadrado m x más c. El poder de x e y es uno. Se llama ecuación de línea simple. Y si su poder no es igual a uno, formará un auto. No va a ser una línea recta. Será alguna línea curva como función sigmoidea o algo así, ¿verdad? Entonces en base a esta ecuación intentaremos encontrar, bien, entonces y es la variable de respuesta, ¿verdad? Debido a que el valor y vamos a predecir con base en el valor x. Y x es el valor predictor, valor o variable independiente. A y b se denominan coeficientes. Entonces, cuando realicemos regresión lineal, vamos a tratar de encontrar eso. valores A y b, estos se denominan coeficientes, son coeficientes de regresión. Y construir sobre estos dos valores, a y b, encontramos el valor y, ¿de acuerdo? Y con eso, conseguiremos estos puntos, estos puntos en la línea. Y cuando trazamos una línea, unir esos puntos obtendrá una línea recta o una disminución en línea. Y esta línea te dará la verdadera predicción de los datos. ¿Bien? ¿Dónde se usa? Bueno, usamos la regresión lineal. Por lo tanto, el análisis de regresión se utiliza principalmente para dos fuerzas conceptuales de propósito distinto. El análisis es ampliamente utilizado para la predicción o pronóstico. Supongamos que tenemos datos de altura y peso. Queremos construir sobre la altura. Queremos predecir la altura de una persona ahí. Podemos usar nuestro pronóstico. Supongamos que mañana lloverá o no, casos verdaderos o falsos. ¿Bien? Entonces ese tipo de pronósticos que podemos hacer, como en el clima será como un día soleado. Voy a salir en un día soleado. No va a llover. Pronosticación, podemos hacerlo en la situación de pronóstico y predicción, utilizamos la regresión lineal en el aprendizaje automático. Y luego segundo es situación análisis riguroso puede ser utilizado en para la relación casual entre las variables independientes y dependientes que apoyan cuando se tienen dos variables y dependientes e independientes, quiere encontrar cómo se relacionan. Lo son, podemos usar esa regresión lineal para encontrar la relación entre la variable dependiente e independiente. Entonces ahora cómo establecer la regresión lineal o regresión. Ejemplo sencillo que vamos a hacer en nuestra mano, puestas de sol en, que van a ser predecir el peso de una persona en función de la estatura. Entonces, si conocemos la altura de una persona, podemos predecir el peso con este análisis de regresión lineal. Entonces para hacer esto, necesitamos tener relación entre la altura y el peso de una persona y cómo lo hacemos, porque tenemos esos datos altura y ancho aquí que vamos a usar en nuestro ejemplo. Entonces, lo que hago primero, necesitamos recolectar los datos para los que queremos establecer esa relación. Entonces vamos a tener estos datos y luego vamos a, lo que vamos a, vamos a hacer una vez que tengamos los datos voluntad. Lo real es que, una vez que tengamos los datos realizaremos algún análisis exploratorio de datos para limpiar los datos si faltan algunos valores ahí, cómo podemos eliminar, qué, cómo podemos sentir que nuestros datos. Entonces ese tipo de cosas que hacemos en la vida real. Pero aquí, lo que vamos a hacer, habremos ordenado un dato muy de carácter aquí. Entonces sabemos no hacer todo ese tipo de cosas que veremos en la última parte del curso. Pero por ahora aquí tenemos los datos muy limpios. Entonces qué vamos a hacer, vamos a realizar eso. Utilizaremos la función lm e intentaremos establecer la relación entre altura y peso. Alto y ancho, y y x, ¿verdad? La altura y el peso intentarán realizar. El arrendador intentará crear un modelo de regresión lineal utilizando la función lm. función Lm es la función inversa en R que hará todo el cálculo matemático en segundo plano. Y nos dará la relación entre x e y. Escribe y y x están agudizadas mojadas. Creará la función IF de esencia real. Y cuando lleguemos, cuando usamos resumen de esa esencia real, si podemos encontrar los coeficientes a y b y cómo están relacionados. Entonces, en base a eso, podemos trazar la línea regular de insulina. Y también podemos predecir el peso de una persona. No predijiste la función. Hay otra función llamada predict, que usaremos esta relación que es función lm. Bien, entonces utilizará la regresión lineal, nuestra relación que hemos establecido en este paso. Y usará estos valores x e y esta relación e intentará trazar la línea de regresión para nosotros. Vamos a trazar la línea de regresión aquí, pero aquí con la función predict. Y predecir la función utilizará internamente esa función o relación que obtengamos a través del modelo de regresión lineal. Y utilizará este modelo para predecir la altura con base en el peso. Entonces veremos cómo podemos hacerlo en la próxima conferencia. Entonces espero que hayas llegado a entender qué es la regresión lineal. La regresión lineal es algo así como apoyarte. Aquí tenemos los puntos y queremos predecir con base en los nuevos datos. Queremos predecir que en base a la altura, quiero, supongamos en base a la altura 230, ¿cuál será el peso que quiero encontrar? Entonces aquí, si sólo tenemos los puntos de datos, no podemos hacer eso. Entonces, ¿qué modelo de regresión lineal hará? Creará una línea recta que realmente representará estos puntos de datos. Entonces se hará a 30 si dibujas una línea aquí y aquí, el punto de intersección aquí, te dará algo así como cuál será la altura de esa persona. Por lo que te dará una línea de regresión. En base a eso, se puede predecir el valor predictor de R, predecir el peso de una persona en función de la estatura. ¿Bien? Entonces nos vemos dentro de la siguiente conferencia. 41. Predicción con el modelo de regresión lineal: Hola y bienvenidos de nuevo. Entonces en la conferencia anterior, hemos aprendido qué es regresión y lo que hemos aprendido, qué es la regresión lineal y cómo podemos usar y dónde está. Tienes razón. Entonces este es el sistema práctico. Y aquí intentaremos escribir nuestro código para implementar regresión lineal simple, donde estaremos usando uno de dos vectores, x e y, donde x está conteniendo el peso de las porciones. X cada uno contiene la altura de la altura del paciente de altura parcial de pocas personas, ¿de acuerdo? Y entonces y contendrá el peso. Entonces x es altura e y está conteniendo el peso correspondiente a esta x. ¿Bien? Entonces basándonos en ninguna altura construida sobre la x, queremos encontrar la y, ¿verdad? Entonces este es nuestro conjunto de datos, ¿verdad? Entonces, con base en X, en la altura de una persona, queremos predecir la altura de un saudí parcial hecho sobre la altura. Queremos predecir el peso de la persona, ¿no? Entonces en base a x, queremos predecir la y, que es aquí estamos considerando por qué otro peso. Entonces x es altura y peso. Y es bastante sencillo establecer la relación entre x e y en R. Y debido a que R está teniendo función oh, lm, función lm es función de regresión lineal o modelo lineal. Lm función va a crear esa relación entre x e y. así que aquí la primera variable, los primeros datos vectoriales de datos vamos a definir aquí que son las variables dependientes. Entonces esta es la razón por la que queremos predecir con base en la x. Entonces, cuando escribimos así, significa basado en la x, vamos a predecir y. Entonces y no es valor de predicción, y x es el predictor. X es la variable independiente e y es la variable dependiente. Y. Y es dependiente porque y valor depende de la X proporcionada, ¿verdad? Entonces, cualquiera que sea el valor x que proporcione en base a eso, nuestro modelo predecirá y valor, ese es el peso, ¿verdad? Entonces proporcionaremos X que es altura de proporción. Y en base a eso, predecirá la variable dependiente Y, que es el peso y la estatura. Prediremos el peso de la proporción. Entonces esta función lm simple, no vamos a hacer la matemática de fondo porque función lm la implementará, encontrará el coeficiente y todo ello establecerá esa relación. Pero en R, ya que estamos usando in vitro en bibliotecas construidas de función lm, automáticamente creará la relación entre x e y y en base a eso, podemos predecir. Entonces, lo primero, el primer paso es tratar de establecer la relación lineal entre x e y, ¿bien? Entonces el predictor estará aquí o la variable dependiente estará aquí. Y esta es la variable independiente. Entonces en base a la altura se predecirá x. ¿Por qué es eso, esperar hasta la porción. Entonces aquí simplemente estoy dando un nombre de archivo, W, altura, peso un punto PNG, cualquier archivo. Déjame, puedes darles aquí lo que estoy haciendo. Solo estoy trazando valores y, x, y valores x en el plano x y. Y le estoy dando un color azul. Se le puede dar verde. Y podemos escribir aquí la altura, el peso de las lecciones. Si puedes imprimir las lecciones, la regresión, lo que quieras, puedes poner aquí, bien, y luego estoy usando la línea AB. Cada línea creará la línea de regresión, y sin embargo yo estoy proporcionando el LM. ¿Bien? Y luego en esto vamos, veremos cómo podemos cambiar y ¿qué es eso? Es como jaja, como quieres poner los puntos de datos en la gráfica. Y luego en el eje x, esperando cagey y eje y, altura en centímetros. ¿Bien? Entonces así es como lo vamos a trazar. Y luego lo que estoy haciendo aquí. Voy a proporcionar el alto toque de 170 centímetros. Entonces aquí estoy aportando X igual a 170 centímetros. Y en base a este valor x, quiero predecir el peso predicho de la persona Y. Entonces X estoy aportando aquí. Entonces estoy creando un DataFrame y estoy trazando x igual a 170. Esto será, le estoy dando a esta variable nombre como un nuevo borde, nueva altura. ¿Bien? Y entonces lo que estoy haciendo, simplemente estoy prediciendo un museo, la función de predecir, predecir y estoy usando esta relación que hemos establecido. Y yo estoy proveyendo. La variable independiente que es x. Así que este valor x está aquí. Nuevo mojado. Estoy proporcionando nuevo pero eso es uno 70, uno proporcionando lo que estoy trazando x aquí y quiero predecir la Y. Así que cuando ejecutemos esto, obtendremos el valor y. Entonces para 170 centímetros de altura, cuál será el peso de la persona que va a predecir con base en la relación que hemos establecido en el modelo lineal, modelo de regresión lineal. Así que déjame ejecutar esto y ver la salida z. Salida que estamos obteniendo como 67.33. Entonces para 170 centímetros, la altura de una persona está teniendo una altura de 70 centímetros. Nuestro sistema predice que debería tener el top alto 67.33. Ceo. Si ves 170, será sobre eso. Bien, veo 167. Lo es. Nuestro sistema predice para uno, 70, 67. ¿Bien? Entonces hará el cálculo matemático dentro y establecido antes lección y ya estamos hechos de que escuchen, en base a este modelo, ese modelo de regresión lineal que hemos creado, predecirá el peso de la persona que viene alrededor de 67.33. Déjame mostrarte la gráfica. Bueno, entonces esta es la gráfica que aquí hemos impreso. Asegúrate de ver aquí estos puntos, los puntos de datos vienen en verde porque hemos dado aquí en verde. Si lo hago leer, los puntos de datos se convertirán en derecha, derecha. Bien, entonces déjame abrir el archivo otra vez. Los puntos de datos están en rojo. Y una cosa más que quería decirte, mira, este valor CX definirá si lo hago soporta 2.5 y si lo ejecuto, los puntos de datos serán mayores. ¿Bien? Así que nos vemos, ahora los puntos de datos vienen en una forma más grande. ¿Bien? Entonces de esta manera, este es el valor x es aumentar o disminuir los lados de los puntos de datos. ¿Bien? Y esta pieza aquí, cisteína y permítame cambiarla a 26 y ver qué impacto está votando. Ahora viene así. Entonces así es básicamente como quieres poner tus datos. Entonces ahora viene ahora. Manera rectangular, recta. Si lo pongo al proyecto en, viene en un diamante mismo. Entonces así es básicamente como quieres poner tu aguja, cómo quieres que te guste hacerla de un color sólido. Entonces, básicamente, el valor de PC cambiará la forma de los puntos de datos, ¿verdad? Retrato de cisteína, vendrá en más o menos circular en círculos. ¿Bien? Entonces ahora y xlab es lo que ponemos en el eje x y el nombre en el eje x y luego la altura del eje y. Entonces esta es la altura y este peso de borde. Y esta es la principal que si hemos utilizado manejamos igual a altura y peso y cremallera. Entonces eso va a venir aquí y ver, sí, esta es la línea de regresión que ha dibujado nuestro modelo. Entonces esto te las dará. Si quieres predecir un valor, puedes simplemente poner aquí 67 y te dará este sistema de valores predecirá. Entonces mira tu proceso T7, la altura es, déjame adentrarme un poco más en la cosa. Así buscó 67, la altura es una. Tal T7. No quería prepararlo. Y veamos qué es lo que nuestro sistema predice para 150, ¿de acuerdo? Ese es mi puerto 165. Entonces se puede ver para tal T7, este también. Pero nuestro sistema predice cinco. Por lo que es similar como 67.25, 1321 a T7. Y nuestro sistema está prediciendo uno que pondrá el punto de control y C. Así que esto es como jugar con el código. Si sirvo esto, veamos qué obtenemos. C, obtenemos 65.44. En nuestro conjunto de datos, ¿qué es eso? Viniendo alrededor del 67. Entonces así es como nuestro sistema está prediciendo. Es bastante exacto, ¿de acuerdo? Y esto dice esa línea de regresión que ha dibujado. Así que aquí estamos prediciendo, ¿de acuerdo? Lo siguiente que podemos hacer es como mi estado ideal. ¿Bien? Lo que quería decirte más, podemos alguien fuera lección y veremos qué nos da alguien. Entonces, si le pongo peso solo a esto, CEO, deberíamos obtener todos los residuos como mínimo, mediana de un cuartil, valores máximos del tercer cuartil y luego el coeficiente de copia m y c m y c m x más c m y c los valores están saliendo como interceptar aquí. Y eso viene este valor t y el valor P viene así. Entonces estas son las cosas, estas son la cooperación que se calcula por la función lm. Y en base a esto, se está pronosticando el clima. Y en base a esto, está probando la línea celular particular. Y CEO múltiples valores R cuadrados vienen así. El R-cuadrado ajustado viene así. Y F estadísticas que vienen esto. ¿Bien? Y los valores p aquí, veremos en similares, estos son los más allá del alcance de este curso. Cuando aprendemos, cuando aprendes algoritmos de aprendizaje automático en profundidad, estarás llegando a conocer qué son estas copias y para qué sirven. Eso está más allá del alcance de este curso porque solo estamos aprendiendo nuestra programación para la parte de aprendizaje automático. Deberías estar sabiendo que ahora la función lm usará internamente estos coeficientes de costo de mundos 3D y el error estándar que vendrá porque ningún modelo predecirá el botón Conectar, por lo que habrá error. Entonces el error estándar residual viene alrededor este valor R-cuadrado de 17 grados de libertad. Entonces lo que quiero son los valores predichos y el valor esperado, los valores predichos y lo que sea que sea. Entonces ese será el error. Sea lo que sea que estemos buscando y qué sistema está dando que habrá una edición. Y si lo hacemos es un día bastante malo, vamos a conseguir que esos se describan en eso. ¿Bien? Entonces estos son los valores que serán utilizados por el modelo de regresión lineal de aprendizaje automático internamente y para predecir la variable dependiente. Bien, entonces espero que tengas que entender poco de un modelo de regresión lineal y cómo puedes usar la función lm para predecir y cómo puedes dibujar esa línea de regresión lineal. Bien, Así Stephen sitio, la siguiente conferencia. 42. Lectura de CSV que crea un modelo de LR y predicción: Hola chicos, bienvenidos de nuevo. Entonces en la conferencia anterior hemos visto cómo podemos usar modelo de regresión lineal y cómo podemos crear la relación entre la variable dependiente y la variable independiente, y cómo podemos predecir, y cómo podemos incluso trazar la línea de regresión lineal. Línea de regresión me refería. Bien, y hemos visto cuales son los coeficientes cuando usamos el resumen y como el modelo lineal para pixel, y hemos visto como podemos predecir los datos. Pero en el ejemplo anterior, lo que hemos hecho, hemos tomado el vector r, hemos tomado ese vector de datos para la altura y su peso. Y entonces hemos creado el modelo de regresión lineal para x e y. Y entonces hemos predicho, ahora, en el mundo real, no tendremos los datos en este formato, en el formato vectorial. En cambio, nosotros, la mayoría de las veces vamos a tener los datos en nuestras bases de datos están en los archivos Excel o CSV. La mayoría de los casos será archivo CSV punto, archivos separados por comas, ¿ verdad? Ya sabes. Entonces en este ejemplo, lo que voy a hacer, te lo diré, como ya hemos visto cómo podemos leer el archivo CSV en las conferencias anteriores. Y eso, ese conocimiento que vamos a utilizar en esta conferencia para crear modelo lineal. Y leeremos los datos del archivo CSV. Entonces para eso, he creado con los mismos datos altura y peso que hemos utilizado en la conferencia anterior, he creado un archivo CSV con peso y altura. Entonces esta columna es el peso y esta columna es la altura. ¿Bien? Entonces este es el archivo CSV, alto, ancho punto archivo CSV. Y lo que voy a hacer, el primer paso es que leeremos los datos del archivo CSV, trataremos el archivo CSV. Entonces para eso, estoy usando metadatos y estoy usando la función read.csv para leer el archivo CSV. Entonces con este read.csv, leerá el archivo CSV y obtendrá los datos en este vector, este objeto, objeto de datos. Así que podemos ver con nuestro archivo read.csv está leyendo los datos correctamente o no. Entonces para eso, podemos usar la función view y proporcionar el objeto dentro de eso. Entonces cuando esta vista pulmones y obtendremos este objeto de datos, irá aquí y leerá el archivo CSV. Y luego con BYU podemos obtener la vista de los datos. Entonces déjame correr estas dos líneas por ti. Ver aquí, estamos obteniendo la vista de los datos TO en nuestro peso y estatura. Entonces lo mismo, perdón. Ver los mismos datos que podemos ver en el RStudio ahora con la función view, wavefunction verá los datos de esta manera. Entonces ahora tenemos claro que nuestro archivo de datos, datos que hemos leído del archivo CSV. Ahora lo que podemos hacer el siguiente paso es crear el modelo de regresión lineal para la predicción. Entonces queremos predecir el peso y la estatura. Queremos predecir el peso de la persona. Entonces para eso, crearemos el modelo de regresión lineal. Entonces usaremos la función lm y w aquí, peso será el peso será la variable dependiente y la altura será la variable independiente. Entonces, con base en la altura, queremos predecir el peso. Aquí los datos se llaman datos. Datos significa que estamos usando estos datos. Se le puede dar cualquier nombre. Se puede. Ahora, podemos modificar esto con, perdón, estatura peso, perdón, en realidad datos W, datos de estatura peso. Y así nos estamos comiendo su archivo CSP. Vamos a poner esto aquí. Y entonces los datos son CO2 pondrá altura cuando los datos, ¿de acuerdo? Entonces de esta manera, la fuente de datos son los datos de peso de altura que hemos obtenido del archivo CSV. Y aquí estamos creando el modelo de regresión lineal usando la función LM. Y estamos dando la variable dependiente o independiente aquí espera, y la variable independiente es altura y los datos iguales a nuestra fuente de datos serán esos DOS datos. Y permítanme comentar esto para que no nos moleste. Y ahora tenemos, ahora este modelo. He dado nombre y modelo. Y usaremos resumen de nuestro modelo para obtener los detalles. Entonces déjame correr estas dos líneas son, déjame correr hasta aquí porque hemos modificado. Entonces déjame dirigir esto. Así que mira aquí, ahora estamos consiguiendo el Resumen nuestro modelo lineal, modelo regresión lineal como los niveles de colesterol o este, mediana del cuartil. Coeficiente máximo del tercer cuartil, intercepción apretada, todos esos valores que estamos obteniendo aquí. Y luego estamos obteniendo el error estándar. Error estándar como 1.21, 0.789, 17 grados de libertad múltiple valor R cuadrado ajustado valor R cuadrado, valor p. Y también estamos llegando a las estadísticas, ¿de acuerdo? Entonces ahora nuestro modelo, eso significa que un modelo de regresión lineal está listo. Ahora estamos listos para predecir con base en los nuevos datos. Entonces lo que estoy haciendo aquí, estoy aportando una nueva altura que es 152.21. Bien, déjame modificar esto a 16485. ¿Bien? Y para esta altura, quiero predecir el peso, lo que esta altura de 165.85 centímetros, quiero predecir el peso de la persona. Entonces este divertido DataFrame, porque lo que sea que leamos del archivo CSV, vendrá como un DataFrame. Así que estoy creando un DataFrame aquí y con una altura igual a 174.85 y le estoy dando un nombre sabía que objeto más nuevo de ayer contendrá el sitio azure 164.85. Ahora, los últimos días es predecir el peso usando un modelo. Y para eso, estamos utilizando la función de predicción. Y dentro de la función predict, estamos aportando dos argumentos. Uno es nuestro modelo, nuestro modelo que hemos creado aquí. Entonces este modelo LM lo estoy aportando aquí, para que en base esta relación prediga y lo que predice. Y estamos aportando los datos que es altura. Por lo que estamos brindando altura como 164.85 año. Entonces estamos proporcionando el objeto de datos aquí que el nuevo borde. Por lo que tomará esto como insumo. Se irá a este modelo. Y en base a esta esencia real de altura ancho, pondrá la altura como 174.85 y predecirá el nuevo peso, peso de esta persona. Bien, entonces ahora esto predice algún valor. Lo estoy manteniendo en peso predicho porque somos los pesos. Así que he dado mojado predicho como este nombre de objeto. Ahora, lo siguiente es que tenemos el nuevo peso en este peso repetido en este objeto. Tenemos que imprimirlo. Así que puedes usar la impresión aquí. Pero como quería imprimir una línea múltiple, así que estoy usando la función cat. ¿Bien? Entonces debido a que la función printf imprimirá solo 11 líneas a la vez, quería concatenar o dos oraciones. Para altura. Este peso predicho es este. ¿Bien? Entonces esto solo puede ser posible con la función cat. No podemos hacer esto con la función de impresión porque la función de impresión tiene limitación de solo imprimir los objetos, valores de objeto. Sólo puede imprimir, no puede imprimir el estado de cuenta. Entonces para eso estoy usando cat. Si quieres imprimir algo como esto, puedes usar la función cat. Entonces ahora estoy usando cat y estoy usando para altura igual para modificar este para viento. Es cinco peso predicho es, estoy imprimiendo ahora donde predijo aquí. Así que déjame ejecutar todo el código aquí, así que voy a hacer clic en Fuente y CEO para la altura 164.85 se predice peso es 661794. Entonces ahora con esto podemos predecir, por lo que ahora nuestro modelo, este modelo de regresión lineal está prediciendo el peso como 66.79. Déjame mostrarte este modelo y el modelo anterior está dando el mismo resultado o no. Entonces qué voy a hacer, en lugar de un PIP2 en el ejemplo anterior, voy a poner 164.85 y voy a tratar de correr este último año también, estamos obteniendo el mismo resultado, 66.7, 9465. Entonces en ambos sentidos, porque los datos son los mismos aquí, hemos guardado en la forma vectorial Aquí y aquí lo estamos leyendo desde el archivo CSV, pero los datos son los mismos. Por eso estamos obteniendo los mismos resultados de los dos modelos. Así que de esta manera, se puede leer desde el archivo CSV y crear un modelo de regresión lineal. Y luego en base a eso, puedes predecir el valor, lo que quieras. Eso se puede hacer. Puedes probar este problema con cualquier otro punto de datos que puedas tener. Como basado en la edad, puedes detectar el peso o en base a algo que datos categóricos, tus datos puedes tomar y puedes poner en el archivo CSV y puedes predecir un valor pero en el otro creando el modelo de regresión lineal. Entonces espero que con este ejemplo, estemos bastante seguros de la regresión lineal, cómo podemos crear un modelo de regresión lineal para predecir los valores. Y espero que practiques más con esto. Y puedes hacerlo mucho mejor que esto, ¿verdad? Entonces, cuando practiques, mejorarás con nuestra programación y las cosas de aprendizaje automático. Espero que llegues a entender el modelo de regresión lineal. Y eso es todo para esta conferencia. Entonces veamos qué podemos aprender más. 43. Regresión múltiple: En la conferencia anterior, hemos visto cómo podemos utilizar la regresión lineal. Lo que hemos visto como regresión lineal usando dos vectores son dos objetos de datos como el peso y la altura. Y hemos creado que la marca licenciataria, entonces tenemos hockey. Y entonces tenemos ese archivo CSV land o creamos nuestro modelo LM, la relación lineal entre el peso y la altura y luego se reunió y la altura. Predijimos lo menos productivo correspondiente. Genial hasta el parcial. ¿Bien? Ahora bien, esta fue la lineal o la colisión, ¿verdad? Ahora, nuestra regresión lineal simple, ahora tenemos otro problema donde estamos la variable de respuesta en nuestra variable dependiente, o el valor que vamos a predecir va a ella. Puede, como en regresión lineal lo que hemos visto, la variable dependiente y las variables independientes. Variable dependiente, dependiendo de una sola variable, una tasa variable independiente. Pero en situaciones de la vida real, la mayoría de las veces la salida o el valor que vamos a predecir. No necesariamente va a depender de una sola variable dependiente. Pero puede haber muchas, muchas variables independientes que van a definir van a afectar a la variable independiente. Entonces no es como la situación como siempre obtendremos la regresión lineal, simple lineal. Podemos tener múltiples variables independientes que van a afectar a la salida. Como en caso de apoyar la forma en que la predicción, el clima. predicción puede depender muchas situaciones como si es un día lluvioso, qué región es, ¿qué tipo de nubes hay? Y muchas cosas más, ¿verdad? Supongamos que tienes un negocio y vas a predecir tus ingresos en base a algunos factores. Entonces debe haber, puede haber muchos factores, como dije antes, como, debe tener el número de empleados, cómo vamos a elogiar a sus empleados, eso también va a afectar sus ingresos. ¿Cómo es tu ganancia y pérdida? Si estás en ganancias, tus ingresos van a ser más. Si estás en pérdida, tus ingresos van a disminuir. Y si no vas a hacerlo, supongamos que tienes algunos nuestros impuestos, más impuestos, entonces vas a ser ingresos que van a afectarlo. Entonces hay muchos factores que van a decidir o definir tus ingresos. Entonces aquí, esto, este problema no se puede manejar con la regresión lineal. Tenemos que usar regresión lineal múltiple porque el valor de salida o los ingresos dependen de muchos factores. Entonces aquí los factores son características serán independientes. Las características son los factores que van a encontrar los ingresos. Entonces en ese caso, tendremos como a, B X1, X2 más así sucesivamente y así sucesivamente, bn XN. Esto significa esto, b1, b2, bn, y E, todos los coeficientes más adelante los hemos visto en nosotros, y igual a mx más c aquí mismo, solo un eje allá. Pero en regresión múltiple habrá b1, b2, b3 ante nosotros hasta Vn, ¿verdad? Que pueda haber n número de factores que van a afectar a esta y. ¿Bien? Entonces esta es la regresión lineal simple. Y esta ecuación es para regresión lineal múltiple porque eres B1, B2. Puede haber una serie de factores que van a afectar el resultado. Entonces, la regresión lineal múltiple, también conocida simplemente como regresión múltiple, es una técnica estadística que solo tiene varias variables explicativas para predecir el resultado de nuestra variable de respuesta. Bien, entonces qué voy a hacer, déjame mostrarte un conjunto de datos. Entonces lo que voy a usar, voy a usar en datos reales que están disponibles con la R, es decir autos vacíos. Así que los datos empíricos, este conjunto de datos está disponible con el propio paquete R. Entonces, cuando descargues R, vendrá incorporado con el paquete R. ¿Bien? Así que los autos vacíos, para que puedas usar la vista. Ver. Soy disparadores te dará la vista del conjunto de datos. Así que mira, este es el conjunto de datos de varios dioses como Martha Jackson, Hornet. Eso es inigualable está bien. Entonces hay muchos autos y es como millas por galón, desplazamiento de cilindros, caballos de fuerza, peso. Bien. Así que hay, hay muchos clave un número de años coche. Bien. Entonces todos estos factores van a definir las millas por galón o pocos factores pueden no estar afectando mucho. Y los vectores de campo van a afectar más. Al igual que si considera millas por galón como la salida a la que desea llegar, desea predecir las millas por galón en función del desplazamiento, caballos de fuerza, peso del automóvil. Entonces también, tal vez número de cilindros no van a afectar gran parte del partido bajo tienen mucho efecto en las millas por galón o en algunos casos, puede tener mucho Lexi sí, cuatro cilindros está teniendo un -33, 30, 26 más. Y si ves que ocho cilindros están teniendo menos menos dos, esta cantidad de cilindros en el motor va a afectar a la mielina. Entonces este es un factor. Entonces. El desplazamiento también puede tener efecto en el promedio del kilometraje del automóvil. Y luego leer el auto también va a afectar. Vea aquí que existen diversas características, son las variables independientes, el número de desplazamiento del cilindro, peso y el número de engranajes. Entonces estas son las cosas que van a afectar a la mielina. Entonces aquí tenemos que usar regresión múltiple si se quiere predecir el kilometraje o por automóvil en función del número de desplazamiento del cilindro, peso. Todos esos factores, si hay que considerar, entonces tenemos que usar esa regresión múltiple. Y si tú, si ves esta ecuación de regresión múltiple, esta b0, b1, b2, x2, y x1. Entonces este X uno puede ser el peso del auto, extra puede ser el desplazamiento del auto. Y X3 podría ser el otro factor, como el número de cilindros en el auto. Entonces y este b1, b2, b3 sea, por todos estos coeficientes, van a decidir con base en el cómo, el, cómo X1 o el peso del auto está afectando al Majlis general o promedio arriba del auto. Entonces en base a estos valores, ¿cómo le está afectando se decidirá si es a, b1 es más que este peso del X1 va a ser más correcto? Así que de esta manera podemos usar la regresión múltiple. Entonces, lo que haré en la próxima conferencia, lo haremos de manera práctica en este conjunto de datos que son autos vacíos. Y trataremos de utilizar regresión lineal múltiple o regresión múltiple para predecir millas por galón o promediar hasta un automóvil en función las características que esto depende, así que aquí, el desplazamiento del cilindro, el peso del automóvil. Todas estas serán variables dependientes o independientes. Y millas por galón serán las variables dependientes. Significa que estos valores serán peso del cilindro del automóvil, el número de peso del cilindro del automóvil, el desplazamiento del automóvil número de años en el automóvil. Estos serán los predictores y millas por galón serán el valor predicho. O estas serán las características o las características independientes, variables independientes. Y esta será la variable de respuesta, o la variable de salida, o el valor de predicción. Entonces esa cosa que vamos a hacer en una lección práctica en la próxima conferencia. Nos vemos dentro de la siguiente conferencia. 44. Cómo predecir el kilometraje de automóviles con una regresión múltiple: Hola y bienvenidos de nuevo. Entonces ahora vamos a hacer algo con la regresión múltiple. Entonces este es un sistema práctico bajo regresión múltiple. Entonces vamos a usar el conjunto de datos de autos vacíos. Y para eso, no vamos a usar todas las columnas son todas las cosas que están ahí fuera. Pero vamos a usar MPG, desplazamiento, SP, y esperar a Dios, bien, caballos de fuerza y peso del auto. Bien. Entonces, con base en estos tres, vamos a predecir kilometraje del auto o el promedio hasta el auto, millas por galón arriba del auto. Bien, entonces vamos a usar estas tres características, estas cuatro características hasta nuestro conjunto de datos. Y tres serán las, estas tres serán las variables independientes, y este NPD será la variable dependiente o el valor predicho. Y estos tres serán el predictor predicho. ¿Bien? Entonces, lo primero es que necesitamos crear el modelo de relación, el modelo de regresión lineal, nuestro modelo de regresión múltiple. Así mismo, vamos a usar la función lm que tenemos aquí dos en regresión lineal simple. El tema lm función vamos a utilizar, pero con una fórmula ligeramente diferente. Entonces, sea lo que sea que demos, escuchen esta llamada fórmula. Y la segunda entrada es, segundo argumento son los datos. ¿Bien? Entonces aquí, déjame poner estos datos de costos. Esto tiene un costo para ello. ¿Bien? Entonces ahora este es el, estos son nuestros datos. Esto contendrá estas cuatro características, ¿de acuerdo? Y sus valores correspondientes. ¿Bien? Entonces datos, estamos usando datos de costos hockey que estamos obteniendo de los autos vacíos. ¿Bien? Vamos a crear el modelo. ¿Bien? Déjame hacerlo modelo de regresión lineal, modelo regresión lineal múltiple, modelo MLR. Le estoy dando el nombre. Entonces déjame, bien. Entonces ahora aquí, nuestra capa, ¿qué hacemos? Teníamos solo un valor predicho y un predictor, ¿verdad? Entonces solíamos dar así, bien, casados bajo desplazamiento, encontrar al Majlis. Pero ahora tenemos tres variables independientes que van a afectar a la mielina arriba del auto. Entonces tenemos que dar, este será el valor predicho o la variable dependiente. Y aquí estos tres, podemos dar desplazamiento más ese p más peso. Estas tres estarán ahí variables independientes que van a afectar a la mielina. Así que de esta manera podemos usar la función lm para regresión múltiple y regresión múltiple porque estamos usando múltiples características para predecir un valor. Un valor predicho vendrá en base a las más, una o más variables independientes, ¿de acuerdo? Y datos iguales a cos theta. Así que déjame correr hasta aquí. Imprimiremos el modelo. Bien, veamos cuales son los coeficientes y todo lo que estamos obteniendo sodio. Entonces mira aquí ahora nuestro modelo está dando la intercepción como 37 y desplazamiento como viento urogenital 97 al coeficiente b viene así. Y lo haríamos coeficiente viene esto. Entonces aquí está la intercepción. Este valor de intercepción es 37. Eso será, eso es un. si miras esta fórmula, y es igual a un más b1 x1 más x2 más beta tres x tres. ¿Bien? Entonces aquí tenemos tres, así que va a llegar a ser tres. X d. Aquí está 37. Este valor de intercepción será la a, y luego B1 será el desplazamiento. B2 será el HP, el coeficiente HP, y B3 serán las copias ponderadas, y eso es -3.8. ¿Bien? Entonces ahora tenemos aquí los valores de los coeficientes. Simplemente podemos imprimir el valor del coeficiente. Si pongo x. esto, voy a obtener el coeficiente de desplazamiento. El mismo valor que estoy consiguiendo aquí, ¿verdad? Entonces lo que puedo hacer ahora, puedo poner estos valores de coeficiente en esto, en esta ecuación para obtener nuestro valor predicho y. y será el MPG. En este caso, nuestros pilotos en este caso, tenemos esta intercepción y tenemos el B1 como este, B2. Tenemos esto y este será el V3. Ahora, si tenemos un auto con desplazamiento 324 y HP y 110 y peso como 2.5. Podemos predecir el promedio poniendo estos valores con el coeficiente y las cosas están separando esta fórmula. Entonces lo que voy a hacer, y igual a un plus, entonces a será este valor 37, ¿bien? Y x será la intercepción de desplazamiento, ésta. Y entonces multiplicaré eso con el valor de desplazamiento 324. Entonces x es p será el coeficiente de HP, este. Y voy a multiplicar eso con el 110. Esa será la parte más caliente del auto. Y entonces x t será el coeficiente de peso que estamos consiguiendo aquí, -3.8. Y voy a multiplicar eso con el peso del auto. Así que nos vemos simplemente poniendo en esta ecuación, estos valores, podemos predecir la salida, cualquiera que sea esta ecuación, salida de regalo será el kilometraje previsto del automóvil. Entonces déjame correr esto déjame correr estas dos líneas. Ahora las millas pronosticadas de la tarjeta son 23.87. Entonces basado en la pregunta aquí, basada en esta ecuación, porque aquí el valor de E será 37 -0.00, 0937. Y todos estos valores. Y si ponemos esto, obtendremos el valor y. Y es el mpg millas arriba del auto. Entonces el auto con 324 desplazamiento, HP ciento 10.2, 0.5, nuestro sistema está prediciendo la mielina como 23.8 7247. Por lo que 23.8 será el promedio de este auto. Entonces de manera similar, se puede dar otro valor por el desplazamiento a B y peso del automóvil. Entonces, en base a estas tres variables independientes, estamos prediciendo una variable dependiente que es y Entonces mira aquí tenemos los coeficientes e interceptamos en esta ecuación para obtener el kilometraje del auto. Esto es bastante simple y bastante real, ¿verdad? Estamos obteniendo la salida real, estamos obteniendo la salida. Y es decir, es decir a través un modelo de regresión múltiple que hemos creado a través de esta relación, a través de esta fórmula. Aquí la fórmula es que sólo cambiando todas las demás cosas son bastante similares a la regresión lineal. Pero aquí, si queremos poner aún más características, puedes poner esa variable más independiente aquí. Y habrá una variable dependiente o la variable de salida. ¿Bien? Entonces en base a esto, estamos obteniendo la salida como 23.87. Así que de esta manera podemos usar la regresión lineal múltiple y la regresión múltiple para predecir el valor. Así que predecir un valor basado en las muchas características son muchas variables independientes. Tenemos que usar regresión lineal múltiple. 45. Regresión logística: Hola y bienvenidos de nuevo. En esta conferencia vamos a aprender regresión logística y veremos un ejemplo sencillo de regresión logística y cómo podemos usarla. Bien, entonces primero lo primero, entendamos qué es la regresión logística. Modelo de regresión logística. modelo logístico, también conocido como modelo lógico, se utiliza para modelar la probabilidad de una determinada clase. Como supongamos que si quieres, tú, si tienes algunos datos de Watson donde estoy como etiqueta diabética, etiqueta todas esas cosas. Y en base a eso, quieres predecir si ellos sol está en forma o no, ¿verdad? Entonces aquí la persona está en forma o no en forma. Así que sí, los datos son la salida que queremos predecir es una especie de naturaleza binaria, ahí mismo. Hay dos cosas que encajan, no encajan, encajan persona o no una persona en forma, ¿verdad? Entonces el modelo logístico se utiliza para modelar la probabilidad de una determinada clase o el evento exista tal píldora jefe, si estás escribiendo algo jam, ya sea pasarás o fallarás tasa. Si estás participando en acompañamientos y lo ganarás o perderás. Entonces hay salida binaria derecha, pasado pálido, ganar-perder, vivo, muerto, sano, o enfermo. Esto se puede extender para modelar varias clases de eventos como determinar si una imagen contiene un gato o un perro, un león, ¿verdad? Para que puedas poner nuestros correos electrónicos y podrás entrenar un sistema que va a encontrar el, ya sean las imágenes de gato o perro o línea, ¿verdad? Entonces gato o perro, tipo de león, ¿verdad? cada objeto que se detecte en la imagen se le asignaría una probabilidad 0-1, ¿verdad? Entonces puede ser un gato o un perro, ¿verdad? Entonces siendo gato, uno siendo perro. Y si presentas alguna, cualquier imagen, bien le asignará el valor cero o uno, o una probabilidad entre cero o uno. Podría ser 00.5 o 1.65, así, ¿verdad? Entonces la probabilidad será 0-1 y toda la suma de toda la probabilidad será igual a uno porque la ocurrencia de eventos, probabilidad de ocurrencia de eventos sería siempre uno, ¿verdad? Así que de esa manera usamos nuestra regresión logística y regresión logística, ¿verdad? La ecuación para regresión logística es y es igual a 1/1 más e potencia a más b 1X1 más b2 x2 más B3 X3, y así sucesivamente. Entonces esta es la ecuación matemática de regresión logística. En Python, usamos la función GLM a la función GLM para la regresión logística. Entonces la función GLM para ello también se conoce como modelo logístico generalizado, ¿verdad? Glm. Y contendrá la fórmula como hicimos en regresión lineal. Entonces escribiremos Cuando fórmula con la variable dependiente y la variable independiente, ¿verdad? Y luego tenemos que dar los datos sobre los que queremos realizar la función GLM. Y luego tenemos que darle a la familia de fuentes. Como familia. Aquí usaremos el binomio en nuestros ejemplos. Entonces lo que voy a hacer, voy a usar los datos temáticos de autos, datos autos vacíos que hemos usado antes, ¿verdad? Así que los datos de costo también hemos usado en el ejemplo anterior. Y voy a usar AIM. El objetivo es como un sistema de transmisión automática o manual. Entonces HP, caballos de fuerza, peso y cantidad de cilindros en el motor, ¿verdad? Y este EM es automático o manual. Entonces los datos en los autos vacíos, contiene cero o uno. Entonces déjame mostrarte, déjame correr estas dos líneas y ver los datos. Consulta aquí, para todos los autos, HP, peso y cilindro, m es cero o uno. Es un valor binario, cero o uno. O es el automático o manual, ¿verdad? Bien. Para todos los autos, tenemos datos para m, que es cero o uno, luego es uno o cero para toda la combinación de pesos HP y cilindros. Entonces lo que voy a hacer aquí en este problema, en esta conferencia, qué vamos a hacer con la función GLM o función de regresión logística. Eso basado en lo que vamos a hacer, que hay cuatro cosas. Cuatro columnas, am, HP, peso y cilindro. Entonces vamos a tratar de encontrar esto. Haremos este HP, peso y cilindro como variables independientes. Y m será la variable dependiente. Medios. Vamos a predecir. No, estoy bien, bien, entonces lo que vamos a hacer, veremos solidario estás haciendo un modelo. Deberíamos estar sabiendo cuáles son los factores o cuáles son las características que van a impactar en los valores predichos. Más apoyo. Si creamos un modelo de regresión logística con todas estas tres variables de respuesta o variables independientes o modelo puede no ser correcto porque en estos tres HP peso y cilindro, los tres no impactarán los autos siendo manuales en los autos siendo manuales o automáticos de la misma manera, ¿verdad? A lo mejor el número de cilindros de cilindro endocast decidirá tener más impacto en el tallado considerado como sirvienta, ya que un automático o manual o peso hasta el auto tenga más peso o HP. Caballos de fuerza es decidir el factor que los costos serían automáticos o manuales. Entonces, lo que haremos con la simple función GLM intentará encontrar cuál de estas tres variables dependientes, lo siento, alcanzamos estas tres variables independientes que están teniendo impacto en la EM. Entonces, qué va a hacer, nos ayudará a analizar eso, cuáles son las características que debemos considerar para su posterior análisis. Y dejar el otro soporte IP. Llegamos a saber que el peso está teniendo menos impacto en Am que otros dos. Podemos dejar fuera el peso para el análisis posterior y podemos ir con el HB y el cilindro, ¿verdad? Si cilindro no está teniendo, no teniendo ningún impacto en esto, podemos ir con el SPN, lo que por lo que este análisis nos ayudará a encontrar la característica irrelevante, columna irrelevante en la decisión de la EM. Bien, así que eso es lo que vamos a hacer en esta conferencia. ¿Bien? Entonces, ¿cómo vamos a hacer eso? Usaremos la función GLM y reescribiremos la fórmula como haremos la m como valores predichos o la variable dependiente. Y estas tres variables independientes e intentaremos crear, intentarán generar la función GLM. Y luego con el resumen de GLM, intentaremos ver cuáles son los coeficientes y el valor p que estamos obteniendo. El valor p decidirá que impacto nuestra variable está teniendo o no valor predicho. Valor P. Valor P significa probabilidad de ocurrencia de esa cosa, bien, probabilidad de ocurrencia de peso en este peso de HP y cilindro. Entonces, si el valor p es mayor que 0.5, significa que si se admite como parte HP el valor p viene mayor que 05, significa que P no está teniendo ningún impacto, ningún impacto significativo en el objetivo. Y podemos dejar el HP y seguir adelante con el valor p. Seguir adelante con las variables independientes que están teniendo un valor p menor a 0.05. Entonces déjame, así lo hemos hecho con esto. Entonces déjame, el siguiente paso, siguiente paso es que tenemos que hacerlo regresión logística. Entonces aquí estoy dando un nombre de variable son los datos del auto. ¿Bien? Entonces nuestro conjunto de datos es cos Theta. Y aquí estoy creando un modelo de regresión logística. Te estoy dando el nombre cuesta que soy y estoy usando función GLM aquí en la fórmula, lo que me dan, me dan soy como una variable independiente, dependiente, e omega, automática o manual. Es tener cosa binaria, ¿verdad? Cero o uno. Y estoy dando como variable dependiente ese valor que vamos a predecir con base en los estos tres cilindros, SP y radar, las variables independientes o características que van a decidir estoy en lo cierto. Y datos estoy usando autos, datos que estamos obteniendo del binomio de autos vacíos y familias. Bien, entonces ahora permítanme ejecutar esto e imprimir el resumen de los datos, el modelo de regresión logística de datos de un automóvil. Ahora, hemos utilizado la función GLM y hemos impreso el resumen de ésta. Puedes dejar esta impresión y simplemente puedes ejecutar el resumen. Esto también te dará lo mismo, ¿de acuerdo? Entonces mira aquí, nos está dando todas las cosas que nos bastaron. Incluso la regresión lineal también considera el coeficiente y todos aquí también, estamos llamando a la función GLM con la fórmula esto. ¿Bien? Y estamos usando los datos de clase de conjunto de datos y binomio familiar y vemos tu dividendo. Media, mediana del primer cuartil, tercer cuartil máximo, todos esos valores que estamos obteniendo. Y luego estamos obteniendo los coeficientes para cada variable independiente. Entonces aquí, mira aquí interceptar estamos obteniendo este valor y este es el valor PR, ese es el valor p del que estaba hablando. Si el valor p es mayor que 050.05, eso, bueno, esa valiosa, esa variable de respuesta podemos dejar fuera, ¿verdad? Eso no está teniendo mucho impacto en la puntería. Para cilindro. ¿Te veo? El valor p es 0.6 491. Es demasiado alto comparado con 0.05, ¿verdad? Entonces cilindro, significa que el valor p del cilindro es mayor a 0.05. Significa que este número de cilindros de cilindros no está teniendo un impacto significativo en decidir si los costos serían automáticos o manuales, ¿verdad? Entonces podemos dejar el cilindro siguiente, HP, HP, el valor p es un esquema de valor de probabilidad 0.084, que nuevamente es mayor que 0.05, ¿verdad? podemos dejar el HP porque eso también está teniendo un valor p mayor a 0.05. A continuación se lee la tercera variable de respuesta. Y está teniendo el valor p es 0.0 276, que es menor que 0.05. Significa que el peso está teniendo un impacto en el peso del auto decidirá que los autos sean automáticos o manuales, ¿verdad? Entonces el peso de la tarjeta está teniendo un efecto significativo en el valor m porque su valor de probabilidad viene 2.0, 276, ¿verdad? Correcto. Entonces con esto, ¿a qué conclusiones podemos llegar? Podemos llegar a la conclusión de que en el análisis posterior, estamos más allá. Si vas a construir más nuestro modelo de regresión logística, podemos dejar el cilindro y HP y podemos seguir adelante con la variable de respuesta de peso solo porque eso está teniendo, es decir solo teniendo el impacto significativo en el valor m comparado con el cilindro y HP. Bueno, bien, llegamos a saber por este valor p, el valor p mayor a 0.05 decidirá que la variable de respuesta está teniendo algún impacto significativo en la variable dependiente o no. Bien, entonces este es el uso sencillo de la función GLM en la que hemos aprendido. Ahora. Entonces puedes practicar con esto y puedes tomar cualquier conjunto de datos y puedes hacerlo para averiguar cuál responde muy bien está teniendo impacto en los valores predichos. Y se pueden dejar fuera los que no están teniendo mucho impacto basado en el valor p. 46. Distribución normal: Hola y bienvenidos de nuevo. En esta conferencia, vamos a aprender sobre la distribución normal. Entonces cuál es la distribución normal. Entonces antes de entender lo que es una distribución normal, déjame decirte. En la vida real, la mayoría de los datos, la mayoría de los datos, normalmente se distribuyen. ¿Y por qué estoy diciendo esto? Porque si miras los datos de altura en pies, entonces supongamos que tienes datos, datos para altura y peso, y datos de altura y peso, estaremos muy, muy normalmente distribuidos? ¿Por qué estoy diciendo muy normalmente distribuido? Porque es muy raro conseguir a la persona que está teniendo muy menos estatura. Y también es muy raro conseguir que la persona con un ralentí muy alto, altura larga como parcela con menos de 3 pies es muy baja probabilidad de que suceda. Una persona con la altura Clifford es muy rara, ¿verdad? De igual manera, boston con tener altura de 6.5 libres a 7 pies. ¿Por qué la tríada, verdad? Entonces en ese sentido, entonces la mayoría de los datos se distribuyen normalmente entre 4.5 y 6 pies, ¿verdad? Entonces, ¿por qué este tipo de distribución de datos se conoce como distribución normal, bien? Por lo que este tipo de distribución beta se conoce como distribución normal donde la mayoría de los datos se distribuyen para observar la media de los datos. Entonces supongamos que si consideramos esta gráfica, esta gráfica como la distribución del peso de la altura de Parsons, entonces se puede ver que esta representará estos datos. Esto, esto, esto festejar. Voy a representar la altura del sillín, sabor a sal Tailandia. Este es el tipo C más largo o los Parsons con la altura muy amable. Es muy raro acertar. Entonces la persona con nosotros ordenar altura de menos de tres bits tiene mucha razón. Déjame hacer menos de tres. Menos de tres. De igual manera, ancho Parson, altura muy larga, ¿verdad? Hola altura. Eso también es muy raro, ¿verdad? Mayor a 6.5, ¿verdad? Por lo que estos dos datos se ordenan menos de 3 pies y la altura de 6 pies es muy raro. Y por eso se puede ver que es muy baja en la curva normalmente distribuida. Una distribución normal de la curva viene como cuando distribuimos, cuando trazamos los datos normalmente distribuidos, vendrá como una curva de campana. ¿Por qué vendrá como una curva de campana? Porque mira aquí, este es el caso muy raro de suceder. Se distribuye hacia aquí y altura muy alta está aquí, 6.5 pies. Entonces estos dos están representados aquí. Y la mayoría de los datos, cuando vas hacia aquí, se distribuye la mayor parte de los datos. La mayoría de los datos se distribuyen aquí, ¿verdad? Por esta parte. Correcto. Entonces esta es la media de los datos, ¿verdad? Entonces esta es la media. Esta es la altura promedio de las Parcelas. Entonces, si puedes ver correctamente, mayoría de los datos se distribuyen a ambos lados de la media, ¿verdad? Si divide la mitad de los datos, obtendrá la media y la mayoría de los jubilados divididos hacia la media. Entonces la altura del párroco va en aumento y vamos a ver la media. Y luego después del valor promedio, va en aumento y está llegando a una altura muy alta de 6.5. Por lo que la mayoría de los datos se distribuyen normalmente en esta región. Y esta región es la región, ¿verdad? Entonces, la mayoría de la gente, podemos decir fácilmente que caen por debajo de la altura de 526.5 pies. después de eso será el hallazgo de una persona con la estatura 6.57 es muy, pidieron que viene así. Entonces de esta manera obtenemos una curva de campana, una distribución normal las curvas son siempre BellKor Y esta es la media. Y a esto se le llama desviación estándar. Entonces desviación estándar del valor medio. Entonces así, cuanto más te desvíes del valor medio, vas a ir ya sea de este lado o de este lado. Entonces a esto se le llama una distribución normal. La curva de distribución normal puede ser muy alta en carbohidratos así, o puede ser como esta morada, o puede ser como esta. Esto también depende de sus datos, pero esta será la media de los datos. ¿Bien? Esta será la media de estos datos y esta será la media de estos datos, ¿verdad? Entonces a esto se le llama distribución normal. La mayoría de las cosas en nuestra vida normalmente se distribuyen, ¿verdad? Entonces, en la próxima conferencia, veremos cuál es la propiedad de distribución normal y cómo podemos trazar datos distribuidos normalmente. 47. Distribución normal con la función de dnorm y pnorm: Hola y bienvenidos de nuevo. Entonces en la conferencia anterior hemos entendido qué es la distribución normal y cómo funciona. En esta conferencia, vamos a hacer nuestras prácticas con la distribución normal y veremos cuáles son las funciones incorporadas que tenemos en nuestra programación para distribución normal. Por lo que básicamente hay cuatro tipos de distribuciones normales. Las funciones están niveladas en nuestra programación y son denom. Esta función d norma, que toma como entrada tres argumentos o tres objetos de valor, es decir x media y sd, es decir desviación estándar. Entonces, ¿qué es X aquí? X es el número del vector. ¿Como qué? Vector de números del número. Entonces supongamos que tiene un conjunto de datos, tenemos una serie de soporte que desea obtener la probabilidad y todo. Entonces para eso, el número de salida vector trabajo hecho número vector de números y media es la media que se quiere, hay que decidir qué pin en qué significa. Se quiere trazar la distribución normal. Y entonces esa es la media del conjunto de datos, ¿de acuerdo? Y luego desviación estándar, tendrás que dar la desviación estándar. El valor máximo por defecto es uno para la desviación estándar. Y podemos dar cualquier valor de lo que la trama, pero el valor por defecto es uno. Si no le das el color a algo, por defecto tomará como desviación estándar como uno. Entonces d norma es una función. Y entonces tenemos la norma p ser enorme. También envía mensajes de texto a los números superiores, luego la media y la desviación estándar. Entonces tenemos la norma Q, que toma la p. P es un vector de probabilidades. Aquí X es un vector de números. En la qnorm, la entrada p es un vector de probabilidades, luego media y desviación estándar tal como es, entonces tenemos otra función llamada son no-bancos y función desconocida tomará como entrada y media y la desviación estándar también. Bien, Entonces, ¿qué es n Aquí? N es el número de observaciones. Significa que el tamaño de la muestra sube el número total de muestra que entraremos y tomaremos esto, ¿de acuerdo? Y la media es el valor medio de los datos de la muestra. Su valor predeterminado es cero. ¿Bien? Aquí lo que vamos y estamos dando desviación estándar, el valor estándar por defecto es uno. ¿Bien? Entonces comencemos con una distribución muy normal. Entonces lo que haré primero, veremos cuál es la distribución normal para X y d. Ahora bien, ¿cuál es la función de norma? Entonces el don nulo, la altura de la distribución de probabilidad en cada punto para una media y desviación estándar dadas. Por lo que te dará la altura de la distribución de probabilidad en cada punto del conjunto de datos. Y para la media dada, porque media es la entrada que damos junto con la desviación estándar y el vector de números. ¿Bien? Entonces supongamos que entendemos cuál es el ejemplo, estamos tomando una x como una serie de actores que son números corruptos. ¿Bien? Sea lo que sea que estemos haciendo aquí, estamos generando una secuencia de números de menos cinco a 20. Y luego lo que se nos da, se nos da la desviación estándar ya que estamos incrementando menos cinco a 20 incrementando 0.15. ¿Bien? Así como -0.15, -5.15, -5.3, así. Bien. Por lo que se incrementará. Número generado número se habrá incrementado blanco 0.5, ¿de acuerdo? Por lo que X tiene carriles de peaje gratuitos. Ver, así es como se van a generar los números. ¿Bien? Y luego lo que estamos haciendo aquí, estamos tomando nuestra función de norma de vector y y región D y estamos trazando x tan importante que X estamos obteniendo de esta función de secuencia. Entonces media estoy dando 7.5 supongamos y desviación estándar estoy dando puntiaguda. Y luego estoy trazando la gráfica con la x e y. Entonces x será este valor e y obtendrá de esta función dnorm. ¿Bien? Entonces déjame comentar esta x y ejecutar esta pieza de código. Así que haga clic aquí, c aquí. Ahora estamos consiguiendo esta trama de distribución normal. Entonces aquí la media es 7.5. Y 7.5 datos normalmente se distribuyen con una desviación estándar de 0.1. Desviación estándar del punto. Eso, si doy me gusta 0.5, mira, nuestros datos van a venir como este punto, vendrá así. Si doy uno, que es la desviación estándar por defecto, nuestra gráfica vendrá algo así. Si le di 1.5, nuestra gráfica vendrá así. Si lo di como herramienta, nuestra trama vendrá así. Bien, Así se puede dar desviación estándar como para el otro cuadrante y trazar x e y, lo haremos, estamos trazando los valores x e y. ¿Bien? Entonces esta es 13 toda toxina, lo que da la altura de la distribución de probabilidad en cada punto. Entonces el siguiente es p nada p norma. Lo que da la probabilidad de que el número aleatorio normalmente distribuido sea menor que, menor que el valor del número dado, ¿de acuerdo? Y también se le llama función de distribución acumulativa. Entonces aquí estamos tomando el mismo ejemplo y aquí estamos incrementando en 0.4. Y luego estamos generando y usando la p-norm x. Estamos pasando x aquí dentro de la función p-norm. Y luego le estoy dando a alguien por cinco otra vez y desviación estándar Vamos a señalar. Y luego estoy trazando x e y. Y cuando trazamos, obtenemos este tipo de datos. Si pongo un puntiagudo soporte desviación estándar, mira, estamos viendo así, bien, si aumento esto por el viento, Soporte 0.5. ¿Bien? Así que de esta manera podemos obtener la función p-norm que podemos usar y obtenemos este tipo de trama. Entonces lo que le dará, nos dará la probabilidad de número aleatorio normalmente distribuido sea menor que el número dado. ¿Bien? Y el resto de los dos 2-norma y nuestro número lo veremos en la próxima conferencia. 48. Distribución normal con la función de qnorm y rnorm: En la conferencia anterior, hemos visto cómo podemos implementar la función dnorm para la distribución normal. Y también hemos visto p Ahora para distribución normal. Ahora en esta conferencia veremos la qnorm y nuestro sentido Don Funk para la distribución normal. Entonces, ¿qué es la función qnorm? Esta función toma la probabilidad de valor de probabilidad y mantiene el número cuyo valor acumulativo coincide con el valor de probabilidad. Esto es bastante simple aquí usaremos el otro importante aquí. Lo que haremos, usaremos 0.1 y generaremos la secuencia de números 0-1 y tres números se incrementará en 0.03. Entonces generaremos una secuencia de números 0-1, y cada número se incrementará en OpenGL o tres. Y luego usaremos la función qnorm y sin embargo proporcionaremos esta entrada exógena. Y lo que estoy dando, estoy dando media S2 y desviación estándar como dos. Puedes dar cualquier cosa como puedas si quieres, dar, media como 1.5, puedes dar y desviación estándar, puedes dar uno o 1.5 y ver cómo viene tu gráfica para dos y una media estándar S2 y desviación estándar dos, estamos obteniendo esta trama. Y si ejecuto esto por 1.5, estamos obteniendo algo como esto. ¿Bien? Entonces así es como usamos la función qnorm para la distribución normal de los datos. ¿Bien? Ahora lo siguiente es, no son anónimos utilizados para generar los números aleatorios para su distribución es normal. Entonces, ¿qué toma nuestro num y como dije en la conferencia anterior, Dexter n como entrada donde n es el número de observaciones o los sitios de muestra, verdad? Entonces, cualquiera que sea el otro número que tengamos, el tamaño de la muestra lo dará como entrada a la función. Entonces qué va a hacer, tomará como entrada el tamaño de muestra, como aquí, le estoy dando cartílago y va a generar números generados al azar para el tamaño de la muestra. Supongamos que aquí nos dan 30, tamaño de muestra. Por lo que generará los números aleatorios del generador. Y luego usaremos el histograma para dibujar esta distribución normal usando consola desconocida. Por lo que este vector y surgirá números generados aleatoriamente a partir de este tamaño de muestra 30. ¿Bien? Entonces, una vez que ejecutamos esto, obtenemos este histograma para los números generados, generados aleatoriamente. Bien, Entonces así es como usamos la función desconocida para la distribución normal. Entonces déjame imprimir y para que podamos ver qué números estamos obteniendo aquí, c aquí. Entonces, si haces clic en Consola, entonces estos son los números que se generan usando el por 30. Por lo que generará los números aleatorios así. Y el histograma vamos a trazar estos son números generados al azar en un histograma. Entonces esta es la, esta es la y entre menos uno a tres, se está vendiendo. Y luego en el soporte, este es el eje x, este es el eje y, esta es la frecuencia. Entonces g rho dos, como menos uno a menos de menos uno números que están ocurriendo cuatro veces menos uno a cero. Esta es la frecuencia de los números y cero a 1.122 así. ¿Bien? Entonces, permítanme cambiar los datos por soporte que lo harán 100. Y si ejecuto esto, verás, estamos obteniendo este histograma. Y si ves la consola, verás que así es como usamos la función pnorm para dibujar el diagrama usando nuestra función desconocida para distribución normal. ¿Bien? Entonces así es como usamos la distribución normal. Y hemos visto la qnorm de Vietnam del Norte y funciones desconocidas distribución normal de los datos. Cómo kay 49. Recursión en R: Hola y bienvenidos de nuevo. En esta conferencia vamos a aprender sobre la recursión en nuestro programa. Entonces, ¿qué es Dickerson o qué es una función recursiva? Entonces, la función recursiva es una función que se llama a sí misma varias veces, ¿verdad? Así que apoyarte si quieres realizar la misma operación una y otra vez. Podemos usar el Dickerson para no actuar como debiste haber aprendido como un número algo antinatural. Algunos de ustedes fueron numerando todas esas cosas como estos problemas como encontrar algunos números naturales donde n puede variar de uno a en cualquier número, ¿verdad? Hasta uno a 100 mil, algo así. Entonces aquí para resolver este tipo de problemas, necesitamos usar el Dickerson y tu cursor es cosa muy importante cuando hacemos la programación, ¿verdad? Entonces en nuestro También podemos usar la función Dickerson. función recursiva puede llamarse a sí misma una y otra vez para hacer las operaciones. Y finalmente nos va a dar el resultado. Entonces para entender cómo funciona la recursión en nuestra programación, diremos, haremos un programa sencillo para encontrar la suma de números naturales hasta n usando recursión. ¿Bien? Entonces vamos a tratar de encontrar, vamos a dar un número, cualquier número. Y trataremos de encontrar la suma de números naturales de uno a ese número. Como supongamos aquí estoy dando 85. Entonces aquí quiero encontrar la suma de números naturales hasta 85 min, uno más dos más tres más cinco más seis más siete más ocho, hasta más 85, ¿verdad? Entonces, para resolver este tipo de problemas, necesitamos usar la recursión. Entonces lo que estoy haciendo aquí, simplemente estoy escribiendo una función simple aquí y le estoy dando un nombre subrayado n. Eso significa algunos de los números naturales, ¿verdad? Algunos subrayan n. Y dentro de eso, estoy tomando entrada como argumento ya que n u n será el número de números naturales, ¿verdad? Número natural hasta el cual queremos calcular la suma. ¿Correcto? Aquí. Estoy haciendo la simple comprobación. Lo que estoy haciendo aquí. Simplemente estoy comprobando si n es menor o igual a uno, simplemente lo devuelvo. Y entonces, ¿por qué estoy revisando esta condición aquí? Porque si es n es uno, necesitamos devolver uno porque uno es un mes. Los números naturales comienzan con uno. Y a veces algunas personas considerarán números naturales con cero de todo tipo. En caso de 0.1, necesitamos devolver ese número en particular por sí mismo porque se produce cero, tenemos que devolver cero y si es uno, necesitamos determinar uno solo, ¿verdad? No es necesario llamar a la función recursiva. ¿Bien? Entonces este es el caso para encargarte del 0.1 si en todo consideras los números naturales incluyendo cero, y si es a partir de uno, si consideras entonces uno, ¿bien? Entonces, básicamente, los números naturales comienzan con uno, pero a veces la gente considera en cero Ágil comenzando desde cero también. ¿Bien? Y luego estoy usando esto, estoy dando una condición if y luego estoy usando otra condición más. Y en lo demás lo que estoy haciendo, simplemente estoy regresando Gan más algunos Yan plus significa supongamos que un número es para, supongamos que te voy a dar dos. Entonces supongamos que este número es de dos a dos más suma hasta menos uno, suma de uno. Entonces qué va a hacer, hará unos dos más suma de dos verano a menos uno. Vamos a sumar de uno. Vendrá aquí y suma de uno devolverá uno. Esta función devolverá dos más uno a más uno será tres. Entonces, si ejecutamos esta función, obtendremos la salida como tres aquí. Porque algunos de los números naturales hasta dos son tres, ¿verdad? Supongamos que voy a dar tres aquí. ¿Qué va a pasar? Tomará, entrará en la otra parte porque tres no está satisfaciendo esta condición, ¿verdad? Mayor que uno, ¿verdad? Por lo que va a entrar en otra parte y sólo va a devolver n más acusación tres más. Y entonces los llamará de nuevo a sí mismo. La función se llamará a sí misma la función sum n dentro de Excel. Y provocará algunos de N tres menos dos, algunos tienen dos, algunos tienen dos vendrán aquí. Entonces n es igual a dos , vendrá aquí. Entonces qué va a hacer, dos más tres más dos más suma de dos menos uno, suma de uno. Entrará aquí y devolverá uno. Entonces tres más dos más uno. ¿Cuánto? Seis. Entonces este sexo escrito. Consulta aquí la salida es de seis años. Entonces entendimos cómo va a funcionar. Déjame poner el comando en tenso. ¿Eres la primera vez cuando llegará? Será como, será como hola, hecho. Tres más tres más suma subrayado N. Tres menos 13 menos uno significa dos. Entonces causará algunos hasta, bien, entonces se llamará a sí mismo. A esto se le llama recursión. Entonces otra vez, en el siguiente paso, lo hará, el siguiente paso se escribirá tres, resumen de cómo vendrá. Vendrá aquí para funcionar, tomará entrada S2, y luego vendrá en la parte else, bu plus. Entonces aquí va a venir como tres más dos más dos menos 12, menos 12 menos uno es suma de uno, ¿verdad? Entonces el siguiente paso es tres más dos más suma de una agua divertida de verano irá, irá, llamará a la función en sí. Y va a ir a la suma de uno. Suma de uno va a devolver n, eso significa uno. Entonces esto nos dará el resultado uno. Por lo que vendrán tres más dos más uno. Entonces esto se llama el ticarcilina, la salida final que estamos obteniendo como apenas seis. Y aquí también tres más 25 más 16. Entonces esto se llama Records sun, ¿verdad? Apoyo. Te voy a dar un número grande, 785. Entonces va a ir dentro esta función y estará llamando a 75 menos uno, luego 782-52-7875 menos 1784. Entonces vendrá aquí, 74 menos 17823. Por lo que seguirá llamando. A esto se le llama recursión. Entonces, si ejecutamos esto, obtendremos la salida así. Bien, relájate algo, ¿de acuerdo? Así que de esta manera podemos usar la recursión en nuestra programación para encontrar la suma de números naturales. 50. Encontrar un factorial de un número que utiliza la recursión en R: Entonces en esta conferencia haremos otra Hansen. Y en esta conferencia trataremos de encontrar el factorial utilizando recursividad. Entonces, ¿sabes qué es factorial de un número? Debes ser amable, ¿verdad? Debiste haber estudiado esto en tus clases de matemáticas murió. Entonces las matemáticas de secundaria, debes estar sabiendo lo que es factorial. Déjame decirte lo que es factorial. Factorial, nuestro número de teléfono es producto de todos los enteros de uno a ese Número soporta, si digo factorial de dos, factor dos será producto de uno a dos. Producto de los números 1-2. Entonces producto de factorial de dos será uno en dos, ¿verdad? Si digo factorial de tres es uno en dos en tres. De igual manera, si digo factorial de siete y denotamos el factor así. Por lo que siete factoriales serán uno de un producto de los números 1-7. Por lo que será uno en dos en tres en 45 y 6.7, que vendrán alrededor de 5,040 como producto del número. Entonces factorial para número está comenzando desde uno hasta que ese número multiplicará cada número números y obtendrá el producto de todos los números. ¿Bien? Entonces 1287, si pongo y factorial ocho aquí, será producto de los números 1-8. Y esto va a ser otra cosa, ¿verdad? Entonces encontremos cuál es el factorial de la misma. Así que déjame ejecutar este programa y dejarme imprimirlo. Déjame dirigir esto. C factorial de ocho es 43 20, por lo que factorial del mismo será 43 20. Entonces así es como podemos encontrar el factorial de un número usando la recursión. Entonces déjame explicarte esta función, que hemos escrito para encontrar el factorial de un número. Entonces aquí estoy escribiendo una función factorial recursiva. Y esto tomará el número como entrada. Y aquí estoy comprobando si n es menor o igual a uno, voy a devolver simplemente ese número uno, ¿bien? Entonces factor de cero es uno también, ¿de acuerdo? Entonces si es uno o cero devolverá la salida como uno. Y si el número es mayor que uno entrará en la otra parte. Y aquí, lo que estoy haciendo, estoy usando, estoy usando N en, N en, y luego vuelvo a llamar a la función la misma función. A esto se le llama el concentrado para ser. La función se llamará a sí misma dentro de la función. La función se llamará a sí misma dentro de la función, y eso se llama recursión. Entonces dentro de esta función factorial de registro, llamaremos a eso la función factorial. Y te llevará n menos uno. Significa para apoyo factorial de la misma. Entonces en, luego irá a las fuentes y recapitulará factorial. Y tomará la entrada como ocho menos 17. Entonces tomará el insumo como siete, y llamaremos a ese disco factorial. Entonces otra vez, la función vendrá aquí. Entonces otra vez vendrá aquí y será ocho en siete, en factorial discográfico de seis. Y así será un recurrente, ¿verdad? Esto se llama recurse on, seguirá llamándose a sí mismo dentro de la píldora de función. El número se convierte en cero. ¿Bien? Por lo que comenzará 8-7 a seis. Y entonces vendrá como lo que vendrá uno menos 10. Y luego factorial de n menos uno. Entonces factorial de cero se convertirá en uno y los conseguiremos producto de ocho en siete en seis en cinco en cuatro en tres en uno. Y así es como funciona el factorial. Déjame cambiar esto a cinco y va a llegar alrededor del 120. Verás, el factorial de cinco es 120, ¿de acuerdo? Entonces así es como la función factorial camina en nuestra programación usando la recursión. Entonces se apoya la constante y estoy escribiendo esta función respecto factorial. Y dentro de esta función en sí estoy llamando a la función misma. Entonces dentro de la función factorial recursiva, estoy llamando a ese registro factorial. Y esto se llama recursión cuando la función se llama a sí misma dentro se llama el Carson. Cuando la función se llama a sí misma, llama al hijo del auto. ¿Bien? Entonces así es como funciona la recursión en nuestra programación. Hemos visto dos ejemplos. Uno es encontrar el factorial de una función usando recursión. Y en el ejemplo anterior, hemos visto cómo encontrar la suma de números naturales usando recursión, donde construimos ese ecosistema para encontrar la suma de números naturales. Y aquí hemos encontrado el factorial de un número usando recursión. 51. Muestra de datos de una población: Hola y bienvenidos de nuevo. En esta conferencia, vamos a aprender sobre el muestreo de una población a partir de un conjunto de datos en programación R. Entonces eso es muy importante porque cuando tenemos un problema de aprendizaje automático o un problema ciencia de datos o el problema de inundaciones, tenemos un enorme conjunto de datos, ¿verdad? Y queremos obtener una idea de los datos, o queremos una muestra de datos. Supongamos que tenemos la mayor población de la ciudad y queremos analizar cuántos Parsons tienen diabetes. Entonces nosotros uno para obtener una muestra de datos, analizar eso y con base en eso, podemos crear un modelo y luego podemos aplicar ese modelo a una población más grande, ¿verdad? Por lo tanto, tomar una población pequeña o una población de muestra de un gran conjunto de datos se denomina muestreo de una población. En, en un término general, muestreo de una Beta es muy importante. Y para saber esto, deberíamos estar sabiendo qué es, nuestras funciones son simples, cómo crear vectores. Y así sabemos todas esas cosas. Entonces nosotros, lo que hagamos, veremos un ejemplo sencillo, cómo podemos hacer muestreos. ¿Bien? Así que para manejar muestreo y para proporcionar soporte de muestreo al muestreo, o tiene una función incorporada llamada muestra. Entonces nuestra función de muestra, esta simple muestra SAM PLE, esta función de muestra, qué hará, simplemente muestreará población si damos muestra y damos cualquier número entero como entrada. Entonces, qué hará, tomará muestras de uno a 20 números, significa que creará una población, muestreará población de uno a 20. Entonces si ejecuto esto, mira aquí, déjame aclarar esto para que podamos ver la salida correctamente. Entonces, si ejecuto esta muestra 20, mira lo que va a hacer. Se crearán algunos números en nuestra población de números 1-20. Y no está en contra, no ganó un cierto azar, ¿de acuerdo? Entonces simplemente no se arregla en orden creciente o decreciente. Apenas los números 1-20, va a generar. Entonces 123, todos los números 1-20. ¿Bien? Esta es la forma que podemos crear una muestra hasta los números 1-20. Ese es un ejemplo sencillo. Lo siguiente es lo que voy a hacer. Voy a crear un vector 1-15 números. Supongamos que este es el, este es nuestro conjunto de datos que está conteniendo los números 1-21 a 15 aquí, estoy por ejemplo así que uno a 20, este es nuestro vector x donde estamos guardando los números 1-20. Entonces esta es la población. Esta x se conocerá como población porque este es el conjunto de datos completo que tenemos. Entonces X es la población. Y de esta población de x, quiero muestrear exteriormente cinco elementos, o cinco. Quiero un archivo de muestra. Quiero que me den los cinco. Estas son las marcas. Son estos, estos son el número de personas preprint. Quiero los números de sólo cinco personas. Quiero muestrear cinco elementos. ¿Cómo podemos hacer eso? Podemos usar la función sample. Podemos proporcionar la población aquí, x y luego coma cinco, cuántos elementos desea muestrear del conjunto de datos de lote de X. Así que la muestra x coma cinco nos dará los cinco números aleatorios de estos grandes datos de población y creará una muestra para nosotros. Entonces déjame correr esto apresurado y luego muestrear el exón cinco. Ver aquí. Ahora estamos obteniendo 481,410.12 del conjunto de datos de población, ¿verdad? El conjunto de datos de populismo es este, ¿de acuerdo? Uno a 15. Entonces a partir de eso, estamos obteniendo el aleatorio por 81,410.12. Este es nuestro conjunto de datos de muestra. Si lo vuelvo a ejecutar, nos dará cinco números diferentes. Ver aquí, ahora se cambia la muestra y así se elige aleatoriamente cinco números de este vector x o población x, y se creará una muestra de datos. Entonces así es como funciona nuestra función de muestra. Lo siguiente, podemos dar reemplazo igual a verdadero. Entonces para éste, reemplace igual a dos. Generará los mismos números. Si lo vuelvo a ejecutar, nos va a dar los cinco números diferentes aquí reemplazados no nos está dando a la guerra lo que hace. si usamos nuestra muestra y proporcionaremos actos como población, y simplemente usaremos replace igual a true. ¿Qué va a pasar? A ver. Sustituirá al elemento c. Ahora 51302, 74, 414-151-2312. Ver, todos los números no son los adecuados para 15. Algunos números han sido reemplazados como 131 veces, pero cinco también es una vez, 14 se repite tres veces, 12 se repite dos veces. Oye, ahí. De manera similar, algunos de los números serán reemplazados por algunos otros números como algunos que apoyan uno, soporte. No hay nadie en esto, pero nuestro conjunto de datos original está teniendo de uno a 15. Pero aquí no todos los números, 1-15 aquí, ¿verdad? La mayoría de los números son reemplazados. Entonces, lo que reemplazó igual a true hará, seguirá reemplazando los números del conjunto de datos. Entonces del uno-dos-tres por ciento, tomará algunos de los datos, repetirá algunos de los datos, y reemplazará algunos de los números. Entonces algunos de los números han sido reemplazados por la suma de los otros números como uno. Supongamos que uno se repite, uno ha sido reemplazado por cuatro, ¿verdad? De manera similar, 14 ha sustituido algún otro número como seis o algo así. Porque aquí falta el sexo. Aquí falta. Entonces esos 6.8 que faltan, cuales han sido reemplazados por los otros números en el conjunto de datos poblacionales. Eso es 14412, ¿verdad? Entonces, lo que hará, reemplazará el número internamente y refrescará el género en nuestra población de muestra para nosotros. Por lo que simplemente seguirá reemplazando los datos entre sí. ¿Bien? Entonces supongamos que tenemos evento de cabeza y cola lanzando una moneda. Entonces tenemos dos eventos, ¿verdad? O nos sale la cabeza, ¿estamos bien? Supongamos que tenemos este conjunto de datos de muestra y evento recíproco de H y T cabeza y cola. Y queremos que se muestree. Dará el tamaño de la muestra para imprimir y reemplazará igual a dos. Qué va a hacer, simplemente va a ejecutar esto, ver qué va a hacer. Simplemente creará una muestra con t y borde, cabeza y cola. Y repetirá cabeza y le dice varias veces. Porque hemos dado los tamaños de muestra púrpura. Y así creará el edge DHHS, una entidad. Esto es bastante aleatorio. Están secuenciando que si lo vuelves a ejecutar, posible que obtengas la otra secuencia de H y T, y será scripting alcista. Así que de esta manera podemos crear una muestra de eventos de cabeza y cola. Y aquí podemos dar los números. Si doy cinco, se hará. Nos va a dar el TTT. Ver aquí en estas tendencias temporales hemos dado sólo cinco colas. acercan colas, colas. No, no hay cabeza. Si lo hago, supongamos seis. Ahora vamos a cabeza, cola, cola, cola, cola y cabeza. Entonces es bastante aleatorio. Así que de esta manera podemos usar la función sample en la programación R para obtener la muestra de una población grande, como hicimos aquí. Hemos tomado esta población x, que contiene los números uno al nueve, y hemos tomado sólo cinco elementos de muestra de ese conjunto de datos. Y hemos creado nuestra muestra de cinco elementos. Entonces así es como podemos usar la función de muestra para obtener la muestra de un conjunto de datos de población, ¿de acuerdo? 52. Programa para revisar los números principales: Hola y bienvenidos de nuevo. Entonces en esta conferencia vamos a aprender cómo verificar si un número es primo o no. Entonces estos son los problemas que podríamos estar enfrentando en nuestras entrevistas competitivas de codificación, donde el entrevistador puede pedirte que escribas un programa para encontrar la suma de n números o si tomar un número es primo o no, o algunos de los números pares o encontrar números pares. Cómo verificar el número par, cómo tomar el número primo. Entonces estos son los problemas, con bastante frecuencia están pidiendo los exámenes integrales y acuden a, a programar pruebas. Entonces es mejor saber cómo implementar esto también en nuestra programación. Si eres un aspirante a científicos de datos e ingenieros de aprendizaje automático e inteligencia artificial. Entonces es bueno saber lo básico, ¿verdad? Entonces en la serie de conferencias, estamos explotando estas cosas, cómo, cómo podemos escribir un programa en nuestra programación para encontrar un número primo, particularmente en esta conferencia. ¿Bien? Entonces este programa es para verificar si el número es primo o no. Y el número que tomaremos como entradas jack. Entonces le pediremos al usuario que ingrese la entrada, y una vez que el usuario ingrese el número de entrada, tomaremos ese número de entrada y verificaremos si ese número es primo o no. Y para eso, usaremos el bucle for. Entonces si sabes como usar si y de lo contrario, y para loop, te va a ser bastante bueno para hacer este programa. ¿Bien? Y déjame decirte ¿ qué es el número primo? Así que el número primo es un entero positivo mayor que uno, que no tiene otros factores excepto uno y el número en sí. Entonces, ¿qué significa? Supongamos que tenemos un número para el número cuatro, podemos escribir en forma de dos en dos. Por lo que tiene dos factores. Dos en, dos en dos es cuatro, ¿verdad? Entonces este no es un número primo. Supongamos que tenemos un número. Supongamos que tenemos el número seis. Número seis, podemos escribir en forma dos en T3. Por lo que tiene dos factores, 2.3. De igual manera, tenemos número. Supongamos que tenemos el número cinco. Número cinco, no podemos escribir en un factor, ¿verdad? No podemos probar el número como dos en algo así como dos en, no podemos esperar. Podemos hacer dos en 2.5, pero eso no es correcto. Deberíamos tener los factores enteros rectos. De esta manera no es posible, ¿verdad? Entonces los números como cinco, que tiene uno, factor, uno y sí mismo. Entonces podemos escribir cinco en forma de uno en cinco. De igual manera, nos gusta tenemos 77 también podemos escribir en forma de querer a siete Wanli. Podemos escribirlo en un poco con la ayuda de algunos otros números como hemos escrito de seis a tres, no podemos, no podemos encontrar un número que pueda dividir. 77 se puede dividir por uno, sólo 1.7 en sí. Entonces es por eso que los números primos son los números, números enteros positivos mayores que uno, que se pueden dividir por uno. Número en sí, que no tiene otros factores excepto uno y el número en sí. Entonces los números primos o dos, luego tres, luego cinco, luego siete, luego LeBron, y luego 13, luego 17, y así sucesivamente. Entonces estos son los números primos, C7. No podemos dividirlo por ningún otro número excepto uno y él mismo, 13 también, 11 también. Entonces estos son los números primos. Entonces ahora tenemos la comprensión de cuáles son los números primos. Procedamos a resolver este problema. Entonces lo primero, cómo tomar entrada del usuario en R. Así podemos usar la función de línea de lectura para obtener la entrada del usuario. Entonces deberías ser, debes conocer la función readline, que tiene un argumento Azure prompt. Por lo tanto, la función readline tomará el prompt, por lo que le solicitará al usuario. Y lo que sea que escribas aquí, se mostrará en la consola. Y te pedirá que hagas lo que escribas aquí para pedirte que hagas supongamos aquí estamos entrando, estamos escribiendo, por favor ingresa un número. Entonces el prompt tomará el número ingresado por el usuario es que lo pasaremos para leer la función de línea. Y aquí podemos convertir esa entrada de usuario dos enteros. Entonces lo que somos, estamos almacenando el número ingresado por el usuario en. 0 y n variables. Entonces, como punto entero, se convertirá en entero de lo que sea que obtengamos de esta función de línea de árbol a través de este prompt. ¿Bien? Entonces si ejecuto esto aquí, si ejecuto esto, nos pedirá que por favor ingrese un número. ¿Bien? Entonces déjame aclarar esto. ¿Bien? Y entonces estamos poniendo una bandera. Se llama a cero. Inicialmente. Vamos, veremos por qué estamos usando esta bandera igual a cero, y también veremos por qué viene. Esto es suma, porque hemos ingresado los números. Nos está mostrando el mismo número. Esto es suma, ah, edita que ya veremos. Bien, entonces estamos poniendo la bandera igual a cero. Y luego agregamos dar. Como, como dije, los números primos siempre son mayores que uno, ¿verdad? Empezar con dos al 357-11-1317 así. Por lo que siempre es mayor que uno. Entonces primero lo que comprobaremos, comprobaremos si el número es mayor que uno. Entonces entraremos en el bucle. Y si el número no es mayor que uno, entonces definitivamente no es un número primo, ¿verdad? Entonces para esa bandera será cero. Y para bandera cero, lo que estamos dando, para bandera cero, no se nos da un número primo. Entonces si ingresas número en menos, menos dos, menos tres, menos cinco, para que esos vengan aquí. Pulso y dará, lo hará. Entonces el mensaje de que te ingresaron el número no es un número primo, ¿de acuerdo? Y ¿y si el número es mayor que uno? Soporte 235678, todos estos números. Entonces, lo que haremos, verificaremos los factores. Y antes de verificar los factores, lo que haremos, pondremos la bandera en uno. ¿Bien? Uno significa que el número es el número primo, ¿de acuerdo? Entonces inicialmente lo hemos puesto a cero. Ahora en cuanto a empujón entraremos dentro de este if, if loop , función IF, if statement, lo que haremos si el número es mayor que uno, establecerá la bandera igual a uno inicialmente. Y luego qué azul, vamos a crear un bucle for. Y ¿cuál será el bucle for? Para bucle es para I en dos, porque los números primos empiezan con 22 a n menos uno. Y menos uno significa supongamos que estamos entrando cinco, entonces dos a cuatro. Entonces yo en dos a 4 min, tardará cuatro a T para estos tres números. Y lo que tomará para el factor, si el número es un número está siendo dividido por los dos o tres o cuatro, se puede dividir por 23.4 o no. Y entonces si n persona, esta persona lo hizo, echo de menos, comprobará por el factor si el número ingresado está dividido por, supongamos que estamos ingresando cinco. Por lo que comprobará si el segmento dividido por dos o no. Y entonces comprobará dividido por tres o no. Entonces tomará a cuatro o no igual a, igual a cero. Y luego pondremos la bandera igual a cero. Y si se divide por el 234, fijará la bandera igual a cero y saldrá de la declaración for. Se romperá el bucle for y saldrá de eso. Y bien, y si n es igual a, igual a dos, establecerá la bandera igual a uno. Entonces lo que va a hacer aquí, comprobará si el número, supongamos que estamos ingresando seis. Entonces seis se divide por dos, ¿verdad? Por lo que vendrá como un igual a cero. Por lo que establecerá la bandera cero y saldrá del bucle. Y va a abanderar. bandera cero vendrá en la otra parte, y lo hará, así que no es un número primo. Supongamos que estamos entrando cinco. Entonces cinco se divide por dos. No, saldrá y la bandera será de un año. Entonces bandera uno significa que cinco es un número primo, ¿verdad? Apoyado de manera similar, estamos entrando ocho, lo que ocho se divide por, tardará dos a siete para dividir primero por dos. Dividir a solo bandera es cero. Saldrá del bucle y marcará cero no es un número primo como ese. Se comprobará y nos dará el resultado. Te apoyamos, estamos entrando 11, por lo que tomará N dividido por 211/2. No, saldrá del bucle soportado. Estamos entrando en cisteína. Cisteina dividida por 2/2. Sí, bandera cero 016 dividida por así. ¿Bien? Por lo que va a estar saliendo del bucle guardando, estableciendo la bandera igual a cero. Y todos los números no serán números primos. Y supongamos que estamos entrando en 1717/2. No. Entonces, ¿qué son dos sucederá, saldrá del bucle y fijará la Bandera igual a uno Marcar igual a uno significa que es un número primo. Y si el número al que estabas ingresando, entonces los números primos directamente, ¿verdad? Y para uno, estamos viniendo en la otra parte, mayor que uno, estamos viniendo en la otra parte. ¿Bien? Entonces déjame dirigir toda esta fuente. ¿Cuál es el problema aquí? Bien, déjame ejecutarlo de nuevo. Ahora, la consola nos está pidiendo que ingresemos un número. Supongamos que voy a ingresar un número uno. Lo siento. Supongamos que entro un número uno aquí y golpeo Enter ¿qué va a pasar? Uno no es un número primo. ¿Por qué uno no es un número primo? Vendrá aquí y comprobará si n es mayor a 100 o así. Yan es mayor que uno o no. Entonces esto en serio no es, no va a entrar dentro este bucle y flag será cero para este porque no viene dentro de este bucle if porque F es uno y va a venir aquí, bandera igual a cero. Entonces ahora va a venir aquí. Y comprobará bandera igual a un nodo. Entonces vendrá en la otra parte y estudiará saudí. Entrará en esta otra parte. Y además uno no es un número primo como este. ¿Bien? Déjame correr esto otra vez. Y si entro dos, perdón, si entré dos aquí, ¿qué va a pasar? En c2 es un número primo. ¿Por qué dos es número primo? Vendrá aquí y es mayor que uno, ¿verdad? Dos es mayor que uno. Entonces bandera, pondrá uno, entonces vendrá aquí a dividirlo por, para dividirlo por dos a uno, ¿verdad? 2/2. Entonces C es 2/2 si celebramos. Entonces saldrá de este bucle, ¿verdad? Y bandera será uno. Entonces dos es un número primo. Si pongo tres, lo siento. Si vuelvo a ejecutar esto y pongo el número tres, entonces recibió tres es un número primo. ¿Por qué? Porque va a venir dentro de esta bandera si declaración. Establecerá la bandera en 1.4. Marcar uno será número primo y luego vendrá dentro de este for-loop I en 222, ¿verdad? Entonces 3/2, no. Entonces romperá esta declaración y la bandera será una, ¿verdad? Entonces y será el número primo. Entonces así, si ingresas soporte la longitud o 17, celda de soporte saudí ingresa aquí 17. 17 es un número primo, ¿por qué? Vendrá aquí y 17 es mayor que uno. Vendrá aquí, establecerá la bandera en uno, luego irá dentro de este bucle for para i en 21617/2. Sí. 17 no se desvía en dos, por lo que saldrá de este bucle y la bandera permanecerá 1.4. Marcar uno, el número es número primo y por eso esos 17 es un número primo. Entonces esta es la forma en que podemos escribir un programa sencillo para encontrar números primos en nuestra programación. 53. Programa para comprobar la INCLUSO u odD: En esta conferencia, vamos a escribir un programa en nuestra programación para encontrar si el número ingresado es impar o par. Entonces, tomaremos la entrada del usuario y le pediremos que ingrese un número. Y en base a la entrada del usuario, verá que el número de entrada del usuario es un número impar o un número par. ¿Correcto? Entonces, ¿qué es un número impar o par? Entonces número que se dividen por 0/0 sin el resto. Se llama número par. Supongamos que tenemos un número x y si dividimos el número por dos y obtenemos cero como recordatorio, entonces es un número par. Y si el número está dividido por dos y nos está dando algún resto, entonces número par. Entonces simplemente si un número se divide por dos y el resto es cero, entonces par numerarlo y dividirlo por dos. Y está dando algún demandador, es número impar, ¿verdad? Entonces tomemos el programa. Entonces aquí he escrito un programa donde estoy tomando la entrada como entero. Entonces estoy tomando la entrada del ID de usuario como entero, y le estoy pidiendo al usuario que ingrese el número, por favor ingrese un número. Así que la función readline utilizará para tomar la entrada del usuario y el prompt que estamos dando. Por favor, introduzca un número. Entonces estamos convirtiendo a un yeoja, Ads dot integer. ¿Bien? Entonces, sea lo que sea, un número entero, ¿verdad? Y entonces simplemente estamos comprobando si este número n está dividido por dos. Y si el resto es cero, entonces n dividido por dos. Si Amanda es igual a cero, diremos que n es un número par. Y si obtenemos resto que no sea cero o número, ¿ verdad? Es un número impar. Tan simple cosa. Si n se divide por dos y el resto es cero, entonces si numeran par, y si resto es distinto de cero, es número impar, ¿verdad? Entonces espero que tengas la idea. Entonces déjame decirte cuáles son los números pares y los números impares. Entonces 24681012. Todos estos números son números pares. Y nuestros números son como 35791113. Todos estos números. Entonces no sólo esto, continuará hasta Bien. Entonces el número que f señora esperó demasiado con Gino exigió. Demandado se llama número par. Un número impar si da esa reclamación por debajo de cero. Así que vamos a ejecutar este programa y ver la salida. Entonces, permítanme aclarar esto primero. Ingresa un número. Entonces supongamos que voy a ingresar el número 45. Entonces el voltaje de salida que viene en 45 con ellos, o número por 45 es número impar porque si dividimos 45, obtendremos uno, ya sea demanda o dos en 20 a 44.1 obtenemos como recordatorio, entonces recordatorio es distinto a cero. Entonces entrará en esta otra parte. Y realmente fue el método que 45 es un número impar. Y supongamos que lo vuelvo a ejecutar, y si entro un número 12, lo siento, ingresaré el número 12, entonces 12 es un número par. Supongamos que lo vuelvo a ejecutar. Y si entro un número, aquí, tiene que darnos número par recto. Y si lo vuelvo a ejecutar, y si me sale cinco, y obtengo cinco es un número impar. Entonces de esta manera podemos identificar si un número es impar o incluso lógica simple y dividido por dos es igual a cero. Si llega de cero. Como recordatorio, decimos qué número, de lo contrario se trata de números de orden. Entonces espero que estos sencillos programas te ayuden a entender cómo funciona la programación y voluntad de tu lógica. Y estas son preguntas bastante populares en entrevistas también, sobre todo para un congelador. Y si tuviéramos un nuevo egresado y buscábamos el empleo, estas preguntas son bastante comunes en la colocación del campus de College, bien. 54. Programa para comprobar negativo o cerdo: En esta conferencia, vamos a escribir un programa en donde verificaremos si un número es negativo, positivo o cero. Entonces va a ser una prueba simple donde encontraremos si un número es negativo, positivo o cero. Entonces para eso, lo mismo haremos lo que hemos hecho Linda conferencia anterior, pero un poco diferente aquí. Al número se le puede dar un doble lumbar. Bien, así que toma la entrada como doble y usaremos la función de línea de lectura y el mismo prompt, por favor ingresa un número. Después comprobaremos si el número ingresado es mayor que cero. Si es mayor que cero, dará el mensaje. N es un número positivo. Y si es igual a cero, vamos a dar como si fuera un cero. Y en esto sólo si es distinto de cero. Entonces, primero comprobará esto. Si n es mayor que cero, entonces postrenal, ¿bien? Entonces entrará en otra parte en L3 están usando un anidado if-else. Si el número no es mayor que cero, llegará a esta otra parte. Y entonces en esta otra parte, estamos comprobando si número es igual a cero vamos a dar número es cero. De lo contrario, si el número no es cero y mayor que cero, menor que cero, entonces lo que haremos, vamos a querer escribir esta otra parte. Eso quiere decir que será un número negativo, ¿verdad? Si el número es menor que cero. Si el número no es mayor que cero, si el número no es mayor que cero, ¿verdad? Mantisa, puede ser cero o menos que cero, ¿verdad? Entonces, si es cero, obtendremos cero. Si es menor que cero, llegaremos a la otra parte y pondremos el mensaje como numero es numero negativo es simple check. Vamos a ejecutar esto. Déjame aclarar esto. ¿Bien? Bien, aquí. Bien, entonces vamos a ejecutar esto. Así que permítanme ingresar un número de apoyo al Atlanta. Oh, menos cinco. Menos cinco es un número. Supongo que lo volveré a ejecutar y entrar 45. Lo siento. Entraré 45 años. Cuatro a cinco es una porción o supongamos que la voy a ejecutar de nuevo, a mano, voy a poner cero. J, el número Saudi Tito es cero. ¿Bien? Y entonces supongamos que lo vuelvo a ejecutar y le doy número doble como -78.5. Entonces -7.578.5 es un número negativo, ¿verdad? De manera similar, si pongo menos ocho tiene un negativo. Entonces este es el programa sencillo para encontrar donde el número es positivo, negativo o cero. 55. Programa para revisar el año bisiesto: Hola y bienvenidos de nuevo. En esta conferencia, vamos a escribir un programa para encontrar dónde está ese oído, Bolivia o no. Entonces, ¿qué es la hoja aquí? Salga de aquí. Obtendrás un día extra, como de tres a seis días en un año. 376 días aquí de repente aparecieron, ¿verdad? Entonces, ¿cómo decidimos si el patio no sería un año bisiesto o no Entonces hay una fórmula simple. Si la oreja se divide por cuatro y el resto es cero, podría ser una Libia, pero esa no es la caja de un litro, ¿verdad? Si el oído está dividido por cuatro, esta es la función de módulo. Si lo divides por cuatro y le das a cualquier proveedor como cero, entonces esa podría ser Libia. Pero tenemos que comprobar otra condición, si el número también está dividido por cien a partes iguales. Además, si dividiste el informe de estudio de United Way y dárselos en cero, podría ser un año bisiesto, pero tenemos que verificar si eso está dividido por cien y darte un recordatorio como 0/100. También dar el resto es cero. Nuevamente, podría ser un vivo aquí, pero nuevamente, tenemos que verificar una condición donde los datos aún se dividen por 400 y dando un recordatorio como cero, si ese año se divide igualmente por 400 también, entonces ese será así tu tiro año bisiesto. Y si no lo es, entonces no será como Libia. Entonces la primera condición que tenemos que verificar es si la edición se divide por cuatro, entonces tenemos que verificar si están divididos de derecha hacia adelante y resto como cero completamente dividido, derecho, para tu modelo, eso significa módulo 40. Entonces tenemos proyecto aún más o menos 100, está alrededor, así que vienen cero y año módulo 400. Entonces también vienen a cero. Si eso tiene su, uh, Livia. Livia. Bien. Y si y aquí también, esto no es un dividido por 100, entonces aún no está en vivo. También saldrá de este panel, vaya a la otra parte. Y si no se divide por cuatro, entonces ciertamente no es un año bisiesto. ¿Bien? Entonces aquí también, si el año no se dirige justo para esto, no es Olimpiada. ¿Bien? Entonces, ejecutemos este programa y apoyemos e ingresemos al 2020. El 2020 es la forma preferida porque está dividido por cuatro. También se divide por cien. Y se dividirá ¿verdad? 400 también, ¿verdad? Bueno, realmente justo alrededor de los 400 2020s. Sabía que sí escribí para sí. Y si no se divide y, si se está dividiendo por cien y solo te está dando un recordatorio como cero, entonces tenemos el Proyecto 400. Pero aquí está, dándonos algo a los demandantes, ¿no? Entonces es por eso que el resto no es cero aquí. Entonces vendrá a la otra parte y te pondrá a las 20:20 es Libia. Entonces si es más o menos es cero, entonces tenemos que verificar dividido por 400 o no. Si el módulo no es igual a cero, entonces llegará a esta parte y nos dará que Libia del 2020 apoya de nuevo un marco a su alrededor. Y si di 1520500, sí, más bien de repente por todavía o no. Entonces C todavía 2051, eso está dividido por cuatro. Entonces va a venir aquí. Tomará y lo dividirá por 100 o no. Por lo que se divide por 100 en su totalidad. Entonces llegará al dividido este bucle y comprobará si éste está dividido por 400 o no. Entonces ver 2500/400, lo que nos va a dar el resto. Alguien lo rinde no va a requerir a cero, entonces vendrá aquí y llegará a la otra parte porque el resto no es igual a cero. Y esta parte, imprimirá 2.500 no es una Libia. Entonces entremos y veamos el resultado. C, 2,500 no es una hoja aquí, ¿verdad? De igual manera, si pongo 19 mil 900, no sólo temen como 2,300.2300, aún no vivo, ¿verdad? Como esperar, necesito de nuevo a Tao Qian. 12. Si de pronto estamos por qué es vivir aquí, porque está dividido por cuatro, entonces llegará a la esta y veremos si este año tasa total anual dividida por 100 y dándonos un resto de cero. No, no nos está dando el resto cero. Así que tenemos que volver a comprobarlo. Y claramente llegará a la parte de salud e imprimirá libio. Bien. Así que de esta manera podemos escribir un programa para encontrar si alguna deidad en particular duerme todavía o no. 56. Programa de tabla de multiplicación: Hola y bienvenidos de nuevo. Entonces en esta conferencia vamos a escribir un programa sencillo para imprimir tabla de multiplicar, ¿verdad? Dar me gusta a una tabla de multiplicar es una tabla para me gusta. Supongamos tabla de multiplicar hasta será dos, luego dos en 24, luego 2.236, haciendo 2482 en pipa así. ¿Bien? Tan simple tabla de multiplicación que vamos a imprimir. Y para eso vamos a escribir un programa. Entonces ya escribí el programa para ahorrar nuestro tiempo. Bueno, entonces primero tomaremos la entrada del usuario como entero, y le avisaremos, por favor ingrese un número. En cuanto ingreses un número. Tomaremos ese número. Y lo que vamos a hacer, vamos a ejecutar un bucle for. Lo que yo en uno a diez, porque la tabla de multiplicar, queremos acabar con ella. 14, hasta diez números Valle, ¿verdad? Entonces, y luego imprimiremos multiplicación, tabla arriba el número n. Y lo que haremos, simplemente multiplicaremos N en i. Entonces primero los tomaremos, o alguien tomará el número tres al tres a uno. La próxima vez que venga la junta, yo seré uno. Entonces 3.22 y 3.23 hasta diez. Así. Se imprimirá la tabla de multiplicación y a solo, esto es para la salida. Por lo que serán tres en uno igual a 33 en dos. Sexo así. Bien, entonces vamos a ejecutar esto y supongamos que voy a entrar tres aquí. Entonces cuál será la salida para ver tres en 13 y yo es de un año, bien, entonces tres en uno igual a 33 en uno igual a tres, luego tres en 26 hasta diez. Entonces, si quieres aumentar este número, puedes poner soporte codo aquí. Y si lo vuelvo a ejecutar, y si apuesto por tres años, así que mira aquí, esto va a subir a pre-prints. Así que de esta manera se puede generar la tabla de multiplicación o para cualquier número n, para cualquier número de primos hasta obtener el dolor adecuado, un protón lo que quiera. Entonces, supongamos que lo volveré a ejecutar y me quedaré con el número 20, estudio. Número 25 años Atlanta 25. Déjeme aclararlo. Voy a ingresar un número de 25 años. Quiero generar la tabla de multiplicar para 25. 25 uno a uno. Si quería escoger t, 25 a tres es igual a 75.25 en diez, por favor. Entonces de esta manera podemos generar la tabla de multiplicar en nuestro programa. 57. ¿Qué valores faltantes y tipos de valores que faltan: Hola y bienvenidos de nuevo. En esta conferencia vamos a aprender concepto muy importante que se llama imputar datos faltantes en. Así que cada vez que estamos haciendo cualquier proyecto de análisis de datos, proyecto de aprendizaje automático, o incluso ciencia de datos, inteligencia artificial o proyecto de aprendizaje profundo. Sea cual sea el proyecto que estés haciendo relacionado con los datos, necesitamos trabajar en los datos. Y uno de los problemas desafiantes, o el mayor problema ahora es que faltan valores en los datos. Entonces, ¿qué quiero decir con valores faltantes o datos faltantes? Entonces, cuando apoyará la forma en que recolectamos datos, recolectamos datos mediante encuestas o le pedimos a la gente que rellenara los formularios. Y mientras la gente navega por Internet, recogemos datos, mientras la gente navega, recogemos datos serán polares, vamos de compras. Recopilamos datos a través de poemas pidiendo retroalimentación, todas esas cosas. Entonces, hay varias formas de recopilar datos, ¿verdad? Y en esas diversas formas de recopilar datos, a veces la persona que nos está dando datos o proporcionándonos datos es reacia a proporcionar todos los datos que le pedimos a Bob, ¿verdad? Y cuando duda y Gibbs incorrectos datos o no guarda datos para algunos de los valores de los formularios, entonces faltarán los datos, ¿verdad? Y eso va a lo similar, no completar los datos. Y cuando tratamos de analizar esos datos, podemos enfrentarnos a problemas porque faltarán muchas de las columnas o filas de datos. Supongamos que el ejemplo sencillo es cuando vas al centro comercial y ellos son, La gente te está pidiendo que llenes un formulario de comentarios donde estarán preguntando como los datos de tu familia, tu número de celular, tu identificación de correo electrónico, y tu madre llamada Nombre del padre, tu nombre de calle, ¿ dónde te vas? ¿Cuáles son tus preferencias? ¿Cuánto resuelves? ¿En un mes? Eres como tu salario detalla todos estos datos. Por lo que la mayoría de nosotros no estaremos listos para dar todos estos datos como nuestros datos salariales o incluso la dirección particular o el número de celular. Por lo que tendemos a escondernos y no estamos proporcionando estos datos sensibles o los datos de nuestra familia como si estamos casados o solteros o tenemos una jaula o no. Estos datos no proporcionamos. Entonces, cuando la empresa recopila los datos de miles de personas en el centro comercial, los encuestan, ellos, cuando recogen los datos , cuando entran, van a analizar los datos. Encontrarán que la mayoría de las personas no han respondido como cuánto poseen y cuáles son su estado civil, cuántos hijos tienen cuando no brindan este tipo de ruptura, no podrán categorizarlos. Bueno, como si pudieran apoyar a algunas personas. Se casaron y no han llenado la columna, casados o solteros. Por lo que los van a categorizar erróneamente o no podrán categorizarlos. Y este es el gran problema en los proyectos de análisis de datos y aprendizaje automático o ciencia de datos. Entonces, para abordar este problema, hay formas de llenar los valores faltantes. Así que apoyarte. Si tienes un dato numérico, soporte, tienes los datos de edad y peso que has recopilado de miles de personas y algunas personas donde está desaparecido o envejecido desaparecido. Entonces, lo que podemos hacer en el caso de los datos numéricos, simplemente podemos tomar media del conjunto de datos disponible. Y podemos llenar el valor medio o valor promedio en los valores faltantes. Cualesquiera que falten los valores se llenará con el valor promedio o valor medio. Y eso completará los datos y podremos obtener un buen análisis al respecto. Entonces esa es una forma sencilla de imputar datos faltantes en R o cualquier proyecto de ciencia de datos. Bien, Así que en el caso de valores faltantes, numéricos, ¿y si los valores faltantes no son numéricos? Lo que vamos a hacer. Entonces ahora lo que hemos entendido, hemos entendido cuáles son los valores faltantes y qué otras Regiones para ellos. Entonces entendamos los tipos de valores faltantes a los tipos de valores faltantes. Los hemos clasificado en los tres tipos. Uno es M, CAR, Luego MAR, o el último es un MAR. Entonces, ¿qué es este MC, AR, M cat. Entonces MCAR, Stanford falta completamente al azar, falta C4, completamente A4 en arpa aleatorio desaparecido completamente al azar. Y es el tipo rojizo de valores faltantes cuando no hay costo para faltar. En otras palabras, los valores faltantes no están relacionados con ninguna característica tal como sugiere el nombre. Este lago. Ellos solo un caso muy raro donde al igual que al poner los datos en la base de datos CDART de Excel, te perdiste los datos. O cuando estamos muestreando un dato o una encuesta a algunas personas, algunas personas, al azar, se pierden algunos datos. Entonces este es un caso bastante raro donde obtenemos el MCAR. Después la siguiente columna, los datos MAR, MAR significa que faltan al azar. Esto es bastante común e implica que los valores que faltan pueden explicarse completamente por los datos que ya tenemos. Por ejemplo, puede haber un caso en el que es probable que los hombres sientan una encuesta relacionada con la depresión independientemente de lo deprimidos que estén. Me gusta. Supongamos que algunas personas están deprimidas y estamos sirviendo a esas personas. Entonces, la mayoría de la gente, oculta su estado mental, ¿verdad? Son muy reacios a compartir su salud mental, mental, ¿verdad? Entonces van a ocultar que tienen algunos problemas mentales. Y esto tenderá a que se obtenga la información equivocada de la gente. Entonces estos valores faltantes o MAR, derecho, faltantes al azar, realidad viene de hacer una suposición sobre los datos. Y no hay manera de probar si los datos faltantes valoran arriba MAR. Siempre que los valores faltantes se categorizan como MAR o MCA o dos números más grandes, entonces pueden ignorarse con seguridad. Entonces MCAR, MAR, ya que están como faltantes al azar, podemos ignorarlos. Podemos, si tienes un dato con el relleno con esto, este tipo de valores faltantes, simplemente puedes ignorar esos valores y puedes seguir completamente sin llenar esos valores faltantes y puedes eliminarlos del conjunto de datos. Y eso está completamente bien. No te faltará mucho de eso porque faltan todos los números al azar. Eso no lo relaciona con ninguna característica ni ninguna, ninguna variable que vaya a afectar mucho al resultado general de tus datos. ¿Bien? El último es un AR, y M significa no faltar al azar. Y esto es importante. ¿Por qué? Y CMR. Y cuando los datos no son MCAR, MAR, entonces serán categorizados como no faltantes al azar. Y lo que no falta al azar significa que como dije antes, cuando estamos encuestando a la gente en el centro comercial, pueden ocultar el nombre de su cónyuge, el nombre de su hijo, su dirección, los datos de su tarjeta de crédito o los datos de su salario. Entonces esto no es al azar, ¿verdad? La gente está ocultando voluntariamente datos que no están proporcionando. Y cuando usted, cuando analicemos los datos, encontrará que las personas no han proporcionado allí el estado civil o el nombre de su cónyuge, o cuántos hijos tienen y cuánto no son. Por lo que estos datos no faltan al azar. Entonces esto es importante. Y esto no es por aleatoriedad y es posible que no podamos o no saber en qué caso están las líneas de paquetería como si una persona no hubiera dicho nada sobre el estado civil, ya sea que esté casado o no, no podremos categorizarlas como un hombre casado o soltero. Y eso nos llevará al problema de que no somos capaces de categorizar a esa persona en una categoría particular y de ahí no podremos analizar nuestros datos correctamente. Y si ignoramos este NM AR no encuentro faltante en datos aleatorios, entonces supongamos que analistas o científicos de datos para ignorar estos datos no faltan al azar. Puede terminar en los cálculos equivocados, son predicciones equivocadas y eso va a la enorme pérdida en el negocio. Si estás apoyándote, si estás prediciendo los ingresos de tu organización y si ignoras que no te faltan datos aleatorios en tu conjunto de datos, entonces puedes terminar con las predicciones de roca de cálculo erróneas y cuáles serán, que puede llevar a la enorme pérdida, no están apuntando a tus clientes correctamente. Y esto te llevará a muchos problemas. Entonces hay que encargarte de estos tres tipos de valores faltantes. Y tú, mientras amplias, debes estar sabiendo cuáles son, qué tipo de valores faltantes faltan en tu conjunto de datos. Y si no falta al azar dataset. Y cómo, cómo sabes que al no faltar datos aleatorios, los valores faltantes no faltan al azar. Y que puedas decidir en base al cómo, cómo afectaría ese valor faltante. Bien. Entonces como la persona está casada o no, está afectando porque no eres capaz de categorizar correctamente a la persona. Entonces de esta manera puedes identificar las implicaciones que son y qué impacto va a tener ese valor faltante en todos los datos y resultados que vas a obtener del análisis de los datos. Entonces aparte de la media, si no tenemos datos numéricos, puedes poner otros valores faltantes usando media, media de ese conjunto de datos completo. Entonces, aparte de eso, tenemos algunos paquetes R que podemos usar para imputar los valores faltantes. Y estas son las fibras de los populares paquetes R para imputar valores faltantes. Y el primero y muy popular estos ratones MIC. Este es el paquete que se puede utilizar para imputar los valores faltantes. Entonces Emilia es otro paquete, bosque perdido es otro, y se pierde otro. Un MI es el quinto. Entonces estos son los cinco paquetes de Popplet R para valores faltantes. O con la ayuda de estos paquetes, podemos calcular mucho, imputar los valores faltantes en nuestro conjunto de datos y terminaremos con un gran análisis de nuestros datos. Entonces espero que entiendas qué es lo que está imputando datos faltantes en R. Cuáles son los valores faltantes, tipos de valor faltante y cómo se puede identificar el tipo correcto de valores faltantes y cómo podemos lidiar con los valores faltantes. Bien, entonces nos vemos en la próxima conferencia. 58. Imponer los valores que faltan en los NAs en el conjunto de datos: Bienvenido de nuevo. Entonces en la conferencia anterior hemos cubierto cuáles son los valores que nos faltan y cuáles son los tipos de valores faltantes que tenemos, hemos aprendido sobre MCAR, MAR y MAR que no faltan al azar. Entonces hemos aprendido qué son los valores faltantes y qué otro tipo de valores faltantes podemos estar viendo en la vida real cuando hacemos nuestra habilidad, nuestros proyectos de ciencia de datos. Y también hemos visto cuáles son los paquetes disponibles en nuestra programación con los que podemos utilizar para imputar los valores faltantes. Entonces tenemos cinco, un popular R paquetes, ratones, Aemilia, Ms. Agua, Ley, se perdió un MI. Bien. Entonces estas son las cosas que hemos cubierto en la última conferencia. Ahora, vamos a hacer nuestra práctica real y nuestro proyecto donde lo que hacemos, usaremos el conjunto de datos incorporados que está disponible con nuestro paquete, que es el conjunto de datos iris. Y en ese conjunto de datos de Iris, lo que hagamos, incluiremos algunos valores faltantes. Entonces, intencionalmente colocamos algunos valores faltantes en el conjunto de datos Iris. Entonces intentaremos imputar valores faltantes con algunos datos. Entonces usaremos el paquete La señora pereció y los ratones usarán a los ratones y a la señora Pérez para hacer esto, ¿de acuerdo? Entonces imputa los valores faltantes en el conjunto de datos. ¿Bien? Entonces para eso, vamos a estar usando el bosque medio y vamos a utilizar el conjunto de datos Iris que está en soldadura son. Entonces el primer paso es que necesitamos cargar los datos. Entonces, para cargar el conjunto de datos incorporado que está fácilmente disponible en R, simplemente necesitamos llamar a esos datos. Entonces los datos son iguales a itis. Y cuando ponemos a alguien datos, y cuando ejecutemos esto, haremos que alguien suba el conjunto de datos del iris. Entonces mira aquí, estos son los datos que obtenemos del resumen de estos datos irlandeses. Entonces hay muchos más datos, pero esto es solo un simple resumen de datos de los datos irlandeses. Lo siguiente es lo que tenemos que hacer. Lo haremos, ya que estamos usando el paquete de ratones aquí. Entonces, los modismos de ratones faltan en valores aleatorios, ¿verdad? Entonces veamos los valores faltantes en nuestro conjunto de datos ya que este dataset de Iris no tendrá ningún valor faltante. Entonces, lo que haremos, pondremos valores faltantes, veremos los valores faltantes en nuestro conjunto de datos usando función amplia NA y esta función de ampliación la podremos obtener de la función Miss Forester. Bien, entonces con esto podemos usar Iris dot miss los valores faltantes, y podemos usar la amplia función n a. Y usamos el conjunto de datos vamos a dar el nombre del conjunto de datos aquí, iris y no ningún 0.01. ¿Bien? Y cuando hagamos esto, lo hará, lo que hará, verá los valores faltantes en nuestro conjunto de datos. Entonces cuando intentemos ejecutar este trozo, vamos a entrar en por qué estamos recibiendo este error, porque esta función de ampliación no está disponible porque esto pertenece al lujo que el paquete pierde pulido. Entonces lo que vamos a hacer, vamos a tratar de instalar el MS perecido y ratones. Así que primero déjame, ya que la notificación viene aquí como un paquete de ratones para ser instalados. Así que basta con hacer clic en Instalar y senior datos faltantes en RMD, los ratones del paquete estarán instalando. Por lo que comenzará a instalar. Se puede ver ahora el proceso de instalación que se ha iniciado instalando ratones. Por lo que lo descargará, tardará un par de segundos. ¿Bien? Así que los paquetes se instalaron correctamente. Bien, lo siguiente es que necesitamos instalar otro paquete llamado Miss Forester. Así que solo te escribiremos te lo pierdes. ¿Bien? Así que simplemente haz clic en Instalar y se instalará el paquete Hmisc. Instala ese paquete. Además, puedes usar el comando paquetes instalados y puedes darles este nombre de bosque y se instalará. Bien, así que ahora el almacenamiento de agua miss también se instaló con éxito. Vamos a tratar de ejecutar este. Chunk arriba de aquí. Acabo de enseñar mito y religión, traje en una función y anual 0.01. Bien, así que vamos a ejecutar esto. No sé por qué estamos llegando de nuevo. Entonces ahora estos paquetes mal plegados se han instalado correctamente. Así que ahora podemos simplemente y luego voy a ejecutar esto, solo pensé que la señorita trajo. Y después voy a ejecutar el resumen de Irish Dartmouth. Y ya veremos aquí. Entonces cuando veas este resumen de datos irlandeses, no verás ninguno, ningún valor. Verás que no hay ningún valor. Pero cuando usamos este amplio NA e impuro algunos valores faltantes en los datos del iris. Y crearemos un nuevo arte, faltando valores. Nadar de IDs. Me enseñaron los Ids. Ves, sí, lo que está haciendo, está haciendo cualquier adición en longitud sépalo, longitud sépalo y ancho sépalo, longitud de pétalo, y ancho de pétalo y es 19 y proteínas de ARN de setosa. Por lo que hemos introducido estos muchos 1,819.14. Cualquier valor usando eso traído en una función del paquete Hmisc. Lo siguiente es que tenemos que eliminar las variables categóricas. ¿Bien? Así que vamos a ejecutar esto y ver aquí. Bien, entonces hemos eliminado esta especie. Especies como cuál es el color virginica. Todas estas cosas las hemos eliminado, de esto se han quitado los datos categóricos. Y lo siguiente es, vamos a proceder con la implementación ratones para que lo hagamos en la siguiente conferencia. 59. Imponer los valores que faltan utilizando el método de PMM: Entonces, lo que hemos hecho en la conferencia anterior, hemos usado trajo cualquier función del paquete de mitos bosque para introducir 10%, 10% de valores faltantes en nuestro conjunto de datos. Entonces nuevo conjunto de datos tenemos ya sea start miss, y cuando ejecutemos este 10% los valores faltantes se introducirán en nuestros datos. Y para comprobarlo, vamos a ejecutar esto y vamos a obtener el resumen aquí. Y aquí, se puede ver que los valores de NA se han introducido en nuestros datos. ¿Bien? Lo siguiente que estoy haciendo, estoy haciendo, estoy quitando las variables categóricas y para que podamos enfocarnos en los valores continuos. ¿Bien? ¿Cómo son los pozos continuos, como? Mira, si ves aquí, estos son el valor del hilo continuo y las especies como se asienta, ¿Cuál es la Virginia coloreada? No son datos categóricos, así que vamos a eliminar eso. Entonces lo que hemos eliminado eso, hemos eliminado select, hemos usado irlandés enseñado miss, el conjunto de datos y lo que estamos conectando, estamos creando el subconjunto y entramos en el ojo, empiezan a faltar conjunto de datos, ese conjunto de datos con valores faltantes y estamos buscando seleccionados, se llaman dos especies menos c. Significa que eliminará la especie, que es un dato categórico en nuestro conjunto de datos. Y luego obtendremos el resumen. Entonces cuando ejecutamos esto, obtenemos este conjunto de datos donde las especies serán eliminadas de nuestro conjunto de datos para que podamos concentrarnos y enfocarnos en los valores continuos. Bien, lo siguiente, lo que vamos a hacer, vamos a instalar los soportes de ratones. Y por qué necesitamos estos paquetes de ratones, porque estos paquetes de ratones está teniendo una función llamada Md dot pattern. Entonces Md función de patrón de puntos, lo que hace, devuelve una forma tabular de valor faltante presentando cada variable en un conjunto de datos. Bien, entonces para eso, lo que hagamos, estaremos instalando el install.packages que usaremos para instalar el paquete. Y luego usaremos los ratones de la biblioteca. Y luego usamos el patrón de puntos Md a los valores faltantes presentes en cada parte, cada variable verá cuáles son los valores faltantes presentes. Entonces primero, instalaremos o ya lo hemos instalado. Entonces también si quieres, puedes ejecutar esto de nuevo. Si no hemos instalado. Y luego después de eso, después de que el paquete no esté instalado, puedes llegar a esta pieza de código y puedes ejecutar este patrón de puntos Md y puedes poner tu conjunto de datos. Entonces este es el conjunto de datos Iris que está teniendo los valores faltantes. Bien, así que vamos a ejecutar esto. Y cuando ejecutemos esto, mira aquí, lo que obtenemos. Llegamos aquí los valores faltantes para ello. Cada uno aquí, pero como el ancho del sépalo, punto sépalo, la longitud del pétalo y el ancho del pétalo. Entonces entendamos esta tabla. Esto es lo que estamos recibiendo en esta forma tabular. Vamos a entender. Entonces hay 98 o 96 objetos y aquí están ahí 96 observaciones, cuales no tienen valores faltantes en los valores faltantes. Y luego, bien, entonces este seis. 96. Este significa que no faltan valores y cero significa faltantes. Bueno, entonces 96 variables que no están teniendo valores faltantes y ancho de punto sépalo. Y aquí procedes. Seis ejecutables están teniendo valor faltante que una variable también está teniendo faltante RelU. Entonces con esto podemos entender cuántos valores faltantes. Cero significa que esas variables tienen valores faltantes, ¿de acuerdo? Y esto se ve bastante mal. Y si quieres, puedes ver esto también. Bastante superpuesto. Entonces mira aquí. Bien, entonces lo siguiente que haremos, haremos cola, crearemos la representación visual de lo que estamos viendo en esta forma tabular. Entonces para eso, lo que haremos, instalaremos el paquete. ¿Bien? Y después de eso usaremos la biblioteca BIM. Y lo que vamos a hacer, vamos a usar eso. Trazaremos lo que sea que estemos obteniendo a través del paquete de ratones, patrón de puntos vacíos. Vamos a tratar de trazar eso. Entonces usaremos esta función y la función EDR, y usaremos ese conjunto de datos, iris Dartmouth. Y luego usaremos color, azul marino, amarillo, lo que quieras. Se puede poner, supongamos que voy a poner rojo y amarillo y números para ordenar valor y luego etiquetar nombre. Voy a dar los nombres que haya en cualquiera de los dos arranques perdidos. Y por qué laboratorio realmente falta patrón de datos. Bien, así que vamos a ejecutar esto y ver qué visualizan y estamos consiguiendo. Ahora, estamos obteniendo esta visualización. Entonces mira aquí con estas visualizaciones, lo que entendemos es 67% de los valores, 67% de los valores en el desierto sin valor faltante, 67% datos no está teniendo ningún valor faltante. Hay diez por ciento de 13% está teniendo valores faltantes en nuestro largo de pétalo y ancho de pétalo y hacia fuera. ¿Bien? Y podemos ver este histograma también. Histograma. Bien, déjame ver aquí un histograma, faltan datos y Leah, las variables pétalo, ancho de pétalo está teniendo alrededor de pre-impresión por ciento arriba datos faltantes, donde la longitud es del diez por ciento, longitud del sépalo está teniendo alrededor del 9% o algo así. El ancho del sépalo es tener 8% o algo de datos faltantes. Y aquí también se puede entender, ¿de acuerdo? Entonces de esta manera, y podemos ver la representación gráfica de los valores faltantes. Ahora lo siguiente es la parada Crítica. Lo que estamos haciendo aquí. Estamos en, vamos a imputar algunos valores en los valores faltantes. Entonces para eso usaremos la función mice y usaremos el ID start missing data set con valores faltantes. Y m phi m es igual a cinco. Lo que hará, reportará a la imagen igual a cinco si le diste, creará el conjunto de datos de tipo de archivo con valores faltantes. Por lo que creará cinco conjuntos de datos imputados y dirección máxima y será de 50. Y método vamos a usar PMM. ¿Qué es este PMF? Pmm es una coincidencia de medias predictivas para valores numéricos. Vamos a usar el método PMM, que es la coincidencia predictiva de medias, ¿de acuerdo? Y luego lo veremos por 500. Y luego veremos el resumen de entrada en data. Así que vamos a ejecutar este pedazo de código basura. Y aquí estamos consiguiendo algo de edición. ¿Bien? No es encontrar la función ratones ¿por qué? Entonces tenemos que ganar. Bien, así que mira aquí ahora, estamos ingresando los datos con. Valores faltantes. Por lo que los valores faltantes serán imputados con algunos datos y los procesos en curso. Se puede ver aquí. Entonces porque son 50, me visto de arena, estamos vendiendo por 500. Por lo que puede llevar algún tiempo. Ahora. Está hecho. ¿Verdad? Entonces estos son el número de imputación múltiple cinco. O método de imputación es PMM que hemos utilizado, predice y matriz. Se puede ver la longitud del sépalo, la anchura del sépalo 11. Esta es la matriz de confusión, ¿de acuerdo? ¿Y cuál es el ancho del pétalo? Entonces esta es la matriz de confusión que estamos obteniendo. Ahora, lo que hacemos, podemos verificar los valores imputados usando datos imputados, y podemos usar el ancho sépalo para eso. Así que vamos a duplicar eso. No se encuentran los datos importados. Por qué lo estamos consiguiendo de nuevo en eso. Bien, así que he dado el nombre de la variable como el nombre del conjunto de datos como el período de tiempo. Y si ejecuto esto, mira aquí, estos son los valores que hemos imputado para el ancho sépalo. ¿Bien? Entonces de la misma manera, podemos bajar aquí y Control Alt. Realmente puedo agregar yarda y van a hacer, voy a poner algo de largo. Y si ejecuto esto, obtendremos los valores imputados también obtendremos los valores imputados para la longitud del punto sépalo. Bien, entonces ahora podemos ver cuáles son los valores que hemos insertado en nuestro conjunto de datos, introducidos en nuestro conjunto de datos. Ahora podemos obtener los datos imputados completos. Como tenemos los cinco datos ingresados de configuración, podemos obtener el segundo objeto usando la coma imputada dos. Entonces esto nos va a dar el, bueno, él tenía una especie de ser subrayado, imputado hockey y correr esto. Entonces podemos usar resumen. Datos completos. Dorsi. Esta es la petición completa de carga de datos, bien, Así que de esta manera podemos imputar los valores faltantes. Entonces supongamos que tienes la necesidad de gritar proyecto mundial donde hay algunos valores faltantes ahí. Entonces puedes usar este programa o este mecanismo para imputar valores faltantes usando como aquí hemos usado PMM. También puedes usar el otro método. Y también hay pocos otros métodos que puedas usar, como hemos usado la coincidencia de medias predictivas PMM para valores numéricos. Si tienes variables binarias con dos niveles, puedes usar la regresión logística. Y para eso, la función es log reg. Y si tenemos Bali bayesiano Tom debe regresión, se puede utilizar un cuarto factor variables con dos o más de un niveles. Se puede utilizar el método polimérico. Y si tienes como modelos impares, puedes usar los modelos 4D proporcionales para ordenar el nivel dos o más. Entonces estos son los métodos dr. Estos son el método y los paquetes que puedes usar para ingresar los datos. Entonces todo esto se trata de este proyecto. Y en este proyecto hemos aprendido a imputar datos. Entonces de la misma manera, también podemos implementar tu propio proyecto. Y puedes, puedes tomar este conjunto de datos o puedes ir con cualquier otro dato. Digamos tratar de imputar los valores faltantes e intentar poner los valores faltantes dentro de los datos. Primero, lo que hemos hecho aquí, hemos insertado algunos de nuestros datos con variables sin valores, ¿verdad? Y luego nosotros, lo que hemos hecho, hemos utilizado el PMM para imputar esos valores con algunos datos, algunos datos relevantes para que podamos obtener la salida correcta. Entonces espero que aprendas a imputar datos en la programación son para tus proyectos de machine learning y data science. Entonces espero que hayas aprendido algo. 60. Analizar los conjuntos de datos con funciones de R: En esta conferencia, vamos a analizar conjunto de datos. Entonces, primero lo primero, si planeas trabajar como científico de datos o ingeniero de aprendizaje automático, o incluso analista de datos de visualización de datos. Hay que tener que no tener. Qué es el análisis de datos y cómo se pueden analizar los datos. Entonces, la parte más importante de los datos de cualquier proyecto de ciencia de datos, cómo se analizan los datos. Por lo que el análisis de datos es la parte más importante de cualquier proyecto de aprendizaje automático de ciencia de datos o incluso proyecto de análisis de datos. Entonces, lo que voy a hacer, voy a usar un conjunto de datos incorporado que está fácilmente disponible con el paquete o descarga. Viene con el paquete el R, ¿de acuerdo? Por lo que no es necesario descargarlo por separado. Será que viene con el corazón, ¿de acuerdo? Entonces es un conjunto de datos incorporado con la r. entonces usaremos esa mano. Te diré cómo podemos usar las funciones incorporadas para analizar los datos, para obtener información sobre los datos. ¿Bien? Entonces, ¿qué es el conjunto de datos? Dataset es básicamente la recopilación de datos. Y más comúnmente hemos visto que los conjuntos de datos son como pagaderos. Utilizamos en nuestras bases de datos. Bases de datos lo que dieron. El conjunto de datos más común que hemos visto es el. Entonces en nuestras bases de datos como mi secuela, nuestra MongoDB o cualquier base de datos, si ves son básicamente los datos suficientes cáliz, ¿verdad? Si ves MongoDB es una recopilación de datos en términos de par clave y valor. Si ves mi base de datos secuela o RDBMS, sistema de gestión de bases de datos relacionales, estarán guardando los datos en forma de filas y columnas. Y filas y columnas quedarán guardando los datos, ¿verdad? Entonces, la recolección más común de datos es la tabla, ¿de acuerdo? Y también guardamos los datos en formato XML, también en el formato JSON. Pero lo más común es la mesa, ¿de acuerdo? Entonces puedes, lo que sea que hayas visto en la tabla de Walmart que básicamente está guardando los datos con ella, ¿verdad? Entonces vamos a usar autos vacíos. Los autos vacíos es un conjunto de datos incorporado en R. Y vamos a analizar éste. Así que los autos vacíos es el conjunto de datos de autos de tendencia del motor que está incorporado en R y se recuperó de la década de 1970 para Motor Trend US makin, ¿de acuerdo? Entonces estos datos se recuperan de esta coincidencia de 1970 Ford Motor Trend US, ¿de acuerdo? Entonces lo primero es cuando Supongamos que tenemos este conjunto de datos incorporado que es autos vacíos y queremos cargar estos datos. Entonces, lo que podemos hacer, simplemente podemos escribir el nombre del conjunto de datos. Y cuando ejecutemos esto, obtendremos el conjunto de datos. Entonces este es el conjunto de datos que tenemos. ¿Bien? Y cuando te mantienes afuera, hay más columnas, ¿verdad? Entonces estas son las filas. Y estas son las filas son diferentes. Nombres de Dios, ¿de acuerdo? Y para cada tarjeta hay varias variables como MPG, desplazamiento del cilindro que esperamos. ¿Bien? Entonces todos estos datos que tenemos con el auto vacío, ¿verdad? Entonces es tener 11 columnas y 32 caminos. Eso significa que contiene los 32 detalles de autos con 11 columnas. 11 columnas son 11 variables diferentes para cada tarjeta. ¿Bien? Entonces así es como el tipo simple nombre del conjunto y obtendrá la información más antigua, aunque dataset todas las filas y columna del conjunto de datos. ¿Bien? Lo siguiente es, supongamos que tenemos esto adentro. Queremos obtener la información, más información sobre el conjunto de datos. Entonces, cómo está este conjunto en un ángulo desde donde obtenemos ese conjunto de datos. Así que simplemente podemos poner el signo de interrogación frente al nombre del conjunto de datos. Y cuando ejecutamos esto, obtenemos la información sobre el conjunto de datos. Y esta información de conjunto de datos viene aquí. Entonces, cuando hayamos terminado. Éste. interrogación, signo de interrogación autos vacíos obtendrán esta información autos vacíos conjunto de datos. Y esto está diciendo Motor Trend Car conjunto de datos de prueba de carretera. Y esto viene de la documentación R. Bien. Y así te está dando la descripción total. Y total usa una Brita, cómo se ha formateado estos datos. Bien, entonces esta es la protesta de autos de tendencia del motor y los datos fueron dirigidos desde la década de 1970 para el uso de Motor Trend. Makin comprende conceptos de combustible y aspectos de antena del diseño y rendimiento de automóviles para 32 automóviles, 32 autos en modelos 1973-1974. Bien. Y luego está dando el formato como mpg significa millas por galón. Cilindro significa número de cilindros desplazamiento, HP, caballos de fuerza, calado, relación axial peso de 141 por cuatro millas tiempo medio tiempo. Reevaluar el motor como VSEPR en general, motor recto. Entonces nosotros como antes, ahorramos y si está teniendo cero, se recibe y un cuarto recto, entonces soy para transmisión automática si un emperador automático manual o automático y manual. Y buen numero de años y numero tallado de prueba de Cadbury. Bien, entonces la otra información que estamos obteniendo para esta fuente de datos, bien. Ahora, vuelve a la parte de análisis. Así que solo pones un signo de interrogación frente al nombre del conjunto de datos y obtendrás toda la información sobre el conjunto de datos de entrada. Ahora, queremos obtener las celdas de diamante y el nombre de la variable. Supongamos que tenemos los diamantes y slake, filas y columnas, y estos son el nombre de la variable. Entonces supongamos cómo quiero los nombres de las variables de un bucle. Entonces, ¿cómo puedo conseguirlo? Para que puedas usar. Así que lo primero que tenemos que hacer es asignar este conjunto de datos a alguna variable. Y para eso, lo que estoy haciendo, estoy creando un conjunto de datos variables subrayado autos, y estoy asignando autos vacíos. Así que los autos vacíos, los autos de conjunto de datos representarán los autos vacíos. Entonces, todos los valores a nuestros autos vacíos estarán aquí en el conjunto de datos de autos y esto lo podremos usar en nuestro programa más adelante. Entonces si uso dim y voy a pasar la variable dataset, este conjunto de datos subrayan autos. Voy a obtener el diamante suma el conjunto de datos. Entonces, si uso nombres y parte del dataset nombre dataset, o obtendré los nombres de variables en el conjunto de datos o dejaré ejecutar este fragmento. Ver aquí. Ahora está dando los diamantes y 32 roles y 11 columnas que podemos verificar desde aquí, como 32 filas y n columnas. ¿Bien? Entonces esos son los diamantes y sube el conjunto de datos. Y luego cuando usamos nombres, obtenemos los nombres de las variables. Entonces ven aquí, estamos obteniendo los nombres de las variables. Cilindro mpg es SP arrastrado con todas esas cosas. Entonces 32 por 11, 32 filas y 11 columnas son las dimensiones del conjunto de datos y estas son el nombre de la variable. Lo siguiente es que quiero extraer el nombre equivocado de la primera columna. Entonces quiero encontrar los nombres de fila de las columnas. Puedo usar nombres de fila. Y puedo pasar la variable dataset dataset. Entonces nombre rho y voy a pasar ese conjunto de datos y tarjetas de escolta. Esto me va a traer primero el nombre de todos los guardias, los nombres de las columnas dicen C o D, o Delta T. ¿Cuántos? Estas son las 32 variables de conjuntos de datos. Lo sentimos, estos son los 32, 32 autos que se han utilizado en el conjunto de datos que están disponibles en ese conjunto de datos. Entonces la columna de descarga, ¿de acuerdo? Y luego si usamos la oscuridad, si quiero obtener la única información valiosa, como quiero obtener las millas por galón del conjunto de datos. Puedo usar este nombre de conjunto de datos de signo de dólar luego signo de dólar MPG. Obtendré los valores de la variable mpg. ¿Bien? Así que de esta manera podemos obtener los valores de una variable en particular. Entonces por si acaso aquí, valor de mpg, puedo, estoy obteniendo los valores de mpg si uso EM aquí y obtienes 0.1 porque eso es automático y manual. Entonces veamos aquí, 1000, así. Bien, entonces cero para automático, uno para manual. Así que de esta manera podemos usar nombres de variables aquí si uso MPG y obtener lo siguiente es si quiero ordenar esto, este MPG viene así, ¿bien? Si quiero ordenar estos en orden, puedo usar la función sort en esto. Y puedo ordenar conjunto de datos y el cuadro de mando dólar mpg. Y ordenará los valores de esta variable mpg c, un artista que viene ahora, forma ordenada, aumentando el orden. ¿Bien? Entonces así es como podemos ordenarlos. Pierdo un valioso. Lo siguiente es ahora que quiero analizar el conjunto de datos. Así puedo usar a alguien y puedo dar el nombre de la variable para el conjunto de datos y obtendré el resumen de los datos. Mira aquí ese hermoso resumen de los datos como millas por galón. ¿Cuál es la media? ¿Cuáles son los valores del primer cuartil? ¿Cuál es la mediana? ¿Cuál es la media? ¿Cuál es el tercer cuartil? ¿Cuál es el valor máximo para cada variable? Estamos obteniendo estos seis valores, ¿verdad? Mediana primero, como min, primer cuartil, mediana media, y luego media mínima, mediana, valores máximos. Y el primer cuartil y tercer cuartil para cada una de estas variables, estamos obteniendo esta información. Entonces esto te dará ese resumen de los datos. Y estas son las cosas que aprenderemos en las próximas conferencias. ¿Cómo llegar a la media, qué es la mediana, qué es primer cuartil y el tercer cuartil? Entonces así es como podemos obtener información y podemos analizar el conjunto de datos en R. Podemos usar nuestro nombre de conjunto de datos para obtener el conjunto de datos. Podemos usar el signo de dólar para obtener la información sobre el conjunto de datos y vamos a conjunto de datos. Podemos usar la función lm para obtener la dimensión del conjunto de datos. Podemos usar nombres, función para obtener el nombre de las variables. Podemos usar nombres de fila para obtener la caída de una fila, primera columna, cada fila en la primera columna, ¿de acuerdo? Los valores de cada fila en la primera columna, entonces podemos usar este signo de dólar para obtener los valores variables para el conjunto de datos. Y luego podemos usar la función sort para ordenar los valores de las variables, y luego podemos usar el resumen para obtener el resumen de los datos. Bien, así es como podemos analizar ese conjunto de datos en R. 61. Manipulación de datos Utilizando el paquete de dplyr: Hola y bienvenidos de nuevo. En esta conferencia, vamos a aprender sobre manipulación de datos en R. Así que vamos a aprender sobre la manipulación de datos. Y para ello vamos a usar el paquete ggplot. Así que duplicar el paquete es muy importante cuando se quiere hacer la manipulación de datos en. Y estoy usando este archivo RMD. Ya escribí el código para que solo podamos seguir adelante y podamos aprender sobre las cosas básicas del jugador y podamos hacer alguna manipulación de datos. Lo primero, si quieres usar el reproductor, necesitas instalar el paquete ¿verdad? En nuestro siempre que quieras usar lo incorporado, queremos usar alguna funcionalidad. Tenemos que instalar el paquete en nuestra R y luego podemos continuar. Si quieres trabajar con el plan, tienes, necesitas instalarlo. Puedes instalar la propia capa profunda, one lady player, o si quieres instalar todo lo que viene con el verso ordenado, puedes ir con el tidyverse. Entonces, si instalas verso ordenado, por defecto, vendrá capa profunda en que el plan estará dentro de este tidyverse. Y si no quieres instalar todo dentro de estos Tidyverse, puedes ir solo con el d plus. Para que puedas correr ya sea esto o esto. Cualquiera de estos. Se puede correr. Para que puedas ir con eso. Puedes ir con el verso ordenado o puedes ir con la capa profunda, ¿de acuerdo? Así que construyes sobre tu requerimiento. Puedes ir con eso. Te sugeriré que instalaste el tidyverse. Entonces he instalado estos dos paquetes, así que no voy a ejecutar estos p sub trozo de código, esta pieza de código, no lo voy a ejecutar porque ya los he instalado. Entonces lo que voy a hacer, te voy a mostrar lo siguiente. Bien, entonces déjame aclarar esto. Entonces lo primero, lo que podemos hacer con la manipulación de datos en el arte, usando esto, el reproductor es que podemos usar el filtro que podemos usar select. Podemos usar grupo por todas esas cosas que podemos hacer usando la trama en R. Bien, entonces qué voy a hacer, voy a usar, también te mostraré cómo podemos usar el filtro en R usando las bibliotecas de desenfoque. Entonces para esto, lo que voy a usar, voy a usar el conjunto de datos incorporado que se llama Star Wars. Star Wars es un conjunto de datos incorporado disponible en el arte. Entonces, lo que voy a usar, usaré Star Wars y luego usaré este operador de tuberías. Y lo que voy a hacer, voy a usar la función de filtro y voy a dar especies de filtro se llama dos tríadas. Entonces, lo que va a hacer, va a buscar todas las especies que sean iguales para dibujarla. Por lo que irá al conjunto de datos de Star Wars. Se enfrentará al conjunto de datos de Star Wars. Y dentro de eso irá y aplicará el filtro y fallará. Se filtrará el conjunto de datos en función de esta especie. ¿Bien? Entonces así es como va a funcionar. Por lo que las especies arrastran, se aplicará el filtro. Entonces déjame, solo ejecuto este código. Así que sólo estoy haciendo clic aquí y ver. Ahora estamos recibiendo la recarga. Bien. Entonces mira tu nombre, realzado, color de pelo de pantano, color de piel, color de ojos, arregla todas esas cosas que estamos obteniendo. Bien. Entonces esto lo estamos consiguiendo para la especie. Pruébalo. Bien. Consulta aquí, si ves la columna Especies, todo está seco. Sólo, ¿verdad? Por lo que está mostrando datos solo para secos porque aquí hemos aplicado el filtro secado. Por lo que nos mostrará terceros datos sólo para especies que así de esta manera, podemos aplicar el filtro, podemos usar el nombre del conjunto de datos Vía y luego operador de tubería y luego función de filtro y su especie. El nombre de la columna es específico de especie igual a dibujarla. Entonces lo hará, así que todas las especies, los datos borrados para nosotros, bien. Entonces así es como funciona el filtro en la planta. Bien, lo siguiente es que vamos a usar Select. Entonces selecciona cómo va a funcionar. Nuevamente, lo mismo. Vamos a usar. Esta estrella era dataset y luego operador de tubería, y luego usaremos Select, select, y luego necesitamos mantener el nombre termina con color, así que va a buscar todos los nombres que terminan con color. Entonces déjame dirigir esto. Ver aquí. Ahora lo que está haciendo. Es ir a buscar todas las columnas. Todas las columnas terminan con color, color pelo, color de piel y color de ojos. Entonces está mostrando solo las columnas que están terminando con color, ¿verdad? Entonces Star Wars seleccione nombre, termina con color. Por lo que te mostrará las columnas de Wanli George las cuales están terminando con color. Así subrayado, subrayado clase. Por lo que está mostrando sólo esos datos. Si nos fijamos en lo anterior. Aquí. Hay muchas columnas como altura, masa. Y luego tenemos ER, sexo, género. Pero no nos está mostrando todas estas columnas, sino que está mostrando sólo las columnas que están terminando con Carlos, que están terminando con color. ¿Bien? Entonces esta es la forma de usar el select. En. Lo siguiente es que vamos a aprender sobre mutar. Entonces, ¿qué hará mutar? Creará, si quieres agregar algunas nuevas variables o valor de variable en el conjunto de datos, puedes usar la función mutar, ¿bien? Así que muta para agregar, para agregar algo nuevo, ¿de acuerdo? Agrega algo nuevo, una nueva variable. Si quieres agregar, puedes usar el uso de la función mutar. Entonces, ¿cómo podemos hacer eso, simplemente podemos darle la Guerra de las Galaxias, luego operador de tubería y luego mutar función, y luego tenemos que dar nombre. Y entonces aquí puedes definir la nueva variable o el nuevo valor que quieras proporcionar. Entonces aquí, lo que se nos da, se nos da nombre y nombre. Aquí estamos introduciendo nueva variable IMC y v aquí les estamos dando Cómo se debe calcular el IMC. Entonces, si no quieres dar puedes codificar duro el valor. Pero aquí lo que estamos haciendo, estamos usando la masa dividida por altura por 100 de potencia para, ¿bien? Entonces esta es la fórmula que estamos usando para calcular el índice de masa corporal del IMC, ¿de acuerdo? Así que la altura y el peso que estamos usando para calcular el IMC. Y luego estamos pasando este IMC para seleccionar función. Entonces estamos usando operador de tubería dos veces aquí. Entonces qué va a hacer, primero calculará este IMC aquí, y luego este IMC será, este IMC se pasará a esta función de selección aquí mismo. Ve que tu IMC viene aquí de ahí. Entonces, lo que sea que aquí se recoja, llegará a esto. Entonces este IMC vendrá aquí, ¿verdad? Entonces eso es lo que hacen los operadores de tuberías y el operador, ¿verdad? Pasará el, pasará la salida de esta a la siguiente función, salida off mute. Se irá al selecto mutar. Mutar, mutaremos, crearemos el IMC, crearemos el IMC, y luego pasaremos a la función select. ¿Bien? Entonces, cómo, si di una representación pictórica, qué, cómo va a funcionar, soporte de TI, usaremos mutar. La función Mutar dará alguna salida. Y esta salida de función mutada irá al Select. ¿Bien? Entonces supongamos que aquí tenemos la masa y la altura. Masa y altura. masa y la altura irán a la mutada, y luego mutar la salida irá a la, vaya a la Seleccionar. Entonces así es como funciona el operador de tuberías, ¿verdad? Pasará la salida de esta a esta función. ¿Bien? Entonces así es como el operador de tuberías rockstar. Aquí estamos creando la obtención de la nueva variable IMC, nuevo valor IMC, y estamos pasando a la función select para seleccionar la función lo que estamos haciendo llamado masa e IMC. Por lo que seleccionará la máscara y sorta IMC. Entonces déjame ejecutar este código. Así que da clic aquí y vea aquí nombre, altura e IMC. Por lo que basado en la masa y la altura, el peso y la altura, nos está mostrando pronto el IMC. Esta columna de IMC, IMC no estaba ahí en los datos anteriores, ¿verdad? Déjame mostrarte. Aquí. No tenemos el IMC, rehabilitación de IMC creada con el IMC que hemos creado con esta función mutada, ¿verdad? Entonces con el mutado, hemos creado IMC y hemos agregado a nuestro conjunto de datos. Bien, así que de esta manera puedes crear una nueva variable o un nuevo valor y puedes agregarlo a tu conjunto de datos con la función mutar en la reproducción. A continuación se describe la fuente de masa. Somos lo que podemos hacer. Podemos organizar la misa. Así que vamos a ejecutar esto y ver. Mira aquí ahora estamos obteniendo la altura, la masa y el color del pelo, el color la piel, el color de ojos, todos los datos, todas las columnas que estamos sacando bien? Y está dando el valor de masa ¿verdad? Aquí. Lo es. Es como un orden decreciente. Nos está dando la masa, la altura, el color del pelo, y todas esas cosas. Bien. Si quieres cambiarlo a, puedes cambiarlo por alguna otra cosa y ver como viene. Siguiente. Una es, podemos usar el grupo por aquí también. Entonces, ¿qué grupo por, grupo BY va a hacer? Se agrupará por, por especies. Entonces lo que estamos haciendo muy lean Starbucks dataset y este es el operador de tuberías. Y luego agrupar por lo que sea el grupo por especie postula lo que va a hacer. Agrupará a cualquiera de las especies y luego nos dará la voluntad. Entonces como el resumen en un solo conjunto de datos, ¿de acuerdo? Dará lo que hará la función de resumir. Te dará el resumen único del conjunto de datos. Entonces aquí estamos usando n es igual a n, masa igual a media, media hasta masa. Y un na.rm significa cualquier valor que no esté disponible que eliminará lo que se termine en nuestro umbilical. Mira si miras aquí, algunos de los valores no están disponibles, ¿verdad? Por lo que eliminará los valores que no están nivelados. Bien, así que terminé no lo son. Lo que voy a hacer. Eliminará las filas de datos que no tengan ningún valor. ¿Bien? Entonces, lo que va a hacer, creará la media de máscara de la masa. ¿Bien? Así lo hará, ya que estamos agrupando por especies. Entonces, para cada SPC, te mostrará la masa media, la masa promedio. Y para eso, estamos usando la función media para obtener el, obtener el promedio de esta o promedio de la masa total para una especie en particular. Y estamos agrupando por especie. ¿Bien? Lo siguiente, Lo que estamos haciendo, estamos usando el filtro. Estamos usando filtro aquí. Y mayor que uno, masa, mayor a 50, aquí estamos aplicando el filtro. ¿Qué filtro? Y así ser mayor que uno y debe ser mayor a 50. Entonces este es nuestro filtro, este filtro lo estamos aplicando. ¿Bien? Entonces, ¿qué otros pasos estamos haciendo? ¿Primero? Estamos agrupando por especie, y luego estamos obteniendo el único resumen. Y estamos obteniendo la media de la masa para esa especie en particular. Y entonces estamos aplicando un filtro donde n es mayor que uno y masa igual a. Así que vamos a ejecutar esto y ver qué salida estamos obteniendo. Así que vamos a ejecutar esto y ver la salida aquí. Ver la salida C. Ahora no estamos recibiendo el nombre, estamos obteniendo la especie porque tenemos grupo. Hemos usado, hemos usado el grupo por especie, hemos usado grupo por especie. Y hemos calculado la media de la masa para la especie. Entonces por eso está mostrando el n. mayor que uno. Para n uno no se muestra, es coser y valores que son más de uno. Bien. Y la otra especie, seca, goma de mascar desaparecida, humana. ¿Puedes ser dueño de MATLAB, tweak, rookie jab rack Entonces todas las especies, es swing y se está mostrando para los valores 1250, porque lo que hemos dado, lo que te he dado la respuesta sea mayor que uno. Entonces por eso nos está mostrando los n valores mayores que 123630 bytes. Ahora mostrando los valores menores a uno, ¿de acuerdo? Y luego masa, se está mostrando mayor que propiamente. Entonces qué filtro hemos aplicado un filtro lo aplicamos como masturbarnos mayores a 50. Por lo que nos está mostrando la máscara mayor que la pubertad. Estas masas significan masa hasta estas especies. Entonces para esto a nuestra exhibición hay tal vez muchas cosas, ¿verdad? Pero tenemos tomando la media o media de todas esas piezas y hemos dado la media hasta las secas. Bien, entonces déjame mostrarte en el conjunto de datos. Mira aquí como todas estas especies pertenecen a la sequía y tienen la masa, ¿verdad? Ellos tienen las matemáticas, ¿verdad? Y nos han permitido a lo que hemos hecho. Tenemos años terminó ese brazo para quitar estas filas. Y por todos estos nombres pertenecen a la especie. Dibujarlo, dibujarlo, y tienen masa. Entonces lo que hemos hecho, hemos tomado toda la masa, resumir toda la masa dividida por el número de especies, numerar nombres en seco. Esta precisión, hemos calculado la media usando la función media aquí. Déjame mostrarte aquí, bien, quiero decir, así es por eso que es tan en una estrella media mosfet cada grupo de especies. Entonces para el mensaje principal humano que T2 para secador significa masas. Esto, bien, Así que de esta manera podemos usar la gráfica para la manipulación de datos. Bien, entonces, ¿cuáles son las cosas que hemos aprendido? Hemos aprendido que nuestro paquete de verso ordenado necesitamos instalar para usar el duplicado. Y hemos utilizado cómo filtrar y cómo podemos aplicar filtro en nuestro conjunto de datos. Y cómo podemos usar select en nuestro conjunto de datos. Y luego cómo podemos mutar y agregar, mutar o agregar una nueva variable en nuestro conjunto de datos. Y luego hemos visto cómo podemos organizar nuestro conjunto de datos. Y luego, por último, hemos visto GroupBy y resumimos junto con el filtro en nuestro último ejemplo. Entonces espero que tengas que saber cuáles son las cosas que podemos hacer con la capa profunda y cómo hacemos la manipulación de datos en el arte. 62. Introducción a los paneles interactivos brillantes en R: Hola y bienvenidos de nuevo. En esta conferencia vamos a aprender sobre la firma desde RStudio. Entonces, ¿qué es este signo? De nuestro total? Entonces esta minúscula es una forma de comunicarse con los datos. Básicamente es una solución de dashpot o una herramienta de visualización de visualización para nuestro, bien. Entonces, si quieres visualizar datos en R, puedes usar este pequeño RStudio. Esto es interactuar, analizar y comunicarse con el inicio de sesión. Podemos crear dashboards interactivos donde no solo se mostrarán los datos en el formato gráfico o en un dashboard, sino que también podremos interactuar con los datos thin y están en el dashboard. Así que esa es la belleza del inicio de sesión de RStudio que no solo creará un tablero construido sobre los conjuntos de datos, también interactuamos en el tablero mismo. Entonces dice que tome una frase enfoque interactivo para contar su historia de datos con la firma, permita que los usuarios interactúen con sus datos y su análisis y lo hagan todo con los nuestros. Así que no sólo verán los datos en formato gráfico y en las gráficas y dashboard, sino que también podrán interactuar con los datos y realmente podrán ver qué impacto tiene nuestro análisis haciendo en los datos. Entonces déjame desplazarme hacia abajo para ver qué dicen las otras opciones. Así que están en arsina es un paquete R que facilita creación de aplicaciones web interactivas directamente desde nuestro. Entonces no vamos a usar ninguna otra cosa, sino que usaremos la programación R misma. Y podemos crear dashboards interactivos basados en aplicaciones web. Puede alojar aplicaciones independientes en la web o incrustarlas en R Markdown documentos se construyen como deportes. Entonces mira, esto debe ser flexible. Se da que podemos, no solo podemos crear páginas web y aplicaciones independientes, sino que también podemos incrustarlas en el incrustarlas en el archivo RMarkDown. Los documentos están en un tablero, así que esa es la belleza de iniciar sesión en R. También puedes extender tus aplicaciones de firma con equipos CSS, HTML, widgets y JavaScript, CEO de Exxon. Entonces esa es la belleza que puedes usar. Css, equipos, HTML, widgets, y excelencia, para que sea más interactivo. Así que una vez creado, podemos trabajar de varias maneras con el dashboard creado con firma. Entonces, ¿qué otras cosas puede hacer la firma? cesionario combina el poder computacional de R con la interactividad de la onda moderna. Entonces todos sabemos que R tiene paquetes que nos pueden gustar trabajar en los datos. Podemos obtener las ideas. Podemos obtener información de los datos directamente a través de nuestros paquetes y agregar programación. Y no sólo estas percepciones, sino también lo que sea que consigamos. Calcula a partir de los datos. Podemos ponerlos en la ola moderna e interactuar con los dashboards y los datos o gráficos. Entonces eso nos dará más insights a partir de los datos, ¿verdad? Así que te veo un ejemplo sencillo de asignar app. Te puedes ver. Bien, entonces déjame ver el índice de Google, Trend Index. Esta es una app simple, Shiny que han creado. Y aquí se puede ver una gráfica muy bonita es el derecho que podemos ver. Ahora con el cesionario, podemos escuchar, puede seleccionar el índice, Tendencia, Índice de viajes. O si quieres cambiar, puedes cambiarlo a publicidad y marketing y SEO. La gráfica está cambiando. Puedo seleccionar algo de aquí. Y esta gráfica nos limitaremos a construir sobre el índice de tendencia del desempleo. Quiero ver, Ver. Ahora esto está mostrando la tendencia del desempleo. Puedo seleccionar pequeña empresa y resolverá la tendencia de la pequeña empresa para estos datos, renta, esta nueva tendencia. Bien, entonces así es como podemos agregar selector. Podemos crear un panel interactivo mediante la firma. ¿Bien? Y mira, sí, esto se crea con puramente nuestros programas, nuestro código. Ahora, también crearemos una de esas aplicaciones Shiny en la próxima conferencia. Y mira aquí, estos son los datos de la app que es el programa que está escrito en R4, este tipo de, este tipo de tablero interactivo desesperado. Entonces aquí están usando paquete de señalización, lector de capa profunda, equipos si110 y una capa profunda. Y esta es la descripción. Si quieres, puedes atravesarlo. Este es el sitio web oficial de firmar.rstudio.com. Si quieres conocer más sobre el letrero, puedes ir a ver la galería y obtendrás más información sobre la firma. Bien, arsina, puedes ir a ver el proceso de modelización de detectives regresión lineal. Y luego nuestro pequeño paquete para aprender a modelar la respuesta inmune. Hay diversos proyectos a los que puedes ir y leer por ti mismo. Voy a etiquetar en la señalización a la página web. Bien. Entonces, en la próxima conferencia, también crearemos una aplicación Shiny. Y veremos cómo podemos interactuar con el tablero, bien. 63. ShinyApp para crear un panel interactivo: Hola y bienvenidos de nuevo. Entonces en esta conferencia vamos a crear nuestra propia aplicación Shiny, donde estaremos creando una aplicación Shiny. Y entonces lo que vamos a crear, y luego veremos cómo crear. ¿Bien? Así que mira aquí esta es nuestra aplicación Shiny. Y aquí vamos a hacer eso. Vamos a crear una diáspora basada en el videojuego Mario Kart eight y basada en los personajes del videojuego que vamos a analizar. Vamos a diseñador. Vamos a crear un dashboard donde puedas interactuar con el dashboard. Da click en la Visualización y mira aquí, por defecto, la división estará ahí. Y aquí en las otras variables estarán ahí, ¿de acuerdo? El eje y y el eje x, ¿de acuerdo? Entonces obtienes el eje x será la variable y, aquí estará la velocidad, y aquí en el eje y estará cosiendo el personaje. Entonces aquí tenemos los personajes, los personajes y los nombres de los personajes están aquí, ¿de acuerdo? Y vamos a analizar cuáles son su velocidad y otras variables como la velocidad en el agua. Y también podemos seleccionar aceleración y se puede ver qué aceleración beta. Entonces mira aquí, este es el dashboard donde podemos, podemos interactuar con el dashboard. Podemos seleccionar la variable aquí, manejo. Y eso es lo que vamos a resolver para el, para el manejo y decir, Sí, voy a poner manejo en agua y va a generar. De esta manera podemos crear eso es más suficiente, que será interactivo. Y puedes seleccionar la variable aquí y ver el efecto en el tablero, ¿bien? Gráfica. Y mira aquí los diferentes colores están arrojando vidrio, pesado, ligero, y mediano. Bien, así es como podemos usar la app de firma para nosotros, el dashboard interactivo, ya terminamos el juego Mario Kart eight. Bien, entonces ahora hemos visto ¿qué es esto? Entonces mira aquí las clases, los diferentes colores están mostrando la clase pesada, ligera y radio. Y aquí podemos seleccionar la velocidad y va a cambiar el manejo variable, después la gráfica va a cambiar. Bien, entonces esta es la app, firma la app que vamos a crear, ¿bien? Y esto, podemos abrir en el navegador que también es porque se está abriendo en nuestro host local. Bien, así podemos abrir esto en el navegador también para hacer clic en abrir en navegador, y se abrirá en tu proyecto predeterminado de la misma manera. Bien, Así que ve hoy en día operando en el navegador hockey, y estamos perdiendo el nivel de fuente de datos en el sitio web de Kaggle. que puedas ir al sitio web de Kaggle y ver los datos y ver tu visualización. Puedes seleccionar cambio, ¿de acuerdo? Entonces en base a lo que estés seleccionando, va a estar bien, así que este interactivo, eso es lo que vamos a crear. Entonces déjame llevarte rápidamente al código. Es un código bastante simple. Entonces, lo que tenemos que hacer aquí, básicamente, esta app de firma tendrá tres componentes. Tres componentes x realmente tres componentes, o tres páginas web, tres páginas que necesitamos para que puedas obtener la primera será la primera será la app dot, y luego la segunda será el servidor. Y la tercera será la parte UI. ¿Bien? Así conjunto de palabras y luego UA. Entonces app.all server y UI.r. Entonces estos son los tres archivos que vamos a escribir, ¿de acuerdo? Y aparte de esto, hemos creado una carpeta. Tendrás que crear uno para leucina la app, sea cual sea el nombre que quieras dar, puedes dar. Y luego actualizado una aplicación de carpeta de datos mantuvo el archivo CSV, que cada uno contiene el conjunto de datos. Bien. Entonces déjame abrir y suelo. Este es el conjunto de datos y está conteniendo todos los personajes, cuentas de vidrio, los demás detalles, y estos son los nombres y estos son la velocidad y todas esas cosas. ¿Bien? Entonces este es el conjunto de datos que he guardado. Tráenos Character dot CSV, descárgalo del Kaggle. Bien. Lo siguiente es aquí, la imagen que estamos viendo en la cara frontal. Esas imágenes aquí. Carpeta W, W, W. Y estos son los tres archivos app guitar solo data de todos modos, datos que he creado. Bien, entonces déjame ir al código. Lo primero es app.all. Lo que necesitamos. Necesitamos necesitamos necesitamos la biblioteca cesionaria, bien, entonces tienes que descargar la descarga e instalar la biblioteca Shiny. Puedes venir aquí los paquetes instalados sexo y año. Y hay que hacer clic, simplemente haga clic en Instalar y así nombre minúsculo ahí, y se hará. Entonces déjame mostrarte, solo haz clic aquí. Y aquí hay que poner la firma S, I, N, Y, firmar. Y luego tenemos que dar click en Instalar. Y se instalará el paquete Sami. Entonces ya lo he instalado, así que no voy a volver a hacerlo. Por lo que hay que poner el brillante y luego hacer clic en Instalar y se instalará. Aparte de esto, también puedes usar install.packages. Puedes usar algún problema con la pluma, ¿de acuerdo? Y puedes instalar el letrero con nombre aquí. Literalmente estar hecho, ¿de acuerdo? Así puedes usar install.packages y poner el nombre del paquete y asignarme. Y aquí estamos dando esos fuente agrega fuentes UI.r, UI.r y otras fuentes servidor esa opción. Entonces estas son las dos cosas que vamos a usar en la app. Punto punto, punto, punto es nuestro archivo principal dentro del cual estamos llamando UI.r y datos celulares. Entonces estamos creando la aplicación Shiny dando la aplicación Shiny llamada. Y aquí, UH, igual a UA y serológico a servidor. Bien, así que sea cual sea el nombre que estés dando, el nombre del archivo que puedes dar aquí, bien. Así que esta es la aplicación simple punto nuestro archivo donde solo estamos cargando la biblioteca, dando a la fuente como que vamos a usar E-Y-E punto r y servidor que están dentro de esta idea de último momento. Bien, y luego estamos creando la aplicación de asignación donde estamos especificando el nombre de archivo UID y la extremidad sulfuro. Bien. Entonces esta es la app que supera. Entonces la siguiente es tercera palabra punto son. Tan triste por eso. Voy a ir a los datos celulares. Y aquí se puede ver que tenemos cargando la parcela GG a biblioteca. Porque vamos a hacerlo, estamos creando un dashboard o estamos creando una gráfica a la gráfica. Estamos viendo que estamos creando con la ayuda de GG plot two. Y entonces aquí tenemos un especificando ese conjunto de datos. Entonces a partir de aquí vamos a obtener el conjunto de datos. Los datos tienen menos carácter, no la aplicación de archivo CSV. Entonces en ti y estamos usando read dot csv total, este archivo CSV. Y cómo leer el archivo CSV que ya hemos visto en las conferencias anteriores. Bien, entonces estamos creando el servidor aquí. Para crear servidor, estamos ejecutando servidor donde dado el valor de mis nombres de variables están bien, y luego estamos perdiendo función, entrada y salida y salida. Estamos leyendo en la trama. Y estamos usando la función renderPlot para renderizar a través de la trama. Y estamos usando carácter, carácter, y luego estamos usando factores para crear datos, etiquetas y orden. Estamos usando la clase de dólar de carácter, ¿de acuerdo? Y luego estamos usando GG plot para dibujar ese Graph. Y aquí, los datos estamos leyendo caracteres punto CSV y el eje x, x valor carácter WM, identidad stat. Y la entrada y. Valor en dólares y significa cualquier entrada que seleccionaremos para la y que se seleccionará. Que esta es la parte donde tenemos la interacción o el desplegable que estamos seleccionando, va a llegar ahí, ¿bien? Y luego estamos leyendo tarjetas volteadas. Entonces se voltearán las coordenadas. ¿Bien? Entonces lo siguiente es UI.r. Entonces, si ves por qué esa extraña, también está bastante simplificada. Estamos usando el carácter característico punto CSV y estamos reiterando el archivo csv punto carácter. Y luego estamos usando la introducción de la página uno, ya que tenemos dos páginas y productos y n, las visualizaciones y la fase de producción está en panel de pestañas Dibujar para crear el panel para la introducción. Y estamos usando el encabezado Título de introducción para la final. Y luego estamos usando la fuente de la imagen. Y aquí estamos dando el respiro. Y esta es la redacción del párrafo. Y entonces aquí estamos dando el enlace aquí, el enlace de Kaggle que hemos visto, que tenemos proteína que luego página a página uno es simple. La interacción y el panel, estamos creando la mejor herramienta para la visualización. Lo que estamos haciendo, estamos usando valores selectos, nombre de columna. El nombre de columna de los caracteres serán los valores. Y entonces, ¿qué estamos usando? Seleccione valores, seleccione dónde perder caracteres. ¿Bien? Así que formamos parte de la clase, ¿de acuerdo? Aquí estamos usando la consulta de selección, tan buena. No en el trabajo Select Value. A diferencia básicamente estamos quitando las columnas no deseadas aquí. Y vamos con el personaje de esa clase. Aquí estamos obteniendo la barra lateral usando el panel de la barra lateral. Y aquí estamos seleccionando la entrada a y, donde y subrayado donde y nivel será la variable y. Tú, si quieres, puedes cambiarlo a cualquier cosa, opciones, seleccionar valores. Y ya el valor cargado serán los que para la velocidad seleccionada es igual a velocidad. Entonces la velocidad estará ahí por defecto seleccionada para nuestros desesperados. Bien. Lo siguiente es el contenido principal. Estamos usando el panel principal y la gráfica de salida de la parcela, ¿de acuerdo? Y esto vendrá de la mancha sureña. Y los segundos panelistas, el panel de tabulación donde estamos tan individualización panel de título, ese título que estamos dando, ese párrafo que estamos escribiendo. Y luego el diseño de la barra lateral, que barra lateral subraya el contenido, el contenido principal vendrá aquí. ¿Bien? Entonces así es como creamos estos tres archivos. Y estos dos puntos, server y uy están llamando judíos dentro del, dentro de los datos de la app. Bien, entonces ahora vamos a ejecutar la app. Así que haz clic en Ejecutar aplicación, y se ejecutará y abrirá la ventana de RStudio. Y ahora estamos viendo la página, nuestra mano aquí, se puede ver la página de introducción y visualizar y pegar dos páginas. Y la introducción paga. Nada sólo se dirigía. Y la imagen que hemos incluido, y este es el párrafo y este es el enlace que le hemos dado donde lo hemos especificado. Si vienes aquí en UI.r, mira aquí el título que hemos dado, y luego la imagen que tenemos aún mejor Calabria, ganamos. Y sin embargo, a pesar de que hemos dado el enlace de Kaggle, bien, así que eso es lo que estamos viendo dentro del panel de introducción y el segundo panel, cuando abres la visualización. Aquí, puedes ver por qué habilitas la velocidad por defecto, porque aquí te hemos dado seleccionado como velocidad y el nivel es por qué eres capaz de hacerlo, ¿bien? Y le estamos dando la trama como salida y vemos el título. Y este es un párrafo que estamos dando. Bien. Entonces déjame mostrarte cómo está cambiando en función de la selección. Si selecciono Velocidad de tierra, la gráfica obtendrá cadena. Si selecciono manejo, la gráfica cambiará si selecciono pistas en la gráfica relacionada. Entonces este es el panel interactivo que hemos creado usando la aplicación Shiny. ¿Bien? Consulta aquí los diferentes colores que están mostrando el vidrio pesado, ligero y mediano. Y aquí puedes seleccionar y podrás ver la diferencia entre estas cosas. Bien, Entonces así es como funciona el letrero, la app. 64. Algunos ejemplos de aplicaciones brillantes en R: En esta conferencia, vamos a ver algunos de los ejemplos ya escritos de firma de aplicaciones que ya están ahí en el sitio web de la firma. Entonces estos son el ejemplo de la aplicación Shiny que puedes mirar en la mano. Puedes verlas y puedes modificar el código. Y puedes crear tu propia aplicación Shiny, iniciando sesión en Esports. Entonces déjame decirte cómo puedes ejecutar esto también. Solo necesitas llamar a la biblioteca Shiny. Entonces necesitamos escribir biblioteca y luego firmar, y tenemos que ejecutar esto. Y una vez hecho eso, puedes empezar a usar los ejemplos como el primero es qué, un histograma. Entonces un ejemplo es la función que puedes usar para llamar a esto programas ya escritos Signing app. Bien, entonces 01 subrayado Hola es este. Y vamos a correr esto y a ver qué estamos obteniendo. Entonces, cuando ejecutes esto, abrirás la aplicación del cesionario. Y mira aquí está diciendo hola firmando. Y aquí se puede ver número de bins que vienen y aquí un histograma de tiempos de espera, ¿de acuerdo? Entonces aquí, a medida que aumenta el número de contenedores, vea aquí, el número de contenedores se está incrementando. Y ahora hay medios peptídicos. Si lo haces uno, solo hay un ganador, ¿verdad? Si pones seis, hay 6.12 3456 contenedores. Si ves aquí, es interactivo para que puedas aumentar o disminuir el número de pines en este tablero de tareas. Entonces esta es la especialidad de la aplicación Shiny que podemos jugar con el dashboard que hemos creado, dashboards interactivos que Shiny App Create. Entonces ahora aquí puedes ver, si vienes aquí abajo , te dará la descripción. Esta es pequeña, pequeña aplicación demostrar, firmar esta actualización automática de la interfaz de usuario. ¿Bien? Así que aquí la región RenderPlot y los bins de entrada. Y vea aquí secuestrar, nuestro expediente ya está dado aquí. Así que solo puedes copiar el código desde aquí. Y puedes correr en, usa este código, apple.tar. Vea su laboratorio usando biblioteca brillante y uy, y luego título, luego diseño de barra lateral. Y aquí barra lateral de entrada ID que estamos dando beans, número de bins y mínimo es uno, máximo es propiedad y valor iniciado así que por defecto, se seleccionará. Y luego aquí, la salida del diagrama del panel principal que estamos obteniendo, la salida o el panel principal. Entonces esta es la idea de salida de la trama. Entonces, si vienes al servidor, podrás ver las entradas de la función de tu servidor o nosotros tomaremos la función. función F tomará la entrada como entrada y dará la salida. ¿Bien? Y aquí salida esta trama. Y entonces estamos llamando a RenderPlot. Y aquí estamos dando el valor x. Y x valor es fiel esperando. Y Vinci está aquí puedes dar debates como secuencia de min a max y luego apuntar pines de entrada más uno. Bien, aquí estamos dibujando el histograma. Entonces histograma estamos intentando con el valor x y estamos dando al Brexit igual a pintar y coloreado. Puedes dar lo que quieras mano xlab y encabezado principal, puedes dar lo que ellos quieran. Y luego crearemos la app usando Shiny app y luego UY igual a ui y server, cada llamada al servidor. Entonces alguien ha fallecido el servidor. Y uy es que aquí estamos definiendo. Entonces si quieres, puedes poner esto en la UI.r hasta aquí. Se puede poner en la UI.r y la parte del servidor. Puedes poner en el servidor ese r, y esta será tu app data y donde llamaremos a la interfaz de usuario y servidor. Así que de esta manera, puedes tomar esta app punto r, que es un solo archivo y convertirlos en tres archivos si quieres, y si quieres agregar algunas cosas más, si quieres agregar, si queremos subir algún otro Graph aquí, giardia, puedes hacerlo. Entonces puedes modificar esto es porque el código ya está dado con pato firmar el sitio web de la aplicación desde ahí. Entonces esto es en la construcción del paquete de inicio de sesión de registro, ¿verdad? Entonces déjame cerrar esto. Veamos el segundo ejemplo. segundo ejemplo es ejecutar ejemplo cero para subrayar textos. Veamos qué hay ahí. Esto es Tabla enviar DataFrame. Así que vamos a ejecutar esta aplicación Shiny y nos vemos. Al hacer clic en eso, se estarán abriendo los textos de registro. Él ve aquí. Aquí podemos seleccionar el conjunto de datos roca, Fraser y soporte para autos. Estoy seleccionando tarjeta. Entonces nos está mostrando la velocidad y esto tiende a la velocidad y a la distancia. Y aquí se puede definir el número de filas, número de observación a visualizar. Entonces ahora es 1012. Entonces mira aquí hoy en día. Entonces en grava. Y si reduzco esto para suponer uno, está mostrando solo uno, puedo aumentar, seguir aumentando. 123. Ver aquí, están interactuando con esto y aquí puedo seleccionar la presión, por lo que le mostrará la temperatura y presión. Y aquí simplemente podemos aumentar la temperatura y la presión, esta tabla también. Entonces de esta manera, podemos jugar y aprender de esto, y este código también está aquí, app.all que puedes tomar y puedes modificarlo según tu requerimiento. Entonces pasemos al tercer ejemplo. Esa es la app de expresión reactiva. Entonces 03 subraya la reactividad. Y vamos a ejecutar esto y ver lo que nuestra aplicación si110 está lista para llegar aquí. Entonces mira aquí las brechas y necesidades de ensamblaje de datos. ensamblaje de datos y el conjunto de datos se conserva en roca y los autos nuevamente. Así podemos seleccionar llaves y aquí, lo mismo que filas y columnas. También puede seleccionar n para esto. Se da el outfile, el cesionario, nuestro expediente se da aquí. Puedes tomarlo para mirarlo y puedes aprender extraño si queremos modificarlo, puedes modificarlo. Es de código abierto, así que puedes tomarlo y modificarlo y usarlo por ti mismo. Y a continuación, veamos a los extranjeros de judo llamados MPG. Y da clic en Ejecutar. Entonces la apertura del apogeo notó el número de cilindros oscilantes, transmisión y engranajes. Por lo que está mostrando millas por galón. La relación entre el MPT y el engranaje. Y cuando seleccionas transmisión es igual a Toyoda, lecciones entre el auto automático, manual con el Majlis, ¿bien? Y si seleccionas engranajes con el cilindro de engranaje con el cilindro, y para este, así podrás obtener el archivo de alquitrán y podrás modificar n nicho por ti mismo. Lo siguiente son las barras deslizantes. Entonces vamos a ejecutar esto y a ver qué. Entonces estos son el ejemplo bastante bueno para aprender sobre el paquete de señalización y se puede modificar y césped. Ver aquí. Se trata de los deslizadores. Entonces hay tantos deslizadores en este ese deporte. Y para este trimestre ya está ahí. Se puede ver aquí puedo valor entero. Puedo hacer 1,000 o 172 decimales, 0.8 o uno así. Y luego el rango, puedo modificarlo desde aquí. Y en cuanto lo modifiques aquí podrás ver los cambios ahí. Formateador personalizado podemos definir animación de looping, podemos definir aquí. Entonces de esta manera podemos agregar anti-A aquí. Esa es la opción de jugar en estos formatos personalizados. Puede pinchar aquí y Siria 0-500500 automáticamente está cambiando. Está jugando como bien, así que mira aquí, ahora va cambiando poco a poco aquí. Y ver que esta animación numérica, esto también está tendiendo. Entonces, como esto está cambiando, el deslizador está cambiando. Esto también se está cambiando y sumar. Las otras cifras también van a cambiar. Entonces este es el paquete Magic of si110 en R que puedes crear estos dashboards interactivos. Mira aquí, esto está cambiando y esto también está consiguiendo cambio. Bien, así que pasemos al siguiente ejemplo que son las celdas tipo. Así que basta con hacer clic en ejecutar y ver qué obtenemos en la profundidad normalmente uniforme, Largo, normal y exponencial. Entonces podemos simplemente dar click aquí y podemos ver el resumen, podemos ver la tabla, ver cómo está cambiando. En un clic, se puede ver la normal. Si queremos ver el uniforme, se puede ver el uniforme. Y si queremos ver la forma larga, se puede ver el poema largo. Se puede ver el tratamiento más antiguo, resumen de la trama y tablas. Y los tres están cambiando juntos. Un clic en todos los datos aquí, número de observación puede aumentar. Y al instante se puede ver que esta es muy buena herramienta para analizar datos y analistas de datos o científicos de datos. O si quieres ampliar tus datos, puedes usar la arsina y este tipo de dashboard interactivo que puedes crear y decir con tu equipo o tu manager, estás fuera con tu cliente y ellos pueden obtener instantáneamente la visión de los datos. Entonces de manera similar se puede ver la otra cosa. Consulta aquí un ejemplo, subida de arginina que nos dará el vacilado para subir los archivos y todo. A ver. Puedes hacer click aquí y simplemente puedes seleccionar cualquier archivo y puedes subirlo. Supongamos que quiero subir, ahora está subido y porque no es nuestro archivo CSV, así que nos estamos metiendo, así que si quieres subir un archivo CSV, puedes seguir adelante y puedes subir un archivo CSV. Entonces déjame ir a la corte de primera instancia a nuestro 2020, e intentaré abrir un archivo CSV. Déjame abrir nato dot datos CSV que hemos curado en uno de nuestros ejemplos, abramos eso. Carguemos datos aquí. Ahora, podemos ver que el archivo CSV Data dot ha sido subido y podemos ver los datos dentro del CSV de punto de datos. Podemos retirar el folleto. Se puede poner el encabezado así. Podemos hacer todas las cosas. Podemos poner punto y coma. Podemos usar un separador coma y coma, o incluso podemos usar cinta adhesiva y cotizar No comillas dobles. Todas esas cosas que puedes hacer aquí. Ya estoy mostrando todos los datos que hay en el CSV Data dot, ¿verdad? Entonces tu karma y mira si pongo cabeza, te demostrara que solo alimentaba el perro es como alguien y consiguiendo el retail completo. Aviso arrojando datos. Entonces esto es algo bastante importante. Y aquí puedes crear esto. Esto sucede en nuestro si110 y puedes compartirlo con tu cliente donde pueden subir el archivo CSV y ver el archivo CSV sin tener XL T-TIP. No están teniendo una justa abajo para aliarse. Simplemente pueden seleccionar el pilón CSV. Veré mirar al CSP el viernes, ¿de acuerdo? Y para esto también el código ya se da aquí. Entonces eso es algo bastante genial, vegetal, las cosas que puedes analizar como una tarea y puedes aprender de estas cosas que puedes modificar y puedes usar para ti mismo. Ver el temporizador. Puedes pinchar aquí y el temporizador vendrá de la hora actual es esta cosa. De esta manera podremos usar la firma. 65. Aplicación brillante de 2 archivos en RStudio: Hola y bienvenidos de nuevo. En esta conferencia vamos a crear una app de firma de dos páginas. Entonces dos archivos registrándose, vamos a crear. Entonces hemos visto cómo podemos hacer de tres páginas, como lo hemos hecho apple.tar, UI.r y Teradata. Otro ejemplo. Aquí. Lo que vamos a hacer, vamos a crear un lead dos archivos. Uno es UI.r, y el segundo serán datos del servidor. Entonces, primero, lo que tenemos que hacer, tenemos que llegar a nuestro directorio de trabajo y necesitamos crear una carpeta con las siglas. Así que aquí estoy dando el nombre de la aplicación como cierto al firmar la aplicación. ¿Bien? Y dentro de eso, voy a crear dos archivos, UI.r y Solver dot art, modo que ya he creado y he escrito el código para la forma en que eso está dentro de la carpeta de la aplicación de firma de archivos. Bien. Entonces el nombre de la aplicación será el nombre de la carpeta. Y dentro de la carpeta guardaremos este UI.r y servidor punto r. entonces lo que este punto tendrá la misma interfaz de usuario igual a la página fluida y diseño de la barra lateral y panel de la barra lateral, panel y entrada de la barra lateral. Entonces aquí estamos dando OBS y número de observación, observación y número sobre visitantes y mínimo es diez, máximo es 500, y el valor será cien. ¿Bien? Entonces estamos llamando al panel principal y a la salida de la trama. Esta trama y esta trama vendrán del servidor que nuestras fuentes son lo que estamos llamando función input y output y output será la gráfica dish. Y esta gráfica se renderizará en el histograma, donde los datos serán la entrada de OBS será la entrada para nuestras normas y el color que nos estoy dando un rojo y verde. Bien, entonces solo estos dos archivos y sin necesidad de escribir la aplicación son y cómo ejecutar este archivo. Simplemente podemos llegar a la consola aquí. Entonces déjame despejar la consola. Y aquí solo necesitas escribir una app para correr. Ejecuta eso. Ahora necesitamos llamar a run app y dentro de la unidad RunApp para proporcionar el nombre de la carpeta o el nombre de la app para firmar el archivo la app que hemos creado. Entonces este cuatro que hemos creado para firmar la app. Entonces vamos a darle un nombre a eso aquí y tenemos que ejecutar esto. Así que presiona Enter y tu app de Simon estará encontrando el número de observación del CEO. Y aquí hay un histograma. Entonces he dado verde, rojo y el borde será verde. Y si cambio este número de generación , seguirá cambiando. Así que de esta manera podremos crear o archivar la aplicación de firma donde UI.r responda por esos datos, mataremos? Si quieres cambiar el color, puedes poner el amarillo y el verde. Y aquí solo necesitamos cerrar esto y tenemos que ejecutarlo de nuevo. Ejecuté la aplicación a los archivos de cualquier aplicación y golpeé Enter. Veamos aquí ahora va a venir en amarillo y limpio. Ceo, el amarillo y el borde es verde. Entonces puedes hacerlo así. Y se puede ver que una serie de apoptosis variada y anormal y se puede ver que el histograma está cambiando. ¿Bien? Así que de esta manera podremos crear dos archivos. Inscribirme. 66. Generación de informes descargables en brillante: En esta conferencia, vamos a aprender a generar reportes de carga descendente. Cómo podemos generar los informes que podemos descargar nuestro divorcio descargable. Bien. Entonces, cuando vienes al sitio web asignado.rstudio.com, puedes ver que ya hay una sustancia y prepara cosas que puedes aprender sobre firmar desde nuestro estudio. Entonces, creando el tablero interactivo aquí que es opsin. Se puede ver generando reportes descargables. Entonces aquí puedes ver el ejemplo como app.all y que han dado. Y aquí puedes probar esto y reportar punto RMD. Y creía que ese informe que están vacíos y va a crear una trama. Y lo que ese reporte lo puedes descargar. Y hay otro ejemplo de vértice que te voy a mostrar, donde podemos descargar el reporte en forma de PDF o HTML y barras. Entonces mira aquí, esta es la doncella, el conjunto de datos de autos vacíos que está fácilmente disponible con la R. Aquí, se puede ver en base al número de cilindros, podemos ver el modelo de regresión. Este es el modelo de regresión. Cilindro y número de cilindros, MPG, cómo el número de cilindros están afectando el kilometraje, millas por galón, cómo el punto de acceso está afectando al MPG, a cómo el peso del automóvil está afectando a las millas por galón, la evidencia o kilometraje del automóvil, o el radio, cómo estos factores están afectando el número de marchas está afectando a la mielina que estos son los cosas que estamos analizando tu deuda hemos hecho a través de nuestra programación. Y estas son las cosas que nos pueden gustar las internamente que se ha generado cuando se desarrolla un modelo de regresión donde están tratando de encontrar la línea de mejor ajuste. Y para ello, ahora, este es el informe y solidario para su desplazamiento. Se puede poner así y hay opción de formato de documento, PDF o HTML o trabajar para apoyarlos haciendo clic en PDF y hago clic en Descargar. Todo este informe se descargará en formato PDF si abro. Y así ves aquí, está demostrando que funcionó así. Aquí está el modelo de regresión. Y de donde estamos sacando estas cosas, esta cosa va desde el reporte punto archivo RMD. Estamos ahí creando el modelo de regresión lineal basado en las fuentes de datos, autos vacíos. Y luego están usando el coeficiente para ello. Y luego están poniendo eso en la trama para encontrar la línea de mejor ajuste, y luego están obteniendo la línea de mejor ajuste, nuestra línea de regresión. Entonces este reporte viene así. Cuando veas aquí nos está mostrando los puntos de datos, pero cuando lo descargues, estamos obteniendo el reporte completo. Y este es el conjunto de archivos de r punto r y c aquí. El promedio de la fórmula, la punta y la entrada MPG, luego la salida, desapalancando otra trama y luego descargar informe aquí, porción poderosa, el formato de nombre de archivo será el PDF y luego el contenido, están consiguiendo la normalizada. Pero vamos a importar que están vacíos. Esto es importante porque todos los cálculos y todo lo que hemos visto en este informe aquí, estas son las cosas que vienen de los archivos de la asamblea. Bien, entonces esto es bastante importante. Y entonces aquí están, simplemente están configurando el directorio de trabajo a directorio temporal para que no pida el acceso de administrador. Y yo buscaré eso. Están usando esto y luego encuentran copia de lote reportar eso en MD, ¿verdad? Después biblioteca la rebaja original y esto es para renderizarlos archivo RMD en el PDF. ¿Bien? Entonces, y luego averiguarlo renombrar archivo de salida. Bien. Entonces estas cosas, permítanme mostrarles también el archivo RMD que se ha usado internamente. Por lo que puedes hacer click en el código Obtener y te llevará a que estés firmando repositorio GitHub. Aquí puedes ver un reporte de que nuestros empleados son palabras que de todos modos son, punto, punto todos los archivos. Entonces cuando haces clic en el Informe punto RMD, puedes ver aquí el promedio del modelo de regresión y este es el código aquí está mi modelo de regresión. Y luego usando nuestro modelo colapso verdadero. Y tenía opsinas. Estas otras cosas las estamos viendo geniales. Y luego el MPG original fructífera y esta cosa. Bien, entonces están creando un diagrama de dispersión y luego ahí, encontrando la línea de mejor ajuste usando el abline. ¿Y están poniendo bien el color? Entonces así es como estamos obteniendo este informe de mi lectura de ese archivo de asamblea y de la elaboración de los informes. Así que de esta manera se puede obtener un informe que se puede descargar. Si quieres descargar este reporte en formato Word, puedes dar click sobre eso y se lo descargará en un doc X4, ¿verdad? Bien. Y si quieres descargar esto en HTML, puedes hacer clic en HTML y descargarla. Y se descargará en el HTML hacia adelante, vamos a abrir esto y los datos de CSIA, mi reporte punto archivo HTML. Entonces de esta manera, si quieres crear un reporte o dashboard que se pueda descargar, puedes usar la discordia y puedes escribir el tuyo propio. Firme la aplicación. 67. Análisis de la Covariance: Hola y bienvenidos de nuevo. Entonces en esta conferencia vamos a aprender sobre el análisis de la covarianza. Y también se llama y cola. Entonces ENCO Reais. Eso significa análisis de covarianza y encubierto y tipo lo llamamos. Entonces, ¿qué es este análisis de covarianza? Entonces ya sabes lo que hacemos en los algoritmos de aprendizaje automático o en un modelo de regresión lineal. Lo que hacemos en regresión, tratamos de encontrar valor real, un valor continuo, ¿verdad? A diferencia de los datos categóricos, siempre tratamos de encontrar la longitud del arco sí o no, verdadero o falso, cero o uno así, ¿verdad? Entonces en regresión intentamos encontrar un valor continuo. Por lo que creamos un análisis de regresión a Lake. Utilizamos modelos de regresión. Análisis de regresión para construir modelos que describan el efecto de la varianza en la variable predictora, ¿verdad? Sobre las variables de respuesta. Entonces, ¿cuál es el efecto de la varianza en las variables de predicción en el modelo de respuesta? Qué efecto van a poner las variables predictoras en la variable de respuesta. Eso es lo que estamos tratando de hacer con el análisis de regresión. Y cualesquiera que sean los modelos que estemos creando con eso vamos a hacer esto de una manera. Pero, a veces, ¿qué pasa? Contamos con un conjunto de datos categórico. Entonces, si ves estos autos vacíos conjunto de datos que está incorporado en la R y que vamos a usar si ejecutamos este trozo de código, verás que tenemos una columna E m. ¿Qué es esto m. M es automático o manual Ver su valor, su valor es cero o 10 significa automático y significa manuales, así que algo así. ¿Bien? Entonces D representa el Automático y el Manual, ¿de acuerdo? Entonces este es un dato categórico, es o bien cero o uno. No es tener un valor continuo como millas por galón, 2,122.8, 21.14, 0.7, ¿verdad? Por lo que es difícil encontrar el efecto de esta variable categórica en este mpg. Ver aquí los caballos de fuerza, HP también está ahí, pero es un valor continuo no es categórico. Hola. Entonces, ¿qué pasa? Tenemos que, tenemos una variable categórica con valores como un no o cero o uno, masculino o femenino. En algunos casos. Cualquier cosa, podría ser pérdida de ganancias, lo que sea, así que sean cuales sean los valores categóricos que podamos tener. Por lo que el análisis de regresión simple da múltiples resultados para cada valor de la variable categórica. Entonces para esta fila G y una para cero, obtendremos 21 puntos para este 018.7. Entonces estamos obteniendo un valor diferente, diferente para MPG, para el mismo cero, ¿verdad? Cero representa al Hornet y estos representan al deporte de los Hornets sobre, ¿verdad? Entonces estos valores son diferentes. Entonces, ¿cómo vamos a encontrar qué efecto está poniendo en las millas por galón Entonces eso es lo que entra en cuadro, análisis de varianza. Entonces déjame darte una pequeña explicación. El análisis de covarianza se utiliza para probar el efecto principal y de interacción de la variable categórica. Eso significa que este objetivo es una variable dependiente continua, es decir mpg, controlando el efecto de seleccionar otras variables continuas. Entonces, si sabemos qué efecto le está dando esto a esto, incluso podemos haber decidido qué HP está teniendo un efecto en el MPG o qué está teniendo este m un efecto en el HP o mpg, que co-varían con el dependiente. Las variables de control se denominan covariables. Las variables aún controladas se llaman covariables. A veces, si tenemos una variable categórica con valores como sí o no o masculino o femenino, o ganancia o pérdida. regresión simple y las lanzas obtienen múltiples resultados por cada valor de la variable categórica que discutí aquí. Para cero, hay muchos valores pero MPG y para uno también hay muchos valores. El análisis de regresión simple da múltiples resultados para cada valor de la variable categórica. En tal escenario, podemos estudiar el efecto de la variable categórica utilizándola junto con la variable predictora oscura y comparando las líneas de regresión para cada nivel de una variable categórica. Entonces lo que está diciendo, es decir que en tal escenario podemos estudiar el efecto de la variable categórica utilizándola junto con el predictor. Así que junto con el predictor como HP. Entonces usaremos un m junto con el HP para predecir el MPG. Y encontraremos la línea de regresión para cada nivel de la variable categórica para 0.41, para cada uno, pero cada nivel encontrará para encontrar la variable categórica. ¿Bien? Y, y a esto se le llama el análisis de la covarianza. Entonces consideremos este conjunto de datos de autos vacíos donde m representa el manual automático de transmisión. Se trata de una variable categórica con valores 0.1, como comenté anteriormente, millas por galón o MPG de un automóvil pueden depender de ello. Además, el valor de los caballos de fuerza, mpg puede depender de si el automóvil es automático o manual, y también puede depender de los caballos de fuerza. Entonces estudiamos el efecto de la EM en la regresión entre MPG y HP. Y se hace mediante el uso de una función o V. La función Aov es la función de análisis de varianza seguida de la función NOR. Entonces usaremos las funciones Bot. Primero usaremos la función AOV para encontrar la regresión. Mediante el uso de estas dos variables son predecibles compañeros HP y apuntan a encontrar el MPG. Y luego usaremos el náhuatl y decidiremos qué modelo nos está dando qué y cómo esta variable categórica o una variable predictora categórica está afectando a la variable dependiente MPG. Entonces lo que hacemos primero, obtenemos los datos de entrada que son autos vacíos. Así que estamos almacenando eso en los datos de los autos vacíos. Y entonces estamos creando un modelo de regresión y un modelo de inversión. Para el modelo de regresión, estamos usando un AOV o con función de análisis de varianza, función AOV que estamos usando y estamos creando un modelo de regresión entre MPG y HP junto con am. Y estamos aprovechando fuentes de datos, autos vacíos, datos que estamos obteniendo de los autos vacíos. Y luego vamos a, vamos a imprimir dos que. Obtendremos el resumen del modelo uno. Entonces déjame correr esto y déjame correr el modelo uno. Entonces estamos creando un modelo de regresión aquí. Entonces, qué visión estamos obteniendo de este modelo de regresión aquí, esta fuente original de que tanto los caballos de fuerza como el tipo de transmisión que HP y M tiene un efecto significativo en las millas por galón como el valor p o ambos. El valor de P en ambos casos es menor a 0.5, ¿verdad? Por lo que es tener ambos valores p teniendo menos de 0.5. Pero cuando tomamos este HP y m juntos, el, el valor p es superior a 0.5 y eso significa que SPN am juntos no tendrá ningún efecto significativo en el MPG. Por lo que la interacción entre la, esta AM y SB no es significativa porque no tendrá ningún efecto sobre el, en el MPG. Entonces este modelo nos está dando esta idea de que HP y soy, si los tomas solos, van a tener efecto en el MPG. Pero cuando los tomamos juntos, no van a tener ningún efecto significativo en el MPG ya que el valor p es superior a 0.5. A continuación lo que haré, lo haré, voy a crear otro modelo de regresión. ¿Dónde vas a hacer, qué vamos a hacer? No vamos a incluir el valor categórico. Valor, ¿de acuerdo? Modelamos sin el valor categórico, es decir am. Entonces quiero decir que sin la interacción entre el HP y m, y vamos a crear otro modelo de regresión, la función AOV. Y ya veremos qué efecto están teniendo en el MPG. Entonces déjame dirigir esto. Sin embargo, estoy usando carro vacío como valioso y va a tener los mismos datos que los autos vacíos. Así que mira aquí. Ahora nuestro modelo con esto, no hay interacción entre HP y m. Entonces qué insights estamos obteniendo. Esta es su alma que tanto los caballos de fuerza como los transmite tiene un efecto significativo en millas por galón ya que el valor p es inferior a 0.5. Bien, entonces ahora lo que voy a hacer, compararé estos dos modelos, modelo 11 con el valor categórico. Interacción entre el HP y m. Y otro modelo es sin la interacción entre el PNM. ¿Bien? Entonces ahora permítanme comparar estos dos modelos, modelo dos y el modelo uno. Entonces lo que soy, estoy usando, estoy usando la función NOR para comparar estos dos modelos de regresión. Entonces déjame dirigir esto. Vea ahora qué ideas estamos obteniendo de esta región. Estamos consiguiendo que el valor p sea mayor que 0.5. Y así podemos llegar a la conclusión de que la interacción entre los caballos de fuerza y tipo de transmisión no es significativa. Por lo que las millas por galón dependerán de manera similar tanto a HP como a am. ¿Bien? Entonces el HP y m ambos van a afectar, ambos van a tener efecto suficiente en ese MPG. De la misma manera. No es que ambos vayan a afectar de manera diferente. Ambos van a afectar de la misma manera. Por lo que el MPG dependerá de manera similar los caballos de fuerza del automóvil tanto en automático como manual. Entonces, si los caballos de fuerza soportan los caballos de fuerza de un automóvil, que es automático, y está dando más kilometraje. Y si no hicimos manual con el mismo hotspot, dará menos mielina. Eso no va al caso el kilometraje del auto, ya sea con el mismo soporte, la mitad. Ahora, supongamos 1 hp, hay un auto y es manual. Y otra tarjeta es la misma, 1 hp y es automática. Ambos darán el mismo mpg. El promedio no va a cambiar si el auto es automático o manual. Bien. Por lo que es dependiendo de los caballos de fuerza y manual o automático no afectará mucho en el kilometraje del auto. Entonces esta es la forma en que podemos hacer el análisis de la covarianza. Covarianza significa las otras variables predictoras que van a ir Eddie, voy a efectuar sobre la variable dependiente. En este caso, es b y m son la covariante y mpg es la variable dependiente. Entonces hemos encontrado que si el auto es automático o manual con la misma pelota va a tener el mismo tipo de sin sentido. 68. Handson con la biblioteca de dplyr: Hola y bienvenidos de nuevo. En esta conferencia, vamos a revisitar la manipulación de datos. Y la actividad de manipulación de datos hará con el paquete de capas profundas que está relativamente nivelado con lo impar. Entonces el jugador es un paquete que proporciona Egipto las herramientas para la tarea más común de manipulación de datos. Entonces aprenderemos todo sobre el plan hoy y veremos cuáles son las tareas de manipulación que podemos hacer. Y vamos a hacer este archivo largo que he escrito. Haremos todas las cosas y veremos cuáles son las cosas que podemos hacer y cómo podemos jugar con los datos, cómo podemos manipular las tareas de manipulación de datos. Cómo podemos usar la tarea de manipulación de datos usando el plan. Así que comencemos. Por lo tanto, la capa profunda proporciona la gramática de la manipulación de datos, proporcionando un conjunto consistente de deformaciones que le ayudaron a resolver los desafíos más comunes de manipulación de datos. Entonces, la primera función que discutiremos es la función mutar. Y lo que hace es agregar nuevas variables que son Celdas de variables existentes. Entonces lo que va a hacer, agregará nuevas variables que son funciones de variable existente, llegará a saber qué significa cuando hacemos las prácticas. Bien, entonces el siguiente es seleccionar, seleccionar, escupe celda. ¿Qué selecciona? ¿Se escoge variables en función de su nombre es igual una consulta de selección en SQL, si conoces SQL o MySQL o cualquier base de datos relacional, utilizamos el select para seleccionar el valor seleccionaremos algo de los datos de la tabla usando el nombre de la columna. Bien, entonces eso es lo que select también hace aquí, fijo o variable en función de sus nombres. Entonces tenemos el filtro, filtro más estrecho. Lo que hace es escoger los casos en función de sus valores. Entonces, si quieres filtrar tus datos en base a algunos valores, como en la oreja o algunos en cualquier cosa, cualquier vestido y puedes ver, ¿de acuerdo? Resumiendo, la función reduce los múltiples valores hasta un solo resumen. Entonces, lo que resumirá hará, reducirá los múltiples valores hasta un solo resumen. También veremos que entonces tenemos la función naranja. Lo que no hice, cambia el orden de las reglas, así que simplemente arregla los datos en un orden diferente. El orden de la rosa, el crepúsculo, cualquier cosa bien. Además, también soporta al operador de tubería. Entonces este es el operador de tuberías por ciento pruebas y luego mayor que signo y luego presentado, esto se llama operador de tubería. Bien. Entonces ahora déjame decirte cómo puedes instalar el paquete en tus artistas para hacer o incluso en arte. Así que simplemente puedes ir a los paquetes aquí y puedes dar click en el Instalar y puedes poner aplicar aquí. Bien. Aparte de eso, también puedes usar el paquete tidy verse, la forma más fácil de instalar la parcela es instalar todo el tidyverse. Entonces, si instalaste el paquete tidyverse, incluirá el plan D. Y si no quieres instalar este tidyverse porque tidyverse contendrá muchos paquetes. ¿Bien? Entonces si quieres, no quieres, los paquetes que no estás usando, puedes ir y poner install.packages D plan, ¿de acuerdo? Por lo que instalará paquetes duplicados de un líder. Aparte de eso, también puedes ir por este camino. Ahora. Puedes venir al paquete de instalación y puedes poner ese nombre de paquete y puedes instalarlo. Y para invocar la biblioteca, tenemos que empezar a usar la biblioteca y luego el nombre del paquete que damos. Entonces las otras cosas ya sabes, pero solo para dividir las cosas que te estoy diciendo. Lo siguiente es menos explorado. Las esposas básicas de manipulación del jugador usarán el conjunto de datos Star Wars. Entonces vamos a usar el conjunto de datos de Star Wars que está disponible con el arco, que está precargado en R. ¿Bien? Entonces si ponemos cabeza, cabeza, Star Wars, lo que va a dar, dará los primeros cinco. Primer tipo se levantó el conjunto de datos que ya conocemos y que hemos usado varias veces, ¿verdad? Pero este paquete de capas profundas te dará otra función que se llama glimpse que no he usado hasta él. Lo estoy usando por primera vez. Entonces, si usas un vistazo Star Wars, te dará toda la información de reglas. Y así, mira aquí está diciendo es fila, 87 filas y 14 columnas. Y está dando, dándonos el nombre de la columna, nombre, altura, masa, color, y ¿cuáles son los valores para eso? Bien. Los tres primeros para el colapso. Nos está dando el, así que este es el vistazo punks y solo te dará un atisbo de los datos. Entonces, si quieres echar un vistazo rápido a los datos, puedes usar la función clean. De lo contrario, también se puede utilizar la cabeza también. Bien. Entonces, si comentas vislumbrar y si corriste unidad principal, head te dará un resultado como este. Y un vistazo te dará ese resultado así. ¿Bien? Entonces esta es la cabeza y estas son las extremidades. ¿Bien? Entonces ahora nos trasladaremos a ese operador de tuberías. Déjame cerrar esto. Entonces y de manera similar también hemos visto la vista. Entonces puedes darte una Star Wars y te dará la vista del lago de datos. Te dará la vista completa del conjunto de datos como una persona normal que veas. Entonces esto te dará todo el conjunto de datos, ¿de acuerdo? Ahora el operador de tubería, toda la función de capa profunda toma DataFrame como primer argumento. Dataframe será el primer argumento para todo lo que la plataforma algunos, en lugar de obligar al usuario a guardar objetos intermedios o funciones de nido, La tela escocesa proporciona al operador de tubería filas de filtro con la función de filtro. Por lo tanto, el filtro permite seleccionar el subconjunto de carreteras en un DataFrame. El primer argumento es el DataFrame. El segundo y posterior documento reportan al valioso dentro del marco de datos, seleccionando filas donde la expresión es verdadera. Así que mira aquí para seleccionar al personaje con color de piel claro y ojos marrones. Entonces lo que podemos hacer podemos usar este es el nombre del conjunto de datos Star Wars. Y luego podemos usar el operador de tubería. Y luego podemos usar el filtro, y podemos darte el parámetro para filtrar. Los colores de la piel serían claros y color de los ojos. Así que sé marrón. ¿Bien? Y también se puede hacer de otra manera como Star Wars. Entonces puedes usar el Star Wars y luego el soporte, Star Wars, soporte, Star Wars dólares pueden colorear. Significa que vamos a afectar la base de datos sobre el color de la piel del conjunto de datos de Star Wars. Y está escalado, el color de la piel será claro, y luego la estrella fue más alta. Color de ojos significa que vamos a enfrentar la base de datos sobre el color de ojos y el color de ojos debe ser marrón. Se puede usar el operador de tubería así. O alternativamente, puedes usar el dólar. Y Star Wars. Significa que el color de piel en dólares de Star Wars significa que vamos a ajustar el conjunto de datos en función su color de piel de ese conjunto de datos de Star Wars. Significa que el color de la piel es una columna en el conjunto de datos de Star Wars. ¿Bien? Y luego podemos usar simplemente esto o puede usar el operador de tubería y usar el lecho filtrante debajo del color de la piel y el color de ojos. Ambos te darán el resultado similar. Ver aquí. Ambos te están dando el mismo resultado. No hay diferencia. Por lo que puedes usar ya sea con el operador de tuberías o con sus dólares. ¿Bien? Entonces estas son las dos formas en las que puedes filtrar los datos. Filas dispuestas con función naranja. Entonces nuestro hijo menor trabaja manera similar al filtrado excepto que en lugar de filtrar o seleccionar filas, lo reordena. ¿Qué hizo? Reordena todo el conjunto de datos. Se necesita el DataFrame y una columna de configuración nombres son más complicados expresión para ordenar POR utilizar este bien, y el orden descendente. Entonces, si usas esta función DESC, ordenará la columna en orden descendente. Si usamos EEOC, se va a enviar. Bien, entonces aquí agregando elementos en el orden descendente de altura. Entonces, ¿cómo podemos lograr esto, podemos usar Star Wars, luego operador de tubería y luego organizar y función DESC y altura. Y simplemente proporciona esto y organizará los datos en el orden descendente. Ver aquí, ahora los datos son de los más altos y están disminuyendo. Este es el orden descendente. Entonces de esta manera podemos agregar en los datos o filtrar los datos en función de la altura en orden descendente. Bien, lo siguiente es rebanada. Lo que hace slash dos diapositivas le permite indexar rodado por su ubicación entera. Permite seleccionar, quitar y duplicar filas. Entonces, ligeramente en desacuerdo, corte los datos de nuestro conjunto de datos. Rebanar la cabeza de subrayado y se desliza sobre esta llamada cola. Seleccione la primera y última fila de los datos. Rebanar la muestra de guión bajo, seleccionar aleatoriamente esas filas. Entonces, las diapositivas bajo la muestra de guión bajo le darán el Raj seleccionado al azar del conjunto de datos si desea que su fuente. Entonces, si no obtienes una muestra del conjunto de datos, big dataset, puedes usar diapositivas en esta muestra de código y luego elegir aleatoriamente algunas carreteras y venderte las, usadas a menudo prop, para elegir ciertas. Proporción de los casos. Slice underscore mean y slice underscore max seleccione las filas con el valor más alto o más bajo de nuestra variable. Por lo que simplemente te dará, si proporcionas rebanada subrayado media y aquí proporcionarás altura. Te dará el mínimo de la altura y desliza subrayado matemático, max, altura, te dará el máximo de la altura. Entonces, hagamos las prácticas. Entonces para obtener el personaje 5-10, podemos usar el operador de pipas de Star Wars rebanada cinco dos puntos diez. Así que permítanme simplemente ejecutar esto. ¿Bien? Te daremos de cinco a diez, ¿de acuerdo? Si usamos n igual a tres, nos va a dar, ver, sólo tres filas, ¿bien? Y si usamos n igual a 512345 líneas, si ves la diferencia aquí, cinco a diez, te dará 56789106 estado de fila, incluyendo cinco n aquí, n igual a 5 min solo 512345. ¿Bien? Ahora bien, para muestrear el diez por ciento de las filas, podemos usar esto. Podemos usar Star Wars cinco operadores, diapositivas subrayan muestra. Prop 0.1%. 0.1 significa diez por ciento. Y esto te dará el diez por ciento de los datos. ¿Bien? Repartirá el 10% de los datos. Ahora usando diapositivas para obtener el valor más bajo o más alto. Para que podamos usar el filtro de Star Wars no es, no para escondernos. Y entonces podemos usar slice. Así que estamos consiguiendo siguiente es seleccionar columnas con select off cuando se trabaja con un conjunto de datos grande con muchas columnas, pero sólo unas pocas son realmente de interés, son pocos seleccionar le permite acercar rápidamente a un subconjunto útil utilizando tasaciones que generalmente Uno deja trabajo en posición variable numérica. Entonces seleccionando columnas por nombre. Para que puedas usar los operadores de pipas de Star Wars seleccionar color de pelo y color de ojos. Entonces esto te dará color de pelo y color de ojos. La reina y sólo esta línea. Y si seleccionas las columnas por rebanado, podemos usar el color de pelo y el color de ojos, ambos no son iguales. Entonces queremos seleccionar eso. Este resultado se puede ver el color del pelo y el color de ojos no está ahí. Todas las demás columnas están ahí, pero el color del pelo y el color de ojos están bloqueados y no incluidos. Seleccionar columnas con los criterios específicos termina con color. Entonces queremos seleccionar los datos el uno para el otro, cualquier cosa con ese color. Entonces déjame correr este color de pelo, color piel y color de ojos. Tres columnas que terminan con el color. Ahora mutar, mutar del Sol te permite, permite la creación de nuevas variables. Esto es extremadamente útil para el análisis estadístico. Entonces aquí están los operadores de pipas de Star Wars mutan altura a altura por 100. Entonces, ¿qué agregamos? ¿Aquí? Estamos obteniendo la altura de Star Wars y dividiéndola por 100 y creando un nuevo guión bajo de altura de columna. Y luego seleccionar la altura, altura y todo lo demás. Entonces déjame correr esto y ver qué obtenemos C aquí, estamos obteniendo el subrayado de altura m nueva columna aquí, y esto es 172 dividido por cien, entonces 1.72 y luego todas las demás columnas de Star Wars, está incluido. Así que de esta manera podemos mutar en la nueva altura de columna subrayado m al conjunto de datos. Y podemos mutar la nueva columna y podemos obtener el nuevo valor para esa columna usando la función mutar. ¿Bien? Ahora, modelo de regresión ajustado con la altura como examen, examen tres valioso y Marte, cualquiera de las variables de respuesta incluyendo el valor atípico, muestran las estadísticas resumidas para la cooperación existente. Entonces aquí usamos un modelo de regresión. Utilizaremos la función lm, altura y masa, y luego los valores de los datos, Star Wars y resumen. Voy a usar esto. Entonces déjame dirigir esto. Ver aquí, estos son el resumen que estamos recibiendo. También podemos trazar este modelo de regresión. Veamos aquí, vamos a obtener este residual por apalancamiento. ¿Bien? Entonces si quieres entrar en el detalle de esto, puedes ver el agua, el coeficiente que estamos obteniendo, el valor p de ReLu, todas esas cosas puedes ver cuál es la mediana mínima. Primer cuartil, el tercer cuartil, valor máximo. Todas esas cosas que puedes analizar, puedes ver aquí Q-Q normales y residuales estándar y ubicación teórica de teselas cuadrantes. Todas estas cosas. Puedes analizar tu agenda, conseguir a alguien y estás trazando el modelo de regresión basado en la altura y la masa a partir de los datos se le dijo esta es la práctica rápida usando la función plot, una biblioteca D-flat en la R. Así que espero que conozcas qué es D flat y cómo podemos usar las diferentes funciones como mutex, seleccionar Filtrar, resumir y no son todas estas cosas. La siguiente conferencia. 69. Regresión lineal simple con un conjunto de datos de calidad de aire: Hola y bienvenidos de nuevo. En esta conferencia, en realidad vamos a hacer otro proyecto sencillo donde vamos a utilizar la regresión lineal. Y qué haremos con la regresión lineal para tratar de encontrar la línea que mejor se ajuste a nuestro conjunto de datos. Es decir, conjunto de datos de calidad del aire que está fácilmente disponible con la R. Así que este conjunto de datos de calidad del aire está disponible con la r. Y este es el conjunto de datos sobre la medición de la calidad del aire de Newark. ¿Bien? Entonces entendamos de qué se trata estos datos y luego qué vamos a hacer con ese conjunto de datos y qué vamos a lograr con la regresión lineal. Así que las mediciones diarias de la calidad del aire en Irak de mayo a septiembre de 1973. Entonces este es el conjunto de datos sobre todo. Se está midiendo la calidad del aire en la ciudad de Nueva York desde mayo de 1973 hasta el 19 de septiembre del cien 73. El conjunto de datos es la calidad del aire. Y voy a formatear el formato de datos con las 153 observaciones sobre seis variables. ¿Y cuáles son estas variables? Capa de ozono, ¿cuál es la cantidad de niveles ordinales? Entonces r punto r será número numérico y estará en los pulmones. Y este será el PPB. velocidad del viento será el MPH, y luego la temperatura será en Fahrenheit y el mes uno al 12 de enero a diciembre. Bien. Por lo que el ozono significa lecturas diarias de los siguientes valores de calidad del aire. Del 1 al 30 de septiembre de 1973 ha sido derribado y listado en el conjunto de datos. No signifique o no en partes por mil millones. 1300-1500 h en la Isla Roosevelt. Bien. Tan fuerte a lo que esto representa, interrumpiendo la radiación solar en el arrendamiento de terrenos en banda de frecuencia 4000-7700, Angstrom Armstrong, de 08:00 de la mañana a 1,200 h en Central Park. Viento. Este es el promedio cuando la velocidad en millas por hora, 7-10 h en el aeropuerto Land Gorilla significa que esta es la temperatura máxima diaria en grados Farenheit en este aeropuerto. Bien, entonces esto es todo sobre el conjunto de datos. Pasemos al código. Entonces ya escribí el código. Te voy a explicar lo que vamos a hacer. Lo primero es que necesitamos usar el conjunto de datos que está disponible con el arte, es decir, la calidad del aire. Entonces podemos usar datos y podemos usar la desigualdad. ¿Bien? Y aquí podemos ver los datos con la vista, función, vista y luego cantidad. Y ya veremos los datos. Entonces este es el conjunto de datos. Tenemos las seis columnas o datos solares de John. Esta es la radiación solar, la velocidad del viento, la temperatura, temperatura más alta del día, y luego el mes, ¿qué mes? Y este es el día. Por lo que tienen el mes, mes de temperatura cuando partió solar, radiación solar y origen. ¿Bien? Entonces esto es todo sobre el conjunto de datos y está conteniendo uno por tres datos, bien, una morada, tres filas en este conjunto de datos. Ahora, lo que quiero hacer, simplemente quiero trazar esto o Joan y la radiación solar en una parcela y ver lo que estamos obteniendo. Así que permítanme trazar estos datos. El eje x es alrededor la radiación solar y la capa de ozono se representará en el eje y. Entonces en un día en particular, la radiación solar será esta y el origen, dejemos que la cantidad sea esta. Entonces esta es la gráfica que estamos obteniendo. Ahora bien, lo que quiero hacer con la regresión lineal, quiero encontrar una línea de mejor ajuste que represente este conjunto de datos correctamente. Entonces, ¿cuál será esta línea de mejor ajuste? Algo así. Algo que dividirá los datos casi iguales. Y con eso, podemos adivinar cuál será la radiación solar en un día en particular. Entonces, si sigues esa línea, como y es igual a mx más c será la ecuación de la línea recta. Entonces en eso, si trazamos esa línea en un día en particular, podemos adivinar. Bien, entonces lo que voy a hacer, voy a averiguar cuál es la media del ozono, cantidad de capa de ozono. Cuál es la media hasta lo que pierdo, pierdo que se extraen de esta calidad del aire. calidad del aire dólar o John nos dará el origen, el valor arriba o abajo del conjunto de datos de calidad del aire. Y aquí lo que estoy haciendo, cualquier dato de cada trimestre verdadero significa si los valores no están disponibles, acabamos de ver, no considerarlo. ¿Bien? Entonces con esto encontraremos la media del origen. Por lo que el valor medio del origen es 42. Entonces será algo así como aquí. Lo que voy a hacer, voy a dibujar una línea recta que representará el valor medio del origen. Entonces déjame correr esta cosa aquí. Esta línea recta representa la media del origen. ¿Bien? Ahora lo que voy a hacer, voy a usar la regresión lineal para ajustar la mejor línea posible. Bien, Entonces, ¿cómo podemos hacer eso, podemos usar la función lm, función de modelo lineal, y podemos usar el origen y solar realmente sensibles aquí. Y luego usaré los datos de calidad del aire. Bien, entonces a partir de los datos de calidad del aire, usa estos dos parámetros o no respondas mucho que son radiación solar. E intentaré crear nuestro modelo de regresión lineal. Así que he creado, ahora voy a ver lo que está dando nuestro modelo. Entonces déjame poner esto en el lado derecho. Entonces mira aquí, estamos obteniendo estos coeficientes. Y el valor de intercepción es esto y tan fuerte con los artistas esto, ¿de acuerdo? Ahora lo que voy a hacer, voy a tratar de, con este modelo, voy a tratar de encontrar la línea de mejor ajuste que represente completamente nuestros datos correctamente. Entonces lo que pierdo, pierdo la línea AB, y voy a pasar este modelo que hemos creado con la función lm y nuestro juego colateral. Quiero darle el color diferente a la línea best fit. Entonces estoy usando la codificación de colores aquí, naranja. Entonces déjame dirigir esto. Ceo. Ahora bien, esta línea naranja es la línea de mejor ajuste que estamos obteniendo para esta cosa. Por lo que esto representará el valor del valor regularizado de la capa de ozono enterrada sobre la radiación solar. Esta es la línea de mejor ajuste que estamos obteniendo de la regresión lineal. Entonces en base a este soporte un PIP3 días de datos que tenemos, queremos predecir eso. Entonces podemos ver que ¿cuál es el apoyo que quiero predecir aquí? Entonces esta radiación solar, supongamos aquí, y esto nos dará el valor alguna yarda delta que rondará los 60 o 75. ¿Bien? Así que de esta manera podemos encontrar la línea de mejor ajuste usando la función lm o regresión lineal. ¿Bien? Entonces así es como podemos usar la regresión lineal para encontrar la línea de mejor ajuste. 70. Cómo lidiar con los valores que faltan: Hola y bienvenidos de nuevo. En esta conferencia y en las próximas conferencias, vamos a tratar con los valores faltantes en R. Así veremos cómo podemos lidiar con los valores faltantes en nuestra programación. Porque cada vez que inicias un proyecto de ciencia de datos o un proyecto de aprendizaje automático y comienzas a trabajar en los datos. El primer paso es la exploración de los datos. Hay que leer los datos y hay que entender los datos. ¿Cuáles son los valores ahí? ¿De qué se trata todos esos datos que tienes que entender realmente? A menos que, hasta que no entiendas los datos, no podrás crear nada ni obtener ninguna idea de esos datos. Entonces es el primer paso para entender los datos. Y una vez que se tiene la comprensión de los datos, ¿cuáles son las columnas que hay en los datos? ¿Cuáles son los valores ahí? Y de qué están hablando esos datos , ¿para qué sirven esos datos? Entonces una vez que tienes este entendimiento, así que una vez que tienes el entendimiento de beta, qué están hablando los datos, para qué sirven los datos. Puedes interpretar esos datos, y una vez que tienes comprensión, puedes caminar sobre esos datos. Entonces, muy primer paso, hay que tener en cuenta que hay que entender los datos. Tienes que entender ¿qué están ahí las columnas y para qué sirven esas columnas? Qué tipo de datos se están almacenando en eso en esas columnas. Una vez que tengamos ese entendimiento, puedes empezar a trabajar en los datos. Puede comenzar a trabajar en su ciclo de vida de aprendizaje automático o ciencia de datos. Y el único paso muy importante para trabajar en los datos y crear machine learning o inteligencia artificial. modelos de ciencia de datos son el tratamiento de los valores faltantes. Siempre que veas algún conjunto de datos, puedes ver que hay muchas columnas, muchas filas donde los datos no estarán disponibles. Y lo que eso significa. Significa que cada vez que recogemos los datos a través del formulario, a través encuestas y a través recopilación de insumos de los usuarios. Así que cada vez que recogemos datos del radio de los usuarios solo tienes un gran grupo de usuarios. A veces odiaban compartir sus datos o a veces no van a tener una especie de proto nivel con ellos. Entonces se saltan esos puntos de entrada del Dojo. Y cuando recogemos esos datos y hacemos nuestro conjunto de datos, y podemos encontrar que hay muchas, muchas columnas, muchos, muchos valores están ahí los que faltan. Y para que nuestro conjunto de datos funcione correctamente para nuestro modelo de aprendizaje automático o inteligencia artificial, rehab para lidiar con los valores faltantes. Por lo que es una tarea muy común en el análisis de datos lidiar con los valores faltantes. En nuestra programación. Los valores faltantes están representados por una a y significa no aplicable o lo que sea. Se puede entender cómo los valores faltantes son representados por una a y en algunas otras formas, también se representa por 99. ¿Bien? Entonces el paso muy, muy importante es tratar con los valores faltantes. Entonces, al tratar con los valores faltantes, tenemos que seguir los tres pasos. El primero es la degustación de los valores faltantes. ¿Qué significa? Significa que tenemos que investigar el conjunto de datos y tenemos que probar el valor faltante. Tenemos que ver cuántos valores faltantes hay. ¿Dónde están los valores faltantes? Entonces tenemos que encontrar los valores faltantes. Entonces, una vez que hayas probado los valores faltantes en el conjunto de datos, tenemos que registrar el valor faltante. El segundo paso es decodificar los valores faltantes a lo que está decodificando valores faltantes es que tenemos que poner algunos, son otros valores en su lugar hasta valores faltantes. Supongamos que tenemos nuestros datos de edad donde algunos de los simplemente no han dado su detalle de edad. Entonces lo que podamos llenar ahí, podemos tomar la media de eso. Acabas de comerte toda la media o promedio de justicia juvenil es que podemos poner en el valor faltante. Entonces, sea cual sea la fuente que solo, a quien le falte la edad, podemos poner ese valor promedio de edad del grupo ahí dentro. De esa manera podemos registrar los valores faltantes. Entonces necesitamos registrar los valores faltantes en base algún algoritmo como media, todas esas cosas. ¿Bien? Entonces el tercer paso es que podemos, o pensamos, o de otra manera sería excluir el valor faltante. Así que de otra manera podemos, en lugar de grabar, podemos excluir las filas de valores faltantes. Así que simplemente podemos eliminar esos insumos que no están teniendo el apoyo, ayuda apoyarte. Tenemos nombre, tu solo ciudad y edad y detalles de empleo. Y si a algún usuario no se le da a su edad, simplemente podemos eliminar ese usuario del conjunto de datos para que podamos excluir los valores faltantes. Entonces estos son los tres pasos para tratar con los valores faltantes. Y en el siguiente ejercicio, en la siguiente conferencia, haremos una simple actividad práctica donde veremos cómo podemos probar los valores faltantes, cómo podemos registrar el valor faltante y cómo podemos excluir los valores faltantes. Por lo que la próxima conferencia será toda práctica en el, tratando con los valores faltantes. Entonces nos vemos dentro de la siguiente conferencia. 71. Poner a prueba los valores que faltan: Hola y bienvenidos de nuevo. Entonces, en la conferencia anterior, hemos visto cómo podemos trabajar con valores faltantes en R, o cómo lidiar con los valores faltantes en R. Hemos visto qué pasos debemos seguir. Tenemos que seguir estos tres pasos. O se pueden decir dos pasos. O puedes registrar los valores faltantes o puedes excluir el valor faltante. Entonces, el primer paso es el gusto por los valores faltantes. Tenemos que probar y tenemos que encontrar los valores faltantes en el conjunto de datos. Y luego se requiere el segundo paso, los valores faltantes o excluir los valores faltantes en el conjunto de datos. Entonces comencemos con el primer paso que es probar los valores faltantes. Entonces, ¿cómo podemos probar los valores faltantes? Así que he escrito este código y vamos a hacer el ancho práctico. Entonces déjame decirte lo que estoy haciendo aquí. Estoy creando un vector con algunos valores faltantes. Entonces estoy creando un vector 1-6, y luego estoy incluyendo un valor de NA al que le falta valor y luego ocho a diez y luego faltante. Bueno, cuando ejecutemos este vector, vea lo que obtenemos. La salida es 123456 porque de uno a seis. Y luego cuando cualquier valor, luego 89108 a diez y luego cualquiera. Entonces aquí nos faltan dos valores. Este conjunto de datos lo estamos creando por nosotros mismos. Bien, entonces para decirte lo que falta valor, solo estoy incluyendo el valor faltante en el vector. ¿Bien? Entonces ahora supongamos este vector x que tenemos, que está teniendo dos valores faltantes. Y no sabemos aquí podemos ver, así que sabemos que faltan dos valores. Pero supongamos que no sabemos, no somos conscientes, no estamos, no estamos viendo cómo podemos. Es un conjunto de datos grande no es sólo una fila. Puede haber un conjunto de datos que tendrá varias filas, miles de filas usted cómo vamos a encontrar los valores faltantes allí. Así que simplemente podemos ejecutar una prueba que es, es Annie es cualquiera, y luego tenemos que pasar el nombre del conjunto de datos. Bien, Así que aquí pasaremos el extractor está habilitado, encuentra el valor que falta. Dirá, si faltan valores ahí, dirá verdad. ¿Bien? Entonces cada NA y valor faltante, pasará por el este vector, x vector, y encontrará el valor faltante. Y ahí está un valor faltante, volverá verdadero. Entonces déjame dirigir esto. Aquí. Nos estamos volviendo falsos, falsos, falsos, falsos y verdaderos. Entonces esto es para 1234566. Falso significa que no falta valor hasta seis. Entonces para el séptimo lugar hay alguna, y para eso nos está volviendo verdad. Después 8910, falso, falso, falso. Y hasta por diez, hay alguna, por lo que está volviendo verdad. Por lo que te devolverá la verdad por los valores faltantes. Entonces de esta manera podemos llegar a saber que faltan valores para estos dos valores. ¿Bien? Ahora vamos a crear un DataFrame con datos faltantes. Entonces estoy creando un DataFrame. Df data.frame es la forma de crear DataFrame. Y aquí estoy creando cuatro columnas, columna uno, columna dos, columna tres, columna cuatro. Y en la columna uno, le estoy dando 123 y una columna a este NA es, así que estos son el valor que estoy poniendo en el DataFrame. ¿Bien? Así que déjame ejecutar este DataFrame y te vi la salida. Entonces mira aquí, el DataFrame es así. La columna uno, la columna dos, la columna tres para la columna uno tendrá 123.1 y la columna dos tendrá esto es un texto. Columna tres, verdadero, falso, verdadero, verdadero. Bien. Entonces y la columna cuatro será de 3.55, 0.26, 0.2. Y así este es el DataFrame que he creado. Ahora, quiero identificar n está en DataFrame completo. En este dataframe quiero encontrar alguno. Así que simplemente puedo ejecutar la prueba es una a y primero puedo el DataFrame V0. Por lo que cada marco de datos enter devolverá verdadero o falso. Entonces esta NA, eso es justo aquí, columna uno, cuarta fila, estamos pasando, luego otra entrada aquí. Así que estamos pasando por aquí. Y eso es otro y otros dos aquí. Eso significa que en esta, ¿de acuerdo? Así que de esta manera podemos ejecutar nuestra prueba es de cualquier vía. Supongamos que desea identificar cualquier columna específica de DataFrame. Entonces quiero verificar si este DataFrame está teniendo alguno, algún valor en la columna dos para que pueda ejecutar la prueba es cualquiera. Y luego el DataFrame nombre df dólar columna dos. Entonces lo que va a devolver, devolverá lo verdadero y falso para la columna. Así que vamos a ejecutar esto y ver tu falso, verdadero, falso, falso. ¿Por qué es falso? Porque en la columna dos, el valor está ahí, por lo que está devolviendo falso. Para N8 se está ejecutando true for is y text es Dunning, false, false. Significa que falta un valor en la columna dos. Así que de esta manera podemos encontrar los valores de NA que faltan valores en columna particular. Ahora podemos ejecutar la función sum e identificar el conteo de NINR DataFrame. Así que podemos usar algunos off es cualquier df es N A, y tenemos que pasar el nombre del conjunto de datos. Así que vamos a ejecutar esto y ver aquí ahora estamos consiguiendo tres. Entonces hay tres. N está en el marco de datos. Ahora, la suma de columna es df, te dará la suma de los valores faltantes en columnas. ¿Bien? Así que vamos a ejecutar esto y ver que se hace en la columna uno, fila, uno, columna 21, columna tres. No faltan datos. Y columna para uno. Entonces C, columna tres, todo está ahí verdadero, falso, verdadero, falso, y no nos faltan valores en la columna tres. La columna tres soporta si pongo algo, algunos otros valores, en vez de verdadero-falso, voy a poner un poco de marrón. Algunos valores necesitamos poner 20, ¿de acuerdo? Y ahora corre el DF. ¿Bien? Ahora ejecuta esto. La tercera columna está teniendo cero valores faltantes porque está teniendo redondear hacia abajo 905123 todos los datos disponibles, ¿verdad? Por eso se hace en general para la columna tres, suma de número, número de número total de valores faltantes en la columna tres es cero. En la columna uno, falta un valor, es decir este. En la columna cuatro, hay una razón, bueno esa es esta. Y en la columna dos hay una. Así que de esta manera podemos probar los valores faltantes en R usando es cualquiera, es cualquiera devolverá true si falta un valor en el DataFrame. Entonces así es como podemos lograr ese primer paso. En la próxima conferencia veremos cómo podemos lograr una grabación de valores faltantes. Nos vemos dentro de la siguiente conferencia. 72. Recolectar los valores que faltan: Hola y bienvenidos de nuevo. Entonces en la conferencia anterior, hemos visto cómo podemos trabajar con los datos faltantes. Y hemos visto como podemos identificar los valores faltantes en un conjunto de datos usando es punto, ¿verdad? Entonces cada punto y te dará los valores faltantes. Y ahora, una vez que sepas que los valores faltantes están ahí en el conjunto de datos, qué podemos hacer, podemos registrarlos con algún valor o podemos eliminarlos. Entonces veamos cómo podemos registrar el valor faltante en un conjunto de datos. Entonces lo primero es que podemos registrar el valor faltante. Si se trata de un dato numérico, podemos Registrar con la media del conjunto de datos, media de los valores, bien, promedio del valor. Podemos portar dos, podemos decir. Así que aquí estoy creando un vector x, ¿de acuerdo? Y veamos qué hay en el vector S. Es 123456, luego uno, luego 8910, y luego cualquiera. Bien, Así que aquí están todos en datos numéricos. Entonces lo que podemos hacer, podemos seguir adelante y encontrar la media de los datos existentes, ajustando nuestros números numéricos, números, y llenar la media en lugar de los valores no faltan valores. Entonces lo que podemos hacer, podemos usar la x, que es el conjunto de datos o vector y podemos encontrar es una a de x Podemos encontrar todos los valores de NA. Y aquí podemos poner el valor media de x Así podemos encontrar la media de x usando la función mean y donde, donde quiera que cualquiera que no sea igual a true. Para que podamos poner el valor medio en su lugar. Eliminaremos los valores y pondremos el valor medio en lugar del sobre. Entonces déjame dirigir esto. Y ahora, bien, entonces la Z aquí, ahora tenemos la 123456 y en lugar de cualquiera, tenemos 5.33 y luego 8910. Y en lugar de esto y cada uno tiene este 5.3. Entonces déjame correr esto otra vez. Entonces aquí en vez de una a, tenemos 5.33. Entonces, ¿cómo estamos consiguiendo este 5.33? Estamos obteniendo el promedio de 1234561 más dos más tres más cinco más seis, más ocho más nueve más diez, y dividirlo por número de valores cuando se obtiene el 5.3. Entonces, en lugar de anticuerpos, estamos poniendo el 5.33. Entonces esta es la única manera de lidiar con los valores faltantes, están registrando el valor faltante con ese valor promedio, es decir 5.33. Lo siguiente es DataFrame que recubra el valor faltante como nitrógeno algunos, en algunos de los conjuntos de datos, el 99 representará el valor faltante. Entonces supongamos que este es el DataFrame que estoy creando, que es tener dos columnas. Y vamos a ejecutar esto y déjame mostrarte el DataFrame. El DataFrame columna uno, columna 2123. Y aquí en vez de cinco, está teniendo 99. Y la columna dos está teniendo todos los pozos. Entonces este 99 está fuera de lugar. Es como un valor faltante. Por lo que se trata como el valor faltante. Entonces ahora lo que podemos hacer, una cosa, podemos sustituir este 99 por un a para que el, quede en su lugar. Entonces si queremos reemplazar este d F igual a 99 dentro de a, podemos usar DFT y en paréntesis df igual, igual a, igual a 99. Y si es 99, necesitamos reemplazarlo con ADN. Entonces déjame dirigir esto. Nos vemos ahora en recto arriba 99, estos 299, tenemos los valores N A, ¿verdad? Para que puedas reemplazar con lo inevitable. Si no quieres reemplazar con ningún valor, simplemente puedes dejarme mostrarte el DataFrame nuevamente con el 99. Ahora, podemos poner cualquier valor aquí. Si quieres poner cinco, sabes que debería haber cinco y simplemente puedes poner cinco y C. Ahora los valores reemplazaron tanto los lugares como cinco. Entonces de esta manera puedes lidiar con los valores faltantes. Podemos simplemente poner ADN, bien, Así que de esta manera podemos registrar los valores que faltan en nosotros. 73. Árbol de decisión: Hola y bienvenidos de nuevo. Entonces en esta conferencia vamos a aprender sobre el árbol de decisiones, que es muy importante en el aprendizaje automático. Entonces aprenderemos todo sobre el árbol de decisiones y reiniciaremos desde el principio listo que. ¿Qué es el árbol de decisiones? Entonces primero, déjame decirte, cuál es nuestra decisión. Una decisión es algo que tomamos todos los días. Supongamos que queremos ir a algún sitio y supongamos que quiero ir a algún evento. Y para apoyar esto soy yo. Y necesito, la necesito para ir un poco de agua, algún evento. Entonces lo que voy a decir si el clima es bueno o no, y en base al clima es bueno, voy a subir. Si el tiempo no es bueno, no iré. Por lo que esto depende de la condición climatológica. Entonces aquí estoy tomando distinguirlos como son. Entonces este es una especie de árbol de decisiones que estoy tomando. Estoy tomando, estoy tomando una decisión basada en el clima y el apoyo. Puedo añadir una cosa más si eso es bueno. Y otra vez, quiero agregar algo como si estoy bien y no bien, ¿verdad? Entonces si estoy bien, voy a ir va a ser sí. Y esto va a ser no. Entonces todo esto se convertirá en un gran árbol de decisión donde lo primero en el clima, el clima es bueno, me voy, clima no es bueno, no voy. Y si es bueno También app para ver si estoy bien o no. Y entonces mejor que mi condición de salud, voy a decir que sí o no. Así que este es un gran árbol de decisiones, ¿de acuerdo? Ahora bien, así es como tomamos la decisión, ¿no? Cuando estamos manejando un auto, lo estamos echando un vistazo, mirando el estado del tránsito, y luego estamos tomando nuestra jugada ¿verdad? Si trampa, si la señal de tráfico es verde se moverá. Si es de color amarillo, esperaremos. Y si es de color rojo, vamos a parar, ¿no? Entonces eso también será un tipo de decisión que estamos tomando. Entonces, ¿qué es el árbol de decisiones? Si quieres entender, tenemos que ir a un ejemplo. Supongamos que tengo, supongamos que este soy yo, este soy yo. Y quiero ir a algunos go-to por algunas frutas. Y no reconozco los frutos. Bien. Entonces alguien en mi familia, alguien, me dijo que la manzana, manzana, manzana tiene dos características. Es de color rojo y el redondeo guarda, ¿verdad? Y luego dijo que el plátano, plátano es de color amarillo y no está mal, ¿verdad? No redondo. En realidad es largo. Ok. Y luego dijo que lo tenemos. Lo tengo es de color naranja. Y no está mal. Bien. No se equivoca. Entonces ahora voy al mercado de frutas de pato. Y ahí vi un teclado suave. Vi a un tendero que está vendiendo frutas. Y tiene muchas frutas como si tuviera un montón de, perdón. Ha amontonado el apoyo de banano. Este es el plátano. Entonces tiene muchos plátanos que, no sé que es plátano. Bien, entonces algo en plátano seguro, estoy planeando hacer, perdón por mi mal dibujo. Y tiene algunos frutos. Alguna batería prueba que tiene. Y luego tenía algo de color naranja. Lo tengo. Bien. Apoyo que tengo pocos reunidos ahí. Entonces ahora voy a parar y estoy pensando cómo forzando el agua perdida en base lo que alguna vez la descripción que obtuve de mi familiar, iré y le preguntaré a la tecla programable qué pregunta voy a hacer. Voy a preguntar que cual es el color, ¿verdad? Entonces lo primero que voy a preguntar, como Egipto o rojo o naranja, ¿verdad? Te perdí Gita. Color naranja. Entonces la proteasa de color naranja. Y si lo es, voy a llegar a responder directamente con él será sí o lo será. Bien. Entonces, si es que sí. Lo tengo se clasificará aquí. La S, las zanahorias vendrán aquí, ¿no? Entonces todos los candidatos vendrán aquí por ello, color naranja y todos los plátanos, porque no son de color naranja. Entonces todos los plátanos serán plátanos, va a venir aquí. Y mayores. Manzanas también de este lado, ¿verdad? Porque tampoco son de no color naranja. Entonces ahora he tomado una decisión. Los frutos, he clasificado los frutos en dos categorías, naranja o no. Entonces naranja, me dieron la, todas las zanahorias y no naranja. Me dieron el plátano amarillo y las manzanas rojas. Ahora bien, lo siguiente que voy a preguntar por ahí o no ¿está bien? Redonda. Entonces me sale el sí y voy a conseguir el no. ¿Correcto? Hasta ahora es todas las manzanas van a venir aquí, ¿no? Todas las manzanas se clasificarán correctamente, ¿verdad? Y para no, Para saber qué va a pasar. Todos los plátanos vendrán aquí, ¿verdad? Porque los plátanos no son redondos. Entonces traeré todos los plátanos aquí. Entonces ahora mira, si miras esta cosa, podemos ver que esto es todo esto. Todo esto es un árbol de decisiones porque parece un árbol, ¿verdad? El árbol tiene las ramas y las hojas, ¿verdad? Entonces este, el principal, este se llama nodo raíz. El nodo raíz y los nodos hijo que estamos obteniendo y los labios digitales, ¿verdad? Bien. Entonces este es un árbol de decisión donde estoy primero, estoy viendo todos los frutos y estoy decidiendo si son anaranjados o no, entonces estoy clasificando datos que se están clasificando correctamente. Entonces el plátano unipolar aquí y luego son los suyos, luego las manzanas y los plátanos se clasifican acertadamente. Clasifica los frutos en función de su color y ahorra. Entonces, básicamente, los árboles de decisión se utilizan para el problema de clasificación. Entonces los siglos se utilizan en problemas de clasificación, ¿verdad? Y la media de este nodo, este nodo, este nodo, el nodo raíz aquí. A esto se le llama entropía. Entonces, lo que significa nuestra entropía, la, cómo más será el número de ítems en este nodo raíz, más denso será su árbol de decisiones. ¿Bien? Entonces lo que tengo que hacer, necesito El cada decisión con el cada nodo. Cada nodo necesito para reducir la entropía. Entonces aquí la entropía está aquí, entonces el trapecio será el más alto. Y luego con cada decisión necesito reducir el valor de entropía para que podamos clasificar esos ítems. ¿Bien? Entonces a esto se le llama entropía. Entonces cada ojo traza y vamos a estar, vamos a estar reduciendo la entropía, ¿correcto? Veremos en la próxima conferencia cómo vamos a estar reduciendo la entropía. Entonces aquí podemos, veremos cómo podemos usar eso y bajarlo también con la titulación y llegar al nodo hijo, cómo reducimos la entropía en la siguiente conferencia. Pero por dentro, este es el árbol de decisiones y así es como clasificamos las cosas en el aprendizaje automático usando el árbol de decisiones. Y así es como hacemos el árbol de decisiones, también haremos nuestras prácticas en las próximas conferencias. Primero, revisaremos toda la parte de la teoría y luego pasaremos a la parte práctica donde clasificará tu problema de aprendizaje automático usando el árbol de decisiones en nuestra programación. Nos vemos dentro de la siguiente conferencia. 74. Entropía y ganancia de información: Entonces en esta conferencia, vamos a ver cómo el árbol de decisiones, ¿cómo camina el árbol de decisiones? ¿Bien? Menos de tres. Trabajo. Bien. Entonces para eso, déjame decirte algunos conceptos básicos antes de seguir adelante. Entonces, primero, esta decisión, árbol de decisiones, estamos tomando diversas decisiones. Entonces este es, este se conoce como el nodo raíz, o este se conoce como el nodo raíz, ¿verdad? Entonces este es un nodo raíz. Y luego a estos se les llama nodo hoja. Entonces este es el nodo hoja. Este es otro nodo de hoja. Se llaman nodo hoja, ¿de acuerdo? Nodo raíz y nodo hoja. ¿Bien? Entonces ahora sabemos lo que es un nodo hoja y un nodo raíz. Déjame llevarte a la, otro concepto que se llama entropía y sí vio que es muy, muy importante. Entonces déjame decirte a lo que me refiero. Estoy diciendo entropía. Entonces, ¿qué es la entropía? La entropía es algo muy importante. Porque mira aquí, ahora éste, esto está teniendo más número de artículos, ¿verdad? Entonces esto es tener caída de gama alta. Lo siento. Esto es tener alta entropía. Alta entropía, ¿de acuerdo? Y éste está teniendo baja entropía. Es tipo de población. Entonces cuando tienes más número de ítems en un nodo, es tener alta entropía. Y cuando está teniendo bajo número de elementos, se le llama baja entropía. ¿Bien? Entonces la entropía es una medida de falta de tu recopilación de datos. Como más número de artículos, como aquí. En el nodo raíz, tienes los artículos con, con tres colores, naranja, amarillo y rojo y apagados para guardar. Entonces eso es tener más desordenado y correcto. Entonces eso es tener alta entropía. Y comparado con eso en este nodo raíz está teniendo una entropía baja y esto está teniendo muy baja entropía. ¿Bien? Entonces déjame llevarte a otro concepto con esto y eso se llama, eso se llama ganancia de información. ¿Qué es? Se llama, se llama ganancia de información. Entonces, ¿qué es la ganancia de información? A medida que nos movemos a este árbol de decisiones desde el nodo raíz hasta el nodo hoja, estamos ganando información. Y con la obtención de información, lo que está reduciendo, la entropía es el road-racing. Supongamos que estas entropías, para esta entropía es E2, para estas entropías, E3. Y para esta entropías soportan entropías E3. Entonces por cada rastreo y se puede decir que E2 será menos de uno, ¿verdad? Entonces el valor y1 es E1, E1 es más y E2 está reduciendo. E2 es menor que Y1. Y de manera similar aquí, e3 será menor que E2. ¿Bien? Entonces, ¿qué es la ganancia de información? La ganancia de información es ganancia de información, si queremos calcular, será ganancia de información será igual a y1 menos y2. Y1 menos y2 te dará la ganancia de información. ganancia de información es la disminución de la entropía al dividir el conjunto de datos en función de algunas condiciones. Entonces mira aquí. Ahora tenemos 1234567 datos aquí. Y estamos poniendo una condición, Agente, Naranja en los protistas color naranja. Y en base a esta condición que estamos obteniendo, estamos reduciendo el número de conjuntos de datos aquí mismo, dos y aquí 345. Así que estamos dividiendo el conjunto de datos. Entonces aquí la entropía se está reduciendo. ganancia de información es la disminución entropía al dividir el conjunto de datos en función de alguna condición. Veremos cómo podemos calcular la entropía. Esa es otra cosa matemática que te dejo saber. Pero por ahora, supongamos que cuando estamos bajando por el árbol de decisiones, la entropía va disminuyendo. Antes era e uno, ahora es E2, y más abajo está bajando a e tres. Y e uno es mayor que E2 y E2 es mayor que E3. Ganancia de información para esto, de este nodo a este nodo, está llegando a y1 menos y2. Bien, entonces eso es lo que gana la información. Entonces, ¿cuál es nuestro objetivo del árbol de decisiones? Cuando dividimos el conjunto de datos en función de alguna condición, estamos apuntando a disminuir la entropía, disminuir la entropía para obtener la información, ¿verdad? Por lo que el teléfono principal muere para obtener más información. Bien, entonces en la próxima conferencia, veremos cómo podemos calcular la ganancia de información y cómo podemos hacer con el conjunto de datos, cómo podemos dividir los datos y cómo podemos calcular la ganancia de información. Y ya veremos cuál es la ecuación matemática de la ganancia de información con, bien, así que nos vemos dentro de la siguiente conferencia. 75. Calcular la Entropía en el árbol de decisiones: Hola y bienvenidos de nuevo. Entonces en esta conferencia vamos a aprender sobre la entropía y cómo calculamos la entropía. Entonces en la conferencia anterior, hemos visto cómo funcionan nuestros distintos paseos. Y sin embargo quiero aclarar. El nodo hoja será, este será el nodo de una hoja. Este será un nodo de hoja, ¿verdad? Y este será otro nodo hoja diferente, ¿de acuerdo? Ganglio linfático, el ganglio terminal. Bien, eso va a conseguir talkie. Y hemos visto como estamos cuando bajamos en lo profundo por el árbol de decisiones, la entropía va a ser zona decreciente principal objetivo es llegar al nodo de datos, al nodo hoja, donde la entropía será menor que la entropía del nodo anterior. Y entropía y ganancia de información. Hemos aprendido que y1 menos y2 será la ganancia de información. Entonces ahora veremos qué es entropía y cómo calculamos la entropía. Entonces el tema para esta conferencia es la entropía. ¿Bien? Entonces vamos a discutir en detalle qué es la entropía y cómo podemos calcular la entropía. Entropía. En realidad, supongamos que este es el apoyo, este es nuestro único árbol de decisiones. Supongamos que esta es nuestra, esta entidad donde dicen F1, F2, F3, ¿bien? Y entonces, bien, entonces estas son nuestras hojas al norte, ¿verdad? Estos son nuestros ganglios linfáticos. Y este será el nodo hoja. ¿Puede el deporte o el ganglio linfático. Y este es el nodo raíz, ¿verdad? Entonces, ¿cómo calculamos la entropía? Supongamos en una cosa más. Sólo para recordar. Este árbol de decisión. Los árboles de decisión se utilizan para problemas de clasificación, ¿verdad? Problemas de clasificación, ¿verdad? Entonces básicamente será la clasificación cruzada binaria, sí o no. ¿Bien? Entonces supongamos que cuando agregamos desde el nodo raíz aquí, estamos llegando a este F2. Estamos recibiendo, supongamos que estamos recibiendo tres años y estamos consiguiendo dos nodos, ¿de acuerdo? Y aquí estamos consiguiendo cuatro años y tres nodos. Y entonces aquí estamos consiguiendo cinco años. Estamos recibiendo dos años, y aquí estamos consiguiendo tres nodos. Solo estamos asumiendo estos valores, bien, y aquí para nodo y soporte, aquí estamos obteniendo tres. Sí, y tenía algo muy bueno para los nodos y apoyó este es tener el ferrocarril como diez años, siete nodos. ¿Bien? Entonces ahora cómo calculamos la entropía, entropía es la paridad del split. Entonces este es nuestro conjunto de datos y nos estamos dividiendo en dos nodos, ¿verdad? F2 y F3. Entonces, ¿qué tan pura y qué tan buena es esta división? Eso es lo que vamos a decidir en base a la entropía. Entonces, entropía. entropía es básicamente lo bueno que es, qué tan bueno es el split, ¿qué tan bueno es tu split? Eso es lo que nos va a decir la entropía y cómo calcular la entropía. Que hay una fórmula simple que soporta queremos calcular la entropía de S supongamos, entonces será menos probabilidad de sí. Y luego registrar mensaje a probabilidad de sí. Se puede decir probabilidad de positivo también , más menos Alfa. Probabilidad de no log base dos, probabilidad de No, déjame escribirla correctamente. Eso va hacia abajo. Supongamos que soporta entropía estamos denotando con E. La fórmula de entropía es muy simple. Menos probabilidad de sí en log base dos de probabilidad de sí. Menos. Se puede hacer más, menos probabilidad de norte en log de log de pashto, probabilidad de nodo. Entonces esta es la fórmula de calcular la entropía. Entonces supongamos que queremos calcular la entropía de este nodo. Entonces, ¿cómo podemos hacer eso? Entonces aquí la E será probabilidad de sí, sí serán tres. Entonces tres por contador total, tres-plus para encontrar. Entonces probabilidad de síes tres por cinco años. Y luego haremos log base 23 por cinco. Y signo menos menos probabilidad de negativo será de dos por cinco. Por cinco. Base logarítmica de dos por cinco probabilidad de negativo. Entonces esta será la entropía de, esta será la entropía de la nota F dos. Entonces esta es la fórmula. Obtendrás algo de valor aquí. Algún valor al calcular obtendrá el valor. Entonces esto va a ser oscuro y te dejará este F2. Nota entropía de F2, puedes, ¿verdad? ¿Bien? Entonces la entropía de F2 nada será esta menos tres por cinco. La pobreza aparece menos probabilidad de negativo y tendrá que tomar la base logarítmica dos de ellas, probabilidad positiva y probabilidad negativa. Entonces esto, sí, se puede decir probabilidad de positividad, probabilidad de positividad. Y esta será la probabilidad de valores negativos, negativos. ¿Bien? Entonces de esta manera podemos calcular el valor de entropía. Entonces podemos calcular el valor de entropía para esto también, para esto, también, para esto también aquí, si calculas el valor de probabilidad, ese es el único, no hay negativo, ¿verdad? Porque esta es la N nada, ¿verdad? Entonces supongamos que estamos haciendo el split y estamos obteniendo, supongamos aquí estamos, en lugar de 4.3 nodos, estamos obteniendo tres años y tres nodos. Entonces esto es un muy, esto no es útil, esto es, esto no es algo útil, ¿verdad? Porque estamos consiguiendo las dos cosas, tres años y tres nodos. Entonces esto no va a dar ninguna idea, ¿verdad? Entonces esto es muy negativo. Esto es muy, muy malo tipo de división, ¿de acuerdo? Por lo que sus datos no se dividirán de tal manera en un árbol de decisiones. Entonces esto es discontinuidad o hockey, porque al calcular éste, será tres por seis menos tres por seis. Básicamente la probabilidad negativa del barco y la probabilidad parcial ambas son iguales, ¿de acuerdo? Entonces tenemos que dividirlo de tal manera que no deberíamos estar consiguiendo esta cosa. ¿Bien? Entonces así es como calculamos la entropía con esta fórmula. ¿Bien? Y tenemos que, y la ganancia de información como se discute, será la, supongamos que este es E uno o E F1. Y esto es aquí EF2. La información obtenida de F1 a F2 será E F1 menos F2. Entonces esta será la información obtenida de nodo a este nodo. ¿Bien? Entonces así es como calculamos la entropía y la ganancia de información. Ganancia de información. 76. Calcular la ganancia de información para el árbol de decisiones: Hola y bienvenidos de nuevo. Entonces en la última conferencia hemos aprendido sobre la entropía. Y los talones están en este árbol de decisión que he dibujado. Abdullah, pequeño error como Yolanda. Total ciudades están disparando 17, 17 artículos luego S. Y no hay. Entonces, cuando se dividen estos dos nodos, tres años para saber. Y para sí y tres nodos, ¿no? Cuatro más 37.5, solo 12, por lo que cinco no está incluido. Entonces puedes así que tienes que encargarte de eso. Me gusta por error, aquí no me han dado los números correctos, pero eso no va a afectar nada de lo que he enseñado en la conferencia anterior. Entonces solo los números son un total de 17 cuando estás dividiendo. ¿Bien? Entonces aparte de eso, todo es correcto y la forma calculamos la entropía, esa fórmula es correcta, todo lo demás es correcto. Y eso es lo que quería aclarar que esto sucediera. Algunos otros números. Bien. Y como tres u ocho años entonces y luego bien. En esto sería mi error. He escrito 38 sí. Para conocer 10.7, 17. Bien. Y entonces aquí va a haber un apoyo de ocho años. Y sí. O McDonald's aquí mismo, entonces será uno correcto. Bien. Bien. Entonces ahora pasemos al siguiente concepto que se llama ganancia de información. Entonces en la conferencia anterior, lo que te he dicho, te dije en granjeros y ganancia es así en entropía menos esta entropía. Por lo que este juego de información obtendrá de, de esta característica F1 a F2 tasa. Pero esa no es la ganancia total de información. Entonces, cuando conseguimos que nuestro árbol de decisiones esté completamente formado, tenemos que encontrar la ganancia de información del árbol de decisión total. ¿Qué juego de información? Nuevamente, nos estamos poniendo en su totalidad. Entonces déjame simplemente lanzar como Dawn y lo que voy a hacer, voy a crear un árbol de decisiones. Supongamos que tenemos este árbol de decisión. Así apoyó esta etapa, F1, F2, F3. ¿Bien? Entonces supongo que esta está teniendo n, sí, y siete. ¿Bien? Y cuando estemos dividiendo aquí, se supondrá ETS, nariz. Y aquí estamos cortando. Que sean estos tres nodos. Entonces nivel y aquí me estoy poniendo tres años y tres. No. Bien, entonces este es uno, nuestro árbol de decisiones apoya un árbol de decisiones de muestra que estamos creando aquí. Ahora bien, para este nodo, entropía se supone que E F1 te soporta. Estamos calculando la entropía para esto, entonces. Sí, n, siete nodos, estamos obteniendo E F1. Para ello, estamos consiguiendo y propiedad como E F2. Y para esto estamos consiguiendo E F 30. ¿Bien? Entonces ahora esto se basa en esta ganancia de información. Y la entropía servirá. entropía solo te dirá en base al valor de la entropía, podemos llegar a saber que cómo es nuestra división, ¿verdad? No será saber que si todo el obeso iría por éste o éste, ¿verdad? Esta división, o esta división, ¿verdad? Entonces supongamos que podemos hacer otra división, como comenzar con F2, comenzar con F2 y luego ir a la F1 y F3. Entonces esta podría ser otra división. Entonces no sabemos cuál es la correcta, ¿verdad? Entonces, ¿cómo sabemos eso? Qué estrategia o qué split deberíamos ir a visitar iría como F1, F2, F3 son formas, comenzaría con F2, F1, F3, ¿verdad? Entonces, ¿cómo podemos decidir eso? Podemos decidir esto por el término me informó alguna ganancia. Entonces, con base en la ganancia de información, podemos decidir. Por qué camino debemos ir, algo así como ir por aquí o por aquí. ¿Bien? Por lo que esto se decidirá por la ganancia incremental hasta el árbol de decisión total. Entonces, cómo calculamos la ganancia total, total de información, y eso es lo que les voy a decir. La ganancia de información es la cantidad de información que estamos obteniendo para todo este árbol de decisiones. Entonces para esto primero, lo que necesitamos obtener, necesitamos encontrar la entropía para cada uno de los nodos, cada una de las características, bien, hasta ahora soportada, hemos calculado en base la fórmula explicada en la conferencia anterior. Hemos calculado y obtuvimos estos valores, E de un año, PUI de tres. ¿Bien? Entonces, ¿ahora qué información gana? Ganancia de información. ¿Qué ganará la información de este árbol de decisión? Es como la información gana hasta el nodo raíz, es decir E, f, f1, f1 menos suma de todas esas divisiones. Resumir todas esas divisiones como esta. Y éste, la información gana y te deja esto. ¿Bien? Entonces lo que va a ser, serán esos subconjunto de todos los sub splits como este es uno split y este es uno dividir el mismo nodo, ¿verdad? Así que parte de este subconjunto, el peso total ponderado, ¿de acuerdo? Y luego E, F apoyo. Esto va de z igual a uno a n soporte. Vamos de n número de split a E F1 fn, ¿de acuerdo? Entonces E F1 soporte, hemos calculado E, F uno. Entonces, ¿cuáles serán los cuantos subconjuntos tenemos aquí? Estamos consiguiendo dos subconjuntos. Uno es esto y otro es este, ¿verdad? Entonces, cuál será el subconjunto de este ocho más 31111 y total es 17, 11 por 17 en E de f, dos. Y luego más tres más 36 por 17. Total. El conteo es de 17 a E F tres. ¿Bien? Por lo que esto llegará al E F1 -11 por 17, E F2 menos seis por 73. ¿Bien? Entonces esta fórmula, esta, esta expresión nos dará, esta expresión nos dará algún valor. Supongamos que no estoy calculando el valor real, puedes calcular. Entonces supongamos que este valor estamos obteniendo 0.53. Y de manera similar, supongamos que hemos calculado también para este árbol de decisiones. ¿Bien? ¿Qué hace esta entrada? Y aquí estamos obteniendo la ganancia de información como viento para uno. Entonces ahora estamos consiguiendo, supongamos que esto es de nuevo uno y esto es de nuevo para ver cómo nuestro algoritmo de aprendizaje automático, o cómo va a decidir por qué camino debemos ir. Deberíamos ir con esta división. Esta división basada en la ganancia de información. Entonces aquí estamos obteniendo, nuevamente, apoyo 5.53 y aquí estamos obteniendo 0.41 ganancia, información ganancia uno es mayor que la información ganada, dos. Entonces iríamos con el valor más alto. Cuanto mayor sea la ganancia de información, más preciso será el árbol de decisiones. Entonces iremos con eso, vamos con este árbol de decisiones. Entonces iremos con F1, F2 y F3. La ganancia de información decidirá qué árbol de decisiones o qué enfoque debemos tomar al crear ese árbol de decisiones. Y esto no vamos a hacer algoritmos de aprendizaje manual o automático. O la biblioteca es que lo van a hacer por automáticamente para nosotros, pero deberíamos estar sabiendo cómo internamente está haciendo. Lo que cada vez que intentas crear un árbol de decisiones para algún problema o aprendizaje automático, los algoritmos de aprendizaje automático crearán estos subconjuntos, estas placas. Y calcularán el, eso calculará la ganancia de información. Y cualquiera que sea más la ganancia de información, irá con esa estrategia. Entonces de esta manera, la ganancia de información es útil para decidir qué división o cuál un árbol de decisiones con seguimiento en función de qué característica debemos dividir primero. La característica uno también se basa en la característica. Entonces ese será el mismísimo para ganancia de información es una cosa tan importante. Deberíamos estar conociendo las matemáticas detrás de la ganancia de información. Apoyar estos tres, sí y tres nodos aquí, el valor de entropía de tres será uno. ¿Por qué? Porque esto es un subconjunto totalmente impuro, ¿verdad? Porque esto no lo es, esto no es bueno. Porque tres S y tres notan que ambos son números iguales, ¿verdad? Entonces esto es split impuro y para esta entropía serán 11 cosa que olvidé decirte. El valor de la entropía siempre estará entre cero y uno. El valor de la entropía estará siempre en 0-1. Si estás obteniendo 10, tu separación es buena. Y ahí hay que parar la división. ¿Bien? Y si split es, tu valor de entropía viene uno, eso significa que es una división pura o impura. ¿Bien? Entonces para cero nos detendremos y en uno será impura dividida. ¿Bien? Entonces esa cosa que tienes en mente. 77. Manos en el árbol de decisión en R: Hola y bienvenidos de nuevo. Entonces, en las conferencias anteriores, hemos aprendido sobre el árbol de decisiones. También hemos visto cómo creamos un árbol de decisiones. Y hemos visto entropía. ¿Qué es la entropía? Cómo calculamos la entropía, y cuál será el valor de entropía. Y luego hemos visto cómo calculamos la ganancia de información y cómo la ganancia de información del árbol de decisiones decidirá qué enfoque debemos seguir adelante, qué enfoque debemos adoptar. Creador de libros, el mejor árbol de decisiones para nuestra declaración de problemas. Y también sabemos que esta entrada se utiliza para árboles para problemas de clasificación. ¿Bien? Entonces básicamente una clasificación binaria problemas que nos ocupamos con el árbol de decisiones. Entonces en esta conferencia vamos a aprender sobre cómo vamos a hacerlo, básicamente vamos a escribir nuestro código para crear un árbol de decisiones para nuestro conjunto de datos. Así que aquí vamos a usar un conjunto de datos incorporado que viene con R, es decir, habilidades de lectura. Entonces, qué está teniendo este conjunto de datos de habilidades de lectura y qué, cómo creamos nuestro árbol de decisiones para eso. Eso lo veremos en esta conferencia. Escribiremos el código antes de eso. Déjame decirte algunas aplicaciones del árbol de decisiones. Entonces árbol de decisiones, si quieres ver en una vida real, Tú, los árboles de decisión se están utilizando cuando estamos tratando de encontrar qué correo electrónico es spam, correo electrónico, cualquiera que sea el correo no es spam. Entonces ahí estamos tomando disjuntos, ¿verdad? Entonces ese tipo de proyectos de aprendizaje automático, donde estamos, tenemos que decidir un correo electrónico, viene de una fuente, ya sea spam o no, ahí, básicamente estamos creando un árbol de decisiones. Estamos tomando este viaje, spam o no. Ese tipo de problema de clasificación binaria es spam o no spam. Entonces en el departamento de salud o sector sanitario, si ves, detecta un cáncer de app, si puede ser un tumor, puede ser, uh, canceroso o no, que podemos decidir con la ayuda del machine learning y usando el árbol de decisiones. Y en el sector financiero en Europa, se puede ver, podemos, como en los dominios de finanzas bancarias del BFSI, tal vez lo usen para decidir si dan o no préstamo. Y también pueden decidir si qué tal o qué tiene de bueno nuestro prestatario malo de agua en función de su puntaje crediticio. Entonces, al igual que el análisis de riesgo crediticio, se puede hacer con el árbol de decisiones. Entonces estas son las, algunas aplicaciones de la vida real de nuestro árbol de decisiones y problema de aprendizaje automático que puedes pensar en resolver con el árbol de decisiones. Entonces, ¿cómo resolveríamos esto? Básicamente, creamos un modelo y luego intentaremos entrenar al modelo. Y luego con base en el modelo entrenado intentamos proporcionar sobre los datos de la prueba y tratar de decidir todas esas cosas. Entonces ahora, ven a este problema, a esta conferencia. Volviendo a esta conferencia, vamos a utilizar el conjunto de datos de habilidades de lectura y que viene con R, El paquete R. Entonces estás diciendo, bueno conjunto de datos y este conjunto de datos en realidad describen la puntuación de alguien, la habilidad de lectura de alguien, las habilidades de lectura de alguien. Si conocemos las variables como la edad, puntaje de suicidio, y si la persona es hablante nativo o no. Entonces si tenemos esta información, es fuente me anoto y hablante nativo un nada, podemos decidir. Podemos encontrar una puntuación de habilidad lectora o persona negra. Entonces vamos a crear un árbol de decisiones para esto. ¿Bien? Entonces para en nuestra programación, tenemos la función S3. Función S3 que utilizamos para crear un árbol de decisiones. Y esto toma dos entradas. Uno es fórmula y otros lo hicieron. Entonces. C3 está tomando dos fórmulas en la entrada y nuestros datos. Veremos en el código. Bien, entonces lo siguiente es, lo siguiente es escribir el código. Entonces, lo primero es que me guste crear un árbol de decisiones. Necesitamos un paquete llamado fiesta. Necesitamos instalar este paquete. Entonces si no has instalado este paquete, tienes que escribir el comando install dot packages, installed packages. Y hay que proporcionar el nombre del paquete. Y entonces hay que ejecutar el código. Y esto instalará este paquete de fiesta para nuestro uso. Por lo que he comentado esto. Si no lo has instalado, solo lo descomentas y lo ejecutas. Se instalará el paquete de fiesta. Una vez instalado, solo lo comentas para que este comando no se ejecute todas y cada una de las veces. ¿Bien? Entonces, una vez que tenemos instalado el paquete party, esto no es necesariamente para crear un árbol de decisiones porque esta función S3 viene con este paquete. Necesitamos usar este paquete. Para usar un paquete en R, tenemos que usar biblioteca y luego tenemos que proporcionar el nombre del paquete. Entonces empaquetando fiestas Mh, y por eso estamos escribiendo fiesta de biblioteca. Entonces ahora esta fiesta de la biblioteca tendrá este conjunto de datos de habilidades de lectura cultivado eso para que podamos ver cuáles son las cosas que hay con esos conjuntos de datos. Así que simplemente podemos correr esta cabeza. La habilidad de lectura de cabeza dará los primeros. Los primeros son datos de este conjunto de datos de habilidades de lectura. Así que vamos a ejecutar esto y ver aquí. Ahora estamos obteniendo las primeras seis filas del conjunto de datos. Se trata de decir la edad del hablante nativo, los suicidios, y luego el puntaje. Este es el básicamente el puntaje de lectura. Entonces ahora tenemos un atisbo de estos datos. Podemos avanzar más y podemos crear un árbol de decisiones. Entonces aquí usaremos punto de entrada que para tomar la entrada. Podemos simplemente, si no quieres poner este nombre, simplemente puedes usar input. Entonces aquí estoy usando datos de punto de entrada, y estoy tomando los datos de esta escala de calificación. Y luego vamos a ir más allá. Y aquí solo estoy usando un árbol de decisión punto PNG. Y este será el archivo de imagen en el que tendremos impreso nuestro árbol de decisiones. Y entonces estamos creando el árbol aquí, el árbol de puntos de salida. Y estamos perdiendo la función S3 aquí y aquí, estamos proporcionando la fórmula de hablante nativo formalizado. Y esta es la, esta es la, esta es la variable dependiente. Y con base en la edad, los suicidios y su núcleo, decidiremos si el hablante nativo o no, ¿bien? Y los datos son, es igual a los datos de punto de entrada. Y luego estamos trazando el, trazando el directorio de salida. Entonces voy a poner el árbol que estamos obteniendo de esta función. Y esta es la fórmula, nativo H plus plus score basado en estas tres variables predictoras, vamos a obtener el valor del hablante nativo, ¿de acuerdo? Y entonces theta es igual a los datos de punto de entrada. Y estamos tramando esto, o productividad o lo que sea que estemos obteniendo de esta preocupación, lo estamos tramando. Así que vamos a ejecutar esto y ver cómo estamos consiguiendo ese árbol de decisiones. Así que mira aquí ahora tenemos nuestro archivo de árbol de decisiones creado. Mira aquí, este es el árbol de decisiones que estamos recibiendo. ¿Bien? Entonces no hemos decidido cómo esto, oh, realmente, este nodo de hoja, ¿verdad? El sistema ha decidido automáticamente. Y T son menores o iguales a 3813 ceros x viene aquí, 30, menos de 38.306 voltaje que viene aquí. Y entonces es igual a R7. Es menos de seis que viene aquí mayor que c debido a este año que viene. Entonces esto a distancia se está imprimiendo, se están creando con la función S3. Y aquí la ganancia de información y todo se hará por dy system, ¿de acuerdo? Entonces no necesitamos hacer, solo necesitamos usar la función S3 y probablemente la fórmula y los datos, y creará el árbol de decisiones para nosotros. ¿Bien? Es así de simple. Pero por qué hemos discutido la teoría en la conferencia anterior, porque deberíamos estar conociendo el detrás de escena lo que está sucediendo con esta función S3. Y deberíamos estar atentos, ¿de acuerdo? Entonces solo tú podrás tener éxito en el campo del aprendizaje automático y la ciencia de datos. Tienes que conocer las intuiciones matemáticas detrás del árbol de decisiones o cualquier algoritmo que estés aprendiendo. ¿Bien? Cualquiera puede venir aquí y usar esta función S3 y crear un árbol de decisiones. Pero puede que no estén conscientes de cómo se está construyendo el árbol de decisiones. ¿Qué es la entropía, qué es la ganancia de información? Y bien, por eso deberías estar conociendo las intuiciones reales detrás del algoritmo de aprendizaje automático. ¿Bien? Entonces, con este árbol de decisiones, ¿qué conclusión estamos obteniendo? Estamos llegando a la conclusión que como cualquiera que esté leyendo la escala es de 38.3, menos de 38.3, y la edad es más de seis, no es un hablante nativo, ¿verdad? Entonces con esto, estamos consiguiendo lago. Si la edad es menor a, puntuación de lectura es menor a 38.3 y la edad es mayor a seis, entonces la persona no es hablante nativo. Entonces así es como podemos crear el árbol de decisiones en R. 78. Ventajas y desventajas de la árbol de decisiones: En esta conferencia, vamos a aprender sobre las ventajas y desventajas del árbol de decisiones. Entonces primero veremos ventajas, y luego veremos estas ventajas de los árboles de decisión. ¿Bien? Entonces, la mitad del árbol de decisiones de estimaciones, ¿de acuerdo? Entonces esto no es realmente, como hemos aprendido, es un algoritmo de aprendizaje automático muy popular. Y resolver claramente problemas de aprendizaje automático transformando los datos en un trato una presentación como esta. ¿Bien? Trata así una presentación. Y cada nodo interno del árbol así. Y presentan nuestro denota un atributo y cada nodo hoja denota el nivel de clase. Y el algoritmo de árbol de decisiones se puede utilizar para resolver problemas de clasificación y problemas de regresión también. Entonces no es como cuando se filtró problema de clasificación se puede resolver con el árbol de decisiones. Pero también podemos resolver los problemas de regulación. ¿Bien? Así que esto ha sido d t, ¿de acuerdo? Por lo que esta entrada puede ser utilizada tanto para problemas de degradación como de clasificación. Entonces déjame decirte cuáles son las pocas ventajas del árbol de decisiones. Entonces, la primera ventaja del árbol de decisiones es que requiere menos permitirse en él requiere menos importante operador de preprocesamiento. Vamos a separarnos en el preprocesamiento de los datos, ¿de acuerdo? Entonces, para el árbol de decisiones o en comparación con otros algoritmos de aprendizaje automático, necesita trabajar un poco menos en el preprocesamiento de los datos o la preparación de datos. Se puede decir, me gustaría una pre preparación, o también se puede poner aquí como preparación de datos. Entonces hay que poner menos esfuerzo en preparación de datos y el preprocesamiento de datos, ¿de acuerdo? Entonces esa es una gran ventaja del aprendizaje automático. Nuestro producto. La segunda ventaja sería como que un árbol de decisiones no requiere escalamiento. No es necesario escalar los datos. El escalado de los datos no es realmente necesario. ¿Bien? Entonces esto tampoco se requiere y esa es una gran ventaja, ¿de acuerdo? Y luego la tercera ventaja, podemos decir que esto generalmente no requiere normalización de Beta. Entonces, aunque no estés normalizado los datos, puedes trabajar con el árbol de decisiones. Normalización de greta. Se arriba, no se requiere. ¿Bien? Entonces esto también es algo bueno en el aprendizaje automático y veremos ese árbol de decisiones. Entonces en el aprendizaje automático, los siglos y el algoritmo donde la normal adyacente y Gil enlazan los datos no es realmente necesario. Si quieres, puedes hacerlo, pero no realmente requerido. No va a tener gran impacto si los datos están normalizados o no. Si estamos trabajando con árbol de decisiones. La siguiente ventaja podría estar faltando valores en los datos tampoco tienen gran impacto en el árbol de decisiones. ¿Bien? Entonces, como si usas otros algoritmos de aprendizaje automático, tienes que trabajar extensamente para lidiar con el valor faltante. Pero en el árbol de decisiones, esto no va a tener, no va a faltar valor no tendrá impacto en el árbol de decisiones. Sin impacto, bien, Así que no va a impactar mucho. Entonces aunque falten datos ahí, puedes seguir adelante y crear un árbol de decisiones que no va a ir, no vas a faltar en nada que vaya a afectar tu decisión o impactar tus predicciones. ¿Bien? El siguiente modelo de árbol de decisiones de ventajas es muy intuitivo y fácil de explicar a los equipos técnicos ágiles a báscula titular. Entonces cuando ves el árbol de decisiones, es muy fácil llevarte a entender. Es muy fácil de entender y cualquier parte no técnica o técnica puede entender fácilmente. Entonces esta es la gran ventaja de un árbol de decisiones. Entonces, aunque quieras presentar tu árbol de decisiones a algún Um, tipo de gestión, puedes hacer que entiendan fácilmente el árbol de decisiones. Entonces esa es una ventaja de un árbol de decisiones. Aparte de ese árbol de decisiones. O como intuiciones muy humanas que obtienes con el árbol Get with the decision. Entonces es muy, muy similar al comportamiento humano. Nosotros también en nuestra vida cotidiana, tomamos el sí o no disjuntos similares, en base a algunas características o condición tomamos decisiones. Entonces es muy parecido a lo humano. Seré feliz con un algoritmo similar al humano. Bien, entonces estas son las pocas ventajas con las que podemos contar para el aprendizaje automático. Ahora veamos las desventajas del árbol de decisiones. Entonces, la primera desventaja del árbol de decisiones que podemos ver es que es muy, no, esa parte es confiable si tus datos están cambiando. ¿Bien? Entonces qué podemos decir, como si fuera un instable, como en estable. Y si los datos están cambiando, si los datos cambian. Entonces apoyarte, has tomado un árbol de decisiones y hay un pequeño cambio en los datos. Un pequeño cambio en los datos puede, puede tener un gran impacto, gran impacto en el árbol de decisiones. Entonces esa es una gran desventaja del árbol de decisiones. Incluso los pequeños datos de entrenamiento pueden causar gran cantidad de cambios en la estructura de los mismos. Árbol de decisiones apoyar esta decisión se ve así. Si cambias un poco los datos, puede haber sido estructura completamente diferente del árbol de decisiones y eso va a, eso, ese es un tipo de gran impacto, ¿verdad? La segunda desventaja es que el árbol de decisiones a veces va por más complejo en comparación con el otro algoritmo. Entonces, a veces para los datos más simples, su árbol de decisiones será un complejo. Entonces a veces obtenemos un árbol de decisiones muy complejo. Y si usas algún otro algoritmo, es posible que obtengas la solución más simple. Entonces hay que ver si su, para nuestra declaración de problemas en particular, realmente necesita un árbol de decisiones o no. Y si estás usando el árbol de decisiones, es más sencillo que el otro algoritmo o no. Si no es más sencillo que el otro algoritmo en el aprendizaje automático, debes ir con el otro algoritmo de aprendizaje automático y no tienes que seguir adelante con el árbol de decisiones. Así que a veces se vuelve realmente complejo. Lo del cuello es como entrenar un modelo de aprendizaje automático con árbol de decisiones es enorme, ¿verdad? Así que lleva tiempo, quédate tiempo para entrenar nuestro modelo de aprendizaje automático usando árboles de decisión. Entonces es tiempo tomando. Proceso es tomar mucho tiempo para el árbol de decisiones de entrenamiento. El tiempo que lleva a distancia es más. Entonces es el tiempo caro, ¿verdad? Tomará más tiempo en comparación con otros algoritmos. Y también es como una complejidad también está aumentando en el árbol de decisiones. Otra cosa podemos decir esa lección o no realmente muy impactante. Así es, si se usa un árbol de decisiones para problema de clasificación, problema de clasificación, es bueno. Pero para los árboles de regresión, no es tan impactante, ¿verdad? Como entendí, pero se puede hacer para ambos. Pero los árboles de regresión no son ese impacto. Entonces estas son las pocas desventajas de los árboles de decisión con los que podemos contar. Entonces eso es todo para esta conferencia. Estas son las ventajas y desventajas de los árboles de decisión. 79. Introducción del proyecto: Hola y bienvenidos. Entonces en esta conferencia, vamos a aprender sobre el proyecto al que vamos, a partir. Entonces vamos a hacer son muy importantes. Es un proyecto simple de aprendizaje automático que te dará claridad de lo que puede hacer el algoritmo simple de aprendizaje automático. En pocas líneas. Vamos a usar nuestra programación y vamos a usar nuestro conjunto de datos, que contendrá los datos anteriores hasta la organización. Y con base en los datos, vamos a predecir los precios futuros de las acciones. Sí, lo adivinaste ¿verdad? Vamos a hacer un proyecto donde hicieron sobre los datos anteriores, StockData previos de datos históricos de precios de las acciones. Vamos a adivinar los futuros precios de las acciones como a partir de ahora. ¿Cuál será el precio de las acciones en 100, 500 días, o después de un año o dos años, después de 30 días, después de 40 días, cuál será el precio de las acciones? Entonces esta será la predicción bursátil. Project, él aprendizaje automático, ¿de acuerdo? Y vamos a usar nuestra programación para eso. Tan simple archivo XML contendrá el precio de las acciones. Y para ello vamos a utilizar los datos del precio de las acciones de Google para Google. Y vamos a romper los precios de Google en los 400 días o 100, los días son días, ¿de acuerdo? Así que el precio de las acciones para X y proyecto vamos a hacer. Y para eso, tenemos este conjunto de datos en formato Excel, que está conteniendo los datos históricos precios de las acciones de Google 2019-2020. Bien. Y ¿ves cuáles son las columnas aquí? La primera columna es fecha, luego a partir del 26, 19 de septiembre. Y tenemos datos hasta el 25 de septiembre de 2020, casi un año de datos tenemos, bien, Y luego la segunda columna es D, y luego la tercera columna está abierta. Esto significa el precio de apertura. Cuando el mercado de valores abre por la mañana, ¿cuál era el precio? Entonces este es el precio de apertura el día seis, septum auto toggle 19, que es el primer día. Qué hace y entonces ese día fue 1,245, que es el más alto en un día. Y bajo deseaba que fuera a mil 232. Por lo que en un día partió de 1,241.95. Pasó a la ley de mil 232 y se elevó hasta mil 245 y cerró en mil 241. Entonces estos cuatro son detalle lo muy importante y ajustado cerrar es casi lo mismo. Y luego el volumen, como 15 lakh, 30,000 volumen estaba ahí. Entonces así, tenemos todos los datos para 365 días. Entonces, con base en estos datos, vamos a predecir los futuros precios de las acciones subiendo el Google. Si trazas estos datos en una gráfica, podemos ver cómo se mueven los precios hacia arriba y hacia abajo. Así que puedes ver aquí. Así que vamos a trazar este tipo de parcelas también y ver cómo los precios van subiendo y bajando. Dys, ¿bien? Entonces este es el proyecto que vamos a hacer. Y veamos, en la próxima conferencia comenzaremos a importar este archivo Excel a nuestro estudio de arte y luego escribiremos código simple e intentaremos predecir el precio futuro de las acciones subiendo las acciones de Google dentro de la siguiente conferencia. 80. Proyecto - predecir los precios de las acciones: Hola y bienvenidos de nuevo. En esta conferencia, vamos a comenzar con nuestro proyecto que está prediciendo el valor del precio de las acciones de Google en un día en particular basado en los datos históricos que tenemos con. Entonces tenemos esta hoja de Excel, que está teniendo aunque pasado un año datos como el 26, número 20192, hasta, creo septiembre 2020. Sí. Así que hasta el 25 de septiembre 20 países. Así que tenemos casi un año de datos del precio de las acciones de Google está con nosotros todos los 365 días precio abierto. ¿Cuál fue el alto valor de las acciones en un día en particular? Valor más bajo. ¿Cuál era el valor de cierre y cuál era el volumen? Entonces todos estos datos que tenemos, en base a estos datos, intentaremos crear un modelo donde podamos predecir el valor de las acciones en una fecha determinada, ¿de acuerdo? Supongamos dentro de tres días, o 500, 500 días, ¿cuál será la frase común? Yo diría que 100 días. ¿Cuál será la fase de trazo? Así que así. Bien, así que comencemos el código. Lo primero es lo que podemos hacer. Podemos importar el punto XLS del precio de las acciones de Google, el archivo Excel a nuestro estudio. Y cómo podemos hacerlo, podemos ir al expediente. Y aquí tenemos que ir al conjunto de datos de importación. Entonces tenemos que ir al conjunto de datos de importación. Y aquí se puede ver de impuestos, de los tres NADH del Excel, de diversas fuentes de datos se ha enumerado aquí. Entonces, lo que necesitamos seleccionar aquí, tenemos que seleccionar ese Excel aquí. Desde Excel, solo necesitamos hacer clic. Y luego aquí necesitamos navegar por el archivo donde hemos guardado nuestros datos. Entonces tenemos este archivo Excel. Así que solo lo abriré y recortaré los datos digitales. Y una vez hecho, nos dará la opción de importación. Entonces esta es una forma de importar el archivo de datos al estudio más duro. Esa es otra forma. Y eso también veremos y veremos aquí ahora podemos ver la vista previa del código de esta importación. Viene como biblioteca. No necesito Excel y precio de las acciones de Google será el objeto. Y aquí usaremos la función Leer Excel y proporcionaremos el bot al archivo Excel con el nombre de archivo. Y entonces podemos usar la vista, este objeto. ¿Bien? Y esto será para que simplemente podamos copiar este código. Y no sé por qué está tomando tanto tiempo. Podría haber alguna resonancia magnética, así que déjame cancelar esto e importar. Ver. Ahora, los datos han sido importados a nuestra mano de estudio. Sí, podemos ver los mismos datos que estamos viendo en este archivo de Excel. Ahora, podemos ver dentro de este estudio de arte. Bien, entonces ahora tenemos el, ahora, si queremos ver estos datos aquí, ver sin embargo no hay Claudia. Pero como hemos importado, podemos usar la vista real. Y aquí podemos usar el nombre de objeto sólido tu mano. Podemos correr aquí y ver que va a venir lo mismo. Incluso si quieres usar resumen de los datos. Alguien podemos ejecutar esto y vamos a conseguir a alguien arriba de este conjunto de datos aquí. Media, primer cuartil, mediana media, tercer cuartil valor máximo sobre la cantidad de septiembre de 2020 Y fue 1,710, el máximo es 1,733. Ese será el más alto. Y este es el máximo de apertura máxima. Y este es el máximo más alto ni máximo local y máximo de cierre. ¿Bien? Así que de esta manera podemos ver el resumen de datos, ¿de acuerdo? Ahora, en lugar de usar esto, también podemos usar el podemos usar la biblioteca. Podemos usar la biblioteca de códigos. No sé por qué viene. Si no conoces el código, simplemente puedes ir al Dataset de Importación de Archivos y desde Excel. Y aquí puedes ver el código aquí. Sólo tienes que copiar esto y sólo tenemos que pegarlo aquí. Y sin embargo hay que poner el Excel Read, y aún así tenemos que poner el nombre del bot. Bien, ¿cuál será la parte aquí que vamos a poner? Sólo puede poner esto. Así que estamos reordenando la biblioteca Read excel, y luego estamos usando el nombre del objeto en lugar de usar la función Excel y proporcionar el archivo XL de la parte mala. Y entonces podremos usar el precio real de las acciones de Morgan y nos dará el mismo resultado. Esto y mira, sí, estamos recibiendo lo mismo. ¿Bien? Entonces de esta manera hemos leído y visto los datos en nuestro siguiente paso es que necesitamos entender la estructura de los datos. Entonces, si quieres entender la estructura de los datos, puedes usar la función de resumen, resumen de este precio de acciones de Google. Y obtendrás el resumen de los datos como ya hemos visto. De esta manera. Lo siguiente es lo que tenemos que hacer. Necesitamos visualizar los datos. Entonces lo siguiente es lo que tenemos que hacer. Necesitamos visualizar los datos, visualizar los datos. Entonces para esto, lo que voy a usar, los voy a usar mucho. Entonces qué voy a hacer, no sé por qué esto viene una trama enorme. Y usaré esa columna abierta y usaré d y luego los datos estarán bien. Y luego solo ejecuta esto. El horno, ejecutamos esto, veremos los datos. En tu lección. Veremos la trama aquí. Entonces aquí ese es el precio de apertura y este es el día 1-2, morado. Esto, podemos ver los datos, cómo están enviando sus precios de acciones el fin de semana. Usted visualiza aquí. Así que de esta manera podemos llegar más tarde, más tarde. Lo siguiente es lo que tenemos que hacer. Necesitamos usar la regresión lineal para predecir la función. Entonces, ¿qué va a utilizar? Voy a usar el precio predicho. Y para el precio predicho, lo que voy a usar una celda hilum Fung y esta función lm lo hará, voy a usar en la misma entrada voy a dar jornada de puertas abiertas. Y se hizo en este conjunto de datos, bien, archivo Excel datos ALU, conjunto de datos. Y luego sólo voy a llevar al precio predicho. Así que sólo voy a poner en el precio más alto aquí. Entonces déjame dirigir esto. Ver aquí está diciendo el núcleo presente y esto. Bien, entonces ahora lo que voy a hacer, voy a usar la función de resumen para ver qué estamos obteniendo por este precio predicho. Hasta el momento, este precio predictivo, mínimo, primer cuartil, mediana, tercer cuartil, todas estas cosas que estamos obteniendo. Ahora, lo que voy a hacer, voy a predecir la puerta. Valor bursátil predictor en un día determinado. ¿Bien? Para que podamos hacer eso. Puedo usar la función predict. Y puedo usar el precio. Sí. Y entonces lo que pueda usar, puedo usar data dot frame. Aquí. Puedo proporcionar d es igual a 350, ¿de acuerdo? Y esto nos dará, esto nos dará el precio de las acciones previsto el tercer día. Entonces déjame correr esto, mira aquí. Sobre la tasa de mortalidad por periodo, será, el precio de las acciones será de mil 620 puntos para ello. Si puedo esto por 50. Por lo tanto, el precio de las acciones se separará. El precio de las acciones será de 1,700. Beneficiario, si pongo 150 , serán mil 400. Si pongo uno, leerá 12, 30 mil. Ver, el precio de las acciones de Google casi se duplicará desde el primer día. Entonces de esta manera podemos poner el valor d aquí y podemos predecir cuál será el precio de las acciones en ese día en particular. Entonces es un proyecto bastante sencillo que también puedes probar. Se puede predecir el soporte. Quiero predecir el valor en uno, por favor. Segundo día. Un propósito en segundo lugar, de esta manera, bien, Así que de esta manera también puedes probar en tu propio conjunto de datos o puedes usar el mismo conjunto de datos que puedo proporcionar. Puedes descargar el conjunto de datos y puedes probar y puedes predecir el precio de las acciones. También puedes hacer una hoja de Excel propia y poner algunos valores aleatorios. Y puedes poner tus propios valores aquí y puedes predecir, puedes tomar cualquier otro conjunto de datos que esté teniendo el o algunos otros valores que también puedes probar y puedes poner en el mismo código y puedes intentar predecir el valor. ¿Bien? Entonces este es un proyecto simple utiliza la función lm para predecir este precio de las acciones de Google. Espero que hayan entendido cómo usamos el aprendizaje automático y todas estas funciones simples en R para predecir los precios de las acciones. Gracias. 81. Análisis de datos de Uber con R: Hola y bienvenidos. Entonces en esta conferencia, vamos a aprender sobre el análisis de datos a través de visualizaciones en R. Y para ello, vamos a hacer un proyecto en el que vamos a usar donde los datos, cuál es el gap agregator, proveedor de servicios para conseguir el derecho en una app de evocación de cab x. Se puede ver. Entonces usted o el número uno en la pared para un proveedor de servicios de taxi. Entonces vamos a utilizar los datos de UPA para el análisis de datos de este producto. Entonces, la motivación de este proyecto es realizar la visualización de datos, la narración y cómo podemos usar los datos para analizarlos y obtener información útil de ellos. Este es un componente importante del aprendizaje automático a través cual las empresas son capaces comprender los antecedentes de diversas operaciones. ¿Qué significa? Significa que supongamos lo que se hace en el servicio de agregador de brecha y los conductores de mini taxi están adjuntando su brecha dos aplicaciones Over distintas. Luego hago streaming y la aceptación en brindar el derecho al cliente. Tan enorme que está registrándose en la aplicación y luego está tratando de gran brecha en función de su ubicación. Entonces, ¿qué haces en cuanto inicias sesión y seleccionas tu ubicación y tu destino a donde quieres ir Basado en tu localidad. Enumerará todas las gorras cercanas que pueden estas para ti en el tiempo más rápido. Lo hará. Lo hará. Lo hará. Almacenará todas las brechas cerca de ti y luego será la ubicación de género y tu requerimiento, se verá mejor para ti, lo que te puede llevar al destino por el momento más rápido. Entonces, ¿cómo lo hace? Simplemente eres un montón de concepto de inteligencia artificial, aprendizaje automático y ciencia de datos para analizar los datos y darle a esto una recesión. Entonces en este proyecto vamos a utilizar los datos. Y vamos a analizar como cuántas están sucediendo en un día o muchas tarifas mensuales están sucediendo en un día. Cuantos de su LEA que empiezo a pasar vidas mensuales y DY es a qué hora del día el VGS, ese tipo de análisis vamos a hacer en este proyecto. Entonces todo este tipo de operaciones las podemos hacer con el **** papa, hacer con la ayuda del machine learning. Con la ayuda de visualizar y las empresas pueden aprovechar el beneficio de comprender los datos complejos y obtener información que les ayudará a cosechar esto no lo es. Entonces La parte de visualizar es muy importante porque con la vigilancia y podemos analizar rápidamente los datos y obtener insights realmente útiles como ¿a qué hora del día es el BGN? Qué localidades tienen menos requerimiento de la cabina donde los usuarios no están recibiendo tiempo de cabina cuando está rezagado. Todos esos análisis los podemos hacer con la visualización. Esto es más bien un dato visualizado en un proyecto que lo guiará hacia el uso de la biblioteca ggplot2 para comprender los datos y para desarrollar una intuición para comprender a los clientes que están en los clips en qué aplicación. Bien, entonces esta es la, esto es lo que vamos a hacer. Y el objetivo de este proyecto es aprender visualizaciones en R y analizar los datos. Así que comencemos. Entonces antes de continuar, tenemos los datos o archivos UVA con nosotros. Y estos son como esto es este es el dato para mes afebril. Y esto es tener cuatro columnas, fecha, hora, latitud, longitud, y con base. Entonces esta es la información que captan tus amigos. Bien, entonces fecha y hora, longitud, latitud y longitud. Y latitud dará la ubicación de la brecha y la hora o a qué hora están reservando y la base desde donde la mejor ubicación para eso. ¿Bien? Entonces estos son los datos que tenemos. Y así es de la misma manera. Tenemos un mes de mayo, junio, julio, agosto y septiembre, los datos del mes que tenemos. Y vamos a analizar esto con base en estos datos. Estos datos son bastante simples. Fecha y hora, latitud, longitud Y así vamos al archivo. Sin embargo, estoy usando R para analizar esto. Entonces antes de continuar, vamos a importar biblioteca de frutas, es decir GG parcela dos. Bien, luego lubricar y ordenar las habilidades DT. Entonces, ¿qué es GG plot to GG plot twist? La biblioteca de visualización de datos más popular que es más utilizada para crear gráficas de regulación estética. Así que la trama GG es muy popular en nuestra programación por crear muy estéticamente guapa y muy desconcertante y muy atractiva visualizar y guantes y tramas. Entonces vamos a usar la trama GG dos. Entonces estaremos usando Lubridate. Es este apalancamiento para el marco de tiempo. Usar los marcos de tiempo en el conjunto de datos. Entonces tenemos la capa profunda es la biblioteca de manipulación de datos que vamos a usar. Dres e importante biblioteca, hará que tus datos sean muy ordenados. ¿Nuestros datos ordenados significan pequeños, determina los datos con los que es fácil trabajar? Los datos. Si es fácil trabajar con él, podemos usarlo en la otra biblioteca así de fácil. Entonces usaremos la biblioteca ordenada R para ordenar nuestros datos. Y luego usaremos el meollo, las tablas de datos en la biblioteca JavaScript que vamos a usar. Entonces realmente alcanzando habilidades, habilidades. Estas bibliotecas solían, con la ayuda de lo gráfico, con la ayuda de la escala gráfica, podemos mapear automáticamente los datos a las habilidades correctas con el ****, con la x bien colocada. Por lo que esto nos ayudará en que mapee automáticamente los datos a la escala correcta. Entonces para esto, necesitamos usar esta biblioteca. Entonces antes de eso, si no has instalado estas bibliotecas, puedes ir a las Herramientas aquí y luego dar click en los paquetes de instalación. Y aquí puedes simplemente paquetes populares llamados yuk, como puedes poner GG plot dos. Y entonces si quieres todos juntos, puedes poner temas GG y puedes poner coma y escribir todos los nombres, fechas luminarias. ¿Bien? Entonces así, puedes hacer, y puedes dar click en la instalación esta biblioteca, esto para ti. Entonces así, puedes instalar los paquetes. Entonces lo repetiré otra vez. Necesitas ir en RStudio para ir al menú superior. Aquí encontrarás las herramientas. Da click en las herramientas, y aquí verás las distintas opciones. En Rodopsina. Hay que seleccionar el primero, instalar paquetes, y luego hay que darle el nombre del paquete GG plot dos. Y si queremos instalar varios paquetes al momento, y luego puedes poner coma y dar los nombres de los paquetes poniendo una coma entre ellos y luego dar clic en el stock. Ya tengo instalado este paquete es así que lo dejaré para que se agite. Y si no lo has instalado, solo tienes que hacer clic en el Instalar y se instalará en Australia rural. Entonces, procedamos más allá. Entonces, una vez que nuestro laboratorio los use y los use, nosotros solo tenemos que decirle a los más difíciles de hacer eso. Vamos a agotar estas librerías GG plot rho, g times lubridate, ordenado, verso ordenado, DT y escamas. Entonces para eso necesitamos importar la biblioteca. Y luego en el pequeño corchete, necesitamos poner el nombre de la biblioteca GG parcela dos. Y todas las bibliotecas que somos enormes, necesitamos escribir de esta manera. Bien, así que una vez que hayas escrito esto, selecciona todas estas bibliotecas y da click en Ejecutar. Y estará listo para los judíos en los terrenos de Europa. Ahora lo siguiente, lo que haremos, crearemos los vectores de color, vectores de colores para las parcelas. En nuestras parcelas, usaremos los múltiples colores para las parcelas. En nuestras parcelas, usaremos los múltiples colores para hacerlo más atractivo y estéticamente atractivo. Y para eso, crearemos el vector de colores. Entonces aquí estoy creando un vector de colores y estoy dando C, y luego le estoy dando el nombre del color, el ACCC 10166 igual tipo. Entonces todos estos grises Verde, amarillo, azul, rosa, todos los estudiosos vamos a ser utilizados. Entonces estos vectores crearán y ejecutarán esto. ¿Bien? Y luego lo que haremos, lo siguiente es que leeremos los datos de cada cronograma y comeremos. Lo que vamos a hacer. Tenemos el archivo de datos de cada mes como tasado mayo, junio, julio y agosto. Así que vamos a hacer esto usando un punto de lectura csv. Sabes que para leer un archivo CSV en R, leemos la función del método dot csv, así que el punto CSV. Y luego aquí vamos a dar la ruta para nuestro archivo de datos. Entonces tenemos archivo de datos almacenado en esta parte, así que vamos a dar eso y el nombre del archivo estará al final. Bien, entonces ahora vamos a tratar todos estos datos mensuales. Bien. Simplemente haga clic en eso y vea. Se está leyendo con éxito para agosto, septiembre, y nos vemos corriendo. Entonces ahora está hecho. Y lo siguiente es lo que haremos. Combinaremos los datos juntos. Ahora hemos leído los datos y los hemos almacenado en estas variables. Media junio, julio, agosto, septiembre. Ahora lo que haremos, usaremos el método onBind para unir los datos. Entonces ahora todos estos seis meses saliendo con uno. Bien, entonces usaremos los datos aquí. Método de enlace impar, y solo pasaremos estos objetos mayo, junio , julio, y se concatenarán juntos. Bien, así que vamos a ejecutar esto. Entonces ahora tenemos el sentido de diamante del lago de datos para columnas y los muchos roles. Bien, entonces ahora queremos ver cómo se ven los datos combinados. Entonces usaremos la cabeza y proporcionaremos los datos del objeto aquí. Por lo que imprimirá las primeras cinco columnas de los datos. Bien, ven mi mayor, ahora, tenemos estos datos para el tiempo, latitud, longitud. Y lo siguiente es, usaremos estos datos contiene columnas fecha hora con estos datos contiene columnas, fecha y hora, que es un factor, y longitud, latitud, que son dobles, y básicamente factores. Entonces formatearemos el datetime en ellos formato legible usando datetime, converger y funciones. Así que aquí estamos dentro la función de foxing convergente datetime aquí para convertir esta datetime en una más legible. Entonces para esto usaremos datos y datos fecha, fecha, hora, y luego recargaremos como CD oscuro, formato de hora, año, mes fecha, año, y horas, minutos y segundos. Bien. Y entonces cuando lees este formato es éste y Ley de Reforma en el hospitalista. Excelente. Bien, y luego combinaremos esto. Bien, vamos a correr. Esto. La secuencia de comandos sigue ejecutándose. Cuando esto desaparezca, puedes pasar al siguiente. Sólo ejecuta esto. Entonces se está ejecutando. Lo siguiente que haremos, crearemos columnas individuales por mes, día y año. Y para eso obtendremos datos día, mes, año y media semana. Y vamos a usar el factor aquí vectoralmente. Y sin embargo, realmente tómate el tiempo. De hecho, nuestro nivel de tiempo de entrega mensual y factor de tiempo entre semana en los datos. Bien. Bien. Y vamos a ejecutar esto también. Entonces ahora se está ejecutando. Sí. Entonces, lo que haremos, crearemos las columnas neutrales un mes. Lo siguiente, lo que haremos, agregaremos variables de tiempo también. Por lo que medio tiempo son capaces de hacer INR de segundo minuto. Y aquí, el factor material que segundo Aspen un segundo y pedirles el segundo vector de ruido. Segundo vector mina puede tomar la ventana RN. Esto también va a correr esto. Entonces se está ejecutando. Lo siguiente cuando esté hecho, veremos los datos. Datos. Usaremos el método para ver los datos como se ven. Entonces corramos esto y veamos ahora tenemos la tierra diurna, latitud y longitud. Estas son las cuatro columnas que ya están ahí. Lo hace. Ahora hemos creado nuevas columnas como hora, día, mes, año, día de la semana, segundo minuto. Y así estas son las columnas 123-45-6788, nuevas columnas que hemos creado. Y estas columnas le darán más perspicacia al auditor. Piensa que lo hará, dirá como Dios, solamente, que ahora sabemos qué día del mes, qué mes, y cuál tuvo un Richie Rich de, día de la semana también llegará a conocer. Y luego segundo creado. Ahora. Ahora hemos terminado con la Nita caminando sobre los datos y creando características, nuevas características, nuevas columnas aquí. Entonces lo siguiente es, pasaremos al visualizador de datos y parte creamos aleatoriamente las gráficas y las gráficas e intentaremos utilizar más. Aquí. Lo que haremos lo primero, lo primero que haremos es trazar los goteos por RT y RD. Para eso, lo que haremos, usaremos los datos de subrayado son valiosos y lo que haremos los datos agrupados por R y usaremos la capa profunda para resumirlo. Y cuando ejecutemos esto, ahora, ahora mira esto. Ahora mira esto. Ahora estamos obteniendo estos datos cero o uno o dos o 3 h. estamos obteniendo tabla de datos que hemos comido ¿puedes seleccionar cuántos árboles quieres ver a la vez. Bien. Lo siguiente son los datos fuente en la tabla de ayer. Pero ahora lo que haremos, trazaremos los datos por nuestra gráfica GG y la gráfica GD aquí. Los únicos datos que hemos creado aquí. Y como nuestro li. Y luego usaremos identidades de barras geométricas. Aún así, sigue sintiéndose con este azul verde azulado y el color se extenderá. Después titulado tipos de revisión por r y subtítulo agregado. Y la leyenda posiciona ninguna trama, título del texto y cómo 4.5 y 0.5 y una habilidad como continua. Bien, entonces ahora vamos a trazar los datos por nuestro sol esta C, y ahora estamos consiguiendo la trama por nuestros viajes. Cada RM aquí subtítulo es productos agregados hoy en día. Así se puede ver las tres o 24 h estamos consiguiendo que viajes cada auditoría este juguete que he empezado, fueron estas muchas cintas. El segundo tercio, oscuro u oscuro así. Ellos nadan club por 24 h y se hacen con esto, podemos ver que los 17 están en ellos o tenerlos más número de viajes. Entonces el pico son cargos si quieren aplicar el medio aplicando desde Filipinas están formando nuestro producto. Medianoche el segundo o por litro. Entonces estas, estas, estas muchas cosas, estas cosas, estos tiempos son muy VCR y aquí, cuando veas en el horario de la tarde, The Office y termina, van a aplicar que van a aplicar van a cobrar los cargos más grandes y van a aumentar la cabina. Entonces así es como lo hacen. Por esto encontraremos, llegar a los Rs están listos VD y en base a eso, nos meteremos en el arroz. Entonces así es como Uber hace eso. Ahora, haz los consejos de trazado por r y mes y agregar nuestros datos y realmente usar el grupo por función aquí, mes son los declarados para resumirlo. Entonces prueba esto Entonces haremos la trama de GG para tramarlo. Entonces C y ahora estamos consiguiendo la trama aquí, que está deprimida por n meses. Entonces mira aquí, éste, este color, esto es de verdad, esto es para mí. Este es el Módulo en julio, agosto y septiembre. Pero nuestro cada mes lo destruyeron. Entonces, qué mes está teniendo más o menos el pKa es similar en todos los meses. Más o menos, no exactamente, pero más o menos se puede analizar. Entonces al parecer septiembre también, hombre musulmán aquí arriba, jabón de Castilla y agua cada mes. El vaso de precipitados queda síntesis. Es más o menos de la misma manera que va adelante cada mes. Entonces lo que resumió a algunos chicos como grupo por mes y se puede anular esta quiebra. Entonces ahora lo que haremos trazando, voy a trazar datos por viajes durante todos los días del mes. Por lo que para la dieta se utilizarán los datos como un valioso y grupo por día. Y usamos el Deepak para resumir startups. Ejecuta esto y luego esa trama fácil para trazar esto. Entonces esto va a refresco y papas fritas por lo óptimo. Entonces ahora cuando veas esto, te dará suficiente cantidad de viajes por día. Hay muchos tipos segundo día así, así que muertes por día del mes. Podemos hacer así. Lo siguiente, lo que haremos es recopilar datos por día de la semana y meses. Entonces aquí usaremos el grupo por día de la semana y mes. Y realmente la capa profunda para resumirlos, tema de sangre. Así que a menudo ejecutar esto. Y después de eso. La trama DD tomó profundidades de lote por día y mes. Entonces, cuando hagamos esto, obtendremos regalos por día y mes. Y tenía que estar contento con una combinación de colores que tenemos en ella y al principio aquí, bien. Ahora, con esto, lo que podamos conseguir, lo podemos conseguir para días de la semana así. Para los días de la semana. Domingo, lunes. Por cada mes. ¿Cuántas vidas hay el domingo? ¿Cuántos días hay? ¿El lunes? ¿Cuántos días faltan para el día? ¿Cuántos días? Miércoles, jueves, viernes a cada día de la semana te dará el número de derechos, pero todos los meses. Entonces con esto, podemos analizarlo rápidamente para el domingo. Apple tiene el menor número de peleas y este mes les fijó ¿cuál es la que más cantidad de paseos está teniendo el domingo? El martes de septiembre, divirtiéndose más, más montantes. Entonces así, podemos encontrar rápidamente el día más popular del mes. Ahora vamos a hacer una serie de viajes realizados al mes, al mes, del oído interno. Entonces para eso usaremos grupo por mes. No lo hicimos mes a mes en un año. Entonces para eso usaremos grupo por mes. Y luego trazaremos usando la trama GG. Ejecuta esto y verás que ahora estamos consiguiendo esos viajes en un mes. Así lo hicieron muchos viajes pero que puedan, junio, julio, agosto. Entonces es así tubo ET. Al mirar la gráfica, se puede decir que septiembre está teniendo más número de viajes arriba redact agosto y julio y mayo y junio no teniendo casi tipos similares, casi. A pesar de que Joni un poco mejor que yo, Y luego aparentemente realizando meses en un año. De esta manera. Ahora, lo que haremos, crearemos un mapa de calor, DR y mes. Así que para la cubierta se agruparán por día son muchos viajes. Excelente como esta. Ahora vamos a trazar el mapa de calor por R&D renovado GG trazarlo. Voy a usar esta batería ¿ todavía puedes tomar un bocado? Y sin embargo, cuando se llenan con el protón en un día determinado, clase particular, cuántos totales, acumulativos se mantienen blancos. Vamos a ejecutar esto aquí. Ahora, estamos recibiendo este mapa de calor Nuestro mapa por día y así nuestro día. Y para este arte al octavo día, esto en 11 veces 11 hoy. Y para ello podemos analizar más. Ahora cuando el mapa de calor parcela D y mes. Y luego esto, y luego vamos a GG Plot mucho esto. Ahora vamos a mantener un poco mi mes de diversión. Y lo siguiente es que trazaremos el mapa de calor T de la semana y del mes. Esto, así que este es el mapa de calor para mes y día y mes, mes. Y tengo acceso a un poco de limón más tarde hoy. Con esto también podemos tener ahora vamos a crear la relación de mutilación para los precios en Europa. Por lo que mínima, máxima, mínima y máxima verosimilitud conseguirá NYC. Y aquí lo que vamos a hacer, vamos a tratar de trazar estas dos agendas. Parcela Gg, GG. Así que aquí GG plot, nuestro conocimiento de iluminación dramática, valor total dentro de un color y la piel, minlength max y Min max verosimilitud que estamos brindando. Y luego volvemos y estamos usando la gráfica GG para trazar este mapa de valores propios y lisina basado en los domingos. Se está llevando algún tiempo. Sigue funcionando. Esperemos a que se salga de aquí. Tan solo tardando mucho tiempo. Entonces déjame mostrarte el mapa, ese mapa padre NYC para escribir, pero en un septiembre práctico. Entonces aquí se está tomando algún tiempo para así que aquí hemos agotado todos mis datos anteriores a septiembre para 2014 para analizar y que posteriormente Uber cabalga en función del tiempo. En base a eso, llegaremos a D qué mes es mejor. Entonces todas estas visualizaciones podemos y usando los datos. Entonces espero que este proyecto te ayude a entender la visualización y el análisis de datos 82. Segmentación de clientes del proyecto 3 con R: Hola y bienvenidos de nuevo. En esta conferencia vamos a hablar otro proyecto que es proyecto número tres para esta clase. Y ese es el proyecto de segmentación de clientes usando nuestra programación. Entonces, en este proyecto, aprenderemos cómo podemos hacer segmentaciones de clientes utilizando nuestra programación realizada en un conjunto de datos. Entonces, independientemente de los datos que tengamos, el conjunto de datos del cliente, eso es una enorme segmentación de clientes de productos. Por lo que intentaremos encontrar el segmento de clientes que por ahora será útil. Las empresas para encontrar a sus mejores clientes y los de mejor desempeño nuestros mejores clientes para su negocio. Entonces, ¿qué es la segmentación de clientes? segmentación de clientes es una de las aplicaciones más importantes del aprendizaje no supervisado. Entonces, como sabes, hay dos, ya sabes, hay dos clases de aprendizaje. Uno es el aprendizaje supervisado y otro es el aprendizaje no supervisado. El aprendizaje supervisado es una especie de aprendizaje donde el libre albedrío, supongo que es un niño y queremos que aprenda. Hay dos formas de brindar donde supervisaremos su aprendizaje. Dígale qué hacer, cómo hacerlo y nos dará instrucciones de configuración para que aprenda. Y hay aprendizaje no supervisado donde no vamos a equipo de supervisión. Será sin supervisión y aprenderá por su propia experiencia. Por lo que hay dos tipos de supervisados y no supervisados. Y la segmentación de clientes es una especie de aprendizaje no supervisado. No te costó Dios, agrupando. Mediante técnicas de clustering, las empresas pueden identificar los diversos segmentos de clientes o reducir la base de usuarios potenciales en este proyecto de aprendizaje automático. En este proyecto de segmentación de clientes, haremos uso de k-means clustering. Aprenderá lo que es k-mean clustering. Y vamos a estar con esta tecnología de clustering k-mean para este proyecto, que es esencialmente un algoritmo para agrupar conjuntos de datos sin etiquetar. Así que aquí vamos a utilizar el conjunto de datos sin etiquetar siempre que necesites encontrar a tus mejores clientes clientes en mentación, ya sea metodología ideal. Porque con esto, podrás encontrar fácilmente esos segmentos de clientes. Y mientras mira el segmento de clientes, puedes encontrar tu mejor base de clientes. Y puedes tener escalera Target, Quienes ellos para vender tu producto o servicios. Realizaremos una de las aplicaciones más esenciales del machine learning, la segmentación de clientes. En este proyecto, implementaremos segmentación de clientes en nuestra programación. Entonces ahora tenemos la tecnología de segmentación de clientes y clustering de reembolsos que vamos a utilizar. Entonces entendamos en detalle qué es la segmentación de clientes en un poco más diferente, poco más en detalle. Entonces la segmentación de clientes es el proceso o la región hasta la base de clientes en varios grupos de individuos que hay similitudes diferentes maneras que son relevantes para el marketing, como el género es interés y hábitos de gasto diversos. Las empresas que implementan segmentaciones de clientes están bajo el norte de que cada cliente tiene diferentes requisitos y requieren un marketing específico, se permiten abordarlos adecuadamente. Las empresas tienen como objetivo obtener un enfoque más profundo de los clientes a los que se dirigen. Por lo tanto, tiene que ser específico y debe ser adaptado para atender los requisitos de todos y cada uno de los individuos tiene los requisitos de todos y cada uno de los clientes individuales para todos ellos. A través de los datos recopilados, las empresas pueden obtener comprensión más profunda de las preferencias de los clientes, así como el requisito para descubrir segmentos valiosos de valor, ese sería el máximo beneficio. De esta manera, pueden elaborar estrategias de sus técnicas de marketing de manera más efectiva y eficiente y minimizar la posibilidad de riesgo para su inversión. La técnica de segmentación de clientes depende varios diferenciadores clave que dividen los clientes en grupos para ser focalizados. Los datos relacionados con la demografía, geografía, situación económica, así como rehabilitación, patrón real juegan un papel crucial en la determinación de la dirección de la empresa hacia abordaje de la variable diversos segmentos. Entonces, lo que entendimos por segmentación de clientes es esto UP AL sumar la base de clientes en varios grupos de individuos en función de la similitud diferentes formas que son relevantes para el marketing. Al igual que podemos dividir la base de clientes en función del género, como género, masculino, femenino, tipo de cosas en función de los grupos de edad como adolescentes Adultos y las personas mayores a tipo de grupos que podemos hacer, hechos sobre estos parámetros basados en el interés. Supongamos que tenemos el cliente, una gran base de clientes donde podemos segmentar la base de clientes en función de sus intereses. Al igual que a alguien le interesa la música y la danza, las artes y los títulos en el drama. Así podemos segmentar a los clientes y luego en base a sus intereses, podemos recomendar productos y servicios. Si alguien está interesado en. Supongamos que en los deportes podemos, podemos mostrarles los anuncios se les vende el producto o servicios que están relacionados con ese deporte en particular. Por lo que estas son cosas muy importantes identificar a los mejores clientes a los que dirigirse. Con esta segmentación, las empresas obtendrán una comprensión más profunda de su base de clientes. Y en base a la comprensión y segmentación, pueden dirigirse a los clientes de una manera más específica. Y eso aumentará su rentabilidad. Porque si solo eres remitente, enviar algún complemento al cliente y estás vendiendo tu producto y servicios son para el apoyo de personas mayores y estás enviando tus correos electrónicos a todos, entonces para los adolescentes, no es relevante, ¿verdad? ¿Qué adulto? Puede ser relevante de alguna manera que tengan a los ancianos en casa. Pero es más parecido, pero es más probable que sea relevante para las personas mayores de 60 años o mayores. Por lo que es mejor apuntar solo a las personas que tenían la edad de 60 años y luego te dará la mayor ganancia. Entonces, ¿esto es lo que significa la segmentación de clientes? Entonces antes de proceder al nuestro proyecto, vamos a entender qué es el algoritmo k-means. Mientras se usa el algoritmo de clustering K-means, el primer paso es indicar el número de clústeres que deseamos producir en la salida final. Bien, entonces primero lo primero, tenemos que decidir el número de clústeres que queremos producir en la salida final, el algoritmo comienza seleccionando k objetos de conjuntos de datos aleatoriamente. Por lo que primero seleccionará el número k número de objetos del conjunto de datos aleatoriamente que servirán como los centros iniciales para nuestros clústeres. Los cúmulos estelares selectos significan también numerosos centros. Entonces estos son, como dije, hay k objetos que hemos seleccionado. Entonces estos objetos seleccionados o cluster significa, y también se les conoce como centroides. Entonces los objetos restantes tienen una asignación del centroide más cercano. El centroide, el centroide se define por la distancia euclidiana. Pegue la distancia euclidiana presente entre el objeto y el racimo. Nos referimos a esta cinta de asignación de clúster de Azure. Cuando la asignación sea para completar el algoritmo se procede a calcular nuevo valor medio de cada reactivo de clúster en los datos después del recálculo del clúster, las observaciones o verificar si son de cierre a un clúster diferente utilizando la asignación de clúster actualizada. Esto continúa repetidamente a través varias iteraciones hasta que las asignaciones del clúster se detienen. Alterando. Los racimos que están presentes en las titulaciones actuales son los de hidratación previa. Resumiendo el agrupamiento de k-medias. Entonces esto es lo que significa k-means clustering. Especificamos el número de clústeres que necesitamos crear. Después algoritmo selecciona tus objetos al azar de nuestro conjunto de datos. Este objeto es cluster inicial o significa los riesgos y pruébalo. Nuestro objeto clave o pin la asignación de una nueva observación. Rebasó esta asignación en la distancia euclidiana entre el objeto y no lee los k clústeres en los datos. Una vez que nuestro centro de datos a través del cálculo de los nuevos valores medios presentes en el, presente en todos los puntos de datos, ese punto de datos puntos, ese punto de datos de los clústeres, el centroide de clúster késimo tiene una longitud de P que contiene la media de todas las variables para observaciones en el clúster késimo. Denotamos el número de variables sería trato de minimizar Jason hasta el total dentro de la suma de los cuadrados, luego a través del hidrato, minimización de la suma total de la asignación al cuadrado dejó de dudar. Cuándo y cuándo logró el máximo arbitraje. El valor predeterminado es diez que el software de arte utiliza para la máxima operación, por lo que la dirección máxima. Y en su lugar, calculamos el algoritmo de clustering para varios valores de k, esto se puede hacer creando variaciones dentro de k, 1-10 clusters. Entonces podemos calcular la suma intraclustre de cuadrados que se llama SS. Entonces esperábamos ese número, k clusters. Esta trama denota. Entonces obtendríamos los k clusters. Y en base a eso, ya veremos, así que esta es la parte teórica para este proyecto. En este proyecto, en la próxima conferencia, empezaremos a hacer el proyecto cuando comencemos a discutir el código para este proyecto y haremos el proyecto real. Segmentación de clientes. Nos vemos dentro de la siguiente conferencia. 83. Segmentación de clientes de la parte 2 del proyecto mediante R: Entonces comencemos con el proyecto. Entonces aquí lo primero es que necesitamos un archivo de datos que contenga toda la información del cliente. Entonces aquí estamos usando model, model underscore. Los clientes comienzan con el archivo CSV y este archivo CSV está aquí. Y si lo abro aquí puedes ver el número de cliente, género, edad, e ingresos, puntaje de gasto. Toda esta información ha sido dada. Tenemos las cinco columnas numeradas por el cliente, y cada puntaje anual de gasto de ingresos. Entonces esta es la información de todo lo que tenemos. Y en base a esto, vamos a conocer esa segmentación de clientes utilizando Así que comencemos. Entonces, primero lo primero, tenemos que leer ese archivo. Así que utilizo los datos de la app son valiosos o los datos de subrayado del cliente y voy a usar la función, leeré punto CSV y Mazda parte, parte la pelea deja archivo CSV y va a leer el ahora de ese archivo CSV puedas ver que la identificación personalizada, el género, la edad, los ingresos anuales, y el gasto de este curso. Entonces aquí puedes ver sus propias columnas de tipo de datos, char, char ¿Bien? Lo siguiente es lo que hacemos. Nombramos datos de clientes y luego realmente, oye, intenta imprimir las primeras cinco columnas. Aplastado favorito o estudiar la identificación del cliente, género, la edad y las cosas de Cómodo dispuestas Bien, Puedes ver Lo siguiente es realmente resumir esto con el cliente es, así que vamos a ejecutar esto y ver Sin embargo, cuando usemos el resumen Wong Sun Belt en el borde, nos dará la edad mínima Primer trimestre yo, primer cuartil, mediana, media tercer cuartil Entonces esto es para los datos de edad sobre esto e hizo alguna estadística, ¿de acuerdo? Entonces la edad del cliente, los ingresos anuales y el puntaje de gastos para todas esas cosas manejarán lo mismo. Entonces obtenemos esta información, desviación estándar, estimación, visualización de género. Aquí, lo que haremos es crear una base de datos de clientes de tabla en la agenda. Y después intentaremos trazar una parcela de bar. Y esto tendrá el eje x y el género y el eje y y como la capacidad de conteo y colores con eso Y vamos a ejecutar esto. Y verás una trama de bar, que aquí vimos el género femenino y masculino. Si hacemos más. Entonces, usando la gráfica de barras para mostrar la comparación de género. ¿Bien? Lo siguiente es esta fórmula aquí dividida por suma de a en 200 LBS, macho, hembra y macho, hembra. Y esto le dará a la representación esto que tienes masculino y femenino. Entonces C y ahora el propósito X por ciento y masculino es 44%. Entonces ahora no queremos eso en nuestro conjunto de datos. 56% del extremo femenino, 44% del masculino. Ahora que queremos hacer, intentaremos visualizar la distribución por edades. Así que trata de dibujar un histograma hecho en el cristal y la frecuencia Entonces mira aquí, ahora, este histograma te mostrará el contacto de cada clase Entonces aquí se puede ver cero a 20 frecuencias comenzando por 20 a 30. Todas estas cosas se pueden ver, este es el histograma Esta es la clase de edad 2030, 30 a 40, 40 a 70. Todas estas cosas las podemos visualizar y ver una parcela de bar con la edad. Y esto nos dará el análisis descriptivo es una gráfica de caja Entonces aquí se puede ver que es mayormente entre el objetivo y luego un ingreso C sub N1. Entonces aquí para inscribir empresa, tratar de trazar un histograma o el ingreso anual y frecuencia que pondremos en el Entonces nos vemos por los ingresos anuales más la frecuencia, puedes mirar tu hockey. Entonces pondremos a nuestros clientes Parcela, otra parcela aquí, parcela de densidad para ingresos anuales. Entonces todas estas cosas que puedes analizar luego dibujaremos una trama de caja para el puntaje de gasto. Mira aquí, este es el final, esta es la trama de caja para ese puntaje de gasto. Entonces otra vez, nuestro histograma para el puntaje de gasto. Y luego comenzaremos nuestra barra de biblioteca de algoritmos de media K, y nos pondremos en semilla Y luego usaremos una función para calcular la suma total intraclustre de ISS cuadrada y ponerla a uno a diez ¿Bien? Lo siguiente es que evalúo valor, reporte, mapa subrayado AV Y luego trazaremos el número de clústeres en el eje x y el eje y, suma total intraclustre de cuadrados más el número de cuadrados más el Verás del uno al diez. Y aquí se puede ver el eje y total. Cúmulos, suma del cúmulo total, suma de cuadrados, ¿de acuerdo? Número de cluster para estos, 4464814. ¿Bien? Evidencia, seleccione mi tercera biblioteca. Usarás cluster extra. Estas tres bibliotecas vas a utilizar. Entonces, si no está instalado, puede ir aquí, herramientas, paquetes instalados, y dar el nombre del paquete y no podría ser. Empecemos. Ahora. Lo que voy a hacer, vamos a hacer, vamos a crear los clusters k2. Y k2 utilizará los Clústeres de K-medias. Y luego vamos a dar que me visto y max actriz y 100 y empezar y empezar desde D algoritmo como. Y luego trazaremos este clúster y los valores de los datos de los clientes. Y el euclidiano quiso decir que, bueno, así, pondremos el Esto es más, esto es para el A2. Ahora vamos a hacer la cosa por k3, k4, k5 Y te veremos en la trama está tejiendo. Ahora usaremos el racimo de envidias y no extra. Y haremos celebridad y lo verás de uno a cinco y datos de clientes, lo verás de uno a cinco y datos de clientes, k-means. Y luego K6 Sepa que tenemos este número óptimo de clusters y número de clusters. El grupo uno alguna vez luchó con esto por 3.4, 647. Y luego tenemos el número óptimo de clusters. Nosotros, entonces, lo que vamos a hacer, intentaremos visualizar los principales componentes principales principales. El PCC arremetió con la función PR para esto. Y vamos a ejecutar esto. Aquí. Se puede ver el puntaje anual de gasto de ingresos. Y luego usamos la trama GG para trazar esto. Ahora puedes ver los clientes del modelo segmentar arriba usando los datos de clustering k-mean, los del clúster Santa Este es un clúster, este es otro clúster. Esto es un plus, este es un clúster. Así que los racimos suaves que el cliente se basa en su comportamiento. Ahora. Ahora intenta poner el cluster uno, cluster dos cluster tres, el hidrogeno me dio. Por lo que ahora se pueden ver seis clusters. Cluster uno, cluster dos, cluster tres cluster para cluster cinco. Entonces estos son los puntos, estos son los clusters. Podemos ver los datos. Ahora ponemos eso e intentaremos ejecutar esto de nuevo. Y ahora está bastante claro. Ahora tenemos los k-means clustering aquí. Entonces aquí puedes ver este rojo es el cluster uno, amarillo, uno, cluster dos, cluster tres, el verde. Este cúmulo, el racimo cinco es azul. Y esto es cluster para. Ahora bien, lo que puedes ver, estos son los otros clústeres de clientes que hemos creado en base al clustering k-mean clúster cuatro y el clúster uno a clúster consta de los mejores clientes, puntajes medianos uno y medianos de PC. Y el grupo seis. Discusión clásica Imprimo el cluster teniendo PCA, PCO2 alto y PC bajo Uno, cluster cinco en este cluster hay clientes con el PCO2 medio y bajo Entonces estos son el lecho en el PCA uno y los valores de PC2 que tenemos Podemos aplicar esta glabella hecha los clusters y comportamientos Podemos apuntar a los clientes con la ayuda de clustering. Podemos entender las variables mucho más muertas incitándonos a tomar decisiones cuidadosas Con la identificación de preguntas, las empresas pueden liberar productos y servicios que se dirigen a los clientes. No decimos eso, pero solo me gustaría ingresos, edad, patrones de gasto, etc. Además, patrones más complejos como debuts de productos, captación en consideración para una mejor segmentación Entonces esta es la explicación simple. Puedes ir en detalle y conocer estas cosas. Además, espero que este proyecto te ayude a entender cómo hacemos la agrupación de juegos 84. Proyecto 4 - Introducción - Recomendación de películas: Hola y bienvenidos de nuevo. Entonces en esto, vamos a hacer proyecto número cuatro, recomendación de películas, inicio de sesión del sistema y aprendizaje automático. Entonces ahora tenemos el conocimiento básico de la programación y hemos hecho pocos proyectos también en esta clase. Por lo que este proyecto te dará una experiencia muy amplia trabajando para algoritmos de aprendizaje automático, juzgando nuestra programación sucediendo en esto, estaremos haciendo el muy popular sistema de recomendación de películas. No agregaste programación y algoritmo de aprendizaje automático. Entonces, ¿de qué se trata este proyecto? Este proyecto se centró en el desarrollo de un recomendador de películas Estoy usando técnicas de R y machine learning out y técnicas de machine learning. El objetivo de este proyecto es el sistema de recomendación. Ese motor de recomendación que sugiere películas a los usuarios en función de sus preferencias. Entonces, ¿qué está pasando realmente en todas las plataformas OTP como Netflix, hot star, T5, Amazon Prime videos Siempre que estés viendo películas o pones tu, has visto películas de comedia. Tienes Mazda fue película romántica de Hechos y película. Entonces, en base a tu preferencia, lo que has visto en el pasado, se almacenarán todas tus preferencias. Y en base a tu comportamiento anterior, como si estuvieras viendo una película de comedia, comúnmente género o actos y género. Siguiente película te serán recomendados. Entonces todos flexionan y todos están perdiendo la misma metalurgia. Para sugerirte la siguiente película. Apoyo. Usted ha visto el comité y la película de X-Men en las últimas semanas Entonces, a continuación, lo que van a hacer, pueden hacer. Te pueden sugerir una película que tenga tanto las cosas cómicas como excelentes. te puedan sugerir X y película con los elementos cómicos en ella. Son ellos, Definitivamente sugerirán a Duck película cómica y la película junto con eso, pueden sugerirte las películas que están conteniendo tanto comedia como exón juntos Entonces todas estas cosas que hacemos usando los algoritmos de aprendizaje automático Entonces esto es muy popular en estos días. Entonces, al implementar la colaboración basada en elementos para filtrar lo que nuevamente haremos, obtendremos experiencia práctica en la aplicación de nuestra ciencia de datos, aplicando nuestras habilidades de ciencia de datos y aprendizaje automático a proyectos de la vida real como el sistema de recomendación de películas Lo que estamos usando aquí, lo hace MoveLens dataset, que consiste en un lakh, 5,039 calificaciones en el archivo CSV de puntos de calificaciones Y también está conteniendo 10,329 películas en el archivo movies dot CSV Entonces estos dos archivos CSV, archivos de datos que vamos a usar, uno contendrá la película en comisión, como 10,000 películas más. Y aparte de eso, creo que CSP almacenará el spot hacia películas particulares los diversos críticos y auditorías Entonces ahora tenemos el entendimiento básico como lo que vamos a hacer. Lo siguiente es, ¿qué son las bibliotecas? ¿Cuáles son las bibliotecas que necesitaremos para esto? Por lo que vamos a requerir la gráfica GG para laborar datos.table y receptor, las otras bibliotecas básicas que necesitamos para este proyecto Entonces GG grafica estos para la parte de digestión datos.table. Qué mesa y el comandante vistas laterales. Recomiendo cosa de lección. Entonces, ¿cuáles son los pasos que vamos a dar en este proyecto? El primer paso será el preprocesamiento de datos. Entonces estaremos teniendo el siguiente paso Elaborar al filtrado están explorando los datos similares. Después habrá una base de datos. Y luego iremos a la preparación de los datos. Y la preparación de datos implica unos pasos y luego por fin se estará haciendo el estándar uno por uno. ¿Cuáles son las cosas que vamos a hacer en el preprocesamiento de datos El preprocesamiento de datos es lo que se admite. Estamos obteniendo un archivo CSV de punto de película de datos brutos o leyendo drogas, sí. Necesitamos preprocesar esos datos. Así que una vez extraemos los datos del archivo CSV de punto de películas y clasificaciones o conjuntos de datos CSV. Lo que observo, lo que observaremos ese ID de usuario y columnas de ID de película, enteros. Entonces estas son las cosas que veremos cuando miremos en el código también. Pero por ahora, solo te lo haré saber. En este archivo, veremos cuáles son las cosas que podemos hacer. Vamos a enrasar. Entonces primero entendamos lo que vamos a perder. Entonces el ID de esta película y el ID de usuario. Consistía en los enteros. Y además, necesitamos transformar el género cinematográfico en datos de subrayado de película, marco de datos en **** más fáciles de usar Películas o no, necesitamos transformarnos en un formato más fácil de usar que tú haces. Y para lograrlo, lo que he hecho, he creado una métrica de codificación caliente que representan el género asociado a cada campo. Entonces, para lograr este marco de datos fácil , género de películas, lo que he hecho, he creado una matriz de codificación one-hot que referenda Cada película posteriormente se generaron tales patrones para facilitar cada búsqueda basada en las revistas John. Dado que las películas suelen tener múltiples géneros, todos sabemos que una película puede tener, categorizamos en múltiples géneros de soporte. Una película puede tener x y también puede tener drama. Para que pueda tener la comedia también. Una película también puede tener múltiples géneros. Entonces, lo que haremos, usaremos esa clase métrica. Y para nuestros datos, vamos a, lo que vamos a hacer, vamos a convertir la matriz, la matriz de género en esta matriz dispersa para que sea tan tabla para el sistema de recomendación de películas Y para ello vamos a implicar el verdadero loco por la clase de matriz de calificación amarilla. Entonces, el siguiente paso será el filtrado colaborativo o la exploración de los datos similares. Por lo tanto, el filtrado colaborativo implica recomendarte películas solo en función las preferencias de otros usuarios Entonces, ¿qué significa? El filtrado colaborativo es, supongamos que estás viendo una película, que es una película de comedia. Y no has visto gran parte de las películas en un soporte de plataforma. Estás viendo Netflix y acabas de empezar a usar tu cuello. Y solo has visto una película, que está en el género Comedia. Ahora, cómo Netflix te recomendará películas, porque Netflix dice que no hay datos, aceptas que has visto una película de comedia. Entonces o puede seguir adelante, recomendar nuevo, recomendándote la tarifa de películas de comedia Y eso va a ser algo muy raro porque una persona no va a depender. Veremos solo una película de género acomodarse solo a él puede interesarle la x y también el drama. Entonces suspenso, thriller también, ¿verdad? Entonces para eso, lo hará esta función split, usarán filtrado colaborativo, que en lo que están recomendando películas a los usuarios en función de las preferencias de otros usuarios Entonces hay millones de usuarios usando la plataforma y están viendo el comité también x y también. Entonces basado en nuestros usuarios que han visto la misma película y lo que han visto a continuación. Con base en sus datos. Netflix predecirá que también te puede gustar una película en particular cuál era el orden en que acabas de ver la película. Netflix puede recomendarte película X porque has visto la película. ¿Bien? Entonces, si saltas en X y también lo hace el Usuario B, entonces las películas vistas por enorme a la semana. Y nos recomendó a gran variedad. Lo mismo que te he explicado y viceversa. Por lo tanto, la recomendación, recomendación de películas se basa en establecer nuestra relación de similitud entre ellas. Serás lo que realmente estamos haciendo aquí, estamos estableciendo, estamos estableciendo una relación entre la similitud de rendimiento basada en la similitud de su acento o su interés. Uso de la biblioteca de laboratorio recomendada. Lo que he hecho, he calculado la similitud utilizando diversos operadores como coseno, Pearson y Y luego construir lección de visualización de datos. También veremos la similitud en los datos. Entonces aquí lo que he hecho, he visualizado la similitud entre los usuarios y también explorar las similitudes entre las películas que anteriores Para conseguir. Las bases de datos son la mayoría de las vistas que las películas verán que lo que he hecho. He investigado más en el conjunto de datos. Previo a este análisis, calculé el número de enormes, enormes para cada campo y organizarlos que golpeamos capaces en orden descendente El número total de vistas de las películas del Golfo se visualizarán utilizando la trama de barras y de los vigilantes Y se escribió que fixin era la película más vista Entonces estos son los datos visualizan y las cosas van a hacer. Y después de eso. Después de eso, seguido de forraje para entrar en cada lección, un mapa de calor de citas de películas para obtener una idea de las calificaciones de las películas, creé un mapa de calor que muestra las calificaciones de las 25 primeras filas y cinco columnas en el conjunto de datos Lo siguiente, seleccionar selección. Entonces lo que he hecho, lo he hecho, me gusta mucho el golf. Simplemente envía películas a través de un mapa de calor, también examina la distribución de calificaciones promedio para el futuro. Lo siguiente es la normalización de datos. Estamos disfrazados de posibles sesgos causados por usuarios que constantemente proporcionan calificaciones altas o bajas para todas las películas que ven. Yo normalizo los datos. Normalmente de repente el procedimiento para estandarizar los valores numéricos en una columna a una escala común, asegurando que no haya distorsión en el valor Entonces en este caso, normalización transforma la calificación promedio, donde golpeo mi voz y la trazo. Veremos que cuando hagamos el binario práctico en el paso final, los datos fueron prohibidos, ¿verdad Asignación de valores discretos 1.0. Este paso mejora la eficiencia de las recomendaciones. Lo que hice, defino la matriz con una calificación de tres corresponden a uno. Y de lo contrario, sólo se trata decir que si la calificación de la película es de aproximadamente tres, corresponderá a una. De lo contrario, si es menor a tres, se le asignará un valor de cero. Sistema de filtrado colaborativo. En esto, lo que he desarrollado un sistema de filtrado colaborativo basado en elementos que determina la similitud de los artículos en función de las enormes calificaciones El algoritmo será nuestra tabla de artículo similar comprado por los clientes y por una recomendación parte del mismo es que los pasos involucrados para determinar la similitud entre los artículos son los siguientes. Por cada ítem del orden del día, ítem ID1 presente en el catálogo de productos comprados por los clientes ver por ítem I a j por clientes, ver culpable de lo que había hecho Yo creo Jade por cliente, veo culpable de lo que había hecho. Creé un registro que indica que los clientes ven comprados I, i1 e i2, calculan la similitud entre los artículos I1 e I2 ¿Bien? Debido a que el cliente ha comprado I1 e I2, podría llegar a responder que los artículos i1 e i2 son similares Entonces esa similitud vamos a calcular. Y luego dividiremos el conjunto de datos en 80% para el conjunto de datos de entrenamiento y 20% más pruebas para un sistema de recomendación. La regla 80, 20 siempre es aplicable en algoritmos de aprendizaje automático. El siguiente y último paso dirigirá el sistema de modelo. Para esta exportación los diversos parámetros filtro colaborativo basado en elementos el valor predeterminado del parámetro k, Para calcular se utiliza el valor predeterminado del parámetro k, que denota el número de elementos. 30. Algoritmo identifica los k artículos más similares y almacena sus números correspondientes. modelo de recomendación de recomendador se recuperó usando la función get model y la matriz de sentido de similitud de vidrio o diamante que habíamos analizado o mapa de calor o generado para visualizar los elementos crujientes superiores de la misma iluminación Lo siguiente es explotar ese modelo de sistema de distancia hombre Al sumar las filas y columnas de similitud por encima de cero, obtengo la distribución de algunas columnas Esta distribución se visualizó para obtener más información. Para crear el sistema de recomendación. En esta diapositiva, la parte superior recomendada por el diez vertical es especificar el número de películas recomendadas por cada usuario. Y entonces se utilizó la función predict para identificar ítem similar en consecuencia. Cada calificación se trató como un peso, cual se multiplicó por los gustos de similitud relacionados. Por último, todos los pesos con agregado para generar las recomendaciones. Entonces estas son las cosas que vamos a hacer para el sistema de recomendación de películas usando R y machine learning. Nuestro objetivo es recomendar películas a los usuarios en función de sus gustos y disgustos y qué están viendo los usuarios Prom subinterpretado basado en lo de la similitud. ¿Bien? Y para biblioteca GG parcela TO datos.tabla recibida a través y laboratorio recomendado Estamos haciendo pasos realmente buscando el preprocesamiento de datos y el procesamiento de datos servirá entonces haremos el filtrado colaborativo, explorando los datos similares que ya hemos discutido La lección AWT. A continuación, veremos cómo podemos revisar los datos. Para la preparación de datos, hay tres pasos para seleccionar algunos datos de normalización y binarización de datos que veremos Y el sistema de filtrado colaborativo que ya hemos entendido este ejemplo y lo que ya he comentado inicialmente. Entonces espero el proyecto que he explicado. Bueno, en la próxima conferencia, haremos el proyecto escribiendo el guión. Así que nos vemos dentro del proyecto 85. Proyecto 4 -Parte 1- Sistema de recomendación de películas con R: Hola y bienvenidos de nuevo. En esta conferencia, vamos a hacer el proyecto de leer un motor de recomendación que películas tecnológicas te acaban de hacer su preferencia. Han visto antes. Y también peso en los demás usuarios en la plataforma o viendo películas. O tienen tipos similares de películas que tú juzgas. Esta enorme deuda está vigilando nuestra ventana de vigilancia. Si lo estás haciendo si estás usando las plataformas de streaming o TPU para otoño por primera vez, aún así podrán recomendarte más riesgo. Porque tienen la base de datos habitual, que es tener millones de personas que están viendo el tipo similar de obedecer que solo tienes en base sus intereses y tu interés de ver una película. Esa es la similitud entre tú y otras personas, como solo pensar en la plataforma para que sus preferencias sean lo que han trabajado ahí. El más pesado. Lo es. Te lo recomiendo, las películas. Entonces aquí lo que vamos a hacer, vamos a estar donde está el sistema de recomendación de filtrado colaborativo basado en elementos sistema de recomendación de filtrado colaborativo ¿Bien? Entonces, ¿cuál es el ítem básicamente, puedo llegar a mí en base a artículos particulares Consideraremos que la oscuridad colabore para imprimir nuestra similitud. En lo que va de esta región de la realidad, vamos a utilizar la biblioteca de laboratorio recomendada, gráfica GG para la visualización de datos.table, qué tablas y receptor Entonces estas cuatro bibliotecas. Bien, lo siguiente es que vamos a recuperar y mostrar los datos. Películas y datos de películas. Más leer punto csv. El viernes veremos fuente de andrógenos CSV. Entonces déjame mostrarte el precio de las acciones. Entonces esto es más Vidar CSV, que está conteniendo el id de película, que es de uno a 10,000 algo Por lo que más de 10,000 más de riesgo se han agregado aquí en este conjunto de datos. Y luego ve a amar la película, título de identificación de película del género cinematográfico, qué revistas me has lavado. Por lo que hay más de 10 mil películas en este conjunto de datos, su título y su género. Entonces aquí puedes ver un género de película, el género aventura. Antes de este género Edward Jeff animación, los niños ya entre paréntesis Ya terminamos que tres noches teniendo comedia y drama. Es decir, me encantan de vez en cuando los niños y el drama. Drama, fantasía, misterio, manera segura. Así que una película puede pertenecer a múltiples géneros múltiples de películas. Y entonces tenemos la estructura Sí, CSP, que tendrá el ID de usuario, el ID película, para qué película, que se le da esa calificación Entonces, ¿qué calificación? Ustedes, hasta a la película que es uno o uno a cinco. Y entre en alto rechazo retrató la película. Y luego tenemos los diversos tipos. Entonces lleguemos al núcleo. Por lo que identificó irá a la ruta del archivo. Luego crearemos una variable de datos de subrayado de películas y luego restauraremos los datos Así que lee la función de archivo CSV usará y película tonta punto CSV Que se está almacenando en esta tiamina nos rígiremos y y cadena como fructosa Y los datos de subrayado dendrítico, punto CSV y las cosas empiezan Y luego veremos que los datos son oscuros CSP menos que esto. Ver aquí. Ahora tenemos el id de película que el profesor puede saltar, ¿no? Scott actínica el trabajo y la escritura. Ellos siempre. Naturalmente ver el resumen de los datos mediante el uso de la función de resumen. El resumen de los datos se puede ver, sí, película, primer trimestre, segundo trimestre, tercer trimestre, me refiero género. Entonces aquí pueden ver los que la película sí vi la cabeza arriba abrir las entidades de datos de partitura que vienen 123456. Bien. Entonces ahora podemos ver el resumen de datos y luego realmente ver el riñón sale un corazón. Y codificación para crear la matriz que comprende los costos para la nueva Kendra Roth, cada uno fuera de libertad Entonces esto cumplirá con lo del procesamiento de datos. Nosotros hemos creado. La película de codificación one-hot subrayan gin Chandra y data as.data.frame película subrayado datos y data as.data.frame película subrayado datos rivalidad Jordan. String como estructuras, cadenas como factores es igual a false. Después revisa los datos.table de la biblioteca y sí, creando películas subrayado género Y aquí agregaremos datos oscuros.frame. Y tenía DST, el STR, género de películas divididas, y tipo dot cardboard true strings como archivos de factores. Y luego le llamaremos género de películas de nombre. Y usaremos C, uno para contarlo. Y detienen el género en algunas de esas cosas donde reportan a tu rodilla izquierda. Hola, soy de aquí para acá. No hay nombre de columna y las cosas de la correa. John, john cae y luchó índice uno herramienta. Y caminé, escrito a mano. Yo no ejecuto este código. Y por llamar. Y tú John ella mis dos más jóvenes, me gusta llamarlos y agregar Argentina. Chandra, rota. Quiero que Dakota haga a una cuerda. Después haga clic derecho sobre esto. Y entonces puedes escuchar para comenzar mis trucos para tal base infantil más plan Chandra y esos cinco trucos En este trimestre, estamos usando la edición de mis trucos y mi opinión sobre este punto este vista. Algún parámetro importante para dentro ese sistema por mol más fácil cuando haces eso. Aunque como un registro de modelo de estación y obtener tipo de datos de entrada para la matriz L, una matriz. Y te entró el recibí mis tics y recomendación Mark Moore, subrayé la matriz de calificación y nuestra confianza Cnidaria. Simplemente la similitud se puede ver usando esta mi gráfica y nos retrató a la ligera que está entre los campos Bien, eso es todo para esta conferencia, continuaremos en la siguiente conferencia. 86. Proyecto 4- Parte 2- sistema de Recommender película: En la conferencia anterior, hemos comenzado con el sistema de recomendación de películas que utiliza en este proyecto. Entonces déjame darte un breve resumen de lo que hemos hecho en la conferencia anterior, primera parte de este proyecto Entonces necesitamos estos para bibliotecas, laboratorio de recomendadores. Trama dos datos.table. Así que solo estamos de pie estas bibliotecas y luego necesitamos obtener los datos del lugar donde se han guardado los datos. Luego almacenaremos que leerá archivo CSV usando la función read.csv y restauraremos en películas los datos de guión bajo Del mismo modo, almacenaremos los datos de calificación en el guión bajo de calificación eta por el similar entre el CSV oscuro Y pasaremos la numeración final inicia CSV, luego, después STR, pulmones Y pasaremos los datos de subrayado de este movimiento. Y después veremos el resumen de los datos del guión bajo de la película Y esto te dará el título de ID de película, género. Y aquí puedes ver los detalles estadísticos aquí. Mínimo, primer cuartil, mediana, media, tercer cuartil y valores máximos Después veremos a la cabeza de la película los datos de subrayado. Te dará las primeras cinco filas de los datos. Así que mira aquí la identificación y el título de la película al ras, y luego el género de la película. Y luego veremos a la cabeza de las calificaciones. Sin embargo, también se puede ver el primer cuartil mínimo, mediana o todas las columnas, Entonces veremos al jefe de los datos de calificaciones. Sin embargo, se da ID de usuario, ID de película y una calificación y tiempos apisonar Entonces ahora tenemos la idea de lo que hay dentro de la idea de lo que hay en el archivo CSV o el archivo de datos que tenemos y que están sobre estos datos que vamos a caminar. Entonces lo siguiente es lo que haremos. Crearemos una codificación one hot, creando una matriz que comprende general correspondiente para cada prueba. Entonces, para nuestra codificación de dieta, necesitamos crear una matriz. Entonces vamos a crear una variable aquí más que guión bajo género y aquí como.data.frame, reutilizarlos Y luego usaremos esa columna de género. Entonces si miras aquí esa es columna de género en los datos de películas, películas de archivo de datos. Entonces usaremos eso y luego las cadenas como factores falsos y luego la biblioteca usarán más adelante. Entonces aquí creamos una matriz, matriz de género de película, y luego solo usamos el data.frame y el género de película Y luego vamos a hacer matriz aquí, luego esto, y luego nombre de columna. Y luego detienen el género. Género. Cuál es la lista de género es tu x y aventura. Todas esas cosas harán una lista aquí. Y luego vemos el género, Mach one y los nombres de las columnas Y para índice en uno. Y rho película género a cuatro leerá la columna y para cada género obtendrá el nombre de la película Y todo. Entonces volvamos esto entonces, género mat dos. Y luego lo mismo aquí. Entonces lo pasamos a STR aquí. Después lo pasamos a STR. Y ahora lo que vamos a hacer, vamos a crear una búsqueda Patrick's. Entonces pienso especificando el género. Entonces, John, ¿verdad? Así que vamos a ejecutar esto usando yes, C bind. ¿Bien? Y luego seguimos adelante y vemos aquí ahora nos estamos metiendo de nuevo en esto. Entonces CN movie ID title, Excelente Animación de Aventura, niños, todos los géneros Como columna en esta matriz, ¿bien? A continuación, se trata de una matriz. El siguiente es la matriz de calificación. Y ahora lo que haremos, vamos a convertir esa matriz de calificación y hacia recomendar matriz dispersa de laboratorio, esa matriz y la matriz de calificación amarilla, ¿de acuerdo? Y entonces la matriz de calificación C es 668 en diez veces la cantidad cinco o n columnas. La matriz de calificación de más un rezago 5,003, 13 y calificaciones. ¿Bien? A continuación, usaremos nombres arriba, recomendador, modelo de recomendación Y luego usaremos el modo Play Recomendación. Y aquí usaremos la descripción. Implementando un solo modelo en nuestro filtrado colaborativo basado en artículos, tenemos 12 Y aquí estamos usando AI VCF, ¿de acuerdo? Ahora, el filtrado colaborativo implicaba sugerir películas al atacante basadas en preferencias colectivas de muchos otros. Estás solo, con la ayuda de recomendadores de laboratorio. Podemos calcular la similitud entre la Eucaristía. Entonces ahora vamos a crear una métrica de similitud y un método que estamos usando ARCore shine. Y más lejos estás bien. Ahora ya veremos que tu solo similitud va a deshacerte de esto. Otra vez. No había suficiente espacio C. Ahora solo tienes similitudes, puedes ver solo matriz de similitud. De igual manera, vamos a hacer, parecerá que al menos varias entre las películas que utilizamos. Y vamos a ejecutar esto y luego imprimir esa imagen. Ahora, se puede ver que esta es la similitud de la película. Ahora los valores de calificación como datos de matriz de calificación de director, ya veremos. Entonces calificaciones únicas extrayendo las calificaciones únicas. Se utiliza un único, luego se requieren los valores de calificación. Tabla de calificaciones. Creando una calificación de película. Y luego veremos la tabla valorando los valores y evaluando. Ahora, lo que vamos a hacer. Haremos la visualización más vista. Y para ello vamos a trazar dos películas subrayan vistas y matriz de calificación de Qualcomm llamada count utilizará y luego TableViews una película data.frame Tomaremos los nombres de los espectadores de películas y tomaremos los nombres de la vista de películas e iremos a los espectadores de películas. Aquí dataframes de futuro a través de esta tabla vistas. Del mismo modo, entonces el índice TableViews iterará sobre todas las 325 películas completas Y lo haremos. Y luego veremos que las vistas de mesa vistas funcionando. Espera a que se complete. Así que mira aquí ahora, completa fc aquí puedes ver esas críticas de películas y título. Lo siguiente que haremos, darse cuenta de que estás usando la gráfica de barras o el número total de vistas de la página superior. Hasta el momento esto usaremos la trama GG, TableViews y la estética Usaremos título y vistas y barra de geom, textos geom y equipo y eliminaremos Te voy a dar el título aquí. Entonces espero que sepas todas estas cosas. No voy a ir en detalle. Entonces ahora se puede ver que el bosque viene como 331. Tu clásico de vuelta al 94, vistas y bulto. Bien. Entonces de esta manera podremos conseguir espectadores duros de los campos de césped. Total botas hasta las mejores firmas. Ahora. Firmas. Bien, ahora crearemos un mapa de calor para las películas. Así que mira aquí el mapa de calor hacia fuera las primeras columnas de 25.25 dólares. Bien, lo siguiente es lo que haremos. Entraremos en la preparación de datos. Por lo que las calificaciones de las películas, las calificaciones son mayores 50 y se mejora el contrato actual. Entonces. Vea la calificación de la película por 22, por 1,400 en clase ¿Bien? Así que estos muchos están ahí por más de tres, ¿de acuerdo? Ahora, impulsando métricas de relevante solo calificaste 0.9. Entonces mínimo películas y mínimo solo verás usaremos el contenido para esto. Y luego crearemos un EMS, veremos un mapa de calor de la parte superior, solo agregas las películas. Lo siguiente es visualizar la distribución de las calificaciones promedio son enormes Entonces para esto, usaremos la calificación promedio de subrayado. Y forma significa que no teníamos la calificación de la película y lo haremos tramado. Ahora trazas C y ahora estamos obteniendo la distribución de la calificación promedio, pero simplemente estás bien, Entonces esta es la distribución de la calificación promedio, pero estás justo entonces, vamos a usar eso para esa normalización de datos. Para esto, usaremos calificaciones no normalizadas, reseñas de funciones normalizadas y clasificación de otras películas Entonces parte de la fila significa calificaciones normalizadas mayores a 0.001. Y luego ver esta calificación normalizada, los principales usuarios. Entonces aquí puedes ver que obtendrás un artículo columnas. Bien, siguiente, binarización de datos que ya hemos discutido en la Entonces aquí estamos usando cuantiles y recuentos de filas, clasificación de películas y luego más lavado de base Y luego películas puntuadas, películas binarias, más, calificación mínima tres. Por lo tanto, calificación mínima a3. Todas esas películas obtendrán. Así que vamos a ejecutar esto. Ver, estas son las películas que están teniendo calificación mínima como tres. Ahora entraremos en el filtrado colaborativo y está dividiendo el conjunto de datos en un conjunto de entrenamiento y 20% del conjunto de prueba. Entonces datos de muestra, tenemos su método de muestra aquí. Y aquí lo que hemos hecho, tenemos hasta el 80% para el entrenamiento y la prueba. Dividir los datos. Ahora veremos esos datos de entrenamiento y datos de prueba. Y luego construiremos una recomendación usando un registro registrado de recomendador Y aquí vamos, lo que haremos, obtendremos entradas, tipo de datos, matriz de calificación real que hemos creado Y luego usaremos el ojo vcf, subrayado matriz real y parámetros, y luego recomender utilizará los medidores recomendadores Y aquí pasaremos el método de datos de entrenamiento. Usaremos IV CF y comenzaremos. Bien, así que vamos a ejecutar todas estas cosas. Ahora tenemos el modelo de recomendación de recomendador. Ya. Ejecute esta clase de modelo de recomendación. Se puede ver el laboratorio de recomendación y ahora explorar la ciencia de datos, los modelos de coordinación Entonces volteemos este modelo de clase, olvidemos modelo y modelo. Y para C, D, D, C se reunieron después, después corchetes y el siguiente de Patrick se ha ido. Este top artículos. Estos son los artículos principales. Y luego veremos mapa de calor hasta la primera fila y columnas de la. Entonces cuando ejecutes esta suma de sorteos y subas algunos de esos 30.47, luego GG plot, veremos que este es el qplot y el gráfico de barras Se puede ver la distribución del número de columna de artículos a recomendar. Simplemente pones menos de diez y predices recomendado un día. Algunas recomendaciones para la primera película urogenital una de 1 bar, una de cada diez películas Y luego recomender matrix, matrix con la recomendación para vuelo easyJet, artículos de amabilidad Y estamos valorando los nombres de las columnas de la lectura de películas Voy a comprar articulos y luego titulo oscuro, distribucion de numero de IVC arriba y qplot numero de articulos desde t, distribucion de numeros del Item, numero de articulos arriba por BCF y da Vinci, las mejores distribucion de numero de IVC arriba y qplot numero de articulos desde t, distribucion de numeros del Item, numero de articulos arriba por BCF y da Vinci, las mejores peliculas recomendadas. Wallace y Gromit, Dios Padre, hijo murió y también lo son los YuJa Entonces de esta manera, podremos conseguir la película recomendada para el YuJa Entonces espero que entendieras este proyecto. Si tienes alguna duda, puedes comentando, haciendo la pregunta en clase Gracias. 87. Introducción al proyecto 5 Introducción al fraude con tarjeta de crédito: Hola y bienvenidos de nuevo. Entonces les doy la bienvenida a otro proyecto que es proyecto número cinco para esta clase. Y eso es detección de fraude con tarjetas de crédito, juzgando nuestra programación. Y aquí vamos a usar algún algoritmo de aprendizaje automático también. Entonces, ¿cuál es el objetivo de este proyecto? Es posible que sepa que los datos y fraudes en línea ocurren en estos días, como si se estuviera utilizando la tarjeta de calificación de alguien. Sin su conocimiento, redes sociales de alguien han sido pirateadas Por lo que este tipo de fraudes se están haciendo en línea. La formación bancaria de alguien está siendo robada. cuenta bancaria de alguien ha sido robada y han sacado el dinero de su cuenta. En la India, son pocos los incidentes en los que las personas, sin saber que han compartido su permiso de tutor o su OTP está en una llamada telefónica Ah, el impostor está diciendo que están llamando desde el banco y están pidiendo el número de la tarjeta de débito Y luego están pidiendo el número de CBP. Y la gente se dice sin saberlo, enviando todos los detalles, pensando que la persona que llama es de la preocupación Banco Y ellos solo están configurando que nuestros datos. Y una vez que esta OTP, les ha quitado todo el dinero de su cuenta bancaria. Entonces este tipo de fraudes están ocurriendo y tenemos que ser muy, muy cuidadosos Uno de esos fraudes en línea es el fraude con tarjetas de crédito. Bueno, la gente usa la libertad condicional de sus dibujos animados de niños o para comprar algo, o almacenan la información de su tarjeta de crédito, o dicen, hay números de tarjeta de Kate y algunos incluso números sin saberlo a la gente y la gente los usa sin Y hay varios incidentes se está utilizando la tarjeta Kate sin que a pesar de que la tarjeta Kate esté físicamente presente en con el impasto Esto para la detección de fraude con tarjeta de crédito. Entonces tenemos que hacer un frente ordenado. Siempre que alguien use una tarjeta de grado, la compañía sabrá que esta transacción podría ser una transacción fraudulenta e inmediatamente pueden informar al cliente que califica al titular de la tarjeta, que está realizando este tipo de tangentes Y ahora mismo, el cliente o el titular de la tarjeta de grado dice: No, no, este no soy yo. Alguien más está haciendo esta transacción, luego inmediatamente declinarán esa transacción. Y de esta manera, esa tarjeta de grado que vamos a dejar de usar y no se ahorrará mucho dinero. Por lo que el objetivo de este proyecto es desarrollar nuestro clasificador capaz de identificar transacciones fraudulentas con tarjeta de crédito Para esto, lo que he hecho, te tengo a ti, estaré usando varios algoritmos de aprendizaje automático, como un árbol de decisiones, regresión logística, redes neuronales artificiales, y finalmente clasificador de aumento de gradiente Entonces veremos cuáles son los algoritmos que podemos usar. Y con esto, podemos clasificar cuáles son los fraudulentos y los no productos o Jackson's Para esto, usaremos un conjunto de datos que estará teniendo la información sobre la tarjeta de pastel y el tipo de transacciones con tarjeta de crédito en su prevalente o no problema para el entrenamiento y el nivel moderado de hombres Después veremos exploración de datos, manipulación, modelado de datos, ajuste del modelo de regresión logística, árbol de decisiones, redes neuronales artificiales, todas esas cosas servirán. Pero antes de eso, necesitamos entender en detalle el fraude y su tipo. Entonces, si no estás al tanto del DOM o del problema que tienes en la mano, no podrás dar la solución adecuada. Entonces antes de saltar al proyecto, deberíamos estar sabiendo que Qué problema vamos a mostrar. Entonces para eso, necesitamos tener la comprensión muy clara de lo que cada fraude y qué tipo de fraude se está haciendo hoy en día en la era de lo digital. Bien, entonces a primera hora, cuando Internet no estaba ahí, esta gran parte de nuestras transacciones digitales no estaban ahí. Entonces la gente solía ir al banco y solían tomar el dinero ajustando un formulario y luego el esquema de la tarjeta de cajero automático. Entonces la gente empezó a usar los cajeros automáticos para retirar el dinero. Y entonces la gente empezó a hacer los fraudes de cajeros simplemente manipulando al titular de la tarjeta ATM con cicatrices y simplemente viendo la contraseña de alguien y robando la tarjeta y usando la tarjeta en IPM por esta Entonces este tipo de suéter de fraude ocurría antes. Y con el incremento del Davison y la banca digital hoy en día se están haciendo los fraudes en línea Muy raramente lote. Entonces, ¿qué es el fraude? El fraude se define como cualquier acto intencional de engaño para obtener ganancias personales y financieras fraude se define como el acto intencional de preceptos y para beneficio personal y financiero Entonces, si estás haciendo algo, si estás haciendo este épsilon con alguien para tu beneficio personal o ganancia financiera, entonces se clasificará como fraude Implica faltar la presentación, ocultación o manipulación de la grasa para engañar a otros Y qué tipos de fraude de tarjetas de actualización suceden en estos días Entonces tipos de fraude con tarjeta de crédito, Identidad, cuenta, tarjeta de toma de posesión, no presente, fraude y tarjetas falsificadas Y luego viene el skimming. Entonces entenderemos uno por uno. ¿Cuáles son estos tipos de fraude con tarjetas? Entonces lo primero es el robo de identidad. Entonces, ¿qué es el robo de identidad? Fraude nos acaba de robar para estafadores, robar información personal como números de seguro social o credenciales de inicio de sesión para hacerse pasar por Entonces en esta situación, esta tilde, aparte de información como fuente, algunos números de seguridad u otro, nuestro número de tarjeta o número de tarjeta prohibida o las credenciales de inicio de sesión de tu banca Y los Kcat Dunbar en algunos casos, para hacerse pasar por que son Y luego iniciarán sesión con los datos y usarán tu información bancaria para hacer las transacciones. Utilizan la información robada para abrir cuenta fraudulenta para hacer trayectoria no autorizada. Con aquellos como tu otra tarjeta cardio o PAN, pueden abrir una cuenta bancaria en tu nombre y luego empiezan a hacer la suplantación de ti mismo y estarán haciendo las transacciones, que estarán a tu nombre pero no estás involucrado Entonces a eso se le llama robo de identidad. Entonces viene la toma de posesión de la cuenta. La adquisición de cuenta es otro tipo de fraude en el que los delincuentes obtienen acceso no autorizado a una cuenta legítima de Meet al robar datos de la cuenta como contraseñas o número de identificación personal Entonces en esto, simplemente piratearán tu cuenta, te robarán tu contraseña, nombre de usuario , contraseña, y van a tener tu cuenta asumida. Y luego harán lo que quieran con tu cuenta. Ellos toman el control de tu cuenta y la utilizan para actividades fraudulentas como hacer compras, Arte, transferir fuentes. Entonces, una vez que tengan el control sobre tu cuenta, pueden hacer cualquier cosa. Pueden transferir el dinero de tu cuenta a cualquier otra cuenta, o pueden comprar cosas en línea y fuera de línea. Y no vas a tener ningún acceso a tu cuenta porque tu cuenta ha sido asumida, ellos también pueden cambiar tu contraseña para que lo hagas, tú mismo no podrás iniciar sesión en tu cuenta. El tercer tipo de fraude es fraude de tarjeta no presente, que ocurre cuando se realizan transacciones fraudulentas sin la presencia física de la tarjeta de grado. Y lo muy común es la transacción en línea o por teléfono donde los datos de la tarjeta o los estafadores ingresados manualmente, enorme información de tarjeta de crédito robada para realizar compras no autorizadas Entonces en esto, la tarjeta de grado no estará físicamente presente, sino lo que harán, te llamarán y te pedirán que hagas un Jackson en particular y te pedirán la información de la tarjeta de niño Sobre la llamada y luego te pedirán la OTP Y en cuanto le des la OTP o tangentes y esté completa y tu dinero se habrá ido, o van a estar comprando algo en tu nombre y tu tarjeta de crédito será cargada La siguiente etapa, las tarjetas falsificadas, fraude como simplemente crear tarjetas de grado falsificadas que se reúnen Entonces en este tipo de fraude, qué hará el estafador, crearán un rápido, obtendrán alguna información sobre tus números de tarjeta jaula Se contarán todas esas cosas. Y crearán una tarjeta de aspecto similar con un número de tarjeta de jaula similar y el número CBP, que estaremos luciendo muy legítimos al original Y entonces pueden codificar la información de la tarjeta de crédito robada en la tarjeta falsificada Y luego se utilizan tarjetas falsificadas para realizar compras A menudo, sin el conocimiento de los titulares de tarjetas Carter, posible que no sepa que su tarjeta de grado ha sido falsificada y alguien más está teniendo una tarjeta de crédito duplicada del mismo número que le han asignado y la usarán para las transacciones fraudulentas Entonces este es otro tipo de fraude con tarjetas de crédito que ocurre hoy en día. El siguiente es intrigar, es skimming implica, legalmente, perdón, skimming involucrado capturar ilegalmente información de tarjetas de crédito sin conocimiento de los titulares de tarjetas de tarjeta, supongamos que le está dando a su carrito de carga en la tienda y sin su conocimiento lo que están haciendo, solo están anotando Si numeramos toda buena información, fecha de caducidad y todo este tipo de información cuando la tienda puedan hacer de transacciones fraudulentas. Así que siempre que estés poniendo tu auto sobre el mostrador para dy dx y te aseguras de que nadie esté tomando ninguna información de tu tarjeta KD sin tu conocimiento. Y luego los manifestantes, lo que haremos, este azulejo instaló los dispositivos intrigantes o terminales de pago o cajeros automáticos para capturar los datos de la tarjeta de crédito Recientemente en la India, un tipo de fraude llegó a notar mes pasado que estaban usando el carbón favorito en los cajeros automáticos. Y con eso, estaban usando algunas técnicas donde el cuando insertas la tarjeta jaula o tu tarjeta de crédito, la información será capturada de alguna manera. Y luego más adelante, cuando te alejas de los cajeros automáticos y ellos harán las trágicas celdas en tu APM Y tal vez no estés sabiendo que esto estaba tramando para servir sucediendo hoy en día Después utilizan la información capturada para crear tarjetas falsificadas y realizan probabilidad de giro Entonces este es el tipo de tarjeta de toma de cuenta de robo de identidad que no está presente, tarjetas falsificadas y skimming o actividades fraudulentas se están Hay más tipos de fraudes también están ahí como por teléfono, van a fingir que son empleados del banco y te pedirán la suma afortunadamente información, los datos de tu tarjeta de crédito, los números de seguro social, los números de tarjetas bancarias son más oscuros Y entonces van a fingir que te están dando algún premio o algo así. Están transfiriendo algo de dinero para hacer tu cuenta, pero en realidad te van a exigir el dinero y te enviarán un enlace. Y te pidieron que hicieras clic en el enlace. Al hacer clic en el enlace, más fuerte, no se notará que se puso de pie transfiriendo el dinero. Ellos están deduciendo el dinero de tu cuenta y solo ingresarás la OTP y tu dinero de tu cuenta irá a la cuenta prevalente Entonces este tipo de fraude ocurre y necesitamos saber cómo detenerlos. Y eso es lo que vamos a hacer en este proyecto examinando al guardia Jackson's. Y con eso, desarrollaremos un modelo que detectará el tipo de transacciones y detendrá las actividades fraudulentas 88. Importancia de la detección de fraude en línea: Ahora tenemos la breve comprensión de lo que es el fraude y qué tipo de fraudes ocurren en estos días Ahora, tenemos que entender también por qué la trama detecta y es importante. Entonces la detección de fraudes es importante, eso es uno obviamente entonces es prevenir la pérdida financiera. Pero hay otra región también está ahí, hay pocas otras razones también están golpeadas una y eso es lo que vamos a entenderla La importancia de la detección de fraudes. Hay tres importantes detección de fraudes importantes que dice que están ahí. Y el uno es la prevención de pérdidas financieras. El segundo es productos y clientes. Y tercero es mantener la confianza. Y estos tres parámetros son muy, muy importantes para cualquier institución bancaria o financiera. Porque si no va a proporcionar la pérdida financiera por taxón, el cliente de sus clientes no va a quedarse con usted Si no estás protegiendo el interés del cliente, entonces probablemente tampoco contigo por más tiempo. Y si olvida hacer esto, la preparación, la pérdida financiera previene y termina los productos. Y nuestra pregunta era la información, entonces obviamente perderás la confianza del cliente. Por lo que también es importante mantener la confianza. Entonces estas tres son cosas que son muy importantes. Entonces primero, entendemos, entenderemos esta prevención de pérdidas financieras. El fraude puede resultar en pérdidas financieras significativas para las personas, para las empresas y también para las instituciones financieras. La detección de fraudes ayuda a identificar y prevenir actividades fraudulentas minimizando las pérdidas de este embarazo. Por lo que el primer objetivo del producto axón es prevenirlo, la pérdida financiera, pérdida financiera parte del individuo Gente como tú y yo, para los negocios, la gente que está haciendo negocios, y las propias instituciones financieras. Como si alguien va a venir y van a tener el banco, la cuenta bancaria misma. Y entonces él, el ejecutor puede hacer el hacker puede hacer cualquier transacción en cualquiera de los clientes bancarios, Entonces para proteger su cuenta también, es importante, ¿de acuerdo? Entonces, la prevención de pérdidas elegante es una cosa tan importante. El segundo es proteger, protege suficientes clientes. El fraude puede conducir al robo de identidad, transacciones no autorizadas y otra forma de daño financiero financiero a los clientes, detectar y prevenir el fraude y sella las protecciones de los activos financieros de los clientes y el permiso personal. Así protege y un signo de interrogación aquí. Significa que necesitamos cualquiera de los dos institutos bancarios, si hay un banco, hay otras instituciones financieras. Su responsabilidad principal es mantener la información del cliente segura y privada. Asegurar que tienen que implementar esas especializaciones de detección de fraude para que los clientes, los activos financieros y la información personal sean c, es decir, seguros El tercero es mantener la confianza. La confianza también es muy importante si tu banco, tu institución bancaria y constantemente se están realizando actividades fraudulentas en los conos. Entonces los clientes perderán la confianza en ti, y luego buscarán a otro banco. fraude socava la confianza en el sistema financiero por actividad, actividad detectando y combatiendo el fraude Las instituciones financieras y Venus pueden mantener la confianza en el apoyo de sus clientes y partes interesadas. Una sola vez. Supongamos que usted es un banco, X, Y, j, y uno de los titulares de su tarjeta de grado, cliente recibirá una notificación cuando alguien intente hacer lo que no autorizado tange Exelon, su Y antes de confirmar esa transacción, solo llamas al cliente y dices: Oye, la hay, hay un arco tangentes y se están haciendo $99 en tu tarjeta KD Egipto que estás haciendo en este sitio web en particular. Y si el cliente inmediatamente dice No, no, no, no estoy haciendo eso, por favor, detente. Y bloqueaste esa transacción, declinas esa transacción. Y de esta manera, has ahorrado 99 dólares para tu cliente. Y esto seguramente aumentará la confianza que esa persona objeto cliente en tu, en tu institución y seguramente te recomendará tu herramienta instruccional Otros también, porque sabe que acabas de ahorrar $99 cantidad De esta manera, implementando los salarios de detección de fraude a las instituciones financieras a través de los negocios. Mejorará que se estrelló también para tus clientes. Ahora entendamos qué tipo de datos estadísticos sobre el fraude, qué tipo de fraude está ocurriendo y cuánto cuesta el fraude porque les cuesta a los negocios y a los clientes Por lo que las pérdidas globales por fraude, según un informe la Asociación de Examinadores de Fraude Certificados, ECF gratis, es una organización global Las organizaciones globales pierden y estiman el 5% de los ingresos anuales por el fraude. Ver, las organizaciones globales y las grandes grandes multinacionales están perdiendo el 5% de sus ingresos anuales, lo cual, lo que podría ser una cantidad muy, muy grande para las amplias actividades Y esto se traduce billones de dólares perdidos cada año Entonces, si implementas las carreras de detección de fraude usando inteligencia artificial y aprendizaje automático, entonces puedes ahorrar estos billones de dólares para El segundo es el fraude con tarjetas Arcade. Ese reporte de Nielsen afirma que las pérdidas globales por el fraude con tarjetas de crédito superaron los 27 dólares, 27 dólares en 2020, lo que es una cantidad enorme, enorme, y no vale nada que califique el fraude con tarjetas, uno de los tipos de fraude uno de los tipos de Dada la enorme tarjeta de actualización generalizada. Esto es un fusible. Los puertos de tarjetas comerciales son muy medibles. Y se puede ver la estadística C0, 27 mil millones de dólares en 2020 Y ahora estamos en 2023 Por lo que podría haberse duplicado con el incremento de la digitalización como India en los últimos 34 años, van todos digitales y los gases se utilizan muy menos Entonces en este caso, podría haber sido levantada huella o mil millones de dólares también Por lo que la detección de tarjetas de crédito es muy, muy importante de implementar. El siguiente es el robo de identidad. Tan solo en Estados Unidos, la Comisión Federal de Comercio, FTC recibió más de 1.4 millones de reportes de tipo de identidad en 2020 Esto resalta la prevalencia del impacto del robo de identidad, que a menudo conduce al fraude financiero. Entonces el fraude en línea, con el aumento, creciente adopción del comercio electrónico y las transacciones en línea, fraude en línea se ha convertido en una preocupación importante. El LexisNexis, esta solución contiene 20 costos reales de reporte de producto reveló que cada $1 de transacciones fraudulentas cuestan a los testigos $3.36 debido a la carga vuelta apretón y perdió Mark y dados Entonces este es el impacto. Empresas perdiendo $1. No es que estén perdiendo $1, sino que indirectamente les costará 3.3, 6 dólares según este reporte Y dijeron por las reversiones de cargo, las tarifas y la mercancía perdida, estas estadísticas subrayan la urgencia e importancia de implementar medidas efectivas de detección de fraude para mitigar finanzas y los posibles riesgos asociados Y con esto, el conocimiento sobre el fraude es tipo y estrellas, qué impacto tiene según las instituciones financieras, en los clientes, clientes individuales e instituciones financieras y debilidades. Ahora, estamos bien para continuar con nuestros proyectos. Por lo que en la próxima conferencia en adelante, comenzaremos a hacer el sitio del proyecto Excel de los productos de la tarjeta de fecha. La próxima conferencia 89. Cómo tratar un conjunto de datos desequilibrado: Entonces, antes de pasar a la redacción del código para el proyecto, entendamos algunas cosas más sobre la detección de fraudes. Y esto es importante para hacer el proyecto como intentar antes de comenzar el proyecto. Incluyendo la parte teórica que es muy importante para potenciar tu aprendizaje. Entonces, en esta conferencia, entenderemos cuáles son los desafíos asociados a los modelos de detección de fraude que podemos crear y cómo superarlos. Así que comencemos. Desafíos asociados a los modelos de detección de fraude. Por lo que hay algunos retos cuando vamos a nuestra mesa arriba o modelos de detección de fraude. Y uno de los muy importantes son muy, eso ocurre con mucha frecuencia. Es decir, conjuntos de datos desequilibrados. Así desequilibrado dataset o los conjuntos de datos. Supongamos que vas a hacer detección de fraude para la tarjeta Kd y ya sabes, las actividades de fraude de tarjetas Arcade son muy menos como 0.1% o 0.001% Lo más probable es que una actividad o transacción de tarjeta de crédito sea la fraudulenta. Entonces, cuando tenemos el conjunto de datos, que están teniendo la mayoría de las transacciones para nuestros cuatro autos en todo el mundo. Le dejaremos compañero de equipo uno deja pocos lagos en un lakh, 1 millón de cartuchos x y habrá pocos cientos de transacciones que serán fraudulentas Entonces, cuando recojamos el conjunto de datos, habrá la mayor parte del 99% del conjunto de datos contendrá las celdas de transacciones legítimas, solo pocas de ellas serán el fraude Entonces cuando creamos un modelo, o los modelos siempre favorecerán a la mayoría. Entonces en este caso, lo hará, siempre, sea cual sea la transacción que vaya a suceder, lo activará como legítimo porque las transacciones fraudulentas son muy menores, nuestros modelos no aprenderán mucho sobre el producto. Jackson's y porque 99% conjunto de datos que contiene las transacciones legítimas, siempre favorecerá a la transacción legítima. Por lo que no lo activará muy raramente activará alguna actividad fraudulenta. Por lo tanto, el conjunto de datos desequilibrado es uno de los desafíos asociados con nuestro modelo de detección de fraudes Las transacciones fraudulentas son relativamente raras en comparación con las transacciones legítimas. Entonces el conjunto de datos sacudido y desequilibrado, la mayoría de los supuestos de Jackson se reunió, mientras que solo una pequeña parte de las transacciones son fraudulentas Este desequilibrio de clase plantea a los compañeros de clase la transacción fraudulenta y legítima Por lo que este desequilibrio de clases plantea desafíos para los modelos de capacitación, ya que pueden llegar a estar sesgados hacia la clase mayoritaria, lo que lleva a un trabajo deficiente en detectar instancias de productos de configuración. Entonces ahora entendimos lo que es este E, Así que esto es dos está relacionado con la mayoría del conjunto de datos contendrá las transacciones legítimas porque las transacciones fraudulentas son muy menores. Entonces. Esto llevará a la palabra que toma suficientes instancias fraudulentas por nuestro modelo. Otra son las técnicas de fraude adaptativo para que evolucionemos constantemente sus técnicas para bifosfato los sistemas de detección Entonces, sea cual sea el sistema de detección, cómo desarrollamos a los defraudadores están un paso por delante y ellos desarrollarán y evolucionarán sus técnicas para evitar que detecte Adoptan sus métodos, haciéndolos más difíciles de identificar. Uso tradicional basado en reglas. Nuestros enfoques basados en patrones. Según los cargos, los modelos de detección de fraude deben operarse regularmente para mantenerse al día con el soporte emergente del patrón de fraude. Tienes Deb Love en un enfoque basado en reglas o un enfoque basado en patrones Y hemos desarrollado uno para sistema de detección. Y no lo estás actualizando. Pero con el tiempo, los manifestantes, van a estudiar, van a desarrollar técnicas y sólo van a establecer un falso sistema de detección y van a Empezar a hacer la actividad fraudulenta Por lo que es muy importante adoptar las técnicas y potenciar tus modelos cada pocos meses para que estés, yo encabezo a los manifestantes El siguiente problema es la evolución del patrón de fraude. Por lo que los patrones de fraude no están limitados. Apoyo. Tienes un conjunto de datos donde estás desarrollando un modelo y hay pocos patrones que hayas reconocido el modelo reconocido y se ha desarrollado un mecanismo para identificar y activar una batuta fraudulenta mientras Nixon continúa Pero qué pasará que los estafadores reinventen o seguirán inventando nuevos patrones que no están ahí en el conjunto de datos Y por eso, o los modelos no están entrenados en eso. Entonces, si nuestro modelo no está encendido ese no reconocerá ese patrón y activará que actividad legal legítima de Azure no se detectará la actividad legal legítima de Azure y la actividad fraudulenta Así que evolucionando patrón tenso. Otro reto en la detección de fraudes. Los patrones de fraude cambian con el tiempo, lo que hace que sea un desafío para los modelos de detección de fraude capturar nuevas y emergentes técnicas de fraude. Los modelos necesitan ser capaces de detectar patrones de fraude desconocidos o nunca vistos sin depender únicamente de datos históricos Entonces tenemos que hacer nuestro modelo de tal manera que pueda detectar una transacción fraudulenta, aunque no se haya sucedido a ese pie tangentes y no haya ocurrido anteriormente, o no se trate de datos históricos Por lo que también debería reconocer el nuevo patrón. Entonces ese es otro desafío problemático que está siendo alimentado por los sistemas de detección de fraudes. La escalabilidad y el procesamiento en tiempo real es otro reto muy grande en la detección de fraudes Proceso del sistema financiero a gran escala de toda la cantidad de transacciones en tiempo real. Los modelos de detección de fraude necesitan manejar grandes volúmenes de datos de manera eficiente y proporcionar análisis en tiempo real para identificar la actividad fraudulenta de manera muy rápida. Esto requiere una infraestructura robusta y optimizar algoritmos para garantizar la escalabilidad y el procesamiento en tiempo real Entonces este es otro reto muy importante y muy grande, escalabilidad y el procesamiento en tiempo real Ahí se piden los datos. Si queremos detectar una transacción fraudulenta y quieres activarla para tener solo muy pocos segundos, hay seis a 8 s de tiempo para detectar, activar e identificar la transacción que es fraudulenta. Si pierdes ese marco de tiempo, seis a 8 s, pasará por él. Por lo que es cronometrado el procesamiento en tiempo real es muy, muy importante y esto debería ser muy rápido puede incitar Entonces esa es otra cosa. Luego, Feature Engineering, que se presenta en el desarrollo modelo de sistema de detección de fraude y efectivo , requiere conocimientos e ingeniería de características Identificar características relevantes que capturan la detección de fraudes. El fraude o los patrones eléctricos son cruciales para una detección precisa. Sin embargo, seleccionar el conjunto correcto de características y crear representaciones significativas de datos puede ser un desafío y requerir conocimiento del dominio y realmente activo. Intenté experimentar privacidad, fraude constante, detectar, involucrar procesar datos confidenciales de clientes, leer preocupaciones de privacidad. Es fundamental garantizar el cumplimiento de la normativa y mantener la seguridad de los datos a lo largo de todo el proceso de detección de fraudes. Siguiente celda en este falso positivo y falso negativo, lograr el equilibrio adecuado entre la minimización de falsos positivos, bandera de transacción legítima, fraudulentas, y transacciones fraudulentas falso-negativas lograr el equilibrio adecuado entre la minimización de falsos positivos, bandera de transacción legítima, fraudulentas, y transacciones fraudulentas y Y lo desencadenado como transacción legítima es un reto. Una alta tasa de falsos positivos puede incomodar al cliente, mientras que una alta tasa de falsos negativos puede provocar pérdidas financieras Ajuste fino de los parámetros del modelo. Y siempre es necesario optimizar el rendimiento. Entonces, ¿qué es el falso positivo? Falso positivo significa que las transacciones legítimas se marcan como fraudulentas Entonces, ¿qué pasará en este caso? Soporte en usuario que estaba usando su propia tarjeta de crédito y haciendo alguna transacción Que su modelo desencadenará Azure fraudulento. E inmediatamente llama a ese cliente y le dice que está haciendo en su tarjeta de crédito algunos proyectos de patria y se está haciendo Entonces, ¿qué pasará si ese cliente él mismo está haciendo eso, transacciones y se irritará porque es tangentes y ha sido detenido Entonces en este caso, falsos positivos crearán muchísimos inconvenientes para el cliente Y si va a suceder una y otra vez, va a irritar mucho al cliente De igual manera, los positivos de falla, los falsos negativos también pueden llevar a las finanzas Si se pierde una transacción fraudulenta y está pasando por el sistema, entonces Gordon provocará pérdidas financieras. El tablero, tenemos que equilibrar el falso negativo y el falso positivo de tal manera que ambos casos ocurran muy poco. Capacidad inter, inter trastada y explicabilidad. técnicas modernas de aprendizaje automático, como aprendizaje profundo, pueden proporcionar modelos de detección de fraude altamente precisos. Sin embargo, a menudo carecen de interpretabilidad, lo que dificulta explicar las razones detrás de las decisiones del modelo La capacidad de interpretar y explicar los resultados del modelo es crucial para ganar confianza y aceptación por parte de las partes interesadas. Y abordar estos desafíos requiere una combinación de técnicas avanzadas de modelado, monitoreo continuo de pericias de dominio, colaboración entre los científicos de datos, desatados colaboración entre los científicos de datos y expertos de dominio para construir un fraude robusto y adaptativo detectar Bien, ahora, discutiremos algunas técnicas con las que lidiamos con el conjunto de datos desequilibrado Porque en nuestro proyecto vamos a utilizar un conjunto de datos o una transacción con tarjeta de crédito que está desequilibrada en la naturaleza porque la mayoría de las transacciones son alrededor del 98, 99%, la excelencia Tange son tan legítimas y una hoja 1% y los exones están ahí, lo que desencadenará para el lo que desencadenará para manejo fraudulento Hacer frente a un conjunto de datos desequilibrado es un paso crucial en el desarrollo de modelos efectivos de detección de fraude Aquí hay varias técnicas comúnmente utilizadas para abordar los desafíos que plantea el conjunto de datos desequilibrado La primera técnica es estas técnicas de muestreo de remuestreo con agua Vamos a muestrear datos, tenemos, tenemos dos. Necesitamos remuestrear eso para que se pueda gestionar el desequilibrio en el conjunto Y hay algunas técnicas en el remuestreo también que podemos aplicar El primero es el submuestreo. Las técnicas de submuestreo implican el juego aleatorio eliminando instancias de la clase mayoritaria para equilibrar el conjunto de datos Reduce el dominio de la clase mayoritaria, pero puede resultar en la pérdida de información valiosa Entonces, si seguimos eliminando aleatoriamente a la clase mayoritaria, puede resultar en la pérdida de información valiosa también, pero esto también se está haciendo. ¿Bien? siguiente es sobremuestrear estas listas de verificación implica creación de instancias sintéticas de las clases minoritarias para equilibrar el En este caso, lo que hacemos, llenamos el conjunto de datos con la clase minoritaria. Se puede lograr a través de técnicas como sobremuestreo aleatorio o sobremuestreo minoritario modelo sintético inteligente sobremuestreo inteligente aumenta las representaciones de la clase minoritaria, pero puede llevar al sobreajuste Entonces esto llevó al problema del sobreajuste. Modelo híbrido. Estos modelos combinaron técnicas de sobremuestreo y submuestreo para equilibrar el conjunto El siguiente son las técnicas algorítmicas . El primero es el aprendizaje sensible al costo que n. Entonces ambos métodos, detección de anomalías es otra técnica, métricas de evaluación y características en cada momento estas son técnicas con las que trataremos el conjunto de datos desequilibrado Entonces en nuestro proyecto vamos a lidiar con este conjunto de datos desequilibrado con todo el muestreo, en el que sobremuestremos nuestro conjunto de datos con nube dopaminérgica con este conjunto de datos desequilibrado con todo el muestreo, en el que sobremuestremos nuestro conjunto de datos con nube dopaminérgica que es actividades fraudulentas. Entonces nos vemos dentro de la siguiente conferencia. 90. Detección de fraude con ningún modelo: Hola y bienvenidos de nuevo. Entonces comencemos con el proyecto. Entonces aquí estoy usando un archivo csv punto de tarjeta de crédito, que contiene los detalles de las transacciones de la tarjeta de crédito. Bien, Entonces nosotros, el primer paso es leer este archivo CSV. Entonces por hacer eso, así que para hacer eso, lo que pierdo, pierdo la función CSV de puerta y paso la ruta para el archivo CSV y el nombre del archivo TSV Entonces lo más sucio lo rotaremos y luego lo guardaré en ellos Variable de tarjeta de grado. Tan importante que sí, es así porque ¿lo conoces? Muy bien. Hasta el momento paso es ejecutar esto. Entonces ahora tenemos los detalles de la tarjeta de calificación en esta tarjeta de calificación, bien, en esta variable. Entonces al hacer clic en eso, ahora se puede ver aquí hay algunas columnas tiempos V1, V2, V3. Y este V1, V2, V3 va a leer 20. Y luego la columna es cantidad, y luego otra es de vidrio. Entonces quieres ser 28 y luego marca de tiempo y luego cantidad columna y columna de clase Entonces, ¿qué son estas columnas? Timess, timestamp y este V1, V2 hasta V 28, detalles de transacción de la tarjeta Arthur Jackson de Y por qué es así, porque esta no son las transacciones reales para la región de secularidad Y para mantener la información de la enorme información de la tarjeta Arcade segura y protegida. Mediante el uso del PCM. Nosotros tenemos. Estas columnas son la versión reducida de los datos reales para mantener el sector de información del usuario. Y para ello, utilizamos BCM y utilizamos modalidad diamante para reducirla a esta forma para que la información del juez rechace tu hay una cantidad y luego hay una clase clases es para euro el presentador ledger transacciones y una representa transacciones fraudulentas una representa transacciones fraudulentas Entonces esta es la rehabilitación del conjunto de datos, y vamos a caminar sobre este conjunto Entonces lo siguiente es, veremos la estructura del conjunto de datos. Y para eso usamos la función STR y pasamos esta variable de tarjeta. Y cuando ejecutemos esto, lo haremos, los estaremos dando, esto dará el resultado. Sigue corriendo. Empezar para la estructura de los datos. ¿Bien? Lo siguiente es que esta es la estructura de la marca de tiempo del conjunto Entonces aquí puedes ver que todas las columnas son numéricas. Y entre estos numéricos y el vidrio aquí, que está aquí es numérico GTO uno Pero en realidad esto no sea numérico, sino que así sea, es un dato categórico, ¿verdad? Porque lo es, el factor determinante para el euro es para el legítimo y 1 "más allá Una es para las transacciones fraudulentas así que esto estaría en el formato categórico Entonces, lo que tenemos que hacer, tenemos que convertir esto en el factor. Necesitamos convertir este entero al factor. Y para eso, lo que voy a hacer y usar la tarjeta de crédito dólar, compañeros de clase de dólar, vamos a usar la esta clase ¿Bien? Esta columna. Bien, entonces puedes leer la clase de llamada al dólar nos llevará a este color. Y luego usaremos la función factor para convertir esto en el factor. Y luego aquí otra vez, vamos a dar clase de dólar de tarjeta de crédito y luego niveles de coma Se puede ver 01. Entonces estamos asignando factores del G21. Esto a esto. Entonces de esta manera se convertirá a la, convertirla a los factores. Entonces antes era Integer. Ahora bien, si vemos la estructura del conjunto de datos, si vuelvo a ejecutar esto, ahora puedes ver aquí todas las demás columnas son nómadas y el vidrio no es factor de dos niveles. 01. ¿Bien? Así que ahora hemos convertido con éxito la columna de vidrio dos factores valiosos. ¿Bien? Ahora de nuevo, veremos la estructura del conjunto de datos y el factor de gafas de aviso. Lo siguiente es verificar ese valor faltante. Así que cada vez que obtenemos nuestro conjunto de datos, lo primero que verificamos para los valores nulos. Si no hay valores, tenemos que abordarlos. Necesitamos manejar los valores nulos poniendo algunos perdedores, quitando las columnas, pisos, que están conteniendo más número de valores nulos Entonces hay algunas técnicas que seguimos para manejarles valores faltantes. Y aquí para comprobar los valores faltantes que usamos es oscuro cualquiera y repartir el conjunto de Y pulgar apagado es un a nos dará el número total de valores faltantes en el conjunto de datos. Parte de es NA oscura, y luego la variable de conjunto de datos aquí pasará. Así que vamos a, déjame correr esto. Ahora viene a cero. Significa que nuestro conjunto de datos no contiene valores faltantes para que ignoren los valores faltantes. Entonces no tenemos que preocuparnos por eso. No necesitamos hacer nada por eso. Lo siguiente es obtener la distribución del fraude y la transacción legal en el conjunto Entonces ahora para eso, usaremos la función table y pasaremos la columna de vidrio porque columna de clase es el factor de distribución que dirá cuál es fraudulenta y cuál es transacción legal Así que tarjeta de crédito, dólar, clase, y mesas. Por lo que esto nos dará el número de transacciones y el número de transacciones fraudulentas. Entonces cero es 28,004 a como 84 veces tres obtenemos es la transacción del libro mayor un ascensor 492 o las transacciones fraudulentas Así que aquí con esta semana, Gamble sabe que este es el conjunto de datos desequilibrado porque la mayor parte del conjunto de datos, cada uno teniendo sus tangentes y ágil transacción legit y solitario de dos patas 34,300.492 como una transacción fraudulenta, que es muy menor en comparación con la transacción que Entonces este es un tipo de conjunto de datos desequilibrado. Ahora veremos cuál es el porcentaje de legítimo y para el conjunto de datos de Berlín, transacción fraudulenta en el conjunto Entonces para hacer eso, usaremos la función de tabla de puntos prop. Y pasaremos esta tabla, y pasaremos esta clase de columna. ¿Bien? Entonces, déjame ver. Tu 99.8% es el fraudulento, lo siento, más tarde Angie, Excelente 0.017% son las transacciones fraudulentas. Entonces lo siguiente es, déjame ponerlo esto en los gráficos circulares. Entonces, para crear un gráfico circular, lo que haremos primero vamos a crear una lógica y producto dos vectores aquí. Y luego lo asignaremos a niveles, y luego crearemos otro nivel. Y usaremos la función paste basada en estas etiquetas. Entonces tomaremos los niveles, este legítimo, y luego usaremos los cientos redondos en mesa de utilería Esto nos dará el porcentaje del porcentaje de las transacciones legítimas y fraudulentas Y aquí coma dos y fuimos porque quiero eso aquí, es un número de dígitos después de decimal Quiero restringirlo al dígito y luego Niveles, niveles y porcentaje. Y luego usaremos la función pipe. Aquí. Pasarán la tabla K más este nombre de columna en la que quiero trazar mesa ICE y luego etiquetar esta fiar y fraude Y luego la columna A colapsar o cada color tiene un Android verde. La parte verdosa, los leptones excelentes leer más, fraudulentos y manejan igual a pi Este será el rumbo de nuestro gráfico circular. Entonces déjame correr todo esto juntos. Y realmente se había hecho por gráfico aquí, transacción legita en 99.83 y fraudulenta y vino 17 Vamos a ejecutar esto de nuevo. Aquí. El gráfico circular son tus clínicas de contabilidad y su 99.83 y eso es tres, todo viene verde Y el rojo es por sólo 0.17% listo menos. Entonces este es un conjunto de datos verdaderamente desequilibrado. Ahora bien, lo que voy a hacer, sólo voy a tratar de predecir con el modelo normal la predicción no va a utilizar ningún algoritmo de aprendizaje automático y religioso tratar de predecir sin una botella. Entonces, para esa etiqueta x e y y sin embargo una gran repetición o función, son traídos a GTO Entonces qué voy a hacer y remar con tarjeta de crédito. Entonces en nuestro conjunto de datos para todas las filas y ROI dará ese número acercándose a ese conjunto de datos de tarjetas Kate. Y para todos el cohete repetirá cero, llenará ceros Entonces todo el proyecto se va a convertir como una transacción de libro mayor. Y luego usaremos el factor predicen sentido y niveles G fila uno. Y luego déjame correr esto. ¿Bien? Y si pongo predecir sentido, Bien, y predicciones, bien, y luego voy a usar la biblioteca de personajes aquí. Porque voy a usar la matriz de confusión. La matriz de confusión, y un jefe, este dato, como lo llamas una predicción, este y hace referencia a la clase de dólar de tarjeta de grado. Y si ejecuto estas métricas de confusión, vean que está cargada hasta la predicción. Ver la precisión de este modelo es 99.83. Por lo que todas las transacciones han sido clasificadas correctamente como legítimas. Todas las transacciones del libro mayor se clasifican correctamente como de fiar. Y esta enfermedad, los aditivos y esto es negativo. Entonces esto para 92 o las transacciones fraudulentas que no se clasifican como transacciones fraudulentas. Por lo que todas las transacciones en el conjunto de datos han sido clasificadas como Leggett y exones, incluso esto por 92 tan x y Nuestro modelo de predicción no se ha perdurado como una transacción fraudulenta que ha ido a la transacción del libro mayor Entonces, debido a que este es un conjunto de datos verdaderamente desequilibrado, nuestro modelo de predicción está prediciendo todo como un legítimo porque no se está entrenando en los datos fraudulentos porque es muy menor y por eso todo va a entrar en la verdadera Entonces esta es la predicción basada en la predicción del modelo normal. No hemos utilizado ningún modelo y algoritmo de aprendizaje automático. Entonces, en la próxima conferencia, usaremos un algoritmo de aprendizaje automático para manejar este conjunto de datos desequilibrado Y trataremos de predecir de una mejor manera. Nos vemos dentro de la siguiente conferencia. 91. Creación de conjuntos de datos de entrenamiento y prueba muestreo: Hola y bienvenidos de nuevo. Entonces en esta conferencia vamos a adentrarnos más en nuestro proyecto. Y lo que voy a hacer aquí, me voy a llevar la cosa. Lo que haremos, tomaremos los datos de muestra de los datos actuales de la puerta que tenemos. Entonces, lo que haremos, tomaremos el diez por ciento de los datos del conjunto de datos existente en la muestra. Y sobre eso, intentaremos crear un modelo. Y luego cuando esté dando predicciones correctas, aplicaremos ese modelo al conjunto de datos. Entonces, para hacer eso, ¿cuáles son las cosas que podemos hacer? Voy a usar una biblioteca D-flat. Entonces solo lo descargaste. Si no es descargarlo. Y luego hiciste biblioteca, vamos a usar y luego establecer semilla. Uno, este reporte, porque cuando tomo el 10% de este conjunto de datos de tarjetas de crédito. Entonces, si no pones set seed pool, entonces lo que sucederá cada vez que tomará aleatoriamente el diez por ciento de todo el conjunto de datos y cada vez será diferente, diez por ciento. Entonces por esa razón queremos la misma configuración, 10% cada vez que ejecutamos este código. Hasta el momento que pierdo uno. Bien, así que vamos a ejecutar esto. Y luego Cape Cod. Bien, lo refresqué. Así que déjame intentar volver a ejecutar todo el código. Bien, así que mira ahora hemos tomado el diez por ciento de esta tarjeta. Este es el conjunto de datos completo de esto, estoy tomando muestra, subrayado frack, esta función estoy usando y estoy dando 0.1, 0.1 min, 10% del conjunto de Entonces estoy tomando el flujo de 10% paréntelos del conjunto de datos y asignándolo a esta guardia de puerta Valioso. ¿Bien? Y luego cuando ejecuto esto, se puede ver ahora que hemos hecho la misma configuración, filas y columnas. ¿Bien? Entonces usaré mesa, y voy a usar esta clase. Entonces déjame dirigir esto. Ahora. Tenemos al becario aquí alternando de un lado a otro o algo así Entonces el 10% de eso. Bien, y aquí el legítimo es 28,000 y no protestante y Bien, entonces ahora hemos tomado el diez por ciento de todo el conjunto de datos. ¿Cuáles son las cosas? Ahora usaré la trama GG para solo usar esto. Y si no se descarga, lo descargas y lo instalas y luego lo usas. ¿Bien? Y aquí lo que voy a hacer, voy a tratar de esparcir la gráfica aquí. Y para este año sin embargo, esta persona muerta que hemos creado hace un momento, anestesia puede usar los ejes x e y Hacemos columna y colores y otra vez, hechos bajo clase de último minuto cero o uno Un frente de punto legítimo de largo, ¿de acuerdo? Puntos Geom, no, no renta en blanco y negro. Haz equipo con tu gráfica. Para que se vea en blanco y negro. Y escala manual de color aquí en azul y negro. Azul y rojo, perdón, no negro, azul y rojo. Color azulado. El euro y la guerra por un rojo y azul cada transacciones del libro mayor y rojo o las transacciones fraudulentas. Entonces déjame ejecutar esta herramienta Bien, así que mira aquí, ahora tenemos este diagrama de dispersión. La clase que representa 0.1 representando, pero aún así está desequilibrada Hay tantos Jackson que sólo unos pocos de ellos en el fraudulento. Bien, entonces ahora tenemos el 10% de los datos y lo hemos trazado con éxito Lo siguiente es que necesitamos crear el conjunto de capacitación y prueba para la creación del modelo de detección de fraudes. Bien, para esto, voy a ver herramientas. Si no ha instalado esto, puede instalar usando install.packages. Y puedes ver hacia el back-end para ello, quieres instalar la biblioteca Todos usan biblioteca. Y a compra este nombre de Seattle. Y lo he hecho, entonces voy a usar eso para sembrar 123. Y luego tomaré la muestra de datos. Y lo que voy a hacer, voy a dividir esta muestra de datos que hemos tomado 10%. Ahora, este 10% de datos y se dividió en 80, 2080 para el entrenamiento y Bronte para la prueba Sin embargo, voy a dar el punto de muestra dividir la clase de tarjeta de crédito en base a esto, ya sabes, y uno el clasificador y luego te dividiré carrera, voy a dar puntiagudo, puntiagudo 80% para entrenamiento y 20% compró el punteado Bien, y lo siguiente son los datos entrenados. Y tome el subconjunto de esta muestra de datos y subconjunto de muestra de datos, uso funcional y tarjeta de calificación. E hizo una muestra se llama a tos 2 min. Déjame correr esto primero y luego te diré por qué no te volviste verdadero y falso. ¿Bien? Entonces, cuando ejecutamos esta muestra de datos, eso no policía que contenga verdadero falso, verdadero, falso, verdadero, falso. Cierto es para la transacción del libro mayor y faltas para los pulsos para las transacciones fraudulentas Bien, entonces ahora tenemos la muestra aquí. Entonces lo que voy a hacer, voy a tomar los dos ALU y voy a conseguir los valores falsos aquí Entonces déjame correr estos datos de tendencia y estos serán los datos de prueba. Así que el conjunto de datos de entrenamiento y este conjunto de datos. Ahora bien, si queremos conocer el sentido del diamante de ese conjunto de datos de tren y entrenamiento y el conjunto de datos, puede usar un nombre de función dim, entrenar datos de subrayado 22,007, 85 filas y 31 columnas. Y para theta 5,696.31 columnas, las filas y las Así que de esta manera podemos obtener el tren y el conjunto de datos de prueba. En la próxima conferencia avanzaremos en la creación del modelo predictivo 92. Métodos de muestreo aleatorios sobre y debajo de muestra: Entonces ahora tenemos los datos de prueba y datos de entrenamiento. Vamos a manejar el conjunto de datos desequilibrado. Entonces hay dos, hay tres enfoques que vamos a ver en este proyecto. El primero es el sobremuestreo aleatorio. Y luego veremos el submuestreo aleatorio, y luego los veremos a ambos juntos. ¿Bien? Así que permítanme comenzar con el sobremuestreo aleatorio Entonces, ¿qué es el sobremuestreo aleatorio? sobremuestreo aleatorio significa que necesitamos poner un 50, 50 por ciento de los casos de fiar y fraude. Bien. Entonces para eso, lo que voy a hacer, voy a usar los datos del tren y sobre esta mesa de cristal. Y déjame correr esto. Entonces mira aquí ahora tenemos la rosa legit, 22,007, 50 y por nuestra histórica fuga de 35 años Bien, entonces esto está desequilibrado, así que necesitamos sobremuestrear aleatoriamente este sobremuestreo aleatorio significa que necesitamos ponerlos a ambos como acuerdos por alumno Tenemos que hacerlos iguales a ambos. Entonces para ese número analítico de transacciones se llaman colágeno, Ashley 22,007, 50 Y lo que estoy queriendo hacer nueva arena frac muchas veces de fiar, bueno es como, lo que quiero 50% Bien, entonces ahora recopilaré el nuevo y total, nuevo y el número total de filas requeridas en nuestro nuevo conjunto de datos sobre el conjunto de datos de muestra. Entonces aquí lo que voy a hacer, voy a nuevo legítimo alérgico a este dividido por la fracción de puertas lógicas como queramos para que hagamos y obtendremos un nuevo número Bien, entonces déjame dirigir esto. Entonces se trata de 45 mil 500 filas. Necesitamos como autobús esto, ¿de acuerdo? Entonces ahora voy a ser usado paquete Roche aquí. Entonces, si no lo has instalado, solo lo instalas. De lo contrario. Simplemente enorme. Es bastante sólido instalado aquí y crea un sobremuestreo valioso y eso se llama jar Y tenía un enorme método de muestra de puntos de gran ayuda. Y aquí voy a dar la clase como variable, variable independiente. Y este signo punto dará todas las demás variables disponibles en los conjuntos de datos. Y luego coma y luego los datos son iguales a, estamos usando esos datos de tren, entrenar datos de subrayado que hemos creado Y entonces el método es sobremuestreo. Y n número de rosas, nuevas y totales que están llegando a 45,500 Y semilla que estoy usando aquí, así que eso va a obtener el mismo resultado cada vez. Entonces déjame dirigir esto. Entonces ahora se ejecuta. Ahora bien, si miramos esto o miramos el sobremuestreo aleatorio, cobran, puedes ver aquí 45 mil Da click aquí y podrás ver lo siguiente es ahora, si quieres ver los datos, tenemos que usar el sobremuestreo y eso se llama resultado datos de signo de dólar Por lo que nos dará el conjunto de datos. ¿Bien? Ahora, si nos fijamos en esta tabla de conjunto de datos, sobremuestreo, crédito veremos ahí 45.500 filas y casos con patas a 22,017, 50 y también se imprimirán los casos fraudulentos tutorial ¿Verdad? Ahora, lo que voy a hacer, solo voy a trazar esto con la ayuda de GG plot. Entonces aquí, theta es igual a, voy a tomar este sobremuestreo de grandes datos y v1 ¿Por qué? Hacemos clase color, clase, clase y punto geom y azul delgado, lo mismo que hemos hecho antes Entonces déjame trazar esto y ver cómo se ven nuestros datos. Ahora, tengo sobremuestreo. Bien, Porque hago clic en precio. Vea aquí ahora nuestro nuevo conjunto de datos de muestra o palabra ha sido así. Este es el diagrama de dispersión y por qué estamos viendo todavía, estamos viendo muy menos casos de tierras agrícolas como se lee La mayoría de ellos se ven en azul solo porque por cada caso fraudulento. Hemos creado entradas duplicadas mientras se sobremuestrea Y es por eso que cada uno de estos contendrá más número de valores duplicados. Entonces por eso detrás de esto, hay más puntos. ¿Bien? Entonces para mirarlo, para trazarlo mejor, podemos usar la prueba t La prueba t te dará más visibilidad al respecto. Entonces déjame decirte aquí. punto de geom para Giussani es la posición cuadrupal, el detalle del subrayado y el ancho El punto de geom para Giussani es la posición cuadrupal, el detalle del subrayado y el ancho. Podemos poner 0.2 o puedo poner incluso 0.5. Y déjame correr esto. Ahora estos puntos serán detalles un poco más grandes. Entonces eso va a llegar a saber que hay más puntos. No sólo este punto, porque mientras se sobremuestrea, no se duplica, se creará el duplicado de los datos existentes Podía ver aquí. Entonces ahora se puede ver que hay más puntos, puntos más grandes. Entonces esto es, esto es por las cosas duplicadas. ¿Bien? Entonces ahora entendimos qué es el sobremuestreo y cómo podemos hacerlo Bien, sobremuestreo es que hay un problema con algo que podemos crear los puntos duplicados Ahora veremos el submuestreo aleatorio. Para submuestreo también use lo mismo. Después subrayamos los datos. Y entonces aquí, número de filas fraudulentas están ahí en esto. Sólo empieza si escribo N, el fraude será de 35. Sabía lo que quiero. Quiero el 50 por ciento del conjunto de datos total. Y nuevo y total será n fraude dividido por 0.5. Entonces eso nos dará el número total de caminos requeridos para el submuestreo aleatorio. Ahora estamos en esto. Nuevo y total serán 70, por lo que habrá una lista, se requieren 70 roles. Si lo hacemos bajo muestreo eso es bastante bajo y esto conducirá a la pérdida de beta. Bien, De nuevo, para otros aspirante, así que voy a usar el paquete. Entonces aquí voy a crear submuestreo, subrayado, adulto y muestra propia. Lo mismo voy a usar. Todo va a ser igual excepto este metalúrgico a bajo método será bajo muestreo Y aquí pasaremos el nuevo total y asiento. Y déjame correr esto. Ahora lo hemos hecho bajo datos de muestra. Ahora quieres ver el conjunto de datos, USDA, bajo muestreo de los datos y submuestreo gran escritor alquilará Nosotros dirigimos esto. Ahora tenemos este submuestreo Lo que Lisa Monday rueda por ahí. Y la mitad de ellos son de fiar y la mitad son fraudulentos Pero esto nos llevará a la pérdida de datos si trazas esta misma cosa. A ver. Aquí. Legged y los casos fraudulentos son casi iguales Pero aquí hemos perdido casi 22,700 filas. Eso no es bueno para ningún análisis ni ningún dato de predicción. Entonces, en la próxima conferencia, combinaremos ambos submuestreo, sobremuestreo juntos y trataremos de predecirlo 93. Cómo usar ROS y RUS para equilibrar datos: Hola y bienvenidos de nuevo. Entonces ahora hemos visto cómo podemos trabajar con el sobremuestreo aleatorio ROS Y entonces hemos visto cómo podemos trabajar con ese submuestreo aleatorio, sobremuestreo y submuestreo que hemos Pero ambos tienen alguna desventaja ya que el sobremuestreo también causará llagas y el submuestreo provocará la suave o eliminación de la mayoría de las filas, lo que puede impactar en la toma de decisiones sobre la predicción y nuestros modelos no serán precisos ¿Bien? Entonces enfoques usando ambos juntos, significa que el sobremuestreo aleatorio y el submuestreo, ambos lo harán Entonces este método se llama tablero. Entonces aquí todo va a ser igual. Lo que vamos a hacer, voy a usar y nuevo y Andrew, el número de filas en el conjunto de datos de entrenamiento. Así será, serán 12 mil becarios de estudio tutorial 785 Bien. Entonces aquí podemos poner al mando y nueva inteligencia 785. Ahora, fraude de arena frac, nuevo, lo que queremos hacer es encontrar 5%, 0.5 La mitad de eso serían las transacciones fraudulentas y la mitad de las transacciones del libro mayor de origen de datos. Ahora, tomaremos el muestreo, así que usaré la muestra de puntos y lo mismo que hemos usado parámetro underclass Y entonces todos los demás van a llegar con este punto resolver otras columnas realmente vienen entonces tren de datos subrayado método de datos Aquí. Anteriormente hemos utilizado el método por debajo y otra vez. Ahora usaremos ambos. Por lo que esto hará tanto submuestreo como sobremuestreo. Y se puede hacer un guión bajo nuevo y ser igual a flexionar y subrayar fraude o mala conducta conocía el marco del viento Entonces seguimos siendo semilla. Así que eso va a conseguir el mismo retarget. Lo siguiente, vamos a ejecutar esto. Y si quieres ver el conjunto de datos de la muestra de niños donde alquilarán y muestrearán, muestreo subraya los datos del dólar Entonces esto le dará tu muestra porque saltaron. Entonces estos son los datos. ¿Bien? Ahora vamos a crear nuestra mesa. Entonces nos vemos ahora. 11,004, 31 es menor o igual a cinco. Por lo que casi mismo número hasta casos legitos y fraudulentos. Entonces esto es una especie de poco equilibrio. ¿Correcto? Ahora crearemos la mesa de utilería. Y aquí se puede ver el porcentaje de los, tan legítimo, trágico, casi no son la persona apropiada Y el 49% son las transacciones de la patria. Ahora bien, si trazamos esta distribución, usaremos la misma parte de examen, esta o este conjunto de datos. Y queremos y rehacer x e y. y se hacen colores fríos en el vidrio y geom punto G y 0.3 Bien, vamos a ejecutar esto. Entonces C sin embargo esta es la gráfica de dispersión. Y nos vemos en los puntos azules todavía están, se puede ver que viene más de, pero en realidad no es esa cosa porque tenemos una muestra robusta y otra muestra o la muestra. Entonces los casos legged con menos en el conjunto de datos, por lo que se duplica de esos admin crean y ahí es donde se superpone Entonces el rojo y el azul son casi iguales, pero las tasas se superponen. Uno de la derecha se ve como menos uno, pero se puede ver. He usado el detalle aquí. Entonces ese es rasgo viene como un poco nervioso. ¿Bien? Entonces ahora hemos visto cómo podemos hacer el sobremuestreo, submuestreo y usar ambos juntos A continuación, utilizaremos la técnica de sobremuestreo de minorías sintéticas para equilibrar los datos Que se llama técnica inteligente. Y para ello, también usaremos la biblioteca de la familia Smart. Y en la próxima conferencia aprenderemos más sobre el deporte y luego escribiremos el código para la técnica inteligente para el sobremuestreo de minorías sintéticas Bien, entonces nos vemos dentro de la siguiente conferencia. 94. Ventajas y desventajas de SMOTE: En esta conferencia, vamos a aprender sobre sobremuestreo de minorías sintéticas pequeñas, que es una técnica muy popular sobre muestreo, utilizada para abordar el problema del desequilibrio de clases en el aprendizaje automático Funciona mediante la creación muestras sintéticas de clase minoritaria que son similares a las muestras de clase minoritaria existentes. Esto ayuda a equilibrar la distribución de clases y mejorar el rendimiento de los modelos de aprendizaje automático en conjuntos de datos desequilibrados Entonces esto realmente resolverá el problema que enfrentamos en los métodos de sobremuestreo y submuestreo Por eso se le llama técnicas sintéticas de sobremuestreo minoritario De modo que esa transacción que es minoritaria, sobre-muestreará a esa clase minoritaria, pero en una semana muy sintética Entonces aún así esta es también una técnica de sobremuestreo solamente, pero poco diferente Entonces veremos cómo se hace. Estas son algunas de las ventajas de la técnica inteligente e inteligente. Es una técnica realmente simple y fácil de implementar. Se puede utilizar en una variedad de algoritmos de aprendizaje automático. Puede ser eficaz para mejorar el rendimiento de los modelos de aprendizaje automático en conjuntos de datos desequilibrados Entonces lo primero es que es muy sencillo y fácil de implementar. Y también se puede usar con una variedad de algoritmos de aprendizaje automático Y mejorará el rendimiento de los modelos de aprendizaje automático. En conjunto de datos desequilibrado. También hay algunas desventajas de smart. Puede crear muestras sintéticas que son demasiado similares a las muestras de clase magnética existentes, lo que puede llevar a un sobreajuste Por lo que esto puede llevar al sobreajuste porque sobre-muestrear la base de datos en las muestras de clase obligatorias existentes Por lo tanto, puede llevar al conjunto de datos de tal manera que se lo comería puede sobreajustar el modelo y nuestro modelo no predecirá el resultado correcto Puede aumentar el ruido en el conjunto de datos, lo que también puede conducir a un sobreajuste Puede ser computacionalmente costoso, especialmente para grandes conjuntos de datos ya que estamos Y si el conjunto de datos ya es grande, eso lo hace, será más grande y el tiempo computacional Y los gastos serán realmente altos porque tomará más tiempo hacer cómputos para que cualquier aplique algún método sobre eso Entonces, en general, sobremuestreo de minorías más sintéticas es una técnica poderosa que puede ser efectiva para mejorar el rendimiento de los modelos de aprendizaje automático en conjuntos de datos desequilibrados No obstante, es importante estar al tanto de sus limitaciones y utilizarla con cuidado. Entonces ahora veremos cuáles son las desventajas y las ventajas son primero, técnica inteligente. Una vez más, las ventajas EEG y simples de implementar y desventajas que puede crear o sobreajuste se pueden utilizar en una variedad de algoritmos de aprendizaje automático pueden aumentar que Dijeron una prueba. Y podemos tener en cuenta la mejora del rendimiento de los modelos de rendimiento de la bomba de aprendizaje automático y computacionalmente será costoso. Entonces ahora tenemos la comprensión básica de smart y cómo, y cuáles son las ventajas y desventajas se rasgan a través En la próxima conferencia, implementaremos la técnica inteligente en nuestro proyecto 95. Aplicación de la técnica de SMOTE en el conjunto de datos: Hola y bienvenidos de nuevo. En esta conferencia vamos a escribir más nuestro código. Técnica inteligente, técnica sobremuestreo de minorías sintéticas para equilibrar el conjunto de datos o la técnica utilizada en el dataset GitHub que es desequilibrio Entonces aquí necesitamos instalar el backend install.packages Así que voy a usar a la familia Smart de nuevo aquí. Entonces, si no está instalado, solo lo instalas ejecutando este comando y luego usar librerías de la familia spot. Bien. Entonces, lo primero que necesitamos para ejecutar esto. Bien, lo siguiente es usar los datos del tren en el cristal. Entonces mira aquí ahora, este es nuestro oriental, nuestros datos de entrenamiento. Entonces 22,007, 50 es el número de los casos, 35 son los casos amplios de tierras Ahora, fijaremos el número de fraudes y dejaremos que haga conjeturas La persona deseada disciplinó los gases med. Bien. Entonces así el número de conjeturas es tanto en el arte, los datos originales de entrenamiento y los casos prevalentes a los 35 Y lo que queremos nuestro giroscopio, he dado 0.6. ¿Qué significa? Significa que quiero el, nuestro nuevo conjunto de datos. Después de esta técnica inteligente. Quiero que sea como 60% de las conjeturas legítimas y 40 por ciento de los casos fraudulentos, bien, Así que 60, 40 este año quiero cenicar, estoy dando sin embargo Arg2 es igual a 0.6 min, 60% de los casos, y 40% de las conjeturas de primera línea serán eso Entonces, ¿cómo calcular los mejores sitios? Entonces cuando nosotros, si tú, si miras esta función de modo, de manera sintética, puedes poner F1 y puedes ver aquí esta técnica sintética de sobremuestreo minoritario Entonces esto es a través de dendritas, pincel sintético a instancias, instancias usando algoritmo inteligente ¿Y cuáles son los parámetros? Tx, dx, dx, ese es nuestro conjunto de datos. Target, es que la columna sobre la que queremos apuntar, como en nuestro caso, es el cristal. Y luego k. Y luego tenemos los tamaños de dub, dub, dub. Número de veces c de x es el DataFrame del conjunto de datos numéricos atribuidos Target es un vector de la clase de destino correspondiente a lo que hace si dx k, el número de vecinos más cercanos durante el proceso de muestreo, y luego el tamaño de subrayado doble es el número o el vector que representa el dígito veces hasta instancias minoritarias sintéticas sobre el número original de instancias mayoritarias ¿Bien? Entonces, cuántas veces quieres esta técnica inteligente corra que tenemos que decidir y cómo podemos decidir. Podemos decidir usando esta fórmula. Aquí, estoy usando la fórmula uno -0/0 en n dividida por n, n1, y eso pondrá menos ¿Bien? Entonces esta es la fórmula. Esta fórmula dará los n tiempos que serán vertedores iguales a la etapa de doblaje Entonces vamos a calcular esto. Vamos a correr esto y déjame ver cuánto. 422 veces necesita correr. Bien, 432 abierto, 334433. Bien, entonces ahora tenemos el escenario de doblaje también. Así que ahora usaremos la variable de salida de subrayado inteligente para almacenar los datos que obtendremos de aquí Así que la función suave usaremos y luego x, x será nuestro tren de conjunto de datos de entrenamiento y por lo tanto coordinador. Y entonces aquí estoy usando coma en blanco y luego voy a hacer menos c una coma uno ¿Por qué estoy haciendo esto? Porque en nuestro conjunto de datos, en nuestro conjunto de datos de capacitación, en nuestro conjunto de datos de capacitación. Si nos fijamos aquí. Entonces v1 a primera columna cada marca de tiempo que no necesitamos. Por eso estoy moviendo esta primera columna, timestamp y luego tenemos otra. La clase. Entonces clase también estoy quitando Chrome. Sí, así es, 1.31 primera y última columna estoy nivelada Entonces el objetivo es entrenar los datos de subrayado La columna de destino es la clase conocida como clase Estoy dando cinco y upsized es igual a n tiempo. Entonces déjame dirigir esto. Bien, ahora, si ejecutamos esto y si quieres ver los datos, será sobre los datos que ellos quieran o datos en dólares. Y vamos a ejecutar esto para mirar los datos, puede ver aquí. Ahora el nuevo conjunto de datos inteligente está teniendo V1, V2 , V3, hasta leer 28 y luego la cantidad y luego la clase, bien, Así que ahora la clase aquí está minúscula c. antes la hemos usado estaba en la capital Entonces, para eliminar la confusión, solo cambiaremos eso a mayúsculas C. Así que para hacer eso, necesitamos usar la función length, que tomará el nombre del conjunto de datos y luego el número de columna Y entonces puedes darle el nombre que quieras llegar a ese nombre de columna que le estoy dando a tu clase. Y cuando ejecute esto, se cambiará. Y si vuelvo a hacer clic, entonces ahora la clase está en mayúsculas, ¿bien? Ahora bien, si se quiere ver el porcentaje de si ha sido perturbado, el sobremuestreo o muestreo lo ha hecho S2 durante dos días No lo eres. Entonces usaremos la tabla prop que hemos usado anteriormente. Y aquí pasaremos los conjuntos de datos pequeños de subrayado de crédito, la columna de clase, y ejecutaremos esto Ver, ahora d rho es 60% y uno es casi 40%. Por lo que ahora nuestro conjunto de datos se distribuye como 60% de los casos y querer por ciento son los casos fraudulentos. Ahora, compararemos con el gráfico de dispersión original. Esto es, este es el gráfico de dispersión original que hemos hecho en el conjunto de datos de entrenamiento. Entonces déjame mostrarte cómo se veía. Míralo con este aspecto. No sabía la distribución de los datos. Los casos de fraude fueron muy pequeños. Y ahora voy a trazar el nuevo, correcto. Y eso es porque la técnica inteligente, inteligente la aplicamos. Ahora puedes ver ahora nuestro conjunto de datos está más equilibrado. Y este campo de gas más técnica aunque lo hace con el con más número de conjeturas fraudulentas aquí Y estos no son los valores superpuestos o duplicados. Estos son el punto sintético que se ha llenado con la técnica inteligente. Entonces ahora tenemos el conjunto de datos, dataset de desequilibrio. Lo siguiente es lo que tenemos que hacer, tenemos que crear un árbol de decisiones y tenemos que predecir los casos fraudulentos que haremos en la próxima conferencia. 96. Cómo predecir los casos para las transacciones con tarjetas de crédito con el modelo: Hola y bienvenidos de nuevo. Entonces ahora somos buenos para predecir casos de fraude con base en el conjunto de datos que hemos creado así modo. Así que predecimos el valor basado en nuestro modelo. Entonces para eso, vamos a usar los paquetes rpart y rpart plot Entonces no lo has hecho, si no lo has instalado, instálalo ejecutando estos dos comandos. Y luego biblioteca rpart y biblioteca nuestra dotplot. ¿Bien? Y entonces aquí suelo estar guardia modelo como variable. Y aquí lo que voy a hacer, voy a usar la función rpart Si queremos saber qué es la función rpart, puedes poner rpart F1 y te dará el árbol recursivo, de particionamiento y regresión recursivo a nuestros socios Entonces, si queremos saber más sobre esto, puedes leer la documentación y cuáles son las cosas que lleva lleva la fórmula trazada con el subíndice x y nuestras fallas de parte y modelo y todas esas cosas ¿Bien? Entonces quieres leer en detalle, puedes ir a leerlo. ¿Bien? Entonces lo siguiente es ladrar, y luego les damos las columnas o la variable dependiente. Entonces en nuestro caso es cada clase y luego signo y luego punto significa todas las variables independientes. Entonces punto tomará todas las, todas las demás variables independientes. Y luego aquí usaremos el conjunto de datos. Curso de Grandes Honores. Más datos. Tenemos, hemos hecho a través de la aplicación del smart el mercado. Así que vamos a ejecutar esto. Entonces ahora puedes ver que el modelo GARCH está aquí. Y bien, lo siguiente es que necesitamos usar la R. Ahora, voy a tomar el árbol de decisiones para esto. Entonces veamos cómo nuestro modelo predice, clasifica las cosas en ellas. Casos legítimos y el problema dice, por lo que toma la lesión. Entonces nuestra trama, nuestra parte dotplot y luego pasaremos esto. Y luego extra es igual a cero tipo integral de fibra. Y rápido 1.2. Bien, así que vamos a ejecutar esto y ver, sí, este es el árbol de decisiones. Este 1.1, 0.2, va a hervir esta cosa. ¿Bien? Entonces este es el árbol de decisiones, y así es como nuestro modelo decidirá cuál es. Entonces supongamos que esto es antes. Si el valor es mayor o igual a -2.5, será clásico aplicado como caso legítimo, y produce menos de 0.5 -2.5, será como un invitado fraudulento Entonces este es el árbol de decisiones que seguirá, ¿de acuerdo? Y luego si quieres ver los valores predichos, así podremos usar el predict y luego pasaremos el modelo GARCH Entonces Daesh data sobre datos que predecirán tu clase tipo Clasificará cero o uno. Entonces vamos a ejecutar este modelo en nuestros datos de prueba y ver cómo está prediciendo. Así que vamos a ejecutar esto. ¿Bien? Entonces ahora si miramos, podemos ver aquí, ahora, para una cosa de juego, se ha pronosticado para la cuarta fila, así, 0.1, se ha clasificado. Entonces ahora, si queremos ver cuál es el nivel de precisión hasta el momento que podemos crear una matriz de confusión usando la biblioteca de Keras Tan enorme zanahoria y entonces o bien conocía las métricas convergentes Y voy a pasar este valor predicho aquí y aquí. Datos sobre la variable dependiente del vidrio, dependiente. ¿Bien? Así que vamos a ejecutar esto y ver aquí la matriz de confusión. Por lo que de nuestro total nueve casos fraudulentos donde hay y aguantar 97 ha habido siete casos prevalentes se ha clasificado correctamente y para llevar no clasificado correctamente. De igual manera, para la leyenda casos rojos, casi todos los casos se clasificaron correctamente. Por lo que la precisión de este modelo es del 98, casi el 99%. Así que de esta manera hemos implementado el modelo de detección de fraude con tarjeta de grado utilizando nuestra programación. Y hemos aprendido tantas cosas como cómo manejar los datos desequilibrados y ¿cuáles son los algoritmos que podemos aplicar ¿Cuáles son las técnicas de sandía equilibrando el conjunto de datos? Entonces espero que hayas entendido si tenemos alguna duda, puedes preguntar en clase comentando o haciendo una pregunta. Gracias. 97. Introducción a ggplot2: Hola y bienvenidos de nuevo. En esta serie de conferencias. En próximas conferencias, vamos a aprender sobre la trama GG. Hemos estado usando la trama GG demasiadas veces en nuestras conferencias. Pero lo que opto trabajo que muchos de nosotros reutilizamos parcelas como gráfico de barras, gráfico circular. Y hay muchos frascos o las bibliotecas de hombres de la derecha son enormes Al igual que GG Plot tours, GG plot. Pero faltamos de conocer los fundamentos detrás de eso. Y deberíamos estar sabiendo eso. Teniendo eso en mente. Estoy creando algunas conferencias sobre conceptos básicos de GG plot two. Del mismo modo, estaré creando más conferencias que abarquen también todos los demás temas, los fundamentos de todas esas cosas para que podamos tener una comprensión clara de las cosas. Entonces DJ ggplot2 es un paquete R para crear visualizaciones de datos Fue desarrollado por Hadley Wickham, tiene una implementación de gramática de gráficos Verá qué es la gramática de los gráficos, lo que proporciona un enfoque estructurado para crear una gráfica de personalización El paquete se basa en el principio de permitir la estética, mapeos y permitir a los usuarios crear gráficos altamente personalizables y de calidad de publicación Así que GG plot a Deb le encantaba hacer claves públicas y gráficos 3D Entonces antes de eso, usamos para crear gráficos, pero que no estamos listos para la publicación. Entonces, si quieres crear una unidad gráfica pública no es 3D para ir y usar las herramientas como Power BI o Tableau, alguna otra herramienta gráfica. Pero GG plot two tiene la capacidad de crear gráficos de calidad de publicación. Y es muy personalizable. Entonces, sean cuales sean las capas que quieras agregar que los usuarios pueden agregar en función de sus requerimientos. Sigue el enfoque gramatical de los gráficos que es muy, muy importante y por eso está teniendo tantas capacidades para crear un aspecto impresionante en gráficos y gráficos. Bien, entonces entendamos algunas de las características y características de la trama GG para trazar dos sigue la gramática de los gráficos GG plot dos. Como dije antes, los problemas que la gramática de los gráficos marco, lo que significa que las gráficas se construyen mediante la combinación de diferentes componentes de capas como datos, estética, objetos geométricos, y transformaciones estadísticas. Así que no solo traza los datos, sino que también se encarga de los datos, la estética, los objetos geométricos y las transformaciones estadísticas. Estadística, estética y mapeos. Gg plot para permitirle mapear variables en sus datos a diferentes estéticas, atributos como coordenadas x e y, color, forma, tamaño y muchos más. ¿Los mapeos definieron cómo se presentarán visualmente los datos en la trama La siguiente característica es la estratificación. El primero es la gramática de los gráficos, y luego tenemos la estética y el mapping. Y luego tenemos la tercera clave, características y características. Eso es estratificar. lotes en la gráfica GG dos se construyen agregando capas de elementos gráficos como cada capa representa un componente diferente de fluidos como puntos, líneas, barras son texto. Por lo que se construye agregando capas, una encima de la otra. Y las capas tienen diferentes componentes como plot, componente de las parcelas como puntos, como geom point para usar ¿verdad? Reutilización de la línea Geom. Entonces las barras que usemos nuestra capa de texto también estarán ahí. Las capas se pueden agregar y personalizar de forma independiente, lo que permite una visualización compleja y en capas. Transformadores estadísticos y gráfica GG para proporcionar un rango tan amplio de transformación estadística que se puede aplicar a los datos antes de visualizarlos Estas transformaciones incluyen agregar datos, calcular el resumen de las estadísticas, suavizar los datos y la gráfica GG dos mínima y altamente personalizable ofrece un alto nivel de opciones de personalización, lo que le permite modificar casi todos los aspectos de la trama, incluidos el acceso, las etiquetas, los títulos, las legiones, los colores y los temas Por lo tanto, no solo te proporciona como un Teams, sino que también te puede proporcionar personalizar cosas como ejes, etiquetas, títulos, leyendas, colores, y tiene muchos temas que puedes aplicar Esta flexibilidad te permite crear parcelas que cumplan con requisitos específicos para que coincidan con tu estilo visual preferido. Soporte para facetado, GG plot dos soportes facetado, lo que le permite crear múltiples parcelas o paneles, pujar por, cinturón en una o más variables en sus Esto es útil para explorar y comparar diferentes subconjuntos o categorías dentro de su conjunto Integración con nuestra gráfica GG para integrarse a la perfección con nuestros paquetes y herramientas de manipulación de datos. Puede combinar fácilmente la gráfica GG dos con bibliotecas de manipulación de datos, como la playa y la R ordenada para preprocesar y transformar sus datos antes de la visualización Entonces, en general, la gráfica GG proporciona un marco potente e intuitivo para crear una amplia variedad de médula Jason's, que van desde gráficos de dispersión simples hasta gráficos facetados complejos de múltiples paneles Se ha convertido en uno de los paquetes de visualización de datos más populares y ampliamente utilizados en R debido a su flexibilidad, estética y énfasis en los buenos principios de diseño. Entonces ahora también tenemos la comprensión básica de la trama GG. Vamos a sumergirnos en esa Grabación y vamos a crear algunas parcelas básicas usando GG plot two. Así que he creado un archivo de script GG plot dos puntos R. Y aquí intentaremos usar la gráfica GG para crear una gráfica y una gráfica básica, e intentaremos entender las diferentes capas que se le agregan. Lo primero que tenemos que hacer es instalar el paquete ggplot2 Entonces, si no está instalado en tu RStudio, puedes hacerlo ejecutando el script install.packages, y puedes darle al nombre del paquete GG Una vez instalados los paquetes, puede usarlo escribiendo la biblioteca y luego dado el nombre del paquete aquí. Por lo que esto le permitirá utilizar el paquete de parcela GG. Entonces, el primer paso es cargar el paquete, instalar y cargar los paquetes. El segundo paso es crear una gráfica de dispersión básica. Entonces para eso, lo que voy a hacer, primero voy a crear un DataFrame Entonces, para crear un DataFrame, voy a crear una variable Y luego usaré data.frame para crear un DataFrame. Y aquí voy a proporcionar los puntos x, el vector x, c12, 345, y el vector y y el eje y para el eje y y los regalos, ver 246810 Entonces 12,243,648.5 diez serán las coordenadas para nuestro. Así que de esta manera, voy a crear un DataFrame. Ahora. Voy a crear una gráfica de dispersión usando GG plot two es bastante simple Usaremos la función GG plot aquí, GG plot. Y luego vamos a proporcionar los datos, ese DataFrame que hemos creado Los datos sobre los que se desea crear la parcela. Entonces los datos te darán, entonces lo siguiente es la estética. La estética le dará eje x e y sobre el que se desea trazar los puntos. Entonces x es igual a x e y es igual a y Entonces a partir de aquí tomará, y luego le daremos la trama, perdón, más punto geom Entonces geom point, vamos a trazar los puntos. Tomará los puntos de la parcela de orina. Entonces déjame dirigir esto. Entonces mira aquí ahora nuestra trama de dispersión está lista. Ver, el primer punto es uno-dos, eje x y eje y Entonces se traza 242.4 a cuatro aquí, luego 36, y luego 4.5 Por lo que estos puntos se han trazado correctamente usando GG plot dos Entonces déjame explicarte un poco más sobre estas cosas. Así que creamos un DataFrame llamado data con dos columnas, x e y. función Gg plot inicializa un objeto GG plot que envía un texto al DataFrame en su primer argumento al DataFrame Y luego la función estética aquí la hemos utilizado para tomar función especifica la estética mapeando X al eje X e Y al eje Y. Así que aquí estamos mapeando el eje x a los ejes x e y. ¿Por qué? Y luego el punto geom fuentes y suma los puntos a la trama Entonces función geom point, qué va a hacer, tomará los puntos de esto y trazará los puntos en la trama Ahora, lo siguiente es que intentaremos personalizar la trama. Entonces, lo que haremos, intentaremos personalizar la trama por apariencia. Así que personaliza la apariencia de la trama. Así que aquí usaremos la función GG plot data la estética será la misma. Y luego más geom point. Y luego después del punto geom, lo que haremos, vamos a dar filtraciones iguales a 21 Y el color del relleno será azul y el color será negro Y sitios, te estoy dando tres. Después usaremos la función labs para crear el título. Por lo que título de la trama será la gráfica de dispersión. Y entonces qué eje x, vamos a dar el nombre eje x y eje y les dará eje y les dará eje Entonces otra vez más. Y luego usaremos, vamos a usar el tema aquí y vamos a usar tema subrayado, mínimo, mínimo cosa que vamos a usar, sí Entonces déjame primero ejecutar esto y luego explicarte al usuario varios puntos. Ahora nuestro diagrama de dispersión está listo y se puede ver Una vez que he sido trazado aquí, pero esta es la, ya que aquí tenemos aquí en azul, los puntos se llenan con el azul y la parte exterior Entonces aquí hemos dado negro. Si lo pongo naranja, y si lo ejecuto. Ahora, alter fiestas naranja. Entonces déjame hacer un poco más grande a nueve. El concesionario IP y puerto y tamaño y 31, lo siento. Por lo que ahora puedes ver aquí se ha incrementado el tamaño. Bien. Entonces este es el pantalón YuJa ver que siento que es azul si lo haces amarillo Entonces esto se volverá amarillo. ¿Bien? Así que de esta manera podemos personalizar y tú puedes hacerlo funcionar. Y mira esta es la gráfica de dispersión que se dirige aquí abajo, y el eje x, el eje y están llegando Y equipo estamos usando minimal. Entonces déjame correr esto otra vez. Entonces el tamaño estará bien. Lo siguiente es geom point font, algunos textos que no son argumentos para personalizar la apariencia de los puntos Aquí dijimos que el becario uno es círculo completo y un color de relleno a azul, contorno de color a negro y talla tres Entonces esto fue lo anterior. Ahora hemos cambiado dos lados nivel llamado color exterior es naranja, color de relleno es amarillo. Bien. Puedes poner F1 seleccionando geom point y te dará la descripción sobre el punto geom, el Alsoma y ¿Bien? Si quieres aprender más, puedes ir y aprender más sobre el punto geom de ti Guardar. Puedes ver aquí si quieres conocer más sobre el CEP, puedes venir aquí y puedes conocer los seguros La estética segura se puede especificar con un entero 0225 o un solo carácter, que utiliza los caracteres en el símbolo de trazado para secar rectángulo más pequeño que es visible alrededor de un píxel Y no dibujará nada mapeando a una variable discreta. Entonces si ponemos aquí 25, veamos qué se está tramando aquí El otro triángulo se ha trazado si ponemos dos. Entonces como veis, el triángulo sin relleno, bien, entonces uno será el rectángulo. Uno es el círculo cinco. Si pones cinco diferentes, vuelve a decir ese rectángulo. Entonces para ocho, veamos qué se está tramando aquí. Bien, Líneas 11. Para que veas, para que puedas explorar y puedas usar otras cosas, ¿de acuerdo? Luego tenemos los laboratorios que agregarán el título al eje x, al eje y y al Entonces Tim minimal es la función que se aplica al tema minimalista a la trama Podemos usar otro tema que sea blanco y negro. Entonces a continuación lo que haremos, aprenderemos a agregar múltiples capas y anotaciones a nuestra gráfica Entonces aquí todo va a ser el mismo punto geom. En estas cosas va a ser la misma línea geom. Añadiremos una línea geom para que se dibuje una línea y luego escribiremos algo de texto aquí Así que los mazos de eNodeB x es igual a tres, y igual a cero, y los laboratorios de nivel 999 titulados darán lo mismo y el equipo los usará mínimos. Así que vamos a ejecutar esto. Entonces mira aquí ahora, se ha dibujado una línea del genoma uniendo los puntos. Y vea aquí para 3.6, 3.6 puntos, hemos escrito textos, así que el texto align está escrito aquí, etiquetado línea. Puedes cambiarlo a cualquier cosa. Supongamos, supongamos que quiere escribir cualquier cosa aquí y simplemente ejecutar esto. Ahora está escrito cualquier cosa. Para que puedas poner cualquier cosa aquí. Así línea. Entonces volveremos a ejecutar esto. Lo que sea que escribas, va a venir aquí. Entonces aquí por 3.6, el eje x tres y las ondas son seis Lo hemos anotado sin textos, y hemos dado como línea los textos y el nombre del nivel Bien, y equipo estamos usando mínimo. Bien, Lo siguiente es, así que la línea geom de la línea Sonata a las parcelas anota una vez y reutiliza para agregar Aquí, el texto especificado para mostrar así como las coordenadas x e y Y se pueden modificar los niveles x e y aumentados mediante la función de anotación Bien, siguiente zanja ajuste rápido y temas. Así que podemos usar facetas para agregar múltiples parcelas a un lote. Para eso, usaremos data.frame creará una faceta de subrayado de datos variables, data.frame X e y punto darán y luego agruparán. Aquí estoy creando grupo por cada punto se adjuntará a un grupo E, , B, y C. Así que ahora tenemos grupos aquí. Ahora vamos a ejecutar esto. Y luego ahora creamos nuestra trama de dispersión facetada. Entonces primero déjame crear los diagramas de dispersión. Ahora tenemos los puntos. Y luego están ahí otras categorías o grupos ABC. Entonces geom point, todo excepto por, excepto el rap. Y aquí le proporcionaremos al grupo, bien, este letrero y grupo tomarán al grupo de aquí y se facetará Entonces ahora tenemos grupos ABC y todo lo demás es lo mismo. Estamos utilizando mínima, de nuevo, función de envoltura de subrayado faceta se utiliza para crear una trama facetada basada en la columna de grupo, cada grupo Harris en hockey de panel Ahora, cambiaremos el tema a blanco y negro. Tema subrayado v, w. Usaremos, y veremos qué se está consiguiendo ver aquí Ahora, el tema se ha cambiado y ahora se está mostrando claro, gritos, ABC Tiene que punto B al punto C tiene un punto. Bien. Así que ser tema canción punk cambia la trama, él a blanco y negro. Y esta trama GG dos tiene varios temas incorporados como underscore minimal, theme underscore classic y theme underscore Entonces déjame copiar esto e intentar usar el t subrayado gris. Ahora está en gris. Y luego equipo subrayó clásico. Clásico es como dos grupos aquí y luego puntos. Bien, así que vamos a hacerlo hacerlo hoy. ¿Bien? Entonces esta es la base de la trama GG a I. Supongo que aprendes y te animo a hacer más práctica creando algunos puntos y trazando varias parcelas sobre eso Y jugando con los puntos geom, sumando los labs, pienso igual jugando con los mismos segmentos de pierna Se preguntaba 25. Entonces puedes poner varias formas y secar lo que significan los números para lo mismo, ¿de acuerdo? Entonces estas son las cosas que puedes hacer 98. Trama de dispersión y trama de salto: Hola y bienvenidos de nuevo. En esta conferencia, vamos a aprender sobre otra cosa importante del trazado que es scatterplot y do dot plot Entonces déjame decirte que vamos a ver algún ejemplo. Y para esto voy a usar el conjunto de datos incorporado, es decir el dataset Iris, que está disponible con la R. ¿Bien? Entonces déjame decirte brevemente qué gráfico de dispersión debes estar sabiendo lo que es un diagrama de dispersión. Pero para refrescar tu memoria, te digo que los gráficos de dispersión son similares a los gráficos de líneas, que suelen utilizarse para trazar. La gráfica de dispersión almacena cuánto se relaciona una variable se relaciona La relación entre las variables se denomina correlación, cual se suele utilizar en métodos estadísticos. ¿Bien? Entonces esta es la definición de scatterplot. Y por esto apostado, para esta conferencia, soy un acuerdo escrito a mano Y aquí estoy usando el conjunto de datos de iris, que es un conjunto de datos muy conocido que contiene medidas de su impresión, flores de iris, sépalo y longitud de pétalo y todo su contenido Entonces para esto, necesitamos el dataset iris que está incorporado con los datos como nuestro paquete, y luego necesitamos GG plot al que ya hemos descargado Y si no se descarga, puedes usar install.packages y el nombre del paquete GG plot two Y reinstalará descargado e instalado en tu RStudio Y luego para usar la trama GG dos, necesitamos usar biblioteca y luego tenemos que pasar el nombre del backend Así biblioteca GG plot para realmente permitirnos usar las funciones de trama GG. Y luego para cargar el conjunto de datos del iris, simplemente necesitamos escribir datos. Y luego tenemos que pasar el nombre del conjunto de datos datatype es el data iris Cargará el conjunto de datos del iris. Y cuando haces clic en este conjunto de datos de iris, puedes ver aquí que contiene el ojo, esta cola de Florida que es la longitud del sépalo, la anchura del sépalo, la longitud del pétalo, la anchura del pétalo, y la especie Entonces hay especies. ¿Bien? Entonces en esto los objetos de una propiedad están ahí y las etiquetas privadas, una por p filas y cinco columnas están ahí en este conjunto de datos. Bien, entonces déjame volver al código. Entonces ahora lo que vamos a hacer, vamos a hacer el, vamos a crear un diagrama de dispersión. Entonces, para crear una gráfica de dispersión, usaremos la función de diagrama GG y usaremos el nombre del conjunto de datos aquí. Eso es conjunto de datos a conjunto de datos Iris. Luego para la estética, para el eje X, trazaremos la longitud del sépalo y el eje y Trazaremos el ancho del sépalo. Y luego usamos la función de punto de subrayado del genoma para trazar estos puntos Es bastante simple. Función de trazado de gg luego nombre del dataset que la estética. Tenemos que pasar las coordenadas x e y. Entonces x barra, coordenada X utilizará la longitud del sépalo. Y para la coordenada y utilizará la función de ancho sépalo y punto geom para trazar estos puntos, puntos geométricos Entonces cuando ejecutamos esto, obtenemos este diagrama de dispersión aquí. Entonces ahora todos los puntos sobre la longitud del sépalo y el ancho del sépalo se han trazado aquí Ahora usamos la función de trazado GG para cualquier objeto de trazado deslizante GG y especificamos el conjunto de datos. Eso es lo que estamos haciendo aquí. Entonces la función estética aquí, estamos perdiendo la función estética. Dentro de la parcela GG definen los mapeos estéticos con longitud sépalo Lo que estamos haciendo aquí, estamos mapeando la longitud del sépalo, la anchura del sépalo. La longitud del sépalo se mapea al eje x, y el ancho del sépalo se mapea al Y la función de punto geom agrega puntos a la trama. Y así conseguimos el diagrama de dispersión para que tu distorsione. Entonces estamos usando la función GG plot dentro de que estamos pasando el nombre del conjunto de datos. Después alergenamos la función estética para asignar las coordenadas Mapa aunque, nombre de columna o a las x's. Entonces x es igual a las llamadas salidas y ancho de punto sépalo del eje y Y luego estamos usando la función de punto Geom Jin para trazar los puntos en el diagrama de dispersión Entonces estamos consiguiendo esta trama. Lo siguiente es, ahora personalizaremos el diagrama de dispersión. Así que para personalizar pasará de nuevo. Usaremos la parcela GG. Primero dibujamos la trama. Entonces, para esa gráfica de GG, luego el nombre del conjunto de datos esa estética. Aquí, estética, lo mismo que estamos leyendo. Y lo que estamos personalizando. Estamos personalizando agregándole un color. Entonces el color es igual a las especies. Por lo que toda la especie será una especie específica, longitud específica y la longitud del sépalo y coloreará la longitud específica y la longitud del sépalo y la anchura del sépalo Por lo que para cada especie habrá un color asignado. Entonces el color se llama la especie. Entonces estamos usando geom point. Y aquí, y aquí acabamos de trazar fuentes geom point. Estoy usando la función de punto geom aquí lo personalizaremos agregándole argumentos, como psi es igual a tres y alfa es igual a 0.7 Entonces laboratorios aquí con la función labs, asignamos el título, así título de la gráfica de dispersión, daremos una gráfica de dispersión para la longitud del sépalo ancho del sépalo para el eje X dará el nombre de longitud del sépalo, y el eje y dará Y luego tema aquí vamos a utilizar el, vamos a utilizar el tema t partido, tema mínimo, y eso se llama función mínima. Tenemos que usar el tema minimalista y minimalista. Así que vamos a trazar esto y luego discutiremos más a fondo. Entonces ahora se puede ver aquí, ya que hemos dado las especies ecológicas. Entonces todas estas especies, hay tres especies y se han asignado tres colores. Entonces al mirar esto, podemos decir que el verde es para versicolor, porque el rosa es para setosa La virginica es de color azul oscuro. Bien, ahora vamos a entender un poco más. Por lo que agregamos colores a los que llama argumento de dos espacios dentro función estética para colorear la función estética para colorear los puntos en base a esta precisión del ojo. Estas parcelas que ya hemos discutido, el argumento de lados en el punto de subrayado geom establece el tamaño del punto Entonces ahora son tres. Si lo hago apoya a nuestros 15, entonces ¿qué va a pasar? Esto, los puntos serán mayores percepciones. Si quieres ver, mira aquí ahora el dorsal más grande en tamaño. Entonces según requerimiento, puedes, si pones uno o cinco, será así, ¿de acuerdo? Ahora, hay otra cosa, alfa igual a 0.7. Entonces, ¿qué es este argumento alfa, alfa controla esa transparencia Entonces si pongo, si lo aumento a uno, ¿qué va a pasar? A ver. Ve que es más oscuro, ¿verdad? Si pongo viento, uno, mira que no es tan oscuro. Y si pongo 0.8, va a ser más oscuro. Martin, más oscuro. ¿Bien? Entonces dispararé ese amperímetro controlará la transparencia de los puntos Bien. Lo siguiente es la función izquierda se utiliza para establecer el título de las etiquetas de título y eje. Entonces para los niveles de acceso, el eje x tenemos longitud sépalo, eje y, hemos dado Y el título de la gráfica de dispersión, tenemos una gráfica de dispersión dada de muestra versus longitud de sépalo versus ancho de sépalo. Y el tema subrayan los puntos mínimos y lo minimalista Pero la trama. Si podemos poner aquí, si repito esto y si uso tema subrayado ser VW blanco y negro de una vez y entonces ¿qué va a pasar A ver. No se ha cambiado mucho. Ahora entraremos en la trama de jitter. Entonces, ¿qué trama de jitter? Las gráficas de datos incluyen efecto especial con las gráficas de dispersión que se pueden representar. Un especialista en efectos con los que se pueden representar diagramas de dispersión Por lo que agregará el efecto especial a la gráfica de dispersión. El detalle no es más que un valor aleatorio que se asigna a los puntos para separarlos. ¿Bien? Así podrás ver si tu conjunto contiene los valores duplicados y cuando trazas la gráfica de dispersión, los puntos se superpondrán Entonces en esos casos, si quieres saber cuales son los puntos son duplicados, entonces puedes usar esa función jittered para resaltar aquellos puntos que están teniendo los ¿Bien? La fluctuación no es más que un valor aleatorio que asignamos a los puntos para separarlos. ¿Bien? Así que ahora función de trazado de GG , estética de nombre de conjunto de datos, luego guión bajo geom, jitter y ancho darán 0.2, altura dará cero alfa 0.7, y todas las demás cosas son casi iguales y tu equipo usará blanco y negro ¿Bien? Así que vamos a ejecutar esto. Ver aquí. Ahora, los puntos se han separado. ¿Bien? Entonces esta es la tercera trama. Entonces modificamos el eje x, una especie y escribimos el acceso para mapear la longitud del pétalo y el retorno del genoma de un punto ad jittered a la trama El argumento width. Controle el ancho de los argumentos jitter y height y la altura de la altura establecida en cero Esta cosa regional, el dinero vertical que tambalea. Y voy a parlamento controló la transparencia como con este culto y todos los demás que ya hemos discutido. ¿Bien? Así es como podemos crear un gráfico de dispersión normal y podemos usar un jittered para crear un gráfico de fluctuación 99. Parcela de barras y Hostogram: Hola y bienvenidos de nuevo. Entonces en esta conferencia vamos a aprender sobre dos conspiraciones más importantes Las cosas son como una gráfica de barras y luego veremos el histograma Entonces estas son dos técnicas de enrutamiento importantes , tipo de parcelas. Entonces déjame decirte primero qué es barplot. Barplot también se conoce como gráfico de barras y también se le conoce como gráfico de columnas porque es así ni columna ¿Bien? Y es un tipo de visualización que representa datos categóricos Haces unas barras rectangulares. Cada barra corresponde a una categoría específica. Y la altura o longitud de la barra representa la frecuencia, conteo o proporción de esa categoría. Las gráficas de barras se utilizan comúnmente para comparar diferentes categorías o mostrar concreto cómo Saudi mostró los datos de este grupo. Entonces se usa básicamente un gráfico de barras para los datos categóricos Bien, entonces déjame decirte cómo podemos hacer ese paquete de parcela GD que usaremos Ya lo hemos instalado. Si no lo ha instalado, instálelo usando install.packages. Y luego no lo hizo a. Y entonces ha sido una enorme biblioteca de TI, ggplot2. Y simplemente vamos a ejecutar esto. Lo siento. Bien, entonces, para este ejercicio vamos a utilizar el conjunto de datos de diamantes. ¿Bien? Entonces este es un conjunto de datos incorporado en la gráfica GG para cargar datos. Para cargar estos datos en este conjunto de datos, necesitamos usar datos y luego el nombre del conjunto de datos, es decir diamantes. Y así cuando haces clic en este conjunto de datos de diamantes, podrás ver la zanahoria del diamante y luego cortar, luego color, claridad, profundidad, precio de tabla, x, y, z Estas son las columnas en el conjunto de datos. hay 53,009, 40 entradas este conjunto de datos hay 53,009, 40 entradas y un total de diez columnas están Entonces este es un Dios grande, lo hace. Y ahora el paso dos es crear un gráfico de barras, dibujar. Entonces para crear un gráfico de barras, solo usaremos la función de trazado GG y aquí les daremos, qué le damos a diamante el nombre del conjunto de datos entonces estética x es igual a cortar voluntad columna. Puedes ver aquí la columna es la columna en el eje x. Y luego genoma y función Escobar utilizarán para crear un gráfico de barras Así que vamos a ejecutar esto y ver el resultado. Entonces ahora puedes ver aquí en el eje x la cinta allá arriba, y en el eje y, automáticamente el número de conteo para ese corte vendrá aquí Tan justo, bueno, muy bueno. Tipo de mercancía premium e ideal disponible en nuestro conjunto de datos. Se puede ver aquí en el conjunto de datos, gut ideal premium, buena prima, muy Feria del Mundo, muy buena. Ideal premium. Esto no me gustó. Bien, entonces ahora podemos ver que nuestro gráfico de barras está listo. Entonces para crear un gráfico de barras, trataremos con esa función Genome Atlas Group, barra en GG plot y estética, religión x es igual a cortar, por lo que utilizará el gráfico de columnas o barras. Usamos la gráfica GG desde el deslizador de imagen central Objeto de trazado GG y especificamos el conjunto de datos. No tiene estos diamantes. Y función estética. Dentro de la gráfica GG se definió el mapeo estético con el mapa intestinal al eje x y las funciones de barra de subrayado geom como las barras a la trama, creando la gráfica creando la Bien, lo siguiente es que podemos personalizar este gráfico de barras o gráfico de barras mediante el uso de la función geom bar en el interior que podemos pasar los cuatro diesel es igual a llenar, por lo que va a rellenar Y aquí x es igual a cortar y rellenar se llenará con la claridad. Entonces usaremos el eje x para trazar el tipo de corte de Dios, y llenaremos la botella con la claridad. Entonces, cuanto más esa claridad , eliminará amigos con ellos o color. ¿Bien? Y luego la barra de subrayado geom para la disidencia. Y luego laboratorios. Esto dará el título para todo el gráfico de barras, gráfico barras de frecuencia de corte de diamante y eje x, le daremos el nombre corte y para eje y daremos proporción Y luego equipo, pierdes mínimo. Bien, entonces vamos a ejecutar esto. Ahora puedes ver aquí está lleno de claridad de pato. La claridad es así. La claridad se ha dado con colores oscuros, amarillo, verde, verde claro, azul, el azul. Bien. Entonces como esto Agregamos argumento de claridad de campo dentro la función estética para llenar las barras hechas sobre la claridad del diamante. El pobre, decente prolongado fue en la barra geom, tachuelas al fondo, facilitando la comparación de las proporciones Entonces esta es una de arriba, esa es la enorme fuera del campo. Bien. Estás enviando gente a llenar. Y luego funcionan los laboratorios. Vamos a añadir el título del gráfico de barras y los niveles de acceso y Tim minimal, crear equipo minimalista oscuro para la trama Ahora viene el histograma. Entonces histograma es representación gráfica de la distribución de datos numéricos continuos Entonces ahora tenemos, hemos visto el gráfico de barras con cada uno para los datos categóricos Y el histograma es para los datos continuos o numéricos. Consiste en barras Topsy Regia, donde cada barra representa un rango específico o ser de valores Y la altura de la barra indica la frecuencia o cuenta los puntos de datos Pauling que caen dentro de ese rango histograma proporciona información sobre la tendencia central y extiende los datos, alineando el análisis visual de la distribución Entonces todo esto se trata de histograma. Vamos a crear uno. Para crear un histograma, usaremos la gráfica GG a partir de diamantes sin y dataset Estética x es igual al precio. Entonces el eje X trazaremos el precio y luego la función de histograma de subrayado geom Dentro de la parcela GG. El histograma. histograma para el ancho de su contenedor dará 500, y luego laboratorios para dar las etiquetas y la barra de título, la barra, nuestro título más lejos, pero lamentablemente histograma Y entonces el equipo utilizará el blanco y negro. Bien, entonces vamos a ejecutar esto. Este es el histograma. Puedes ver precio en el eje x y frecuencia aquí, precios de diamante extra en bruto. Entonces aquí modificamos el eje x para ese precio. Y Yom subrayan la función de histograma, añadir el lote a la sangre creando el histograma estado sin herida controlar los contenedores de datos de ancho en el Entonces si ponemos esto como 100, veamos los cambios. El ancho se está reduciendo. Si hago un Tao Qian, entonces se incrementará el rojo Así lo reportaron 400. Bien. Entonces así es como creamos un gráfico de barras y levantamientos de histograma para entender un poco más sobre las gráficas de barras y Instagram Las diferencias clave entre las gráficas de barras y histogramas comprenderán en términos de sangre que compré, Colocación, Modelo, presentación y casos de uso Entonces, en términos de tipo de datos, las gráficas de barras son adecuadas para datos categóricos, donde cada barra representa la categoría o grupo, mientras que los histogramas son aprobados para datos numéricos continuos Entonces esto ya es una diferencia clave porque datatype, el datatype bar plot para datos categóricos y para datos numéricos o datos continuos, podemos Las barras de histograma representan esos rangos o intervalos de valores Mientras que en barra, parcela, barra representa la categoría o grupo. En términos de colocación de barras en la gráfica de barras, las barras se basan típicamente de manera uniforme a lo largo del eje x con un espacio entre cada barra para representar diferentes categorías En histograma, las barras que son distintas al adolescente y se tocan entre sí ya que representan intervalos continuos o intervalos de valores Beta a lo largo del eje x Entonces esta es otra diferencia muy clara. Si puedes ver la barra, los trazados, las barras que están a lo largo del eje x y hay un hueco entre cada barra y que representan diferentes categorías Bien, y manejó programas, índices trazados en un dato continuo, datos numéricos No habrá hueco entre las barras y serán adyacentes entre sí. Debido a que el otro brillante que rangos continuos en volcados de representación de datos en una gráfica de barras, la altura o longitud de cada barra representan contador de frecuencia proporcional categoría específica Mientras que en el histograma, la altura de cada barra indica que la frecuencia o cuenta hacia arriba los puntos de datos que caen dentro del rango específico son verdes Entonces esto es, esto habla de histograma, habla de que el número de recuentos están cayendo en un rango particular Mientras que la trama de barras habla sobre el número de recuentos en una categoría específica Y la enorme suposición, que es muy clara ahora que las gráficas de barras se usan comúnmente para comparar diferentes categorías, mostrar concreto, discreto, perdón, mostrar datos discretos, o ilustrar la relación entre variables categóricas, variables Mientras que los histogramas se utilizan frecuentemente para visualizar la distribución o identificar patrones, tendencia central y dispersión de datos numéricos continuos Entonces estas son las diferencias clave entre la gráfica de barras y un histograma Espero que te ayude a entender y estarás sabiendo que estamos para usar la gráfica de barras y dónde usar el histograma 100. Tabla de tartas con ggplot2: Hola y bienvenidos. Entonces en esta conferencia vamos a hacer algo inusual, lo cual no hacemos. Gg trama demasiado, eso sería bastante interesante de hacer. Entonces lo que voy a hacer aquí, voy a crear un gráfico circular usando GG plot. Y antes de hacer eso, déjame decirte. Gg plot two está diseñado principalmente para crear capas y gramática de gráficos gráficos basados en bits no tiene un geom incorporado para gráficos circulares Por lo que la trama GG no soporta bicarb. Sin embargo, todavía podemos crear un gráfico circular usando g, g plot dos manipulando los datos y utilizando otros geoms Entonces veamos el ejemplo. Entonces, paso uno, carga los paquetes y crea un dato de muestra. Entonces aquí usaremos la descarga bloqueada que no hemos hecho. Y luego usamos la biblioteca. ¿Trazaste dos? Y luego creamos una muestra de datos. Para ello, usaremos la categoría data.frame y las categorías ReLu ABCD y el valor es este vector C, 13th, 20th, 20, ser 35 Bien, entonces vamos a calcular los datos de la muestra. Este es un dato categórico, ¿de acuerdo? Ahora el paso de juguetes y manipular los datos para la creación de gráficos circulares. Entonces aquí lo que haremos, calcularemos la proporción para cada categoría. Así que los datos, cuando se crea una variable ese diálogo en amarillo y luego se transforman los datos. Y los datos volverán a pasar para la transformación, calcularemos la proporción ok, valor dividido por sum up. Bueno, bien, así que hagámoslo. Y así ahora puedes ver aquí los datos son así. Ahora propuesta de valor de categoría, hemos creado una proporción, hemos creado, proporción adecuada Nosotros hemos creado, ¿de acuerdo? Así que ahora ordena los datos en orden descendente hasta proporciones de la misma. Entonces para eso, usaremos orden de datos, datos. El beneficio del dólar será. Queremos ordenar por el prop de YouTube porque ese es el único dato numérico. Entonces a ese fin en decreciente verdad. ¿Bien? Será en orden descendente. Entonces hagámoslo. Ahora bien, si miramos los datos, bien, ese es un nuevo orden. Ahora, el paso tres es crear el gráfico circular, gráfico de barras apiladas. ¿Bien? Entonces GG traza dos, luego pasaremos los datos. Entonces estética usaremos x, no usaremos nada. ¿Por qué? Usaremos utilería y llenaremos la categoría, ¿de acuerdo? Por la categoría. Y luego geom bar, función escobar humana dará stat es igual a identidad y ancho dará uno Entonces qué polar le dará Y a partir de cero. Y entonces realmente hay que mantener ese título. Mi tabla y llenar con la categoría. El equipo utilizará el subrayado del tema de ancho. Entonces vamos a ver. Ya sabes, tenemos un gráfico de barras que muestra la categoría y estos son los leads. Este gráfico circular, el pastel es éste. Estos son dibujados por la ayuda de la proporción que hemos creado. ¿Bien? Entonces vamos, déjame explicarte un poco más para que así sea, te voy a dar más claridad. Así que en este enfoque una semana y lo que el gráfico circular en un gráfico de barras apiladas. Al manipular los datos, calculamos la proporción dividiendo cada valor por la suma de todos los valores La función de barra de subrayado geom con las estadísticas es igual a Crear las barras apiladas con el, con la mayor proporción de producto correspondiente. ¿Bien? Y luego cuádruple subrayado función polar. Lo que va a hacer función convierte el gráfico de barras en una forma circular para imitar el gráfico circular Bien, y luego los laboratorios darán el título y la leyenda y el tema subrayado fuentes de palabras y eliminarán el fondo innecesario y humano proporcionando una apariencia limpia Entonces así es como creamos un gráfico circular usando estos dos. Y te voy a dar un descargo de responsabilidad aquí. Como ya he dicho antes, la gráfica GG no es por gráfico circular no se soporta porque se hace en el suelo yo mismo gráficos. Por lo que hay que anotarlo que los gráficos circulares generalmente no se recomiendan para los datos. Aprendimos algunos debido a la dificultad percibir con precisión las diferencias en los ángulos son áreas de las rebanadas O que los tipos de gráficos como gráfico de barras o los gráficos de barras apiladas suelen ser más efectivos para representar los datos verticales. Entonces siempre que haya datos categóricos, no podemos usar, aunque no hemos usado el gráfico circular de autobuses En su lugar, podemos usar los frascos de errores o los gráficos de barras apiladas. ¿Bien? Entonces espero que esto agregue algo de valor a su aprendizaje 101. Parcelas con ggplot2: Hola y bienvenidos de nuevo. En esta conferencia, vamos a explorar cómo crear gráficas de líneas usando la gráfica GG en nuestra programación. Por lo tanto, las gráficas de líneas son útiles para visualizar tendencias y patrones de datos continuos, datos tiempo de conexión continua Y aprenderemos a crear trazados de líneas básicas, trazar múltiples líneas en un mismo Plot y personalizar la apariencia de las líneas. Entonces, de lo que básicamente vamos a aprender, aprender sobre la línea Parcelas. Trazados de líneas, por qué usamos para visualizar tendencias y patrones en datos continuos. Parcelas de líneas, ni siquiera podemos permitirnos los datos categóricos. Podemos usarlo más. Datos continuos, datos numéricos, o qué rango continuo. El rango también debe vía continua. Y el mejor ejemplo son los datos de series temporales. Y también aprenderemos a crear gráficas de líneas básicas. Y también veremos, también veremos creando una gráfica lineal básica. Cómo podemos trazar múltiples líneas en una misma parcela. Y cómo estamos podemos personalizar la apariencia de las luces de pulgar. Hay tres líneas en la misma trama, cómo podemos ir hacia arriba pero en algunas de las líneas como colores o género ahora, bien, así que comencemos. Entonces lo primero es crear una gráfica lineal básica. Entonces, para crear gráficas de líneas básicas, tenemos un conjunto de datos con dos variables continuas. Normalmente presentan salidas. Esa será la variable independiente y el eje y, que serán las variables dependientes ¿Bien? Entonces, ¿cuáles son las dos cosas que necesitamos? Necesitamos ese Dataset. Obviamente necesitamos un conjunto de datos. Y los Datasets tendrían al menos dos variables continuas. Y típicamente, el eje x será la variable independiente y el eje Y representará las variables dependientes ¿Bien? Por lo que nuestro conjunto de datos con dos variables continuas, una para género, datos independientes, valiosos y otra será dependiente. Tan independiente, brillante en el eje y. Entonces para esto, lo que voy a usar, voy a crear una gráfica sencilla de una línea que representará la curva sinusoidal. Bien, hasta ahora eso vamos a muestrear líder para eso estoy creando que dependían del eje x, definitivamente con la variable independiente Entonces aquí lo que voy a hacer, lo explicaré. Bueno, voy a crear con nuestra secuencia Fontan. Y tenía secuencia, voy a dar cero coma dos en pi e izquierda o hija, voy a dar cien hockey Entonces esto creará la variable aleatoria de polvo X, que va a la secuencia pop y luego Y, que es la variable dependiente, que dependerá del eje x Y como no quieres a Canadá, mismo bordillo, la función sinusoidal tú y tanto la variable X aquí. Entonces por cada exhalación, así que por cada excel se le asignará la curva, ese álgebra y en el eje y Entonces X, estoy usando la función de secuencia, y aquí estoy pasando la coma cero 2.2 pi y alargó o dudo estoy dando cien y ese valor X cuando estoy pasando dos funciones sinusoidales Entonces eso llevó al pecado, dios. Y esta vez, lo que sea, vendrá en base a la X. Entonces X es la variable independiente y las variables dependientes porque, por qué es el valor agregado dependiendo la X que estamos pasando a la función sinusoidal Entonces, ¿por qué es la variable dependiente y X es variable independiente? Así que de esta manera lo conseguimos, vamos a obtener la X e Y. Ahora, la línea básica Plots ggplot2 biblioteca, así que ya la tenemos instalada Entonces déjame darte primero, ejecuta esta línea, dos líneas para que Bien. Bien. Entonces mira gritar si tratamos de imprimir los valores X, así ver los datos X valor que tenemos intento de riñón con la ayuda de la función de secuencia Y si imprimo Y, entonces va a ser el valor Y dependiendo del valor X. Entonces con la ayuda de este seno de X obtendrá el valor y, que es el para el próximo viernes Bueno, entonces ahora tenemos el Y tenemos los waypoints Bien, entonces lo siguiente es que usaremos la biblioteca GG parcela dos. Y luego lo que voy a hacer, voy a tratar de configurar gráficas de línea. Puede cualquiera de las líneas, y mucho menos la función de trazado de GG. Ambos datos. Vas a data.frame. Y había pasado las coordenadas X e Y son valores X e Y. Annuli son la función estética. Y salir igual a X e Y es igual a Y. Y además yo aquí voy a usar el alilo intenté trazar una línea, así voy a usar la línea de subrayado geom Entonces déjame correr esto a C. C, y ahora me van a asignar golf. Entonces en el eje x cien de mezcla, ahora, trazando las hazañas y Y e Y. Así que de esta manera estamos subiendo misma curva hecha en la X e Y. Entonces X es la independiente creíble e Y Por cada X hay un valor y. Entonces esta es la misma curva que estamos obteniendo. La forma en que podemos simplemente lote de líneas Parcelas. Líneas simples y básicas Parcelas para llevar al coseno, van como. Entonces. Si quieres, puedes ir una vez más a la explicación. Entonces data.frame X coma Y creará un DataFrame Entonces X e Y variable que hemos creado aquí mediante el uso de la secuencia pulmones y la vuelven a abrir y valores X y mi pasajero extra la función sinusoidal Tenemos los valores Y y X e Y. Me hemos visto agregar agua. Y luego hemos usado la biblioteca de piezas DD y no obtuviste Plot y Data es igual a data dot frame X coma Y. Esto creará un DataFrame con las variables X Y luego función estética, X es igual a XY. Solo ve así, qué va a hacer esto, este mapeo estético real. Entonces X macro el X e Y mapeará el eje y. Y luego revise la función de línea de subrayado geom para agregar la línea a las parcelas ¿Bien? Entonces esto se va a hacer línea. Bien, Entonces esta es la explicación para crear esta línea simple Plot UG, X, e Y, esa muestra más adelante la hemos creado. Ahora veremos cómo podemos trazar múltiples líneas sobre un mismo bloqueado. ¿Bien? Entonces para esta conferencia, bien. Bien, así que ahora podemos agregar múltiples líneas a la gráfica proporcionando diferentes Datasets que están agrupando los datos usando variable de agrupación. Entonces ahora, vamos a trazar tanto la curva sinusoidal como la coseno en la misma parcela Entonces aquí voy a trazar la curva de seno y coseno en la misma parcela Entonces X va a ser la misma pero misma función de secuencia, garabato, no voy a comprar terrenos que se llamaron apagones 100 Entonces el valor X será el mismo aquí. Por qué seno y blanco crocheting estas dos variables, alquídicas aquí y aquí, voy a pasar el letrero de la extrusora ordenados Voy a obtener el signo Y subrayado Valores. Y Y subrayado costo pasará a la función de costo cos de X nos dará la forma de subrayar costo Valores. ¿Bien? Así que de esta manera voy a llegar a hacer bucles while por cada X. Así que cada X puntos tendrá seno de X y yuca X valor, Sudbury para X, tenemos dos puntuaciones de Y, seno y coseno. Y esos dos puntos, voy a trazar en la misma parcela. Entonces, para crear la gráfica de líneas con las múltiples líneas se utilizará la función de trazado GG. Y aquí se puede ver aquí la trama de rehabilitación GG. Y tenemos por los datos, data.frame X coma Y porque tenía, por qué era sólo uno Así que hemos mapeado VX es igual a X e Y al cuadrado Y. Aquí cuando la función GG plot Y aquí usaremos el operador plus. Y luego usaremos la función de línea de subrayado geom. Y en la función de línea pasaremos los datos. Marco. Los datos son iguales a datos.frame X coma Y. Aquí Y será Y signo de subrayado Entonces aquí tenemos incluso X coma Y simplemente porque sólo una forma era la única ¿Por qué había? Ya que hay dos valores y. Entonces aquí me va a dar X coma Y, X va a ser lo mismo Entonces gamma, por qué cada trimestre, por qué subrayan signo y luego función estética pasará X es igual a X e Y es igual a Y. Y Regalos laterales, signo. Y luego por lo mismo haremos con la pregunta por qué. Entonces los datos son iguales a datos.frame X será el lector X e Y. ¿Por qué cuesta el endoscopio? Y X estética se llama reacciona OH, o el por qué. Y color Se llama recursión. Aquí le dará el título Curvas de seno y coseno Azure. Y X es igual a X mayúscula e Y es igual a Y mayúscula función de color y Tim será el mínimo. Entonces déjame correr esto de nuevo y ver el exterior. Ver aquí ahora tenemos la curva de seno y coseno. Esta es la temp1 aquí. Y luego tenemos las líneas sinusoidales y cosenales en la trama temática Nos vemos, ahora hay dos Parcelas. Dos líneas. Uno es representar o vergüenza y otro brillante en el mismo. Así que de esta manera podemos trazar múltiples líneas sobre un mismo bloqueado. Así que sólo voy a repetirlo otra vez. Ahora aquí lo que hemos hecho, hemos creado una X usando secuencia que ya hemos usado. Mediante la creación de la gráfica de línea básica. Secuencia y cero coma dos en pi y luego punto, punto cien Y aquí ¿por qué subraya en? Porque vamos a trazar las líneas sinusoidales y cosenales en la misma parcela Entonces necesito dos puntos, Y señala para saldar por qué subrayar el pecado será el seno de X e Y subrayado Coseno será Y subrayado costo será el costo de ZR Coseno de X. Entonces estos, estos, estos pueden considerar estos tres X coma Y firmó una coma X Y es igual. Y ahora necesito trazar estos puntos. Entonces, para el valor de los datos, la función de diagrama GG. Y aquí se puso de pie mandando el dataframe a la función GG plot, el operador plus para Y voy a usar la función de línea de subrayado geom. Y sin embargo, los datos del asesor son iguales a datos.frame X coma Y es igual al signo de activación y La cera es igual a X, Y es igual a blanca y coloreada. Sin embargo, el color alérgico es igual a lo mismo, ¿de acuerdo? Y el color es igual o brillo. Y aquí, lo mismo. Sólo YOLO debilitará a Nicea. Y luego título dará a laboratorios función para dar el tiempo. Y X es igual a X e Y es igual a pesar una función de vista lateral y mínima. Y cuando corremos, obtenemos este inicio de sesión o nos da vergüenza ir cuando la misma trama Así que ya he explicado creamos dos conjuntos de datos separados para la curva Sine y Cosine usando data.frame X coma Y, X coma Hawaii, signo hawaii y X coma Y. Y es igual a X coma Y. Puedes hacer por qué cuesta, Y es igual a X coma Y. Puedes hacer ¿ Y entonces cada uno es capa de línea Yom. Aquí básicamente estamos creando dos capas de capas de líneas separadas. ¿Bien? Entonces, cada línea geom, función de línea de subrayado geom creará una capa correspondiente a una línea separada, Bien, Un signo de Parque y uno Utilizamos la estética del color para distinguirlos. Y luego la función labs que usaremos nos usaremos para establecer el título y el eje de los niveles excesivos, ¿bien? Y el equipo subrayado mínimo, tendió la apariencia general de la trama a una Lo siguiente, lo que haremos, intentaremos personalizar las propiedades de la línea. Así que ahora podemos personalizar las diversas propiedades de líneas como el color, línea, el tipo y el tamaño. Entonces aquí los datos de muestra serán la misma secuencia de San Valores y recrear X donde bucle Y luego crearemos por qué el signo de subrayado y Y el costo del subrayado usando aquí las funciones seno y coseno y pasando el ilusorio extra sale el independiente donde de todos modos, subrayarán subrayarán crocheting será la variable dependiente ya que estos valores dependen de la X. Y aquí crearemos trazado de líneas con Se agrega Plot plus geom line aquí, DataFrames, lo mismo que hemos Y aquí usaremos colores. Se va a firmar un tipo de línea se llama un sólido y tamaño aquí y dar 1.5. Entonces el tipo de línea sólida y lo digo sin embargo estoy usando tamaño para determinar el grosor de la línea. ¿Bien? Entonces me voy 1.5 aquí. Y lo mismo cuando un lavado blanco. Y entonces todo lo demás va a ser igual. Titulo de Laboratorio. X es igual a XY es igual a I color. Así que vamos a darle esto, ejecutar esto, y ahora los estamos consiguiendo. Esto es punteado y este es ese grosor. Bien. Juntos tenemos listo tipo de línea como Dashboard, viene como una línea discontinua Y aquí tenemos su sólido, por lo que viene como un soporte sólido. Ellos lo harán 111.5. Y si vuelvo a ejecutar esto. Entonces veamos qué ves aquí. Ahora. Se acerca la línea discontinua. De esta manera. Podemos aumentar o disminuir el grosor de la línea. Bien, entonces espero que sí, espero que esta parte quede clara cómo crear una línea Parcelas en trama GG a la siguiente conferencia. 102. Visualización de datos con ggplot2: Hola y bienvenidos de nuevo. En la conferencia anterior, hemos visto cómo crear gráficas de líneas. Y también hemos visto cómo podemos trazar parcelas de líneas múltiples y cómo podemos personalizar las parcelas de línea. En esta conferencia, vamos a hacer algunos datos más, GG plot para agregar programación. Entonces qué esto, voy a calentar nuestro Dataset, que tendrá nombre, algunos nombres y el género, masculino, femenino, y luego su edad y el puntaje de la prueba. El puntaje se repetirá 100 y claro, bien, entonces y en base a eso, intentamos visualizar estos datos, que es tener nombre, edad, sexo y puntaje de prueba. Y trataremos de visualizar este conjunto de datos con la ayuda de gráficas de radio o vivir en GG plot to, e intentaremos hacer personalizaciones sobre eso, como parcelas realmente facetadas Y trataremos de usar múltiples cosas en este sencillo Datasets. Entonces estoy usando el conjunto de datos simple para que sea cada uno para entender. Antes de eso, déjeme aclarar esto. Así que comencemos la Visualización de datos con ggplot2. Y con este sencillo conjunto de datos, vamos a tratar de entender mejor lo que hemos aprendido hasta ahora en Guinea ggplot2 Entonces esto obviamente cargará las bibliotecas necesarias, es decir, GG parcela dos. Así biblioteca y pasaremos la biblioteca de nombres de bucket llamada GG plot. Lo siguiente es que dendrítaremos el conjunto de datos de muestra que solemos continuar para este ejercicio Bien, entonces aquí voy a usar set seed uno-dos-tres. Y esto es por la reproducibilidad. Reproducibilidad de semillas. Porque ver, vamos a usar sample mediante el uso de la función sample. Y será de 18 a 25 años de edad. Se moverá 18-25. Entonces ese será el generador aleatorio. Entonces lo que quiero hacer siempre que quiera usar esta muestra Data, si uso set.seed, lo hará, los datos no serán Será, una vez que se genere para este ejercicio, realmente significará lo mismo. Por lo que reproducirá los mismos valores aleatorios de configuración. Bien, hasta ahora. Entonces set.seed reproducirá los mismos valores aunque estemos llegando a la función sample, De lo contrario, si no usa set.seed cada vez, creará un aleatorio nuevos valores, nuevos valores ¿Bien? Entonces ahora primero usaremos set.seed y luego crearemos nuestras variables estudiantes Y aquí usas data.frame. Y aquí frame creará la variable name y ahí almacenará este vector el cual contendrá los nombres Alice, Bob, Charlie, David, Eva, rank, Frank, grace, Hannah, Yan, y Jack. Bien. Y luego crearemos otro factor que almacenará el género y el género utilizará el vector sí, masculino y femenino. Bien, y parte diez por diez, ¿de acuerdo? Diez a diez y reemplazar verdadero. Entonces para Angel, use la muestra 18 a 25. Y cuantos quiero, quiero valores finales a los que terminé leyendo para cuantificar y Test score up 210 Discord, quiero generar mediante el uso de la función sample Esto obtendremos los conjuntos de datos de muestra de datos. Entonces déjame dirigir esto. Entonces ahora tenemos el conjunto de datos de muestra creado. ¿Bien? Entonces mira aquí ahora, si imprimimos al alumno, podemos ver tu nombre, género es, y Tesco. Entonces él tenía el nombre, nosotros hemos dado nombres. Y el género se ha generado aleatoriamente mediante el uso de la función de muestra. ¿Bien? Pagos masculinos, femeninos, masculinos en manos, ¿de acuerdo? Masculino, femenino, masculino, femenino. Por lo que generador de litros aleatorios, los maridos de 18 a 25 años asignados aleatoriamente a estos nombres y los puntajes de las pruebas también ha sido que a saber generado De esta manera podemos crear Conjunto de datos de muestra. Lo siguiente, lo que yo, lo que quiero hacer, quiero crear un diagrama de dispersión entre esta edad y Tesco. Quiero ver cómo se lleva el puntaje de la prueba en función de lo que cada uno es Quiero trazar o diagrama de dispersión que obtendrá la puntuación para esa edad correspondiente. Entonces para eso, lo que estoy confundido diagrama de dispersión, edad versus puntaje de prueba. Entonces para esto alude, voy a crear una gráfica de dispersión variable. Y aquí voy a usar la función y pasar el conjunto de datos del estudiante aquí. Bien, estudiantes. Y entonces voy a estética enorme eje x y X es igual a H y eje y Puntuación. Y punto de neodimio, usaré la función de punto geom para trazar los puntos en el eje X e Y. Y su laboratorio, X es igual a es y por qué se llama r2. Puntuación. Y título de la trama será la trama de dispersión, edad versus discordia. Y luego voy a imprimir esta gráfica de dispersión usando la función rand para mostrar aquí abajo. Así que déjame quedármelo aquí. Y bien. Entonces mira aquí, ahora tenemos un diagrama de dispersión aquí, que está en la página 18 a 25, y el eje y y destruyendo el puntaje, puntaje de prueba Entonces para 18, está en algún lugar alrededor del 85. Entonces para 18, si te ves bien aquí. ¿Qué identidad a las cuatro? Entonces mira aquí timidina o a 400 y trazar. De esta manera. Podemos hacer un diagrama de dispersión lotta usando el ggplot2. Entonces aquí, sobre capa estética, hemos dado los ejes X e Y, hemos superado el puntaje de la prueba. Y usamos la función de punto geom para trazar estos puntos en la parcela y su función de laboratorio, tenemos X es igual a H. Y por qué se llama a probar puntaje Y más apretado, diagrama de dispersión versus diagrama de dispersión, edad versus el pañuelo Así que de esta manera podemos conseguirla trama o gráfica de dispersión. Bien, lo siguiente es lo que quiero hacer. Quiero la misma explicación que he escrito aquí y dejar archivo de datos, se puede ir a través de ella. Y si quieres, te lo explicaré de nuevo. Entonces aquí comenzaremos cargando la biblioteca pull de la trama GG. A continuación, crearemos el conjunto de datos de muestra usando data.frame que hemos creado aquí, data.frame y nombre, edad, género y Y luego usaremos la función GG plot para iniciar lote y proporcionar los datos. Alumnos y estética. La función estética X es igual a egresado de Tesco, que mapea la variable al eje x Entonces, el eje x se mapeará en el eje x y la variable de puntaje se mapeará al La función de punto geom se utiliza para agregar puntos a la trama Estos puntos se agregarán a la gráfica mediante el uso de punto geom, función de punto de subrayado geom para cada punto de datos para crear un Y por último, personalizamos las etiquetas y título de la trama usando la función labs. Así que aquí se utilizará la función Lab para personalizar las etiquetas y el título de la Parcela. Y luego usaremos la función print. Henry, pausa la gráfica de dispersión, el nombre que hemos asignado a esta gráfica, y la pasaremos a la impresión y la gráfica de dispersión se imprimirá en nuestro un-solo De esta manera podemos crear cada uno versus el conjunto de datos de muestra de puntaje que hemos generado. Lo siguiente es, quiero agregar el facetado facetado a esto Scatterplot es cuál es el puntaje de la prueba para cada género Bien, entonces esta será la primera cuadra. Entonces para esto voy a crear un manejador de trama de primer paso variable, agregas Plot. Y tenía un usuario. Mismo DataFrame Conjunto de datos de estudiantes. Estético, que haría X es igual a X e Y igual a Tesco. Y va a, ya que quiero esto mucho basado en el puntaje de prueba Cada versa basado en el para cada género por separado. Entonces aquí el color es enorme. El color va al género, por lo que el género será especificado por el color. Y luego punto geom. Solía trazar los puntos y función de laboratorios que solíamos dar. A continuación está el puntaje de prueba y título del Señor. Y aquí, y usa la función de envoltura de guión bajo faceta. Y aquí voy a envolver este. X1 de Mao estuvo en la licitación. Sigues usando el género cuatro si me resta, bien, Entonces déjame correr esto y ver la salida ¿Bien? Entonces ahora estoy pintando la pintura y mira aquí ahora tenemos la trama facetada, edad versus puntaje de prueba por género. Entonces el eje x es, de nuevo, eje y es el código de muertes Pero aquí, la trama de dispersión de nuestro Señor se ha dividido en dos partes, hembra y macho. Femenino o femenino. Aquí se ha trazado el género femenino. Y el para género masculino se ha trazado aquí. Por lo que es un corte claro. Podemos ver ese digital pocos minutos o escritorio femenino llamado Valores y sobre mí. Bien. Esta es la forma en que podemos usar la trama de fester para usar para género son datos clasificados ¿Bien? Y queremos saber ¿qué pasa con la explicación? Lo repetiré otra vez. Así que déjame esbozarlo aquí. Lo que hemos hecho, como lo tenemos antes. Hemos utilizado la función GG plot para guardar la gráfica y proporcionar los datos, los datos de los estudiantes que hemos creado usando la función sample. Y luego la estética. Las fuentes estéticas y X es igual a SY al cuadrado llamado score y Gartler Tenemos su agenda para mapear la variable edad llamada agenda para mapear la variable edad al eje x Tesco valioso para el eje y, y guardar ese color hasta la velocidad del viento en el Por lo que el color de los puntos será el basado en la agenda. Y hay dos géneros. Naturalmente el marido de dos colores usa rojo y azul. ¿Bien? Por lo que esto dará como resultado, el resultado en diferentes colores para estudiantes masculinos y femeninos. Por lo que se ha utilizado Cl para macho y hembra en los diferentes colores. Y eso es porque tenemos un color enorme se llama al género, ¿bien? El punto geom de Sandy años para crear el punto de dispersión para cada punto de datos que ya hemos visto Y personalizamos los niveles y el título y la trama. No fue la última función que ya conocemos. Después el laboratorio de subrayado facetario. Y aquí vamos a pasar la disfunción de género va a crear unos paneles separados, facetas en estos dos paneles, masculino y femenino Puedes ver aquí estas se llaman visitas. Faceta, subrayado envoltorio creará dos paneles separados que se establecen primero para cada género Entonces aquí hemos pasado género. Entonces con base en el género escaló dos facetas son dos paneles para representar los ¿Bien? Esto significa que la parcela se dividirá en dos subparcelas ¿Bien? Si hay tres géneros como el masculino, el femenino y el neutro, entonces se dividirá en tres partes, bien. Subparcelas. Una firma Kilometraje al tiempo de ejecución, otra alumnas. Y la función de impresión utilizará para mostrar el gráfico de dispersión de visualización en la pantalla. Bien, Entonces esta es la explicación para crear un diagrama de dispersión y facilitar bloqueado. Lo siguiente, lo que haremos, vamos a crear un bar Plot. Y aquí usaremos el género. Lo que queremos trazar, queremos trazar género versus Código de prueba usando valor medio en el resumen. Entonces aquí vamos a crear un bar Plot. Y bar Plot se creará en base a estas dos variables, género versus Tesco. Vamos a tramar. Y lo que usaremos aquí, usarás el valor medio, el resumen. Así que vamos a ver aquí alquilado donde sea bar y se llama trama Y voy a usar la función GG plot como Datasets. Estudiantes estética X es igual a la puntuación de la prueba de raíz cuadrada sabia de género. Y voy a usar el operador plus. Y aquí voy a usar la barra de subrayado geom para crear el gráfico de barras o la gráfica de barras Y aquí, te voy a dar estática es igual a resumen. Y la función será la función principal aquí y llenará cada uno igual a estable. Por lo que se reconstruirá con el azul acero. Y la función se realizará en el MDA, se hará sobre el valor medio o promedio de Alguien y stack será el resumen Entonces resumen, lo voy a resumir por los valores medios y reír funcional, enorme, ecológico, eje x, género e Y, X, X es realmente con una puntuación media de prueba sobre puntaje promedio de prueba Y el título será con una barra de Trama, género fue puntaje medio de prueba y barra de impresión Trama. Entonces déjame correr esto y ver el resultado que ves. Y ahora tenemos bar Parcela para masculino y femenino. Y aquí en el eje estamos mostrando el puntaje promedio de la prueba, uno masculino y femenino Hasta el momento el puntaje promedio femenino en las pruebas es este. ¿Para mí? Yo solo soy puntaje de prueba es esto. De esta manera podremos crear la barra Plot. Entonces aquí, si ves la explicación semanalmente, entonces te contamos. Entonces usaremos la función GG plot para iniciar la trama. Estética. X es igual al género o puntuación de la prueba y al cuadrado mapea la variable de género al eje x y la variable de puntaje de prueba al Y Escobar función es crear una barra de Plot. Y nos sentamos. Stat se llama dos resumen y phon es igual a la media de dos funciones principales que se calcularán y mostrarán. El puntaje para cada cúpula. Se mostrará el promedio de la puntuación que anotan y el campo que restringirá el pegamento, será el color del pelaje en el Barstow Azul, el color de las barras. Y hemos personalizado los niveles usando la última función que ya conocemos. Y luego haremos la función de impresión para imprimir la trama en la pantalla. Lo siguiente es, vamos a crear una gráfica de caja. Género versus discurso, lo mismo. Entonces aquí la trama GG, la función, el activo varado, X estética es igual al género de distancia en el eje y la puntuación de la prueba y se llena libremente por género Y usaremos la función boxplot de guión bajo geom para crear el boxplot y la función latch se acostumbrará para dar el título de la barra y el nombre del eje x y del eje y y simplemente lo imprimirá para crear el boxplot y la función latch se acostumbrará para dar el título de la barra y el nombre del eje x y del eje y y simplemente lo imprimirá. Así que vamos a ejecutar esto. Ahora tenemos un boxplot, género versus puntaje de prueba El eje x es el puntaje de la prueba de género y eje y. Y esta es la trama de caja para macho y hembra. Para que veas, bien. Entonces, en base a esto, puedes hacer el análisis más detallado, ¿de acuerdo? Hagas lo que hagas con ellos, boxplot, primer cuartil y todas esas cosas que puedas relajar La misma explicación Gorgias, DG plot para iniciar la estética de la parcela para mapear los vientos y la función boxplot joven utilizada para crear la Y personalizamos mediante el uso de la última función print. ¿Bien? Y aquí se pueden ver las dos casillas, una por cada género, masculino y femenino. Las cajas Entropía en el rango intercuartil que La línea dentro de la caja representa la media, el valor de la mediana y los bigotes externos a los valores mínimo y máximo dentro de un cuartiles FY15, intercuartil Y señala que los bigotes son considerados como de último punto fuera de este riesgo porque cuando llamamos menos, entonces esos son los análisis que puedes hacer para encontrar valores atípicos y todo si lo son, estos conjuntos de datos no me bastan estos conjuntos de datos no me bastan Ahí. Este conjunto de datos no es suficiente para analizar la clase de perro. Y todo. Este es el conjunto de datos de muestra que hemos creado a través simplemente crear las diferentes parcelas. Bien, entonces lo siguiente que haremos, vamos a crear un histograma Y aquí usaremos la distribución por edades de los alumnos. Aquí. Voy a usar el histograma Voy a crear un histograma donde van a función de trazado Year GG Voy a usar el mismo conjunto de datos y sin embargo, la salida estética igual a H más voy usar la función Geom histograma subrayado geom Hostogram Y aquí, binwidth, voy a dar uno. Voy a rellenar con este Tableu, el color a blanco, y usaré la función left para dar el nombre del Plot y los ejes X e Y, y luego simplemente imprimiré el Aquí, este es el histograma. Los hemos creado siendo decir, bien, entonces este es el histograma para la distribución por edades de los alumnos Bien. Rápidamente volveré a la explicación. Así que aquí de nuevo tenemos aquí la función de trazado de GG para guardar la gráfica y luego el Dashboard y los datos de deformación a la gráfica GG para. Y usaremos la función estética y la edad porque vamos a deshacer la distribución por edades de los alumnos usando histograma Entonces X es igual a H y mapea la historia valiosa para el eje x Geom subrayan los valores de la función del histograma para crear el histograma cuando cada barra representa la frecuencia, cuenta hasta el grupo de edad específico de los estudiantes Entonces aquí, lo que estoy tratando de decir, que cada barra representa la frecuencia de los peces para rentar en una barra de edad específica. ¿Bien? Entonces a esa frecuencia de la cepa para 20 es frecuencia de esto va a rentar ¿cuántos hilos hay que puedas ver? Aquí se ven problemas para la edad. A los 24, no hay alumnos, por lo que no mostró ninguna barrera. Y blanco usando argumento a todo color, una barra que es blanca, la brecha entre estos blancos, por lo que este peso colateral no puede verlo delineado, no estará ahí Luego personaliza usando la función izquierda. Y la impresora que utiliza la función de impresión es un eje x. Y el presidente, los diferentes grupos de edad y por accidente marcas que frecuencia no pero pesqué renta en cada grupo Entonces lo que 181 es correr para 20, hay estudiantes, entonces yo soy crítica o al Dataset CF1 18, sólo uno es 20 Y para 2.012.3 hebras, eso está bien. Si miras aquí, para 23 alumnos, ¿qué 25? Ese es Nostradamus. Entonces, cuando nosotros, fijamos en los datos, la Parte D para eso está totalmente bien con ellos después de 24, luego Nostradamus ¿Bien? Así que de esta manera podemos crear varias licencias promedio netas usando GG plot 103. Añade estética a color: Hola y bienvenidos de nuevo. En la conferencia anterior, hemos visto cómo podemos obtener varias parcelas usando ggplot2 en nuestra mano de rehabilitación creando este simple conjunto de datos que contiene nombre, género Y con eso, hemos visto cómo podemos trazar hace diagrama de dispersión, que representará cada palabra dice Tesco. Y luego hemos visto cómo podemos usar fuentes geom point y cómo podemos usar la función labs Y hemos visto toda la explicación. Hemos visto cómo podemos crear una trama facetada que lo hará. Entonces los inicios de sesión son dos partes como la edad y el puntaje de la prueba. Basado en género. Se ordenará por el género. También lo hará en las dos partes, masculina y femenina. ¿Bien? Entonces todas esas cosas que hemos visto así, no sería lo rápido que fuera el entre macho y hembra. Y así este fascinante lote de parcela, diagrama de dispersión también, hemos visto cómo podemos hacer eso. Entonces hemos visto como poner barra Plot. Y entre edad y género y discordia. Discordia que también hemos visto. Y luego hemos visto cómo podemos poner su jefe, mezquita, lote, boxplot y entre género y código de prueba y cómo podemos, también hemos visto la explicación de cómo podemos analizar los valores atípicos, pero en el rango intercuartil Entonces no todos distintos entonces hemos visto el histograma. Muchas cosas más puedes basándote en tu requerimiento. A continuación, lo que les voy a decir de agregar estética a las parcelas. Entonces déjame asumir que has visto, hemos creado esta trama, diagrama de dispersión aquí. Entonces cuando vemos el diagrama de dispersión, este es el diagrama de dispersión así. ¿Bien? Ahora, lo que quiero hacer, quiero agregar color más adelante en la agenda a esta trama. Entonces lo mismo va a U-Dub library y agregará ggplot2. Y he aquí por qué quería modificar esta estética de esta trama. Porque al mirar estos, no sé cuál es este punto masculino o femenino. Hecho en él. Hicimos en cada escritorio de agente, podríamos haber trazado, pero no sabemos, este soy yo. Esta puntuación es masculina o femenina. Bien. Quiero poner los puntos en un color para que estemos viendo la trama. Puedo saber eso, bien, este ser pertenece a hembra y el azul es para mi. Entonces ese tipo de cosas podemos hacer con el cambio estético agregando el color. Entonces, lo que vamos a hacer, vamos a agregar estética de color a las parcelas para diferenciar entre estudiantes masculinos y femeninos. Bien, entonces aquí se creará la misma muestra de configuración Data. Entonces primero necesitamos ejecutar la biblioteca y luego me tomó en este conjunto de datos que ya hemos creado. Y luego vamos a crear un vector aquí que contendrá el macho, le asignará un color azul para la memoria le asignará el color rosa. Y este rector asignará a la variable de color. Bien, entonces ahora la misma semana, lo que hemos creado aquí, diagrama de dispersión, de la misma manera será oscuro. La gráfica de dispersión aquí le dará una variable llamada gráfica de dispersión a la función de gráfico GG. Pasaremos el conjunto de datos como estudiantes. Esta la hemos creado, entonces usaremos la función estética. Sin embargo, X es igual a H e Y es igual al puntaje de prueba será el mismo. Lo único es que asignaremos otro parámetro aquí, colorearemos cada llamada al género. Entonces vamos a asignar el color en base a la agenda. Y este color vendrá de este vector de color aquí que hemos creado. Y luego usaremos el punto de subrayado geom para trazar el punto en la Parcela Y luego usaremos el color de subrayado de escala en el segundo Por lo que esta función se utilizará para colorear los puntos hechos en la agenda Así que el color va al género. Y aquí estamos pasando aunque, esta fuente y escala de colores subrayado color subrayado manual Valores es igual al Por lo que este valor vendrá de este vector. Masculino y femenino. El macho será azul y verde. Cuando estamos haciendo un looping A partir de aquí, escogerá el color y será trazado y función de laboratorio Ahora ya lo sabemos. Entonces déjame hacer esto y ver aquí. Ahora tenemos el diagrama de dispersión que hemos creado. Ahora simplemente vamos a imprimir en la gráfica de dispersión aquí. Ahora la gráfica de dispersión tiene rosa y azul. Los puntos que antes eran uno Salto negro. Se está mostrando como un azul y rosa. Los vientos rosados pertenecían a la hembra y el azul para los machos. Así que de esta manera podemos personalizar el diagrama de dispersión agregando estética de color. Entonces déjame explicarte esto de nuevo. Hemos creado este conjunto de datos de muestra. Las personas que tienen este conjunto de datos de descuento de tabla es el nombre de Eric, género, edad y puntaje de prueba. Y aquí queremos añadir una estética de color. Así que hemos creado nuestro color, nosotros vectoriales, donde hemos asignado un azul al color masculino y femenino. Este color tocamos barras a la escala guión bajo, subrayado función manual Esta función dará valores de datos de este vector de color. Y en realidad lo va a asignar en base a la agenda para si va a asignar color azul y si es miliequivalentes libres NDA, creo, bien, entonces hemos trazado ese Algo similar podemos hacer con la barra Plot y boxplot e histograma Entonces hagámoslo también. Así que aquí estoy creando un valioso Botón de Barra, hace diagrama de dispersión, función de diagrama GG, estoy usando Dataset estudiantes estética X es igual al género. Por qué se llama score. Y voy a llenar de género. Y luego usaré la barra de subrayado geom, Plot hit Stat Summary y, y trazar con el resumen con el valor medio Y luego usaré la escala, el guión bajo de la escala, el manual de subrayado Entonces aquí tenemos escala subrayado color, y eso se llama manual para la barra Plot Manual de habilidad, subrayado, subrayado. Y pasaremos el color de valor agregado. Y luego laboratorio Swanson será setos tomarán. Entonces déjame dirigir esto. Y ahora voy a imprimir la barra Plot. Ver aquí ahora, la hembra está trazada. Boxplot, PMM en cajas traer y buzones. Correo azul. De esta manera podemos colorear la estética. Bach, bach bar Parcela, perdón. Después boxplot. Voy a usar el mismo conjunto de datos estético X es igual a género, por eso se llama escritorio o género femenino. Y luego geom bar, geom guión bajo boxplot para trazar los puntos y luego escalar guión bajo, subrayado manual y sus valores cuando coloreamos y coloreamos Por qué Dios ama la tabla es boxplot género resiste los puntajes de las pruebas Y vamos a ejecutar esto. Y luego boxplot al azar. El diagrama de caja El boxplot también está teniendo colores rosa o hembra y azul para la comida Bien. Lo siguiente es que haremos para el histograma. Así mismo GG plot función estudiantes Dataset estética X es igual al campo H. Se llama agenda y luego geom subrayado histograma Y que tenía le dará el ancho de banda un hombre con cada llamada a uno y coloreará cada color a blanco. Y luego escalar. Escala el campo de subrayado y su comando. Pasaremos los Valores Como los colores. Entonces este blanco será el color del borde, y esto se hará. Colores de histograma basados en el género. ¿Bien? Y luego última función como histograma de Israel y distribución de estudiantes Esto, y luego imprimir el histograma. El histograma es que no tengo. El color rosa y azul y el color del borde oscuro es blanco. Las líneas colindantes son blancas. Si quieres que sea verde. Ejecutemos este programa. El Nauta, más o menor grado. ¿Bien? Entonces este color es para el borderline y este valor a los colores que estamos escogiendo de esta columna vector que hemos creado siendo hembra y crecer formyl, puedes darle cualquier color que quieras para dar rielo a tu ¿Bien? Entonces de esta manera podemos agregar la estética a las parcelas en ggplot2 Entonces espero haber explicado con claridad. Y puedes caminar sobre esto. Puede comenzar a jugar alrededor de los datos de la función de radio. Puedes cavar otro conjunto de datos y puedes comenzar a explotar las cosas y comenzar a expandirte, explotar las cosas y comenzar a experimentar El color diferente, la estética diferente. Bien, entonces nos vemos dentro de la siguiente conferencia. 104. Estética de trama de afinación: Hola y bienvenidos de nuevo. Entonces en la conferencia anterior, hemos visto cómo podemos agregar estética de color. Hemos visto como podemos agregar colores a las gráficas, gráfica de dispersión, barra, Plot, boxplot y almacenarlas. Ahora bien, lo que trato de afinar las gráficas usando y funciones de escala. Tan fino ajuste de lo que está bien también. Los hallazgos realmente tratan de hacerlo un poco más atractivo, todas esas cosas bien, para afinar la trama, estética y ggplot2, podemos usar la función estética, la función aes para mapear variables a la estética y la escala subrayado de escala comenzó con, hay varias funciones debajo de él. Así que podemos usar las funciones de habilidad para personalizar la apariencia de los elementos de trazado de radio. Simplicidad, pueden levantar la estética, pueden escalar funciones para afinar la estética de la trama. Entonces, lo último que cargaremos la biblioteca. Luego crearemos el mismo conjunto de datos de muestra que hemos creado en las conferencias anteriores. Y luego haremos la afinación fina de una gráfica de dispersión. Entonces lo mismo que haremos, edad versus puntaje de prueba. Lo mismo. Aquí. Afinaremos el lote usando funciones estéticas y habilidades. El valioso gráfico de dispersión, que utilizará la función plot pasará el conjunto de datos. Entonces la función estética cuando X es igual a H de Y es igual a la puntuación de la prueba y el color realizado en el género del gel. Y aquí usaremos otro parámetro llamado Guardar. Y ahorra. What Save que podamos asociar decidirá en función del género. Y aquí, usaremos función de punto geom para trazar los puntos Pero aquí los lados puntuales realmente especifican. Así que antes no hemos especificado ningún tamaño de punto aquí vamos a especificar tres. Así que los lados del punto geom son iguales a tres. Este parámetro pasará. Y luego usaremos el guión bajo de escala, subrayado Y tenía valores para el color va a dar C. Rector aquí azul y rosa. Y luego para el CEP también se usarán guiones bajos. Resaltado manuel aquí dará los valores. Cuenta con 16, 17. Entonces esto creará seguros, varios consejos que podemos crear, y luego usaremos la función de laboratorio. Y déjeme dirigir esto simplemente. Cuando ejecute esto, se creará el diagrama de dispersión. Vamos a traer el diagrama de dispersión. Por lo que ahora se puede ver aquí, ahora la gráfica de dispersión tenía la va a crear, pero ver el tema de los puntos para machos y hembras son indiferentes Ver los puntos son un poco más grandes porque no hemos especificado el tamaño igual a tres. Si lo hago tartán, ¿qué pasará? A ver. El tamaño aumentará y se mueve, vuelve a imprimirlo. Ahora el tamaño de los puntos son más grandes porque tenemos un tamaño especificado igual a 13. Y el color que hemos dado aquí, azul y rosa. Así colores azul y rosa, Parte azulada, hembra y macho Nosotros hemos dado rosa. Entonces aquí está. Appoggiatura Ahora podemos corregirlo simplemente. Bien. Entonces esto no es exacto o en realidad para que puedas calcular la letra C. Ahora los puntos son más grandes. Entonces basado en este lado es igual a 30 y el color viene de aquí y ver si viene de este montón Cualesquiera que sean los valores que estamos pasando aquí. Si lo hago 117, veamos. Simplemente puedes jugar con los números y ver ahora este par. Entonces es sólo un círculo. Y si pongo una letra fue proceso de recocido soporte del equipo, voy a poner 88 Y veamos a qué secreto va ahora. Observe que viene así. Entonces en base a estas cosas, se puede ver por ello, si pongo 18, cuales serían los mismos datos también, pueden ver me dejan copiar esto. Dividir. Esto por favor vea, y ahora está entrando en esta cinta laminada y esto es triángulo. Si lo hago. Esto también en lo que vendrá en lo mismo, digamos, si lo hago 28, 28 no es nada como esto. Podemos hacerlo bien. Bien. Por lo que en base a los números en la caja fuerte va a cambiar. Entonces esta es la forma en que podemos afinar las tramas. A continuación vamos a afinar la barra Trama. Y sin embargo también lo hizo el puntaje de prueba de género versa generalmente valor medio del resumen. Vamos a trazar que ya tenemos parcela aquí. El mismo conjunto de datos. Estética estudiantil, género, por qué prueba puntuar y llenar por género. Y luego geom subrayado función Bar. Geom subrayado La función de barra será Resumen de estadísticas y phon en sensible a la media y el subrayado de escala El manual de subrayado verá azul y rosa. Y esto es cosa simple, solo será esto y pegarlo aquí. De igual manera, podemos hacer lo mismo con el boxplot. Esto para boxplot. ¿Bien? Entonces CEO, ahora, una línea de puntos viene aquí para que tengamos bigénero fluido de género no binario Y aquí. De igual manera, podemos hacer este histograma. Esta es la forma en que podemos afinar las parcelas utilizando funciones estéticas y de escala. A los alumnos les gusta la próxima conferencia 105. Modifica tus temas, etiquetas, títulos y ejes con la función del tema: Hola y bienvenidos de nuevo. En esta conferencia vamos a modificar temas, etiquetas, títulos y ejes usando el tema Función para modificar temas, etiquetas, títulos y ejes. En GG plot two, podemos usar el tema Función junto con varios elementos temáticos para personalizar la apariencia de nuestras parcelas. Entonces comencemos con un ejemplo y veamos cómo podemos usar el tema Función para modificar temas, etiquetas, títulos y ejes. Así que lo muy rápido es que vamos a cargar la biblioteca como es relativamente trazar a. Lo siguiente es que vamos a crear este conjunto de datos de muestra que ya hemos hecho. Entonces déjame correr esto por ahora. Ahora, lo siguiente es modificar temas, etiquetas, títulos, cosa enorme, Banza Así que para nosotros recrear la trama de barras. Entonces primero crearemos el diagrama de dispersión entre la edad y el código extra que ya hemos hecho. Pero aquí vamos a tratar de modificar los niveles de tema y títulos y ejes usando el tema Función. Entonces el ayuno es bueno si las variables se dispersan como de costumbre, entonces usaremos la función GG plot. Pasaremos el conjunto de datos, luego usaremos la función estética. Y aquí, X igual a H, Y será el puntaje de prueba Color mencionado en la agenda y decir construir en la agenda. Entonces ya lo hemos hecho. Lo siguiente son las funciones de punto de subrayado geom Sij igual a tres Esto trazará los puntos en el lote. El tamaño será de tamaño, los lados del punto serán tres. Entonces aquí usaremos las funciones escaladas subrayado color y manual de DashCon Y aquí vamos a dar los valores para los colores azul y rosa y seguro para muestra nos da este Vectores 16, 17, ya hemos visto en la diapositiva anterior, conferencia anterior cómo cambiarán las formas de los puntos o puntos en base a los valores que pasamos aquí. ¿Bien? Entonces lo siguiente es que el laboratorio Swanson utilizará para dar el título de la trama y el nombre para el eje x y el eje y Y luego usamos el tema subrayado función minimal. Y entonces esto es lo principal que vamos a aprender en esta conferencia. Ese es el tema Función. Así que dentro del tema Función, lo que vamos a perder mucho, título de punto, vamos a dar. Y aquí elemento subrayado X, esto será, esta función se utilizará para dar los lados del título ¿Bien? Toma lados del título. Al igual que el diagrama de dispersión con la edad era un Tesco. Este título vendrá de las parcelas que tamaño de texto podemos cambiar a partir de aquí usando el elemento underscore tax y el parámetro size que haremos aquí Y luego vamos a dar la cara es igual a negrita aquí podemos cambiar el estilo de la fuente. Estilo de fuente que podemos cambiar por usted no se enfrentó, ¿llamó a dos voltios cursiva lo que quiera y actuar solo le dará 0.5 y existe título de punto para el eje x y el título del eje y, usaremos la misma función Elemento subrayado texto lados van a dar lo que quieras escuchar Estoy dando 12 Y luego enfrentar el tazón. Y luego para acceder los textos te darán el elemento subrayado función sexual y el tamaño dará diez Y luego leyenda punto título, vamos a utilizar elemento. Y eso se llama función en blanco. Y loginData textos. Usaremos el elemento bajo ciertos textos y los lados darán diez y la posición de la leyenda dará en la parte inferior. Entonces vamos a dar el fondo aquí. Así que vamos a ejecutar esta trama de dispersión. Antes de eso, permítanme copiar este gráfico de dispersión de impresión, dispersión. Y lo voy a poner, solo vernos en esa parcela de dispersión plantada y al mismo tiempo. Entonces déjame dirigir esto. Nos vemos ahora, aquí estamos obteniendo el diagrama de dispersión. Y mira este es nuestro título de trama tecnológica que hemos dado en un tazón aquí. Al igual que si cambio esto a 14 a 24, esta voluntad, cuanto más grandes, los textos serán de mayor tamaño. Entonces déjame dirigir esto. Ahora es omega, ¿verdad? De la misma manera para el título del eje si se lo di a 22. Si ejecuto esto. Ver ahora test score NAs o en mayor. ¿Bien? Entonces, la forma en que podemos modificar los títulos, niveles y ejes. Bien, Así que déjame hacerlo y 14, buscando materia Esta gráfica de dispersión de cada curso. Bien, lo siguiente haremos lo mismo por el bar Plot. Así que para la barra Plot también se utilizará el mismo conjunto de datos. Y vamos a crear una barra de la variable Plot aquí y luego DD plot function dataset. X es igual al género. Por qué se llama escritorio o género. Lo mismo que hemos hecho antes al levantar es que vamos a utilizar este tema Función año extra plot dot title. Lo mismo que estamos usando para la barra Plot también. Así que no voy a tomar el enfrentamiento el tiempo explicando lo mismo una y otra vez. Yo sólo voy a copiar esto. Y yo solo lo mejor es rasgar a un adulto correr esto. ¿Bien? Bien. Entonces mira aquí esta es la mala trama. Del mismo modo, también haremos la trama de caja. Entonces estas son las cosas que ya hemos hecho. Lo único extra que estamos haciendo aquí es tema. Lo mismo, Elementos y discurso. Yo lo mismo. También estamos haciendo más boxplot. Y sólo voy a ir a esto y pegarlo aquí. Y ejecuta esto para boxplot. Para ver la trama de caja. El boxplot, todo se ha cambiado en consecuencia. Bien, ¿lo siguiente es realmente hacer qué? Histograma es, obstruentes de distribución aquí también, tuvimos este tema Función Modificación del tamaño de la cubierta del tamaño de la toma de Parcela. Entonces déjame dirigir esto. Entonces así es como podemos modificar esos temas, etiquetas, títulos y ejes. Lote usando en ggplot2. En cada tema de la trama La función se utiliza para modificar los diversos elementos del tema como el título del punto de la trama, el título del punto los ejes existía o la leyenda del texto del título del punto de la leyenda del texto del punto, y la posición del punto del ligando. El tema o el elemento subrayado función de texto se utiliza para establecer el sitio, font-face y justificación en el Utilizamos un tema subrayado función mínima para comenzar con el tema minimalista, donde todas las parcelas y luego personalizar aún más la apariencia con el tema Estos ejemplos demuestran cómo modificar temas, etiquetas, títulos y ejes con el tema Función en ggplot2 Ahora, puede explorar elementos de tema adicionales y personalizar aún más la apariencia de sus parcelas para que coincida con su visualización específica y necesidades para cada proyecto tendrá su propia visualización necesita hacerse que puede utilizar estas funciones y se puede explorar más 106. Proyecto 6: Hola y bienvenidos de nuevo. En esto, vamos a hacer un proyecto sencillo. Y con eso caminará sobre un conjunto de datos del mundo real para crear regionalización de conocimientos Así que estamos trabajando con un conjunto de datos del mundo real para crear licencias perspicaces y aspectos importantes de Análisis de Datos, Ciencia de Datos, narración Repasemos un ejemplo usando un conjunto de datos del mundo real para crear visualizaciones perspicaces En este ejemplo, usaremos el famoso conjunto de datos Iris, que está fácilmente disponible con el paquete R por defecto, el IDT contiene la información sobre diferentes especies de flor de iris, incluyendo su longitud de sépalo, ancho de sépalo, longitud de pétalo y ancho pétalo, y las especies de la Bien, Así que este es el proyecto sencillo que relu e intenta crear algunas visualizaciones, visualizaciones Entonces primero, perdemos esa biblioteca, ggplot2. Luego cargaremos el conjunto de datos de iris escribiendo la función de datos, Función datos pasando el nombre del conjunto de datos. Entonces estos dos son el paso esencial para cargar la biblioteca de necesidad y cargar el conjunto de datos irlandés y explorar la estructura del conjunto de datos. Usaremos la función STR y pasaremos el nombre del conjunto de datos. Entonces veamos la estructura del conjunto de datos. Entonces puedes ver aquí, hay uno por cada empleado objetos o cinco variables. Cinco variables son la longitud del sépalo, anchura del sépalo, la longitud del pétalo, anchura del pétalo y una especie ¿Bien? Y luego aquí se dan Valores. Bien, entonces lo siguiente es que veremos el resumen del Dataset, que nos dará las estadísticas. Las cinco columnas, la longitud del sépalo, anchura del sépalo, la anchura del pétalo y una especie Y sus valores mínimos, cuartil aplastado, mediana, valores medios Tercero, cuartil y valores máximos para cada una de las variables. ¿Bien? Entonces de esta manera podemos ver analizar, bien, lo siguiente es que recarguemos Esto es lo estadístico que obtenemos al obtener el resumen del conjunto de datos. Ahora, lo que quiero hacer, quiero crear una gráfica de dispersión para este Entonces para eso, lo que voy a hacer, voy a crear una variable de diagrama de dispersión subrayada aquí Y usaré la función GG plot para crear la gráfica, y asignaré a esta variable y luego la imprimiré. Así función de trazado de GG, voy a pasar el conjunto de datos, Iris dataset. Del mismo modo, que al igual que en las conferencias anteriores, hemos utilizado la función estética aquí también deja la función estética aquí también deja la función estética. Y tenía XXS para la longitud del sépalo y la salida del eje y. Ancho de punto simple y Color. Poner construido sobre la función de punto de subrayado de especies y geom que usaré para trazar los puntos en la trama y funcional grande, enorme para mantener el título para el eje x, eje y, y el título de la Y entonces aquí voy a usar la función mínima subrayada del equipo Y luego voy a imprimir esos gráficos de dispersión. Así que vamos a ejecutar esto y ver cómo la sangre que viene a la trama de dispersión. Así que vamos a hacerlo más grande. Este es el diagrama de dispersión que estamos obteniendo después de ejecutar esto. Así que mira aquí, longitud sépalo en el eje x, ancho simple en el eje y, y Color basado en Entonces hay dos dosa, versicolor y virginica. Entonces mira, todas las especies se trazan aquí con base en la longitud del sépalo y el ancho del sépalo Entonces esta es la misma gráfica de dispersión pasada que hemos creado. Lo siguiente es que el conjunto de datos Iris tiene para variables numéricas, longitud sépalo, ancho sépalo, longitud de pétalo, ancho de pétalo, y una variable categórica que es especie Entonces esta especie es la variable categórica. Ahora vamos a crear alguna visualización perspicaz repente que bloqueaste. Entonces el primero es el diagrama de dispersión, nuestros datos los hemos creado ya. Entonces déjame correr esto otra vez. Obtienes lo mismo. Ahora vamos a crear una gráfica de caja. Entonces boxplot, lo mismo, boxplot GG plot to will lo hace, luego función estética Y aquí X, X es, voy a poner estas piezas y eje y voy a poner el hotel puesto, pongo la longitud del pétalo Así especies y su longitud de pétalo y vamos a llenar de especies oscuras. Y luego geom subrayado boxplot. Voy a utilizar para dibujar el boxplot y luego reír función llamada título y todo Y luego voy a imprimir. Entonces déjame dirigir esto. Mira aquí esta es la parcela de caja, longitud de pétalo por especie Entonces esto cada uno para setosa, esto es para este boxplot es para versicolor, esto es para ver Del mismo modo, quiero crear un E histograma voy a crear basado en la distribución de ancho de pétalo entre especies Entonces para este histograma, gramaje subrayado plot variable DG, ggplot2 función hace, va a pasar iris que estamos usando estética Y voy a rellenar con esta pieza con sus especies y luego histograma, histograma uso funcional y binwidth, voy a dar 0.1 color, voy a dar color voy a dar Este es el color de supresión entre los bins. Y voy a dar 0.7 y laboratorios de uso funcional para dar los títulos y todo. Y luego tema mínimo que estoy usando aquí. Así que vamos a ejecutar esto y ver, sí, este es el ancho del pétalo son el eje x y el eje y Tenemos la frecuencia. Y este es el primer conjunto de piezas de tamaño. Verdoso para el versicolor y virginica. Virginica. Azul para la virginica Bien. Así que de esta manera podemos crear este histograma El siguiente es, voy a crear una gráfica de dispersión facetada. Y ahí quiero mostrar el largo del pétalo versus el ancho del pétalo para cada especie. Entonces para esto, estoy usando el eje x, estoy usando la longitud del pétalo, el eje y, estoy usando el ancho del pétalo y el Color que estoy dando mejor que la velocidad en la especie y el tamaño del punto geom Me dan tres y todas las demás cosas ese mismo año, amistad para subrayar función envoltorio voy a dar construir sobre esta especie Bien, Así que esta función de envoltura de guión bajo preestablecido te dará el profesor hizo la gráfica de dispersión Ejecutemos esto y veamos la salida. Ahora, estamos viendo el diagrama de dispersión facetaria. Aquí, el conjunto de tallas. Esto es posiblemente mejor aterrizar en el eje x y el ancho del pétalo en el eje Esto es para la setosa, este verde para el versicolor, y azul para la Entonces esta es la gráfica de dispersión facetada. Y aquí también se puede ver el bloqueo para setosa, versicolor Esta es una categorización clara. ¿Bien? Entonces, lo siguiente, lo que bajo proyecto es mediante la utilización conjuntos de datos del mundo real como el conjunto de datos Iris, podemos obtener información sobre las relaciones y la distribución de las variables, identificar los patrones y hacer interpretaciones perspicaces Bien, Ahora eres libre de explorar más Parcelas, escribir, y personalizar la estética que hemos hecho antes. Al igual que puedes modificar las etiquetas temáticas, títulos, todas esas cosas que hemos aprendido en la conferencia anterior que aplicas sobre esta y creas tu propio proyecto. Y luego experimentar por los diferentes conjuntos de datos. Aparte de esto, para practicar y desarrollar tus propias habilidades de lección DWT Entonces este es el proyecto simple basado en el conjunto de datos de iris para crear un histograma de diagrama de dispersión fester scatterplot, boxplot, boxplot, Espero que tengas alguna idea sobre cómo puedes caminar sobre el conjunto de datos del mundo real. Puedes caminar sobre el conjunto de datos del mundo real. Gracias 107. Manejo de datos de fecha y hora en ggplot2: Hola y bienvenidos de nuevo. En esta conferencia, vamos a aprender sobre el manejo datos de fecha y hora en ggplot2 Por lo tanto, manejando la fecha y hora en que la gráfica T2 para invocar, insertar esos datos se reconoce correctamente como almacén de objetos de fecha y hora que la gráfica GG puede formatear adecuadamente las etiquetas del eje y crear las habilidades adecuadas ¿Qué significa? Significa que si pasas los datos, datos fecha y hora en un formato correcto, entonces trazas dos, te encargarás de las verduras, las cosas trazando y no recaudaron impuestos Así que abril enseña objetos de fecha y hora clínicamente reconocidos. La gráfica Gg puede formatear correctamente las etiquetas del eje y crear habilidades adecuadas. En nuestra fecha y hora se pueden representar utilizando diversas clases como lógicas a ciudad y auditorías, y funciones LD Bien, entonces veremos proyecto City y proyectos LTE más adelante. Por ahora, basta con saber que los datos se pueden representar usando diversas clases como la ciudad lógica y los proyectos como el, bien, así que vamos a un ejemplo sencillo usando dataset con datos de fecha y hora para demostrar cómo manejar la fecha y la hora en ggplot2 Entonces lo primero que necesitamos de la ggplot2 y la biblioteca, hasta qué punto estos ejemplos cargarán estas dos Y luego lo que quiero hacer, quiero crear un conjunto de datos de muestra que y valor de tiempo. Entonces aquí eso va a crear o Dataset el cual tendrá la fecha y los valores correspondientes a cada día. Entonces para esto usando set.seed 123, modo que obtendré los mismos datos de muestra de configuración cada vez Cuando ejecuto el programa. Entonces para Data, voy a, voy a crear unas fechas valiosas y voy a cuatro días, voy a, voy a perder una función de secuencia para crear los mazos para mí. Así que las ideas de la funcionalidad de la secuencia de añadir oscuridad para seis ciudad, añadir oscuro cuatro DX DT. Y aquí voy a dar fecha como 23 gen, primero, primero enero 2023. Entonces este es el origen de la fecha. Entonces a partir de esta disminución y vamos a empezar, bien, aquí, estoy usando por un día. Por lo que un día será la diferencia entre cada hora fecha y lynda punto punto será 30 30. Quería crear 30 días. En esos 34, 30 días quiero crear, bien. Me usan la secuencia Ronson y para Valores usando la función impar pnorm, la función pnorm Aquí voy a dejar ese número de valores que quiero crear. Entonces quiero obtener 30 Valores. ¿Qué son estos 30 días? Y entonces quiero usar la media igual a 50 y desviación estándar ya sea diez, ¿bien? Y cuatro días tengo función de secuencia de unión y dentro de la función de secuencia que estoy usando es igual a Ag punto Cp. Estoy dando la fecha de inicio. Y por uno, por cada día vivo. En títulos se crearán a partir de 30 días, se crearán a partir de primera generación, continúa impreso tres Y luego estoy creando un DataFrame, data.frame. Cada llamada a la fecha o fecha. Estoy usando estas pruebas Valores y para Valores, estoy usando este valor. ¿Bien? Así que vamos a ejecutar esto y a ver qué está pasando. Ahora han corrido, vamos a llevar al dataframe df8, Así que mira aquí. Ahora es yo soy dos columnas, fecha y Valores. Los datos empiezan desde la primera generación 2023 y van de primera generación a tiempo por día tres Y para cada día, tenemos diferentes, diferentes valores asociados a eso. Entonces ahora tenemos datos simples, conjunto de datos de muestra, fecha y datos correspondientes. ¿Cuál era el valor? Podría ser cualquier cosa como el costo del artículo en particular o algo así. Entonces tenemos fecha y columna de revisión. Ahora podemos intentar trazarlos usando ggplot2. Entonces en este ejemplo, creamos un conjunto de datos con dos columnas, datos que lo representan en datos de tiempo y valor que representan los algunos valores numéricos. Bien, entonces lo primero, qué quiero crear una gráfica de línea simple con fecha en eje x para estos valiosos subrayados de línea alquilados Trama y aludir a la gráfica GG, para crear la gráfica para crear Así ggplot2 y dataset, voy a pasar dF que hemos creado Sólo sé que existe anestésico X. Quería poner la fecha y el eje y quiero poner Valores, entonces X es igual a fecha y ¿por qué valorizar Y luego usaré la línea de subrayado geom Human, eso se llama función de línea para trazar estos puntos en la Y luego la última función para dar los nombres como para eje X estado y eje valor y datalab aunque, plot es line Plot value over time, y theme, minimal Entonces T-menos cuatro milimoles, y luego voy a imprimir la trama de longitud Así que vamos a ejecutar esto y ver cuál es la salida que viene aquí. Este es el comando de trazado de líneas. Las gráficas de línea valoran a lo largo del tiempo. Entonces para el 1 de enero, día y Valores Como hemos trazado aquí, por ejemplo, hay nueve densidades así, ¿de acuerdo? Así que valorizar con el tiempo con esto, simplemente se puede visualizar que está produciendo la segunda parte de la trama de ese tiempo de datos. Ggplot2 es lo simple. En el eje x, los valores del eje y de los datos y el resto de las cosas cuando estamos tomando ggplot2 de huida en esta amplia gráfica GG para reconocer que el contenido de la columna de fecha, los datos de fecha y hora y automáticamente agricultores acceden a Bien. Entonces etiquetas aquí. Bueno creando esto, no hemos dado ninguno, como el formato es 01012323 aquí, no nos dan así, pero la trama de GG la ha reconocido como fecha, hora, y automáticamente le ha dado las etiquetas que Jan a Gemini en Genesis equipo así Bien, Entonces esto se ha hecho automáticamente, por trama DG para saber lo siguiente que haremos, intentaremos trazar la parcela de área con fecha y hora en el eje x Así que la gráfica de área, la gráfica GG, el eje x Alport fecha eje y sobre ALU y lleno Por la función de área de subrayado geom usaré para crear una parcela de área y salida de laboratorios, valor del eje y del estado de salida y área de título Valor de trazado a lo largo del tiempo tema mínimo, e imprimir, imprimir las Así que vamos a ejecutar esto y ver. Ahora puedes ver aquí valor de Arial Black a lo largo del tiempo ha llegado y aquí también tonta y aquí también las cosas que se habían cuidado Y esta es la zona Parcela creada por did you ggplot2. En el eje x se acaba de mostrar las fechas de enero al 9 de enero, hombres de necesidad que son becarios y luego 30 Y para cada fecha y Valores a lo largo del tiempo con desesperados y así sucesivamente por el área cubierta. En esta parcela, tenemos su área subrayada para crear una parcela de área Y GG plot automáticamente polímeros los niveles del eje x con la fecha ellos información. Así que puedes ver aquí. Ahora lo siguiente es que crearemos un Plot de barras, fecha en el eje x Así que agregar datos por mi día, crear una gráfica de barras. Entonces aquí lo que quiero hacer, quiero leer una parcela de barra con el swing, los datos para cada día. Para dúctil do LLC crear un DataFrame y nuestro guión bajo diario DF y él tiene LDF un DataFrame y nuestro guión bajo diario DF y él tiene LDF, el operador de tuberías aquí. Y agrupé por fecha, agrego fecha de punto, y ellos pasarán la fecha y resumirán por valor promedio Esa será la media del valor. Así que de esta manera obtendremos el subrayado diario DF, ¿de acuerdo? Entonces si así veo aquí este es el DF diario. Fecha y valor promedio. Descríbelos así, bien. Ese dron dos filas más. ¿Bien? Entonces ahora lo voy a subir bar Plot. Así bar Trama, anti-D ggplot2 bar. Esta vez me encanta el nudo más allá del DF y pasar eso a SQL DB que acabamos de crear. Y para el pase funcional estético, X es igual a la fecha e Y es igual al valor promedio. Por lo que la fecha vendrá a partir de esta fecha y el valor promedio que vendrá del miedo. Y mira tu fecha. El tipo es fecha y valor medio W. ¿Bien? Entonces y luego usaré la función de columna de guión bajo geom para crear gráfico de barras Y en la función de pestillo voy a dar X es igual a la fecha, Y es igual al valor promedio y barra más apretada Trazar valor promedio Parte D y T Kilometraje mínimo y tema existe punto X punto X elemento subrayado ángulo fiscal 45 en sólo uno Gire los niveles de acceso a él para una mejor visibilidad. Bien. Entonces estoy rotando los niveles de excesos en 45 grados para una mejor visibilidad sobre D. Bien, y luego imprimo la barra Entonces déjame dirigir esto. Entonces mira aquí, así es como nos hemos inclinado. Ve Ajahn a Jenae se ha inclinado 45 grados. Así que no hemos conseguido mediante el uso de la función de impuesto de subrayado elemento y pasar el ángulo es igual a 45 Si pongo ángulo cada llamada a nuestro 75. Y si trato de ejecutar esto, entonces esto va a estar en el 75 regularmente. Si yo por apoyo Albert, 90, 30 grados, se inclinará por 30 grados C. Y 45 Eso se ve mejor. ¿Bien? Ahora tenemos el valor promedio por día. Entonces a pesar de que apenas se está tramando el 1 de enero, género me dijo tres y cuatro así por 30 días, valor promedio Parte D, podemos ver lo que hemos hecho en este Agregamos el día a día y usamos la columna de subrayado geom para crear una gráfica de barras También giramos el nivel del eje x para una mejor visibilidad que hemos hecho aquí con el ángulo de 45 dígitos desmenuzado. Demuestre cómo manejar los datos de fecha y hora en ggplot2 insertando los retiros de DateTime en el formato apropiado GG plot para manejar automáticamente el exceso de nivelación y escalado, facilitando la creación de regulaciones perspicaces y prácticamente iguales a lo ggplot2 insertando los retiros de DateTime en el formato apropiado GG plot para manejar automáticamente el exceso de nivelación y escalado, facilitando la creación de regulaciones perspicaces y prácticamente iguales a lo largo del tiempo. Así que lo único que somos es que necesitamos pasar el valor correcto de DateTime a ggplot2 bajo detener la cosa GG plot para entender cómo manejar la fecha y 108. Funciones de POSIXct y POSIXlt con ejemplo: Hola y bienvenidos de nuevo. En esta conferencia vamos a conocer tanto las funciones de la ciudad como de los proyectos LT, eso es muy común de ver ahora, programación para el manejo de los datos de fecha y hora. Por lo que no se ven las clases LTE de punto final judío hasta el presente, datos de fecha y hora. Ambas clases forman parte de nuestro paquete. Usted desea para manejar los valores de fecha y hora. Pero tienen diferencias en su representación interna y su comportamiento. Obviamente, si hay dos clases de objetos, entonces debe haber diferencias en su comportamiento. Y así sucesivamente. Entendamos cómo funciona para la ciudad y los proyectos LTE. Entonces primero entenderemos cómo los pobres paseos por la ciudad proyecto Ciudad significa forense, tiempo calendario Entonces CT tiempo calendario, C4 calendario T para proyectos de tiempo es 4.6, 0.6 y representa la fecha y la hora como el número de segundos desde el inicio de la única. Eso es el 1 de enero de mil 970. Entonces proyectar tiempo calendario para comenzar a partir del nueve de enero y Bajo soberanía Pero no conoces el sistema Unix. ¿Bien? Entonces, y a partir de ese momento, contará el número de segundos desde el inicio del tiempo desde el inicio del partido de tiempo para el proyecto City's 1971. Bien, así es como funciona. Y son las clases más comunes para manejar datos de fecha y hora en nuestra simplicidad y eficiencia castradas, anterior empezó a hablar Por lo que es realmente eficiente a la vez que fuerte que el tiempo Rita e israelí simple también entienden proyectos arriba con cualquier Jump Box. Entonces supongamos que quiero crear u objeto de ciudad. Entonces para eso voy a, voy a dar un nombre y fecha y hora hace cruzar ciudad y y agregas proyecto punto Ciudad. Y tenía fecha alqueno. Y le dará luz a la oscuridad Grundy 3722. Eso significa 20 segundos para mentir a tres. Y aquí, Algol, apenas bar real 30 min, 45 s. y esta es la fecha y hora Y él y yo vamos a dar el tiempo, John. Gracias. Y puedo dar lo que quiera. Bien. Entonces lo estoy haciendo menos preciso, UPC y luego voy a tratar de predecir Bien, Así que veamos aquí ahora es el 22 julio de 2023, Dynavox duele cuando yo 45 s pidió la hora UTC Bien. Ahora tenemos el tipo es un tiempo dibujado. Ahora quiero acceder a los componentes individuales operar y tiempo que es año, mes, día. Nuestra manecilla de minutos, segunda mano que podemos hacer muy fácilmente. Si quiero. El oído sondea la fecha, puedo usar formato y después pasaré la fecha. El tiempo subrayan ciudad, ese es el objeto del día. Y entonces voy a ceder la forma porcentual y esto me va a dar un año. Se ajustará aquí a partir de este objeto. Así que te veo artista. Bien. Del mismo modo meses se había ido a enfrentar. Puedes usar fecha y hora subrayado city, presentarles lo que hicieron, tiempo ZT y puedes llegar a presentar una D o un resumen de persona impar ¿No lo fue? M por un minuto y S4 segundo. M y S, minuto impar y segundo hijo también fueron el interés capital. Bien, entonces déjame correr esto y ahora llevar a los todos estos componentes. Entonces voy a base enorme. Sí. Él y subrayan CPD por mes, mes y capacidad de pérdida por fecha y escasez Y para el hombre extraño un segundo, voy a usar lo mismo, ¿de acuerdo? Y luego voy a tratar de imprimir esto. Entonces cuando imprimo un año, este producto para vender 23 meses es de siete al cuadrado El segundo impar es 20 artista que no hizo minutos y 45 s de proyectos Ciudad objeto. El siguiente es para la toxina LT o LD Stanford por seis hora local y representan datos de fecha y hora agrega una lista de componentes Así que aquí se estanca Como una serie de segundos mezclándose de la época Y aquí lo almacenará como lista. ¿Bien? Por lo que los proyectos LT van a Stanford o hora local y representan datos de fecha y hora como un nicho de componentes principales, año, mes, día, minuto impar, y segundo se almacenarán como una lista en la zona horaria local Entonces por defecto irá al tipo local. Es más flexible que Project city ya que permite acceso directo a nuevos componentes de rendimiento de fuerza que soy John manejando. Bien, entonces aquí hay un ejemplo de política. Tte. Crearé un objeto de fecha y hora, pia, agregaré proyectos de punto, LTE, MLK, Martin, 20 segundos, julio callbacks son diferentes, 45 s, e intentaré imprimirlas Entonces, ya sabes, aquí que no hemos especificado el Tango. Y cuando yo, cuando estoy imprimiendo, estoy recibiendo colisiones de 20 segundos, ozono, Grundy tres, barra bien 30 mi 45 s con el El tiempo John, mi peligro local, esa es la hora estándar india. Se viene lavado de fijado a este objeto tóxico. Entonces ahora es común con el local cronometrado solo ventana o Lias en Project City, hemos especificado la línea de tiempo, Martin proyecta LT. No es necesario precisar ese tiempo dibujado aquí. Automáticamente tomará la hora local, local, john, porque significa proyectos hora local. Bien. Y si queremos acceder al minuto y segundo mensuales, simplemente podemos hacer por Eugene fecha, tiempo subrayado LT, ese objeto que hemos creado para este dólar, más 1,900 Entonces, ¿qué va a hacer cuando pone en LTE almacenado como año desde 1,904 mes fecha tiempo subrayado LT dólar M1 mes más uno proyectos LT, iniciar el mes con cero Así Data más 1€ para enero a las 11:47. De manera similar por defecto usarán el MD mes, día. Y para los valores impares son para un minuto, minuto medio y 4 s. Así que vamos a ejecutar esto y acceder con elementos reales y luego lo imprimiré. Viene aquí total y Randy, tres meses, siete días 20 s más o menos Lo mismo que estamos obteniendo y proyecta LTL real un litro La presentación es una diferencia pero proyecta la hora local y se ha almacenado el componente que ha desatado donde Project city es para La hora del calendario representa la fecha y la hora, mientras que el número de segundos desde el inicio del Unix es igual al tiempo a partir del 197 de enero. Bien, entonces esto es algo que podemos manejar los datos, datos fecha y hora o impares. Y hay dos formas, proyecto Ciudad y proyectos vacíos. Y los hemos entendido a ambos 109. Conceptos básicos y resúmenes de datos: Hola y bienvenidos de nuevo. Entonces en esto, vamos a hacer otro proyecto sencillo en el que vamos a aplicar técnicas de Transformación de Datos y Resumización sobre datos del mundo real Entonces, para aplicar Transformación de datos y Técnica de resumen en datos del mundo real, usaremos el conjunto de datos MPG, que también está disponible en nuestro Así que este conjunto de datos MPG está fácilmente disponible en nuestro paquete. Entonces no necesitamos descargar el conjunto de datos por separado. Ya está disponible en el paquete R. El conjunto de datos MPG contiene información sobre varios modelos de automóviles y su eficiencia de combustible Entonces, usemos la gráfica GG cuando apliquemos Transformación de datos y resumiremos alguna técnica para obtener información del conjunto de datos MPG, que es el conjunto de datos sobre los diversos modelos de tarjetas y están sintiendo eficiencia Entonces lo primero que vamos a cargar la biblioteca ggplot2. Señor, el conjunto de datos que es MPG dataset. Entonces dejaremos la función de datos y pasaremos ese nombre de conjunto de datos que ya está disponible en el paquete R. Así que los datos y pasar el nombre del conjunto de datos. Bien, entonces se cargará este conjunto de datos. Y luego para explorar la estructura del conjunto de datos, usamos la función llamada función STR y pasamos el nombre del conjunto de datos. Entonces cuando ejecutamos esto, obtenemos la estructura de Dataset, este dataset MPG Por lo que aquí se pueden ver los modelos del fabricante, desplazamiento, años, número epsilon dot transmisión, dr. ciudad, carretera, y clases Entonces todas estas variables están ahí. ¿Bien? Lo siguiente es que verás el resumen del conjunto de datos. Así que vamos a ejecutar el resumen y luego pasar el nombre del conjunto de datos. Sí, así que esto te dará la mejor comprensión de cómo, cuántos años tiene ahí, qué tipo de lectura ya sea así fabricante, modelo, desplazamiento, Año, transmisión de cilindro y carretera de la ciudad, y el relleno y luego clase. Para todo se le da el valor mínimo. Primer cuartil, mediana, tercer cuartil máximo, todos esos valores estadísticos ¿Bien? Entonces mirando esto siguiente es que el conjunto de datos MPG tiene varias variables incluyendo fabricante, modelo y desplazamiento en litros Y luego número de cilindros y luego transiciones para algún tipo. Dre es Dr. tipo y BYU ciudad MPG y WY es autopista MPG. Entonces este es el promedio de la ciudad Kilometraje de ciudad, y esto es un IMC alto menos del Auto particular Ahora vamos a aplicar eso Transformación de datos y Técnicas de Resumiendo usando GG plot Entonces, lo primero que hagamos utilizará la barra de grupo Plot. Y en esto, lo que haremos, haremos la compresión de cada ciudad. Mpg Kilometraje basado en número hasta cilindro. Entonces usaremos el dataset MPG y usaremos el operador de tubería. Y aquí groupby cilindro. Y luego esta agrupación por cilindro. Después lo pasamos a la función de resumen. Entonces cada ciudad promedio subrayado ciudad se llama la media del promedio de la ciudad Y luego pasaremos esto a la función de trama GG, función estética. Usaremos lo que x es como.factor y faccionaremos cilindro de rechazo y por qué será bien de receta y llenaremos con el número de cilindros, cilindro de factores IJ, cilindro de factores IJ Y luego hacer jamboard utilizará para pasar el inicio igual a identidad Y luego laboratorios número de cilindros en el eje x. eje X le dará número épsilon, el eje y siempre ciudad, milla, BD y ver títulos le dará cada ciudad y VD por Y equipo utilizará el mínimo. Y luego imprimiremos la barra de grupo Plot. Así que vamos a ejecutar esto y ver, permítanme simplemente maximizar el espacio para que podamos ver la gráfica. ¿Bien? Sí, conseguir algunos ves fumar. Mali, aunque esto, bien, Así que esto está diciendo porque tenemos la biblioteca nocturia dplyr Así que déjame saber que las parcelas bien, Si ejecutamos ahora, vemos hoy en día venir correctamente que ya sea porque se refiere a la función by viene del paquete dplyr que no has cargado Entonces naturalmente fue lanzando que son así que ahora puede ver evidencia el DMB D por número de cilindros Entonces número de cilindros en el eje x. Y cada ciudad es El kilometraje está en el eje y, por lo tanto, el número de la fecha del cilindro y la mielina se muestra aquí Pero en realidad ingresa cuatro y diversidad Kilometraje cosas aquí para, de hecho, cosas de Kilometraje aquí. Entonces de esta manera podemos analizar cómo un número de cilindros en un modelo de automóvil está afectando a cada ciudad Kilometraje. Entonces dibujaremos el boxplot y el director de caja de color realmente son lo mismo y belleza, salida estética, seco, autopista, MPG por tipo, tipo, tipo, y eje Y vamos a comportarnos y favorecimos el tipo tipo y como esas cosas que sabemos ya hecho esta boxplot carretera MPG Así que estamos llegando hasta aquí. El siguiente son tres. Pondremos diagrama de dispersión y eso originará el MPG de la ciudad versus desplazamiento del motor por transmisión Tipos de lo que esto va a trazar un diagrama de dispersión Así que la función de trazado GG, estética de dataset MPG, desplazamiento X, eje y será ciudad Y entonces el color es transmisión y punto geom para trazar los puntos Y luego eje x, eje y, eje x, ellos desplazamiento eje y, un amortiguador que Y vamos a ejecutar esto y ver la salida. El diagrama de dispersión por MPG de ciudad versus desplazamiento del motor por compañeros de clase y tipo Esto es para automático, automático y manual. Todas esas cosas que podemos ver. Siguiente es que incluso pondré el histograma facetado ciudad MPG distribución para cada tipo de tipo Entonces aquí, lo mismo, XXS ciudad y el derivado tipo y geom subrayan histograma en el que darán al título blanco, color de ojos blanco y tema minimal y fester Y aquí Reporta el tipo tipo, y luego ejecutaremos e imprimiremos el I'm time. Vendrá así. Entonces este es un histograma festivo, distribución MPG de ciudad, Tubería seca. Esta es la ciudad Kilometraje y esta es la frecuencia. Y es por eso que la pipa seca, ¿es así? Bien. Entonces, lo que tenemos mucho tiempo en este pequeño proyecto, en estos ejemplos, aplicamos los datos de formación de piedra y resume algunas técnicas, como calcular la evidencia ciudad MPG por número de cilindros y usar agrupaciones para crear una Y también aplicamos para resumir y usar boxplot y medula la Distribución Absolutamente MPG para cada tipo driver Al aplicar que no forma. Resentir a alguien no es técnicamente, puedes descubrir patrones, tendencias y adolescentes si están en los datos y hacer que sea más fácil dibujar algunas ideas significativas del conjunto de datos del Del conjunto de datos del mundo real. Recuerde que ggplot2 ofrece diversas funciones y flexibilidad para realizar cada lección más determinada Por lo que es libre de explorar y personalizar el plásmido según su necesidad de análisis. Entonces este es un proyecto simple de plomeros y luego alguien algunas técnicas sobre datos del mundo real que MPG Así que hemos visto 110. Conceptos básicos del proyecto 7 Parte 2: Hola y bienvenidos de nuevo. En esta conferencia vamos a utilizar sentencias condicionales y Filtrado de Datos en la trama GD Bien, entonces ggplot2, podemos usar declaraciones condicionales y nuestro primer enlace de datos para personalizar nuestras parcelas en función de esta condición específica o subconjuntos Cualquiera que sea el requisito se basará en eso, puedes hacerlo. Esto le permite crear visualizaciones más dinámicas y perspicaces Entonces en esta conferencia también, vamos a continuar con el conjunto de datos MPG, que es el dataset capaz de tarjetas, modelos y su Kilometraje y otras cosas diferentes Bien, Así que estoy predicando no para demostrar cómo usar declaraciones condicionales y Filtrado de Datos ggplot2 Entonces lo primero que escribimos el ggplot2. ¿Bien? Y luego cargamos ese conjunto de datos, es decir MPG dataset Did MPG conjunto de datos. Y luego crearemos nuestro diagrama de dispersión, ciudad versus MPG de carretera con color hecho en el tiempo de manejo Así que sí, eso va a crear nuestra variable. Eso es la gráfica de guión bajo de dispersión. Y aquí voy a usar el dígito ggplot2. Y aquí el conjunto de datos es MPD, lo hace estética, fuentes, y voy a pasar CD y por qué carretera y Color hicieron bajo la dirección del Dr. Greg. Bien. Y luego punto geom funcionalmente o para dibujar el punto en la Parcela Y luego los laboratorios funcionan para dar los nombres a los proyectos que existían, MPD, eje y, autopista, MPG, NBA título de la gráfica de dispersión Vamos con diagramas de dispersión a TMP versus MPG de carretera con el color rojo en el tipo de drapeado Y luego vamos a tema va a utilizar el mínimo, y vamos a imprimir el diagrama de dispersión. Entonces déjame en esto. Ahora estamos obteniendo un diagrama de dispersión que nos muestra el CT versus MPG de carretera basado en el tipo seco Entonces estos, estos son los ejes x reales teniendo MPG de ciudad, eje y es MPG eje y es Y los kilometraje cosiendo a base de la pipa seca. Entonces este color, los colores están balanceando la tubería seca. Bien, entonces este es el diagrama de dispersión que hemos dibujado. Ahora bien, lo que hacemos a continuación en esta gráfica de dispersión básica, todos los puntos de datos o ver a alguien con diferentes colores pero bajo papel seco Ahora, agreguemos alguna declaración condicional y Filtrado de Datos para personalizar aún más la trama. Entonces ahora esta trama son puntos de datos con los diferentes colores enterrados bajo el tiempo de manejo. Ahora usaremos nuestras declaraciones condicionales y el Filtrado de Datos para personalizar la trama. Para lo primero, lo que vamos a hacer, vamos a crear un diagrama de dispersión con puntos condicionalmente coloreados dentro del MPG de la ciudad Entonces aquí definiremos el umbral de velocidad Kilometraje. Eso es ciudad subrayado embriogénesis llamada umbral. Este es el lema o lo que sea ANA prueba todo valor que nos estoy dando 20. Entonces ahora gráfico de dispersión con punto condicionalmente coloreado. Cuando nuestra ciudad MPG toca todo lo que estamos definiendo aquí como 20 Así que GG plot, la función estética del conjunto de datos. Lo mismo. Accediendo a DY es hola Rick y Color aquí es CD. Y real dando la prueba o menos, mayor que el cesionario que esos puntos sólo quería punto D mayor densidad y densidad Y eso va a predecir como todo lo que actualmente es distrito fuente mayor que cantidad. ¿Bien? Y luego función de punto geom, y luego estamos leyendo escala subrayado colon subrayado Y aquí estamos dando los valores para los colores rojo y azul y las etiquetas nos dan por debajo del umbral y por encima del umbral. Entonces, en base a que si es mayor que, relativo a, estará por encima del umbral y menor de 20, estará por debajo del umbral. Y luego la función de risa que estamos usando para dar hecho llamado así por la Parcela y todo. Bien, entonces déjame dirigir esto. Bien, estamos recibiendo algunas cartas. Aquí. Estamos recibiendo algún error. Problema mientras se computa la estética. Sumar un jardín de primera capa llamada YLL objetos ciudad y se vende No quiero agosto, perdón, no he ejecutado esta variable. Entonces ahora tenemos. Entonces déjenme otra vez. Entonces mira aquí ahora estamos obteniendo este diagrama de dispersión con viento condicionalmente coloreado basado en el City MPG Entonces estos puntos azules están por encima del umbral, eso es actualmente. Y los puntos rojos están por debajo de prueba sobre ese MPG de esta ciudad, menos de 20 Genial. Entonces ahora el MPG de ciudad del eje x, el eje y es de mayor energía. Los puntos azules representan el valor por encima del umbral que actualmente son los concesionarios de MPG de la ciudad Entonces por encima del valor umbral, loop wipes y milo nuestro swing como un, bien, Así que esta es una condición que hemos aplicado Lo siguiente, qué haremos en este ligamento que expliqué un poco más En esta gráfica, utilizamos la función estética para mapear la velocidad estética del color mayor que el valor umbral MPG de ciudad que es mayor que Bronte, condición lógica rígida de que se especifique la evolución verdadera o falsa en función de si el MPG de ciudad está por encima o por debajo ese umbral El color, escala o escritorio o colonoscopia funcionan mal aquí para servir los colores personalizados a los puntos por encima y por debajo del pterosaurio junto con Lo siguiente que vamos a hacer, vamos a usar ese Filtrado de Datos creará una gráfica de dispersión con Filtrado de Datos respetar la vida útil Los datos de filtro para un tipo específico de Dr. Fred. Por ejemplo, F4, tracción delantera. Bien, entonces aquí necesito una variable y la asigne como F, esa voluntad con una tracción delantera lejana Para que juegue tracción delantera y libremente Dios, trama dispersa en este valioso alquilato Y voy a usar la función GG plot y un asesor de datos, MPG Y aquí voy a dar MPG y dipolo-dipolo definido como un tubo seco dipolo-dipolo definido como un tubo seco que es tracción delantera. Aquí pasaremos el conjunto de datos a la función GG plot. Estoy especificando que a partir de este conjunto de datos se incrusta como si quisiera tomar dipolo-dipolo Lo hacen datos que están teniendo el tubo seco como tracción delantera a MPG Dollar DRE es igual al tipo de tracción, que será la tracción delantera Y entonces la función estética pasará X es igual a CT. Y por qué corrí color basado en el tiempo de manejo y todas las demás cosas. Punto de subrayado Geom desde algún lugar suelto hasta Plot y función de lote y laboratorios Y luego vamos a tratar de correr esto y ver como las parcelas pueden ver este ya sea diagrama de dispersión, ciudad MPG fue esta carretera, MPG para tracción delantera Entonces este es el diagrama de dispersión para el CD. Y pongo mi pequeño auto que están teniendo tiempo de tracción delantera Bien, entonces ahora puedes comparar, bien. Entonces en esta gráfica para usar el archivo de datos en Procreate stack scatter plot solo para un tipo de tipo específico que es tracción delantera sustituyendo el conjunto de datos MPG, donde hemos hecho la Sustitución aquí, Los datos son iguales a MPG, MPG Procreate stack scatter plot solo para un tipo de tipo específico que es tracción delantera sustituyendo el conjunto de datos MPG, donde hemos hecho la Sustitución aquí, Los datos son iguales a MPG, MPG dólar, dr. V es igual a la preparación en seco. Así que aquí hemos tomado el subconjunto del conjunto de datos del conjunto de datos MPG Y eso es un proyecto de subsidios basados en el tipo seco que es de tracción delantera Por lo que hemos tomado los datos uno para Dodge vehículo daños vehículos, que están teniendo tracción delantera y luego para dolt tracción delantera modelos de autos, hemos comparado la ciudad mi ligando híbrido Millaje usando la condición MPG para Dodge vehículo daños vehículos, que están teniendo tracción delantera y luego para dolt tracción delantera modelos de autos, hemos comparado la ciudad mi ligando híbrido Millaje usando la condición MPG dólar, dr. V es igual al saltador tipo buceo. Demostrar cómo usar la instrucción condicional y el Filtrado de Datos en ggplot2 para crear visualizaciones más personalizadas y perspicaces Lo siguiente que haremos será usar el color, personalizando Escalas de Color y leyendas personalización de escalas de color y leyendas en ggplot2 le permite mejorar las representaciones visuales de los datos y hacer que su trama sea más informativa y Puede personalizar colores, etiquetas, cortes y otros aspectos del color, la escala y la leyenda para que coincidan con su visualización y lista específicas. Sigamos usando la trama GG. Cómo personalizar Escalas de Color y leyendas y trama agitada Entonces usaremos la biblioteca de parcelas GG aquí. Así que vamos a ejecutar esto. Usaremos los datos Datos, conjuntos de datos MPG para cargar el conjunto de datos que es el conjunto de datos MPG Después crearemos una parcela de dispersión ciudad MPG, autopista. Mpg. Mpg significa MPG. Bien. Espero que sepas, te expliqué antes también con color basado en tipo, tipo. Bien. Entonces eres GG parcela a MPG es que no excusa estética de alguien proyecto directamente carretera y Color y unidad y Color y Y lo mismo que hemos hecho antes. Así que vamos a ejecutar esto. Este es el diagrama de dispersión que estamos obteniendo Bien. Entonces, el amigo con tracción en las cuatro ruedas de cortina real conducida para la tracción en las cuatro ruedas es roja, azul es la tracción trasera y la verde es para la tracción y la verde Bien. Ahora, en esta gráfica de dispersión básica, todos los puntos de datos se juran con diferentes colores basados en el En GG plot para asignar automáticamente colores y crear una leyenda Ahora, el color personalizado y las leyendas intentarán dar así que los colores personalizados crearán una variable. Los clientes subrayan los colores y crean un vector. Aquí. Creará un vector y el amarillo dará lo que dará F. Azul para nuestro asignará lectura y para cuatro asignará hacer. paseo marítimo de Queens conducirá, será azul, tracción trasera, será rojo y pobre se desviará, será verde Y luego crearemos el diagrama de dispersión con Dios. Déjanos Galeno leyenda, así que aquí se llama guión bajo personalizado, colores bajos dispersos y eso se Esta gráfica de dispersión, vamos a crear un diagrama GG, su conjunto de datos igual, y salir de la carretera. Y aquí color basado en la unidad. Y entonces la función de punto geom será enorme para trazar los puntos Y luego usaremos el color de subrayado Gayle y sí viene manuel para asignar el color que hemos creado Y vamos a dar Valores es igual a colores personalizados esto. Y luego crearemos el diagrama de dispersión. Así que vamos a ejecutar esto. Ahora. Nuestro diagrama de dispersión con los colores personalizados que hemos definido viene aquí. Así que el verde es para la tracción en las cuatro ruedas, Bluish para la tracción delantera y el radio para la tracción real y real Lo siguiente es, o lo que hemos hecho en, permítanme resumir. En esta gráfica, usamos la escala de colores subrayado dos puntos hace función de mandamiento para establecer el color personalizado para cada tipo de tipo Definimos colores de subrayado personalizados como un vector con nombre donde los nombres que representan la unidad Tipos allí, vanguardia impulsará RPA en el mundo real maduro, y 444 Y los valores representan los colores correspondientes. La escala y la escala. El color de subrayado sí viene. La función manual nos permite mapear los colores personalizados a la estética del color en la parcela. Lo siguiente que haremos, intentaremos agregar leyendas y etiquetas personalizadas. Niveles de leyenda personalizados con derecho a proscritos. Así que disemina la gráfica con la leyenda personalizada y el nivel que vamos a crear. Así que aquí función de trama GG, MPD, salida estética TY, CD Por qué autopista y elaborar sobre el tipo, tipo, punto geom para trazar el punto, escala, color de subrayado, subrayado manual para dar los Entonces los alergólogos llaman para ver. Ahora que ya lo hemos hecho. Entonces aquí agregaremos etiquetas y él o C crearán tracción delantera, la tracción de los codos y asequible, madura Entonces aquí se nos da. F será reemplazado por rueda delantera, será real y cuatro serán de 4 vías Y luego le daremos al Dr. tipo. Y entonces y después la función Risa utilizará para mantener los nombres. Bien, entonces déjame dirigir esto. Nos vemos hoy en día, el swing se produjo para la F, impar y 40 destruyéndonos el trabajo directo ya que la rueda delantera terminará de verdad Así que de esta manera podemos personalizar las leyendas, ¿de acuerdo? Entonces en esta trama utilizamos el argumento de niveles aprendidos. Una partitura es el color de subrayado de escala y la función rus por minuto para guardar los niveles del disfraz, para los Landry también usan el argumento name para proporcionar nuestro título personalizado para la leyenda Entonces este es el argumento name que hemos utilizado para darle el nombre personalizado a la leyenda. Entonces aquí viene, tipo correcto. Bien. Entonces espero que hayan entendido cómo podemos usar la declaración condicional y Filtrado de Datos y cómo podemos personalizar las habilidades de color y leyendas 111. Crear gráficos interactivos con gráficos y ggplotly: Hola y bienvenidos de nuevo. En esta conferencia con quienes vamos a crear tramas interactivas con complot y ggplotly. Así que las bibliotecas plotly y ggplotly usaremos para crear Bien, Entonces, ¿qué es ggplotly? Ggplotly nos permitirá ggplotly una función que nos permitirá convertir lote que hemos creado GG Hemos nombrado manera interactiva. Así que cualquier parcela que haya creado con ggplot2 se puede convertir en gráficas interactivas usando plotly y ggplotly. Ggplotly. ¿Bien? Por lo que la creación parcelas interactivas con plotly y ggplotly en nuestro le permite mejorar sus visualizaciones con sus visualizaciones Y muchas más características. Plotly es un paquete R que convierte ggplotly en gráficos en visualizaciones interactivas basadas en la web ¿Bien? Entonces Plotly es otro paquete que vamos a ti. Para que puedas instalar parcela. Bien, así que para instalar puedes ir a las herramientas y dar click en Instalar Paquetes. Y luego aquí solo buscas Plotly, da clic, selecciona eso, y luego haz clic en Instalar, y se instalará Ya lo tengo instalado, así que no voy a volver a hacerlo. Y para comprobar esto instalar diferentes densidades. ¿Bien? Entonces lo estoy cancelando. Puede hacer clic en Instalar si no está instalado ya. Bien. Así que vamos a UGG ggplot2 y plotly biblioteca en esto, bien, paquetes en esto bien, Entonces lo que voy a hacer, lo que voy a hacer. Te voy a guiar paso a paso para crear tramas interactivas con plotly y ggplotly. Bien, Así que los primeros templados instalan y cargan las bibliotecas necesarias. Como ya sabemos, hemos visto cómo podemos instalar. Entonces déjame cargar estos para apalancar esto primero. Entonces, una vez que estas dos bibliotecas se cargaron, siguiente paso es una buena gráfica de datos GG, usted ggplot2 plot Bien, así que comencemos creando una gráfica GG básica para trazar usando MPG ese conjunto de datos mtcars que ya hemos visto Bien, entonces cargue el conjunto de datos MPG, pero no obtuvo una función. Cargar. Y luego crearemos un diagrama de dispersión, un diagrama de dispersión simple para crear una dispersión de guión bajo de gráfico GG variable Y voy a usar el ggplotly. Wong Sun ha utilizado el conjunto de datos MPG. Y luego usaremos la función estética, eje x, sprint y eje y y trazaremos el kilometraje de carretera y luego colorearemos rojo en la clase de la función de punto geom Reagan que usaremos para trazar los puntos y estanques de laboratorio y usaremos para dar el nombre para el eje x en ellos desembolso L e Y existe MPG de carretera y el título de la gráfica de dispersión será diagrama de dispersión luego colorearemos rojo en la clase de la función de punto geom Reagan que usaremos para trazar los puntos y estanques de laboratorio y usaremos para dar el nombre para el eje x en ellos desembolso L e Y existe MPG de carretera y el título de la gráfica de dispersión será diagrama de dispersión, Y luego tema sin embargo vamos a utilizar tema mínimo. Y luego imprimiremos el diagrama de dispersión. Así que vamos a imprimir este sencillo diagrama de dispersión que no le hiciste a ggplot2 Entonces mira, ya ves aquí esta es la gráfica de vértigo simple, esas gráficas de dispersión dibujadas entre un desplazamiento del motor versus MPG de carretera ¿Por qué clase de vehículo? Entonces clases radicales aquí, compacto biplaza, mediano, yo, minivan, pick up, subcompacto, un Entonces estos son los diferentes, diferentes colores para cada clase. Y aquí en el eje x estamos lanzando el desplazamiento, ¿de acuerdo? Y luego en el eje y estamos viendo el MPG de carretera. Entonces esta es la trama de dispersión simple. Esto no es interactivo ¿verdad? Ahora. Quiero hacer esta Gráfica, hacer que esta gráfica de dispersión sea interactiva cuando pase el cursor Entonces algo, bien. Entonces los Valores, lo que cada punto y todas esas cosas puedo hacer clic en junio, puedo manejar todas esas cosas que quiero agregar a nuestro scatter, volvernos más interactivos para que podamos interactuar con el diagrama de dispersión. Entonces para hacer eso, usaremos, convertiremos esta trama GG parcelas interactivas de Plotly. Y para ello, haremos el ggplotly Interactivo usando la función ggplotly Esta función es muy importante para convertir cualquier gráfica GG, trama DG para funcionar, perdón, en Entonces, ¿va a funcionar ggplotly desde el paquete Plotly, bien, y luego convertir trama digital a la trama interactiva de Plotly Lo que voy a hacer, voy a crear una variable aquí, simple interactuar para subrayar la trama Simplemente cualquier nombre que puedas dar aquí, y luego descargar la función ggplotly Aquí tenemos parcela UGG. Ahora, vas a ggplotly. Y voy a pasar el diagrama de dispersión, que los datos que hemos creado usando la gráfica GG para. Entonces, a menos que sea pasivo a la función ggplotly. Y luego solo voy a imprimir estas tramas interactivas. Así que simplemente pasando a este ggplotly, esta gráfica de dispersión simple se convertirá Funciona, convertida en una trama interactiva. Entonces veamos si esto está pasando o no. Ahora puedes ver aquí esta gráfica de dispersión En den desplazamiento versus autopista MPG por vagal La trama es tema, pero siempre que estoy rondando sobre cualquier punto, está mostrando los valores correspondientes a ese punto Al igual que para este punto, el desplazamiento es 1.8 carretera, MPG es un 36 Y clase de la lista sub-compacta. Si vengo aquí desplazamiento 1.837 clase compacta. Y si llego al rosa, estos desplazamiento 2.5 híbrido 27 y clases SUV para esto. Bien, así que mira aquí, es bastante genial que ahora la simple scatterplot, simplemente pasando por alto esa trama a los fondos ggplotly y retiro, la conviertan en unas hermosas parcelas interactivas. Aquí. Aquí podemos elegir el C. Cuando estoy dando clic en C, no tiene sentido ser sonya Porque tengo esto seleccionado, deseleccionado Entonces seleccionaré biplaza. Entonces mientras que los ferrocarriles biplazas serán sonia si quiero agregar compactos Así que voy a volver, haga clic en compacto y compacto. Se podrá acceder a los puntos eliminados. Ahora bien, si hago clic en tamaño mediano y están Missing Card Scheme minivan, sabíamos que corrí puede llegar a ser de manera lo que quieras analizar, puedes agregar, si quieres eliminar eso, incluso simplemente deseleccionar y se hará Entonces este es el interactivo con el que se ha agregado simplemente pasando el diagrama de dispersión al ggplotly Y es, es bastante sencillo y bastante frío aquí puedes ver tu descarga la trama como PNG. Esta opción también ha llegado aquí. Entonces tenemos a la Duma. A menudo podemos hacer clic y podemos hacer esto. Ves aquí esta diversas opciones vienen aquí para prohibir, prohibir, prohibir así. Y se puede analizar esta es la banda punctum. Después tenemos la casilla seleccionada. Podemos seleccionar un viento en particular aquí y se pueden analizar aquellos puntos que se recogen serán resaltados. Lo siguiente es que podemos Lasso Select Puedes seleccionar así de la manera que quieras seleccionarlo y seleccionar si quieres seleccionar solo una cosa en particular puedes seleccionar aquí. Entonces estas cosas interactivas se han agregado, piensa que se ha agregado con solo pasar la función de color de la gráfica de dispersión Plotly. Podemos apagar eso. Y podemos poner a Jermaine. Y luego dijeron Texas. Y luego tenemos la subtrama. ¿Bien? Así que de esta manera, bien, entonces ahora estamos anestrus, pero simplemente pasando el diagrama de dispersión a ggplotly función, se creará un Ahora la gráfica GG a gráfica de dispersión se ha convertido en una gráfica interactiva con plotly. Y puedes interactuar con él usando tu mouse y apuesta holandesa. Puedes pasar el cursor sobre el punto de datos que ya hemos visto y ver que se ve y humor o tono Tips y Jermaine y tu banda bucal Plot y muchas cosas más que ya hemos hecho Ahora, vamos a hacer un poco más de miosina en caché a esta trama. Entonces esto otra vez, bien, Así que esta es la trama, trama interactiva que hemos creado. Ahora haremos la personalización adicional. Así que ahora podemos personalizar más Trazados Interactivos usando la función Plotly. Por ejemplo, podemos modificar el impuesto de Harvard solo en el color y agregarle más anotaciones . Entonces hagámoslo. Entonces nosotros, lo que vamos a hacer, vamos a personalizar la trama interactiva. Hasta el momento esto creará una variable Gráfica de subrayado interactivo, guión bajo Este es el nombre de parcelas interactivas del cliente que puede dar. Y aquí, usaré el Interactivo para trazar que tenemos aquí. Y usamos el diseño sol. Y dentro de la maquetación, lo que podemos dar, podemos darle al título personalizar. trama interactiva será el título, título del eje x dará el desplazamiento del motor en informe de soporte. Sí. Lo siento. Y el eje y pondrá la lista de salida de leyenda MPG de carretera Y será la clase vehicular y el pasillo y modo serán los mejores. Entonces déjame correr esto y esto creará la trama interactiva de desaparición, y vamos a imprimirlo Entonces ahora puedes ver aquí el eje x, puede predecir que se estrelló mi trama interactiva Y aquí se puede ver los puntos siendo canción. Podemos hacer una banda así. Puede seleccionar la casilla seleccionar. Te refieres a tu boca. Todas esas cosas podemos ir. En este ejemplo, fuimos a dividir los ejes y niveles de título y título de leyenda. ¿Bien? Entonces, al usar plotly y ggplotly Function, Plotly empaqueta y ggplotly fondos en donde puede crear y soltar fácilmente Gg plot a Plot, facilitando la exploración y comprensión de sus datos. Entonces espero que hayan entendido a los alumnos en la próxima conferencia. 112. Introducción a las características Plotly y clave: Hola y bienvenidos de nuevo. En esta conferencia, vamos a aprender sobre Plotly, y es gratis Sólo. So Plotly es una biblioteca de código abierto que permite a los usuarios crear lenguajes de programación de práctica interactivos, de alta calidad , cargados y ritualizados, no solo en mi Plotly está disponible en Python, R Entonces Python y dinos Control para que puedas usar plotly. Y aquí. Además vamos a aprender sobre Plotly. Plotly ofrece una amplia gama de tipos de gráficos desde la gráfica de dispersión básica hasta tipos de gráficos desde la gráfica de dispersión básica esencia 3D compleja y ver cómo podemos ahora regionalizar y 3D Anna, cómo podemos Así que echemos un vistazo a las interrupciones y arriba Plotly y Características Clave Lo primero es interactuar con la visualización del tractor. Así que complazmente nos permiten continuar con ella. Lección interactiva, capacidades interactivas no ferrosas. Permite a los usuarios interactuar. Vamos a trazar y dos, entrar y salir fan hall o puntos de datos para ver los detalles y activar y desactivar la serie de datos. Entonces estas son las características clave y eso te da una interactividad puntero con las parcelas y similares Interactuar con los gráficos. Muéstrame tu boca. Prohibición cargada, pasando el cursor sobre el punto de datos para ver el problema de los detalles, los datos CDJ encendido Estas interacciones facilitan la exploración y análisis de datos de una manera intuitiva. Entonces eso es lo mejor de complot que se obtiene, hace que la vida gráfica esté en pista con trato Entonces, y lo siguiente es fácil de usar. Apa o CLI proporciona un simple APA de cualquier uso UCR para crear lo que su licencia Con algunas líneas de código. Se puede generar Josh complejo e Interactivo, convirtiéndolo en uno de los favoritos entre los científicos y analistas de datos. Entonces ya que es bastante sencillo de usar tan popular entre las tácticas de Lección de Ciencia de Datos. Entonces, dado que traza el nivel láser en nuestro telescopio y por Thomas, bastante popular, múltiples lenguajes de programación, esa es otra característica clave de plotly. Plotly soporta múltiples lenguajes de programación, incluyendo Python y JavaScript. Esto permite trabajar con su lenguaje de informes y cambiar entre ellos sin problemas. Para diferentes tareas. Chart Plotly admite una amplia gama de tipos de gráficos, como gráficos de líneas, diagramas de dispersión, gráfico de barras, histograma de Josh, probablemente gráficos 3D, coropletas, coropletas Proporciona flexibilidad y versatilidad en el radio ritualizante Tipos de radón Entonces Plotly también proporciona visualización basada en la web. Plotly, basado en la web, lo que significa que puede fácilmente gráficos interactivos y tablero en línea e incrustarlos en aplicaciones web Poros prácticos. Así que Plotly en realidad te da la opción integrar tus gráficos y paneles de Plotly. Ahora, eso lo incorporamos en los reportes. Eso es más que una aplicación web con Plotly dash, solo puedes crear aplicaciones web interactivas y eso es para Data Haga clic en la Visualización de datos. Haciéndola poderosa herramienta para construir aplicaciones basadas en datos Hay pocas sustancias rentables en realidad, en parte, en parte, en parte, ofrece una amplia gama de opciones del cliente para adaptar la apariencia de cargado de acuerdo con un requisito específico Simplemente podrás personalizar colores, etiquetas, fuente, estilos y Regresión, y mucho más. Animación y ggplotly soporta animaciones y transiciones suaves. Wechat muy útil para visualizar tintados en datos Al explorar diferentes estados de mayor exportación, el agricultor ggplotly se da cuenta de que se puede exportar a varios formatos como PNG, JPEG, SVG, PDF en él, e incluso GIF animados No se podían subir grandes presentaciones y documentos. La integración con otra biblioteca de también bastante posible en parte Plotly se puede integrar fácilmente con otras bibliotecas de lecciones de análisis de datos y teoría como pandas en mi lengua, RTT ggplot2 en R. Esto permite, que acaba de tomar combinar la Entonces estas son las características clave de Plotly interactivo religioso NADPH, APA Múltiples lenguajes de programación admiten cada tipo de datos compatible con aplicaciones basadas en la web. Apoyarla de la mejor manera. Que deportes y aplicaciones web. Mis animaciones y transiciones. Ploly es ampliamente utilizado en ciencia de datos, inteligencia de negocios y recursos científicos y varios otros dominios Troclear, intuitivamente atrayente e interactúan Bien, entonces en la próxima conferencia, empezaremos a hacer las manos con el bloqueo. La siguiente conferencia. 113. Trabajar con Plotly: Hola y bienvenidos de nuevo. Entonces en esta conferencia vamos a caminar complacido, vamos a crear Plotly usando Plotly En la conferencia anterior, hemos visto la introducción a Plotly se ven cuáles son las características, cuáles son las tramas que podemos hacer usando Plotly Entonces en esta conferencia haremos las prácticas. Entonces he escrito algún código para ti y te voy a explicar y moriré ejecutar el código y luego veremos cuáles son las cosas que podemos hacer con el Ploly. Algunas de las cosas como van a crear este 3D Plot usando Plotly. Entonces esto es bastante interesante y te cuento cómo podemos trazar estos tres gráficos de dispersión 3D. Bien, entonces estas son las pocas cosas que vamos a hacer en esta conferencia. Bien, así que comencemos esta conferencia. Y las cosas han tomado del sitio web de RStudio rpubs.com y referencias Así que comencemos. Plotly es una gran herramienta para crear hermosas parcelas interactivas Esto se puede trazar usando el paquete Plotly así como usando TD Entonces podemos hacer con cosas que solo podemos trazar con la trama, o también podemos usar la trama GG junto con Plotly o también podemos usar la trama GG junto con Plotly Para ello, necesitamos librerías Plotly y DD ggplot2. Entonces ya lo tengo instalado, así que solo lo ejecutas. Y entonces aquí voy a usar el conjunto de datos del Medio Oeste que está fácilmente disponible con el paquete RStudio are Entonces déjame mostrarte cómo se ve esto. Entonces déjame poner Control Enter. Verás, sí, este es el conjunto de datos que vamos a enorme Medio Oeste, Ok Entonces hay un PID entonces país, estado, área, población, población total, densidad poblacional, población amplia población, negro, meridiano pop, pop, antiguo, otro Pero, ¿por qué negro? Entonces, aunque cada columna está ahí junto con D, cada columna luego agrega más variables y todas están en variables en inglés. Vamos a ser los complots, ¿de acuerdo? Entonces este es el conjunto de datos. Entonces como país, un área estatal, Población Total, ¿todas esas variables están bien? Eso lo decía la gente. Bien. Entonces ahora reutilizamos estos datos para trazar. Entonces primero lo que voy a hacer, voy a usar la función Plotly, trazar guión bajo Y por qué función Plotly para crear una gráfica para este LPA, pasar este Dataset Midwest y eje x, voy a clase de parte enorme, pero la clase es un Dataset, columna de Datos aquí, variable Pero Clark College, ¿de acuerdo? Y Colorea y usa el estado oculto y la caja Tipos. Voy a crear una parcela de caja aquí. Trama por ciento con educación universitaria, lo apresuró por ciento universitario educado por Para trazar esto. Entonces mira aquí este es el boxplot porque tipo que hemos dado aquí como caja aquí Al hacer clic aquí, puede ver ese mínimo primer cuartil, mediana, tercer cuartil , barda superior Y se puede ver el valor máximo, esas cosas. Entonces de esta manera, podemos crear rápidamente boxplot, 4% universitarios educados paso a paso ¿A cuánta gente se está educando? ¿Colegio? Declarar que esta es la trama de caja, ¿de acuerdo? Ahora intentaremos poner algunas Parcelas básicas usando Plotly. Para ello. Lo que quiero hacer, lo que quiero crear una parcela básica directamente usando plotly o podemos UGG trazar dos también Así que aquí, UGG ggplot2 también. Entonces aquí voy a usar el conjunto de datos irlandés que ya hemos visto. Entonces si quieres ver cómo esto en este conjunto de datos puedes poner iris de cabeza. Entonces déjame primero cargar esto. Entonces esto es que acabo dataset donde se puede ver la longitud del sépalo, la anchura del sépalo, la longitud del pétalo, la anchura del pétalo, y una especie Estas son las columnas o variables que tienen un nivel en este conjunto de datos irlandés. ¿Bien? Entonces, si quieres ejecutar esto, puedes ver, sí, bien. Lo siguiente es que volveré a usar la función LY de subrayado de trama, y el conjunto de datos será itis Entonces los datos son iguales a Iris, Xe, eje x y la longitud del sépalo y la longitud del pétalo del eje y ¿Bien? Entonces dibujemos esta mejor trama que viene así. ¿Bien? Así que en el eje x, longitud de punto simple, y en eje y, longitud de pétalo, longitud sépalo y longitud Y estos puntos se han dibujado. Entonces para esta longitud de sépalo y longitud de pétalo esposo trazó aquí. Ahora, con ggplot2, la misma parcela también se puede crear en ggplot2 y servir como un objeto Entonces la trama puede hacer, se puede hacer versión interactiva ggplotly, función Plotly. Tenga en cuenta que no todas las entidades funcionarán al usar ggplotly Así que a veces hay que hacer algún ensayo y error. ¿Bien? Entonces aquí, la misma gráfica de dispersión voy a tratar de trazar usando la gráfica GG y la gráfica que voy a crear una figura a donde la tienda en la figura a figura, para almacenar en la figura dos. Así que vamos a ejecutar esto ahora. Y yo aludió ggplotly para trazar esto. Figura dos. Bien, entonces déjame dirigir esto. Así que mira aquí, ahora, viniendo así, ¿de acuerdo? Lo mismo con la ayuda de y ggplotly. Nosotros hemos trazado. Al ser capaz de Trazar ggplotly a. Puedes personalizar la Parcela de la misma manera que puedes con ggplotly Mira los nombres comunes de las columnas. Entonces, si quieres promocionar el nombre de la columna para el conjunto de datos Iris, simplemente puedes ejecutar esto. Ve los nombres de las columnas que ya hemos visto, ¿no? Hay cinco puntos de columna por especie. Entonces aquí ggplotly, datos, iris, estética, fuentes, y usaremos X, longitud sépalo, longitud de pétalo y Color es Entonces colorearemos los puntos por especie. Y luego usaré la función de punto de subrayado geom para trazar estos Y luego esta cifra a la que estamos sacando de la Parcela TG, voy a tratar de trazar con el ggplotly Bien, así que simplemente imprima esto y vea aquí, ahora tenemos el colorido diagrama de dispersión y donde este rosa que es verdoso para versicolor y De esta manera podemos por el color. Por lo que ahora también se puede ver que la especie aparece en el cuadro de texto a medida que pasa el cursor sobre ellas. Ahora está demostrando que pasas el cursor sobre ellos. Ahora está cosiendo la longitud del sépalo, la longitud del pétalo, y es precedida por Anika Al igual que y ggplotly, puedes personalizar el eje, el título y el Color, un sector aquí también Por lo que tiene trama GG. Lo que podamos hacer en la trama GG que hacemos aquí. Y luego pasaremos eso calculado lo valioso que es para la variable plot a la ggplotly Este objeto figura dos a la ggplotly y va a trazar, bien, así que aquí los diarios eje X y luego geom Dentro de la función de punto de subrayado geom, estética del mundo real y el color de cada trimestre es Precios y guardar también informe basado en la especie Bien. Y entonces la longitud del sépalo xlab, la longitud del pétalo y el título GG serán la longitud del sépalo, la longitud del pétalo. ¿Bien? Así que vamos a ejecutar esto. Ahora. Se puede ver aquí. Ahora los puntos también son muchos. Y para este versicolor viene en triángulo, y para este tipo, los puntos vienen al cuadrado igual Entonces esto se debe a que hemos utilizado especies separadas dentro de esa función de puntos Netskope humanos De esta manera podemos personalizar el eje, título y el Color también. Ahora crearemos un gráfico de barras básico. Entonces, para crear un gráfico de barras básico, usaremos data.frame Y aquí voy a crear un conjunto de datos de muestra aquí. Para este conjunto de datos, habrá tres columnas la próxima vez Y factura total. Entonces masculino, femenino será el sexo para este vector factor Alcatel, y luego el tiempo será el almuerzo, la cena. Ninguno para no estar bien. Los niveles serán almuerzo y cena, y la voluntad total, guardará algunas facturas aleatorias para aquí. Entonces déjame crear estos datos, activar este DataFrame primero Ahora voy a crear un gráfico de barras. Tiempo en el eje x Color Fill, grupo por sexo y enorme producción de subrayado dodge función aquí Entonces GG trama a voluntad enorme y datos a medida que vas a este, ese objeto que tenemos, algunos datos de entrenamiento que hemos creado. Y luego función estética eje X, vamos a poner tiempo eje y, voy a poner Crotonville, y voy a llenar con la barra de subrayado de sexo y geom Voy a utilizar apilado y poner identidad y policía, la policía y subrayar la función holandesa Y luego voy a crear otro objeto, figura cuatro, y voy a hacer pop Boston gráfico de barras G, ggplotly, ggplotly a, B, y luego imprimir la figura para C. figura cuatro, y voy a hacer pop Boston gráfico de barras G, ggplotly, ggplotly a, B, y luego imprimir la figura para C. Ya ves aquí. Ahora bien, este es el simple gráfico de barras. Bien, entonces comió y cenó. Dos cosas están ahí entonces este sistema para mujeres y este es para hombre o mujer factura total por comida para el almuerzo. Y esto es lo mismo para la cena. Entonces si quieres analizar como en el almuerzo de femenino, total será interfaz abstracta. Total. Nos encantan las rupias sostenidas y para la cena, las hembras que nos encantan la cisteína y MATLAB, rs17.17, 0.0 Entonces esto, podemos analizar que en el almuerzo, masculino y femenino, los gastos en almuerzos bastante diferentes Masculino, gasta más en el almuerzo para la cena. Incluso masculino y femenino. Esto, podemos concluir que para la cena compraron los gastos son casi iguales. Día masculino y femenino. Bien gastó lo mismo entre casi la misma cantidad de dinero en la cena. Pero cuando vienen a ese almuerzo, hembras, gastan menos en el almuerzo. ¿Y gastarán más en el almuerzo? Esto es lo que podemos concluir con base en este Gráfico de Barras. A continuación, usaremos el SF básico. Para ello, usaremos la propia biblioteca. Y para ello usaremos el objeto NCDs, SF, dos puntos, dos puntos, guión bajo leer la función de archivo punto del sistema será el suyo y sin embargo revisar SIP barra NC punto SHP y paquete será SF y SHP y el paquete será SF y bastante igual a true Y luego crearemos un objeto figura tres. Y ggplotly, realmente enorme y ggplotly. Y pasaremos a este suboc. Objetarse a ggplotly más geom subrayado seguro. ¿Subraces fuentes SF y revisas? Y tenía formas estéticas y religiones como ésta. E iremos a llenarlo por área. Así que vamos a trazar esta sencilla parcela de superficie aquí. Entonces ahora estamos consiguiendo esta superficie. Puedes ver aquí sobre el eje x y el eje y. Entonces en grado. Y se puede ver la etiqueta en reposo de diferentes maneras. Entonces de esta manera podemos apalancar para trazar. Lo siguiente es que también podemos poner los mapas para esto. Yo soy tu Zynga. Eso es para febrero, nosotros y el tráfico. Bien. Por lo que estos datos tomados de este sitio web directamente readaptados Estamos creando a partir de este sitio web Y este dato es Parte 21 de febrero, US Air Traffic dot CSV file. Así que vamos a almacenar eso en este DataFrame. Y luego usaremos intentaremos subir este tráfico aéreo en el mapa. Hasta ahora ese valor que estás estilizando. Entonces voy a crear un objeto G. G y alcance es EU El alcance de este mapa son nosotros proyectos y estas listas tipo proyectos y es tipo lista. Albert's USA. La tierra a través de la tierra será nuestro hijo. El color de la tierra será a RGB y usaremos el gris 95. Y sub unidad color será grandemente cinco país color será genial en cinco país con será 0.5 y sub unidad con azul 0.5. Entonces de esta manera podemos usar esto. ¿Bien? Y luego usaremos la función GO de guión bajo de trama para trazar esto en el mapa Hasta el momento estos están más allá del conjunto de datos como dF, este, el dataset CSV de muesca de tráfico del aeropuerto que pondremos aquí. Entonces latitud pondrá latitud y longitud pondrá equipaje todo el, estas son las dos cosas que vendrán de este conjunto de datos rodilla arriba. ¿De verdad es gruesa? Agregar marcadores y textos que pondrán aeropuerto, ciudad, estado, llegada. Y luego color realmente rico, símbolo, tamaño cuadrado. Pongo el cursor por los textos. Bien, entonces déjame ejecutar esta herramienta y luego olvidar el valor del color en enormes vuelos entrantes. Y para maquetar y usar el título, la función de diseño para maquetarlo. Y luego tratar de será la mayor cantidad de tráfico USA están bloqueados. Y luego lean sobre esto juntos. Entonces realmente trata de poner algo. Por lo que ahora viene ya que mayoría del tráfico nos sumamos puerto Hauer para aeropuerto Entonces aquí, cuando sí vemos ese vaso todavía Buck llegadas internacionales son 90, entonces obtienes llegadas o 100 a este pedazo de amigos que yo haré, 379. Así que puedes pasar el cursor sobre el mapa y puedes encontrar el centro de Australia Remington es para las llegadas número 26 para este país águila regional 292648 en 1998 al Aeropuerto Internacional de Salt Lake City Así que de esta manera podrás encontrar el aeropuerto más concurrido. Flux nosotros. Lo siguiente es que podemos trazar el actor racional crea. Lo siguiente es que podemos trazar el raster trash talk crea el mapa de calor coloreado con dos variables que actúan como la coordenada X e Y. Y tercera variable mapeado sobre el color. Para ello, usaremos el paso dos y Plotly. Para esto usaremos la función mágica y las usaremos mientras no podamos. Bien, entonces ahora GG traza a este conjunto de datos y valor estético1, valor2, y geom Rushton, relleno estético Los valores pueden llenar Destilador utilizará esta Escala de funciones y sensación Oscar. El pellet será la dirección espectral uno. Y esta función de rezago dará eje x oeste a este y eje y norte a sur, título y arenas Y luego vamos a tratar de trazar esto. Así que vamos a ejecutar esto y ver que después de haber sido hija, un mapa de elevación de enfermedades para Mongo mientras tanto Y esto se crea a partir de esto. Bien. Ahora, lo siguiente es que intentaremos trazar un diagrama de dispersión 3D del conducto renal Entonces 3D scatter plot para eso, voy a hacer los autos vacíos. ¿Bien? Entonces autos vacíos, un auto vacío, M igual a cero y M igual a uno. Esto se llama automático. Manual. Y luego aquí autos vacíos, factor de borde, tarjetas vacías am, y luego tratar de trazar usando guión bajo trama solo autos vacíos conjunto de datos que está incorporado en el are Realmente use X bar, WT, proyecto de borde de punto de acceso Wi-Fi para usted proyecto de borde de punto de acceso Wi-Fi enfermo para usted, color enfermo basado en AM y Color. Vamos a definir aquí también. Esto es para el color y los colores le darán color a esta plática. Y luego para el diseño se utilizará salida, empate esperar y eje y cruzar caballos de fuerza y obtener ejes serán 141 por cuatro millas Así que vamos a dibujar esta trama 3D. Entonces PUEDE saber que esta es la gráfica 3D, la gráfica de dispersión que hemos hecho. Entonces para esto, puedes ver entonces nuestro eje x, eje y. El eje Y es para caballos de fuerza brutos. Y el tercer exón, mi tiempo. Entonces cuando pasas el cursor sobre el punto, puedes ver 3.78 Y es uno en y Así que de esta manera podemos trazar las parcelas 3D y tan agradable y así modo. Entonces este es el eje x, eje y, y ese Card excesos ahí Así que Plotly empaqueta en otros más grandes para crear parcelas interactivas altamente personalizables, mapas, porque ya está listo para integrarse con la trama GG, la posibilidad y menos Bien, para que puedas hacer más ejercicios sobre esto y puedas practicar y puedes crear gráficas 3D mucho más interactivas, mapas y todo. 3D Parcelas, mapas y todo, bien. Así que esto es en un barco, Ploly 114. Creación de parcelas 3D en R: Hola y bienvenidos de nuevo. En esta conferencia, vamos a crear parcelas 3D en el arte. Así que les voy a dar a todos algunos ejemplos diferentes, diferentes en los que podemos crear parcelas 3D. Bien, Entonces primero, voy a usar la biblioteca Plotly y para este usuario correctamente Entonces no has instalado, puedes instalarlo. Así que lo primero que me encantó la librería plotly y luego voy a crear una muestra de datos mediante el uso de una no-función Entonces x, y, z, ya sabes, 100, 100 y el proyecto existe y usa al cuadrado más y al cuadrado ¿Bien? Entonces, pero esto va a conseguir esos tres. ¿Lo hace después? Ahora, quiero graficar estos tres puntos usando un diagrama de dispersión 3D. Usando Ploly. Para eso, usaré una función ondulada de subrayado de trama ampliamente no reclamada llamada x, obtengo x al cuadrado, eje y x e y y luego se celebra x Tipo será el modo 3D disperso serán los marcadores y armónicas y enorme tamaño de lista, voy a dar tres colores, me pagarán en el eje y y la escala de colores y ya terminaste con esto, Luego el diseño, usaré la escena y para la lista, proporcionaré una lista de los cuales contendrá el eje x, el eje y y el eje de chorro Y para eso, voy a dar el Título X, Y terminó. Si quieres, puedes poner existencia eje x, eje y, y esa x está bien Entonces estos tres títulos los voy a dar e intentaré, déjame correr esto. Entonces mira aquí, esta es la trama 3D bloqueada. Tenemos gráfico de dispersión 3D, tenemos gráfico de dispersión 3D. Estamos llegando, ¿de acuerdo? Entonces ahora puedes ver tu eje x, eje y, y este es el eje de chorro, de la manera que quieras Entonces C y ahora eje x, eje y que x es, estos son los puntos que hemos creado usando nuestro num se ha trazado en un diagrama de dispersión 3D Entonces eje x, eje y ese eje. Entonces, lo que sea que queramos analizar, esta manera, podemos crear un diagrama de dispersión 3D usando Plotly. Entonces déjame revisar de nuevo. He creado un dato de muestra usando nuestra función normal, punto del eje x. He creado nuestra norma de 100. El eje Y ya no son 400 y los valores x muertos son x e y. Y esta fórmula para obtener los puntos para la gráfica de dispersión 3D he usado Plotly y la función de onda cuadrada para el eje X AB producto X punto Y eje y indexación Y luego tenemos estas cosas, maquetación y marcadores. Y luego cuando ejecutamos esto, obtenemos este gráfico de dispersión 3D. Lo siguiente es pero SP, función SP más enlaces B. Y se puede ver en nuestra programación, así sintaxis BER SP, este es un nombre de función y necesitamos escribir ese 3.4 eje x, eje y muerto en este punto, necesitamos escribir como un parámetro importante de esta función como un parámetro importante de parámetros separados diferentes, x, y, y z con x e y son vectores que definen la ubicación a lo largo del eje x e y definen la ubicación a lo largo del eje x Y el eje muerto será la altura de la superficie en la superficie en el chorro de matriz. Entonces esta altura será la matriz todavía, ¿de acuerdo? Entonces, el valor de retorno para esta función SP será la transformación alada de métricas para proyecto en coordenadas 3D x, y en el plano usando coordenadas homogéneas, que serán x, y, z y t Entonces veamos el ejemplo de usar esta perspectiva de función pero SP. Entonces veamos el ejemplo de usar esta perspectiva de función pero SP Se puede decir patrocinador. Entonces como quieras, puedes llamar, yo lo llamo SP, sé patrocinador. Bien, entonces aquí quiero dibujar nuestro sencillo cono circular derecho. Entonces, para ilustrar simple cono circular derecho, creo un objeto aquí llamado y para esa función. Y luego pasar la función, función en Boston que voy a usar esta función de raíz cuadrada, x al cuadrado más y al cuadrado. ¿Bien? Entonces esta es la función para x valores x e y son secuencia suelta de menos uno a uno, retrasados mentalmente Y jet será el x exterior, y, y frío. Entonces este será el eje neto y luego trajo la superficie 3D, usaré la función de análisis x, y, y estos tres puntos, la pasaré a esto. Bien, así que vamos ¿Cómo va? ¿Te veo? Ahora bien, este es el cono circular derecho 3D que podemos crear usando esto. Así que aquí la secuencia de funciones de código de esfuerzo es pre-generar el vector de números igualmente espaciados y la función externa para aplicar la función maíz en cada combinación de x e y. entonces este es el cono circular derecho que hemos creado Ahora. Ahora mira un ejemplo más aquí. Lo que quiero hacer, quiero agregar los títulos y nivelar el acceso a la trama hasta el momento que este tema de la conferencia, entonces esto también será lo mismo. Ahora, trazo la superficie 3D y ahora vamos a jugar estamos trazando la superficie 3D mientras usa la función y pasar el punto x, y, z aquí Y después de eso, usaré CTO administrado, diagrama de perspectiva de un cono ¿Bien? Bien, Así perspectiva trama de un cono. Y luego git lab, voy a dar altura para eje jet, voy a dar un nombre como la altura y Theta fiesta ALX1, ¿qué es Y luego phi es propileno y el color es naranja. Y ver cual 0.4. Bien, entonces vamos a ejecutar esto y ver qué salida estamos obteniendo. Estamos obteniendo esta trama de perspectiva de trama activa de un cono. Entonces aquí X Lab 11 dead lift se puede utilizar al nivel, el nivel para nivelar los tres ejes. Y theta y phi son la dirección de visión. Theta y phi otro Windex y que estamos viendo. Entonces te tenemos el jueves y viernes, 1,245.15. Veamos qué cambia. Ver hoy en día. Se ha cambiado el ángulo ganador, ¿verdad? Puedes lograrlo. Veamos cómo está tendiendo. El ángulo de visión está cambiando, ¿de acuerdo? Entonces, sea cual sea el ángulo que quieras ver que puedas dar en theta y phi, si lo hago 4.560.45, veamos como viene y veamos este tipo de cosas así, ¿ de acuerdo Esto es T. Entonces vendrá así. ¿Bien? Tomar una decisión. Bien. Ahora, voy a usar, voy a decir para visualizar el sencillo modelo digital de elevación ellos. Bien, hasta ahora esto será de dos en volcán y genuino con diez en una columna y fila 10 m orientado de sur a norte. Y por qué te harán entonces en uno en alcohol y frío. Y tomará el jet y Danton se dispersará de oriente a poniente ¿Bien? Ahora, gran parte va a ser la función de grado y perspectiva. Usaré X, Y, w1, 35 y lucharé con todos estos otros ángulos Color marrón, piel cae, Theta uno menos uno Esto es para establecer y borde y luego falso. Entonces veamos cómo viene esto. Entonces mira aquí esto es solo un modelo de elevación digital Alpha. ¿Bien? Entonces así es como podemos crear gráficas 3D en R. Así que hemos visto cómo podemos hacerlo con la función de onda no descrita de Plotly plot. no descrita Entonces hemos visto como podemos usar para funcionar mas b función de perspectiva funcional, quieras, puedes llamarlo. Así es como podemos crear TV 115. Creación de parcelas interactivas con gráficos altos: Hola y bienvenidos de nuevo. En esta conferencia, vamos a crear Parcelas Interactivas con Highcharts Entonces hemos visto cómo podemos hacer eso con las otras bibliotecas. Y ahora vamos a hacer los Highcharts. Atrás está aquí. Y para eso, lo hicimos para descargar los Highcharts. Entonces solo vas a través los paquetes instalados y tal lo tenía para carta alta hace como puede hacerlo en polvo y descargarlo. Bien. Por lo que la biblioteca Highcharts será origen para esto Bien, entonces nuestro lenguaje de programación es ampliamente utilizado para estadísticas, visualización de datos y análisis de datos que ya conocemos. Usando la biblioteca Highcharts. datos de la biblioteca Highcharts están representados gráficamente en el software No sólo el significado, sino también se preparan gráficos interactivos. Bien, entonces veamos qué tipo de gráficos podemos preparar. Gráficos interactivos que podemos preparar con Highcharts, columnas, gráfico de barras, gráfico circular y gráfico de dispersión que Estos son los cuatro tipos de gráficos que puedes crear con los Highcharts Así Highcharts en Texas, bastante simple. Usaremos Gráfico X y luego pasaremos el objeto de datos, luego escribiremos, luego en Cases, los puntos X e Y, y luego color. Entonces objeto para representar el tipo de objeto de datos es el tipo de gráfico que desea crear en él consiste X e Y aprehender los Xs para representar los Lo que es importante y el Color representan ese trazado de colores, pero no se obtiene el valor que proporcione Así que el gráfico creará el gráfico interactivo, ¿de acuerdo? Y estos cuatro gráficos de columnas por barras, barras, gráfico circular y diagrama dispersión vamos a estar consiguiendo que no lo hizo. Esta es una sintaxis bastante simple de gráfico alto. Yo gráfico, es gráfico es la función. Y pasaremos el tipo de objeto de datos de la carta que queremos crear y Cases, será el eje X e Y y Color, pero lo que quieras darle color. Bien, entonces primero crearemos con el gráfico de columnas doc, o el gráfico de columnas muestra datos con categorías representadas por un rectángulo, a veces llamado gráfico de barras verticales también. Y las categorías suelen estar organizadas a lo largo del eje horizontal y valores a lo largo del eje vertical que conocemos. Entonces lo primero es importar la biblioteca que charters, So Lamport Entonces aquí lo que voy a hacer, voy a crear un dato simple, datos muestra para nuestro ejercicio. Entonces aquí voy a crear un vector que contendrá el nombre del país, América, India, Indonesia, Japón , Canadá, China y Brasil. Y su PIB. Por lo que el vector PIB creará y dará el PIB correspondiente al país. Y luego te daremos los datos, data.frame y país y entrega Entonces este será el DataFrame. ¿Bien? Entonces lo siguiente es trazar el gráfico de barras de columnas o el gráfico de columnas. Para ello. Almacenar eso en el objeto P1 y borde Gráfico funcional utilizar un objeto, bien, datos de punto, que contendrá el país y el PIB. Y luego escribe, quiero hacer un gráfico de columnas. Entonces voy a dar columna aquí. En Casos, voy a dar X. X es Voy a país y el eje y se llaman PIB y Color Quiero ponerle tasa impositiva. Si quieres que sea otra cosa también puedes darle verde. Bien, entonces déjame correr esto y mira aquí. Vea cómo es el hola Interactivo, este gráfico de columnas. Así que permítanme simplemente quitar estos y otra vez, cuando haga clic vea cómo está apareciendo y desapareciendo de una manera muy interactiva Entonces así es como podemos gráfico de barras, lo siento, gráfico de columnas. Usando el gráfico de columnas interactivo, puedes secuestrar. A continuación crearemos un gráfico de barras o gráfico de columnas, mostraremos datos con categorías representadas por el rectángulo, a veces llamado gráfico de barras horizontales. ¿Bien? Bien, así que vamos a crear un gráfico de barras aquí. Así mismo conjunto de datos voy a estar contigo. Después vea los datos de la vista. Si quieres ver tus datos, puedes ver el país y el PIB. ¿Bien? Lo siguiente es que quiero trazar un gráfico de barras aquí. Entonces usaré el objeto gráfico S, tipo de datos Bar, casos de borde, País, eje X, país y PIB del eje y Y no había leído. Bien, así que vamos a ejecutar esto. Ahora. Este es el gráfico de barras que estamos creando. Entonces esto es Gráfico de Barras Interactivo usando Highcharts, bien, así que mira cómo está apareciendo, ¿de acuerdo? Y cuando veas como lo sobrepasa, verás el país correspondiente y el PIB, ¿bien? A continuación, cada gráfico circular, gráfico circular o tipo de gráfico en que el círculo se divide en grupos que representan la proporción de categoría Los valores se dividen entre las diversas conferencias del círculo. Sectores las marcas de esa categoría. Entonces usaré el mismo conjunto de datos, ¿de acuerdo? E intentaré crear un gráfico circular. Entonces aquí voy a dar página web igual a pi. Todos, todo lo demás es igual solo tipo estamos cambiando aquí. Y el color, si quieres darle algún otro color que puedas dar, te voy a dar el gráfico circular. Así que mira cómo el gráfico circular interactivo ha llegado aquí. Entonces volveré a abordarlo, a ver cómo está apareciendo. Y para cada país, al pasar el cursor por encima, se resaltará China, Japón, Indonesia, América. Así. Sí. Entonces así es como podemos crear por Chart. A continuación, quería meterme en el diagrama de dispersión. Gráfico de dispersión, también conocido como gráfico de dispersión. Acabas de llegar a los valores actuales. ¿Qué es lo diferente que se utilizan los gráficos de dispersión de variables médicas para ver, escucha entre las variables, cómo una variable se ve afectada por otra variable ¿Podemos visualizar fácilmente? Así que voy a estar usando de la misma manera, lo hace, y ese país y el PIB realmente testaruda Y él había usado el gráfico S y el pañal, voy a dar scatter. Eso es. Bien. Carla, supongamos que quería darnos amarillo. Bien, así que vamos a poder entrar en el gráfico de dispersión aquí y ver cómo es. Ves los puntos. Entonces déjame ejecutarlo otra vez, Boxer de la CIA saliendo aquí. Entonces déjame lograr esto a algún otro color. Hazlo rosa. Rosa. El rosa tampoco es factible tanto y hacerlo visible. ¿Bien? Entonces mira, ya sabes, esta es la raíz cuadrada del bloque, ¿de acuerdo? Así que de esta manera podemos usar la biblioteca high charter, high Highcharts y podemos darte los gráficos interactivos 116. Proyecto 8 Visualización de datos de Airbnb en la ciudad de Nueva York: Hola y bienvenidos de nuevo. Entonces en esta conferencia vamos a hacer otro proyecto pequeño, muy pequeño. Y en este estudio, haremos un estudio de caso de visualización de datos de Airbnb para la ciudad de Nueva York usando la trama GG Entonces Airbnb, hospedando gente en tu casa. Entonces veremos cómo la gente está anidando y cuál es el costo o cuál es la r tendencias vecinales Entonces básicamente vamos a estar dentro de los datos de la ciudad de Nueva York. Por lo que los datos serán proporcionados aquí. Así listado o CSP que he descargado del Airbnb. Por lo que estará conteniendo los datos de la ciudad de Nueva York, datos de Airbnb para la ciudad de Nueva York. Entonces, cuál es el objetivo de lo que este pequeño proyecto es estudiar es visualizar el juego, visualizar y obtener insights a partir de insights la bola amarilla a y B datos de Airbnb en la ciudad de Nueva York, enorme entidad utilizará la trama GG a través y para tratar de visualizarlos, obtener los insights de los datos del mundo real de Airbnb. Bien, exploraremos diferentes aspectos de los datos como la distribución previa. Eran sector, ¿de acuerdo? Entonces conjunto de datos para este estudio o para este proyecto, usamos el archivo CSV de punto listado de aquí cuando hicimos una sentada para la ciudad de Nueva York. El conjunto de datos contiene información sobre varios listados, incluyendo arroz, disponibilidad del vecindario y otros detalles relevantes. Entonces el primer paso es la preparación de datos. Para ello cargará la biblioteca necesaria. Entonces voy a usar la capa profunda. Si no has iniciado el plan, puedes ir a los paquetes Herramientas instaladas, donde pongo los alicates y hago clic en Instalar, se instalará y luego podrás usar el pasivo. ¿Bien? Así que GG traza y aplica esto a nuestra biblioteca que vamos a anotar para este proyecto. Y veremos la estructura del conjunto de datos. Y tomaremos valores faltantes de un término y convertiremos el DateTime si es necesario Bien, así que avíseme las bibliotecas necesarias en vivo. Y lo siguiente es enumerar un archivo CSV grande que tenemos en mi máquina local. Así que escribí eso. Entonces usaré esa función csv de punto y pasaré la ruta del archivo CSV con el nombre de archivo Y voy a almacenar esos datos en la variable de datos de subrayado a y B y B. Así que vamos a ejecutar esto. Bien, entonces estos datos están teniendo 48,008, 95, 95 objetos, y 16 variables ¿Bien? Así que permítanme explorar la estructura del conjunto de datos. Mi uso de la función STR y pasamos este AirBnB y datos de discordia Déjanos. Entonces déjame mostrarte la estructura para esto. A ver. Entonces 48,008 95 objetos y dice dos variables. Hace esto a mi nombre y nombre de identificación. Religión por manejo de costo ID, nombre de anfitrión, barrio, grupo, barrio. Déjalo salir en voz alta. El precio a corto plazo Mínimo ahora es el número de reseñas. Más grande, rico en leucina que obtuvo listados de hospedadores calculados mensuales, conteo, disponibilidad, investigación T5 Entonces todas estas variables están ahí y son tipo de datos también lo es Entonces ahora tomaremos todos los valores que faltan. Así podemos verificar los valores faltantes usando, No es una función f. Y pasamos ese conjunto de datos y el número de valores faltantes y algunos monjes y para obtener la suma de los valores faltantes, bien, protón número de valores faltantes Entonces esto luego imprimimos el número de valores faltantes y conjunto de datos imprimiendo este simple valor. ¿Bien? Por lo que hay diez valores faltantes preparatorios pentatónicos de 48, 95 ¿Bien? Lo siguiente es si el cable, si tu dataset no lo está pasando bien, puedes convertirlos. Oye, datos de Airbnb, última revisión, fecha, la fecha que no agregaste de algún sentido. Veré que tu contenido no está ahí. ¿Bien? Lo siguiente es que queremos visualizar datos o licencias. Para ello, utilizamos la trama GG para crear perspicaz, visualizar incrustados en el alienígena Entonces lo primero veremos distribución de sarpullido. Hasta el momento aquí. Voy a crear un histograma para que los escritores personalmente que el bloque d y la pasta Tenía un dato de subrayado de B&B, es decir el conjunto de datos que hemos almacenado accediendo a ellos archivo Csv Bien, Entonces para la función estética eje x, nuestro eje x, usaremos el precio Y luego usaremos el histograma de guión bajo geom para trazar el histograma bin width Y Phil sentirá que con el bucle de Skype y el color del borde será blanco. Y laboratorios, el eje x será el precio, los precios, la diversidad frecuencia y el título del eje y serán la distribución de precios de Airbnb El listado y el equipo usarán mínimo. Y luego imprimiremos el programa de subrayado de precios que estamos creando aquí. Déjame dirigir esto. Ver aquí. Esta es una gráfica. En el eje x está el precio en dólar estadounidense y en el eje y es la frecuencia Escuchando. ¿Bien? Entonces esta es una visión de tejido fresco que ofrece anuncios de Airbnb. Bien. Entonces veremos el barrio. Entonces para esto, crearemos una parcela de barra, número de listados en cada barrio. Para ello, crearemos una variable llamada underscore de barrio. Parcela de subrayado Los mismos datos. Subrayar los datos. Usaremos al operador de tubería para seguir al grupo por grupo de guiones bajos Esta es la única variable en el conjunto de datos. Y luego resumir por conteo es igual a n. Y luego dejamos la trama GG y el eje x se ordenará al grupo vecinal, y usaremos la columna count menos De esa manera, se llamará a tu acceso y lo llenaremos con geom bar desde dentro que pasará la identidad Y últimos punks y barrio del eje x, eje y, número de tinte de carne, título, número aquí arriba sean poco realistas Año senior, el mínimo y equipo. Elemento de texto de punto Xis. Se puede hacer elemento bajo ángulo de protección 45. Entonces este será el nombre en el eje x. Quiero propulsor por 45. Y luego pondremos la trama del bar en esto. Sobre esto. Entonces así es como Manhattan y Brooklyn, Queens, la mano del barrio delta se inclina 45 grados Y este es el barrio y este es el número de pruebas para cada barrio. Ciudad de Nueva York, tú destruyendo el número de listados. Vecino en grupo, Bronx, brooklyn, Manhattan, Queens, Staten Island. Bien. Entonces así es como podemos usar una parcela de barras. Cómo es así en número levantando pesas. Y entonces lo que hemos entendido al hacer eso, podemos dibujar el siguiente IR, la respuesta más silenciosa o la más listada debajo nuestro dólar objetivo y con alguna clase antigua por ese precio Entonces esa cosa que podemos ver de este histograma, ver la mayor parte de los 10,000 y algunos de los valores van subiendo producción que podemos considerar ya sea Eau Claire Entonces la mayoría de ellos sólo. Y luego barplot número de listados en cada grupo. La distribución que agrego a través de los padres y tomé prestada, proporcionando información sobre las áreas más populares para el alojamiento Así que de esta manera podemos verlo si quieres. Puedes obtener una licencia más regular y solo puedes analizar los datos y puedes crear un paragon de instancias más vigilante, diferente, diferente bien específico Gracias. 117. Análisis de datos y visualización de COVID 19 de proyectos: Hola y bienvenidos de nuevo. Entonces en este proyecto, vamos a analizar los datos del COVID-19. Entonces el COVID-19, una de las cosas muy malas que le pasó a la humanidad, la humanidad, o al virus mortal que estaba causando que muchos de los médicos y la gente sufrían en todo el mundo Por lo que hoy analizaremos los datos de COVID-19 e intentaremos hacer el análisis exploratorio de datos sobre el conjunto de datos de COVID-19 y podamos proporcionar Cuando hacemos ADA, obtenemos los valiosos conocimientos. Entonces comencemos cargando los datos y luego procedamos con el análisis para encontrar los diez primeros países con el número máximo de casos de COVID-19. Haremos algunas cosas más también, pero comencemos con lo mínimo. Así que he descargado el conjunto de datos, dataset, country wise lattice dataset ese archivo CSV que te proporcionaré Entonces si quieres ir al baño y esta app descargada del sitio web de la OMS. Para ello, necesitamos la biblioteca. Entonces si tomamos no instalados, puedes ir a las herramientas y paquetes instalados y puedes poner el plano. Bien. Y luego puedes descargarlo e instalarlo. No se pudo descargar e instalar en tu hot. Bien, entonces lo siguiente es lo que quiero hacer. Entonces esta parte, tendrás que reemplazar lo que sea tu cosa. Declaro que tienes tu ruta de directorio local. ¿Bien? Así que déjeme en paz. Ahora, ¿este archivo CSV acercará los últimos datos del país y los almacenará en un COVID subrayado de datos ¿Bien? Entonces voy a usar el punto CSV para leer este archivo CSV. Y luego veamos el resumen de este código, ¿no? Entonces pongo el resumen. Se puede ver aquí. Ahora tenemos país región, pronta, ese registro. ¿Besos nuevos datos, nuevos para cubrir deudas, cien conjeturas, y luego recuperados o casos no dirigidos que colorearon confirmaron la semana pasada ¿Cuántos casos el esquema y retención de exones aumentaron en la región de la OMS Bien. Entonces así, hay estas columnas en esto. Maneja estas columnas en este conjunto de datos entregado o mínimos de la mediana del primer cuartil Entonces lo siguiente es, ahora quiero encontrar el, si quieres, puedes hacer una cosa más. Puede verificar la estructura del conjunto de datos mediante el uso de la función STR. Y ahora tenemos aquí estas muchas columnas, 197 objetos y variables. Por lo que variable país, región confirman eso. Entonces estos son el tipo de, se pueden ver columnas y el tipo de datos también lo hacen aquí. Entonces déjame encontrar el plano superior que contiene el número máximo de casos de COVID. Esto creará un subrayado superior variable , subrayado países Y usarán el archivo CSV del conjunto de datos y almacenarán todos estos datos de subrayado de COVID Y así usaré datos de subrayado y usaré el operador de tubería Y voy a agregar en orden descendente por casos confirmados, confirmados y cabeza. Quiero ver los diez primeros. Entonces voy a poner heptano. Por lo que será fuente de los diez primeros desiguales aleatorios. Somos entonces de ahí, me mandaron otro. Entonces estos son los países con el número máximo de casos de COVID. Entonces, ¿la región de la OMS estos países en realidad? Entonces América. Y es nuestro trabajo En el registro, primero cargamos la biblioteca requerida y luego leemos el COVID-19. ¿Va coordenada al cuadrado, Theta. Después DataFrame, luego mostramos el resumen básico del conjunto de datos para obtener la visión general de los Por último, encontramos que el pin superior contiene el número máximo de casos de COVID-19 y la función del heck bombear el paquete de sangre ha sido considerado un fracaso, contendrá los diez primeros países con mayor número de COVID confirmados Y cada meta representará al país y cada columna contendrá el virus en los datos de cada país. Ahora quiero hacer visualización de datos sobre esto. Entonces, para visualizar los diez principales países en casos de números de carbono, usa el gráfico circular, y usaremos el paquete ggplot2 para esto Entonces el gráfico circular y hacerte la trama GG, los diez mejores países de aquí que obtuvimos de ti. ¿Bien? Y luego la función estética x, eje y se contraerá y bombeará llenado con la región del país Geom bar, Yeoman Escobar función utilizará y el estado igual a la identidad proporcionará y genial Empezaremos con los laboratorios Jira. Voy a dar el topper del título y países, x-nada, y-nada y lo contrario y el equipo estará cableado para que gráfico circular para esto Entonces mira aquí. Ahora tenemos el gráfico circular que muestra los diez principales países con el sistema COVID-19 coseno máximo COVID-19 Se puede ver la mayor cantidad de casos de COVID y la mayor cantidad de casos de COVID. Después Reino Unido. Entonces poco a poco es primer reino, luego Brasil. Y entonces tenemos un medio que es la India. Entonces éste, luego este azul, ese es el CR. Entonces de esto podemos llegar a saber que EU, Brasil, India y Rusia, donde los cuatro principales países, EU, Brasil en el endosteum, los principales países pobres, principales países pobres, tiene el número máximo de casos de COVID-19 y nosotros siendo los Bien, entonces este código creará la carga de bytes. Entonces, en la proporción de los casos confirmados de COVID-19 para cada país. Ahora, podemos agregar textos más densos y personalizar los colores del gráfico circular para que sea más interactivo, informativo y visualmente atractivo. Bien, entonces este código creará el gráfico circular. Ahora, queremos agregar más cosas. Así que voy a crear un gráfico circular con niveles de Personalizar colores. Entonces, por favor, haz lo mismo. Aquí están los polares y que ya hemos utilizado. Y años después de esta función de todo el equipo volverá a hacer la misma función Y no había puesto leyenda punto fondo partidista, más negro en el fondo Y lot dot title va a dar lados sin embargo nosotros lo vamos a dar. Justicia. Pipa Frank, el tamaño es 16, y Francia se negrita y textos. El elemento subrayado función de texto y tamaño obtendrá leyenda El tamaño del texto será 12. Y sabio para este título serán sitios para título o 14. Y sería el tablero y la caja de fuerza de un solo punto. Bien, entonces y luego usaremos el gráfico circular. Y para eso, usaré escala, campo de subrayado y hace manual Y aquí los valores obtendrán manualmente. Son los muchos colores se sienten juego, bien, así que cualquier código de color quieras dar puedes conseguir. Y luego crearemos un gráfico circular con niveles. Entonces voy a tomar este gráfico circular y luego voy a llamar X y funcionalidad estética, que voy a llegar a una región punto país y de donde viene Punk, ¿ verdad? ¿Cuándo eres hijo? Pila. Y luego correré todo esto juntos. Y C, y ahora estamos consiguiendo mejor gráfico circular con ligandos y diferentes colores. ¿Bien? Entonces ahora está diciendo las leyendas. Usted dijo que ha habido porque su reino poco a poco. Y también aquí también se puede ver esta tabla, bien, Así que de esta manera podemos crear una bicicleta personalizada y texto de leyenda. Ahora, quiero encontrar los diez principales países caídos y el país que tiene un número máximo registrado que encuentran los diez principales países que han registrado el número máximo casos agregados de la parte que conjunto de datos COVID-19, podemos usar un enfoque similar al anterior Clasificaremos el conjunto de datos en función la columna de la cubierta y luego seleccionaremos los diez países principales. Bien, hasta ahora este valor. Y luego usaremos el COVID. Leeré este conjunto de datos y los diez principales países usarán arreglado usando esa columna. Y luego nos llevaremos los diez primeros Bien, este ya lo tenemos. Entonces CFTC, los diez principales países en el número máximo de bits. ¿Bien? Lo siguiente es que quiero crear un gráfico de barras, pero los diez principales países número máximo de muertes porque eres el gráfico de barras y la barra geom, las cosas tienen su angular cinco, guión uno justo en esto Ahora tenemos el gráfico de barras arriba y los países para el máximo de la noche a la mañana y todas esas cosas están subiendo. Este es el gráfico circular. Esta es Sunda. Nosotros ladrar. Bien. Entonces este gráfico de 1 barras y un gráfico circular. Bueno, lo mismo. ¿Bien? Ahora quiero calcular el porcentaje de recuperación para cada país. Entonces parte de esa recuperación COVID-19, si has cubierto el departamento de posgrado 200. Y sé que nos estamos recuperando y pasamos a la recuperación. Bien. Datos del país. Entonces así es como un país y eso cubrió la recuperación porcentual. Entonces estas vellosidades hemos calculado la última, bien. Ahora calcule los percentiles que puede ser para cada país en parte superior que le diga que los países iniciales y luego cree un Este es el gráfico de sesgo, el porcentaje de recuperación y los países adoptados. ¿Bien? Entonces la recuperación de EU, Ivana es el max. México. India también está teniendo algo parecido a la comedia, y luego a México. Y luego quiero que los diez mejores países estén cubiertos de tiza. Esta es la persona para contrarrestar los caracteres de doctrina en la primera oración Por Chuck. casos más activos que provienen de qué país nos encontrará es el país que tiene más casos activos. Top diez países con los casos más activos, tan duros que morirá. Los casos activos confirmaron deuda menor menos los casos activos provienen de menos que, menos recuperados, nos dará la mayor cantidad de casos activos y luego agregaremos que dos ventajas. ¿Bien? Para que puedas ver EU, Brasil, India en el vector de números simulados. Este es el porcentaje de países activos de doctrina del curso y crear un gráfico circular. Esto nos mostrará la mayor cantidad de casos activos. Porcentaje de vectores coseno países de la doctrina aquí UTILIZAN que será 7.73% del mismo Que contrae la frecuencia máxima de las conjeturas. Las conjeturas usarán frecuencia eso porque va a resumir. Después volteando para vernos como la frecuencia de eso, qué país experimenta la frecuencia máxima de la cavidad porque este producto algo de lo recuperó. Y así Brasil está teniendo la mayor frecuencia de los casos judiciales. ¿Bien? Entonces de esta manera, si queremos analizar más tu condiciona combinación, tu forma de pensar y podrás enlumbrar los datos Bien. Entonces, esto es todo sobre el análisis de datos de COVID-19 118. Proyecto 10 Dibujo de flores con matemáticas en R: Hola y bienvenidos de nuevo. Entonces en esta conferencia vamos a hablar del proyecto. Y en este proyecto vamos a una enorme programación matemática y artística para dibujar algunas flores. Entonces secando flores usando las matemáticas en nuestra programación. Eso es lo que cualquiera de los dos objetivos para este proyecto. Todos sabemos que cuando miras a la naturaleza en todo lo que crea la naturaleza, puedes encontrar bastón en eso, aunque veas una mariposa que se ha cerrado, vuelta en Dawn nuestra cuerda y mira hacia arriba a falso. Entonces la naturaleza tiene mucha creatividad. Y puede ser mucho Baton bajo creadores en las flores, en los árboles, incluso en humanos. Entonces somos, todos somos humanos tenemos las mismas características como ojos, nariz, boca, aquí, manos, piernas. Pero cada persona se ve diferente. ¿Verdad? Aparte de los gemelos. Incluso los de la Reina tienen algunos CSS diferentes. Y ese es el poder de la naturaleza. Entonces, qué haremos en esta conferencia, en este proyecto, trataremos de dibujar algunas porras, que irán más allá Entonces intentaremos dibujar un patrón de flores. Haces matemáticas usando nuestra programación. Entonces comencemos. Entonces la recarga para ver aquí, el mandato va a tratar de entender todas esas cosas, ¿de acuerdo? El punto son los patrones en la naturaleza, son demasiados ejemplos de hechos naturales y porras que se pueden describir en términos matemáticos Bonitos ejemplos o digamos Bob copos de nieve, la geometría fractal de la escuela, brócoli, o cómo En el crecimiento de parcelas. Odd es una herramienta para hacer análisis serios, pero no todo en la vida lo es. Como sabemos. La vida también es divertida y el arte se puede utilizar para divertirse y hacer cosas bellas. Podemos hacer muchas cosas creativas también, Eugene, son, Eso es lo que hace el objetivo de este proyecto. Troy, estamos haciendo este proyecto, esta actividad, Newton, arte y matemáticas en esta clase. Por lo que su poder gráfico se puede utilizar para proporcionar imágenes artísticas. Como veremos cómo podemos dibujar todas esas ilustraciones que veremos cuando dibujemos, cuando ejecutemos el código, que se inspira en cómo las plantas son hojas muertas. Este hecho, se llama filotóxico y lo resolveremos como base para este proyecto ¿Bien? Entonces usaremos la gráfica GG dos paquetes. Como es habitual para toda la existencia de vigilia en el arte, en su mayoría utilizamos la trama GG para empaquetar Entonces aquí también usamos parcela GG para empaquetar. Y además de divertirnos, aprenderemos muchas características importantes de la misma. Y eso será útil no sólo para hacer arte, sino también para los actuales datos y problemas de la vida real. Así que no demoremos más problemas. No nos demoremos más. Empecemos cargando la biblioteca. Entonces la primera pieza de código aquí, estoy usando el cuaderno AAD Entonces el beneficio de usar nuestro cuaderno son los datos. Podemos escribir un trozo de código solo presionar Alt Control. Control, Alt, Control Alt I. Cuando pones, puedes escribir código dentro de esta sección, bien, Así puedes escribir las explicaciones y luego puedes escribir tu código como lo hacemos ahora. Google Colab. Para que esa cosa que podamos hacer en el adulto, por lo que hay que ir al Archivo, Nuevo y cenar. Estábamos creando nuestro script vez en cuando puedes comenzar a rastrear. Por lo que te animo a que escribas el código tú mismo siguiendo la conferencia, porque eso te dará la experiencia práctica Si solo descargas el archivo y solo lo ejecutas, no obtendrás mucho beneficio de la conferencia. ¿Bien? Así que voy a sugerir empezar a escribir, ¿de acuerdo? No estoy escribiendo aquí. Ya lo escribí. Porque si empiezo a escribir todas estas sintaxis, me llevará mucho tiempo Y eso no va a ser beneficioso porque llevará horas de tiempo. Si empiezo a escribir y explicar las cosas. Para ahorrar nuestro tiempo para el propósito de aprendizaje, quiero hacerlo en y te lo explicaré. ¿Bien? Entonces lo primero es que descargaremos la biblioteca de parcelas GG Y aquí vamos a decir las imágenes de la trama a un gusto agradable para que pueda funcionar y a la trama de puntos brillantes, punto, ancho y alto serán cuatro. ¿Bien? Y luego recargar. Así que vamos a ejecutar esto. Entonces aquí puedes ver las dos opciones, tres opciones. Uno es el fragmento modificado opsin, el siguiente se ejecuta todos los trozos arriba Por encima de estos están todos los términos serán R1, R2. Puedes ver esta opción aquí que es un trozo de corriente aleatorio Entonces usaremos esta basura de ejecución por ahora. Bien, entonces vamos a ejecutar esto. Así que ahora hecho, así que se ha cargado la biblioteca de parcelas GG. Lo siguiente es que el paso número dos para este proyecto es regar y secar puntos en un círculo. Entonces en esta actividad, lo que vamos a hacer, intentaremos dibujar los puntos del círculo. Dibuja los puntos alrededor del círculo, ¿de acuerdo? Por lo que míticamente intentará dibujar un círculo aquí con la ayuda de puntos Entonces, hay muchas formas de representar datos en gráfica GG dos para una gráfica de dispersión simple, a otras más complejas, como las parcelas de violín. Las funciones que comienzan con el guión bajo geom definen cómo la parcela es piedra Así se definió el guión bajo geom, estaremos mostrando cómo será pronto la trama En este cuaderno, solo queremos trabajar con el punto de subrayado geom, que warp traza puntos en Solo necesitamos un conjunto de datos con dos variables. Llamémoslos x e y. Entonces necesitamos dos variables, x e y para el eje x y el eje y. Ahora, quiero dibujar dos puntos en un círculo de radio, uno en cada punto x e y. En cada punto x e y. B en el círculo unitario, se deduce que x al cuadrado más y al cuadrado es igual a uno Podemos conseguirlo usando la súper famosa identidad trigonométrica pitagórica, que es que Theta sinusoidal cuadrada más cos al cuadrado Theta es igual a uno para cualquier real cero Entonces estas son las matemáticas básicas que ya conocemos. Bien, entonces déjame abrir este código. Entonces aquí lo que estoy haciendo, estoy creando una secuencia de números. Secuencia de números. Entonces para esto, usaré t como variable para almacenar estos puntos. Y voy a poner, usa la función de secuencia para generar. Y voy a empezar con 0.2 en longitud será, será 52. Se generará el punto total. Aquí. X para el punto x son el punto del eje x. Voy a usar sine t. seno de t. En realidad estos serán los ángulos, ¿de acuerdo? Entonces D es el ángulo que esta secuencia regenera aunque. Los ángulos que utilizamos para encontrar nuestra x e y x es seno Theta y cos Theta Entonces aquí sine t y luego y o y, usaremos el costo, ¿de acuerdo? Entonces tú que un DataFrame, data.frame B será el ángulo y luego x, y x coma y, x será seno de t e y será el seno cos de t, seno de t cos data.frame B será el ángulo y luego x, y x coma y, x será seno de t e y será el seno cos de t, seno de t cos arriba. Después con estos dos puntos, se intentará hacer una gráfica de dispersión usando gráfica GG para graficar GG dos. Ese es este, este DataFrame, el DataFrame que Y luego usaré la función estética a la estética en la trama. Los puntos x coma y Entonces usaré el punto p plus geom. Entonces usaré el punto p plus geom Por lo que los dibujará bloqueados. Bien, entonces vamos a ejecutar esto y ver, ver, y ahora nos están trazando en un círculo, bien, puntos trazados en un Lo siguiente es hacerlo armonioso. Bien, vamos a desocultar el código. Hazlo armonioso con Colin Angle. Entonces rubias añadiendo las hojas en esta espiral. Si nos fijamos en el, cualquier planta deja, será suficiente. Forma final, probé I médula espinal, que parte del origen y se aleja de su punto. Entonces, cuando miras una espiral, empezará con un punto en particular y irá así. ¿Bien? Entonces va a ir así para empezar a formular punto y luego irá así. ¿Bien? Vamos a vigorizar, Entonces parte desde el origen, se aleja de este punto, adjunto gira en torno a En la parcela. Por encima, todos nuestros puntos son los mismos. Distancia del origen. O manera sencilla de organizarlos en espiral es multiplicar x e y por un factor que la rutina alcanza cada punto. Podríamos usar el Azure AD ese factor en él, podría usar Azure ya que ese vector en él cumple con esta condición. Pero vamos a hacer algo más armonioso, usaremos el ángulo dorado. Dorado, ¿cuál es la fórmula para el ángulo dorado? Es phi en tres menos bajo raíz cinco. Y este número se inspira en la proporción áurea. Uno de los números más famosos la historia de las matemáticas. Tanto la proporción áurea como el ángulo Gordon aparecieron en lugares inesperados de la naturaleza, aparte de flores, pétalos y hojas de plantas, los encontrarás en. Cabezales de semillas, se unen oro, semillas de girasol, ventas, galaxias espirales, huracanes, etcétera Bien, entonces es momento de que se finalicen. Bien, entonces veamos el código. Aquí. Vamos a definir el número de puntos que se mezclan. Definiremos como un pastel en tres menos raíz cuadrada de cinco. Y entonces seremos, seremos los de viento en ira multiplicaremos el ángulo en los 0.500 puntos y luego exponente será el seno de t e y será el costo de T. Y luego usaremos el DataFrame para crear un DataFrame Y luego haremos la gráfica de dispersión usando la gráfica GG. Y agregaremos el punto geom. Bien, vamos a ejecutar esto, la salida. Ahora puedes ver cómo hemos creado una espiral usando el cada punto. Lo siguiente es, vamos a eliminar todo lo innecesario. Aparte de los datos, aplaudir incluye muchos otros componentes que sí Esta trama contiene un amigo de fondo con una cuadrícula de color gris de líneas horizontales y verticales en el fondo. Trucos a lo largo del eje, título en el eje x, el extra a lo largo del eje y niveles Entonces todas estas cosas que vamos a hacer ejecutando este código definirán el DataFrame Estoy pasando por alto este lado, la x y y a la función DataFrame y hacer que los puntos del diagrama de dispersión en su Entonces la trama RDD. Y llamaremos a esto 100 A-frame. Y luego valores estéticos, x en boo, perdón, x en d, y en d. ¿Bien? Y luego asignaremos este punto. Y luego usaremos las fuentes del equipo aquí y dentro del tema grupo funcional panel punto grid element fonts. Y aquí y dentro de la consola, elementos de la cuadrícula de puntos del panel subrayan en blanco, xis dot txt subrayado en blanco y el elemento título subrayado y el elemento título En realidad no van grand cow puede preparar patio de recreo. Fondo sólido será el panel. Ese elemento de fondo y subrayado destrozaron y se sienten realmente enormes, blancos Entonces volteemos y veamos la salida. Esto es lo que estamos recibiendo. Si podemos este blanco también. Veamos qué está pasando. ¿Bien? Ahora el fondo está en rojo. Entonces con esto podemos crear antecedentes. Y si ejecuto esto, el fondo sería el público. ¿Bien? Entonces tenía limpio. Entonces mira ahora cómo apunta esta espiral y luciendo como un patrón. ¿Bien? Lo siguiente un poco arriba, Maquillaje. El maquillaje intentará decorarlo. Sij el color y la transparencia se están secando empieza a parecer una planta, pero no podemos hacerlo mucho mejor cambiando la transparencia del color, también llamada transparencia alfa, más oscuro El tamaño Alpha de la imagen se volverá más atractivo Entonces veamos el código. Aquí. Una nueva gráfica GG, Wong Sun y los datos obtienen entalpía y entropía x Y luego Dionne punto de Central US y tamaño le dará un color dado, verde oscuro y tema y el tema, lo que tenemos en el bloque anterior Así que vamos a ejecutar esto y ver hoy en día columna, si lo hago soporta gris. Y mira como los fondos y el mar serpentea repentinamente verde pero el fondo se vuelve gris. Lo siguiente es jugar con la estética. Que Dalian hasta ahora, todos los puntos del tema de tus percepciones, color, forma y alfa A veces desea hacer que la variable dependiente del punto central en su conjunto de datos. Ahora haremos que el tamaño sea variable. También vamos a cambiar el tema de los puntos, aunque no vamos a poder soplarlo, no creen que inversionista te esté recordando lo que Dan Dalian Entonces déjame mostrarte el núcleo al bloque d geom punto en el tiempo con función estética lados es igual a, será la t alfa 0.5, di por mí para ocho y columna te estoy dando un fondo negro donde estoy dando blanco Vamos a ejecutar esto. Ahora. Esto viene así. ¿Bien? Entonces si cambio la CFE o apoyo al mar, pero el punto en el que no puede ser así, ¿bien? Así que lo que quieras, puedes poner la caja fuerte aquí y se creará en esa cinta, ¿de acuerdo? En esa cinta, bien. Ahora vamos a juntar todo lo que hemos hecho hasta ahora e intentaremos crear esa trama. Entonces la primera línea es lo mismo. Entonces viento aquí, el tamaño estético es igual a 4.5. Y sip reality region 17, y el documento camisón de color verde o azul Bien, a ver. Desplegar código. Limpio. Y mira esto se ve bien. Este manómetro oscuro, fondo magenta. Lo siguiente. ¿Y si modificamos el ángulo? Entonces veamos si modificamos el ángulo, ¿qué pasará? Los patrones de drenaje son muy centrales al ángulo entre los puntos que se encuentran en la columna vertebral. Pequeños cambios en el ángulo que puede generar muy difícil a la religión digamos 1,704.5 y ángulo nos dan dos puntos, vamos periodos Entonces veamos ahora qué aspecto hermoso. A partir de aquí, hemos llegado a esta realización. Lo siguiente es del todo. Ahora. Y ahora vamos a crear las técnicas imaginarias de flores que has visto token te permite crear en número finito de patrón inspirado en la naturaleza que el único límite es tu patrón inspirado en la naturaleza que el único límite es tu imaginación Pero hacer arte también ha sido una excusa divertida para aprender a hacer trama GG, ¿verdad? Hemos aprendido tantas cosas. Y esto es bastante interesante. Espero que a todos les guste el proyecto. Y esta conferencia. Todos los textos que hemos visto en un largo año para trazar los datos reales también Entonces, vamos a encontrar esta imagen a la izquierda. Algo rojo, es ilegible de flor anterior, se ve algo muy parecido a los dos primeros que, volvamos a esto, veamos lo bonito que se ve este patrón Entonces a partir de aquí, cómo hemos llegado al poniente, hemos empezado con el viento circular, entonces lo hemos hecho poco usando el ángulo dorado. Entonces nos han dado el color de fondo, después hemos comprado últimamente color, tamaño y transparencia, y luego el SIP. Y luego esto, y luego finalmente hemos llegado a esto y a este hermoso patrón de flores que hemos dibujado aquí. Si cambio el estado para hacer eso, para ver qué va a pasar. Ver esto es base triangular. Enseñar una columna. Esto predice D venir como algún otro patrón. Ven a finales de verano, el baño. Bien. Pongo un 17. Viene así. Bien. Entonces yo también lo lograré. Entonces. El uno es el gordo más hermoso hecho que hemos creado. Así también puedes jugar con diferentes, ver, diferentes ángulos Alfa, diferentes tamaños, diferentes combinaciones de colores, e intentar crear tu propio patrón de flores. Flor usando matemáticas y caliente. Espero que les guste este divertido proyecto. Y también estás haciendo el proyecto y sube tu Florida en el juez de Florida, en la sección de proyectos de esta clase. Y todos podemos ver 119. Análisis y visualización de ganadores del Premio Nobel con R: Hola y bienvenidos de nuevo. En esta conferencia vamos a hacer y otra esencia de Análisis y Visualización Y esto también es una especie de proyecto. Y en esto, lo que voy a hacer, voy a analizar los datos de los ganadores del Premio Nobel. Así que nuestros ganadores del Premio Nobel cada año. Alguien obtendrá el Premio Nobel en una categoría en particular. Qué categoría está relacionada con la Ciencia del Arte, el trabajo social en esas cosas, ¿verdad? Entonces vamos a tratar de analizar en un amargo diferente y vamos a resolver También visualizaremos los datos. Entonces, algunas cosas tengo Nika analizada y te voy a mostrar como puedes hacer eso Entonces la mayoría de los premios Nobel, y luego enfocaremos el Premio Nobel. Estos son los criterios que discutiremos. Entonces. Ahora, veremos cómo se está desempeñando y cómo o cuántos premios Nobel USS obtuve dominan el escenario del Premio Nobel. Entonces visualizaremos el dominio de Estados Unidos. Entonces veremos el daño y las mujeres y los hombres están recibiendo el Premio Nobel. Y luego veremos quién es la primera mujer en ganar el Premio Nobel. Entonces todas estas cosas y muchas más están ahí que vamos a tratar de hacer eso. Pobres, procedemos. Déjame llevarte a través del conjunto de datos. Entonces estamos usando este archivo Nobel dot CSV, que es tener el oído en el que se ha entregado el Premio Nobel. Las categorías, diferentes categorías en las que se le ha dado el nombre del precio al Premio Nobel, el mismo Premio Nobel. Entonces el viernes será el Premio Nobel de Química, Premio Nobel de Literatura en Fisiología. Todas esas cosas. Bien, entonces ese es el nombre. La categoría será química. Rachel Madison Police predice todas esas cosas. Bien, entonces hay diferentes categorías en las que dan el Premio Nobel, ¿de acuerdo? Y luego la motivación, ¿cuál es la motivación detrás? Están dando el Premio Nobel a esa porción en particular y el precio son uno por uno o uno por dos de cadera, hay más de una gente recibiendo el Premio Nobel en el mismo Gashes está en algún lugar uno por dos. Serán dos personas. Ahí. Eran dos personas de la misma categoría cada una. Por lo que el Premio Nobel se dividirá a mitad y mitad. ¿Bien? Entonces esa es la bandeja uno por dos. Entonces en algún lugar se puede ver uno por cuatro. Bien, entonces este es el precio ahí. Entonces, cuántas personas son atrapadas en la misma categoría, mismo precio. Entonces Laura ordenada, todos los que recibieron el Premio Nobel obtendrán, les asignará mucho de él. Y luego el tipo de lotería, será individual u organización. Será si hizo organización obteniendo todo pastel, será organización. Y si es porción individual, será individual. Entonces básicamente hay dos tipos de personas que obtienen un individuo y una organización. Entonces nombre completo de la porción de la organización, mientras que obtener el Premio Nobel que el Bar hoy precio que el bar hasta la fecha. Después la Ciudad de esa porción en particular, el país de nacimiento, y luego el sexo, masculino, femenino o lo que sea. Y luego el nombre de la organización. It, get Parson lavada o venta es el nombre de la organización que es. Lo apagaste. Madison excel, arreglado agradable y nombra y organiza y Ciudad de majestuoso país. Esa fecha en que esa persona venció y esa ciudad y país. Entonces todas estas columnas están ahí en este novedoso archivo CSV punto. Vamos a analizar. Bien, así que comencemos. Entonces déjame contarte cosas de frutas sobre el Premio Nobel. Entonces los premios Nobel, pero tienen el galardón científico más conocido del mundo, salvo por el honor, prestigio, y el sustancial dinero del premio. El destinatario en Under 33 al 896 que estableció el precio de las acciones. Todos los años. Se entrega a los científicos y académicos de las categorías química, literatura, física, fisiología o medicina, economía y paz Esta es la categoría en la que se entregará el Premio Nobel y se otorgará desde las últimas décadas. El cargo Premio Nobel fue entregado en mil 901. Por lo que el Premio Nobel se inició en mil 901. Y en ese momento el Premio era realmente eurocéntrico y enfoque masculino, pero hoy en día no está sesgado de ninguna manera. Entonces esta es la historia detrás del Premio Nobel. Y ahora vamos a averiguar la Fundación Premio Nobel tiene un conjunto de datos disponible para todos los ganadores de premios. Entonces ese es el conjunto de datos Nobel disponible para todos los ganadores de premios. Entonces ese es el Nobel notch CSP, 1901-2016. Entonces, primero, tenemos que cargar el conjunto de datos. Entonces el nombre del conjunto de datos es novedoso o CSP. Entonces usaremos leer subrayado CSP y leeremos esto y luego vamos a venir la cabeza pasará Estos son conjunto de datos para la función de cabeza de fuentes novedosas. Y veremos cuántos, qué, cómo se ven esos datos. Para ello, vamos a la biblioteca de versos ordenados, así que notaremos esa biblioteca también. Cuando ejecutamos esto, podemos obtener el conjunto de datos de clips up. Así que nos vemos en absoluto. Ya hemos visto en el archivo CSV aquí, precio de categoría, y luego columna de motivación. Entonces el precio aquí, Laura ordenada Laura tipo, FullName, primogénito , pero fecha, pero ciudad, ¿qué países? Organización sexual. Entonces toda esta información está ahí dentro. Entonces después de cargar, podemos acceder a esta información a través de nuestro también. Lo siguiente, lo que hagamos va a encontrar quien se haga todo rezar. solo mirar a la primera pareja de premiados reforzados sobre los premios Nobel, como el también llamado, ya vemos que una celebridad tendrá Conrad Rontgen Y en realidad vemos que todos murieron. Todos los Ganadores De en nitrógeno donde chicos que vinieron de Europa, desde que se inició en Europa. Entonces todo el sudor amino, que de la, de EU, pero eso fue de vuelta en 1,901 Mirando todos los ganadores, el conjunto de datos 1,901 a 1966 y los países ricos los más comúnmente representados Eso es lo que vamos a terminar. El país del ganador como país pequeño no es aplicable para todos los precios establecidos en nosotros. ¿Bien? Por lo que contar el número de premios Nobel entregados 1901-2016 será bastante fácil Usaremos el conjunto de datos Nobel y usaremos el operador de tubería y contaremos utilizará la función de conteo. ¿Bien? Y luego contando el número de precios, uno por los receptores masculinos y femeninos. Entonces usaremos novela y luego contaremos en base a esos seis nos dará el conteo de sexo para hombres y mujeres por separado se dará luego contando el número de premios propiedad diferentes nacionalidades están aquí contabilizará sobre el ayudante comprado país Y luego agregaremos los lesionados por orden descendente. Y ya veremos el primer término T. Bien, así que vamos a ejecutar esto. Ver el país. Estados Unidos a la gente nueve, Reino Unido, 85, Francia, Alemania, como T1, Francia para P13, que 29 Y este país no es un 26 especificado, Japan Grundy para Canadá en, en la lente suele ser 17 Y entonces podemos ver aquí la proporción masculina y femenina. Así que uno levanta 49 hembra hasta ahora, hasta 2,016.8. 39 pudo haber ganado el Premio Nobel y 26, se desconoce el género. ¿Bien? Lo siguiente es, se puede ver que un número total de 911 personas obtuvieron el Premio Nobel. En que se 36, el varón y el 49 o el femenino, y 2067 o dio a conocer su sexo Bien. Nosotros al precio, quizás el más común ahora alerta. Haces 1,901 a dos veces 15 era un hombre nacido en Estados Unidos de América Pero en general, en uno se ríe donde el pan europeo hizo que Estados Unidos arranca. Entonces, antes cuando empezamos el Premio Nobel, todos los ganadores eran de Europa, pero poco a poco, dices que América se hizo cargo. Dominaron las listas del Premio Nobel. Entonces vamos a ver. Entonces aquí calcularemos la proporción de ganadores de US One por década. Hasta el momento eso va a crear este apuntalamiento subrayado, subrayado con nosotros Y vamos a utilizar el conjunto de datos Nobel, incluso el operador de tubería y va a mutar EE.UU. nacido ganador es igual al país de nacimiento Y aquí vamos a orgullo anticonceptivo como Estados Unidos de América. Y usarán er dividido por diez en cien. Y usaremos la celda encogida del piso. Entonces asistiendo a 200 y usaremos el grupo funcional de piso por década usaremos para obtener el, luego resumiremos Proporción igual a la media del bono estadounidense no lo hará. Y un dato que igual a verdadero. Así que vamos a ejecutar esto. Ve tu en 19091900, proporción de nosotros decimos ganar es 0.07 en 19 y luego ha 1920, 0.70, 741,932.25% Datos y 40.32 , 92.299, 290.14 más odontólogos. Y en total frente 4321 EGN, enseñas 1030. Ahora. Y luego usaremos la trama GG para trazar la proporción que nos estaban salvando. Y para ello, usaremos el diafragma y lo pasaremos al DD Plot y estética para revisión estética, eje x no morirá década y el eje y denotará la proporción entre mujeres Y perdemos la función de subrayado geom de nueve líneas para dibujar los Los humanos podrían señalar para dibujar los puntos. subrayado de escala a través de niveles continuos es igual a Escalas Columna, límite porcentual de columna X1, X1 cero, menor que esto. Y mira aquí, ahora puedes ver una partícula. Cómo va. A continuación, ¿cuál es el género del típico Premio Nobel? A continuación, ¿cuál es el género del típico ganador del Premio Nobel? Para ello, lo que haremos, calcularemos la proporción de mujeres premiadas por producto de década Usamos un prop en descoping y subrayado ganador variable aquí y conjunto de datos Nobel Y usaremos la función mutar. Ganadora de subrayado femenino. Llamas a dos sexos iguales a femenino. Y tome la palabra se dividirá por diez en diez. Y cerraremos el operador de tuberías y luego subiremos por década y categoría y resumiremos Al pasar la proporción es igual a la media premier ganadora y los datos de dos. Y luego vamos a trazar esta proporción Freeman lauric predijo para esto pasará esto D, D gota subrayado. subrayado no hará la trama fácil a partir de alguna estética utilizará X, X al cuadrado Y. X es cuatro. Número de ganadores y Color será la categoría en función de la categoría. Así que vamos a ejecutar esto y ver. Entonces ahora puedes ver aquí en el eje x, los gatos han sido trazados y en el eje y, la química, la economía, o la categoría la ha sido Y ahora ya veremos cuántos otros repiten o Ganadores hasta el momento eso, déjenme mostrarles eso. Aquí usaremos la novela sobre Data Frame. Y lo hace y usaremos count igual a fullname y filter Si N es mayor que uno, número par de ocurrencias más de una, entonces contaremos, contaremos. Entiende esto. Hay al menos seis personas que obtuvieron el Premio Nobel a más de dos o dos o dos o más de dos veces. Entonces bien. Maddie consulta el tiempo y Lena se ha ido el polen dos veces. Comité de derecho internacional, comunidad internacional de Cruz Roja, o tres veces. Ahora cuántos años tienes cuando obtienes el Premio Nobel y el lift up repiten Ganadores contenidos en algunas ilustraciones, nombre, volvemos a encontrarnos con Marty consulta Madame Curie, quien obtuvo el Premio Nobel de Física por descubrir la radiación y la química para aislar medio y aislar medio John consiguió dos veces en la nevera los transistores de exportación y superconductividad. Frederick Sanger. Sanger lo consiguió dos veces en la química. Linus Pauling lo consiguió primero en química y pieza de rotulación por cada obra en la promoción de esta prenda, este hombre y este momento actual Y también aprendemos esa organización que también Los precios son subordinados cruzados y aún no lo has conseguido precio Entonces déjame mostrarte. Utilice el lubricar. Lubricar. Lo sentimos, no lubricar es el paquete Lubridate aquí Y aquí estamos calculando la E tuvo los ganadores del Premio Nobel. Así novedoso y luego mutar es igual a menos era. Pero y luego trazaremos el análisis este DataFrame y estética usaremos Export As y usaremos Export As y Y con el punto geom gota de mano y los geometros, pequeño incluso trazar esta lección que estamos recibiendo Lo siguiente es una diferencia entre las categorías de precios. Así que la trama alguna vez vio eso mucho. Vemos que la gente que solía estar alrededor de cuatro a cinco días donde se sientan erguidos. Hoy en día el promedio está claro a 65, pero hay gran difusión en los cines en los más apropiados más alguien muy joven Y también se ve que en entonces City nombra es mucho alto hoy en día que a principios de los 90 hoy en día, muchos altos hoy en día que a principios de los 90 hoy en día, se fijan muchos más precios, por lo que hay muchos más Ganadores También vemos que la disrupción en nuestro precio alrededor del segundo lavado, Segunda Guerra Mundial 1939 a 1943. La novela Nobel subrayan edad y estética X, Y. Y volvamos a esto Vea cómo diferente categoría, cómo afectan las edades a la química, la economía, el derecho. Tratan niño puede recibir fondos, cuotas y predice, medicina, paz y predice o menos que y ganador más joven Por lo que tratamos de encontrar que el hoyo era el más viejo y mientras que el más joven. Así que vamos aquí hemos utilizado la oficina como categoría por categoría precio abdominal. Entonces se puede ver el para la química y esto es para la economía, para la literatura, para la medicina y la física. Entonces son menores que Angular's a cualquiera de las parcelas con muchas ciclinas están pasando Vemos que la enfermería, la química y la medicina de Boltzmann han envejecido con La tendencia es más fuerte mientras que predice que la diabetes es tuya para ser 50 Y ahora la literatura y la economía o más así Tabla. Y también vemos que la economía en la categoría más nueva, pero con base en un proyecto diez enfermeras veteranas son cada vez más jóvenes. La categoría obesos, nosotros también esta categoría tampoco estuvimos alrededor del 2010, eso parecía que ejerce su casi joven Esto plantea la pregunta alrededor de las dos y luego esa misma, excepto joven maloliente, esto plantea la pregunta, ¿Quiénes son los o menos que los más jóvenes jamás Entonces para esto, usaremos la variable de edad de subrayado novedoso pero en la parte superior el subrayado N dará uno y luego lo hará Y luego para el subrayado superior N1, de manera descendente. Bien, así que vamos a ejecutar esto. Nos vemos. En la categoría pieza 2014. Se le dio el Premio Nobel al Premio Nobel se le dio a usted. Entonces Malala. Malala es dos J y C tenían apenas 17 años cuando le dieron a ver apenas siete. Supresión de niños y jóvenes por el derecho de todos los niños a la educación. Y CSIA, el precio con ellos, uno. Vea cómo Partición de Datos Julio de 1997 y la edad era de 17 años. Entonces C es el más joven, y aquí está o lista1 en total y siete economía El Premio Caja de Ahorros en Economía firma en total siete por haber sentado las bases sobre el mecanismo, que en teoría, y dijo los otros tres grupos a otras personas. Y su nombre era Leonardo cosecha y él era el todo Premio Nobel por ahora. Y a los 90 años obtuvo Premio Nobel Dahmer y era de América Y Malala Yousafzai era de Pakistán. De esta manera no nos ha gustado ni menos que de Pakistán. Así que de esta manera no nos ha gustado ni menos que el ganador del Premio Nobel más joven. Puedes ofrecer ganador del Premio Nobel. Puedes encontrar algunos puntos más y puedes analizarlos. Espero que llegues a entender cómo podemos visualizar y más tarde. Posteriormente. Gracias. 120. Proyecto 12: cómo encontrar fuerza para la espada con R: Hola y bienvenidos de nuevo. En esta conferencia, vamos a hacer otro proyecto en el que vamos a encontrar la Fuerza de Contraseña usando impar. Entonces como sabemos, bastante popular proyecto de lenguaje de programación y esto es un extraño. A veces necesitamos tomar también la Fortaleza de la Contraseña. En ese caso, puedes utilizar este ejercicio. Entonces veamos. Por lo que en este proyecto, pasaremos por los papeles de la publicación especial 863 del NIST que se alcance Lo que patea al verificador secundario que se encarga de almacenar y bien bebió Contraseña lote conocido como grasa corporal aquí Se realiza para asegurarse de que simplemente no escojas una contraseña mala. Pasaremos por las contraseñas de los usuarios. Lo que se arregla un poco de compañía y usa nuestro para marcar que solo tienes mala contraseña. Pero como poder hacer esto ya significa que la compañía de señal fija rueda de 800. Yo consistentemente. Pero si agrego tienda celular memorizada, sagrada en forma, eso es diez a los ataques Offline Memorizar la Christelle se inició y tuvo usando la función de derivación de tecla de una vía de tabla Esto nunca es guardarte solo contraseña en textos sin formato, siempre encriptar las contraseñas Teniendo esto en cuenta para la próxima vez estamos dispuestos Sistema de Gestión de Contraseñas. Carguemos esos datos. La lista de Contraseña y la base de datos fija o limitada. Tanto el contenido, el enlace de contraseña real de la página web real. Esta Contraseña no ha sido filtrada de ninguna manera y no en CloudWatch datos de exfiltración de datos Work Europe Y así esto es sólo por querer. Bien, entonces carguemos el archivo CSV aquí. Aquí vamos a usar la biblioteca ordenada de versos. Así que déjame, bien. Entonces primero, cargaremos la biblioteca, la biblioteca, y luego necesitamos leer el archivo CSV donde se han almacenado todos los datos de tu solo. Te estamos usando solo inicia el archivo CSV. Sí. Y te estamos almacenando simplemente valioso. Contando cuántos acabas de recibir rehabilitación a partir de ahora usaremos la función Endriw y te pasaremos eso Y luego imprimiremos la primera preimpresión. Veamos los datos. Entonces este es el año ID, nombre de usuario y contraseña. Entonces esta es la base de datos de archivos cosa que contiene el ID de usuario, nombre de usuario y contraseña. ¿Bien? Entonces hay 982 Raj, bien, sin editar dos filas o la S. Entonces ahora vamos a comprobar que la contraseña no debería ser. Para resolver. Esa es una regla. Entonces, si echamos un vistazo a los primeros usuarios de preimpresión, ya vemos estable alguna contraseña mala Esta contraseña es mala, esta contraseña es mala. Esta contraseña también está de vuelta. Casi todos los Password en estos roles son malos, ¿verdad? Pero no nos adelantemos. Puede comenzar a marcar Contraseña manualmente. ¿Qué es lo primero que ordenamos verificar de acuerdo con la publicación especial del NIST, 800 C3b, cuando tu primera celda solicita llorar Suzanne, memoriza secreto para tener al menos ocho caracteres Bien, entonces la contraseña de los usuarios no debería ser para ordenar. Entonces comencemos comprobando eso. Entonces, lo que haremos, comprobaremos la longitud de la Contraseña. Lo primero. Entonces para eso, lo que voy a hacer, voy a crear una longitud enorme, una variable, y aquí usaré la longitud del subrayado STR Consulta la longitud de la contraseña aquí. Revisaré la parte de longitud que solo vas al útero y Dataset y la contraseña y comprobaré cuál es la longitud de la Contraseña. Bien. Bien. Entonces y que Alice dijo en el, solo prestas y luego voy a crear otra variable que solo para ordenar, para ordenar. Él lo puso a ordenar cuando es para comenzar cuando el usted acaba de longitud esta longitud. La longitud que calculamos a partir del campo Contraseña. Si eso es menos de ocho, marcaremos esto como para ordenar, ¿de acuerdo? Y luego imprimiremos la suma hasta la fuente. ¿Cuántos hay? Lo resumirá e imprimirá. Bien, entonces vamos a ejecutar esto. Así que nos vemos, hay 376 Password en esta base de datos, este Dataset, que está teniendo que ordenar menos de ocho caracteres y ver que haces ordenar false. Se trata de más de ocho caracteres, 3368. Esto también, esto es cierto. Entonces se trata de siete caracteres, seis caracteres. Entonces esos Password WeChat de menos de ocho caracteres, se marcan tratan como una herramienta para ordenar por L2 Bien, entonces ahora tenemos la manera más pounder de marcar la contraseña podemos tener menos de ocho caracteres La siguiente comprobación son las contraseñas comunes. La gente enorme apoya esto. Vamos a usar la lista de 10 millones de contraseñas Bien, Así que comprobaremos con esta lista si la contraseña es de esta lista o no. Bien. Entonces ya esta regla de muestra, pareja plana de delincuentes entre los 12 primeros días de publicación especial al día siguiente, se trata de un SSD tres V's el papel que cuando se dispara vender, comparar los posibles secretos contra la lista que contenidos de Valores conocidos por ser de uso común, contraseña esperada o comprometida por adelantado de los cadáveres de incumplimiento anteriores Bien. Entonces estas son la parte deja, la contraseña común que la gente usa, la filtrada Así que las palabras del diccionario se repiten en segundos. Vamos a caracteres pueden acceder a palabras específicas, como nombre del servicio, nombre de usuario, derivado. Bien, todo esto, piénsalo. Para contraseña común. Vamos a leer las líneas de este archivo, es decir 10 millones de contraseñas lista punto archivo TXT. Y luego veremos la lista de contraseñas comunes. Bien, así que solo en esa lista. Entonces estos son los comunes Contraseña como 123456 o alguien podría Contraseña es igual a Contraseña I Bien, entonces todos estos superman, todos Jada y Jennifer, Jolly robot. Entonces estas son las contraseñas comunes que la gente usa. Por lo que vendemos son amplios. Almacenan contraseñas no deben ser la Contraseña común. ¿Cómo verificamos eso? Por lo que necesitamos marcar todas las Contraseñas en nuestra base de datos de usuarios que se encuentran entre los primeros, los inteligentes. Ya usaste Contraseña son la contraseña común, bien. Para eso, voy a usar, voy a crear una variable llamada dollar common passwords. Entonces voy a crear un campo llamado contraseña común en la base de datos del usuario. Y esto será si la contraseña dentro de esta contraseña común, contraseña está dentro de esta contraseña común. ¿Bien? Si jet Password está dentro de la contraseña común, la marcará como contraseña común y luego veremos cuántas contraseñas comunes hay. Entonces veamos. Así que ve tus 129 contraseñas en nuestra base de datos o las contraseñas comunes que la gente ha usado. Ver aquí. Estos son los comunes Password March Tom Murphy Bien, entonces ahora hemos encontrado contraseña común. Ahora lo siguiente veremos cómo podemos tomar eso por una contraseña o no, porque las contraseñas no son contraseñas muy comunes, ¿verdad? Hasta el momento que crearemos una variable peor y leeremos líneas de los 10 mil textos en inglés de Google. Entonces vale la pena ese corpus de vodka premium de Google que Google nos ha dado, bien, este archivo, y luego veremos si la gente está usando palabras comunes en su contraseña. ¿Bien? Entonces usaremos el subrayado STR para bajar la función, para bajarla. Y luego comprobaremos dentro de esto hacia si está ahí o no. Y luego vamos a la pestaña de resumen y encontraremos cuántas personas están usando palabras comunes. Contraseña. Entonces las contraseñas CR1 37 están teniendo palabras comunes en ellas. Bien. Lo siguiente es Contraseña no se repetiría a la Predicción. Entonces, ¿cómo comprobarlo? Entonces primero partiremos lo peor. Usaremos la división de subrayado STR y dividiremos la contraseña, bien, y luego seleccionaremos los caracteres repetidos operativos máximos que trazan los caracteres repetidos operativos máximos cada Contraseña Entonces crearé repeticiones de subrayado máximo. Y voy a usar aplicar la función aquí y voy a pasar esta lista Contraseña aquí. Y luego función, dividirías subrayado Contraseña y max es igual a RLE, dividir Y luego encontraremos la longitud. Y si demasiadas repiten, vaya, voy a almacenar en eso demasiadas repeticiones Si es mayor que, para, mayor o igual a cuatro, igual a Más, Más o igual a cuatro. Bien, entonces vamos a enchufarlo. Entonces mira aquí. Repetición máxima a máx., repetir uno, grado máximo 31. Bien, entonces ahora lo que vamos a hacer, voy a poner todos estos juntos. Y fuimos todos los gustos básicos por mala contraseña. Ahora tenemos mala contraseña. Ahora ya veremos, vamos a armar todo. Voy a crear una contraseña mala valiosa y comprobaré si es para ordenar nuestra contraseña común o palabra común, o demasiadas repeticiones son demasiadas repeticiones. Muchas repeticiones he agregado dos veces. ¿Bien? Y si, si alguna de estas condiciones es cierta, marca que la contraseña tiene una contraseña mala y luego veremos cuántas contraseñas malas estamos obteniendo. Entonces veamos, ya ves, ahora estamos viendo esta mala contraseña y aquí pocas contraseñas se han marcado como verdaderas Contraseña mala, verdad. Entonces esta co, esta es la normal, esta es la palabra común, Commonwealth. Por lo que estos se marcan como una bandera Datos mala contraseña. De esta manera podemos escribir un código para encontrar la contraseña mala o la Fuerza de Contraseña usando odd 121. Introducción al aprendizaje automático: Hola y bienvenidos de nuevo. En esta conferencia, vamos a aprender sobre el aprendizaje automático. Ahora, hemos visto cómo podemos usar nuestra programación para la visualización de datos y análisis de datos. Ahora, a partir de ahora, aprenderemos sobre el aprendizaje automático. Empezaremos con los conceptos básicos del aprendizaje automático. Veremos cómo funciona el aprendizaje automático. ¿Cuáles son los tipos de aprendizaje automático, cuáles son las aplicaciones del aprendizaje automático? Bien, entonces veremos cuáles son los procesos de hacer machine learning, cómo aplicamos algoritmos, cómo creamos, modelamos, cómo evaluamos. Bien, comencemos con una introducción al aprendizaje automático, desbloqueando el poder de los datos Empecemos con la definición de aprendizaje automático. Utilizando el mundo impulsado por datos, las máquinas están desempeñando un papel cada vez mayor para dar sentido a la gran cantidad de información a nuestra disposición. Como saben, en esta era digital, estamos obteniendo datos, giros de datos cada segundo, giros de datos cada segundo, ya sea en la industria de la aviación, ya sea en las redes sociales en todas partes, en los negocios, en el comercio electrónico, en el aprendizaje, en la farmacia, en el campo médico, en todas partes. Cada segundo estamos obteniendo una gran cantidad de datos. Esos datos no son los datos normales que usabas para almacenar en tablas Adim, sino que son los big data No están en un formato muy estático. Están en un formato muy dinámico. Serán imágenes, serán imágenes. Todas esas cosas, estos datos dinámicos de datos son muy difíciles con una forma tradicional. El aprendizaje automático es un subconjunto de la inteligencia artificial que ha surgido como una fuerza transitiva, empoderando a las computadoras para aprender y adaptarse a partir de datos, para realizar tareas sin programación explícita Ahora, ya que tenemos muchos datos en nuestra dispersión, si no podemos obtener información de los datos, sirve de nada si está recibiendo miles de comentarios del cliente o consumidor o nuestro usuario final Y si no estás trabajando en eso, si no sabes cómo trabajar en eso, entonces no sirve de nada, ¿verdad? No mejoraremos nuestros procesos, nuestros productos, nuestros servicios con la aparición de la ciencia de datos inteligente artificial, el aprendizaje automático, el análisis de datos. Lo que podemos hacer, podemos aprender de los datos, podemos explorar los datos, y podemos obtener la información relativa buena de los datos. Y podemos adaptarnos según los datos. Podemos analizar, podemos impulsar la decisión a partir de los datos. En ese caso, antes solíamos hacerlo nosotros mismos, pero debido al aprendizaje automático y la inteligencia artificial, ahora podemos empoderar a las computadoras para que aprendan de los datos y adopten para realizar tareas sin programación acelerada Ni siquiera necesitamos escribir el programa. Hace pre retail y podemos entrenar a los modelos. Y va a dar inicio a trabajar para nosotros menos entendernos menos entender aprendizaje automático en un poco más de detalle. En esencia, el aprendizaje automático consiste crear algoritmos que permitan a las computadoras aprender de los datos y tomar decisiones o predicciones basadas en el conocimiento tecnológico. A diferencia de la programación tradicional, donde los humanos instruyen explícitamente a las computadoras sobre qué hacer, aprendizaje automático permite que los sistemas mejoren su rendimiento y de manera autónoma a través Esto se logra a través de los siguientes componentes clave. Los algoritmos de datos, el entrenamiento del modelo, evaluación y pruebas, y luego el despliegue. Estas son las cosas que hacemos en el aprendizaje automático. Primero obtenemos los datos, luego sobre esos datos aplicamos algoritmos, luego entrenamos y luego evaluamos y probamos el modelo. Y luego si al modelo se le da lo requerido y los resultados, entonces desplegamos en producción bien sobre lo que son los datos. Los datos son el elemento vital del aprendizaje automático. Si no hay datos, no hay aprendizaje automático, no hay IA. Debido a que el aprendizaje automático, la ciencia de datos de IA, todo depende de los datos. Un montón de datos. Los datos ahí, serán beneficiosos más, Será eficiente machine learning, inteligencia artificial, deep learning. Todas estas cosas son todas dependientes de los datos. Los datos son la sangre del aprendizaje automático. Si no está ahí, el aprendizaje automático no será caminar, algoritmo no estará caminando. Los algoritmos aprenden patrones y relaciones a partir de datos históricos o en tiempo real, que sirven como campo de entrenamiento para esos sistemas, algoritmos que aprendemos y aplicamos. Aprenden del patrón de algoritmos y la relación a partir de los datos que utilizamos para entrenar modelos de aprendizaje automático. Para que cuando lleguen los nuevos datos, ellos predecirán con base en los datos históricos en los que hemos entrenado al sistema. La calidad y cantidad de datos son factores críticos en el éxito del modelo de aprendizaje automático. Los datos que estamos obteniendo deben ser significativos. Si los datos no son significativos, los datos no se mejoran, los datos son muy claros, entonces los modelos de aprendizaje automático no serán muy vagos Primero, tenemos que trabajar en los datos. Los datos deben ser muy limpios, precisos de que los modelos de aprendizaje automático funcionen de manera efectiva. Algoritmo algoritmo, algoritmos de aprendizaje automático son motores matemáticos que procesan datos. Los algoritmos son en realidad una matemática detrás. Trabajan en los datos y procesan los datos, identifican los patrones en los datos, y luego con base en esos patrones hacen las predicciones o decisiones. Estos algoritmos se pueden clasificar en varios tipos, incluyendo aprendizaje supervisado, no supervisado, aprendizaje de refuerzo, cada uno adecuado para diferentes tareas Los algoritmos y como la forma en que aprenden de los datos, la forma en que aprenden de los datos, leen los datos son diferentes tipos que aprenderemos mientras estaremos viendo los diferentes tipos de aprendizaje. Bien. Cuál es el modelo de entrenamiento Durante el entrenamiento, modelo de aprendizaje automático se expone a datos y aprende a reconocer patrones. Cada dato tendrá algún patrón. Si miras los sitios web de aprendizaje, si recogen los datos, van a estar llegando a saber que el usuario viene al sitio web. Están haciendo clic en algo luego en función si están comprando un pan que están comprando, pero están comprando azúcar, están comprando la E, los algoritmos de aprendizaje automático o el modelo. Cuando llegó a los datos, llegó a los datos, verá ese patrón. Si una persona compra un pan, la persona también está comprando la mantequilla la hora de comprar el pan y la mantequilla es también cuando está comprando el té, también comprando el azúcar de la leche. Este es el patrón reconocido por el modelo. Y luego el modelo ajusta su parámetro para minimizar el error o desviación del resultado esperado. Evaluación y pruebas. Evaluación y pruebas. Después del entrenamiento, se evalúa el modelo. Cuando se entrena el modelo, el modelo se evaluará utilizando el conjunto de datos separado. Supongamos que tenemos un conjunto de datos, entrenaremos nuestro modelo en ese conjunto de datos en particular. Y diremos que reconozcan el patrón, como Brad, cuando persona compra Brad, compra Pero tenemos que predecir qué usuario puede comprar a continuación. Cuál será el comportamiento, qué producto podemos coserle. Entrenamos en un conjunto de datos y luego probamos y evaluamos el modelo en otro conjunto de datos para que podamos llegar a conocer su rendimiento y capacidad de generalización se requiere un ajuste fino y una optimización A menudo se requiere un ajuste fino y una optimización para mejorar la precisión. Después de eso, afinamos el modelo y optimizamos el modelo y los algoritmos para mejorar la precisión de la implementación del modelo de aprendizaje automático. Una vez que el modelo es confiable, se puede implementar en aplicaciones del mundo real para hacer predicciones, automatizar decisiones y proporcionar recomendaciones. Te habrías encontrado todas estas cosas como en Amazon flip card way. Cuando veas cuando compras un producto, el sistema automáticamente comenzará a recomendarte nuevos productos en función de tu comportamiento anterior o producto anterior que hayas comprado Te recomendará nuevo cuando veas Netflix. Si ves una película de comedia, próxima vez cuando vayas a Netflix. Empieza a recomendarte las nuevas películas de comedia, ¿verdad? Ha reconocido tu patrón de verlo en modelos de aprendizaje automático, detrás de Netflix, Amazon, todas estas cosas, empiezan a recomendarte los nuevos productos, películas, todas esas cosas, ¿bien? ¿Cuáles son las aplicaciones del aprendizaje automático? El aprendizaje automático ha encontrado aplicaciones en una amplia gama de industrias y dominios, revolucionando la forma en que abordamos Aquí hay algunos saltos notables. Utilizamos el aprendizaje automático en el cuidado de la salud. Ayudas de aprendizaje automático, planificación de diagnóstico, descubrimiento de medicamentos y medicina personalizada mediante el análisis de datos médicos, imágenes y secuencias genómicas. En finanzas, impulsa algoritmo del sistema de detección de fraude, el comercio algorítmico, calificación crediticia, la evaluación de riesgos y ayuda a las instituciones financieras a tomar decisiones basadas en datos en el comercio electrónico Los sistemas de recomendación que ya he discutido utilizan el aprendizaje automático para sugerir productos, experiencia de sopping personalizada y optimizar la estrategia de precios Vehículos autónomos, el aprendizaje automático es parte integral de los autos autónomos. Permitirles percibir su información, momento tomar decisiones y navegar con seguridad a través de un ejemplo. procesamiento de lenguaje natural de autos, Las aplicaciones de procesamiento de lenguaje natural de autos, PNL y LP incluyen traducción de idiomas, análisis de sentimientos, tableros de chat y relación de voz, haciendo que la interacción humana con computadora más fluida y L de uso de creación hoy fabricación, el mantenimiento predictivo y control de calidad se mejoran a través del aprendizaje automático. Reducción del tiempo de inactividad y defectos en los procesos de producción. La ciencia ambiental, el aprendizaje automático se utiliza para modelar el clima, predecir tendencias ambientales y analizar datos ecológicos La importancia del aprendizaje automático del aprendizaje automático se extiende más allá de sus explicaciones. Tiene potencial para acelerar la decisiones, mejorar la eficiencia, descubrir conocimientos, personalizar su experiencia e innovación aprendizaje automático fomenta la innovación al abrir nuevas posibilidades en campos como la robótica, realidad virtual y la realidad aumentada, podemos descubrir los nuevos conocimientos a partir de los datos utilizando el Lo que concluimos con que ese aprendizaje automático representa un avance tecnológico puesto, Eso es remodelar las industrias, fomentar la innovación y mejorar los procesos de toma de decisiones en los datos sigue creciendo en volumen y complejidad aprendizaje automático jugará un papel cada vez más central en la extracción de valor e inteligencia de este mundo rico en datos. A medida que profundizamos en este campo, exploraremos sus diversas técnicas, algoritmos y aplicaciones con mayor detalle, desbloqueando todo el potencial del aprendizaje automático Al final de esta conferencia, veremos más de aprendizaje automático en las próximas conferencias. Gracias. 122. El papel del aprendizaje automático: Hola y bienvenidos de nuevo. En esta conferencia vamos a aprender sobre el papel del aprendizaje automático en la ciencia de datos y la inteligencia artificial, transformando los datos en insight. Ya hemos aprendido sobre los conceptos básicos de la ciencia de datos y el aprendizaje automático, pero entenderemos poco cómo podemos visualizar los datos utilizando el aprendizaje automático y la inteligencia artificial. Y cuál es la significación de los datos en estos campos. Ciencia de datos e inteligencia artificial, dos de los campos más transformadores del panorama tecnológico moderno Dentro de estos dominios, el aprendizaje automático juega un papel fatal en la extracción de conocimientos accesibles, automatización de procesos y la habilitación de datos que impulsan la toma de decisiones En esta conferencia, exploraremos la intrincada e intrincada relación entre el aprendizaje automático, la ciencia de datos y la IA, y cómo contribuyen colectivamente a la evolución de la tecnología ciencia de datos es el campo interdisciplinario que combina diversas técnicas y procesos para extraer sitios de conocimiento a partir de datos estructurados y no estructurados Déjame darte un poco de claridad sobre los datos estructurados y no estructurados Los datos estructurados son los datos que están muy estructurados de manera que tenemos las cosas predefinidas para almacenar los datos, como lo hacemos en la base de datos carámbanos o la base de datos relacional tradicional Cosas donde hemos definido cosas como que habrá nombre, habrá una, habrá dirección. Ahí estará el producto que compró. La fecha, se definirá y en forma tabular. ¿Bien? Y será un dato que se definirá. Será un texto o imagen o lo que sea, ¿verdad? Pero cuando miramos esta cosa, los datos desestructurados. Los datos no estructurados son muy comunes en estos días por el surgimiento de las redes sociales, Internet, comercio electrónico, industria de la aviación En todas partes, obtenemos una gran cantidad de datos no estructurados. Los datos de datos no estructurados no están definidos. Los datos vienen de varias maneras. Al igual que, a veces viene en forma de chat. En el chat, estamos compartiendo el texto, estamos compartiendo las imágenes, estamos compartiendo las imágenes. Estamos vendiendo los archivos, estamos compartiendo los videos, estamos compartiendo las animaciones. Podría ser cualquier cosa. Los datos no están definidos. Los datos son estructurados, de naturaleza no estructurada. Con las cosas tradicionales, es muy difícil la información de los datos, almacenar los datos u obtener información significativa de la parte de datos. Con el big data y la ciencia de datos y el aprendizaje automático de IA, es muy fácil analizar, almacenar y obtener información de esos datos no estructurados que obtenemos de las redes sociales, del comercio electrónico, sitios web, de nuestro negocio Eso es bastante fácil hoy en día, extraer conocimiento y perspicacia de los datos no estructurados que hacemos con la ciencia de datos Abarca una amplia gama de actividades, incluyendo la recolección de datos, cómo recopilamos los datos, el procesamiento previo de los datos, cómo preprocesamos los datos antes de trabajar en ellos, luego cómo hacemos el análisis de los datos Esa es la parte de análisis de datos que veremos y la visualización de datos puede visualizar los datos. El objetivo principal de la ciencia de datos es convertir los datos brutos en información accesible e informar las decisiones estratégicas de negocio. Cada negocio que tiene muchos datos históricos, si no aprende de los datos históricos, como si estuviéramos dirigiendo un negocio de ropa, sitio web de comercio electrónico donde vendemos la tela, no sabemos lo que tenemos. Los datos que algunos de la junta directiva, los productos no están vendiendo, algunos de los productos son más vendidos. Si no estamos obteniendo esa información de los datos anteriores, entonces no podremos recomendar el nuevo producto, nuevos diseños, a los clientes. Con la ayuda de datos históricos, tomamos las decisiones y podemos hacer que nuestras estrategias estratégicas sean robustas y más accesibles. Bien, el papel crucial del aprendizaje automático en la ciencia de datos. aprendizaje automático es el subconjunto de IA que se enfoca en desarrollar algoritmos y modelos que permitan a las computadoras aprender y tomar predicciones o decisiones sin ser programadas explícitamente. Así es como el aprendizaje automático mejora la ciencia de datos, el análisis de datos y la predicción. Los algoritmos de aprendizaje automático pueden analizar grandes conjuntos de datos para descubrir tendencias de patrones ocultos y relaciones centrales entre los datos. Esta capacidad es fundamental para hacer predicciones, ya sea en el pronóstico de ventas predicciones de rotación de clientes, o incluso el diagnóstico de dígitos En campos médicos, el aprendizaje automático de preprocesamiento de datos automático puede automatizar las tareas de preprocesamiento de datos como valores faltantes, imputación, detección de valores atípicos, escalado de características, ahorro de importancia científica de datos, ahorro de importancia científica de datos La ingeniería de características puede ayudar en selección de características y la ingeniería ayudando a identificar las variables más relevantes para el modelado productivo, la clasificación y la agrupación en clústeres Los modelos de aprendizaje automático como las máquinas vectoriales de soporte disidente, los algoritmos de clustering se utilizan ampliamente en la ciencia de datos para tareas como segmentación de clientes y clasificación de imágenes que ya hemos discutido sistema de recomendación ya hemos discutido películas, sistema de recomendación de productos Estos sistemas de recomendación se pueden mejorar muy fácilmente con el aprendizaje automático. filtrado colaborativo y los sistemas de recomendación basados en contenido son impulsados por el aprendizaje automático, proporcionando recomendaciones de personajes en comercio electrónico y plataformas de contenido como Netflix, lenguaje natural, lenguaje natural, procesamiento del lenguaje natural, técnicas de PNL Un subconjunto de aprendizaje automático permite el análisis de sentimientos, clasificación de texto y el desarrollo de paneles de chat Mejorar los datos impulsando la información a partir de datos textuales, visualización de datos aprendizaje automático puede ayudar a generar visualización de datos interactiva e informativa, haciendo que los conocimientos complejos sean más accesibles. La sinergia de la IA y el aprendizaje automático. Si bien la ciencia de datos se centra principalmente en extraer información de los datos, IA amplía las capacidades del aprendizaje automático para realizar tareas y, por lo general, requiere inteligencia humana. El aprendizaje automático es la fuerza impulsora detrás de muchas aplicaciones de IA, lo que permite que el aprendizaje automático imita las funciones cognitivas humanas Así es como el aprendizaje automático cierra la brecha entre ciencia de datos y la automatización impulsada por IA. Los algoritmos de aprendizaje automático automatizan diversas estadísticas, diversas tareas desde el reconocimiento de imágenes en vehículos autónomos hasta la traducción de idiomas en tableros de chat. Haciendo que las aplicaciones de IA sean más eficientes y accesibles con la ayuda del aprendizaje automático en términos de los supuestos vehículos autónomos, cuando podemos entrenar al modelo, como cuando ve la señal, podemos alimentar la imagen de la señal, ya sea roja, verde o amarilla. Con base en el signo de la señal, el auto automatizado puede detenerse cuando ve la señal roja. Se puede mover cuando está viendo la señal verde. Todas esas cosas que podemos entrenar con la ayuda de la personalización de IA El aprendizaje automático permite que los sistemas de IA brinden una experiencia personalizada, como contenido personalizado, recomendaciones de contenido, campañas y campañas de marketing personalizadas, e incluso planes de tratamiento de atención médica. Análisis predictivo, impulsé análisis productivo impulsado por el aprendizaje automático. La organización de salud anticipa capacita el comportamiento del cliente, fallas en los equipos, lo que permite la toma de decisiones proactiva. Podemos hacer el análisis predictivo y podemos adivinar cómo van nuestros trenes, qué comportamiento de los clientes son y cómo les gustará a los clientes el nuevo producto. decisiones mejorada, los algoritmos de aprendizaje automático ayudan al sistema de IA a tomar decisiones informadas mediante el análisis vastos conjuntos de datos en tiempo real, reduciendo el error humano, procesamiento y comprensión del lenguaje natural y los modelos LP. Un subconjunto de aprendizaje automático permite que el sistema de IA comprenda y responda a las aplicaciones de manejo del lenguaje humano, como las ollas virtuales para gatos. En conclusión, podemos decir que el aprendizaje automático es el eje que conecta los conjuntos de datos y yo, transformando los datos brutos en insights procesables Y permitiendo que el sistema de inteligencia artificial realice tareas que antes se pensaba que eran sueño de inteligencia humana. Significa que el aprendizaje automático será la parte crucial para obtener la inteligencia humana en las máquinas antes, las cosas que eran solo para que el único humano pueda hacer. Ahora es posible con el aprendizaje automático, la ciencia de datos y yo, nuestras máquinas pueden hacer el trabajo que el ser humano puede hacer con lo muy preciso. A medida que la tecnología continúa avanzando, la relación simbiótica entre la ciencia de datos, aprendizaje automático y la IA continuará salvando nuestro panorama digital e impulsando la innovación en diversas industrias De pie, el papel del aprendizaje automático es esencial para cualquier persona interesada en el mundo dinámico y en constante evolución de los datos y la inteligencia artificial. Es por ello que se debe entender la relación entre estas ciencias de datos, aprendizaje automático entre estas ciencias de datos, aprendizaje automático e IA para adquirir conocimientos en este campo. Espero que hayas entendido cuál es la sinergia de la IA y el aprendizaje, cuál es el papel del aprendizaje automático y la ciencia de datos. Nos reuniremos en la próxima conferencia y discutiremos algunas cosas más sobre el aprendizaje automático. Gracias. 123. Tipos de aprendizaje automático: Hola y bienvenidos de nuevo. En esta conferencia, vamos a aprender tipos de machine learning, tipos de machine learning. Lo veremos como una visión general muy completa. Empecemos ahora. Tenemos la comprensión básica de qué es el aprendizaje automático, cómo se relaciona con inteligencia artificial y la ciencia de datos, las cosas en general. Bien, vamos a revisar un poco más una vez más. aprendizaje automático, un subconjunto de inteligencia artificial, ha transformado la forma en que las computadoras pueden procesar información y tomar decisiones. Lo que entendimos, ¿verdad? Es parte de la inteligencia artificial. Si miras el panorama más amplio, ciencia de datos es el panorama general. Debajo de eso viene la inteligencia artificial y debajo de eso viene el machine learning. Aprendizaje profundo, todas esas cosas. Bien, el aprendizaje de escenas es un subconjunto de la inteligencia artificial. Se ha transformado que las computadoras pueden realizar un humano que puede predecir los resultados como humanos y más rápidos que humanos. Esa es la transformación que el aprendizaje automático ha traído a la mesa. Es muy fácil tomar decisiones para las empresas procesando sus datos. Uh, algoritmo de aprendizaje automático haciendo modelos y luego evaluando el modelo. Y luego predicen, y a veces predicen el 100% de una información correcta Bien, los algoritmos de aprendizaje automático permiten que sistema aprenda de los datos. Los datos son la clave. En las últimas conferencias, hemos entendido cómo los datos son el alma del aprendizaje automático, la inteligencia artificial y el ecosistema general de la ciencia de datos Todo depende de los datos. Todo comienza con el algoritmo de datos de datos. Los algoritmos de aprendizaje automático permiten que los sistemas, computadoras o máquinas aprendan de los datos y mejoren su rendimiento a lo largo del tiempo. Sin programación explícita, Necesitas programar cada vez. Solo necesitas entrenar al modelo. Y comenzará a aprender de los datos y mejorará con base en el proceso de aprendizaje por el que ha pasado. Existen varios tipos de aprendizaje automático, cada uno adecuado para tareas y aplicaciones específicas. En esta conferencia, exploraremos las principales categorías del aprendizaje automático y sus características. Bien, comencemos. Básicamente hay siete tipos de aprendizaje automático. El primero es el aprendizaje supervisado, luego el aprendizaje no supervisado, luego viene el aprendizaje semi supervisado, luego el aprendizaje profundo de refuerzo, luego viene el aprendizaje autosupervisado, y luego viene el aprendizaje de transferencia Entonces estos son los siete tipos de aprendizaje automático que vamos a aprender. Primero, comenzaremos con el aprendizaje supervisado. El aprendizaje supervisado es un aprendizaje que podemos relacionar con la clase de aprendizaje de la sala azul donde un maestro supervisó nuestro aprendizaje. Y nos enseña con las imágenes, con el video, con el audio, con las diversas ayudas educativas correctas, que enseñan el aprendizaje supervisado. El aprendizaje supervisado es uno de los tipos más comunes de aprendizaje automático. Implica un modelo de entrenamiento en un conjunto de datos etiquetado donde cada punto de datos se empareja con el objetivo de salida correcto. El modelo aprende a mapear los datos de entrada a la salida correcta mediante la búsqueda de patrones y relaciones. Las características clave del aprendizaje supervisado incluyen. Antes de que veamos las características clave, déjame decirte ¿qué significa? aprendizaje supervisado es el tipo más común de aprendizaje automático. En esto lo que hacemos, supongamos que queremos entrenar a nuestro sistema para que reconozca los rostros humanos. En ese caso, lo que haremos bien, uh, alimentar los datos al algoritmo o modelo de aprendizaje automático con imágenes como humanas. Si es una fase humana, diremos que se trata de un humano. Si es otra cosa, pondremos que esto es fase animal, esta es una fase de dibujos animados, ¿de acuerdo? Alimentaremos tantas imágenes y cada imagen será etiquetada con un nombre. Se etiquetará, bien, Si es un rostro humano, todos los rostros humanos serán etiquetados, serán etiquetados con humanos. Todos los gatos, perros, animales, caras de elefante serán etiquetados de acuerdo a su especificación. Bien, ahora cuando alimentemos los datos a través del modelo de aprendizaje automático, eso, verá, bien, este es el rostro humano, este es rostro humano, este es el ritmo humano. Reconocerá el patrón de un rostro humano y a partir de los patrones que ve en los rostros humanos, aprenderá que si este rostro viene, es un rostro humano. También ve el patrón de otras imágenes que no están teniendo un patrón similar al A los rostros humanos, reconocerá, bien, este patrón pertenece a un gato. Este patrón pertenece al elefante. Este patrón pertenece a los monos. Así, comenzará a aprender después del entrenamiento, cuando alimentemos una nueva imagen que no forma parte de ese conjunto de datos sin etiqueta. Ejecutará los patrones y coincidirá con el patrón que ha aprendido. Cualquiera que sea el patrón que coincida, dirá que, bien, este es el rostro humano O si es un gato, dirá que es una cara de gato. Con base en los datos previos de entrenamiento, reconoce el patrón de una nueva imagen y te dará el resultado, ya sea un rostro humano o no. Así es como funciona el aprendizaje supervisado. Tiene características clave, es decir, clasificación y regresión. Estos son los dos términos muy importantes que debemos recordar y de los que debemos estar atentos. El primero es la clasificación. Clasificación en tarea de clasificación, el modelo predice etiqueta o categorías discretas Por ejemplo, clasificar los correos como spam o no spam. Cuando miras el, puedes ver el correo. Siempre que llegue un correo electrónico, correo se clasificará automáticamente como spam. Eso lo pondrá en la carpeta de spam. ¿Cómo lo hace? Cuenta con algún patrón de alimentación entrenado a los modelos de inteligencia artificial o machine learning para correo que. Si el correo electrónico proviene de esta palabra clave dominios, se clasificará como spam. Si no está en la lista de contactos del receptor, se marcará como spam. Hay muchos correos electrónicos que se han enviado desde esa identificación de correo electrónico en particular en masa a las personas desconocidas. Entonces se clasificará como spam. Así es como funciona la tarea de clasificación. Bien, va a estar teniendo unas categorías específicas que están etiquetadas como spam o North spam o North spam. Mientras que la región, las otras características región en región tarea. El modelo predice valores continuos. Por ejemplo, predecir los precios de las casas en función las características como pie cuadrado y ubicación Con base en el pie cuadrado y la ubicación, pronosticará el precio de la casa. Cuando alimentamos los datos, entrenamos, los datos se alimentarán para esta área en particular. Esta es la tarifa de ubicación premium que será alta en base a eso. Siempre que pongas una nueva ubicación con las nuevas dimensiones de la casa pie cuadrado y todo ello predecirá que, bien, esta casa debería tener este precio. Esta es la región donde vienen los datos numéricos continuos, donde usamos la regresión, donde los datos de clasificación vienen categorías, luego usamos la clasificación. Estos son los dos. Considerar. El siguiente tipo de aprendizaje automático es el aprendizaje no supervisado En el aprendizaje no supervisado, se ocupará de los datos no etiquetados aprendizaje no supervisado se ocupa de datos no etiquetados, donde los algoritmos tienen como objetivo encontrar estructuras de patrones, agrupaciones, dentro Se utiliza para tareas como clustering y reducción de dimensionalidad. Cada característica del aprendizaje no supervisado incluye clustering, algoritmo de clustering, qué hace, agrupa el punto de datos similar en función Por ejemplo, agrupar clientes con un comportamiento de compra similar para la agrupación de marketing dirigida significa suponer que tiene un sitio web de aprendizaje Supongamos que tiene el sitio web e learning donde la mayoría de los clientes están comprando los cursos y marketing, pocos de los clientes están comprando en los cursos de dominio de tecnología. Entonces lo que hará el clustering, agrupará a todos los clientes que hayan comprado los cursos relacionados con marketing a un grupo en particular Los agrupará y la tecnología hará otro cluster, tendremos dos clusters de clientes. uno le interesan los cursos de marketing y otro interesantes cursos de tecnología. Esta es la forma, en base a eso, cuando el nuevo cliente viene con algún comportamiento, lo clasificará, lo agrupará en el grupo particular Luego viene la reducción de dimensionalidad. Estos algoritmos reducen el número de características en los datos al tiempo que preservan la información esencial. Análisis de componentes principales. Pca es una técnica común para la reducción de dimensionalidad. Supongamos que tiene tantas características en nuestro conjunto de datos y eso apuntará datos innecesarios. Reducirá el número de entidades disponibles en el conjunto de datos y se centrará en las principales palabras clave y características y hará el aprendizaje, ¿de acuerdo? Esto se llama Análisis de componentes principales, que es la característica principal de su conjunto de datos. Cuál es la característica principal que está afectando al objetivo, afectando el resultado que encontraremos en el Análisis de Componentes Principales, PCA El siguiente es el aprendizaje semi supervisado. aprendizaje semi supervisado combina elementos tanto del aprendizaje supervisado como no supervisado Aprovecha el conjunto de datos con una pequeña cantidad de conjunto de datos etiquetados y una gran cantidad de datos sin etiquetar Este enfoque se utiliza a menudo cuando la obtención datos etiquetados es costosa y requiere mucho tiempo. Bien, entonces viene el aprendizaje de refuerzo. El aprendizaje por refuerzo consiste en capacitar a los agentes para que tomen secuencias de decisiones en un entorno. Maximizar, en un ambiente, maximizar una recompensa acumulada. Se usa comúnmente en aplicaciones como juegos, robótica y sistemas autónomos Las características clave de los refuerzos, aprendizaje de refuerzo incluyen agente y medio ambiente El agente interactúa con un entorno y aprende al recibir retroalimentación en forma de recompensas o política de castigo Esta política es la estrategia o conjunto de reglas, que el agente sigue para tomar decisiones. El objetivo es aprender una política opcional que maximice las recompensas a largo plazo. Aprendizaje profundo. El aprendizaje profundo es un subconjunto del aprendizaje basal que se enfoca en redes neuronales con muchas capas de redes neuronales profundas. Ha ganado mucha atención y popularidad en los últimos años debido a su desempeño excepcional en tareas como el reconocimiento de imagen y voz. Las características clave del aprendizaje profundo incluyen redes neuronales, redes neuronales artificiales con múltiples capas de nodos interconectados o neuronas. Red neuronal convolucional profunda CNN's. Estos son los comúnmente utilizados para la tarea de reconocimiento de imágenes RNN de redes neuronales recurrentes Estos se utilizan para tareas de datos secuenciales como el procesamiento del lenguaje natural y el análisis de Sage del tiempo Veremos en detalle cuando veamos aprendizaje profundo, el aprendizaje autosupervisado. El aprendizaje autosupervisado es una técnica en la que un modelo aprende de datos sin etiquetas proporcionadas por humanos. En cambio, genera etiquetas a partir de los propios datos. Aprendizaje supervisado, reconocerá un patrón. Marcará los datos como fase humana o Caha. Todas esas cosas que etiquetará por sí mismo, muchas veces creando tarea sustituta Se ha mostrado prometedor en diversas tareas de procesamiento de lenguaje natural y procesamiento por computadora y computadora sion. Luego viene el aprendizaje de transferencia. El aprendizaje por transferencia implica formar un modelo en una tarea y luego usar la ganancia de conocimiento para mejorar desempeño de una tarea relacionada. Es un enfoque práctico cuando se tienen datos limitados para una tarea específica. Ahora, el aprendizaje automático abarca una amplia gama de tipos y técnicas, cada una con su fuerza y aplicaciones. Comprender los tipos de datos es esencial para elegir el enfoque correcto a la hora de abordar diversos problemas del mundo real A medida que el aprendizaje automático continúa avanzando su impacto en industrias como la salud, finanzas, se espera que los sistemas autónomos crezcan, lo que lo convierte en un campo fascinante y dinámico para explorar y dominar. Hay muchas oportunidades en el mercado para el aprendizaje automático, ingenieros, científicos de datos, ingenieros de IA, analistas de datos. Todas esas cosas van a esas cosas y podemos aprender mucho más rápido. Dijiste la siguiente conferencia. 124. Flujo de trabajo de aprendizaje automático: Y bienvenidos de nuevo. En esta conferencia, aprenderemos sobre el flujo de trabajo de aprendizaje automático, cómo tratamos los datos, cómo partimos de los datos y cómo pasamos a los insights de datos. Empecemos. El flujo de trabajo de aprendizaje automático es una poderosa herramienta para visualizar datos. En realidad, hola y bienvenidos de nuevo. En esta conferencia, estaremos aprendiendo sobre el flujo de trabajo de aprendizaje automático. flujo de trabajo de aprendizaje automático consiste en obtener los datos, procesarlos, aplicar los modelos de aprendizaje automático y obtener los conocimientos de los datos. Eso es lo que significa el flujo de trabajo de aprendizaje automático en buscado. En esta conferencia, aprenderemos sobre el flujo de trabajo del aprendizaje automático en detalle. Empecemos, el aprendizaje automático es una herramienta poderosa. El aprendizaje automático es una poderosa herramienta que ha revolucionado la forma en que manejamos los datos y hacemos predicciones y decisiones de que esto es lo que hemos aprendido en pocas conferencias anteriores Sin embargo, aprovechar su potencial requiere un enfoque estructurado conocido como flujo de trabajo de aprendizaje automático En este artículo o en esta conferencia, exploraremos las etapas clave de este flujo de trabajo, destacando los pasos esenciales involucrados en la transformación de los datos brutos en insights valiosos variables. El primer paso es la recolección de datos. recolección de datos es la base del aprendizaje automático o la ciencia de datos porque todo depende del recorrido de los datos. Comienza con la recolección de datos. El paso consiste en recopilar los datos relevantes de diversas fuentes como bases de datos, API o sensores. Estos son los puntos de datos donde recogemos los datos. Un dato tiene un impacto significativo en el éxito de su proyecto de aprendizaje automático. Hacer de la recolección de datos una tarea crítica y, a menudo, que consume mucho tiempo. Como sabes que la mayoría del científico de datos y analista de datos, ingeniero de aprendizaje automático, la mayoría de las veces alrededor del 60% de las veces trabajan en los datos, 40% de las veces trabajan en el código y crean modelos, aplicando algoritmos, evaluando el modelo, todas esas cosas, ¿bien? Pero la tarea del 60% se trata de trabajar en datos y hacerlos viable Después llega a la recolección de datos. El siguiente paso es el preprocesamiento de datos. preprocesamiento de datos significa refinar los datos sin procesar y hacerlos funcionar. Los datos sin procesar rara vez están listos para la carga de la máquina porque si ha recopilado los datos de las fuentes, puede haber muchos problemas en los datos Habrá problema en los datos, faltarán valores, habrá valores duplicados, habrá valores incorrectos, habrá valores faltantes. Tantas impurezas estarán ahí en los datos brutos. Nunca estará listo. Si trabajas con esos datos, no obtendrás el resultado requerido debido a la información que faltan y que se rellenan erróneamente en los datos El procesamiento de datos implica limpiar, transformar y estructurar los datos para que sean adecuados para su análisis. Las tareas clave en esta fase incluyen el manejo de valores faltantes, eliminación de valores atípicos y la codificación de las variables categóricas El siguiente paso viene el análisis exploratorio de datos. En especie, lo llamamos EDA. Esta es una etapa muy crítica porque en EDA entendemos los datos. Antes de sumergirse en el modelado, es esencial entender tus datos, entender tus datos a fondo. La comprensión de los datos es muy importante. Da implica visualizar datos, calcular estadísticas descriptivas e identificar patrones y correlaciones Este paso proporciona información que guían la selección de características y la creación de modelos. El siguiente paso viene, y se llama ingeniería de características. Esto significa que elaborar las características informativas significa si algunas de las cosas están ahí y puedes basarlas en esa información, puedes crear una nueva función ingeniería de características es la ingeniería de características es el proceso de selección, creación y transformación de entidades, es decir, variables de entrada que el modelo de aprendizaje automático utilizará para las predicciones. Básicamente se está trabajando en los datos de entrada. La ingeniería de características experta puede mejorar significativamente el rendimiento del modelo cuanto más mejore el modelo obtendrá. El siguiente tipo es la selección de modelos. Elegir el algoritmo adecuado. Seleccionar el algoritmo de aprendizaje automático apropiado depende del tipo de problema. Es clasificación o regresión. Lo primero que tienes que decidir qué tipo de problema tienes en tu mano. Y luego puedes decidir el algoritmo. Primero hay que pensar si es un problema de replicación clásico o un problema de regresión basado en sus datos y las características de los datos. Los algoritmos comunes incluyen vectoriales de soporte de árbol de decisión máquinas vectoriales de soporte de árbol de decisión y redes neuronales. Todos estos algoritmos los puedes decidir usar en base a tus datos y en base a tu clasificación del problema. Bien, el siguiente viene después de la selección del modelo. El siguiente paso es el entrenamiento de modelos. Aprendiendo de los datos en este espacio. El modelo seleccionado se entrena usando la porción de los datos. Supongamos que tiene las miles de filas de los datos. ¿Qué haces datos, qué tomas? 60, 40% de los datos para entrenamiento y 60% restante los conservarás para las pruebas, la parte de los datos que tomamos y entrenamos nuestro modelo sobre esos datos. Entonces los datos restantes del 60 o 40% que hemos guardado para las pruebas sobre esos datos, estaremos probando el modelo. El modelo aprende a reconocer relaciones de patrones y amigos presentes en el conjunto de datos de entrenamiento. Luego, el entrenamiento implica ajustar el parámetro de los modelos para minimizar los errores o la desviación de los resultados esperados. Con base en el entrenamiento que le damos al modelo seleccionado, afinaremos el parámetro para minimizar los errores o desviación del resultado esperado que es muy crítico. Después pasamos a la evaluación del modelo. Veremos qué rendimiento o qué resultado estamos obteniendo, qué estamos obteniendo, y luego evaluaremos nuestro modelo. Después del entrenamiento, es crucial evaluar el desempeño del modelo. Esto se hace usando un conjunto de datos separado, es decir, la validación o el conjunto de datos de prueba, para acceder a qué tan bien el modelo generaliza los dos datos no vistos Las métricas de evaluación comunes incluyen la precisión, razón, la recuperación y la puntuación F one. Estas son las métricas de evaluación, la precisión, la recuperación de precisión y la puntuación F. El siguiente paso es el ajuste de hiperparámetros, o la optimización de los parámetros del modelo Los modelos de aprendizaje automático suelen tener hiperparámetros que no se aprenden durante el entrenamiento sino que deben establecerse manualmente El ajuste de hiperparámetros implica buscar la mejor combinación de hiperparámetros para optimizar el rendimiento del modelo Entonces llega el paso final, es decir, el despliegue del modelo a la producción, a la producción o al mundo real. Una vez que el modelo se considera confiable y preciso, después de las pruebas, se puede implementar en un entorno del mundo real para hacer predicciones o automatizar decisiones. Esta fase puede estar involucrada integrando el modelo en sistemas o aplicaciones existentes. Como supongamos que tienes el sistema bancario en el lugar donde decides a qué candidato dar el préstamo y cuál rechazar. Y has desarrollado un modelo de aprendizaje automático que te puede dar la decisión como apto o no apto para el préstamo. Tu modelo está dando hasta 97, 98, 99% de precisión. Durante las pruebas, puede implementar en el entorno de producción y puede poner los datos del usuario en eso. Y con base en el análisis de datos del usuario por el que ha pasado la formación mientras se entrena el modelo, puede analizar los datos, los criterios financieros, todas esas cosas. Y puede decidir si podemos emitir un préstamo o no. Estas son las cosas que podemos hacer en lo del despliegue del modelo. Entonces después del despliegue del modelo, el trabajo no es 0, necesitamos monitorear y mantener el modelo. El mantenimiento también es muy importante para el éxito a largo plazo ya que puede estar dando el falso negativo o falso positivo. Todas esas cosas que tenemos que vigilar de cerca que nuestro modelo de sistema es nuestros algoritmos funcionan bien y dan resultados precisos. Los modelos de aprendizaje automático requieren monitoreo y mantenimiento continuos, distribución de datos cambia con el tiempo Porque a veces el modelo, cuando hemos trabajado en el modelo, hemos creado el modelo, el conjunto de datos o los criterios de soporte en el sector bancario. De vez en cuando, obtienes los lineamientos del gobierno. Con base en esos lineamientos, los criterios pueden cambiar. Así que tenemos que seguir monitoreando, uh, y tenemos que seguir mirando los datos y los resultados. Las distribuciones de datos cambian con el tiempo. El desempeño del modelo puede degradarse porque se han cambiado los criterios Puede dar las salidas equivocadas, así que tenemos que monitorearlo. Actualizaciones periódicas y reentrenamiento. Cuando algo cambia, tenemos que volver a entrenar el modelo sobre los nuevos datos para que pueda trabajar en los nuevos criterios cambiados Es posible que sean necesarias actualizaciones periódicas y reentrenamiento para garantizar la precisión continua del modelo Entonces ahora hemos entendido cómo funciona el flujo de trabajo. El flujo de trabajo de aprendizaje automático es un enfoque sistemático para resolver problemas del mundo real aprovechando el poder de los datos Transforma datos brutos en insights procesables y sistemas inteligentes capaces de hacer predicciones y decisiones Comprender y dominar este flujo de trabajo es esencial para los científicos de datos, analistas e ingenieros que buscan aprovechar todo el potencial de Maine para aprovechar todo el potencial del aprendizaje automático en el mundo actual impulsado por datos A medida que la tecnología continúa avanzando, el flujo de trabajo de aprendizaje automático jugará un papel central cada vez mayor en diversas industrias impulsando la innovación y la toma de decisiones informadas. Espero que entendamos cómo funciona el flujo de trabajo de aprendizaje automático desde la recolección de datos hasta el procesamiento de datos, al análisis exploratorio de datos, a la ingeniería de características, a selección de modelos, a la capacitación de modelos, a la evaluación de modelos, al ajuste de hiperparámetros, al despliegue de modelos, al monitoreo y mantenimiento Todos estos pasos son muy cruciales para la implementación exitosa de un modelo de aprendizaje automático. Espero que hayas entendido, nos reuniremos en la próxima conferencia. Gracias. 125. Principio de GIGO: Bienvenido de nuevo. En esta conferencia entenderemos el concepto y principio muy importante que es muy aplicable en el aprendizaje automático y que es muy antiguo concepto de basura en basura fuera gig es un principio que se está utilizando en la industria IQ y el software desde hace muchas veces También es aplicable en el aprendizaje automático. Esto asegurará que la calidad de los datos sea buena y eso se convertirá en el poder de la calidad de los datos. Empecemos. Garbage in, garbage out, go En el ámbito del aprendizaje automático, un principio fundamental es cierto, ya que todos sabemos que la basura, basura fuera, es un concepto muy fundamental. Es decir, siendo por muchos años, basura, basura fuera. Esta frase concisa encapsula un concepto profundo. La calidad de los insumos influye profundamente en la calidad de la producción producida por aprendizaje automático. ¿Qué significa? Significa que los datos, los datos que pones en los modelos de aprendizaje automático que resultan, si ingresas la calidad de los datos precisos limpiados, obtendrás el resultado preciso. Si pones los datos con basura adentro, valores faltantes, información incorrecta, otras cosas, cosa de valores faltantes incorrectos, entonces no obtendrás la buena salida requerida. Los resultados que obtendrás, los descansos que obtendrás van a estar muy, muy mal. Porque todo depende de la cosa de datos que pongas en el sistema que resultan en. Te meterás en una época en la que reinan los datos. Comprensión suprema y apreciación del principio Gig es esencia muy esencial de Idea simple y profunda en su núcleo. El principio Gig es un recordatorio de que no importa cuán sofisticados sean los algoritmos, cuán poderosa sea la infraestructura informática o cuán capacitados sean los científicos de datos, el valor de la salida de aprendizaje automático está vinculado a la calidad de los datos que se alimentan al sistema ¿Qué significa? Significa que sea cual sea el algoritmo, algoritmo fuerte, cuánto codifique, cómo lo hace sofisticado, poderosa la infraestructura informática hoy en día y cuánto científicos de datos calificados, ingeniero de aprendizaje automático, ingenieros de IA. Si los datos no son buenos, todos estos son de uso porque si los datos no son buenos, su experto científico de datos, su infraestructura y sus algoritmos no van a funcionar correctamente. Porque todo depende de los datos. La base debe ser fuerte, base debe ser muy buena, entonces puedes cultivar u. si la semilla no es buena, buena calidad. Una planta no puede crecer de la misma manera. Los datos son la semilla de toda la actividad de aprendizaje automático. Un buen dato, obtendrás el buen resultado. Vas a sacar la buena idea de ello. Obtendrás los buenos resultados. Obtendrás las predicciones de ello. Los datos deben ser buenos, entonces el algoritmo funcionará correctamente, la infraestructura de confort apoyará y el científico de datos podrá obtener los mejores resultados y las predicciones basadas en las cuales puede tomar buenas decisiones comerciales. La calidad de los datos es muy importante. Sentido de clave. Imagina un auto auto manejando navegando por la calle. La ciudad sobre el vehículo depende de sensores y cámara para percibirla. Alrededor, como todos sabemos, ese conductor de auto conductor menos autos básicamente funcionan en las cosas. ¿Cómo trabajo? Yo trabajo pero en la cámara, cámara, cámara ojos del humano para el auto auto que conduce. Y los sensores son los órganos sensoriales para los autos autónomos. Los sensores, lo que recibió, las señales y la cámara, qué ve y qué traduce y combina entre sí. Y creará un ambiente para que la tarjeta de manejo celular avance. Si ve alguna señal roja, debería detenerse. Si ve algunos obstáculos por adelantado, debería detenerse. ¿Verdad? Eso es lo que hacen la señal y los sensores y las cámaras, ¿verdad? Si la A es defectuosa. Supongamos que está poniendo los sensores defectuosos o la cámara ***ses está sucia, o la calidad de la cámara no es buena Si hay una señal roja y la calidad de la cámara o la cámara ***ses están sucias y no es visual correctamente, no se detendrá, chocará contra la señal y puede causar un accidente mortal, ¿ Entonces, los sensores defectuosos y la cámara ***ses, si están sucios, los datos que recogerá a través de los sensores y la cámara, serán inexactos o incompletos, inconsistentes, y sobre eso tomará malas decisiones En consecuencia, el proceso de toma de decisiones del automóvil, como detectar peatones, reconocer las señales de tránsito, se En este escenario, incluso los algoritmos más avanzados no pueden resolver la situación. Es un ejemplo clásico de sacar la basura en la basura. Si pones basura, obtendrás la basura. Si pones los sensores adecuados en su lugar, no pondrás las buenas cámaras. Si el sistema no está recibiendo una buena entrada a través de la cámara y los sensores, los algoritmos y los modelos de aprendizaje automático no podrán predecir nada bueno. Y provocará auto auto auto, causará accidente. Industrias Derecha. Ahora vamos a entender cómo si los datos basura son liberados en, en el sistema, qué impactará en las industrias donde se utilizarán las aplicaciones de IA y machine learning en el aplicaciones de IA y machine learning en el, en el caso de la atención médica, en el diagnóstico médico, la precisión e integridad de los datos de los pacientes son primordiales Eso más importante, mal etiquetado o historial médico incompleto puede llevar a un diagnóstico y recomendación de tratamiento incorrectos Caso de finanzas, las instituciones financieras se basan en datos para tomar decisiones de inversión y ****** riesgo La mala calidad de los datos puede generar pérdidas financieras y estrategias mal informadas En el caso del marketing, las campañas de marketing se basan en información impulsada por datos para el público objetivo. Efectivamente, los perfiles inexactos de los clientes o la información desactualizada pueden resultar en campañas ineficaces y recursos invertidos Es necesario obtener los perfiles de clientes correctos y los datos en el perfil del cliente. Los datos del perfil del cliente deben ser muy, muy recientes para que puedan ser fácilmente dirigidos si una persona así tiene interés en comprar televisión y ese interés fue capturado hace seis meses. Y si estás llamando a ese cliente, bien, quieres comprar, comprar una TV TV. Entonces puede decir que estaba buscando un televisor hace seis meses, ahora ya compré un televisor. Tu campaña de marketing va a entrar, vas a llamar, el cliente va a entrar. Y si te dirijas a un cliente que acaba de comenzar a buscar el televisor y tienes los datos muy recientes en 23 días, aún podría estar buscando el televisor adecuado. Y cuando llamas a ese cliente y le ayudas a decidir comprar un televisor nuevo, podría terminar comprándote un televisor. Esa es la forma en que es el impacto de la basura en la basura fuera. Los datos deben ser recientes y no deben estar desactualizados, y deben ser precisos en términos de recomendaciones de comercio electrónico del comercio. Las plataformas basadas en el comportamiento del usuario son tan buenas como los datos que se ajustan a ellos. Los datos de baja calidad pueden llevar a malas recomendaciones de productos y células perdidas. En el caso del procesamiento del lenguaje natural, aplicaciones de PNL como tableros de chat o análisis de sentimientos, la calidad de los datos de entrenamiento impactan significativamente la capacidad de los modelos para comprender y responder al lenguaje humano Mitigar el papel de la calidad de los datos para mitigar el efecto de Gig y garantizar la integridad de los resultados de aprendizaje automático y la organización debe priorizar la calidad de los datos y cómo pueden priorizar siguiendo los pasos como la recopilación de datos, el riguroso proceso de recolección de datos debe estar en su lugar, riguroso proceso de recolección de datos debe estar en su lugar, incluyendo la validación de datos Al recopilar los datos, no debe recopilar los datos así como así. Debe haber un proceso de recolección de los datos. Después de la recolección de los datos, debe haber una validación de los datos y también se deben seguir los procedimientos de limpieza. Los datos de preprocesamiento de datos de recolección de datos deben procesarse a través de diversas técnicas como el manejo de valores faltantes y la búsqueda de los valores atípicos Muy crítico en nuestro procesamiento de datos. Entonces es muy importante el gobierno de datos, establecer el marco de gobierno de datos para mantener la calidad de los datos a lo largo establecer el marco de gobierno de datos para mantener la calidad de los datos a lo largo de su ciclo de vida. La validación de datos es otro paso muy importante para mitigar el gig que regularmente se valida y verificar la precisión de los datos y consistencia de los datos porque eso es muy importante Al igual que hemos comentado sobre la venta perdida de TV, esos datos no fueron verificados, que han sido 67 meses que el cliente ha mostrado el interés. Eso debería ser muy importante. Tenemos que validar tus datos, qué tan recientes son, qué tan anticuados son, cómo son, qué tan consistentes deben verificarse todas estas cosas. Luego, los bucles de retroalimentación implementan un mecanismo para monitorear y mejorar continuamente la calidad de los datos, relevancia continua de gig medida que avanzamos en el área de big data y aprendizaje automático Al igual que ya nos hemos movido mucho más y ahora tenemos que poner mucho énfasis en el principio Go. principio Gig sigue siendo tan relevante ya que la calidad de los datos seguirá siendo el eje para garantizar el éxito y la confiabilidad de los sistemas I en un mundo donde los datos son abundantes, pero no siempre pero no Adoptar el principio de Guigo es esencial para aprovechar todo el potencial del aprendizaje automático y evitar errores costosos y consecuentes costosos Cuidando el trabajo, hay que tener mucho cuidado Y si te ocupas del trabajo, evitarás errores costosos y const y consecuentes En conclusión, el principio Guigo sirve como recordatorio de la relación simbiótica entre la calidad de los datos y la eficacia de los sistemas de aprendizaje automático Al priorizar la calidad de los datos, las organizaciones pueden el valor de sus inversiones en aprendizaje automático tomar decisiones informadas y mantenerse vanguardia en los datos y el panorama En el mundo del aprendizaje automático, los datos de calidad no son solo un activo. Es la base sobre la que se construyen los sistemas de inteligencia. Eso es algo muy importante de entender. Los datos de calidad no son solo un activo. Se requieren datos de calidad. Los datos de calidad no son solo un conjunto u otro requisito. Es la base sobre la que creamos todos estos sistemas de IA, modelos de aprendizaje automático, modelos de aprendizaje profundo, sistemas de recomendación, todas esas cosas en las que vamos a trabajar y que vamos a utilizar Todo depende de la calidad de los datos. Los datos son la base y lo esencial para el ecosistema de ciencia de datos. Espero que tengas que saber cómo podemos mitigar el concierto y cómo podemos obtener los datos de calidad de datos para nuestros modelos de aprendizaje automático, datos para nuestros modelos de aprendizaje automático Gracias dentro de la próxima conferencia. 126. Algoritmos de aprendizaje supervisado: Hola y bienvenidos de nuevo. En esta conferencia, vamos a aprender sobre el algoritmo de aprendizaje supervisado. Será el camino hacia las predicciones inteligentes a través del aprendizaje automático. Hacemos predicciones inteligentes, ¿verdad? Empecemos. Tenemos la comprensión básica del aprendizaje supervisado. Pero antes de pasar a los algoritmos, entendamos cuál es el concepto fundamental del aprendizaje supervisado. El aprendizaje supervisado es un concepto fundamental en el mundo del aprendizaje automático. Es el rem, donde las computadoras aprenden de datos etiquetados para hacer predicciones. O es el punto de partida de las predicciones, ¿verdad? Lo muy básico es el aprendizaje supervisado. Es decir, proporcionaremos los modelos de aprendizaje automático con los datos etiquetados y esos algoritmos de aprendizaje automático de datos a través como qué tipo de etiqueta tienen los datos. Entonces con base en eso, cuando lleguen los nuevos datos, analizará el patrón aprendido en, mientras se entrena y luego tomará la decisión. ¿Bien? Y sustenta numerosas aplicaciones en nuestra vida diaria. En esta conferencia, veremos más de cerca los algoritmos de aprendizaje supervisado. Explorando lo que son y cómo funcionan, y algunos de los ejemplos comunes de aprendizaje supervisado. ¿Qué es el aprendizaje supervisado? aprendizaje supervisado es el tipo de aprendizaje automático que ya hemos cubierto en la conferencia anterior. Donde se entrena el algoritmo en nuestro conjunto de datos etiquetados. En otras palabras, los datos de entrada se emparejan con la salida u objetivo correcto, el algorgate El algoritmo aprende a mapear los datos de entrada a la salida correcta, aprendiendo efectivamente de los ejemplos. Este proceso de aprendizaje permite que el algoritmo haga predicciones o decisiones cuando se le presenta un nuevo dato invisible La mecánica del aprendizaje supervisado. aprendizaje supervisado se puede dividir en pocos componentes clave. El primero son los datos como los datos son la base de todos estos datos del ecosistema de ciencia de datos, IA, aprendizaje automático. El conjunto de datos de etiquetas sirve como campo de entrenamiento para algoritmos. Incluye ambas entidades de entrada, por ejemplo, atributos variables, todas esas cosas. Y los valores objetivo correspondientes, por ejemplo, etiquetas y categorías. Bien, los datos son el punto de partida. Luego viene la selección del modelo, Un algoritmo de aprendizaje supervisado específico basado en la naturaleza de su problema. Los algoritmos comunes incluyen decisión tres, región lineal, regresión logística, máquinas vectoriales de soporte y redes neuronales. Todos estos son los algoritmos de aprendizaje automático que aplicamos en un modelo modelo. Seleccionaremos en función la naturaleza del problema que vamos a resolver. Capacitación. Durante la fase de entrenamiento, el algoritmo analiza los datos de entrada, aprende a reconocer el patrón que está disponible en los datos, la relación. También, analizará o decidirá límites. Y cuáles son los límites definidos para la toma de decisiones que conducen a la salida correcta. Ajusta iterativamente su parámetro interno para minimizar los errores de predicción Luego viene la prueba y evaluación. Después del entrenamiento, el modelo se evalúa en un conjunto de datos separado que no se usa durante el entrenamiento. Entonces es por eso que dividimos todo el conjunto de datos en dos partes antes de proceder al entrenamiento que es el conjunto de datos de entrenamiento y el conjunto de datos de prueba en el conjunto de datos de entrenamiento, probamos el modelo en el conjunto de datos de prueba. Lo probamos a ****** su capacidad de generalizar a nuevos datos no vistos Varias métricas de desempeño como precisión, recisión y recuerdo se utilizan para el modelo de evaluación después del entrenamiento prueba y evaluación es uno de los pasos muy, muy importantes en el aprendizaje supervisado. Ahora bien, ¿cuáles son los tipos comunes de algoritmos de aprendizaje supervisado que utilizamos durante el aprendizaje supervisado? Cuando seleccionamos aprendizaje, cuando seleccionamos datos, seleccionamos el modelo, seleccionamos el algoritmo. ¿Cuáles son esos algoritmos que utilizamos? Existe una amplia gama de algoritmos de aprendizaje supervisado, cada uno adaptado a diferentes tipos de problemas. Cada algoritmo funcionará en todos y cada uno de los problemas, cada problema. Necesitaremos un enfoque específico para resolver un problema en la vida cotidiana. Además, no se puede resolver todo el problema en un mismo enfoque. la misma manera en el machine learning, mientras se usa el aprendizaje supervisado, no podemos resolver todo el problema a través de un problema de algoritmo. Cada problema específico, necesitaremos una forma específica de abordarlo, ¿verdad? Para el caso, hay muchos algoritmos y en base a nuestro requerimiento, podemos elegir el más adecuado para nuestro problema. Y a veces puede que no estemos seguros de qué algoritmo funcionará. En ese caso, los científicos de datos aplicarían a tres algoritmos. Y analizarán el resultado y las predicciones. Y cualquiera que esté dando las predicciones más correctas, se moverán con ese algoritmo en el juicio es la forma más común de finalizar qué tipo de algoritmo debemos usar en nuestro modelo Aquí hay algunos ejemplos notables, como la regresión lineal, uno de los algoritmos de aprendizaje supervisado muy populares. Entonces la regresión logística, árbol de decisión es muy importante. VMs de vectores de soporte de bosque aleatorio Las VMs de vectores de soporte de bosque aleatorio son redes neuronales muy importantes Y los K vecinos más cercanos. Estos son los muy populares algoritmos de aprendizaje automático supervisado de aprendizaje automático que utilizamos en la resolución de problemas. Utilizando el aprendizaje supervisado, ¿qué es regulación utilizada para predecir valores continuos que también hemos discutido anteriormente ¿Correcto? Hay dos tipos de valores. Valores continuos, significa los valores numéricos y los valores categóricos, donde tenemos las categorías claramente definidas de los datos La regulación lineal se utiliza para predecir valores continuos Aquí. Ahora tenemos muy claro que cada vez que tenemos los valores continuos, necesitamos predecir algunos precios de una acción, precio de una casa de cosas donde están involucrados los números. Podemos usar la regulación lineal. Podemos pensar en la regulación lineal como uno de los algoritmos de resolución de problemas para aprendizaje automático mediante aprendizaje supervisado. Regulación lineal utilizada para predecir valores continuos como los precios de las casas, en función de características como la ubicación de pies cuadrados Asume una relación lineal entre la entidad de entrada y la entidad de destino. En el caso de la predicción del precio de la casa, es una relación bastante lineal. Siempre que vayas a una ubicación premium, tus precios serán altos. Cuando vayamos a las ubicaciones de menor presupuesto, tasa será alta. Si vas por un pie cuadrado área de construcción, entonces el precio de tu casa va a subir pie cuadrado, menos precio. Es una relación lineal entre la entidad de entrada y la entidad de entrada de destino. En este caso, en casa una predicción es pie cuadrado de la ubicación de la casa, ¿verdad? Ya sea una llanta, una ciudad a ciudad. Todos estos son la entidad de entrada y la entidad de entrada. Nuestros precios subirán y bajarán. Este es un enfoque que podemos utilizar, la regulación lineal para valores continuos. El logístico, regationrimarilyedinaryssifbre logístico, problemas donde tenemos una especificación muy clara de que hay una situación de sí o no donde se puede decir sí o no o se puede clasificar en términos de correo electrónico spam o no spam problemas donde tenemos una especificación muy clara de que hay una situación de sí o no donde se puede decir sí o no o se puede clasificar en términos de correo electrónico spam o no spam. Hay una clasificación muy específica que queremos hacer. O queremos categorizar ese correo electrónico proveniente de una persona desconocida como spam o no spam A esto se le llama clasificación binaria, los dos tipos de clasificación que hacemos, spam o no spam. Binario es muy claro que tenemos que poner en para poner en una de las categorías, ¿bien? En este caso, es un spam o no spam, ¿de acuerdo? En caso de aprobación de préstamo, préstamo aprobado o no aprobado, aprobado o rechazado. En el problema de solicitud de préstamo, es binario Clasificación será préstamo aprobado, préstamo rechazado, aprobado y rechazo. Esa será la clasificación binaria. regulación logística modela la probabilidad de que una entrada pertenezca a una clase específica. La clase es spam. Spam, bien, Decisión. La decisión. El algoritmo versátil. Estos son muy versátiles utilizados tanto para clasificación como para regrationasketil Región lineal y región logística somos. De manera que esa región lineal, región lineal que podamos usar para los valores continuos regresión logística, podemos usar para los problemas categóricos o de clasificación Pero a veces los enfoques regionales lineales y logísticos no son lo suficientemente educados para el problema. Necesitamos un mejor enfoque. En ese caso, la decisión Rich entra en el cuadro. Son algoritmos muy versátiles y decentes se pueden utilizar tanto para tareas de clasificación como de región. La decisión crea una estructura similar a un árbol para las decisiones y los resultados basados en la entidad de entrada. Basado en la función de entrada, obtendrá la estructura similar a un árbol. En base a eso se puede predecir la salida. Bosque aleatorio, bosque aleatorio Gimble método de ejecución que combina múltiples árboles de decisión para mejorar la precisión y reducir las máquinas vectoriales, soportar máquinas vectoriales Los svms son muy efectivos para la tarea de clasificación. Sbm encuentra el hiper carril óptimo que mejor separa los puntos de datos pertenecientes a diferentes clases En este caso, estaremos clasificando el, uh, conjunto completo de datos en diferentes clases Y SBM encontrará óptima línea óptima de hiperplano que separará los puntos de datos pertenecientes a diferentes clases diferentes red neuronal, el aprendizaje profundo, las redes neuronales, particularmente alimentan las redes neuronales y las redes neuronales convencionales. cnns son herramientas poderosas para tareas como la recogación de imagen y voz , vamos a resolver un problema de reconocimiento de imagen Tenemos que lidiar con esas redes neuronales en redes neuronales profundas. También tenemos los dos enfoques. Dos enfoques alimentan la red neuronal y la red neuronal convolucional Es decir N. Luego vienen los K vecinos más cercanos utilizados para la clasificación y regresión. Ambos problemas pueden ser abordados por no hace predicciones basadas en la clase mayoritaria o el valor medio del punto de datos K más cercano en el conjunto de entrenamiento Predice los valores basados en la clase mayoritaria o el valor medio del punto de datos K más cercano en el conjunto de entrenamiento Algunos de los ejemplos del mundo real, aplicaciones del aprendizaje supervisado en caso de diagnóstico médico, predicción del resultado G basado en datos del paciente como la detección de cáncer es uno de los ejemplos del diagnóstico médico que utilizamos el aprendizaje supervisado Con base en los datos del paciente, predecimos que sea cáncer o no, procesamiento del lenguaje natural, PNL se utiliza para el procesamiento del lenguaje natural Utilizamos análisis de sentimientos, clasificación de textos y traducción automática Este es también un ejemplo de aprendizaje supervisado. Reconocimiento de imágenes, identificar objetos, rostros y anomalías en imágenes y videos, es decir, reconocimiento de imágenes Otro ejemplo de aprendizaje supervisado, puntaje crediticio, evaluación de la solvencia crediticia de las personas con base en los datos financieros y personales Ese es también un ejemplo de un aprendizaje supervisado que se está utilizando mucho en el sector financiero al acceder a los datos financieros personales y datos personales para definir su puntaje crediticio basado en el puntaje crediticio, deciden que la persona es elegible para préstamo hipotecario, préstamo personal, o un préstamo comercial o no. Luego, los sistemas de recomendación que recomiendan películas de productos se contienen en función de las preferencias del usuario Ese es el aprendizaje supervisado más utilizado hoy en día. En todas partes vemos el sistema de recomendación ser los sitios web de comercio electrónico, Amazon, ebay, voltear todos esos. Recomiendan productos basados en el sistema de recomendación y que internamente utilicen el aprendizaje supervisado. Entonces las películas, Netflix, Hot Star, todas esas cosas están usando sistemas de recomendación. Después el contenido basado en la barda, como anuncios de Facebook, Youtube, videos de Youtube basados en tus referencias. Estas son las aplicaciones del mundo real del aprendizaje supervisado. Ahora lo que podemos citar de esta conferencia es que algoritmos de aprendizaje supervisado son horas de trabajo de aprendizaje automático, permitiendo el aprendizaje de computación, permitiendo que las computadoras aprendan de datos etiquetados y hagan predicciones con notable precisión. Las aplicaciones abarcan industrias, abarcan industrias y dominios, lo que las convierte en una herramienta esencial para extraer conocimientos, automatizar tareas tomar decisiones basadas en datos en nuestro mundo rico en datos A medida que el aprendizaje automático continúa avanzando, los algoritmos de aprendizaje supervisado seguirán siendo una piedra angular de la innovación y la resolución de problemas en los campos de la inteligencia artificial y la ciencia de datos Espero que hayas llegado a conocer los algoritmos de aprendizaje automático súper amplios que utilizamos. Y veremos en la próxima conferencia se, en la siguiente. 127. Regresión lineal: Hola y bienvenidos de nuevo. En esta conferencia, vamos a aprender sobre la regresión lineal, que es fundamental del modelado predictivo. Empecemos. ¿Qué es la regresión lineal? Antes de eso, entenderemos que la regresión lineal es una piedra angular del análisis estadístico y el modelado predictivo, desempeñando un papel fundamental en la comprensión relación entre las variables y la realización En esta conferencia, nos convertiremos en el mundo de la regresión lineal. Explorando sus principales aplicaciones y cómo permite a los científicos de datos bloquear información valiosa de los datos región lineal es muy importante para el científico de datos o incluso para los ingenieros de machine learning, ya que con la región lineal podemos entender y podemos predecir, podemos firmar un modelo mejor productivo. Bien, comencemos de nuevo entendiendo la región lineal. Como dice, la región lineal es método estático utilizado para modelar la relación entre una variable dependiente que se llama x, la variable dependiente que a menudo se denota por y, y una variable independiente más, típicamente denotada x. X. Y será la variable dependiente y x será la Bien, Arión lineal es el método estadístico para definir la relación entre la variable dependiente x y la variable independiente Y. ¿Qué significa cuando cambiamos la x ¿Cómo la Y está cambiando esa relación? Tratamos de encontrar esta técnica de modelado que tiene como objetivo encontrar la regulación lineal que mejor ajuste que describa las variables relacionadas. Con la regulación lineal, tratamos de encontrar la ecuación lineal que mejor se ajuste que pueda definir la relación entre x e y cuando x está cambiando forma en que Y está cambiando esa relación. Se intenta definir por esta ecuación ecuación lineal la ecuación de regulación se denota por y. Queremos encontrar la y, cómo está cambiando en base a la x. La ecuación de regulación lineal es beta 0 más beta en e en x más error Bien, ya veremos cuáles son los beta 0 y beta uno y cuáles son los épsilon, esto es en realidad error Ahora bien, esta ecuación nos dará el valor y cuando pongamos X beta cero y beta uno más error. ¿Bien? Aquí está el independiente, Y es el dependiente, independiente Y es la variable dependiente o la variable objetivo, ¿bien? El valor que queremos predecir en base a la X, bien, es la variable dependiente o variable objetivo que la llamamos, ¿verdad? Y entonces beta cero es la intercepción que representa el valor de Y cuando X es cero, será en la siguiente conferencia, en la siguiente diapositiva, beta uno es la pendiente que indica cuánto y cambia para una unidad de cambio de x y épsilon representa el Este es el término de error que da cuenta de la variabilidad en y que no se explica por la regulación lineal con x Ver aquí, esta es la región lineal, esta es la línea de regración. Ver aquí, esta es la región lineal, esta es la línea de regración Esta es la X que es la variable independiente en la X, X, esta en la y. X está cambiando la forma en que Y está cambiando. Eso es lo que queremos predecir aquí, Eso es lo que queremos definir aquí. Esta es variable dependiente, esta es X variable independiente en esta ecuación, beta cero más beta uno en x Ver aquí, el cero beta es la intercepción independiente. Ver aquí, el cero beta es la intercepción independiente Esta es la interceptación donde está interceptando las y Xs. Eso es lo que es la beta cero. Si consideras este punto aquí, será el beta cero, este será el beta cero. Y beta uno será la pendiente. ¿Cuál es la pendiente? ¿Para el eje x? ¿Bien? Cuánto x, y cambia cuando x1x está cambiando. Cuando x está cambiando, ¿cuánto está cambiando Y? ¿Eso es qué? Beta uno. ¿Bien? Aquí, este es el punto real y esta es la línea de degración Nuestra predicción es ésta. Para x se llama a uno, estamos consiguiendo y aquí. Pero punto real en nuestro conjunto de datos que se encuentra aquí, esta distancia entre este valor predicho y el valor real se llama término de error o error, y denotada por este épsilon cuando agregamos beta cero más beta uno en Un término, nosotros, obtenemos el punto de regración, ¿de acuerdo? Lo entendiste bien. Esta es la línea de regration y esta distancia de pantalla se llama épsilon Y los puntos de tasa son el punto de datos que tenemos, estos puntos de datos, tratamos de encontrar la línea de mejor ajuste, esa es la línea de regración para definir las relaciones entre la x y, ¿de acuerdo las relaciones entre la x y, Aplicaciones de región lineal. La regresión lineal tiene una amplia gama de aplicaciones en varios dominios. Al igual que en la economía, los economistas utilizan la regresión lineal para analizar el impacto de variables como las tasas de inflación, las tasas de interés y el gasto del consumidor en indicadores económicos como las finanzas del PIB En finanzas, la regresión lineal ayuda a modelar los precios de las acciones, predecir los rendimientos de los activos y factores de riesgo de los activos que afectan la inversión. Las carteras de inversión en recursos médicos y médicos se emplean en regresión lineal para predecir el resultado del paciente en función de factores como la edad, genética y el protocolo de tratamiento En marketing, los especialistas en marketing utilizan regresión lineal para evaluar la efectividad de las campañas publicitarias, analizar el comportamiento del cliente, las ventas, las ciencias sociales Los científicos sociales aplican la regulación lineal para estudiar fenómenos como las tasas de criminalidad, los resultados educativos y la tendencia prótica En ingeniería, los ingenieros utilizan la regulación lineal para modelar propiedades físicas como la relación entre la temperatura y la resistencia del material. Construyendo y evaluando modelo de regulación lineal. La construcción de un modelo de regulación lineal implica los siguientes pasos. La recolección de datos, lo primero es recolección de datos recopilada el conjunto de datos que incluye variable independiente y y una variable independiente más X, la variable independiente X e y, necesitamos esta es la recolección de datos. Luego la exploración de datos, explora los datos, usa estadísticas descriptivas y visualizaciones para conocer la relación entre las variables Luego viene el modelo de flexión. Utilizar software estadístico. Utilice software estadístico o lenguaje de programación como Python o R para crear software de regresión lineal, estimar el valor de beta cero y beta uno que mejor se ajuste a los evaluación del modelo es el siguiente paso donde acceder al rendimiento del modelo usando matrices. Métricas como un coeficiente de determinación, R cuadrado medio error cuadrado, o Raíz de error cuadrático medio, RMSC Estas métricas cuantifican qué tan bien se ajusta el modelo a los datos. Interpretación, interpretar el coeficiente beta cero y beta uno Para entender la fuerza y dirección de la relación entre las variables de predicción, utilice el modelo de tendencia para hacer predicciones para los nuevos puntos de datos. ¿Cuáles son los retos para esta región lineal? Si bien la región lineal es una herramienta versátil y poderosa, tiene limitaciones. Asume que un tiempo lineal puede que no siempre se mantenga cierto en escenarios del mundo real. Adicionalmente, puede que no capture relación compleja o no. En conclusión, la regulación lineal es una técnica fundamental en el mundo de la estática y el modelado predictivo Su simplicidad, interpretabilidad y amplia gama de aplicaciones lo convierten en una herramienta esencial para extraer información valiosa de los datos Y tomar decisiones informadas en diversos campos e industrias. Si bien sirve a la, sirve como un escalón para avanzar, avanzar hacia las técnicas avanzadas de modelado. Dominar la regulación lineal es una habilidad fundamental para cualquier científico de datos o analista Entendimos los fundamentos de regresión lineal y cuáles son las aplicaciones para la región lineal, cómo construimos un modelo de regresión lineal y cuáles son los desafíos que tiene. En la próxima conferencia, intentaremos hacer la región usando nuestra programación, ver dentro de la siguiente conferencia. 128. Regresión lineal en R: Hola y bienvenidos de nuevo. En la conferencia anterior, hemos aprendido a detalle sobre la regresión lineal Hemos entendido el concepto en teoría. Ahora haremos un ejemplo sencillo de regresión lineal y veremos cómo podemos implementar la región lineal usando la programación R. R proporciona una amplia gama de paquetes y funciones para el análisis de regresión lineal Aquí te estoy dando una guía para realizar región lineal paso a paso usando programación R. El primer paso debería ser la preparación de los datos. Como los datos son la base para todos los signos de datos, aprendizaje automático, visualizaciones de datos, aprendizaje profundo, lo que sea relacionado con la ciencia de datos El primer paso es la preparación de datos. Los datos son muy importantes. Para ello, vamos a utilizar archivo CSV que va a contener un conjunto de datos muy sencillo. ¿Bien? El primer paso es preparar tu cinta, es preparar tus datos, cargar tus datos en R. Entonces debería estar muy formateado, debería estar teniendo las variables dependientes e independientes. Bien, aquí estamos usando datos, CSP que he cargado Al usar re file en R, todos cargamos. Esa es una función que nos permite leer los datos, bien, De un archivo CSV estoy creando una variable aquí, data. Y estoy usando el archivo CSV para leer los datos de este archivo, y estoy almacenando el resultado en los datos. Bien, vamos a ejecutar esto. ¿Bien? Te proporcionaré el archivo CSV de datos. Puedes descargarla de la clase y puedes usarla, ¿de acuerdo? Es necesario colocar el CSP de datos en el directorio de su proyecto para que lo lea correctamente y le dé la ruta completa a ese directorio Y se leerá, bien. De lo contrario, dará el camino equivocado. Te va a arrojar el error. Bien, archivo, no a, solo todos esos errores que obtendrás. Lo siguiente es que veremos qué hay dentro de estos datos. Usaremos la función head head y pasaremos los datos de este objeto. Y luego cuando ejecutamos esto, podemos ver lo que hay en nuestro conjunto de datos es un conjunto de datos bastante simple que está teniendo x e y. X es la variable independiente e Y es la variable dependiente basada en x. Y está cambiando aquí. Bien, para cada x, trazaremos y e intentaremos encontrar una región lineal. línea de retroceso representará, que representará esta relación entre x e y. Se ajustará mejor para todos estos puntos, puntos, En base a eso, si le das algún otro valor x que no esté ahí en el, predecirá el valor y, ¿bien? Lo siguiente es la construcción de modelos. Para ello, vamos a utilizar la función LM. Función L para modelo lineal. ¿Bien? Lm significa modelo lineal. La función Lm está ahí en la que vamos a utilizar para la regresión lineal o crear el modelo lineal. ¿Bien? Se escribe como función LM LM que utilizamos para construir un modelo de regresión lineal. En este ejemplo, vamos a predecir la variable dependiente y en base la variable independiente x Bien, para construir un modelo de regresión lineal, vamos a crear un objeto modelo aquí. Y luego usaremos la función L M y diremos que X, Y es dependiente de x datos que los datos darán como datos, objeto de datos que hemos creado aquí. ¿Bien? Los datos son iguales a los datos e Y depende de x Ahora vamos a ejecutar esto. Creará nuestro modelo. Ahora quiero ver el resumen de nuestro modelo. ¿Bien? Para eso podemos usar la función summary y pasar este objeto modelo aquí. Vamos a ejecutar esto. Este es el resumen de nuestro modelo. Aquí se puede ver la media residual, mediana y el primer cuartil Tercer cuartil y valores máximos, ¿bien? El valor máximo es 24.469 Bien. Entonces podemos ver el coeficiente estimado error estándar y valor R. ¿Bien? Toda la interceptación, todo lo que se ve, estas son las cosas Veremos cómo solo miras las cosas y veremos cómo podemos determinar las cosas en base a este primer cuartil conocido, tercer cuartil y Bien, el siguiente paso es la evaluación del modelo. Ahora puede evaluar el desempeño del modelo examinando estadística resumida incluyendo los valores del valor del coeficiente R al cuadrado El siguiente paso son las predicciones. Usaremos la función predict para hacer predicciones. Con su modelo, puede especificar un nuevo valor x que no está presente en el conjunto de datos para el que queremos. Predecir el valor y aquí. Vamos a crear un, un nuevo objeto aquí, nuevos datos de subrayado aquí Voy a usar el marco de datos aquí, x. Voy a proporcionarnos 102030 x valores Aquí estoy dando tres valores. Estoy dando 1,020.30 Para estos tres valores, quiero predecir para diez, ¿cuál será la Para 20, qué será, y para 30. Entonces usaré las predicciones. Bien, usaré la predicción. Almacenaré los nuevos valores en las predicciones. Y usaré el modelo predict predict function two, los valores y basados en el valor x. Para ello, usaré nuestro modelo que hemos creado aquí. Bien, en la función alum hemos creado este modelo. Voy a usar ese modelo para predecir los valores. Pasaré el modelo para predecir la función. Y los nuevos datos son iguales a los nuevos datos de subrayado. Los nuevos datos de subrayado que estamos pasando X vector. ¿Bien? Este vector pasará por estos nuevos datos. Ahora esto nos dará los nuevos valores predichos. Bien, ahora tenemos las predicciones. Imprimimos las predicciones aquí. Hagamos esto. Vamos a ver aquí ahora podemos ver el valor de predicción 22.8 para 102,035.5 Déjame poner esto en el chunk para que podamos ver el resultado aquí mismo Ver aquí. Ahora estamos obteniendo los tres valores para y x. Cuando x es diez, estamos obteniendo el valor y, 22.78 Cuando miras los datos aquí, no hay diez, ¿verdad No 2030. Pero ves un 38. Para 38, es 56. 30 está en lo correcto, ¿verdad? Para 20 estamos obteniendo 35.65 Por diez estamos recibiendo 22. Ahora vamos a visualizar esto trazándolo. Usaremos la función plot y nosotros los x e y y daremos el encabezado como región lineal y Xlab e Ylab Alta Intente trazar la línea de región lineal usando la función Able. Para la función Able para trazar la línea de regresión Alec, usamos el modelo que hemos creado y especificaremos el color como el regrlineilllottdlt'seeeow'etlegrelinere usamos el modelo que hemos creado y especificaremos el color como el regrlineilllottdlt'seeeow'etlegrelinere, nuestros modelos de regresión lineal. Ahora, cuando puedas predecir cualquier valor de x aquí para 30, este será el valor de y para 35. Esta será la intercepción. Cuando pones una línea de aquí a aquí y donde está cruzando, ese será el valor predicho, 50 para todas esas cosas. Algunos de los valores están muy lejos de aquí, desde esta línea roja hasta lo que será la distancia para este punto. Eso se llama error, ¿verdad? Épsilon que hemos visto en nuestra parte de teoría, ¿verdad? La distancia entre el punto y la línea de regresión, épsilon o error, Así es como podemos usar la región lineal para predecir el valor. Ahora bien, si tomas algún valor x y pasas por aquí, encontrarás el valor y en esta regresar, los valores predichos. Bien, Ahora la región lineal es una poderosa herramienta para el análisis y predicción de datos , el modelado predictivo Con R, puedes realizar fácilmente lineales, evaluar la relación entre las variables y hacer predicciones basadas en tu modelo. En esto hemos visto la introducción de información básica a la región lineal, pero hay mucho más por explorar incluyendo manejo diagnósticos del modelo de Colinealidad Monte, avanzadas La regresión lineal es solo una faceta del rico panorama del análisis estadístico y el aprendizaje automático que podemos hacer mucho más de estas cosas Veremos algunos ejemplos más también para regresión lineal. Espero que conozcas cómo podemos crear el modelo de región lineal y cómo podemos predecir los valores. Cómo podemos trazar una línea de regresión aquí para predecir los valores ver dentro de la siguiente conferencia 129. Predecir la altura de una persona usando regresión lineal: Hola y bienvenidos de nuevo. En la conferencia anterior, hemos visto cómo podemos crear un modelo de excavación lineal, bien, para predecir valores de Y basados en la X. Bien, Aquí X era la variable independiente e Y fue la variable dependiente. Ahora vamos a avanzar un paso más, un pequeño paso hacia el hijo. En este ejercicio, lo que haremos, trataremos de predecir la altura de la persona usando grados lineales Usando nuestra programación por supuesto. Bien, lo primero es que cuando trabajas en un proyecto, obtendrás el conjunto de datos real. Aquí. Lo que estoy haciendo, no estoy usando los datos del mundo real. En cambio estoy generando un conjunto de datos sintéticos. La mayoría de las veces obtenemos los datos en tiempo real. Pero para la práctica y todo, cada vez, no podemos trabajar en un conjunto de datos muy grande, ¿verdad? En ese caso, lo que hacemos, creamos nuestro propio conjunto de datos, bien, con los valores aleatorios, e intentamos crear modelos y trabajar en él. Bien, luego implementamos lo mismo usando los datos del mundo real. Para este ejemplo, voy a utilizar conjunto de datos sintéticos con valores de edad que van 18-65 Tendremos los valores de edad para las personas de 18 años a 65 años ¿Bien? Y luego lo que haremos, crearemos los valores de altura correspondientes usando una relación lineal. Bien, primero crearemos unos valores de edad, 18-65 Por cada valor intentaremos crear un soporte de altura correspondiente 18 años, persona tendrá la altura, 19 años, sitio así Bien. Crearemos la altura correspondiente aleatoria para la persona de una edad determinada usando una relación lineal. Después agregamos algo de ruido aleatorio. Cada dato nunca será el perfecto, correcto, algo de ruido en los datos. Tendremos alguna irregularidad en los datos. Añadiremos algo de ruido aleatorio para simular con el conjunto de datos del mundo real. Porque en el conjunto de datos del mundo real, nunca tendremos los valores correctos, tendremos el ruido en el conjunto de datos. Debemos tener la ambigüedad en nuestro conjunto de datos. Bien, crearemos esa ambigüedad usando el ruido aleatorio para simular los datos del mundo real Creamos un marco de datos llamado data a partir de las variables H y height Luego realizaremos la grationUsinLMFunction lineal, donde predecimos la altura H Resumimos el modelo de región usando el modelo de resumen. Nosotros hemos hecho todo esto en el ejercicio anterior como lo mismo que vamos a hacer aquí pero en una perspectiva diferente, ¿verdad? El resumen, usaremos el resumen para resumir nuestro modelo de regeneración. Y pasaremos este modelo que hemos creado durante la función Lm y veremos los policías y las estadísticas. Predecimos la altura para un nuevo valor de H. Una vez que creamos un modelo, lo que haremos, pasaremos un nuevo valor de edad, supuesto de 30 años o 35 años, e intentaremos predecir la altura para la edad. Para eso usaremos la función predict. Finalmente, imprimiremos y visualizaremos la regresión lineal, ¿de acuerdo? Predecir la altura y visualizar esa línea de regresión también. Bien, comencemos con lo primero que haremos generará un conjunto de datos sintético. Para eso, estoy usando set 123. Qué va a hacer, establecerá el set para la reproducibilidad, ¿de acuerdo? Cada vez producirá los mismos datos de configuración. ¿Bien? Aquí tomará de la gama 18 a 65. Aquí el alumbrará del 18 al 65. Entonces para la altura voy a 15150 lo convertiré en una línea básica mínima La gente tendrá 150 bien. Altura, 150 centímetros. Entonces tendremos el plus 0.5 en H aquí. Usaremos la función norm aquí. Daremos la longitud de H, luego usaremos el cero medio y la desviación estándar cinco. Esto generará la altura sintética para cada una de nuestras edades. Bien, aquí estamos, pasando la H aquí. Bien, vamos a ejecutar esto. Ahora hemos creado el dataset sintético. Ahora lo que voy a hacer, voy a crear un dataframe. Voy a almacenar en el marco de datos es igual a h, y la altura es igual a la altura. Esta altura, bien, es igual a h es igual a esta. Bien, vamos a ejecutar esto también. Ahora veremos el conjunto de datos, lo que hemos creado. Ejecuta esto, mira aquí ahora para 18. La altura aleatoria. Esto lo hemos generado desde hace 1920 años. Esto, bien. Ahora tenemos el conjunto de datos en nuestras manos. Lo siguiente que haremos, crearemos un modelo de regación lineal para eso Voy a usar una variable aquí modelo y voy a usar la función LM para crear nuestro modelo de ación lineal. Aquí voy a dar altura, altura como el valor que se quiere predecir son variables dependientes y como variables independientes. Y los datos son iguales a los datos. Vamos a crear este modelo ejecutando esta pieza de código. Ahora que se crea, déjame quitar esto. Bien. Eso lo he hecho antes. Bien, ahora nuestro modelo está listo. Ahora nuestro modelo está listo. Ahora, veamos el resumen de nuestro modelo. Aquí puedes ver todos esos valores coeficientes y valor de valor de era estándar, todas esas cosas, ¿bien? Nuestros valores al cuadrado. Bien, Lo que voy a hacer ahora, ya tenemos el modelo listo con nosotros. Quiero predecir la edad de una persona de 30 años. Para eso, voy a crear una nueva era variable. Y voy a usar la función de marco de datos de marco de datos aquí. Pasaré un 30 y luego predije la altura. Quiero predecir la altura para esta persona de 30 años. Voy a usar la función predict. Sobre qué base voy a predecir. Usaré el modelo para predecir la altura. Voy a pasar este modelo que hemos creado aquí usando la función LM. ¿Bien? Y los nuevos datos son iguales a la nueva era aquí. Pasaré la nueva era como 30. Paso esta variable que está conteniendo el valor. Bien, vamos a ejecutar esto. Ahora lo que voy a hacer, voy a tratar de imprimir la altura predicha. Obtuvimos la altura predicha. Si ves aquí, la altura predicha está bien. Déjame correr. Esta altura pronosticada para una persona de 30 años es 165.29 De esta manera hemos pronosticado la estatura de la persona de 30 años Si tienes los datos en tiempo real, puedes usar esos datos aquí. ¿Bien? Derecha. Y entonces puedes predecir, ahora déjame poner algún otro valor como yo quiero poner como datos de persona de 49 años. Ahora es 165. Veamos cuál será el valor para 49, para persona de 49 años, la estatura será 174.84 8,174.47 Entonces esa es la altura predicha. De esta manera podemos predecir la altura. Ahora vamos a trazar aquí la línea de regulación. He escrito un trozo de código donde si no has instalado el GG plot dos, puedes escribir este código. Qué hará esto si se requiere parcela GG, instalará el paquete y usará la biblioteca, ¿bien? Y si ya está ahí, entonces está bien, va a usar eso. Bien. Entonces aquí usaremos la función de gráfica G GG. Voy a pasar los datos. X será la H e y, x será la altura y el punto de ir, método gomo LM, color azul para la línea regresora y todos estos encabezamientos, ya sabes, ¿verdad? El mínimo que hemos visto en la sección de parcela GG. Nuevo es marco de datos igual a 30 y altura predicha. Voy a usar el modelo. Bien, entonces lo imprimimos. Bien, vamos a ejecutar esto. Veamos aquí. Aquí también estamos consiguiendo la estatura de persona de 30, 30 años de edad. Y mira aquí estamos consiguiendo la línea de regresión. También aquí, la regresión predice la altura en función de la edad. Esta es la edad del eje X y esta es la altura para cada edad obtendrá un punto en la línea de regresión. Esa será la altura pronosticada para el soporte 52 años. Vendrá aquí, esta será la altura, 52 años, persona 62 años. Vendrá aquí así, ¿de acuerdo? Vendrá aquí así, ¿de acuerdo? De esta manera podemos predecir aquí si quieres, puedes dar cualquiera y va a predecir. Espero que entendieras la regresión lineal y te veas dentro del siguiente tramo. 130. Regresión logística: Hola y bienvenidos de nuevo. En esta conferencia vamos a aprender sobre región logística. Entenderemos cuál es la matemática detrás esta matemática detrás de la clasificación usando región logística. Bien, así que comencemos. La regulación logística es un poderoso método estadístico utilizado para tareas de clasificación binaria como la detección de spam. Al igual que podemos ver el correo electrónico, utiliza esta clasificación de correo electrónico, como cuando recibes el correo electrónico, lo clasificará como auténtico o spam Entonces todos los correos de spam irán a las carpetas de spam, ¿verdad? Entonces ese es un ejemplo de regulación logística o una clasificación binaria. Diagnóstico médico, ya sea un o algún dígito específico o ese tipo de clasificación. También podemos hacer entonces la clasificación del ancho de banda es también la evaluación del riesgo mientras se da el préstamo o tarjeta de crédito. Los bancos e instituciones financieras, hacen la evaluación del riesgo crediticio encajan, encajan, o aprueban o rechazan cosa, bien, para averiguar si el prestamista podrá reembolsar el dinero o no A pesar de su nombre, no es una regresión en el sentido tradicional, sino un algoritmo de clasificación. Aunque el nombre es regresión logística, en realidad, no es una regresión en sentido tradicional, sino que es un algoritmo de clasificación. En esta conferencia, exploraremos los fundamentos de la regresión logística, las matemáticas, los fundamentos y las aplicaciones del mundo real donde todos podemos usar la regresión logística, entendiendo la clasificación binaria En la clasificación binaria, tratamos problemas donde el objetivo es asignar observaciones a una o dos clases o categorías. Por ejemplo, clasificar los correos como spam o no spam, predecir si un cliente va a abandonar como spam o no spam, o permanecer compañía de telecomunicaciones determinando si el resultado de una prueba médica es positivo región logística nos ayuda a resolver este tipo de problemas modelando la probabilidad de que una observación pertenezca a una clase particular. Las cosas como spam o no spam. Prueba médica, análisis de sangre es una enfermedad en particular es positiva o no como en el caso del covid, fue covid positivo o covid negativo. Esa clasificación binaria y regresión logística nos ayudan a resolver este tipo de problemas modelando la probabilidad de que una observación pertenezca a una clase particular. función de la región logística es el corazón de la región logística. Y la clave de la regresión logística radica en la función logística, también conocida como función sigmoidea Esta función sigmoidea es muy importante en la región logística, que mapea cualquier entrada a un valor 0-1 0.1 en 0-1 mapeará, ¿bien? La función de región logística se define como p de y igual a uno igual a uno por uno más e a la potencia menos beta cero más beta uno en x. Recuerdas este Beta cero más beta uno en x Lo usamos en la ecuación lineal, pero aquí la fórmula tiene un cambio. Es uno, y más e a la potencia menos beta cero más beta uno en x p de y. qual uno es la probabilidad de que la observación pertenezca a más uno Aquí Significa que esto dará la probabilidad de la observación de que pertenece a clase en e. Esta fórmula dará la probabilidad beta cero es interceptar que ya vimos en la regresión lineal Beta uno en x representa la combinación lineal de entidades de entrada. curva sept de la función logística comienza cerca de cero y aumenta gradualmente y se acerca sintomáticamente a uno Va a ir como esta curva sinusoidal a la derecha? Después entrenando un modelo de regresión logística. Para entrenar el modelo de recreación logística, utilizamos un conjunto de datos con ejemplos etiquetados. Para cada ejemplo, calculamos la probidad de pertenecer a la clase uno usando la función logística Luego definimos una función de pérdida, es decir, una pérdida de entropía cruzada Para medir el rendimiento del modelo, el objetivo es encontrar el valor de beta cero y beta uno que minimice la función de pérdida Esta optimización se realiza típicamente usando métodos numéricos o algoritmos de optimización como el descenso de gradiente. Este es otro término muy importante. Veremos aplicaciones de región logística. La regresión logística es ampliamente utilizada en diversos dominios como ya hemos comentado en el diagnóstico médico prediciendo un soporte de resultados de enfermedad, por ejemplo, la diabetes Con base en datos de pacientes como resultados de pruebas o historial médico, alimentamos los datos y nos dará si se trata de una permeabilidad diabetes, diabética o no marketing y el análisis de clientes identifican potenciales charnes dirigidos a publicidad y la segmentación de clientes Todas estas cosas podemos usar la regulación logística en las finanzas. Ya hemos discutido la evaluación del riesgo crediticio, detección de fraudes e incumplimientos de préstamos, procesamiento del lenguaje natural, PNL, clasificación de texto, por ejemplo, un análisis de sentimiento, la detección de spam es una aplicación común de PNL utilizando el análisis de imagen de región logística en regulación logística puede ser utilizada para la clasificación binaria de tareas. Si das imágenes de apoyo de humanos y animales basadas en el Ca determinado, definirá si esta imagen pertenece a la categoría humana o categoría animal. Así. Interpretar cofficiens logísticos, interpretar coeficientes logísticos de recreación logística, beta cero eficiente y beta uno en relación logística Por ejemplo, en un modelo de evaluación de riesgo crediticio, uno beta podría representar el impacto de los ingresos en la probabilidad de incumplimiento. Una beta positiva indica que un ingreso mayor reduce el riesgo de impago. ¿Cuál es la conclusión? El catión logístico es una herramienta volátil e interpretable para problemas de clasificación binaria Siempre debemos recordar que esto es por el problema de clasificación binaria. Es una base matemática y capaz de estimar probabilidades, lo convierten en un componente esencial para predecir el modelado en ciencia de datos y aprendizaje automático Si bien es un algoritmo fundamental, sus aplicaciones son de gran alcance, contribuyendo a una mejor toma de decisiones en todas las industrias y dominios. A medida que continuamos escapando de nuestras soluciones basadas en datos. regresión logística sigue siendo un activo valioso para abordar los desafíos de clasificación del mundo real Todo esto se trata de una teoría, parte de la relación logística. En la siguiente conferencia, haremos una simple práctica usando R e intentaremos implementar una regresión logística. Ve la siguiente conferencia. 131. Predicción de pérdida de clientes con regresión logística: Hola y bienvenidos. En esta conferencia vamos a escribir nuestro programa de regresión logística. Y trataremos de predecir si un cliente va a producir o no Entonces veamos, este es nuestro mientras el proyecto está prediciendo cliente san Bien, entonces aquí lo que hacemos, creamos un conjunto de datos de muestra con dos variables y en donde John es un resultado binario que es cero o uno representa si un cliente produjo o no Bien, entonces eso es lo que estamos tratando de hacer. ¿Bien? Utilizamos GLM, GL, GL es modelo de ración general ¿Bien? Utilizamos GLM aquí, función GLM para ajustar un modelo de ración logística, donde modelo sobre una función de edad, el argumento familiar se establece Para especificar regresión logística. El argumento establecido en lógica indica la función de enlace logístico. Bien, mostramos un resumen del modelo de regresión logística usando función de resumen y pasaremos el modelo logístico a esta función de resumen para ver los valores de los coeficientes y otras estadísticas. Hacemos predicciones para nuevos datos. Y usaremos los datos 38.62 y veremos si los dos un cliente con el 38.62 cuál es la probabilidad mediante el uso de la función predict con el argumento type como respuesta Bien, esta rentabilidad predijo probabilidad de John para estos dos clientes. Y luego imprimimos, bien, veamos aquí. Estoy creando datos de muestra para clasificación del color de la banda aquí también. Estamos usando set seed 123 y data y estoy usando data frame y estoy creando estos dos vectores y churn aquí En edad estoy dando la H aquí, le estoy dando el valor de John 01 para los grupos de edad. ¿Bien? El churn es resultado binario como ya discutimos Y entonces vamos a ejecutar esto. ¿Bien? Ahora hemos creado un conjunto de datos de muestra. ¿Bien? Ahora lex está creando un modelo logístico para eso. Usaremos la función GLM y en la función GLM, sobre qué base va a crear esta cosa la creación logística basada en la H, Aquí, los datos serán los datos y la familia será el enlace binomial igual a Esto quiere decir que vamos a la regresión logística. Bien, vamos a ejecutar esto ahora. Nuestro modelo de regresión logística está listo. Ahora lo que haremos, pasaremos este modelo logístico a función de resumen para ver el resumen de este modelo de regresión. Aquí puede ver los valores Cocopic, los errores de intercepción, el valor de chorro y los valores R Bien, aquí se puede ver este parámetro de persona para la prohibición, tomado como una desviación interna y los valores C de desviación residual Todas estas cosas, cosas que puedes ver. Lo siguiente que quiero ahora nuestro modelo logístico está listo. Quiero predecir si el cliente va a producir o no Voy a pasar los dos H 38.62 y voy a ver la probabilidad para los datos Voy a crear un nuevo dato. Voy a pasar los dos vectores a H a, voy a almacenar en los nuevos datos. Después pasaré estos nuevos datos a la función predict. Voy a pasar las dos cosas, modelo logístico que hemos creado y los nuevos datos que hay aquí, el pase y escriba una respuesta. Entonces ejecutamos esto. Ahora tenemos los valores predichos en este apuntalamiento predicho para que intentemos imprimirlo. Vamos a ejecutar esto. Ver la probabilidad de producir el cliente H 38 viene a 0.077 clima, mientras que el cliente de 6022 años de edad, está alrededor del 97% Aquí podemos decir fácilmente que el cliente con H 62 va a estar produciendo ya 100% 97% es casi 98% 97.75% aquí, la probabilidad de enviar al cliente con 62 es casi 98% Cliente con 38 es casi 98% Cliente Bien. Aquí llegamos a señalar que con los dos datos, la probabilidad es muy menor 38. Si cambio a 18 y supongo que voy a cambiar a 52. Ahora lo voy a ejecutar de nuevo y ya veremos ahora la probabilidad de 18 incluso se reduce. Para el 0.004 6% aquí es 76% Lo que concluimos a partir de aquí, más la probabilidad de que el cliente esté produciendo afuera estará ahí para 28.72 Incluso los 72 años de edad, estamos recibiendo casi el 99% de probabilidad que el cliente con 72 esté produciendo para 28 Es casi como cero para obtener la probabilidad, más probabilidad para los clientes menos envejecidos. Cuanto mayor sea la edad, más será la probidad de que el cliente esté produciendo Así es como podemos usar la región logística para predecir si un cliente va a producir o no Espero que haya entendido cómo usar la función GLM para Los para región logística ver dentro de la siguiente conferencia 132. Algoritmo de KNN: Hola y bienvenidos de nuevo. En esta conferencia, vamos a conocer sobre k vecinos más cercanos en especie. Lo llamamos el algoritmo simple efectivo para la clasificación y regulación tanto. Bien, A hemos visto región y luego hemos visto la etiqueta de regulación logística para clasificación. Ahora veremos el non que se puede utilizar tanto para clasificación como para región, ambos problemas. Bien, comencemos. Vecino más cercano o algoritmo efectivo simple para problemas de clasificación y región. En el mundo del aprendizaje automático y la ciencia de datos, las navas o en algoritmo más cercanas se erigen como una de las técnicas más simples y notablemente poderosas para resolver problemas clasificación y regresión Tanto cuando se tiene los problemas que pueden ser de clasificación y regresión, tanto entonces podemos utilizar en ella es un algoritmo no paramétrico basado en instancias que se basa en la proximidad para hacer predicciones Se trata de la proximidad. Veremos cómo funciona. En esta conferencia, exploraremos los fundamentos de Canon y cómo funciona, sus variaciones y las aplicaciones del mundo real Como su nombre indica, en su núcleo está el algoritmo directo. Realiza predicciones basadas en la clase mayoritaria para clasificación. Y la media para la regresión básicamente se encarga de dos cosas. Para los problemas de clasificación, las predicciones se basan en la clase mayoritaria para los problemas de regresión, significa como la base, bien, de los k puntos de datos más cercanos de una consulta dada. El k en el k NN representa el número de vecinos más cercanos considerados al hacer predicciones En este vecino más cercano, k representa el número de vecinos más cercanos considerados al hacer predicciones para la clasificación, estos son los pasos que seguimos El primero es la representación de datos. Comience con un conjunto de datos etiquetado donde cada punto de datos tenga una etiqueta de clase y luego una métrica de distancia. Elija una métrica de distancia, por ejemplo, incluyendo distancia o distancia de patrón de hombre para medir la similitud entre los puntos de datos en la predicción. El siguiente es la predicción. Para clasificar un nuevo punto de datos, calcule la distancia entre el punto de datos y todos los demás puntos del dataset Seleccione los K vecinos más cercanos en función del voto mayoritario de menor distancia. Determinar la clase de un nuevo punto de datos tomando voto mayoritario entre las clases, sus vecinos más cercanos K Para representación de datos de regresión. De nuevo comienzan con el conjunto de datos de etiquetas, pero esta vez las etiquetas son valores continuos, eso es numérico, ¿de acuerdo? Las métricas de distancia utilizan las mismas métricas de distancia en simétricas, como hemos visto en la clasificación Esa es la distancia Ec o distancia Manhattan, para medir la similitud entre los puntos de datos. Bien, Luego viene la predicción. Predecir un nuevo valor de punto de datos. Calcular la distancia entre ese punto y todos los demás puntos del dataset. Seleccione los K vecinos más cercanos en función de la distancia más pequeña, luego el valor medio para completar el promedio medio de las etiquetas de los K vecinos más cercanos. Entonces se tomarán todos los vecinos más cercanos y luego se medirán, esos se calcularán. Entonces esto significa que este valor medio, cualquiera que sea el valor medio obtendrá, se convierte en la predicción para el nuevo punto de datos. ¿Bien? Variaciones de, Hay tres variaciones de no. El primero es Canon ponderado, segundo es métrico de distancia, y el tercero es Fit Scaling en el Canon ponderado asigna diferentes pesos al vecino en función de la distancia. Los vecinos de distancia y cierre pueden tener mayor influencia en la predicción. Entonces la segunda son las métricas de distancia. Experimente con las distintas métricas de distancia para adaptar el algoritmo para especificar tipos de datos, tipos de datos o dominios. La escala de entidades normaliza o estandariza las entidades para garantizar que ninguna entidad domine el cálculo de distancia Aplicaciones del mundo real de no hallazgos, aplicaciones en una amplia gama de dominios, como sistemas de recomendación como Netflix o Facebook, o incluso las tarjetas Amazon y Flip. Todos estos sitios web de comercio electrónico, las plataformas Ott en el sistema de recomendación, recomendando productos, películas están contenidas en base al comportamiento o preferencias habituales Allí también, podemos utilizar la imagen y el reconocimiento de voz. Después el diagnóstico médico. anomalías, detección de anomalías en el tráfico de la red de transacciones financieras o procesos industriales de procesamiento del lenguaje natural También se pueden resolver los problemas de PNL Este canon clasifica documentos de texto, análisis de sentimientos y traducción de idiomas Entonces otro ejemplo real es el monitoreo ambiental, predicción de la calidad del aire, el pronóstico del tiempo y el monitoreo de la contaminación Todos estos problemas, podemos usar el cañón. Bien, los retos. Si bien Canon es un algoritmo de estilo, tiene algunas limitaciones. Puede ser computacionalmente costoso, especialmente con el gran conjunto de datos, ya que requiere calcular distancia de todos los puntos de datos, Eso va a ser bastante costoso de calcular, ¿verdad? Porque para cada punto de datos necesitamos calcular el curso de la dimensionalidad. A medida que la característica del número de dimensiones fomenta, la efectividad de no puede atenuarse debido al curso de la dimensionalidad Elegir k, seleccionar el valor apropiado para K es crucial y puede afectar el rendimiento del modelo. Bien, manejar datos desequilibrados puede tener dificultades con el conjunto de datos desequilibrado donde una clase supera significativamente en número ¿Bien? Todos estos son los desafíos para los no Canon es una valiosa adición a la caja de herramientas de aprendizaje automático debido a su simplicidad y versatilidad. Pero tiene algunas limitaciones que ya hemos entendido. Es particularmente útil cuando se trata un conjunto de datos de tamaño pequeño a moderado conjunto de datos pequeño y mediano puede ser muy, si tiene el conjunto de datos que es pequeño o moderadamente mediano o no tan grande, entonces non puede ser realmente útil para la recreación y la tarea de clasificación Al comprender el principio detrás on y sus diversos datos, los científicos y los profesionales del aprendizaje automático pueden aprovechar su poder para hacer predicciones precisas y clasificar los datos manera efectiva en diversas aplicaciones Todo esto se trata de no teoría. Intentaremos hacer las manos también usando nuestra programación. Ver dentro de la siguiente conferencia. 133. Implementación de kNN: Y bienvenidos de nuevo. En la conferencia anterior, hemos visto sobre el algoritmo. En esta conferencia, vamos a implementar la no utilización nuestro algoritmo de programación K vecino más cercano para la clasificación. ¿Bien? Los pasos, te diré cuáles son los pasos que vas a seguir en este ejemplo. Lo primero que cargamos el paquete de clase que proporciona la función in para la clasificación. Utilizamos el popular conjunto de datos irlandés que ya hemos utilizado en nuestras conferencias en esta clase. Al principio, debe conocer el conjunto de datos Iris que está disponible en R y contiene la medición de flores de iris junto con las etiquetas de sus especies. Dividimos el conjunto de datos en conjuntos de entrenamiento y pruebas, con 70% de los datos utilizados para entrenar el conjunto de datos. Nos dividiremos en conjuntos de entrenamiento y pruebas, donde el 70% de los datos utilizarán para la capacitación y 30% de los datos serán para el propósito de prueba. Por lo general en el ejemplo del mundo real, tomamos 80% de los datos para entrenamiento y 20% para pruebas, pero 70 30 también está bien. Dependiendo del requerimiento de tu proyecto o tus datos, puedes decidir si quieres tomar 60% para capacitación, 70% para capacitación, para 80% de capacitación. Para que puedas decidir en base tu requerimiento y a las necesidades del negocio. Aquí definimos el número de vecinos, es decir k, que determina cuántos vecinos más cercanos considerar a la hora de hacer predicciones. Decidir el número de vecinos de Uber es muy importante mientras que hacer el nonce determina cuántos vecinos más cercanos considerar porque impactará en las predicciones ¿Correcto? Después realizamos la clasificación nueve usando nueve función donde especificamos los datos de entrenamiento, pruebas, datos, niveles de clase, y el valor de K. Para este ejemplo, tomaremos k cinco, vecino más cercano considerado será el cinco. Después de eso, evaluamos la precisión del modelo comparando las especies predichas con especies reales en el conjunto de pruebas. Luego creamos una métrica de confusión para evaluar aún más el rendimiento del modelo. Bien. Al ejecutar este código, obtendrá precisión del clasificador canino y matriz de confusión que muestra qué tan bien clasificó el modelo las diferentes especies de flor de iris en el conjunto de prueba Ahora comencemos aquí. Lo primero es que si la clase no está instalada, se instalará y luego lo hará. ¿Bien? Ejecutemos esto y obtengamos la carga de datos. La función data data utilizará datos y pasaremos el nombre del conjunto de datos, es decir iris. Vamos a ejecutar esto también. Entonces estaremos dividiendo el conjunto de datos en conjuntos de entrenamiento y prueba. Eso primero que tendremos que hacer es establecer set 123. Bien, ese es un paso bastante esencial. Entonces creamos una variable u objeto muestra índices de subrayado Aquí tomaremos la muestra uno para inscribir iris. Y el tamaño tomará 0.7 Eso significa que el 70% del conjunto de datos de Iris para los datos del tren de entrenamiento será el iris de los índices de muestra. Estos índices entrarán en el iris y 70% de los datos se convertirán en los datos de entrenamiento los datos serán el iris de menos los índices de muestra. ¿Bien? Por eso aquí estamos usando el signo menos. ¿Bien? Restante será 30% Vamos a correr esto como el número de vecinos, es decir k aquí estoy definiendo igual a cinco. Bien, vamos a ejecutar esto también. Ahora realizaremos la clasificación de nueve. Aquí voy a crear una variable u objeto predicho subrayado especie Aquí voy a usar la función nueve aquí. Tren es entrenar datos de subrayado uno a cuatro. Prueba para probar datos de subrayado, uno a cuatro clases será el tren subrayado especies de datos, Con base en las especies que vamos a clasificar. ¿Bien? Entonces cual dos k, esto se convertirá en cinco ¿Bien? Ahora vamos a ejecutar esto. Y ahora evaluaremos la precisión del modelo mediante el uso de alguna función. Las especies pronosticadas son iguales a los datos de prueba en dólares de especies divididas por N hasta los datos de prueba. Bien, veamos, entonces lo imprimiremos con precisión en 200. Bien, mira aquí ahora estamos obteniendo la precisión para este modelo es de 97.78 Eso es bastante bueno Ahora vamos a imprimir la matriz de confusión mediante el uso de una función de tabla realmente igual a los datos de prueba de especies P. Bien, vamos a crear la matriz de confusión aquí, ver aquí. Ahora la matriz de confusión se puede ver aquí para Setosa 14 casi, se ha categorizado la especie correctamente Sólo uno ha clasificado erróneamente. De lo contrario, todo está clasificado correctamente. Esta es la forma en que podemos implementar el non. 134. Árbol de decisión y bosques al azar: Hola y bienvenidos de nuevo. En esta conferencia, vamos a aprender sobre árboles de decisión y bosque aleatorio. Estos dos son mejores amigos, trabajan juntos y son simplemente increíbles para el aprendizaje automático. Sus aplicaciones son utilizadas y son muy útiles y útiles si estás trabajando en un aprendizaje automático, especialmente en el aprendizaje supervisado. Bien, comencemos a aprender sobre estos dos poderosos do machine learning. Primero entenderemos qué es disentería y el bosque aleatorio en el anillo del aprendizaje automático La disentería y el bosque aleatorio son dos herramientas formidables que han revuelto la toma de decisiones de datos Estos algoritmos son ampliamente utilizados para la clasificación y regresión. Tarea hemos entendido lo que es tarea correcta? Clasificación significa donde necesitamos clasificar en dos o más segmentos, como cred verdadero o falso, aplicación, aceptado o rechazado Es una amenaza spam cosas, ¿ verdad? Tarea de regresión. Lo hacemos por lo continuo, para las cosas numéricas, ¿verdad? Estos algoritmos son ampliamente utilizados para tareas de clasificación y regresión, haciéndolos dispensables para diversas aplicaciones En este artículo, en esta conferencia exploraremos los principios de trabajo y las aplicaciones del mundo real de los bosques disidentes. Exploraremos cuál es el concepto detrás de los grados y el bosque aleatorio. ¿Cuáles son los principios de trabajo detrás, detrás de los árboles de decisión y el bosque aleatorio? ¿Y cuáles son las aplicaciones del mundo real de los árboles de decisión y el bosque aleatorio? Entonces comencemos con los árboles de decisión. El árbol de decisiones es una estructura similar a un árbol como puedes ver aquí, ¿de acuerdo? El nodo padre, luego el nodo hijo, y luego el nodo hijo, ¿de acuerdo? Crecerá así, ¿verdad? Un árbol de decisiones es una estructura similar a un árbol que se utiliza para apoyar la decisión. Bien. Aquí, un ejemplo sencillo. Si vas a comprar algo, si tienes confusión, quieres comprar, comprar, comprar. Ahora la decisión es dos cosas, por o no por correo electrónico, spam, spam así, ¿de acuerdo? Descompone un complejo proceso de toma de decisiones en secuencia de sim. Cada nodo en el árbol representa una decisión o un gusto sobre un atributo, cada rama representa un resultado, cada rama es un resultado. ¿Bien? Aquí estos son los resultados, ¿verdad? La prueba de decisión sobre el atributo, Cada rama representa un resultado y cada nodo hoja representa un nivel de clase o una decisión, ¿bien? Estos son los nodos. Estas son las hojas, ¿de acuerdo? Cómo los edificios Desiree, los árboles se construyen utilizando el enfoque recursivo de arriba hacia abajo llamado partición recursiva como se puede ver aquí es un tipo de enfoque de arriba hacia abajo Es un recursivo seguiría repitiéndose, ¿verdad? Los árboles de decisión se construyen, se construyen de arriba hacia abajo enfoque recursivo llamado partición recursiva Estamos particionando recursivamente cada nodo para los nodos. Algoritmo derecho selecciona el mejor atributo en cada paso para dividir los datos en subconjuntos En cada paso, el algoritmo de decisión tres seleccionará el mejor atributo en cada paso Para dividir los datos, dividirá los datos en base al atributo en datos homogéneos como sea posible con respecto a la variable objetivo. Teniendo en cuenta la variable objetivo, dividirá los datos en un subconjunto. También se asegurará de que el subconjunto sea homogéneo, bien. Ayudará a lograr la variable objetivo. Selección de atributos. diversos criterios como gini, impureza, entropía y ganancia de información para determinar el mejor atributo para la división El objetivo es minimizar la impureza o maximizar la ganancia de información Tercero es la poda. El árbol de decisión puede volverse demasiado complejo y herirse al sobreajuste La poda consiste en eliminar ramas que no contribuyen significativamente a mejorar la precisión, lo que lleva a una rama más simple o más generalizable La poda es cosa sencilla, que si sigues creciendo un árbol, puede crecer en cualquier dirección. Pero si quieres mantener un árbol en una muy buena caja fuerte, necesitamos cortar las ramas extra de la misma manera en árboles de decisión. Además, si lo mantenemos creciendo, se volverá demasiado complejo y propenso al sobreajuste Entonces ahí es donde viene la poda. Podar significa retirar las ramas que no contribuyen significativamente. Algunas ramas pueden no ser útiles. Posteriormente podaremos esas ramas, lo que conducirá a las aplicaciones modelo más simples y generalizables de la aplicaciones modelo más simples y generalizables disidente En muchos dominios se pueden encontrar las aplicaciones de diferentes scienter en muchos dominios como la medicina, el diagnóstico de la enfermedad con base en los síntomas del paciente y el historial médico en la sección financiera, la puntuación de tarjetas de crédito, la detección de fraudes, inversión haciendo un ejemplo de En todos estos dominios, podemos utilizar el marketing de disentería, la segmentación de clientes, la focalización y la predicción de churn se puede hacer manufactura, el control de calidad y optimización del proceso de producción se pueden hacer a través de series, los signos ambientales, la clasificación de especies y el monitoreo ambiental se pueden hacer con la ayuda de la disentería Estas son las aplicaciones de la decisión Árbol ahora cubre el bosque aleatorio. El bosque aleatorio es como gimble. Si bien los árboles de decisión son poderosos, pueden ser sensibles a pequeños cambios en los datos. bosque aleatorio aborda esta limitación combinando múltiples árboles de decisión para crear un modelo de conjunto robusto y preciso. Vea aquí, este es un árbol de decisión, pero combinación de bosque aleatorio de muchos árboles de decisión. ¿Correcto? Lo que hace, el árbol de decisiones es a esto es algo muy pequeño. Cambiará drásticamente sus resultados, procesará los nodos y todo Todo va a cambiar. Si haces algún cambio en el conjunto de datos, todo va a cambiar. Para superar esta limitación, bosque aleatorio aborda esta limitación combinando múltiples árboles de decisión para crear un modelo revoltijo robusto y preciso Creará árboles de decisión similares y hará una cosa robusta de bosque aleatorio. Habrá muchos árboles, y por eso se llama bosque aleatorio porque muchos grupos de árboles lo harán bosque, derecho. ¿Cómo funcionan los bosques aleatorios? Muestreo Bootstrap. El bosque aleatorio comienza creando múltiples muestras de arranque, muestras aleatorias para su reemplazo a partir de los datos de entrenamiento. Comenzará a crear las muestras de bootstrap a partir del conjunto de datos de entrenamiento. Selección de características aleatorias para cada árbol en el bosque. considera un subconjunto aleatorio de entidades en cada nodo a la hora de decidir el mejor árbol. construcción de múltiples árboles de decisión se construyen forma independiente con su propia muestra de arranque y selección aleatoria de características. Después la votación y el promedio. Para las tareas de clasificación, bosques aleatorios utilizan voto mayoritario entre los árboles para la regrationaskyuseveragingeere Utiliza la votación para el promedio de regreationag para hacer predicciones ¿Cuáles son las ventajas del bosque aleatorio? Se reducirá el sobreajuste, esa es la limitación con el centinela Los bosques aleatorios son menos propensos al sobreajuste en comparación con los disses individuales Generalizaciones mejoradas y robustez los datos Los bosques aleatorios proporcionan información sobre la importancia de las características que ayudan en la selección de características Aplicaciones de bosque aleatorio. Los bosques aleatorios son ampliamente utilizados en muchos dominios como el análisis de imágenes, las finanzas, la ecología, el marketing y la atención médica. En el análisis, el reconocimiento de objetos, la clasificación de imágenes y la extracción de características se pueden hacer en finanzas. Nuevamente, se puede hacer la predicción de los precios de las acciones, detección de fraude de riesgo crediticio Ecología, nos gusta el modelado de distribución de especies y las evaluaciones de biodiversidad se pueden hacer en marketing, predicción de clientes y sistema de recomendación en cuidado de la salud prediciendo el resultado del paciente y el diagnóstico G se puede hacer Bien, ¿Cuál es la conclusión? Estos dos centinela dinámicos y el bosque aleatorio son dinámicos en el mundo del aprendizaje automático Mientras que Gentry proporciona interabilitysitrandomest mayor precisión y robustez, la comprensión del algoritmo de árboles y su aplicación equipa a los científicos de datos y a los profesionales del aprendizaje automático con poderosas herramientas para resolver problemas profesionales del aprendizaje automático con interabilitysitrandomest mayor precisión y robustez, la comprensión del algoritmo de árboles y su aplicación equipa a los científicos de datos y a los profesionales del aprendizaje automático con poderosas herramientas para resolver problemas del mundo real en diversos dominios. A medida que la toma de decisiones basada en datos continúa salvando el mundo de la energía, la versatilidad y efectividad de los árboles de decisión y bosque aleatorio aseguran su relevancia duradera en el campo del aprendizaje automático Estos dos son muy, muy importantes algoritmos de aprendizaje automático decentes y bosque aleatorio. Espero que cubramos la base de estos dos ver conferencia. 135. Admite el algoritmo de máquinas vectoriales: Hola y bienvenidos de nuevo. En esta conferencia vamos a aprender sobre el soporte de la máquina vectorial. Bien, déjame bien, ignora esta. ¿Bien? Vamos a aprender sobre el algoritmo de máquina vectorial de soporte. Máquina vectorial de soporte, o SPM. En, lo llamamos, es uno de los algoritmos de aprendizaje supervisado más populares el cual se utiliza tanto para la clasificación como para problemas de regresión. No obstante, principalmente se utiliza para problemas de clasificación en el aprendizaje automático, se puede usar tanto para regresión como para clasificación, pero principalmente lo usamos solo para clasificación, ¿de acuerdo? Así que la mayoría de las veces vas a estar usando para problemas de clasificación, SPM se puede utilizar para la clasificación La mayoría de las veces, el 99% del tiempo estará usando uno o 2% de 5% Los casos estarán ahí donde puedas usarlo más, estarán ahí donde puedas usarlo más. Problemas de regresión también, pero eso es muy raro en el mundo real, ¿de acuerdo? El objetivo del algoritmo SBM es crear el mejor límite de decisión de línea que pueda segregar espacio dimensional en clases para que podamos poner fácilmente el nuevo punto de datos en la categoría correcta en el futuro Este mejor límite de decisión se llama hiper carril. Es como crear una hiper le, crear una línea. Supongamos que está trazando los puntos de datos en el espacio x e y u y está dibujando, hemos visto en la regresión lineal, ¿verdad Estábamos dibujando una línea que dividía los puntos de datos de la misma manera SBM Además, se tratará de encontrar una línea que pueda dividir el conjunto de datos está bien. Ese es el objetivo de la SPM. El límite de dicción se llama hiperlínea. Spm elige los puntos de datos extremos o vectores que ayudan a crear la hiperlínea. Los casos extremos se denominan vectores de soporte. Sbm. El algoritmo de máquina de vectores de soporte elige los puntos de datos extremos o vectores que ayudan a crear el hypo Estos casos extremos se denominan vector de soporte. Primero encontrará los puntos extremos o vectores y estos vectores se denominan vectores de soporte. Para crear el algoritmo de hiperlínea es la máquina de vectores de soporte a término Bien, encontrando los vectores de soporte, es por eso que este algoritmo se conoce como support vector machine. Considera el siguiente diagrama en el que hay dos categorías diferentes que se clasifican usando límite de descenso o bombo Ver aquí Ahora tenemos el X uno y X dos. Y aquí se puede ver ahí, esta es la línea de margen máximo. Esta línea es la línea de margen máximo y este es el hipervínculo positivo de hiperlínea de margen máximo Estos son los vectores de soporte. Estos son los vectores de soporte. Estos puntos que hemos encontrado. Estos son los vectores de soporte. ¿Bien? Este lado, esto es negativo. Hipolositiveypolineximumrgin será el hiper carril, margen máximo, hiperlineal, ver aquí. Ahora bien, este hiper carril está dividiendo estos dos puntos de consigna, ¿verdad? Preciso. Estos puntos se conocen como vectores de soporte. Bien, primero encontramos el vector de soporte y con los vectores de soporte intentaremos encontrar el hipervínculo Bm se puede entender con el ejemplo que hemos usado en clasificador canino Supongamos que vemos un gato extraño que también tiene algunas características de perro. Supongamos que tenemos una foto de un gato que tiene algunas características quísticas del perro. Además, si queremos querer un modelo que pueda identificar con precisión si se trata de un perro gato, dicho modelo se puede crear mediante el uso de un algoritmo. Primero entrenaremos a nuestro modelo con muchas imágenes de gatos y perros para que pueda conocer diferentes características de gatos y perros. Y luego lo probamos con esta extraña criatura, que es similitud tanto con gato como con perro, pero en realidad es un gato. Como vector de soporte crea un límite distinto entre estos dos datos, gato y perro eligen casos extremos, vectores de soporte. Se verá el caso extremo de gato y perro sobre la base de vectores de soporte. Lo clasificará como un gato. Considera el siguiente diagrama. Ver los datos de esta etiqueta pasada. Estos son los datos rápidos capaces como este es perro y este es un gato. Aquí estamos creando un modelo y dándole entrenamiento que esta criatura es perro y esta criatura es un gato. Está leyendo todas las características de estas dos imágenes y nuestro modelo se está entrenando ahora. Nuestro modelo de predicción predecirá que es un gato. Cómo va a hacer. Supongamos que estamos dando una imagen que es muy similar al gato y tanto al perro. Tiene algunas características de perro. También lo que hará, verá las características extremas de un gato. Clasificará las características de un gato. Clasificará, encontrará el hiper carril que se basa en las características, características extremas Se decidirá si es un gato o un perro. El extremo coincidirá con el gato. Categorizará eso como si no estuviera emparejando con el gato, características extremas Entonces categorizará eso como perro con el PM, Incluso con este extraño gato, que es muy parecido con el perro B. Con la ayuda de los vectores de soporte y el hiperled con precisión que es un gato, no un Vamos a entender ejemplo, soporte de máquinas vectoriales, como aplicaciones de soporte máquina vectorial, SBM se puede utilizar para la clasificación de imágenes Como hemos visto hace un momento, SBM se han utilizado para la clasificación de imágenes Tareas como el reconocimiento de escritura a mano y la detección de objetos, como el análisis de sentimientos, detección de spam y la categorización de documentos Bio, poética, PM se emplean para el reconocimiento de veces de proteínas, clasificación génica y En el sector financiero, los PM se utilizan para la codificación de crédito, predicción bursátil y para detección en el segmento de atención médica Se han utilizado en el diagnóstico y pronóstico de la DG con base en los datos médicos, el procesamiento del lenguaje natural y LP SPM juegan un papel en reconocimiento de entidades nombradas y la categorización de textos Entendamos cuáles son los tipos de SPM. Smm puede ser de dos tipos. El primero es la regresión lineal. El SPM no lineal se puede clasificar en dos tipos, SPM lineal, dije regresión, es SBM, SPM lineal y SPM no lineal SPM lineal, dije regresión, es SBM, SPM lineal y SPM no lineal. El SBM lineal se utiliza para datos separables linealmente. Lo que significa que si un conjunto de datos se puede clasificar en dos clases mediante el uso de una sola línea recta, entonces tal dato es un término linealmente Separable Data Classifier clasificador usado aquí se llama lineal Si los datos son linealmente lucha de clases, somos capaces de clasificar los datos con hiper carril linealmente separable, una línea recta, entonces se denomina Y el clasificador utilizado aquí se llamará SBM lineal SVM lineal no lineal se usa para datos no separados linealmente, lo que significa que si el conjunto de datos no se puede clasificar usando una línea recta, entonces dichos datos se denominan datos no El clasificador utilizado en este caso se conoce como SPM no lineal. Veremos en qué se diferencian estos dos. Bien, hipercarril y vectores de soporte. En el algoritmo SPM, sabemos lo que es hiper línea la cual dibujamos hiper Puede haber múltiples líneas o límites de decisión para segregar clases en el espacio n dimensional, pero necesitamos encontrar el mejor límite de decisión que ayude a clasificar el punto de datos Este mejor límite se conoce como el hiper carril de SPM. Las dimensiones del hiperplano dependen de las entidades presentes en el dataset Lo que significa que si hay dos entidades como se muestra en la imagen, entonces la hiperlínea será la línea recta Si hay tres entidades, entonces la hiperlínea será el plano bidimensional. ¿Bien? Siempre creamos una hiperlínea que tenga un margen máximo, lo que significa que la distancia máxima entre los puntos de datos ¿Bien? Bien. Vector de soporte. Los puntos de datos son datos vectoriales, los más cercanos a la hiperlínea, que afectan la posición de la hiperlínea, que están muy cerca de la hiperlínea, van a afectar la posición hialina de la hipo línea de efectiva Estos puntos de datos son vectores que se denominan vectores de soporte, ya que estos vectores soportan el hiperleupportvector Bien, ¿cómo funciona SPM? Primero veremos el SVM lineal. El funcionamiento del algoritmo SPM se puede entender usando un ejemplo Supongamos que tenemos un conjunto de datos que tiene dos tachuelas, verde y azul Aquí hemos tomado estos dos colores marrón y marrón más claro. ¿Bien? El conjunto de datos tiene dos características, X una y t. Quiere clasificar el par x el maíz en verde o azul Supongamos que esto es verde y azul, ¿de acuerdo? Los colores, he escrito un poco mal aquí, gris y gris más claro, ¿de acuerdo? Bien, supongamos que esto es azul y verde, ¿de acuerdo? Ahora bien, en dos espacios D, solo usando una línea recta, podemos separar fácilmente estas dos clases, ¿verdad? Aquí podemos trazar una línea. Podemos trazar una línea así. Y estos dos verdes y azules, podemos separar, pero puede haber múltiples líneas que puedan separar cada clase. Considéralos. Podemos dibujar esta imagen, una roja, esta también son las dos. Puedo trazar una línea así. También puedo dibujar otra línea también aquí la cual puede clasificar esto Puedo dibujar otra línea aquí también que clasifique, puede haber múltiples líneas que puedan separar estas clases De ahí que el algoritmo Pm ayude a encontrar la mejor línea, o si este mejor límite se llama hiperlínea aquí Ahora podemos tener múltiples líneas, como el objetivo es encontrar la mejor, mejor línea para hacer. ¿Bien? Esta región se denomina vectores de soporte hiperled Estos son los puntos azules y verdes son los vectores de soporte. ¿Bien? La distancia entre vectores y el margen hiperlineal, ver aquí el soporte, esta distancia se llama ¿Bien? Esto se llama distancia entre el vector de soporte y el carril hipo se llama margen cuanto a maximizar este margen, hypolimrginlledptimhyplaneeowf, intenta poner una línea aquí, En cuanto a maximizar este margen, hypolimrginlledptimhyplaneeowf, intenta poner una línea aquí, el margen será menor. Si pones una línea aquí, el margen será menor aquí. Si consideramos esta línea, el margen de aquí y de aquí, será máximo. Desde cada punto, el margen desde los vectores de soporte hasta el plano será el máximo. Este es el hallazgo óptimo de hiperlínea, a la derecha, estos puntos de distancia entre los vectores y el margen de hiperlínea Y el objetivo de SPM es maximizar este margen. La hiper línea con margen máximo se denomina hiperlínea óptima óptima Este es el hipo llene óptimo que estamos encontrando. Ahora vienen SPM no lineales. Si los datos están dispuestos linealmente, entonces podemos separarlos usando una línea recta Para datos no lineales, no podemos dibujar una sola línea recta. Considera lo mismo, los puntos azules también están aquí. También aquí también, y más verde aquí. Ahora bien, no podemos trazar una línea recta que clasifique los puntos azules y verdes en una región separada, ¿verdad? Algunos puntos estarán en cada una de las regiones. La clasificación en línea recta no es posible aquí, ¿verdad? En este caso, para separar estos puntos de datos, necesitamos agregar una dimensión más. Para los datos lineales, hemos utilizado dos dimensiones, x e y. Para los datos no lineales, agregaremos una tercera dimensión, se calculará usando esta fórmula, egal a x cuadrado más q. Vamos a agregar otra dimensión aquí, porque en las dos dimensiones, esto no es posible clasificar, para separar, para dibujar una línea con puntos verdes y azules separados, Para los datos no lineales, agregaremos una tercera dimensión, se calculará usando esta fórmula, egal a x cuadrado más q. Vamos a agregar otra dimensión aquí, porque en las dos dimensiones, esto no es posible clasificar, para separar, para dibujar una línea con puntos verdes y azules separados, lo haremos añadir otra dimensión que será la dimensión del chorro. Y que los jet points serán considerados por esta fórmula. Jet call a x cuadrado más y cuadrado. ¿Bien? Entonces, por cada x e y, habrá un punto jet, y eso se calculará por x al cuadrado más y al cuadrado ¿Bien? Al agregar la tercera dimensión, el espacio muestral se volverá como esta imagen aquí. Ahora x y azul azabache aquí y verde son ahora. Podemos ver aquí, podemos ver que en estos momentos hay dos regiones. Sbm dividirá el conjunto de datos en clases. En el conjunto en clases de la siguiente manera. Este será el mejor hiper carril que podamos dibujar, y esto separará los puntos de datos, carril blip de este lado del hiper carril, ya que estamos en el espacio, ahí que se vea como un plano paralelo al eje x Si lo convertimos en espacio con Gal a uno, entonces se volverá así. ¿Bien? Si consideramos que este está en el espacio, si hacemos cal a uno, entonces se volverá así, ¿de acuerdo? De ahí que obtengamos una circunferencia de radio uno. En el caso de los datos no lineales, esta manera podemos encontrar el mejor hiper carril en una cosa circular, ¿verdad? Circunferencia de una circunferencia de radio uno. Ver dentro del círculo verde y fuera del circuito azul de esta manera, esta hiperlínea circular la podemos obtener para estos datos Bien, espero que hayamos entendido cómo funciona SPM. Ver dentro de la siguiente conferencia. 136. Cómo entender el análisis de regresión: Hola, y bienvenidos de nuevo. Entonces soy Son, y estoy de vuelta con la nueva actualización para esta clase. Entonces, en esta serie de conferencias que voy a subir ahora, cubriremos con detalle el análisis de regresión. Entonces, primero vamos a empezar desde lo muy básico y estas series de conferencias llegarán en las próximas semanas, y es posible que veas actualizaciones muy regularmente en esta clase sobre habilidad sare Entonces comencemos. Entonces lo primero es una visión general del análisis de regresión. Entonces, ¿qué es el análisis de regresión? El análisis de regresión es una técnica estática utilizada para comprender la relación entre una variable dependiente y una o más variables independientes Entonces es simplemente análisis de la relación entre lo dependiente y una o más variables independientes. Por lo que se puede entender de tal manera que obtener un ataque al corazón para un paciente depende de variables múltiples variables aquí, ataque al corazón es una variable dependiente. Eso depende una o más variables independientes como tu edad, tu estilo de vida, tu hábito de calificación, y cualquier otra cosa como tienes diabetes o tienes algún problema genético historia del ataque cardíaco en tu familia. Hay múltiples variables independientes a las que van a afectar las posibilidades de sufrir el infarto por un paciente. Aquí, el ataque al corazón , el ataque al corazón variables dependientes y todos los demás síntomas de salud o tus estilos de vida o las enfermedades existentes son las variables independientes Por lo que el análisis de regresión es una técnica estadística utilizada para entender la relación entre estas variables, dependientes e independientes. Espero que lo haya dejado muy claro. Ahora, tienes el entendimiento de cómo lo hacemos. Por lo que es ampliamente empleado en diversos campos como la economía, las finanzas, las ciencias sociales y el cuidado de la salud. Entonces salud, ejemplo, ya te he dado, eh. En economía, también en finanzas, también, puedes ver si estás invirtiendo en algunas acciones y todo, así tus ganancias y pérdidas serán las variables dependientes y los sentimientos del mercado y todas las demás cosas, cómo las noticias y todas las que afectan a los precios de las acciones serán las una o más variables independientes Atención sanitaria para modelar y predecir resultados basados en la variable de entrada. En esto nos detendremos en los fundamentos del análisis de regresión y tipos, saltos y aplicaciones Ahora vamos a entender de manera matemática. ¿Qué es el análisis de regresión? Entonces, en su núcleo, análisis de regresión tiene como objetivo estimar la relación entre las variables dependientes, a menudo denotadas y, y una o más variables independientes, denotadas x uno, x dos y así sucesivamente Bien. La relación se representa típicamente por una ecuación de la forma. Es una ecuación lineal, donde y es igual a Beta cero más Beta uno en x uno más Beta dos en x t más Beta tres en x tres, y así sucesivamente hasta Beta n en x más épsilon Bien. Beta cero es interceptor, donde x uno, x e y interceptarán y Beta uno, Beta dos y B son el coeficiente que representa los esfuerzos de las variables independientes, cómo van a afectar las variables independientes Este es término de error, que representa la diferencia entre el objeto y los valores predichos. Entonces lo que estamos observando y lo que estamos pronosticando. ¿Cuál es el valor predicho y cuál es el valor del objeto? La diferencia será la, es que llamamos término de error. Término de error es lo que hemos predicho y qué salida exacta vino. Entonces supongamos que estamos pronosticando que tenemos una ganancia de seis 50, pero obser que conseguimos la ganancia de 500 Entonces seis 50 -501 50 será el término de error, En lo sencillo si explico ¿Bien? Entonces tipo de análisis de regresión, regresión lineal simple que todos conocemos implica una sola variable independiente y una relación lineal con la variable dependiente. Entonces si lo miras va a ser muy sencillo, grafica x, y, y habrá una línea que lo atraviesa, ¿verdad? Y luego viene la regresión lineal múltiple se ocupa múltiples variables independientes y una relación lineal con la variable dependiente. Luego viene la regresión polinómica ajusta una curva a datos mediante la introducción polinomiales Y entonces la última es la regresión logística muy popular utilizada para problemas de clasificación binaria donde la variable dependiente es categórica Veremos cómo podemos lograr todo esto y cómo podemos entender y cómo podemos usar para decodificar toda la regresión logística ponmial múltiple y simple Ahora, adjmptons de análisis de regresión. Para que el análisis de regresión proporcione un resultado preciso, deben realizar ciertos ajumptones El primero es la linealidad. Linealidad. La relación simple entre las variables dependientes e independientes debe ser lineal. Entonces la primera exención es que la relación entre las variables dependientes e independientes debe ser lineal. Entonces el segundo As es la independencia. Las observaciones deben ser independientes entre sí. El siguiente es Homo Sdsticity, la varianza del término de error debe ser constante en todos los niveles de las variables independientes Luego viene la normalidad. El término de error debe seguir una distribución normal. Entonces el término de error que hemos visto aquí E debería seguir la distribución normal. Luego viene la multicolinealidad. Las variables independientes no deben estar altamente correlacionadas entre sí. Entonces lo que voy a hacer en la próxima conferencia, voy a explicar lo que es normalidad y multicolinealidad y homocd en un poquito para que puedas entender de una mejor manera Por ahora, solo necesitas seguir la conferencia. Entonces ninguna colinealidad mult significa, las variables independientes no serían altamente creladas Aplicaciones del análisis de regresión. Entonces como dije, economía para costar la demanda y analizar la elasticidad del precio, luego en las finanzas, podemos usarla para predecir los precios de las acciones y evaluar los factores de riesgo En ciencias sociales, podemos utilizarlo para estudiar el impacto de las intervenciones, analizando los datos de la encuesta. Datos de la encuesta para el bienestar social, ese gobierno ejecuta todas esas cosas que podemos hacer con el análisis de regresión Y luego en el cuidado de la salud, podemos predecir los resultados de los pacientes evaluando el factor de riesgo para una DG en particular como hemos comentado sobre el corazón. Cava, cualquier excavaciones que puedas predecir en base a los datos. Entonces ahora llega la conclusión para esta conferencia, análisis de regresión es una poderosa técnica estadística para modelar las relaciones entre variables y hacer predicciones. Al comprender sus fundamentos, procedimientos y tipos , analistas como analistas de negocios y científicos de datos, y recursos pueden utilizar eficazmente el análisis de regresión para obtener información de los datos y tomar decisiones informadas, Entonces, una vez que tenga la comprensión del concepto de análisis de regresión, puede usarlo para cualquier dominio obtener información a partir de los datos y tomar decisiones informadas. Entonces esta es una herramienta muy poderosa que vamos a aprender. Entonces, en la próxima conferencia, aprenderemos algunas cosas más sobre el análisis de regresión. Entonces S dentro de la siguiente conferencia. 137. Comprensión del modelo de regresión lineal: Hola, y bienvenidos de nuevo. Entonces en esta conferencia, vamos a aprender sobre el modelo de regresión lineal. Por lo que la regresión lineal es una de las técnicas fundamentales, utilizadas en estadística y machine learning. Y esto se utiliza para modelar la relación entre la variable dependiente y una o más variables independientes. Esto lo hemos aprendido en la conferencia anterior mientras entendemos el análisis de regresión. Entonces, la regresión lineal es uno de los modelos de análisis de regresión. En esto, profundizaremos en la mecánica de la regresión lineal Es exención y cómo interpretar los parámetros del modelo y consideración práctica. Empecemos. Entendiendo la regresión lineal. regresión de Linar tiene como objetivo ajustar una relación lineal entre la variable independiente x y la variable dependiente, y La relación se representa típicamente por la ecuación, y es igual a beta cero más a uno en x más e, donde y es variable dependiente, x es variable independiente Beta cero es el intercem este es el valor de y cuando x es Y Beta uno es el coeficiente de pendiente, donde el cambio en y para un cambio unitario en x, entonces es la eratom que ya conocemos representando la discrepancia entre el valor objetivo y los valores predichos . Ahora está claro. Si puedo dibujar Bien. Aquí no hay ninguna herramienta de dibujo. Déjame comprobar si puedo dibujar aquí. Bien. Déjame abrir un alfiler aquí. Entonces, si te puedo decir, este es el eje x, y este será el eje y. Esto es, esto es y, y la regresión lineal es encontrar una línea de regresión como esta, donde x es igual a y es igual a. Esta línea va a ser y es igual a, Déjame. Lo pondremos B cero más B uno, x más. Para que puedas entender así, y es igual a Beta cero más p1x plus Aquí, donde entenderemos aquí, Beta cero es el término de intercepción donde y, el valor de y cuando x es igual a cero Entonces cuando vas aquí, x es cero, y cuando interceptas desde aquí así Aquí x es cero e y, de aquí a aquí, El sitio B cero o B t cero. Lo que sea que puedas. Este será el b cero, y beta uno será el cambio en y para una unidad de cambio en x pendiente. Entonces si ves aquí, medida que te mueves de aquí para acá, y luego de aquí, entonces esta será la pendiente será esta pendiente será la B una. Es el error tom, será el término de error. Como supongamos que aquí predecimos algún valor, y objetamos algo aquí, así que la diferencia será el valor. Esta es la línea de regresión. Entonces déjame decirte que esta línea es la línea de regresión. Esta línea es la línea de regresión. Bien. Esta es la ecuación de línea recta, y es igual a x más c con eso también se puede entender. Espero que esto quede claro. El siguiente ajmpton para redia para regresión lineal para proporcionar tal confiable, varios aumpton primera es la linealidad, la independencia, la normalidad sadistica, no la colinealidad perfecta. Linealidad, ya hemos entendido donde entre x e y debe ser lineal así Para cuando trazamos x e y, debemos obtener una línea recta. Entonces eso es linealidad. Independencia, las observaciones deben ser independientes entre sí y homo sadicidad es la varianza del término de error debe ser constante en todos los niveles de x normalidad Los términos de error deben seguir una distribución normal, y sin perfecta conearidad mult las variables independientes no deberían estar perfectamente corelacionadas entre sí, bien Entonces interpretando Interceptar Beta cero aquí, el intercepto beta cero, beta cero, representan y cuando x es igual a cero, el significativo solo si cae dentro del rango de los datos Pendiente Beta uno, la pendiente que hemos observado aquí, Beta uno, indica el cambio en y para una unidad de cambio en x. así podemos ver a medida que nos movemos si podemos ver esta x, entonces esta será la. Déjame cambiar el color. Para esto x, Para esta x, esta será la y. eso es lo que está diciendo, o cambio en y, para un cambio unitario en x, una pendiente positiva sugiere que la pendiente negativa rec positiva indica la liberación negativafficiente de determinación r al cuadrado medido para la proporción de una varianza en la variable dependiente que es predecible a partir de la variable independiente . valor R al cuadrado más alto indica un mejor ajuste para el modelo evaluación del modelo de consideración práctica accede a la bondad de ajuste utilizando matrices como MSC cuadrática media, RMS cuadrática media y valor cuadrado R. Valores atípicos e influyentes señalan e identifican y manejan los valores atípicos que pueden desproporcionadamente Verificación de colinaridad para la coolinaridad mult coolity entre variables independientes variables independientes y considerar abordar si es Pregent. Validación cruzada, validar el rendimiento del modelo utilizando técnicas como la validación cruzada K fold para garantizar la legibilidad general Bien. Ahora, conclusión, el modelo de regresión lineal proporciona simple un marco poderoso para comprender y modelar la relación entre las variables al adherirse a sus suposiciones, interpretar el parámetro del modelo de manera efectiva y considerar la consideración práctica, los analistas y los recursos pueden aprovechar la regresión lineal para obtener conocimientos de los datos y decisiones informadas en diversos campos. Entonces esto es lo que debemos saber sobre la regresión lineal. Haremos lo práctico también con el núcleo en nuestra programación, pero esa sería la última. Por ahora, entenderemos los conceptos básicos de varios modelos de análisis regresión como la regresión lineal, luego veremos también la regresión múltiple. Se dentro de la siguiente conferencia. 138. Comprensión de la cedasticidad en la casa: Hola, y bienvenidos de nuevo. Entonces en esta conferencia, vamos a aprender sobre mo Cdesticdy Entonces homo ststicidad también conocida como homo genity of varianza es un ajumpton de regresión lineal que se refiere a la condición donde la varianza del error o residuales es constante a través de todos los través En términos más simples, significa que el espadín de los residuos debe permanecer igual independientemente del valor de las variables independientes Entonces, lo que es la homodsticía es la homogeneidad de la varianza, y es un Ajmson que tomamos en regresión lineal, y se refiere a la condición donde se encuentran los errores, que los residuos que computemos permanecerán constantes a través es la homogeneidad de la varianza, y es un Ajmson que tomamos en regresión lineal, y se refiere a la condición donde se encuentran los errores, que los residuos que computemos permanecerán constantes a través de todos los niveles de las variables independientes. Entonces, sea cual sea el valor que elija para las variables independientes, la varianza de los errores será o residuales será constante Espero que lo sepas, ¿verdad? Entonces, ¿cuál es la importancia de la homodatidad? homo sdsticidad es un ajumpton importante en la regresión lineal ya que violar esta ajumpción puede La homo sdsticidad es un ajumpton importante en la regresión lineal, ya que violar esta ajumpción puede conducir a la estimación de parámetros sesgados. Entonces, si simplemente ignoramos a este homocdat, ¿qué pasará? Obtendremos la estimación, pero esa será la sesgada en los subparámetros, y te llevará a la te dará los errores estándar incorrectos y prueba de hipótesis engañosa, cuando heterod el proyecto de la sádicidad homo está presente, el modelo puede poner demasiado énfasis en ciertas observaciones con grandes residuales y conduciendo a insuficientes y pero esa será la sesgada en los subparámetros, y te llevará a la te dará los errores estándar incorrectos y prueba de hipótesis engañosa, cuando heterod el proyecto de la sádicidad homo está presente, el modelo puede poner demasiado énfasis en ciertas observaciones con grandes residuales y conduciendo a insuficientes y estimaciones poco fiables. Entonces cuando Si ignoramos esta homodatidad se moverá hacia la heterodatidad, que se opone a la homocdatía cuando esta herosdsty se presentará en nuestro modelo cuando esta herosdsty esta homodatidad se moverá hacia la heterodatidad, que se opone a la homocdatía cuando esta herosdsty se presentará en nuestro modelo, ¿qué vamos a tener? Lo que vamos a hacer, vamos a poner más énfasis en la observación con los grandes residuos, y va a llevar a que las estimaciones eficientes no sean confiables Estimaciones, y eso hará que nuestro modelo muy inconsistente y no tanto útil. Entonces, cómo identificar la homo sdsticidad hay dos cosas primera es la parcela residual y la segunda es la prueba pagana a paso rápido Entonces entenderemos qué es la trama residual. Una forma común de diagnosticar la homosadsticidad es graficando los residuos contra el valor predicho. Entonces, sea cual sea el valor predicho que obtengamos , trazamos los residuales contra los valores predichos o las variables independientes en una gráfica residual, si la dispersión de los residuales aparece más o menos constriñirse en todo el rango, los valores predichos o variables independientes, la homocdstcidad es probablemente homocdstcidad Sin embargo, si la dispersión de los residuos se ensancha o se estrecha como valores predichos, el cambio de heterodstcidad puede ser pregente el cambio de heterodstcidad puede ser pregente La segunda técnica es el gusto pagano ortopédico. Este es el gusto estadístico utilizado para probar formalmente la homosdaidad en La hipótesis nula de la prueba pagana de corsé es que varianza de los residuos es constante Mientras que la hipótesis alternativa es que la varianza de los residuos no es heterosticidad constante Un resultado significativo indica evidencia de herosticidad. Bien. ¿Qué va a pasar? ¿Cuáles serán las consecuencias de violar la homosdatcidad Habrá la estimación sesgada. Las estimaciones de coeficientes pueden estar sesgadas si la dispersión de los residuos varía sistemáticamente con los valores de las variables independientes Errores estándar incorrectos, podemos obtener los errores estándar pueden estar subestimados o sobreestimados, lo que lleva al intervalo de confianza incorrecto y la prueba de hipótesis. En estimaciones eficientes, la eficiencia de las estimaciones de parámetros puede verse comprometida reduciendo el poder del análisis de regresión para detectar la verdadera relación entre las variables. Abordando la homo sadasticidad, si se viola la homo sdstcity, se pueden considerar varios enfoques La transformación de variables, la transformación de las variables dependientes o independientes puede ayudar a estabilizar la varianza de los residuales, lista cuadrada ponderada Usando regresión cuadrática ponderada donde las observaciones se ponderan en función de su varianza y pueden dar cuenta de la sedaticidad del héroe Errores estándar robustos, se pueden emplear técnicas de errores estándar para ajustar los errores estándar para los sedados de héroe sin asumir lo específico Forma de la estructura de varianza. Por lo que la homo sdsticidad es una exención crucial en la regresión lineal que asegura la validez y confiabilidad del modelo que estima Detectar y abordar las violaciones de la homossticidad es esencial para producir precisos y Entonces esto es lo que es la homodacidad y se entiende la importancia de cómo identificar, hay dos formas y luego hemos visto las consecuencias de violar la homo Y entonces hemos visto cómo abordar la homo sadasticidad Hay tres formas de transformación de variables, cuadrados de cobertizo ponderados y errores estándar robustos. ¿Bien? Entonces, en la próxima conferencia, veremos qué es la normalidad. Entonces ella está dentro de la siguiente conferencia. 139. Comprensión de la normalidad: Hola, y bienvenidos de nuevo. Entonces en esta conferencia, vamos a entender qué es la normalidad. La normalidad es un aumpton de regresión lineal que se refiere a la condición donde normalmente se distribuyen los residuos o errores del modelo de regresión Entonces, cuando los errores o los residuos se distribuyen normalmente, se llama normalidad En otras palabras, implica que la distribución de los residuos sigue una curva de campana o curva en forma de campana centrada alrededor de cero Con la mayoría de los residuos agrupados cerca de la media y menos residuos en las colas. ¿Qué significa esto en realidad? Significa que cuando los errores en nuestro modelo o los residuales en nuestro modelo de regresión se distribuyen normalmente. ¿Qué significa? Normalmente distribuido significa que la distribución de los residuos sigue la curva de campana sip donde se centra el It Está centrado. Todas las flechas están centradas alrededor del cero con mayoría de los residuos agrupados cerca de la media Entonces la mayor parte del si miras la campana, si miras la campana, ¿cómo se ve? Se ve así ¿verdad? Bien. Déjame usar una pluma. Si miras una campana, será así, ¿verdad? Entonces se centrará alrededor de este cero, supongamos. Y la mayoría de los valores están hacia este valor medio, valor medio. Bien, entonces esto es lo que significa. Debería ser como campanas donde están la mayoría de los valores. A través de la media de los valores. Curva bien conformada centrada en el brazo cero con la mayoría de los vegetulos agrupados cerca de la media y menos residuos en Entonces ahora, importancia de la normalidad. La normalidad es una regresión de unión importante porque muchos métodos estadísticos de gusto y estimación utilizados en el análisis de regresión se basan en la adaptación de la normalidad. Cuando los residuos se distribuyen normalmente, indica que los errores son aleatorios e independientes y el cocentro de regresión estima Cómo identificar la normalidad usando la gráfica residual, Un método común para evaluar la exención de normalidad es examinando un histograma o una gráfica Q Q, gráfica cuantil cuantil En una gráfica Q Q, si los puntos caen aproximadamente a lo largo de la línea diagonal, sugiere que los residuos se distribuyen normalmente Alternativamente, un histograma del residuo se parecería a un auto b sep como este Bien. El siguiente método es el sabor sapiro k. Este es el sabor estadístico utilizado para probar formalmente la normalidad de los residuos La hipótesis nula del sabor sapiro ilk es la prueba de que los residuos se distribuyen normalmente. Un resultado significativo indica evidencia contra la normalidad. Bien. Las consecuencias de violar la normalidad al hacer el análisis de regresión son las mismas que las que hemos visto en la homosedticidad, estimación sesgada, estimación sesgada ¿Cuál es la estimación sesgada? Las estimaciones copicientes pueden estar sesgadas si los residuos no se distribuyen normalmente Inferencia incorrecta significa intervalo de confianza y prueba de hipótesis basada en t distribuciones puede ser inválida si los residuos no están Se producirán predicciones inexactas si violamos la normalidad, intervalos de predicción pueden no ser confiables si se viola la exención de normalidad Entonces, cómo abordar la normalidad si se viola la normalidad, se pueden considerar varios enfoques para abordarla El primero es la transformación de datos transformando los datos. Al transformar las variables dependientes e independientes puede ayudar a que los residuos se distribuyan de manera más normal, transformación común incluye la raíz logarítmica o cuadrada o la Regresión robusta, técnicas de regresión robusta como errores estándar robustos o estimación se pueden utilizar para estimar el coeficiente de regresión en pregenes de los errores no normales Y entonces el tercero es boostraping. El flejado de refuerzo es una técnica de remuestreo que puede proporcionar inferencia robusta en el análisis de regresión sin una normalidad . Entonces, lo que podemos concluir es una exención de regresión lineal que asegura que la validez, eficiencia y confiabilidad del modelo de regresión se estime correctamente sin inferencia Si bien las violaciones de la normalidad no siempre pueden conducir a problemas significativos, es esencialmente esencial evaluar y abordar las desviaciones de la normalidad para producir regresión preciso y confiable Bien. Entonces espero que también hayas llegado a conocer qué es la normalidad. En la próxima conferencia, no entenderemos ninguna perfecta colinealidad mult Así que quédate dentro de la siguiente conferencia. 140. No hay multicolinealidad perfecta: A y bienvenido de nuevo. En esta conferencia, aprenderemos sobre la no perfecta colinealidad mult Entonces ninguna multicolinealidad perfecta es una exención que tomamos en regresión lineal que establece que no debe haber relación lineal exacta entre Bien. Las variables independientes son las variables que se conocen como también predictores Las variables independientes son los predictores y el valor que predecimos se denominan variables dependientes En otras palabras, implica que una variable independiente no debe ser combinación lineal perfecta de otras. Entonces una variable independiente no debería ser una combinación lineal perfecta de las otras. Por lo que no debe haber ninguna combinación de linealidad. Importancia de no multicolinearityes perfectos, multicolinaridad ocurre cuando dos o más variables independientes en un modelo de regresión la multicolinaridad ocurre cuando dos o más variables independientes en un modelo de regresión están altamente correlacionadas entre sí. Por lo que dos o más variables independientes no deben correlacionarse, altamente correlacionadas entre sí. Si bien la multicolinealidad en sí misma no es necesariamente un problema no multicolinealidad perfecta puede conducir a problemas en la estimación del coeficiente de regresión y socavar la interpretación del Identificar la matriz de correlación mult perfecta. Un método común para detectar multicolinealidad es examinar la matriz de correlación de variables independientes examinar la matriz de correlación de variables independientes. La correlación adecuada cercana a más uno o menos uno indica una fuerte relación entre dos variables El segundo método es el factor de inflación de varianza VF, FV es una medida del grado en que la varianza del coeficiente de regresión estimada se incrementa debido a la multicolinealidad la multicolinealidad Un F F alto significa factor de inflación de varianza, valor típicamente obtenido indica un nivel problemático de multicolinealidad ¿Qué pasa si violamos la perfecta colinealidad multicolar Esto conducirá a las estimaciones coficientes poco confiables. Cuando existe la colinealidad perfecta de multicoli, el modelo de regresión no puede estimar la competencia única para cada variable independiente Como resultado, las estimaciones de los coeficientes se vuelven inestables y poco confiables. Soluciones infinitas. Con perfecta multicolinealidad, hay infinitamente muchas combinaciones de estimaciones de coeficientes que Por lo tanto, el modelo de regresión no puede determinar de manera única los problemas de interpretación de coeficientes. La perfecta frialdad mult complica la interpretación del coeficiente individual, estima ya que se vuelve imposible aislar el efecto de las variables independientes de Cómo abordar la selección perfecta de variables de colinealidad mult, eliminar una o más altamente correlacionadas del modelo, priorizar variables que sean teóricamente más relevantes o que tengan una asociación más teóricamente más relevantes o que tengan una asociación fuerte La transformación de datos transforma una o más variables para reducir la friolinaridad mult Por ejemplo, la creación de términos de interacción o términos polinómicos puede ayudar a capturar relaciones complejas sin introducir relaciones complejas sin introducir una coolinaridad perfecta. Regresión de cresta. La regresión de cresta es una técnica de regularización que puede manejar coolinaridad mult agregando un término de penalización a la Este término de penalización ayuda a estabilizar estimaciones de coeficientes y mitiga el efecto de la multicolinealidad Estas son las tres técnicas muy efectivas que podemos utilizar para abordar la multicolinealidad perfecta, La una es la selección de variables Podemos eliminar o agregar más eliminar una o más variables altamente correlacionadas del modelo. Luego la transformación de datos, podemos transformar una o más variables para reducir la coolidad mult y la regresión de cresta es técnicas de regulación para manejar la multicolidad agregando Bien. Por lo tanto, garantizar que no haya una coolidad mult perfecta es esencial para producir resultados confiables e interpretables en Detectar y abordar la collaridad mult temprano en el proceso de modelado puede ayudar a mejorar la precisión y estabilidad de las estimaciones de regresión Entonces ahora comprendimos la homo sadisticidad, normalidad, y perfecto Entonces ahora con este entendimiento, vamos a avanzar en nuestro análisis de regresión, entendiendo. Bien, así que mira dentro de la siguiente conferencia. 141. Conceptos de regresión lineal simple y formulación: Y bienvenidos de nuevo. En esta conferencia, estaremos entendiendo sobre regresión lineal simple, conceptos y formulación. Tan simple regresión lineal, como hemos comentado anteriormente también es una técnica estadística de base utilizada para modelar la relación entre dos variables, una variable dependiente, y también variable dependiente también se conoce como variable de respuesta y una variable independiente que se llama variable predictora Por lo tanto, la variable predicha será la predicción de variables dependientes Aquí, profundizaremos en el concepto de formulación de regresión lineal simple, explotando los principios fundamentales y aplicaciones prácticas de la regresión lineal simple Concepto de regresión lineal simple , primero, entendemos. En su código, la regresión lineal simple tiene como objetivo capturar la relación lineal entre una única variable independiente x y una variable dependiente y la relación se juega a través de una ecuación de línea recta y igual a x más c más B t cero. B cero es cero, ya hemos visto en la conferencia anterior, es el punto de intercepción de intercepción o la intercepción x e y es la variable independiente, y es la variable dependiente, y B uno, Beta uno es un Ya lo hemos discutido aquí. Esto es Beta cero, esto es B uno, esto, y esto es x. Bien. Entonces ahora, el término de intercepción representa el valor de y cuando x es cero que ya hemos visto y el coeficiente de pendiente eta uno indica el cambio en y asociado con el cambio de una unidad en x Así que cuando mires aquí, este eta uno, va a estar cambiando. Así que cuando mires aquí, este eta uno, va a estar cambiando Ahora, formulación de regresión lineal simple. Estimación estimando el copesente de pendiente Beta uno. El copicente de pendiente Beta uno se estima utilizando el método de mínimos cuadrados, que minimiza la suma de diferencia al cuadrado entre los valores objve y predichos de y. La fórmula para estimar Beta uno es Beta uno es igual a Sigma de x i menos x a y menos y Esto se predice menos objeto menos predicho, dividido por Sigma off, y aquí I es dividido por Sigma estima utilizando el método de mínimos cuadrados, que minimiza la suma de la diferencia al cuadrado entre los valores objve y predichos de y. La fórmula para estimar Beta uno es Beta uno es igual a Sigma de x i menos x a y menos y Esto se predice menos objeto menos predicho, dividido por Sigma off, y aquí I es variando de igual a uno dos y xi menos x. cuadrado entero. Donde está el número de observaciones, x e y son los valores individuales de x e y y x e y, estos son la media muestral de la media x e y media son la media de x e y Estimando el cero Beta. Una vez estimada la pendiente suficiente Beta one, el término de intercepción beta cero se puede calcular usando la fórmula, beta cero, bar es igual a y bar menos beta 1 bar, donde x barra x barra beta uno es pendiente cofcient y x bar y bar son las medias de muestra de x e y, por lo que esta es la fórmula de formulación de la regresión lineal simple. por lo que esta es la fórmula de formulación de la regresión lineal simple Aplicación de regresión lineal simple, ya conocemos en economía para modelar la relación entre el ingreso y el gasto en finanzas, predecir los precios de las acciones con base en los datos históricos, en la salud, y Ling la relación entre la edad del paciente y los gastos médicos y en la educación en tomar como predecir el desempeño estudiantil ya conocemos en economía para modelar la relación entre el ingreso y el gasto en finanzas, predecir los precios de las acciones con base en los datos históricos, en la salud, y Ling la relación entre la edad del paciente y los gastos médicos y en la educación en tomar como predecir el desempeño estudiantil basado en el estudio s. Así que la regresión lineal simple es una poderosa herramienta estadística para modelar y comprender las relaciones entre las dos variables estimulando la pendiente y el coeficiente de intercepción Los analistas pueden cuantificar la fuerza y dirección de la relación y hacer predicciones basadas en los datos observados Comprender el concepto y la formulación de regresión lineal simple es esencial para realizar análisis precisos y significativos. En diversos dominios. Entonces esto es un paso adelante, hemos ido y hemos entendido cómo ocurre la formulación de regresión lineal simple. Y también hemos entendido el concepto también. Entonces veremos más sobre esta, uh, regresión lineal simple en la próxima conferencia. 142. La teoría del método de los mínimos cuadrados explicada: Y bienvenidos de nuevo. Entonces en esta conferencia, entenderemos cuál es el método de mínimos cuadrados. Entonces, el método de mínimos cuadrados es un enfoque común utilizado en la regresión lineal. Estimar el coeficiente de la ecuación de la regresión. Su objetivo es encontrar la línea que mejor se ajuste a los datos del objeto minimizando la suma de las diferencias cuadradas entre el objeto y los valores predichos de la variable dependiente Así es como funciona el método list square. Lo primero es definir la ecuación de regresión. La ecuación de regresión para un modelo de regresión lineal simple se representa típicamente como y igual a Beta cero más Beta uno y dos x plus o épsilon, donde y es variable dependiente También lo llamamos variable de respuesta, x es variable independiente, llamamos variable predictora Beta cero es término de intercepción, Beta uno es slofficient y Epsilon es el término de error, y Epsilon es el término de error Beta uno es slofficient y Epsilon es el término de error, representado por variación inexplicable. El segundo paso es, calcular el valor predicho usando la ecuación de regresión dada, calcular el valor predicho, es decir para cada observación en el conjunto de datos. Luego se da el valor predicho y para la observación y y bar más Beta cero más Beta uno en xi donde Beta cero y Beta uno se estiman coeficientes on a través del método de mínimos cuadrados. Ahora, el tercer paso será calcular el residual. El residual de para cada observación es la diferencia entre el valor del objeto de y y el valor predicho, y hat colon i es igual a dos, yi hat. Minimizar la suma de residuos cuadrados. El objetivo del método list squa es minimizar la suma de los residuos cuadrados Matemáticamente, esto puede ser expraged como esta ecuación. Sigma dos n, Sigma F es igual a uno a n i cuadrado es igual a Sigma F y menos yi hat cuadrado donde variaré de uno a n. Al minimizar esta suma, obtenemos la mejor línea de ajuste que pasa por los puntos de datos ya que reduce la discrepancia general entre los valores observados y predichos de y. Estimar el coeficiente, la página del quinto paso Para encontrar el valor de Beta cero y Beta uno que minimice la suma de la técnica de cálculo residual cuadrado, especialmente derivadas parciales Las fórmulas para estimar el coeficiente se dan como éste, donde x bar donde x bar y ar muestran medias de la x e y respectivamente. Después de encontrar el valor de aquí, siguiente stepge interpreta el coeficiente Una vez que se estiman la barra beta cero y la barra Beta 1, se pueden interpretar de la siguiente barra cero beta es el término de intercepción que representa la y de representar el valor de y donde x es cero y Beta 1 bar es el coeficiente de pendiente que indica el cambio en y asociado con un cambio unitario en x. Al aplicar este método de lista cuadrada, obtenemos estimaciones del coeficiente que definen la línea de mejor ajuste para los datos dados, lo que nos permite cuantificar el relación entre las variables independientes y dependientes en un modelo de regresión lineal simple. Así es como funciona el método de cobertizo cuadrado, y esta es la teoría detrás del método de los cuadrados de lista. 143. Ejemplo del método de menos cuadrados en la regresión lineal: Hola, y bienvenidos de nuevo. En la conferencia anterior, hemos visto la teoría detrás del método list square. En esta conferencia, ejecutaremos este sencillo programa que he escrito para explicar el método list squared en regresión lineal Aquí, lo que estoy haciendo, estoy generando un dato sintético. Para eso, estoy usando set dot set 123. Esto establecerá el set para la reproductibilidad. Aquí, estoy tomando X como un valor 1-200. Esta es una variable independiente, Entonces x es una variable independiente. variable dependiente será la y, y sabemos la recreación, lo siento, la fórmula de línea simple es y es igual a x más c. Así que aquí van a estar los dos de x estoy tomando dos y dos x, dos x más algún ruido aleatorio que estoy tomando aquí usando la fórmula, usando la norma de función, 100 y media estoy tomando cero y divación estándar estoy tomando diez Entonces esto nos dará la variable dependiente con algún ruido aleatorio. Ahora, Lo que voy a hacer, voy a encajar el modelo de regresión lineal usando lista cuadrada por tercera. Aquí crearé el modelo de regresión lineal usando funciones LM, crearé el modelo, y usaré la función m, y aquí, y será la variable dependiente, y x será la variable independiente. Estoy creando el modelo de regresión lineal aquí. Ahora, voy a imprimir el modelo de regresión lineal. Déjame correr hasta aquí. Ver aquí ahora podemos ver aquí. Residuales mínimos. La mediana del primer cuartil es este el tercer cuartil y max y coeficiente que podemos Residual estándar 9.1 sobre 90 grados de libertad, múltiple R cuadrado 0.0 978 ajustado R cuadrado 0.0 Ahora, trazaré los datos y encajaré y encontraré la línea ajustada. Para trazar, voy a usar la función plot x y voy a mantener el encabezado como título para la gráfica es regresión lineal menos cuadrada y x x voy a decir x e y, x p y, con la línea ab, voy a tratar de encontrar la línea de regresión ajustada. Voy a usar el modelo aquí. Este modelo de regresión lineal, y voy a usar para la línea, voy a usar el color rojo. Ahora déjeme dirigir esto. Mira ahora aquí, déjame hacerlo. Ver ahora aquí, por cada x, estamos obteniendo y y C estoy obteniendo una regresión lineal. Esta es la línea de regresión, la línea roja, estoy llegando hasta aquí. Esa es la línea de regresión lineal utilizando el método de mínimos cuadrados Con esto, estamos obteniendo aquí esta línea de regresión. Aquí hemos utilizado el método de mínimos cuadrados para encontrar la línea de regresión. Ver dentro de la siguiente conferencia. 144. Conclusión y trabajo de proyectos: Hola chicos, Así que hemos aprendido la programación artística y estamos bien para ir con nuestro, nuestro conocimiento de programación. Y ahora podemos implementar este conocimiento de programación artística en ciencia de datos y machine learning. Bien, entonces a partir de ahora, está listo para implementar algoritmos de ciencia de datos y aprendizaje automático utilizando nuestra programación. Entonces nuestra programación es clara. Ahora has cargado. Ahora su siguiente paso es implementar algoritmos de ciencia de datos y aprendizaje automático en nuestra programación e intentar explorar. Entonces este es el siguiente paso. Y ahora puedes avanzar más y comenzar a analizar los datos usando R e implementar algoritmos ML como la regresión lineal usando programación R. Entonces estas son las cosas que puedes explorar más a fondo después de completar esta clase. Entonces lo siguiente es, ¿cuál es tu proyecto para esta clase? Así que ahora puedes crear tus propios datos, como yo he creado datos de empleados en archivo CSV. También puedes crear tus propios datos en un archivo CSV para esta clase, trabajo de proyecto. Y tratar de leer ese archivo CSV a través del arte. Entonces intenta realizar algún análisis de datos sobre esos datos, en ese archivo CSV datos usando arte como lo hemos hecho en nuestra clase. Y tratar de crear algunas tablas y gráficas basadas en los datos como rehabilitación realizada para nuestros datos de empleados. De igual manera, se puede pensar en un problema, pensar en un dato, y realizar todas esas cosas. Y después de que hayas terminado con eso, dijo, tu informe final de análisis. Como ¿cuáles son las cosas que habrás encontrado a partir de los datos? Y tratar de crear un informe y tratar de crear gráficos y tablas. Y tratar de poner eso en la sección de proyectos de esta clase para que todos podamos pasar por ello. Aprenda de su experimento, aprenda de su proyecto y fracase en comentarios constructivos entre ellos. Entonces cuando guardas tu proyecto, todos los demás alumnos. E incluso puedo pasar por eso e incluso puedo decir que los comentarios y otros también lo miran y dicen los comentarios entre ellos. Y con eso, podemos aprender y crecer. Así que empieza a configurar y publicar tu proyecto. Eso es todo para esta clase. Y espero que hayas disfrutado de esta clase y hayas aprendido nuestra programación para tus futuros proyectos de ciencia de datos y aprendizaje automático. Adiós, adiós, cuídate.

Bootcamp de programación de R para ciencia de datos y aprendizaje automático

Sunil Kumar Gupta

Ve esta clase y miles más

Ve esta clase y miles más

Lecciones en esta clase

1.

Introducción

1:15

2.

Instalación de R

7:15

3.

Instalación y exploración de RStudio

11:34

4.

Por qué aprender R

5:15

5.

Primer programa de R y operadores en R

11:06

6.

Tipos de datos en R

8:33

7.

Creación de vectores en R

5:49

8.

Secuencia en R

14:59

9.

Función de replicación

5:09

10.

Acceso a elementos vectoriales

8:04

11.

Manipulación de vectores en R

5:39

12.

Reciclaje de elementos vectoriales

5:22

13.

Ordenación de elementos vectoriales

5:35

14.

Toma de decisiones en R

9:55

15.

Control de bucle con repetición y mientras se usa el bucle

6:18

16.

Para el bucle y la siguiente sentencia

5:10

17.

Funciones en R

13:01

18.

Matrices en R

13:04

19.

Factores en R

7:53

20.

Marcos de datos en R

16:14

21.

Combinación de marcos de datos

9:03

22.

Análisis de datos en R desde un archivo CSV

18:44

23.

Creación de un gráfico circular en R

8:30

24.

Análisis de datos de empleados

13:30

25.

Lectura de archivos de Excel en R

7:05