Transcripciones
1. Introducción: Hola y bienvenidos al campo de entrenamiento de programación de
clase R para ciencia de datos y aprendizaje
automático. En esta clase, te estaré
enseñando a agregar programación, que es el segundo
lenguaje de programación más popular que
se está utilizando en el campo del aprendizaje automático
y la ciencia de datos. El primer bin, Python. Entonces, si quieres aprender programación
R y
quieres sobresalir en
tu operador en ciencia de datos
y aprendizaje automático, entonces esta es la clase
adecuada para ti. Yo soy Sunil, tu
profesor para esta clase. Tengo años de experiencia trabajando empresas de
desarrollo de software y analistas de tecnología durante últimos 12 años y los últimos seis
años he estado enseñando personas en temas de ciencia de datos y aprendizaje
automático. Entonces te enseñaré
programación desde lo básico hasta el tema
muy avanzado. Y veremos cómo podemos usar nuestra programación sin ley
para analizar los datos,
para visualizar los datos y cómo
podemos usar la programación R para hacer que nuestros modelos
de ciencia de datos y aprendizaje
automático sean utilizados en el campo del aprendizaje automático
y la ciencia de datos. Entonces, si estás interesado
en aprender y programar para la ciencia de datos
y el aprendizaje automático, entonces esta es la clase
adecuada para ti. Entonces si te interesa
inscribirte en esta clase, y te veré dentro de
la siguiente conferencia. Gracias.
2. Instalación R: Hola y bienvenidos. Entonces en esta conferencia, vamos a ver el proceso de
instalación de arte. Y al final de esta conferencia, podremos ejecutar nuestros
programas dentro de nuestra consola. Así que comencemos a
instalar R en nuestra máquina. Tenemos que ir a la página web. Conducto de glándula cran son proyecto de
guión. Observando a la oscuridad. Cnn punto son
proyecto guión o hacia usted, que es el
sitio web oficial hasta nuestra programación. Y se puede ver el archivo R
completo. Cuando vengas aquí, es posible que
veas un ritmo diferente si
venimos en otro
momento después de unos meses. Pero más o menos, verá aquí
la Red Integral de
Archivos R. Y luego aquí
verás descargar e instalar R. Y
aquí verás las diferentes
opsins del sistema operativo que puedes descargar R4. Entonces aquí estamos en
la máquina Windows. Entonces iré con esa
descarga R para Windows. Si estás en Linux o
si estás usando macOS, puedes ir a los sistemas
operativos correspondientes. Por lo que necesitamos hacer clic
en la descarga R para el respectivo
Sistema Operativo de mis hijos. Estoy dando clic en las ventanas. Aquí. Puede seleccionar instalar
R por primera vez. ¿Bien? Y aquí iremos con la descarga R para punto
o punto para Windows. Haga clic en eso o no. O guión cuatro punto 0, n2 guión punto verde archivo EXE
comenzará a descargarse. Es el archivo de 83.6 MB. Y mi internet es un poco
lento hoy, desde la mañana. Por lo que está tomando algún tiempo. Si estás en Internet de alta
velocidad, puede tardar unos minutos y se descargará el archivo
EXE punto . Solo espera
a que se descargue. Y una vez hecho, donde iniciaremos el
estilo y el proceso. Ahora se
ha descargado el archivo EXE punto. Tenemos que hacer doble clic sobre eso. Y llegará el aviso
para instalar el arte. Solo necesitamos hacer clic
en Sí para permitir que el administrador acceda al proceso de
instalación. Y una vez que hagas eso, el aviso de escucha de histonas
vendrá así. Y aquí necesitamos seleccionar el
idioma para que puedas seleccionar el idioma
tuyo y dar click en. Bien. Ahora necesitamos conocer la condición de
Thompson como GNU General Public
License Agreement. Entonces hay que leerlo y luego tenemos que dar
click en el Siguiente. Ahora puedes seleccionar
el directorio. Lo estoy guardando en el
archivo C por defecto directorio. Y tenemos que dar click en Siguiente. La cosa ya existe
porque ya estaba ahí. Así que solo hago clic para
instalar de cualquier manera. Da click en él y
podrás dejarlo como está
y dar click en Siguiente. Haga clic en Siguiente. Aquí puedes, si quieres, puedes seleccionarlo para no crear la carpeta Menú
Inicio, ¿bien? Si quieres, quiero
que me creen. Por lo que voy a hacer clic en Siguiente. Y aquí tienes que seleccionar, solo
seleccionas los datos. siguientes descensos son atajos
para que puedas lanzar el arte fácilmente. Siempre que quieras
escribir programa, simplemente
puedes hacer clic en
ese intestino extra de la trama y puede comenzar. Haga clic en Siguiente. Y ahora lo impar se está instalando
en nuestro sistema. Puede tardar unos minutos. Difícilmente. Tomará de dos
a 3 min como máximo. C aquí. Ahora la rpart, estamos en interiores para punto
o punto a conjunto de rígido. Y está diciendo que está terminado. Así que basta con hacer clic en el acabado y R se instala
en su máquina. Para verificar que impar
instalado o no, necesitas hacer clic en el Inicio de Windows
y solo necesitas
desplazarte hacia abajo para comprobar si
los artistas, no lo son. Ver aquí. Ahí está la carpeta de arte. Y al hacer clic en él, haga clic en la carpeta de
arte, verás que las dos
opciones son I1, I3, un T6, y agregar tal T4. Entonces, si estás en sistemas
operativos Windows siete o Windows diez o superiores, puedes ir con la versión
de cuatro bits. De lo contrario se puede
ir con el 386. Bien, entonces estoy por debajo de las máquinas de
64 bits, así que voy a hacer clic en esto
y se perderá r. Entonces esta es la R Do Re, y esta es la consola R. Y aquí podemos empezar a
escribir el programa del corazón. Supongamos que me encantan cuatro más cinco
y me va a dar nueve. Si escribes el sencillo programa
Hello World para el arte. Así que tenemos que escribir impreso. Y luego en la sola
cita hola mundo, y se imprimirá Hola mundo. Entonces nos vemos ahora. Este es el sencillo programa Hello
World en R. Así que así es como nuestros programas
pueden ejecutarse en la consola. Pero para este curso no
vamos a utilizar nuestra consola GUI. En su lugar vamos
a usar RStudio, que es y IDE
para R. Y eso es más preferible
y mejor opción para proceder con
la programación R. Por lo que en la próxima conferencia, comenzaremos a descargar
e instalar RStudio. Me ves en la siguiente conferencia.
3. Instalar y explorar el RStudio: En la conferencia anterior, hemos descargado e
instalado en nuestra máquina. Y hemos visto cómo trabajar
con la consola de arte, ¿verdad? Sí. Pero no vamos
a proceder con esto. Entonces vamos a descargar
RStudio para este curso. Y a lo largo de este curso, estaremos usando RStudio. Rstudio es un IDE de
Entorno de Desarrollo Integrado para programación R. Y con eso,
podemos hacer las cosas fácilmente y podemos manejar las cosas
de manera organizada y AD, ayudan mucho en la programación. Así podemos recubrir con facilidad y podemos ver los resultados con él. Entonces la semana que viene
vamos con el RStudio. Entonces, primero lo primero, necesitamos descargar RStudio. Entonces para descargar RStudio, necesitamos ir
al art studio.com. Este es el
sitio web oficial de RStudio. Y cuando lleguemos al sitio web de
RStudio, verá las diversas
opciones como productos, soluciones, clientes,
recursos y muchas cosas. Y en la parte superior se puede ver la descarga
no hará clic en eso. Antes de eso,
solo veremos cuáles son los productos de
nivel en RStudio. Entonces ahí está nuestro estudio, el IDE premier para R. Entonces servidor
RStudio es su
señal ya está ahí. Y los paquetes de RStudio también
están ahí. Entonces vamos a
usar RStudio, el ID, y luego
usaremos paquetes R para varios usos cuando exportemos ese aprendizaje
automático de ciencia de datos, todas esas cosas entonces
estarán usando paquetes R. Bien, así que los
paquetes RStudio y R vamos a usar. Así que por favor haga clic en RStudio. Por lo que RStudio es un
entorno de desarrollo integrado para el arte. Incluye
editor de resaltado de
sintaxis de consola que admite la ejecución
directa de código, así
como herramientas para plotting, historial, depuración
y qué administración. Bien, así que todas estas cosas
que podemos hacer con el RStudio, vamos a usar
la última versión hasta RStudio un punto tres. Y hay dos
versiones de RStudio son nivel que es RStudio
Desktop y RStudio server. Entonces no vamos a
usar el servidor RStudio. Vamos a usar RStudio
en nuestras paradas de cubierta, así que haremos clic en eso. Y cuando veas
otro extra de almacenamiento, nuevamente, verás
las dos opciones, razón de código
abierto, que básicamente
es una cosa gratuita, y RStudio Desktop pro, que es para uso comercial y para que este artista
lea extra pro, tenemos que pagar $995 cuerpo. No vamos a usar
este comercial. Vamos a utilizar
para este curso, la versión gratuita de código
abierto de RStudio, es
decir, una GPL versión
tres, licencia gratuita. Entonces voy a hacer clic en eso. Descarga, RStudio
extra. Haga clic en eso. Y al hacer clic en eso, llegarás a la fase de descarga dura
para hacer. Y aquí podemos elegir esta versión gratuita y dar
clic en Descargar. Y cuando hagas clic en Descargar
, te llevará a tu
respectivo sistema operativo. Ya terminamos. Entonces aquí voy a
descargar RStudio para Windows. Si estás en otro sistema
operativo, puedes hacer clic en ese. Al igual que Coben a
macOS, Fedora, BBN, sea cual sea el
sistema operativo que tengas, solo
tienes que seleccionar ese archivo clic de la
mano en Descargar. Entonces descargaré RStudio para
Windows y haré clic en eso. Y artistas, artista studio dot EXE archivo
se va a descargar. Empezará a descargarse aquí. Entonces voy a esperar por eso. Así que este
archivo EXE punto RStudio ha sido descargado, así que solo necesito hacer
doble clic sobre él. Así que los artistas reducen
asistente de configuración ha comenzado. Entonces, ¿por qué solo necesitas hacer
clic en Siguiente Siguiente? Solo tendrás que dar click en Siguiente Siguiente y ya se hará. No hace falta hacer nada extra. De esta manera haga clic en Siguiente, Siguiente, Siguiente. Y se hará
en un par de minutos. Por lo que se ha hecho
la configuración del estudio de artistas. Simplemente haga clic en
Finalizar y RStudio se ha estancado por completo
en sus máquinas o simplemente Ahora la aplicación de interrupción de tareas está
ahí, simplemente haga clic en conducta. Se
lanzará un estudio de artistas. Entonces los de Cel están cargados. Rstudio, Bueno, parece este año verás la
opción de escribir tu guión. Y esta es la
consola donde podemos ver los resultados
de esos scripts. Y luego en esta esquina superior
derecha se
puede ver el
medio ambiente, la historia. Cualquiera que sea el comando y desechado estamos
corriendo corriente dorsal. Se puede ver entonces esa
conexión y luego tutorial. Entonces, si quieres
aprender sobre
paquete en particular o algo así, puedes ir aquí y
aprender sobre eso. Y luego aquí se pueden ver los archivos en el directorio de trabajo
los archivos se mostrarán aquí. Entonces las parcelas, cuando
usamos parcelas y todas las gráficas, y si corremos
algo paisaje para trazar algo
como cosas gráficas, todas esas parcelas y
todas pronto estarán aquí. Los paquetes que
utilizamos en nuestro script. Esos paquetes
serán nuestro nivel aquí. Entonces todos los paquetes que
están instalados aquí. Y solo puedes seleccionar, y si quieres
eliminar ese paquete, puedes eliminar de aquí. Si quieres conocer
más sobre el paquete, puedes dar click en
este enlace y
puedes conocer más
sobre el paquete. Entonces aquí puedes ver
el nombre del paquete y luego la descripción del tipo del paquete y la
redacción del paquete, y luego explorar y
luego eliminar la mafia. La opción de paquete está ahí. Si quieres instalar
un nuevo paquete, solo
tendrías que hacer
clic en Instalar y nuevo nombre del paquete tienes que especificar y
se descargará. Bien, y entonces aquí
hay una ayuda ops y quieres aprender
sobre R y RStudio, o quieres ir a los manuales son
grandes para hacer manuales, puedes ir aquí y obtener la
ayuda sobre cualquier tema, bien, Entonces estas cosas las hemos visto connexins y tutoriales
y todo estará aquí. Y a partir de aquí, los tres puntos. Puedes ver al
hacer clic en esto, puedes seleccionar el directorio de
trabajo que deseas configurar
para tu RStudio. Así que supongamos seleccionar nuestro 2020
como directorio de trabajo. Así que sólo voy a seleccionar eso. Y luego tenemos que dar click
en esta opción más opsin y Establecer como
Directorio de Trabajo es que solo necesitas
dar click sobre eso. Así que el conjunto senior, WD dijo que WE es el comando para
establecer nuestro directorio de trabajo. Así C o D colon arte
impreso donatario. Este árbol se ha establecido en
el directorio de trabajo. Entonces, si no quieres
hacer desde aquí, puedes usar este comando para establecer el
directorio de trabajo, ¿de acuerdo? Y entonces aquí puedes crear una nueva carpeta,
puedes eliminar, puedes renombrar todas esas opciones a nuestro nivel aquí y aquí solo
podemos escribir
tanto nuestro script por más cinco. Y esta ejecución, puedes seleccionar esta línea y
vas a dar click en Ejecutar y este script o
esta sentencia
se estará ejecutando y
verás el resultado aquí, phi plus pipe entonces
simplemente puedes, si quieres imprimir algo, hola, RStudio y
quieres hacer clic en Ejecutar, verás que hay
LTL hola, RStudio. ¿Bien? Y en la historia vas a estar viendo todos los comandos
que se están calculando. ¿Bien? Entonces estas son las cosas y
este archivo lo puedes guardar. Si desea guardar este archivo, puede hacer clic en Guardar, y se guardará en su directorio de trabajo
actual. Para que puedas dar
cualquier nombre sonrojado. Se guardará nuestro archivo. Bien, de manera similar, si
queremos crear un nuevo archivo, solo
necesitas dar click aquí y verás
el grupo del artista. Vas a crear nuestro archivo script o notebook
o archivo R markdown. Veremos qué es el archivo de rebajas
R. Estaremos aprendiendo
sobre esta ágil. ¿Bien? Y luego si haces clic, puedes crear un nuevo
proyecto o nuevo directorio, o puedes ir al directorio
existente. Y aquí se puede ver
el control de versiones. ¿Bien? Entonces estas son las
diversas opciones de nivel. Si vuelve a hacer clic en el archivo, verá el Script
Nuevo Archivo R. Mcdonald's, esas cosas
que puedes ver aquí. Y parcelas de oro que
hemos visto aquí. Lo mismo. Construir, depurar las herramientas
de perfil no lo son. Así que exploraremos todas las opciones de cuándo y dónde sea necesario. Y exploraremos todas
esas cosas por ahora. Esta es la parte de escritura de guiones, y aquí veremos que un juez, y aquí podemos ver directorio de trabajo actual
oscuro y tramas y todo. Si usamos, puedes
ver que tus paquetes se
pueden instalar y
son enormes desde aquí. Y aquí se puede ver
la historia y todo. Bien, entonces esto es
todo sobre RStudio. Y ahora ya estamos listos
para comenzar con la programación R
con este RStudio Ib. Entonces, a partir de la siguiente
conferencia, vamos a aprender
nuestra programación. Entonces Steven escribe la siguiente conferencia.
4. Por qué aprender R: Hola y bienvenidos.
En esta conferencia, vamos a aprender por qué son, por qué deberíamos estar aprendiendo el lenguaje de programación
R? Entonces, para responder a esta pregunta, tenemos que
pasar por dos cosas. Lo primero es, ¿qué
es r y por qué
debemos aprender son sus regiones detrás de aprender nuestra programación? Entonces comencemos
con ¿qué es r? Así que r es el lenguaje más
popular en el mundo de la ciencia de datos. Los análisis de datos son estáticos. Por lo que es muy utilizado
en el análisis de datos que son tanto estructurados como
no estructurados en la naturaleza. Hoy en día estamos
obteniendo una gran cantidad de datos que se llaman big data, que en su mayoría no están estructurados. Y si quieres
analizar esos big data, puedes hacerlo fácilmente con
la programación R o impar. Impar. Impar. Odd es un lenguaje de programación
y software y calentamiento para
análisis estadísticos y gráficos. La presentación y el reportaje
de lo que han creado Eros yamaka y
Robert Jackson man y la Universidad de
Auckland, Nueva Zelanda. Y actualmente
están bloqueados por nuestro equipo central de desarrollo. Entonces R es inventado por yamaka
y Robert Gentleman. Y por eso es que su nombre es extraño porque en invierno el nombre empieza con nuestro Roth y Robert y
lo nombraron en base a su nombre. Y se llama nuestra
programación de ellos. Regiones para aprender R. R es de código abierto y de
libre acceso de software de código abierto se
puede conectar y jugar. Y si queremos contribuir
al arte que también tú puedes hacer. Y es la licencia pública
general de GNU. Así que no hay necesidad de pagar nada por
ti mismo libremente están nivelados. Y esa es la mejor razón
para usar nuestra programación. Compatible multiplataforma. Entonces, ya sea que ejecutes
nuestro programa bajo Windows o Linux o
macOS, no importa. Funcionará a la perfección
y te dará el mismo resultado en cualquiera
de estas plataformas. ¿Son estos artistas altamente flexibles
y evolutivos de naturaleza
flexible? Y está muy evolucionando. Y actualmente es
más de 2 millones son mucho más de 2
millones de usuarios están utilizando nuestras
industrias de programación y dominios. Ampliamente utilizado nuestra programación. Al igual que nombra a la industria y encontrará el uso de
nuestra programación en ese dominio financiero que utilizan para detectar transacciones fraudulentas
en el dominio de las telecomunicaciones. Se utilizan la
programación del arte. También. Lejos hay perfiles de suscriptores. En el dominio de la biología, encontrarás la herramienta de biología
computacional para realizar análisis del genoma. Muchos, muchos dominios. Están usando R. Y
es una comunidad enorme, como te dije, 2 millones usuarios y usan la comunidad de
desarrolladores. Y extraño es tener
más de 10 mil. Los últimos paquetes y
carencias de funciones incorporadas cat
en diversa necesidad. Entonces, si quieres realizar una
operación de suma simple o
quieres encontrar la media de algunas
funciones son algunos números. O quieres hacer como algunas
representaciones gráficas más de tus datos. Puede hacerlo fácilmente con los paquetes de auditoría y las funciones
integradas. Y nuestros paquetes son excelentes
para la manipulación de
datos, visualización de
datos, aprendizaje
automático , ciencia de datos y modelado
estadístico, imputación y muchos otros paquetes que están
etiquetados para jugar. R es excelente para la visualización. Y R paquetes como GG
plot a Gibbs usted crea visualización para que
pueda visualizar los datos fácilmente con
nuestra programación. Y muchas empresas importantes
como Facebook y Google, están usando el arte para
sus diversas necesidades. Odd es igual a la parte del
lenguaje es que análisis
estadístico
y la ciencia de datos a od es ampliamente utilizado
en ciencia de datos, aprendizaje
automático, análisis de
datos, minería de datos, todas esas cosas. Entonces od es el lenguaje de referencia
para todas estas cosas. Y si queremos aprender, si quieres
adentrarte en esa ciencia de datos
y aprendizaje automático, siento que comienzas con
la programación. Porque si conoces los
conceptos básicos sobre programación, puedes ir fácilmente a
aprender ciencia de datos y concepto de aprendizaje
automático y
puedes implementar esos conceptos, esos algoritmos con programación
extraña fácilmente.
5. Primer programa R y operadores en R: Hola y bienvenidos de nuevo. Entonces en esta conferencia
vamos a escribir nuestro primer archivo de script R, o primero nuestro programa, y veremos alguna sintaxis
de nuestra programación. Bien, entonces primero lo primero, tenemos que crear nuestro archivo. Así que creé en la
conferencia anterior primeros datos, sólo
voy a cerrarlo. Y sólo tenemos que dar click aquí. Y seleccionaremos nuestro guión. O puede, alternativamente, utilizar el control shift y
para crear nuestro archivo script. Y aquí, lo que voy a hacer, voy a tratar de guardar esto
dando click aquí. Puedes poner controladores
y dar este nombre primero. Se descompuso. Ok. Punto. Punto, punto es por qué elecciones
y qué programas. Bien, agrega un guión. Así que sólo voy a hacer clic en Guardar. Así que ahora nuestro primer archivo de
script de programas artísticos está hecho. Ahora lo que voy a hacer, sólo voy
a empezar con algunas variables. Supongamos X, X 0s
y oreja valiosa. Y quiero asignar el
valor siete u ocho. Entonces aquí podemos asignar un
valor usando un guión menos que
signo, eso es así x Y cuando usamos menos de ocho, significa
que este
objeto x en nuestra programación, todo es un objeto. Entonces podemos llamar a x como variable n, o podemos llamarlo como un objeto. Como objeto o variable. Entonces x es un objeto, y le estamos
asignando un valor ocho. ¿Cómo podemos comprobarlo? ¿Ahora no está teniendo valor ocho? Entonces tú, al
hacer clic en Ejecutar aquí, verás y verás aquí en la pestaña
Entorno global aquí, puedes ver x valores x Así x objeto está
recibiendo un bucle while. Se. Simplemente podemos usar el comando print. Y podemos poner x dentro. Y luego cuando ejecutemos esto, obtendremos el valor ocho. Bien, ya estamos llegando. Ahora, lo que voy a hacer, simplemente
escribiré un programa
para sumar dos números. Entonces usaré x igual a ocho y asignaré y igual a nueve. Y luego, así que mira aquí lo que hice. Me asigné a x, a y, y luego he usado otra variable u objeto todavía. Y he asignado x
más y igual a jet. Y lo que hice,
imprimo detalle para que
obtengamos el x plus y en muerto. Entonces jet vamos a
llevar X más Y, X más Y más 917. Entonces estamos obteniendo
valor I, sólo 17. Del mismo modo, lo que voy a hacer, también
podemos usar una cadena. El porche, pierdo mi primavera. Y le asignaré algún valor de
cadena. Supongamos que me voy de mi casa. Algo, ¿de acuerdo?
Esta es la cadena que estoy asignando a
mi valor de cadena. Así que ahora el
objeto MyString va a estar consiguiendo lo que mi casa, ¿verdad? Entonces lo que voy a hacer,
solo intentaré
imprimirlo mi valor de cadena, e intentaré ejecutar esto. ¿Por qué están consiguiendo sumador? Porque no he ejecutado esta línea y nuestra ejecución de esta declaración impresa. Así que tenemos que ejecutar
línea por línea, ¿de acuerdo? Y si queremos
ejecutar de una vez, solo
necesitas dar
click sobre la fuente. Así que haga clic en fuente y todo
será igual a 17 para esta impresión y luego mi página de inicio para este valor de cadena. ¿Bien? Entonces esta es la manera que quieres. Una vez más. Supongamos que estoy usando x. Igual a 910. Imprimir x aquí. Y yo dirijo esto, voy a conseguir ocho. Entonces porque esta declaración la
tengo y tú creaste antes, así que me estoy poniendo X4 ocho. El nuevo valor, x igual a nueve, x igual a diez no se ejecuta. Entonces para ejecutar eso, lo que tengo que hacer, y
va a correr esta línea. Y si ejecuto esta
declaración, de nuevo, voy a obtener el valor n, correcto. Si ejecuto toda esta fuente,
lo que obtendré primero, obtendré x más y
17 porque aquí, hasta aquí, el valor x es ocho. Pero cuando procedemos
en el programa, valor
X se reasigna a diez. Y por eso estamos obteniendo
el valor X como diez aquí. ¿Bien? Entonces el valor MyString
es una variable de cadena, U y X, Y, j, los otros números, ¿de acuerdo? Y supongamos algo, si
quieres apoyarlo, no
quiero usar
x igual a diez. Puedo
comentarlo usando Hess. Bien, entonces ahora esta declaración no
será ejecutada. Entonces ahora si ejecuto todo
este programa, guión
completo, lo que voy a conseguir, obtendré x igual a ocho. ¿Bien? No voy a sacar
el sol, el director general. Ahora estoy obteniendo el valor x
es el valor x en 818910. Si me quito este comentando, nuevo, voy a estar recibiendo diez. El valor de C x está bajando. Entonces, si quieres bajar
algo, puedes usar a Hess, esa declaración
será comentada abajo. Del mismo modo, podemos realizar todos los
operadores matemáticos sobre las variables. Entonces supongamos que quiero
usar cuatro en cinco. Voy a conseguir 25, 20. Si quiero, como, usar 25/5 y conseguimos cinco. Entonces todas estas cosas que podemos hacer, podemos realizar todos los operadores
matemáticos aquí. Supongamos que quiero usar
25/2, voy a obtener 12.5. Entonces todas estas cosas
que podemos hacer aquí, también
podemos usar nuestras cosas
exponenciales también. Supongamos que quiero usar tres exponenciales a la regla
exponente. Vamos a conseguir nueve, ¿verdad? Así que ejecuta esto y mira aquí
va a estar recibiendo nueve. De igual manera, si uso
25 exponencial 25, ¿cuánto obtenemos? A ver. Bien. Entonces este es el gran valor. No debería haber usado. 25 exponenciales dos
obtendrán 625, supongo. Sí, es x 25. Entonces todos estos
operadores matemáticos los podemos usar aquí. Si quieres usar
seis exponencial, seguirás obteniendo seis, ¿verdad? Si hacemos dos, conseguirán 36. Entonces todos estos
operadores matemáticos y cálculos los podemos usar en R como de costumbre, ¿de acuerdo? De igual manera, también podemos realizar
sustracciones. 78 menos tres más
seis obtendrán 22. Así que hemos visto como Edison
sustracción multiplicación, exponencial, y tenemos operador
especial
que es módulo. También. Supongamos que voy a usar 45 y modelo, vamos a usar dos veces. Entonces 45 modeladores. Supongamos que uso cinco. Entonces 45 módulo phi
dará cero, ¿verdad? Sí. Y si usé
45 módulo cuatro, obtendré uno, z. Así que si uso 25, tres
sin bordes, obtendré 41. ¿Bien? Por lo que el módulo
mantendrá el resto. Entonces 3/20, 5/3 nos dará 13 en 824 y luego
obtendremos el uno como recordatorio. Bien, entonces cuando
realicemos división, el resto se
dará como módulo. Entonces estos son los
operadores que hemos visto en el sentido de
multiplicación exponencial Jackson, y luego el módulo.
6. Tipos de datos en R: Hola y bienvenidos de nuevo. En esta conferencia,
vamos a aprender sobre los tipos de datos
en la programación R. Entonces, a diferencia de otros
lenguajes de programación como Java
o C, o C plus plus, donde declaramos una variable, declaramos la variable
sin tipo de datos, ¿verdad? Supongamos que, si queremos usar
una variable de número entero, declararemos que int x. ¿
verdad? Ahora, flotar por qué nuestro
personaje la x ¿verdad? Cuerda. ¿Por qué ensanchar un,
ensartarlo así, verdad? Pero en nuestra programación, no
declaramos variables
con tipo de datos, ¿verdad? Supongamos que he limpiado mi
probablemente, como aquí, he asignado x o diez, ¿verdad? He asignado diez a la x. Así que a este objeto se le asigna
un valor obtenido. Entonces el tipo de datos de este
objeto se convertirá en tipo de
datos, tipo de datos de este
número diez, ¿verdad? Entonces esta variable o esta, supongamos que esto es diez
como número entero. Por lo que este tipo de datos de objeto se
convertirá en número. Si asigné x igual
a alguna cadena, esta se convertirá en la variable de cadena de
caracteres. Entonces no decidimos por adelantado lo que sea que asignemos a
la variable u objeto, ese objeto
se convertirá en tipo de objeto. Entonces son cuatro o menos como nuestra luz de espejo dinámico brillante. Entonces no ponemos el tipo
de datos por adelantado. Se decidirá qué tipo de valor
va a ese objeto. Y ese objeto
se convertirá en ese tipo de objeto valioso, ¿verdad? Entonces déjame crear otro archivo donde vamos a
estar viendo los tipos de datos arriba. Entonces déjame despejar esta ventaja. Bueno, entonces básicamente hay
seis tipos arriba de nuestros objetos. Y son como, Oh,
recto, inferior. Recto. Después enumera. Y luego tenemos a Alice. Y luego tenemos matrices. Y entonces tenemos factores. Factores y luego estudio. ¿Bien? Y luego tenemos dataframes. ¿Bien? Entonces estos son los
otros seis tipos de objetos que tenemos en nuestra programación. Entonces déjame explicarte esto. Tipos de datos uno por uno o tipos de
objetos uno por uno. ¿Bien? Entonces lo primero, vamos a ver el vector, así vector objeto con el objeto más simple
en nuestra programación. Y la muerte, supongo
que tiene seis tipos de datos. Entonces ya veremos, supongamos que
uso x es igual a verdadero. Y si imprimo x, lo que nos guste, voy
a llegar a escribir y apoyar eso. Si quiero saber qué tipo de datos es
este x, qué puedo hacer,
puedo usar print
y luego puedo usar vidrio dentro de la clase de edad de
impresión X. ¿Bien? Y si ejecuto esto, estoy obteniendo la clase
de x es lógica, así que este es el tipo de datos
lógico de salida. ¿Bien? De igual manera, contamos con soporte
numérico. Si asigno x igual a 90, y déjame simplemente copiar esto a y. y voy a poner más de y aquí. Y si ejecuto toda la fuente, la clase de por qué
columpiarse nómada, ¿verdad? Entonces ahora no estamos
asignando otorrea, no declarando el tipo de datos de y Cualquier valor que estemos
asignando en base a eso. Las variables son, se está decidiendo el
tipo de datos. ¿Bien? Por lo que tuvo que rehabilitación
dada una lógica. Entonces es lógico. Y aquí hemos dado nómadas, por lo que es noético. Lo siguiente es India, ¿verdad? Supongamos que 90.9. Entonces, ¿cuál será la C? No es tasa nómada. Ahora lo siguiente es
realmente un entero delgado. Entonces supongamos D, y voy a asignar
algunos valores, por supuesto 34. ¿Bien? Y luego usaré
impresión brillo Plaza de. Cuando uso la clase de impresión
depende de usted, ¿qué portón trasero? Verás, me estoy volviendo nómada. Lo siento, me estoy poniendo interior. No, clase arriba este entero d es arriba tipo de datos entero, ¿verdad? De igual manera, tenemos
complejo supongamos y declaramos un número complejo, tres a más cinco altos. ¿Correcto? Y cuando pongo cluster V, Lo que nos gusta, vemos la clase de I es compleja, así que esta V, cada complejo
número dos más phi. Del mismo modo, supongamos el seno
C como un programa ReLu. Si subo el vaso a ver lo que sería aquí
para ser personaje, ¿verdad? Así que déjame correr
toda la fuente C. Ahora estoy consiguiendo el
cristal hasta el personaje de sis. Lo siguiente es que
en absoluto soportado, voy a usar azul y le
asignaré un nuevo carácter para dibujar y usar Java. Y si
imprimo clase de problema B, sería, veamos. Es lo crudo. ¿Bien? Lo siguiente es que los objetos impares
se llaman vectores, ¿de acuerdo? Entonces estos son los tipos de vectores como el vidrio y w
es una varilla de cerca. C es la clase de carácter de v es número
complejo más
o p es entero, la
clase de y es numérico y el primer plano x es lógico. Entonces estos son los
tipos de datos o tipos de objeto, se
puede decir en nuestra programación. Así que déjame guardar
este archivo también. Tipos de datos. En la próxima conferencia
veremos cómo
podemos crear nuestro vector, ¿de acuerdo?
7. Crear vectores en R: Hola y bienvenidos de nuevo. Así que en la
conferencia anterior hemos visto los diferentes
tipos de datos en la programación R. En esta conferencia, vamos
a aprender sobre vectores. Cómo podemos crear un vector
con la mayoría de las personas elemento, más de un elemento
o Control N. Voy a crear un nuevo archivo de script R. Y en esto, vamos a
anotar nuestros pasos para crear un vector con
múltiples elementos, más de un elemento. ¿Bien? Entonces lo que voy a hacer, voy a tratar de crear
y recta hockey. Así apoyo. Quiero crear un
vector llamado g. Y quiero
asignarlo a múltiples valores. Entonces en nuestra programación, cuando queremos crear un
vector con múltiples elementos, tenemos que usar una función
llamada función C, ¿verdad? Por lo que esta función C nos
permitirá
crear y recta con
múltiples elementos. ¿Bien? Entonces cuando veas
y luego cerramos corchete, y luego dentro de eso podremos
escribir nuestros elementos de soporte. Quiero crear el nombre de
un país. Supongamos que Alport,
Australia, Gran Bretaña. Bien. Sudáfrica. Apoyar elementos digitales. Estoy creando dentro de este vector. Bien, entonces podemos usar
la función para crear y vectorizar con
múltiples elementos. ¿Verdad? Ahora, solo uso
print y pongo Ci. Por lo que esto imprimirá los
valores dentro del director. Entonces déjame dirigir esto. Déjame guardar este archivo. Y voy a guardar este
archivo como punto Rector. ¿Bien? Y todos estos archivos
serán nuestro nivel dentro este directorio de trabajo actual
que tenemos comprimidos. Y voy a dar fe de estos archivos. Entonces ya puedes descargar
y puedes caminar sobre eso. Bien, entonces déjame ejecutar
este archivo fuente. Ahora estamos, déjame despejar esta consola y
ejecutarla y ejecutarla de nuevo. Entonces mira aquí ahora estamos obteniendo el valor para el
vector t como Australia, Gran Bretaña, Sudamérica
y Rusia, ¿verdad? Entonces esto dice, y vector con múltiples
elementos dentro de él. Podemos, hemos
visto cómo clasificar. Hemos visto como podemos
crear nuestro vector con un solo elemento como India. Y nos dará el
valor en el cerebro. Nos dará en la auditoría. Así que de esta manera podemos
crear y vector y objeto con un solo
elemento y podemos usar la función c para crear un
vector con múltiples elementos. Y supongamos, si se desea imprimir vidrio de G, ¿cuál será la salida? ¿Puedes adivinar? A ver. Carácter C, los caracteres
nulos. Entonces nos está dando el carácter
cluster t vector S. Supongamos que si cambio
esta t 0, perdón, permítame primero imprimir esta clase de t. Así que el cluster por favor
caracter aquí. Ahora lo que voy a hacer,
sólo voy a cambiarlo 200, un valor numérico, ¿de acuerdo? Y voy a tratar de correr, traté de ejecutar esto. Y luego voy a tratar de ejecutar esta última declaración C. Y ahora estamos levantando
el vaso. B tiene un nómada. De igual manera, si cambio
aquí 120367900. Y si ejecuto este archivo fuente, lo que obtenemos,
obtendremos el 12367900. Y la clase de G
ahora se cambia a numérica. Entonces, cualquiera que sea el dato vaya a usar
en función de ese tipo de datos del vector se decidirá no adelantado como la
programación C o Java, ¿de acuerdo? Entonces esta es la diferencia
entre C y Java n, ¿verdad? Entonces, lo que sea que
uses en base a
eso, se decidirá.
8. Secuencia en R: En esta conferencia, vamos
a aprender sobre la secuencia. Vamos a aprender sobre
la función de secuencia en r. Entonces, ¿qué hacemos con la función de secuencia
que veremos? Pero antes de eso,
déjame decirte una cosa más
importante que me he olvidado de incluir
en la conferencia anterior, y eso es el apoyo. Estoy creando un vector
y usando la función C. Y si como aquí, he creado una función
usando solo valores numéricos. Entonces la clase de esto será numéricamente porque todos
los elementos son numéricos. Y si le di un carácter
y luego voy a dar numérico, y luego voy
a pasar por un lógico y luego voy a dar I entero. Y si ejecuto esto, y si primero
me dejo llevar esta recta,
mira, ya sabes, hola, 67 a través de todo
a una cotización. ¿Por qué? Porque si nosotros, si creamos una función de vector z y si uno de los
elementos es de carácter, todos los demás elementos con un entero
numérico o lógico, se convertirá en
una cadena. Entonces si yo, déjame copiar esto, y si pongo vaso de mojado, va a estar
entrando en personaje. Entonces todos los demás elementos serán
convertidos al personaje. Si algún elemento es carácter, todos los demás numéricos, dios, lógicos o enteros, todos los
demás elementos se
convertirán al carácter y la clase de ese vector
será carácter. Así que recuerda esto,
si todo numérico, será numérico. Si toda la clase entera
será entera, pero si se mezcla de
entero y carácter, el entero se
convertirá en el carácter. Si alguien, cualquier elemento
es un carácter, todo se
convertirá en el personaje. Bien, entonces eso es para aclarar. Lo siguiente es que voy a
crear un nuevo archivo script. No sé por qué esto no
va a subir. Bien. Eso es algún tipo de errores. No sé por qué. Entonces ahora vamos a
aprender sobre la secuencia. Entonces en R podemos
crear una secuencia de números como supongamos que
quiero crear del uno al diez. Quiero imprimir los
números del uno al diez. Eso lo puedo hacer en dos pasos. De dos maneras. Eso lo puedo hacer en dos pasos, pero de dos maneras puedo hacerlo. Puedo usar un operador de dos puntos o puedo usar la función de
secuencia. Entonces primero, lo que voy a hacer, voy a tratar de crear una
secuencia de números. Lo asignaré a algún valor. Supongamos que quiero
obtener la secuencia. Supongamos que voy a decir, a ver,
estoy creando una lista, veremos que vamos a
estar teniendo valor. Quiero asignarle un valor uno a siete o uno para obtener,
o uno a cien. Entonces, ¿cómo puedo hacer eso? Un colon, 100. Si hago un color al
100 y yo, si lo ejecuto,
lo que va a hacer,
creará una secuencia 1-100. Déjame ver. Ver aquí. 1200 números
han sido generadores, por lo que creará una
secuencia de números, 1-100. Entonces déjame poner la
consola a la derecha. Entonces ahora será fácil de
entender y escribir el código aquí y la salida
estará aquí. Y déjame, bien. Entonces ahora lo que tenemos que
hacer para crear cualquier secuencia, tenemos que dar el primer número desde donde queremos comenzar. Y luego tenemos que
dar el número final. Supongamos que si obtengo diez y
falló en esta herramienta, creará una secuencia 1-10. Entonces, si queremos
crear una secuencia, puedes usar este operador de dos puntos y puedes crear una
secuencia de número. Supongamos que quiero
crear números 1-20, o quiero crear dos a 20. ¿Cómo podemos hacer eso? Si ejecuto esto, lo que vamos a llegar a ver, vamos a conseguir 2468 hasta 20. Entonces todos y cada uno de los elementos. A los números de secuencia como
uno se multiplicarán por 22 se multiplicarán
por dos. Así. Vamos a conseguir, bien. De igual manera, puedo crear la secuencia
de los puntos. Quería crear una
secuencia de 2.5 a cuatro. Yo puedo hacer eso. Si imprimo f c Aquí, estoy recibiendo 2.53, 0.5 porque el
siguiente será para valle. Por lo que imprimirá la
secuencia a partir de 2.52. Y si uso aquí 40, va a estar dando el ecto 0.53, 0.5 hasta 39 puntos
para él, ¿no? De la misma manera, supongamos que
quiero crear una secuencia a partir de dos dos dos puntos, 20 menos uno. Y si imprimo D, puedes adivinar cuál
será la respuesta? A ver. Ahora estamos consiguiendo de uno a 19. Por qué viene
uno a 19 porque nadie va a ser menos
de este 1.20. Por lo que en realidad va a generar el número De uno es a 19, a menos 11 y menos 119. Entonces las juntas nos darán
el mismo resultado aquí mismo. ¿Bien? Lo siguiente es también
podemos hacerlo de
otra manera. Puedo usar, perdón. Puedo usar una variable a, puedo asignar un valor ocho. Y entonces lo que puedo hacer, puedo, quiero
generar números 1-8. Así que puedo, si ejecuto esta
herramienta, lo que voy a conseguir, me meteré en secuencia
de números 1-8, ¿verdad? Entonces de esta manera también podemos hacer, podemos asignarle un valor a
la variable u objeto e, y luego podemos ponerle uno es a
él en lugar de ponerle puñetazo, podemos poner uno es a a. y esto también
nos dará el mismo dígito. De uno a ocho números
me han generado. Puedo poner uno menos a
también y ver cual será el resultado de cero a siete
porque lo hará, se generará
una secuencia menos 172027. Si pongo un menos
uno en paréntesis. Y si trato de ejecutar esto, ahora me sale uno a siete porque esto se
ejecutará primero, ¿de acuerdo? Entonces será 7.1 será uno porque no estamos restando
éste de aquí. Porque si está en
el paréntesis dentro y dentro, al soporte se le darán
las preimpresiones más altas. Entonces esto se ejecutará primero. Uno es a siete, significa. Generará números 1-7. Aparte de esto, podemos usar secuencia para crear una
secuencia de números para apoyar que te dará SEQ
finita y voy a dar
una coma, una coma cinco. ¿Qué resultado obtendré? Conseguiré la secuencia
de números 1-5, ¿verdad? Del mismo modo, si doy
una secuencia de nueve, y qué
secuencia diana digital de los números 1-9. Aquí, estoy dando uno
a cinco, significa 1-5. Y si no estoy dando
el cuarto dígito, lo que tomará,
generará 1-9 por defecto, ¿de acuerdo? Esa, esa es la
naturaleza predeterminada de la secuencia. ¿Bien? Lo siguiente es que también podemos usar esta función de una manera
diferente. Puedo usar de acuoso para suponer 8.2 a 32. Y si lo ejecuto,
qué va a hacer,
va a generar números
a partir de un 32, 32, ¿bien? Del mismo modo, también podemos usar secuencia ya que puedo mantener
el número frontal. Entonces puedo dar el
número dos, supongamos ocho. Y entonces puedo dar a lo que
estos dos irán aquí. Lo hará. Esto se conoce como el paso. Entonces déjame escribirlo aquí. Secuencia asignar a coma, coma grava de
apoyo, paso a. Este argumento es paso. Entonces déjame correr esto primero
y luego te lo explicaré. Mira aquí lo que estamos
obteniendo. Estamos consiguiendo. 24681012. Lo que está haciendo, en lugar de crear una
secuencia de 234 hasta 12, lo que está haciendo,
está creando, nos
está dando
sumando dos a cuatro. Hay una brecha a la derecha, porque hemos dado
el valor del paso como dos. Entonces dos más 244
más 266 más 28, entonces vamos a diferenciar hasta
entre estas dos secuencias. Entonces eso es lo que el argumento paso
usuario, este es el paso
hacia fuera cuando este es el argumento paso, ¿verdad? También podemos ver otro ejemplo. Supongamos que quiero crear
una secuencia de diez, 10-25. Y quiero aumentar la
secuencia por vino, siete llamas. Entonces déjame dirigir esto. Cl saudí, lo que estamos
obteniendo, consiguiendo, la secuencia de números
se está iniciando desde diez porque has dado
diez y va hasta el 25. Y lo que está haciendo, es sumar 0.75 en los valores de cada uno o
diez, comenzará, luego agregará 0.75, luego 10.75, lo que va a hacer, agregará otro
0.75, 0.5, 12.25. Entonces este byte, siete,
cinco minutos
, aumentará
el valor en 0.75. Supongamos que si hago esto por tres, qué va a hacer,
agregará 101-316-1920, 2.25. Si aumento esto
en valor a cinco, lo que va a hacer, va a
1015, 2025 así. ¿Bien? Entonces de esta manera podemos
generar la secuencia. Hay otra cosa
que se llama longitud. Entonces supongamos que quiero
crear números 25-50, y quiero mantener la
longitud igual a seis. Lo que va a hacer aquí, nos está dando a
partir del 25, luego 630, luego 35.40, 45, y luego 50. Por lo que generará una secuencia
de seis números entre 25. Y si lo hago, supongo, entonces lo que va a hacer, va a generar los números 25, 27. Entonces lo que va a hacer, 25-50, va a generar diez
números con la igualdad, como 205-20-7303 punto,
algo así. ¿Bien? Si le di 100, va a generar cientos
de secuencias, ¿verdad? Si se lo di a uno, lo que va a hacer, va a
generar sólo un número 25-50. Si doy dos, va a generar dos números. 25.50. Si me quedo con tres, estará en
dividirlo por tres, vea un 2,537.5 y 50, ¿bien? Así. Por lo que intentará generar
tres secuencias, 25-50.
9. Función replicar: En esta conferencia, vamos a aprender sobre la función
replicar. Entonces, qué
función replicar hará. Entonces usaremos esa
app rep significa que replicar y cuando queremos
replicar algo. Entonces, entonces déjame
mostrarte con un ejemplo. Entonces supongamos que quiero crear una secuencia donde
quiera repetir 58 veces. Voy a usar esa función y voy a dar cinco que quiero repetir. Y aquí voy a dar
tiempos tres veces 28. Entonces, lo que hará esta
función Replicar, se repetirá cinco veces. Entonces lo que ves
aquí, 5558 veces. ¿Bien? Entonces esta función Replicar replicará el mismo número. Replicar significa repetir,
se repetirá ocho veces. Del mismo modo, también podemos usar
caracteres. Apoyo que nos va a dar. Y luego voy a especificar tiempos
iguales a tres o dos. Imprimirá tres
ds, ds, ds, ds. Se creará una secuencia
de BSD SDS tres veces. ¿Bien? Así que recuerda esto, lo que sea lo que
estemos dando aquí, se agotará por
número de veces, ¿de acuerdo? De la misma manera podemos usar incluso, podemos pasar el objeto a la
otra función de aplicación. Supongamos que quería, he creado para apoyar la función de replicar
arte. Quiero crear una variable R. Bueno, quiero
generar la secuencia 3-6. Entonces lo que este tres a
tres a seis vamos a hacer impar. Si imprimo se
creará 34568 soporte. Yo uso la
función replicar aquí. Y lo que voy a hacer, voy a pasar este arte
podría replicar. Y aquí se obtiene veces dos veces. Lo que hará esto repetirá esta secuencia, 3-6 dos veces. ¿Bien? Entonces si ejecutamos esto, lo que va a dar, obtendrá 3456 y luego otra vez 32562 veces. Si lo hago tres, esta secuencia se
repetirá tres veces. Entonces 3456, nuevamente 3456,
y nuevamente 3456. Entonces número de veces
se repetirá, toda
la secuencia se
repetirá tantas veces, ¿verdad? De la misma manera que tenemos, perdón, tenemos otro
argumento aquí. En esa función de aplicación. Es decir, supongamos que voy a
usar nuestro mismo objeto son, y quiero aplicarle cada uno a él. Si aplico cada año, he aplicado tiempos
iguales a tres. Ahora estoy aplicando
cada uno igual a dos. Entonces qué va a hacer, vamos a ver. Supongamos que dirijo esto.
Lo que está haciendo. Es el, cada elemento 3-6 se
repetirá dos veces, y luego pasará al
siguiente número de meses, significa tres, dos veces 33, luego pondrá 44, luego 55, luego 663-344-5566. Entonces cada elemento
se repetirá y luego se procederá
al siguiente elemento. Y antes en el tiempo, lo que se
repetirá cada elemento. ¿Aquí? Cada elemento
se repetirá, y luego pasará
al siguiente elemento. Y aquí se repitió toda la
secuencia. 3456, luego 3456 otra vez. Y sin embargo, 3344 apoyó
nuestro retrato. Tres, lo que va a hacer, lo hará, cada elemento
será el protector, tiempo 333444, luego 555666. Entonces esta es la
diferencia entre tiempos y cada uno en la función
replicar. En la
función replicar hay dos argumentos veces entonces cada vez repetirá toda
la secuencia
que muchas veces. Y cada voluntad, cada elemento se repetirá para esto muchas veces. Y entonces la secuencia se
creará como 333444, así.
10. Acceder a los elementos vectoriales: Hola y bienvenidos de nuevo. En esta conferencia,
vamos a aprender
sobre el acceso a elementos vectoriales. Hemos visto como podemos crear vector en R.
Ahora lo que voy a hacer, voy a crear y vector Henry tratar de acceder al
elemento de vectores. Veremos cómo podemos acceder a
los elementos vectoriales en R. Así que para eso, necesito
crear un archivo y le
voy a dar un nombre. Ric punto R. ¿Bien? Ahora lo que voy a hacer, voy a crear un rectángulo
con un nombre, mes. Y para el vector mes, lo que Alice alto y bajo. Meses. Enero,
febrero, marzo, abril así. ¿Bien? La función c, y voy
a tratar de almacenar los valores ene. Lo que estoy haciendo aquí, estoy creando y vector,
y estoy instalando
ese vector en el mes del objeto, ¿de acuerdo? Y entonces, ¿cuántos
almacenando los valores? Enero, febrero,
hasta diciembre. Bien. Ahora hemos creado y recta cómo accederemos a
los elementos del vector. Entonces para eso, lo que voy a hacer, déjame despejar la consola aquí para que podamos
ver el resultado aquí. Entonces, si corro esto y corro mes, enero a diciembre, ¿bien? Entonces, ¿y ahora y si quiero acceder
a la app play? Agosto o septiembre así, bien, para eso,
lo que tenemos que hacer, puedo crear
puedo crear otra herramienta de mes de
soporte vectorial. Y para esto, lo que voy a
hacer, voy a mes enorme. Y era el tramo mayúscula
y sólo ves función. Y dentro de la función C, me quedaré con el índice para el
soporte este 1 de enero de 2344. Coma siete. Coma nueve. Bien. Entonces, um, quiero acceder
al mes por 7.9 y una herramienta de fray print month. Entonces, si ejecuto estos dos, lo que obtenemos ahora estoy
obteniendo abril, julio y septiembre porque
lo que el índice es cuatro, luego 567 para julio y para
septiembre es nueve. Así que de esta manera podemos llamar a
nuestro acceso los elementos
de una función vectorial. Un vector. Así vector objeto podemos acceder
como la X sería si se
quiere acceder a
elemento particular. Eso se puede hacer. Si lo cambio a tres, capa uno y dos veces. Y si ejecuto estas
dos declaraciones, lo que lleguemos a ver, sí, obtendremos March y luego normales y voltearlas
es lunes, mayo. Entonces así, podemos acceder a
los elementos vectoriales. También podemos x es los elementos
vectoriales usando lógica usando indexación lógica. Cómo hacer eso. Así que supongamos que voy a crear
otro objeto, mes tres y soportado a
qué mes quiero
acceder cada mes. Y el corchete mayúscula
y dentro de la función C, lo que voy a hacer, primero voy a
dar soportes true, y luego voy a dar false. Y luego me voy a poner falso. Entonces voy a ser verdad. Entonces supongamos que estoy pasando
estos cuatro valores, verdadero, falso, falso, verdadero. Y si yo, si imprimo el mes tres,
¿qué pasará? Déjame correr esto y
ver el resultado. Lo que estamos consiguiendo, lo
estamos consiguiendo ene. el primer mes
es Jan plato verdadero. Entonces está imprimiendo aquí. Después el siguiente Falso, Falso. Entonces febrero, marzo
será falso, significa que no lo será, no
estamos accediendo a
febrero y marzo, ¿verdad? Entonces estos dos valores no
estarán ahí también. Es febrero, marzo no
está impreso aquí. Entonces para el
cuarto a esta verdad. Entonces estamos llegando a cuatro. Y luego el resto de
elemento que no hemos dado. Entonces viene ya sea mayo,
agosto y septiembre. Se está repitiendo. Entonces, supongamos lo que está haciendo. Es de nuevo, haciendo la
misma pelea en esto. Janet Gran Bretaña alcalde gas
septiembre y diciembre. Entonces está repitiendo la cosa. Bien. Lo siguiente es lo que podemos hacer. Podemos usar indexación negativa. Entonces supongamos que voy a crear
otro objeto, mes para y lo que voy a hacer, vamos a asignar para el
mes para mes de alcohol, y al menos ver función. Y aquí hay un proyectil que da
menos dos coma menos cinco. Entonces, qué va a hacer esto y
apoyar imprimir mes cuatro. Y si ejecuto estos
dos, ¿qué pasará? Estoy consiguiendo Jan March
y luego tal vez no, Hay febrero y mayo no
impreso porque menos dos significa la segunda indexación
menos dos que cada febrero, febrero no sea
no queremos acceder
menos dos y -5 min el segundo mes y
el mes al que no queremos acceder excepto que todo lo
demás se imprimirá. Bien. Por lo que no se imprimirán febrero y
mayo. Consulta aquí, febrero
y es posible que no lo imprima. Acepte que todos los demás estén impresos. Si pongo -12, entonces diciembre no
se imprimirá también. Entonces ahora la norma ellos
alguien no está ahí. Entonces, si quieres acceder a elementos y si queremos
dejar algunos elementos, puedes usar dopamina para ese índice y no se
imprimirá.
11. Manipulación vectorial en R: Hola y bienvenidos de nuevo. Entonces en esta conferencia
vamos a aprender sobre la manipulación vectorial. Entonces veremos cómo podemos formar una lesión dentro de los elementos
vectoriales. Cómo podemos sumar dos vectores, cómo podemos restar dos vectores, cómo podemos realizar la división
dentro de dos actores. Y veremos cómo
podemos hacer multiplicación
de los vectores. Entonces comencemos. Entonces voy a crear un
archivo de script R y le voy a dar un nombre. Muchas manipulaciones tontas. Bien. Entonces déjame despejar la consola aquí para que
podamos ver correctamente. Bien, entonces primero lo
primero, lo que voy a hacer, voy a realizar automático, muchas veces no es dentro de dos
con dos vectores. Entonces primero,
primero, lo que vamos a hacer, vamos a crear dos vectores, vamos a crear, apoyar
nuestro vector F1. Y voy a crear un
vector, el vector F1. Y lo que voy a hacer, voy a asignar algunos valores. Supongamos que
aún no lo están, 95 algo. Bien, entonces voy a crear un vector, F1 y copiar y pegar. Y voy a crear
otro vector, F2. Y vamos a llegar a alguna parte
cargas como a tipo D y 20. ¿Bien? Eso va a dar, bien. Entonces ahora tenemos dos
vectores, F1 y F2. Quiero realizar suma. ¿Bien? Lo que voy a hacer, voy a crear otro vector,
otro objeto a. y lo que voy a hacer, voy a asignar F1, el F1 más F2. Entonces, lo que estoy haciendo aquí, estoy agregando estos dos vectores, F1 y F2 y
asignándolo a objetar a. Bien, entonces ahora lo que voy a
hacer, voy a imprimir a. Entonces déjame ejecutar este n. Así que ya terminaste digitalmente. Ves ya sabes, ¿qué me va a dar? Estoy obteniendo el resultado 24, 24, y más 212. primer elemento de
estos dos vectores Se
agregará el primer elemento de
estos dos vectores, 12 más 214. Entonces 78 más ocho
es 690 más 31, 25 más 25, 30. Entonces de esta manera podemos
realizar una región. Supongamos que quiero
realizar algunas pistas y lo que voy a hacer sólo
voy a copiar esto. Realmente di con
los inquilinos ese día. Sí. Y voy a traer lágrimas
y y lo que voy a hacer, haré F1 menos F2. Entonces F1 menos F2. ¿Si hago qué portón trasero? Ver estoy recibiendo 107060
y -20 y otra vez, 12 menos 21078-70, 90 -30, 65 -25, 20. Entonces de esta manera podemos realizar la
resta de la misma manera. Si y Su multiplicación, voy a crear sobre m y
qué baja F1 y F2. E imprimiré, si ejecuto esto, lo que obtendremos
obtendrá 12 cuando dos a 24, 78 en 862490 en
3027005205125. De igual manera, podemos
realizar la división. Entonces supongamos que creo
un vector d y lo que haré F1 dividido por dos. E imprimiré trato. Y si ejecuto esto, lo que te voy a
enfermar por dos al 678/9, 0.759, 0.7, 5.90, 233 5/25 es 0.2. ¿Bien? Entonces de esta manera podremos realizar una resta,
multiplicación y división decentes . Entonces déjame escribir aquí, esto es multi aplicación. Y entonces esta es la región. Entonces de esta manera podemos
realizar suma, resta, multiplicación
y división en el recto. Y a esto se le llama manipulación
vectorial.
12. Reciclaje de elementos vectoriales: Hola y bienvenidos de nuevo. Entonces en esta conferencia, te
voy a decir algo
que no tengo del todo, no te has enseñado
en la conferencia anterior. Y esa es una pregunta muy
singular que podrías
haberte preguntado si se trata de una clase física
o fuera de línea. Y debes haber entrado en, esta pregunta, podría haberte
venido a la mente también. Entonces supongamos que tengo dos
vectores, F1 y F2. Y F1 está teniendo cuatro elementos, y F2 está teniendo
sólo dos elementos. ¿Y si voy a añadir
estos dos vectores? Supongamos que voy a realizar
condiciones iniciales a F1 más F2. Entonces aquí cuatro elementos y
aquí dos elementos, una lista. Entonces, ¿cómo va a hacer? Entonces en R, si tratamos de
realizar F1 más F2, si tratamos de sumar dos vectores
desiguales, entonces el segundo vector, que es de menor longitud, significa que el
vector sorta será, los elementos serán reciclados para hacerlo oscuro longitud
del primer vector. Entonces, en este caso,
¿qué pasará? El vector se volverá
así. Internamente. ¿Qué? F2 será como
dos coma ocho. Coma dos, coma ocho. ¿Bien? Así que f dos se convertirá en
algo así, ¿de acuerdo? Tú también, se
repetirá hasta que haga el número
de elementos en la F1. Entonces hay cuatro elementos, por lo que se repetirá a él, a ello. Entonces esto se convertirá en
algo así. Y luego realizará
la operación automática. Déjame correr esta tierra de mano con la que me
ocupé que vas a
tener una mejor idea. Déjame aclarar esto y
dirigir esto. Ver aquí. Ahora el resultado es 14, 86, 90 a 13. Cómo más cuatro, perdón, dos más dos. Lo siento, 12 más 214. Y luego 78 más 886, y luego 90 más dos. Porque los dos,
se repetirá. Así 90 más 292.5 más 813. Entonces esto se volverá así. Si agrego
aquí un elemento más, supongamos 80. Y si ejecuto esto,
¿qué pasará? A ver. Mira aquí estamos recibiendo
un error aquí. La longitud de objeto más larga no es un múltiplo de la longitud del
objeto inicial. Significa ahora ver todavía por. Este elemento es un fourt hasta está teniendo dos elementos.
Dos elementos. Y F1 es
divertirse es tener
variables phi, ¿verdad? Nos estamos endeudando. El segundo, el primer elemento a esto es tener dos elementos
y este es tener cinco. Entonces cinco no es un
múltiplo de dos, ¿verdad? Por eso estamos
llegando a porque dos, si divides cinco por dos, obtendrás ese resto uno. En este caso, esta
reputación no funcionará. Pero si agrego un
elemento más, supongamos siete. Y si traté de ejecutar esto, esta vez va a funcionar. Ahora estamos consiguiendo el gráfico porque ahora el número
de elemento es seis aquí. Y el segundo es
22268/2, ¿verdad? Seis es Múltiple
hasta la primera L. Elementos
más largos,
vectores más largos tendrían la marca. Tantos números. Número de elementos
sería aplicación múltiple ¿ ciertos elementos
les gusta seis, verdad? Entonces seis es el multipolar
a esta función, esta multiplicación o división o suma que puedes realizar. Pero si son cinco, entonces dos no serán el phi no será
el múltiplo de dos, y arrojará
un error como este. ¿Bien? Entonces espero que lo consigas. De igual manera, si quieres
realizar multiplicación, eso también puedes hacer. Aquí, estamos consiguiendo la división
de multiplicación, Todo estará hecho. Entonces el reciclaje de elementos
ocurrirá solo si más suaves sean los elementos en el vector más largo es el múltiplo de los elementos
en el vector ordenado. Entonces vectores más largos, número
de elementos sería el múltiplo de esos
elementos, ¿de acuerdo? Número de elementos sorta. Bien. Espero que
sea claro para ti.
13. Ordenar los elementos vectoriales: Hola y bienvenidos de nuevo. Por lo que en esta conferencia vamos
a aprender acerca de quién es la clasificación de
vectores. Entonces veamos cómo
podemos ordenar los vectores. ¿Bien? Entonces lo que vamos a aprender, vamos a hacer
clasificación recta. ¿Bien? Entonces para esto tenemos una
función llamada sort. Así que vamos a usar
la función sort. Entonces primero lo primero, déjame crear y
vector 0 naufragio. Y para esto, voy a dar
algún número aleatorio, 349-082-7543, algunos números aleatorios. ¿Bien? Y supongamos que quiero
ordenar estos elementos vectoriales. Entonces lo que puedo hacer, simplemente
puedo crear
otros objetos son naufragio. Y lo que voy a hacer, voy a llamar a las barras de función sort esto lo que es vector nulo
a la función sort. Y lo que va a hacer esta
función de ordenación. Se iniciará este vector. Y entonces lo que voy a hacer, simplemente
voy a imprimir inicio. Entonces aquí estoy imprimiendo el vector ordenado y este
es el recto adicional. Y estoy pasando este vector
a la función sort, y luego estoy imprimiendo
el valor del vector ordenado. Ejecutemos esto y veamos que definitivamente quede claro esta
terminal y vuelva a ejecutarlo. Verás, ya sabes, estamos
obteniendo un vector ordenado. Entonces 349, 273-043-6408. Por lo que se ordena en orden
creciente. Entonces por defecto se
ordenará en orden creciente. Entonces los elementos más bajos se moverán primero y luego
seguirá aumentando. ¿Bien? Así que de esta manera podemos
ordenar y
vectorizar en R. ¿Y si
quiero ordenar esta corteza? Quiero en orden decreciente. Entonces para eso, lo que puedo hacer, puedo usar la misma función
sort. Y aquí lo que voy a hacer, sólo
voy a seguir
disminuyendo, disminuyendo. Es lo lógico. Y si, voy a dar verdad. Entonces disminuyendo,
voy a mantener el inconveniente porque por defecto es falso. Y eso va a hacer. Incrementando el orden,
¿verdad? Orden ascendente. Por defecto, se ordenará
en orden ascendente. Entonces lo que voy a hacer, voy a hacer ellos creando verdad
cultural significa que
ordenará el vector en orden
decreciente. Así que vamos a ejecutar esto y ver
ahora esta clasificación en la limpieza o un 98 primero,
luego 463-06-3420, 79.4. Así que de esta manera podemos ordenar
en orden decreciente. Lo siguiente es que
vamos a ver clasificación de carácter, carácter, recto de
carácter. Entonces eso también podemos hacer suponer que
tengo un rectángulo, uno, que es tener algunos valores como para algunas cosas aleatorias. Y el país rojo, azul. Cualquier cosa en forma de personaje. Bien, entonces este es el vector de
caracteres. Es tener valores
en carácter. Y supongamos que quiero
ordenar esto y quiero
almacenar el valor del vector ordenado
en el veterinario para que funcione. Llamaré a la
función sort y pasaré esta recta a
la función sort. Y si ejecuto estas dos líneas, ¿qué algoritmo? ¿
Qué es lo que te gusta? Déjenme llevar a esta herramienta de impresión. Entonces si ejecuto esta línea, lo que nos gusta
y te pones azul, entonces country que cuatro,
luego ahogo, dendrita. Por qué es así porque B, luego C, luego F, luego r. bien, Así
será en orden alfabético. ¿Y qué pasa si quiero clasificar
? Pero era más duro. Te puedo dar una llamada decreciente para dibujar y ahora
ver eso merecido. Es cuando empezamos a
sonrojar son entonces f, luego C, y luego B. Así que D debe resolver la pobreza algodón, será así
podremos ordenar los vectores,
tanto el carácter como
el número, ¿bien?
14. Toma de decisiones en R: Hola y bienvenidos de nuevo. Entonces en esta conferencia vamos
a aprender sobre la toma de
decisiones en nuestro, en nuestros otros lenguajes de
programación. Tenemos la declaración if, tenemos if else, y tenemos sentencia switch. Con eso, podemos
realizar la toma de decisiones. Si una sentencia significa
si algo es verdadero, entonces se ejecutará la siguiente
declaración. Y se sintió significa si
algo es cierto y si estás
dando una condición y esa condición no
se cumple, entonces se
ejecutará la sentencia else. Switch verá cómo probará
la variable para la igualdad. Aquí está la lista de valores, así veremos si más. Y luego veremos el interruptor. Así que permítanme crear nuestro archivo
script aquí. Y voy a darle un nombre a esto. Toma de decisiones, arte oscuro. Algas. Déjame despejar la consola para
que podamos ver que el gel. Entonces primero lo que veremos, ya
veremos si lo siento, necesito escribir aquí primero. Veremos si declaración. Bien. Entonces primera realidad, si declaración. Y si es, si es pluvial, es
consistente, consistente. Ahora expresión booleana
y siguiente declaración. Entonces, si la
expresión booleana es verdadera, entonces se ejecutará la siguiente
declaración. Apoya lo que voy a hacer aquí. Voy a crear un objeto a, y voy a asignar un valor 67. Puedes escribir cualquier cosa, ¿de acuerdo? Y lo que voy a hacer, voy a escribir si declaración, si es decir menos de 70, entonces lo que voy a hacer, voy a tratar de imprimir
es menos de 17. ¿Bien? Supongamos
que esto es lo que quiero realizar. Entonces, si ejecuto esto, ¿qué obtendré? Ver ese resultado que estoy
obteniendo es menos de 70. Supongamos que si cambio
este valor a 75, 75. Y si traté de ejecutar
esto, ¿qué pasará? No voy a obtener ninguna
salida porque E es 75. Y si voy dentro de
esta declaración if, va a estar cosiendo un
menos de 70 es mayor que 70. Por lo que no
entrará en esta declaración. No cumplirá
perro si condición y esta declaración
no se imprimirá, ¿verdad? Entonces esto se llama
declaración IF, ¿verdad? Del mismo modo, puedo escribir como un entero de punto. Entonces la otra parte es entera, y luego voy a pasar E. Y una luz es. Entonces déjame correr esto
porque aquí es un numérico. Y lo que estoy probando todavía, si es un entero, entonces necesito imprimir
es un entero, ¿verdad? Si pongo, haz de esto un entero, tendiendo igual a 75
L. Y si ejecuto esto, mira, ahora a es un entero. Será la pintura. De esta manera. Si esta condición se
cumple a través, se imprimirá esta declaración
posterior. ¿Bien? Del mismo modo, podemos poner aquí
una declaración else. Si cada entero, entonces
se imprimirá esto. Puedo imprimir alguna otra cosa. El lago es nómada. Bien, entonces si corro, esto es un entero. Si cambio esto a numérico, y si vuelvo a ejecutar esto, lo que obtendremos, lo que
obtendremos es numérico. Déjame intentarlo. Si
toqué todavía es numérico. Y si ejecuto esto, ¿qué pasó? Bien, tengo que poner esto. Y si ejecuto esto, string es un entero. Necesito cambiar
la declaración aquí, Nueva Reliquia y aquí
entero ¿verdad? Ahora. Porque a es nómada, esta condición se está haciendo realidad. Entonces es la impresión es nómada, tasa es numérica, es Nómada. Y esta afirmación no
lo es, no va
a la otra parte. Así que de esta manera podemos poner una por ahora veremos sentencia
switch. La sentencia switch. Así que vamos
a cambiar la declaración supondrá que tengo un vector D y voy a usar switch. Y luego ideas
a través de lo que voy a hacer. Voy a apoyar cuatro coma uno. Y voy a dar 2345. Y luego cerraré el interruptor. Entonces si pongo en d, qué valor vamos a obtener. A ver. Cuando te den cuatro, porque estoy pasando por lo que va a hacer la declaración de
cambio de lo que va a hacer. Pasará al cuarto valor, e imprimirá ese valor. Entonces un año para hay 1234, por lo que imprimirá cuatro. Supongamos que estoy escribiendo
aquí otra cosa. Hola. Entonces se
imprimirá este hola. ¿Bien? Déjame mostrarte esta
impresión hola. Y supongamos que si hago uno o dos, va a estar imprimiendo a, irá a la
correspondiente por favor. Bien. Hasta el momento dos,
irá a la 12. Se imprimirán estos. Para tres, irá
al hola por cuatro, irá al hola. Cinco, se imprimirá 55. Entonces lo que va a hacer, una sentencia switch
permite que un valioso sea probado para la igualdad contra
la lista de valores. Entonces estos son la lista de valores. Y para ellos, la
indexación es de 1,234.5. Sea cual sea el índice que
le dé, ese valor del índice se
imprimirá. Supongamos que di tres. Por lo que se imprimirá el valor del índice
tres. 3 min, 1233. ¿Comprarás un regalo para? Entonces se imprimirá hola. C. Entonces de esta manera podemos usar sentencia
switch en el corazón.
15. Control de lazo con repetir y mientras se usa el loop: Hola y bienvenidos de nuevo. Entonces en esta conferencia
vamos a aprender sobre la
declaración de bucle en nuestra, ¿qué es un bucle? Un bucle es una función. Se puede decir un bucle. Con un bucle, podemos ejecutar una sentencia o grupo de sentencias
varias veces. Entonces cuando ponemos loop, cuando ponemos una sentencia
dentro del loop, se ejecutará
varias veces hasta que
se cumpla la condición, ¿verdad? Hasta que a menos que esté satisfaciendo
la condición se mantendrá en bucle la misma
declaración una y otra vez. Así que una sentencia loop nos
permite ejecutar una sentencia o grupo por grupo de sentencias
varias veces. Y hay tres tipos arriba. Hay tres tipos
de declaración de bucle en R. El primero es reputado, el segundo es un bucle while. Y entonces tenemos el
muy popular one loop. Entonces lo que voy a hacer, primero
comenzaré con un bucle
repetido. Entonces veamos qué es
repetir loop en R. Así que supongamos que tenemos un
recto que está teniendo los ferrocarriles apoya a la India,
Burton, ¿de acuerdo? Así. Entonces voy a decir un poco más tarde. Entonces tenemos n vector que está teniendo valores
India, EU y Gran Bretaña. Y supongamos que estoy tomando
otra ruta capaz, supongamos que le di un recuento de nombres. Y lo estoy dando como apoyo
para Kant igual a cuatro. Y entonces lo que voy a hacer, fue la función de pies sucios aquí. Y quiero imprimir el vector de
número particular de tiempo. ¿Bien? Entonces lo que voy a hacer es imprimir informe que di. Si cuentas aquí, si contar es menos de diez, entonces lo que quiero hacer, quiero imprimir rec. ¿Bien? Entonces dirán Qué letra. Entonces, si ejecuto esto, ¿qué pasará? A ver. Nos vemos. Seguirá imprimiendo esto porque el conteo es para y para
qué condición he dado. Me dan si la cuenta
es inferior a diez, así que este Ford siempre
será menor a diez, ¿verdad? Entonces lo que voy a hacer,
voy a usar aquí contar, contar más uno. Entonces cada vestido y yo aumentaré
el valor de conteo a uno. Ahora, déjame parar esto. Y déjame volver a ejecutar este código. Ahora mira lo que pasa. Lo imprime 123456
veces y es el extremo. La primera vez que vendrá. El conteo es igual a cuatro. Por lo que se imprimirá
cada vez que vayas de nuevo. Así que el conteo se convertirá en cinco. Entonces otra vez imprimirá cuatro. Después 54678 hasta nueve. Después extranet, el
conteo se convertirá en diez. No va a imprimir,
va a imprimir 45. Se imprimirá 445,678.9. Entonces en cuanto a la corriente neta se
convertirá en diez, saldrá de este bucle. Entonces este es el bucle habitual. ¿Bien? Así que de esta manera podemos usar
el bucle de repetición, ¿de acuerdo? De la misma manera, intentaremos usar el bucle while. Entonces lo que voy a hacer, voy a enorme salvaje. Y de nuevo, el recuento de Waterloo
es menor de lo que se supone. Si bien el conteo es menos de
ocho, lo que voy a hacer, voy a imprimir condados senior para y lo que le estoy dando
un conteo menor a ocho, entonces va a imprimir
wake y
aumentará el conteo
mientras bucle bien en uno. Entonces, si ejecutamos esto, obtenemos India-U.S.
cuatro veces, ¿verdad? Debido a que va a imprimir
44, se imprimirá perfil. Se imprimirá para seis,
se imprimirá 47. Y en cuanto el conteo
se convertirá en ocho. Saldrá de
este bucle while. ¿Bien? Así que de esta manera podemos
usar el bucle while.
16. Para obtener un lazo y la siguiente declaración: En esta conferencia,
vamos a aprender acerca de for loop en R. Así que supongamos que estoy creando
un vector d rectalmente, que estará conteniendo
algo así como dos a 20, ¿de acuerdo? Tableros, si traigo t me darán los números 2-20. ¿Bien? Ahora lo que voy a hacer, voy a escribir aquí, voy a hacer. Voy a usar una variable i en D. Así que por cada valor de I en el, para cada valor en este vector d, Lo que quiero hacer,
quiero imprimir, ¿verdad? Y luego quiero
hacer yo más uno. Yo igual a I más uno. Déjame, bien. Diré con carta. Entonces déjame correr esto y
ver qué estamos obteniendo. Lo que estoy recibiendo, estoy
recibiendo 234 hasta 20. Entonces lo que está haciendo, es comprobar si este yo, en el, para i, va a ser 11 no está ahí, entonces lo va a aumentar en uno. Entonces vendrá y
comprobará aquí también, es que en D dos, entonces volverá a hacerlo, yo igual a tres, luego imprimirá tres. Así. Imprimirá 20 y luego
saldrá del bucle. Así que de esta manera podemos usar
el for-loop, ¿verdad? De la misma manera lo que puedo hacer. Si pongo aquí algo sencillo. Voy a quitar esto. Y si, ¿qué más hacer? Puedo poner
condición de montón aquí dentro. Si llamo también, Apoyo 15, entonces voy a, lo que voy a hacer, voy a
imprimir, escribo. Si me igualo a 15, imprimiré. He cambiado aquí, voy a poner a continuación. Y luego voy a imprimir. Imprimir, derecha. Entonces nos vemos, ¿qué va a pasar? Déjame correr esto para por qué nos estamos metiendo en esos. Esto lo hemos vuelto a hacer. ¿Qué, qué está pasando aquí? Quiero cada valor y yo, está imprimiendo esto, pero está comprobando el valor. Si llamo a dos aviones, lo hará. Qué hacer el siguiente. Entonces aquí se ve
2345678 hasta 13, 14, está imprimiendo correctamente
y luego es pensar, bien, yo igual a 15. A continuación, Siguiente significa que se
saltará esta titulación. Por lo que aquí no se imprimirán 15 porque el próximo mes se
saltará este trazador. Entonces llamé a una preimpresión
significa esta dirección y nos escaparemos y la huella no se
imprimirá. Y luego
irá a la cisteína y luego 161-718-1920,
reimpreso. Entonces el mes que viene, se
saltará que me vista. Y entonces si uso aquí, supongamos 17, entonces se omitirán
las titulaciones 17. Imprimir 16, 17 no se
imprimirán, y 18, bien, Así que si quieres saltarte un
nitrógeno puedes usar el siguiente. Espero que tengas la idea
de cómo usar a continuación. Nos vemos en la próxima conferencia.
17. Funciones en R: Hola y bienvenidos de nuevo. En esta conferencia,
vamos a aprender funciones en R. En R hay dos
tipos de funciones. Entonces, una es funciones
incorporadas, funciones
incorporadas y la otra son funciones
definidas por el usuario. Definido. ¿Bien? Entonces hay dos
tipos de funciones, funciones incorporadas y funciones
definidas por el usuario. Entonces primero, déjame
decirte qué es una función. La función es en realidad como
si queremos ejecutar o algún grupo de declaraciones y realizar
algunos cálculos, queremos Nuestro hacer algo. Entonces es básicamente como una
función es una palabra clave. Y en
V funcional básicamente por diversión grupo de declaraciones, ¿bien? Nuestro grupo de funciones de cálculos
grupales. Realizaremos
algún cálculo o haremos algo
que sea una función. ¿Bien? Entonces déjame decirte la
estructura básica de una función. Entonces supongamos que nuestra función toma, supongamos que esta es una palabra clave de
función en R. Y lo que se necesita,
se necesitan argumentos, ¿verdad? Entonces se necesitan argumentos, por lo que puede tomar cualquier número de aumentos
aumentados,
uno, coma dos. Entonces esto va a ser una
función, ¿de acuerdo? Y en esta función podemos hacer cualquier cosa con estos
argumentos, ¿verdad? Supongamos que estos argumentos
pueden tener algunos valores, así
puedo apoyar, puedo usar algunos de
estos para aumentar, así puedo realizar
aumento uno más dos. Y me puede gustar imprimir algunos de estos
12 meses tres. Entonces esta es una función
donde lo que estoy haciendo, estoy realizando algunas
de estas para aumentar, aumentar y aumentar a, y estoy encontrando algunas de estas para aumentar una herramienta
más Segmento. Entonces esta es una función
y puedo llamar a esta función
pasando el argumento. Entonces supongamos que voy a dar algún
nombre a esta función, alguna función, y asignarle
esta, toda esta función. Y le voy a dar un
nombre, alguna función. ¿Bien? Ahora, ¿qué puedo hacer? Puedo llamar a esta función ¿verdad? Encabeando los dos argumentos, argumento uno, argumento dos. Para que pueda divertirme un poco. Y aquí puedo realizar tres
comas seis. Puedo pasar. Si ejecuto esto, déjame correr el primero
bajo algo de diversión esto. Y luego ejecuto esto, mira, Bien, sí,
halcones uno, lo es. Así que déjame ejecutarlo de nuevo. Y si llamo a la
función pasando,
bien, esto también está mal
saudí por este error. Y si llamo a esta función pasando
estos dos argumentos, 3.6, obtendré el
resultado como nueve, porque tres más seis a nueve. Entonces esta es una función
definida por el usuario, mano
derecha, ya hemos
visto función incorporada. Entonces, ¿cuáles son las
funciones incorporadas que
hemos visto, hemos visto
secuencia como secuencia una coma ocho. Y esto nos dará la
secuencia de los números 1-8. Entonces esta función de secuencia es una función incorporada
que tenemos en nuestro, así que esta es una
función incorporada ejecutándola. No necesitamos escribir un programa
para imprimir los números 1-8. Esto va a hacer
automáticamente porque en esta secuencia la función se
ha escrito detrás, como en la coda lejos que está, se ha definido
que cuando usamos secuencia y vamos a
proporcionar dos argumentos. Una es ayudar,
generará los números 1-8. Entonces eso ya se ha definido y por eso se
les conoce como,
conocido como enorme, perdón, funciones
incorporadas, ¿verdad? Entonces estas son
funciones incorporadas la manera similar
que hemos visto algún verano. Uno es 28. Y esto nos dará la suma
de números de uno a él. Nos dará las
estadísticas de resultados de la misma manera. Tenemos la función principal. Entonces estoy escribiendo, sí, quiero decir, como supongamos que voy a llegar al
número 23, coma 90, 87. Y si no
me vi y vamos a leer 23 también puede significar dos coma nueve. Y el dental gratis,
voy a conseguir 5.5. Así que podemos usar doc significa alguna secuencia de todas estas funciones
incorporadas. Así que hemos visto que estos anuncios son de
función definida por el usuario, definida por el usuario. Y esta secuencia
y algo de agua. Funciones incorporadas. ¿Bien? Ahora lo que voy a hacer, podemos ver cómo podemos llamar a
esta función de suma. ¿Bien? Entonces déjame copiar esta suma. Entonces podemos llamar a esta función aportando aquí los argumentos. Y también podemos llamar a esto como x, uno a cuatro coma dos a nueve. Ahora me estoy poniendo 13 de
esta manera también, podemos, esto es y posición y
esto es variar el argumento, nombre, argumento, el
argumento uno igual a. Para
que un argumento sea igual a nueve, así podemos aportar. Entonces esta es otra forma de
llamar a la función, ¿de acuerdo? Ahora lo que voy a hacer, voy a escribir
nuestra función para encontrar la plaza arriba ciudades
no tienen nadie de series de números. Entonces lo que voy a hacer aquí, te
voy a matar. Función silenciosa. Y lo que voy a pasar a esto
y pasar un número por mano. Lo que voy a hacer, voy a crear
una secuencia de números, así que voy a usar el bucle for aquí. Y lo que voy a hacer
por mí en un a diez,
bien, así que sea cual sea el número este va a ser de ese número a diez. Quiero crear una
secuencia numérica de números. Y entonces lo que quiero hacer, quiero asignar, renuncio. Quiero cuadrar el
valor I y asignarlo a b. Y luego quiero llevar
al valor b, ¿de acuerdo? Entonces esta es la función función raíz
cuadrada que estoy definiendo aquí. Y ahora lo que voy a hacer, voy a llamar a esta función
cuadrada pasando un soporte numérico
para lo que va a hacer. Primero creará
los números 4-10, y luego requerirá
45678 hasta diez, e imprimirá los números. Bien, entonces déjame dirigir esto. Mira aquí estamos consiguiendo cisteína. El primer número
será 44 cuadrado 16, luego imprimirá cisteína. Entonces el siguiente número
será cinco. Imprimirá 2055 al cuadrado 25, y luego 630-67-4097 al cuadrado. 409849 es cuadráticamente
1.10 cien cuadrados. Así que de esta manera podremos crear una función sencilla que
encontrará esta tranquila
serie de números. Entonces el número de Syriza es cuatro a diez y estamos llegando aquí
cuatro a diez cuadrados. Cada número será cuadrado
y vamos a estar
consiguiendo lo siguiente es
lo que voy a hacer. Voy a encontrar la
suma del número par. Entonces voy a escribir
un programa para encontrar algunos de los números pares
entre dos números. ¿Bien? Entonces qué voy a hacer, supongamos del uno al diez. Primero quiero encontrar
uno a número par,
1-10, suma de números pares, ¿de acuerdo? No es una suma cuadriculada de
los números pares. ¿Bien? Entonces lo que voy a hacer, voy a escribir una función
suma de función par. Y lo que voy a hacer,
voy a escribir aquí, primero, voy a generar
el número par. Y cómo generar número par. Y ves alginato
uno a diez número par. Entonces lo que voy a hacer, multiplicaré el número por dos. Por lo que será resumir
los números 1-10. Y luego lo que voy a hacer, voy a imprimir y en la impresión lo que hago la suma de
estos números par, así y fomentar el número par, esta secuencia de números para sumar, función de
suma y luego se tuerce. Entonces antes de eso, permítanme
llevar al número dado. ¿Bien? Y luego saldré y
llamaré a la función par. ¿Bien? Entonces déjame dirigir esto. Bien, esta es la
c. C. minúscula Usted primera vez que
obtiene 246810, suma de números pares 1-10. Entonces estos son algunos a menudo
incluso el número 1-20, ¿de acuerdo? Porque me estoy multiplicando por dos. Si lo hago cinco, será cuanto antes
lo que hayamos escrito. No sería eso, bien. 246810. Bien. Entonces de esta
manera podemos tender suma de números pares, suma de números. Y luego cuando
termines con esta función, algunos de número par. Entonces sumará todo y nos
dará el resultado. ¿Bien? Entonces, cuando se sume estos
números llegarán a 110. Entonces de esta manera estamos
consiguiendo que algunos de los números pares del 2-2001 al 20. ¿Bien? Entonces de esta manera lo podemos hacer. Lo siguiente es que voy a hacer función de llamada
sin documento. Esto es muy sencillo, llamando a la función
sin argumentos. Entonces lo que voy a hacer aquí, simplemente
voy a crear una función, hola, h función palabra clave aquí. Y dentro de la palabra clave function, lo que sí veo incluso aquí también nos hemos
llamado algunos de par, algunos de incluso función sin
pasar ningún argumento. ¿Bien? Lo mismo que
vamos a hacer aquí también. Lo que voy a hacer aquí, simplemente
voy a usar una impresión y voy a decir Hola. ¿Cómo estás? ¿Entonces? Oh, el
arrendamiento. Di hola. Yo sólo lo llamo. Bien. Entonces antes de eso
tengo que ejecutar esto. Entonces déjame correr esto
y ver, sí, vamos a recibir hola y como estas esta manera podemos llamar a una
función sin aumento.
18. Matrices en R: Hola y bienvenidos de nuevo. En esta conferencia,
vamos a aprender sobre métricas en nuestro análisis
matricial, concepto
muy importante y
necesitamos entenderlo. Porque cuando vamos
más allá de esta clase, cuando vas y tratas implementar el concepto de arte
para analizar los datos tú, cuando intentas usar la manipulación de datos R4, visualización de
datos, o incluso la minería de datos, análisis de
datos y en proyectos de ciencia de
datos
en machine learning. Entonces las matrices van a estar muy llenas y vamos a
utilizarlas en muchos lugares. En nuestra matriz. Es un objeto o un objeto. En el arte, todo es un objeto. Y de esa manera, las matrices son también
nuestros objetos, ¿verdad? Entonces las matrices son
los objetos de arte en que los elementos del
mismo tipo atómico Organizar. Entonces en matriz, matriz
vamos a agregar en el mismo
tipo de elementos, mismos tipos atómicos de elementos en disposición
rectangular bidimensional. Por lo que será a la
piedra de diamante matrices rectangulares. Matrix es una función. Entonces, ¿cómo vamos
a crear la matriz? Vamos a utilizar la
función matricial que está incorporada en R. Crear métricas y arte. La sintaxis sería matriz. Y luego proporcionamos los datos, determina los elementos de la matriz que vamos a proporcionar aquí. Y entonces vamos a
proporcionar número de filas y rho es número de filas en la
matriz y luego n columnas, número de columnas en la matriz. Y luego vamos
a decir por fila, queremos agregar en
los elementos por fila, por columna que vamos
a definir por este argumento. Y entonces vamos a dar a los diamantes hijos que le
llamaron llamado medios. Vamos a mantener el
nombre de las dimensiones. ¿Bien? Entonces los datos son vector de entrada, que se convierte en los elementos de
datos de la matriz que puedes dibujar es
el número de filas a crear y college
número de columnas a crear por rho es pista
lógica si es verdadera, los elementos del vector de
entrada
están dispuestos por fila. Entonces, si quieres
crear una matriz asignando los
elementos por fila, tenemos que dar por
rho igual a true. De lo contrario
será, por defecto, será en forma de
columna, ¿de acuerdo? Valores columnares, como si
se nos diera el elemento uno al diez, serán 12 o tres. Columna sabia
será, si das verdad, entonces irá por Hockey Viral. Y dim name es nombre asignado a las filas
y a las columnas. ¿Bien? Entonces este es lo fundamental
que deberíamos estar conociendo. Y ahora lo que voy a hacer, voy a desviar matriz. ¿Bien? Entonces para eso,
ya he creado nuestro archivo donde he
escrito pocos programas, son pocas funciones para
crear métricas para que no
perdamos nuestro tiempo en escribir el código y
una y otra vez. Y mientras se escribe
lleva mucho tiempo. Entonces ya he creado estas dos matrices
puntean nuestros archivos. Explique qué voy a
hacer en todos y cada uno de los pasos. ¿Bien? Entonces, primero,
vamos a crear una matriz donde los elementos se arreglen secuencialmente por
columna, por defecto. ¿Bien? Entonces supongamos que estoy creando una matriz y
le estoy dando un nombre M1. Entonces uno será un
objeto en NADH que va a contener esta matriz. Entonces voy a usar la función
matricial. Y aquí lo que estoy pasando, estos son los datos
que estoy pasando. 12 a 35 significa que
creará los números 12-351213, 14 hasta 35. Entonces esto se hará datos y luego lo que estoy dando
lo siguiente, Andrew, número de filas seis. Así que solo estoy pasando los datos y dando la fila
número de filas. Quiero crear
una matriz que está teniendo número de Rogers seis. Eso es. No estoy dando ningún valor de
columna ni nada. Sólo estoy pasando
la unidad de datos a 35 números y número
de Rogers seis. No voy a dar por fila o
columna ese argumento. No voy a pasar por aquí. Entonces solo estoy creando una
matriz que está teniendo, que se creará con
las seis filas y se
rellenará con los datos a 35. Entonces déjame
crearlo. Si ejecuto esto. Nos vemos, M1 es uno es a seis, por lo que uno es a 412 a 36 se proporcionarán
datos. Y si imprimo esta matriz
M1 C aquí, ahora tenemos seis filas, 123456 filas suman seis carreteras. Y en estas seis filas
están los datos 12, 13, 14. Consulta aquí primero la
columna uno rellenará el año columna
112, 131-415-1617. Después irá a la columna para después 24 a 29 y después 30 a 35. De esta manera, entonces los datos se están
llenando por columna sabia, ¿verdad? Para lavar la columna uno, columna dos, después la columna tres. ¿Bien? Porque no he
dado nada, sí, no
he especificado por rho
igual a algo aquí. ¿Bien? Lo siguiente es, si uso por rho igual a falso, lo que va a hacer,
va a hacer lo mismo. Entonces si ejecuto esto también, nuevamente, obtendré la misma salida, se volverá a imprimir la
misma matriz. Pero si proporciono aquí el mismo
código por rho igual a true, ahora la matriz se creará
llenando primero las filas. Así que al ras 12131415, se fallará la
primera fila. Después 16, 17, 18, segunda fila, luego 2021, 22,
fila 24, así. Bien, tan rápido, las
reglas se rellenarán. Y luego la segunda fila, luego la tercera fila así. Y aquí estaba primera
fila, luego segunda fila, primera columna, segunda columna, tercera columna, así
estaba llenando aquí. Primera fila, segunda fila, tercera fila en forma de fila,
o en columna o fila. Entonces si quieres
llenar los datos por fila, tienes que dar por
rho igual a true. ¿Bien? Entendido. Lo siguiente es dar los nombres de
columna y fila. Supongamos que quiero dar
el nombre de la columna aquí, y quiero dar
ese nombre de fila también. Cómo puedo hacer eso. Puedo usar la función C y puedo dar nombre
a las filas de columna. Entonces supongamos que
quiero entonces un seis filas. Quiero dar a cada
fila nombre fila uno, fila dos fila, fila seis. Entonces voy a usar la función c y voy a crear un
objeto de nombres de fila, y voy a crear otro
objeto nombres de columna en lugar de mantener la columna uno, columna dos, la columna
tres, la columna cuatro, nombre
que quiera
dar, Usted puede darle. Luego mientras se crea la, mientras se crea la
matriz, lo que voy a hacer, primero
voy a pasar abajo matriz de
datos dentro de la matriz funcional bosque ave los datos. Y luego voy a dar
número de filas, seis. Entonces voy a dar por
fila a través de esto, puedes dar verdadero o falso
lo que quieras, ¿de acuerdo? Y entonces aquí, el siguiente argumento se
considerará nombre
dimensiones nombre. Y aquí lo que voy a hacer, voy a crear una lista. Y dentro de la
lista, lo que voy a hacer, voy a pasar los nombres de fila y columnas de fila
como argumento de dos. Entonces esto creará las
dimensiones para la matriz. Las filas y el nombre de la columna se
extraerán de aquí y se pasarán a la lista. Y creará la fila y columna con el
nombre de la matriz. Entonces déjame correr estas dos líneas. Bien, lo siento, necesito
dirigir todo esto. Ver aquí. Ahora estamos obteniendo una matriz con el nombre de la
columna, columna uno, columna dos, columna tres, columna cuatro. Y los nombres de
fila como fila uno, fila dos, fila tres, fila cuatro, fila cinco, filas seis. De esta manera, primero
necesitamos crear una lista de columnas arriba nombre de
columna y
nombres de fila de columna y nombre de columnas. Y tenemos que proporcionar esos para
atenuar el argumento de nombres bien, a través de nuestra lista, ¿de acuerdo? Y entonces se creará una fila y se
darán nombres de columna en esa matriz. Lo siguiente es acceder a los
elementos desde la matriz. Entonces supongamos que quiero acceder
al elemento desde el M5, esta matriz, primera
columna y tercera fila. Entonces, ¿cómo puedo hacer eso? La tercera fila, tres coma uno, m phi, y luego el corchete
y tres coma uno. Significa que quiero
buscar la tercera columna, la tercera fila y la primera columna. El primer argumento es para la fila y el segundo
es ¿qué columna? Tercera fila, se
imprimirá el primer elemento. Tercera fila significa esta y la columna de
un mes, abundante. Entonces si corro esto, me sale, debería tener 20 años, 32. Voy a ver aquí que estamos recibiendo 20. Entonces m5 es la matriz. Y quiero terminar
la tercera columna, tercera fila, primera columna, tercera fila, primera columna. Del mismo modo, quiero primero
de valor de la quinta fila, segunda columna voltear a través. Este es el
antecedente de volteo a través de la segunda columna, por lo que la 29ª se imprimiría aquí. Sí, estamos recibiendo 29. Del mismo modo, supongamos
que quiero la primera fila seis. ¿Bien? Así puedo dar m phi y
rho seis y valor de columna. Lo dejaré. Entonces, si das
así, ¿qué conseguirás? Obtendrá la fila seis
valor c aquí, 323-033-4305. Entonces esta es la fila seis.
Eso lo conseguirás. ¿Bien? De igual manera, si quiero acceder
a la segunda columna, puedo dar, puedo dejar la fila y puedo dar valor de columna de
un litro. Y si ejecuto esto, voy a conseguir que la columna
te vea. 13, 17. Esta es la columna 213-17-2120, 5.20, 9.33, 29, 30. Así que de esta manera podemos
presentar el valor de la columna. Lo siguiente es la
suma y resta de matriz. Podemos hacer multiplicación, suma, resta y
división con matriz de pato. Entonces supongamos que tengo la matriz M1, déjame imprimir esto. Ver este es el M1 y tengo
otra matriz que es M2. Entonces ambas son la misma matriz, pero cuáles son las métricas diferentes, diferentes pero
los valores son los mismos. ¿Bien? Entonces soporte,
quiero agregar m1 y m2, así que simplemente puedo hacer m1 más m2. Y voy a asignar este
valor a algún objeto. Entonces si ejecuto esto, y si imprimo el valor de
suma c aquí, obtendré la garantía para 36 como están
almacenados 2012 +12, 241-313-2614 más
14, 20 así. Bien, de manera similar
podemos hacer m1 menos m2 y obtendremos 000 porque
ambas métricas son iguales, ¿
verdad? M1 en m2. Podemos hacer multiplicación,
perdón por esto. 12 en 12, 24, 30 y entretener una vez
que se volvió así. ¿Bien? Y de la misma
manera podemos realizar la multiplicación matricial
donde el, cada elemento se dividirá
por cada elemento, ¿bien? Bueno, por 121, así. ¿Bien? Entonces de esta manera podemos
usar matrix y podemos realizarla no es
resta y podemos acceder a los elementos de la matriz.
19. Factores en R: Hola y bienvenidos. En esta conferencia
vamos a aprender sobre Dustin R. Entonces, ¿qué
influye en? Los factores son los objetos de datos, como hemos aprendido hasta ahora
que todo es un objeto. Y así los factores
también son objetos de datos en R que se utilizan para
categorizar los datos. Entonces básicamente
se utilizan factores para categorizar los datos y luego almacenarlos, categorizar los datos en los niveles. Entonces primero
clasificará los datos, y luego creará
Spot etiquetado , esquivar categorizar datos. Y entonces guardará
esas etiquetas, ¿de acuerdo? Almacenará esos datos
en esos niveles, ¿verdad? Y se utilizan factores para
representar los datos categóricos. Y pueden almacenar tanto
cadenas como enteros. E hicieron un
vector entero teniendo un nivel. Supongamos vector entero que tiene un nivel, algo así. ¿Bien? Entonces básicamente supongamos que
tenemos datos, supongamos un varón o una hembra. Para que podamos almacenar eso. Es mejor almacenar
eso como un 0.1, ¿verdad? Entonces que lo que va a hacer
supongamos que tenemos un dato donde masculino y femenino, algunos datos poblacion donde
tenemos nuestros datos para masculino
y femenino, ambos. Qué factores
harán creará una categoría de datos
con masculino y femenino, y almacenará
esos datos en la categoría
de masculino y femenino. Y luego fácilmente puedes encontrar cuántos machos hay y cuántas hembras hay ahí,
algo así. Bien. Déjame abrir el archivo que
he creado cuatro vectores. Entonces ya he creado
un factor de archivo en R punto R. Y aquí también voy a
cómo crear un factor en R. El primer paso para
crear un factor en R es crear un vector. Entonces aquí lo que estoy haciendo, estoy creando un vector
para la profesión facial. Y aquí dentro del
vector profesión habrá Dr. Ingeniero Carpintero,
Dr. mecánico, piloto, DR carpintero
en Kenia así. Bien. Entonces hay algunas profesiones
que he creado aquí. Entonces este es el vector profesor donde he guardado al
profesor de las personas. ¿Bien? Entonces, si ejecuto estas dos
líneas, qué va a hacer, va a crear y vector
para Francia y derecha. Y contará con el Dr. Ingeniero Carpintero, Dr. así que vea adoptante se
repite el derecho. Dr. tantos doctores
están ahí, ¿verdad? Entonces supongamos que este es un
vector que he creado. Si quiero comprobar si este vector es nuestro
factor o no, puedo usar una función
aquí llamada cada factor. Entonces cualquier cosa, si queremos
verificar si un factor o no, puedes usar cada función
factor y pasar ese vector u objeto a la función de cada factor
y
te dará que es un factor o no. Bien, así que vamos a ejecutar esto. Ver aquí nos está mostrando falsas. Significa que este vector no
es un factor. Este es un vector, no un factor. Entonces, ¿cómo convertir a este profesor y
vector en un factor? Eso es lo que vamos a hacer. El siguiente paso. El siguiente paso es
aplicar la función factor. Así apoyo. Ahora quiero convertir este proficiente
con un factor. Entonces estoy creando otro, creando otro objeto que
es factorizado subrayado. Profesor. Bien, entonces ahora usaré
la función factor y pasaré este vector de
profesión a la función factor para que este vector de profesión
se convierta en el factor. ¿Bien? Ahora bien, si ejecuto esto, y si ejecuto esto, qué asignar, mira aquí. Ahora, en este paso vamos a crear el factor a partir de este vector
profesor. Entonces ahora este factor,
profesor factor nasal, así que puedo comprobar aquí es factor. Aquí nos está mostrando a través. Y cuando estoy imprimiendo
este factor profesional, que es un factor, lo que estoy obteniendo lo estoy obteniendo
estoy obteniendo el mismo resultado. Dr. carpintero de interiores, dr. Así, los mismos datos. Pero aquí estoy consiguiendo otra
salida que son las etiquetas. Y las etiquetas son maestra de
carpintero, doctor así que todas esas cosas
van a ser sin etiquetas, ¿verdad? Los otros niveles son carpintero, Dr. conductor en junior, mecánico, piloto y maestro. Si utilizo la función table
y paso este factor, la función table,
lo que va a hacer, nos va a dar
lo mismo, etiquetas, ¿bien? Y si uso resumen,
lo que nos gusta. Si usas a alguien, vas a estar obteniendo
¿cuántos carpinteros hay en estos datos? Entonces al carpintero, tres médicos, un chofer, al ingeniero, al mecánico, al piloto,
y a los maestros. ¿Bien? Así que de esta manera podemos crear
y vectorizar en el factor. Factor verá que
ha creado un factor, carpintero Dr. y nos
está dando los datos de que
hay dos médicos. Hay dos carpinteros, tres médicos, un
conductor así. Por lo que categorizará los datos. Ahora bien, el factor, ¿qué
factor ha hecho? Se ha categorizado estos datos, estos datos en la categoría
de profesión como carpintero, Dr. y
nos está dando los números como estos muchos carpinteros o sus principales médicos cuando los
ingenieros están ahí en nuestros datos. Entonces el factor será útil al analizar los datos que
son datos categóricos, ¿verdad? Entonces veremos cómo podemos hacer análisis
categóricos
usando factores en R. Así que por ahora, basta con
entender cómo crear
un factor en R a partir
del vector, ¿bien? Entonces podemos aplicar la función
factor
al vector y ese vector se
convertirá en el factor. Y la condición
es que este profesor vectores esté teniendo
algunos datos categóricos. ¿Bien? Y luego podemos verificar
cada función de factor. Con la función, cada factor, podemos comprobar si un vector
es un factor o no, ¿de acuerdo? Y podemos usar tabla para ver los niveles del
factor y podemos usar la función de resumen
para comprobar cuáles son los números hay como
cuántos hay Dr. ¿cuántos
ingenieros hay? Entonces alguien arriba del
factor será visto usando la
función de resumen, ¿de acuerdo?
20. Marcos de datos en R: Hola y bienvenidos de nuevo. Entonces en esta conferencia vamos
a aprender sobre DataFrames en nuestra programación y cómo
podemos usar DataFrames. Eso lo que el tema
de esta conferencia. Entonces déjame
decirte primero qué es DataFrame. Dataframe es una tabla o una
estructura bidimensional similar a una matriz en la que cada columna contiene
valores de una variable y cada fila contiene un conjunto
de valores de cada columna. Entiendes lo que dije. Dataframe es una estructura similar a una tabla o matriz
bidimensional, se
puede decir, en la que cada columna contiene
valores de una variable. Cada columna
contendrá valores de valores de una variable, y cada fila contiene el conjunto
de valores de cada columna. ¿Bien? Y es un
caso especial de lista en el que cada componente de cada componente tendrá
la misma longitud y cada componente formará la columna y el contenido de los
componentes en la carretera. Entendido. Cada componente forma la columna. Cada componente
formará la columna y el contenido del componente
formará las carreteras. Entenderás cuando
hagamos las prácticas, lo entenderás mejor. Por lo que un DataFrame en R
tendrá las siguientes características. Lo primero es que
los nombres de fila deben ser únicos. Así que el nombre de la fila
siempre debe ser único. Así que los nombres de fila, así que sería único. No puedes tener los mismos
nombres de fila en un DataFrame, ¿de acuerdo? Así que cada nombre de fila debe
ser único y luego nombre de
columna no estar vacío. Entonces nombre de columna, así que no esté vacío. Debería ser un no vacío. Así que todos los nombres de las columnas
tendrían entradas, ¿de acuerdo? Y los datos almacenados en
un DataFrame pueden estar fuera de factor numérico
son tipos de caracteres. Por lo que cualquiera de estos datos de tipo
puede almacenar en DataFrame, factor
numérico o tipo de
carácter. Y cada columna, por lo que contiene el mismo número
de elementos de datos. Entonces, cada columna contiene el
mismo número de elementos de datos. Entonces DataFrame como una tabla
o una matriz bidimensional
como estructura en R,
en la que cada columna contiene el valor de una variable y cada fila contiene
el conjunto de valores de cada columna. ¿Bien? Entonces comencemos
con lo práctico. Bien, entonces lo que he hecho, ya
he escrito programa y el nombre del archivo
es DataFrame punto r. Lo que estoy haciendo aquí, estoy creando un DataFrame. Así que DataFrame se puede crear de la
siguiente manera a qué, cómo creamos un DataFrame. Nosotros usamos. Data.frame. La función data.frame
utilizará para crear un marco de datos. Y esto es estudiante es un objeto al que voy a
asignar este DataFrame. ¿Bien? Entonces data.frame. Y luego lo que estoy haciendo aquí, primero, estoy creando
un número de serie. ¿Bien? Entonces número de serie,
estoy creando 1-5. Y luego ocho, estoy dando, estoy usando la función c para
crear la edad, ¿de acuerdo? Estoy creando un vector aquí,
ver 201-15-1030, 5.45. Entonces A's tendrá estas entradas. Entonces estoy creando nombre. Nombre tendrá las muchas entradas. Bien. Entonces cinco entradas, Shaggy, Ronnie son los actuales John y Tom, y luego estoy cerrando esto. ¿Bien? Así que de esta manera podemos
crear un DataFrame. Entonces déjame ejecutar esta línea primero
para que obtengas un DataFrame. Ver aquí. Entonces déjame imprimir esto. Director General Estudiantil. Ahora bien, el alumno es
un DataFrame, ¿verdad? Y lo que está conteniendo, es que contiene una fila o
columna ese número de serie, edad y nombre, porque
hemos dado número de serie, luego ocho, y después nombre. Y cada columna. El número de serie y el nombre
contendrán los valores. Qué número de serie
contendrá el valor uno a cinco, por lo que 12345 números de serie y
luego envejece 201-15-1030, 5.40. Y el nombre tendrá
estos valores, ¿de acuerdo? Entonces cada columna tendrá los valores de nombre,
nombre, variable. Eso es lo que aprendimos
en la parte de teoría. Así que de esta manera podremos crear
nuestro alumno DataFrame, que tendrá el número de
serie de la columna es un nombre, y tendrá los valores de fila. Del número de serie 1-5, edades 21. Y este cinco es, hemos dado un nombre, tenemos un especificado
en la variable name. Entonces estos valores variables se
convertirán en la
entrada a esta tabla, ¿verdad? Entonces es una estructura similar a una mesa. ¿Bien? Entonces esto es lo que se conoce
como DataFrame en R. Y podemos ver la estructura hasta nuestro DataFrame
usando la función STR. Podemos usar STR y luego
podemos pasar el DataFrame. Nos dará la
estructura del DataFrame. El DataFrame tenía estructura
y diremos dataframe. Y es tener cinco
filas de tres valiosas. Ver aquí 12345. Entonces cinco objetos, o cinco
filas y tres variables. Tres variables son de serie, el número es un nombre. Estas son las tres variables. Los nombres de las columnas se
conocen como variables. Entonces tres variables
y cinco filas, cinco objetos de tres variables. Y estas variables son número de
serie, es y nombre. Entonces el número de serie es
entero, es numérico, y marinas de carácter,
tipo y senior, cada variable o
cada columna
tendrá el mismo número de elementos como el número de serie
es uno a cinco. La edad también es tener
cinco entradas y nombre también está teniendo
cinco entradas, ¿verdad? Entonces todos deberían tener el mismo
número de entradas, ¿verdad? Bien. Supongamos que si doy seis
años, ¿qué pasará? Déjame ejecutar este DataFrame de
edición. Porque el
número de serie está teniendo uno a 6.8 es tener solo cinco entradas, y el nombre también está teniendo
cinco entradas, ¿verdad? Entonces aquí, qué error
estamos obteniendo error en el marco de datos
y es demandar argumentos que implican diferente
número de filas seis y 6.5. Entonces una variable es
tener seis filas, seis ítems y todas las demás
están teniendo 51 hojas. Entonces por eso nos está
mostrando el error. Por lo que debería ser de 55 para cada uno. Bien, entonces aquí puedes poner
cinco y luego cuando lo ejecutemos, no
vamos a estar
recibiendo ningún error. Y va a estar funcionando
con éxito. Con el STR. Podemos obtener la estructura
del DataFrame. Lo siguiente que
vamos a aprender, puede
acceder a los componentes de
DataFrame como una lista
o como una matriz. Entonces primero veremos
acceder a la lista de Leica. Entonces podemos usar, si quieres
acceder a listas similares, podemos usar cualquiera
de estas tres. Podemos usar nuestro operador de dólar o podemos usar el soporte
doble, o podemos usar el soporte
simple, ¿de acuerdo? Para acceder a los datos
desde el DataFrame. Bien, entonces supongamos que
quiero acceder
al nombre desde el DataFrame
es estudiante, uno de los nombres. Entonces si puedo hacer eso
con este alumno, y luego dentro de la columna, puedo pasar el nombre de la variable o el
nombre de la columna. ¿Bien? Y si ejecuto esto, obtendré todos los nombres
del DataFrame. De igual manera, puedo hacer
lo mismo con este símbolo de dólar, ¿verdad? Operadores de dólar estudiante,
ese es el nombre DataFrame, y luego dólar, y luego el nombre de la columna o un nombre de variable. Entonces aquí, si ejecuto esto, voy a obtener el mismo resultado estudiante
senior nombre dólar. Te dará nombre a todos
los alumnos. ¿Bien? Y de igual manera, podemos hacer
esto también, es rentar. Y en el soporte. Nuevamente, dentro del corchete,
podemos pasar el nombre. Estas tres cosas te
darán el mismo resultado. ¿Bien? Ahora, podemos hacer como aquí
hemos dado nombre. El nombre es esa tercera columna
justo dentro de este DataFrame. Así podemos pasar también el número de
columna, estudiante tres, así te
dará la tercera columna. El nombre. Nombre es la tercera, tercera columna en este DataFrame. Mira, si llego a, nos
va a dar la edad. Ca, nos va a dar el Is. De esta manera podemos pasar el número de columna y obtener
los datos del DataFrame. Ahora lo siguiente es modificar
los elementos DataFrame. Podemos modificar el DataFrame también como C le
dará a ese alumno, es
decir un nombre DataFrame. Y entonces aquí vamos a mantener
el 11 significa la primera fila, y luego voy a dar
H. Y quiero modificar la primera fila es 291. ¿Bien? Entonces déjame correr esto y
déjame imprimir al alumno. Ver aquí. Ahora la primera fila es, se modifica a 91. Antes eran 21, ahora son 91. Así que de esta manera podemos. Modifique los elementos del marco
DataFrame. Podemos agregar filas al
componente Roche al DataFrame. Supongamos que quiero
añadir otra fila. Supongamos que aquí
hay cinco filas, ¿verdad? Quiero agregar una fila más
al DataFrame Halloween, puedo hacer, puedo usar
la función rbind. Nuestra función se utiliza para agregar
una fila en el DataFrame. Dentro del rbind, necesito pasar el nombre del DataFrame y
luego arriba para usar una lista. Y dentro de la lista
tengo que pasar el número de serie seis,
luego la edad de veinte años, y luego los nombres
serían hay una variedad, así que nada que esté vacío. Todo lo que tenemos que dar, hay tres columnas, así que
tenemos que dar tres columnas aquí. El número de serie es n, nombre. Y si ejecuto esto, agregará
una más, filas,
fila. Incautación seis, veinte
remedio se ha agregado al DataFrame estudiantil. Del mismo modo, también podemos agregar
componente de columna
al componente de columna al DataFrame. Y cómo podemos hacer eso, podemos hacerlo con el C1. C1 significa Columbine son
vitaminas fila se unen. Bien, entonces la función cbind, solíamos agregar una columna
en el DataFrame. Entonces dentro de lo mismo, necesitamos pasar el nombre
DataFrame. Y entonces tenemos que suponer una columna que
quiero agregar como país. Entonces tengo que dar a la
columna nombre país y luego después de usar la función c y tengo que pasar el país número de países. Entonces aquí necesito pasar los
seis países que hay en ellos, ¿no? 12345, ¿bien? Y si ejecuto esto, porque el sexto valor, no
nos hemos comprometido. Entonces no es el año que viene. O en un DataFrame está
teniendo solo cinco filas a, es agregar la Phi una, ¿bien? Así que de esta manera podemos
agregar otra columna, como contrario a nuestro DataFrame. Lo siguiente es que
podemos asignar el país
en una lista como manera, como listas como asignación, podemos usar estudiante
dólar país. Significa que en el DataFrame, vamos a agregar
otra columna. Es decir, ese
será un país de nombre. Y vamos a
sumar las entradas como estos países, ¿de acuerdo? Seis EN india, neutral
y EU, Japón y China. ¿Bien? Y si ejecuto estas
dos declaraciones, voy a conseguir que el país se
haya agregado aquí y los nombres de los
países están aquí. De esta manera podemos agregar una columna
en una lista como asignación. ¿Bien? Lo siguiente es que podemos eliminar un componente
de DataFrame. Entonces podemos eliminar una
columna entera usando esta cosa. Bien, estudiante, eso
es nombre DataFrame, dólar aquí nombre de columna, nombre, y puedo asignar null. Entonces, si asigno null, se eliminará toda la columna. Entonces déjame correr esto y verte. Ahora. El número de serie es y países
su columna de nombre ha sido eliminada porque hemos hecho que
la columna de nombre sea nula. Bien, así que de esta manera podremos
eliminar toda la columna. De la misma manera podemos
eliminar una fila entera. Entonces para eliminar toda la
fila, lo que podemos hacer, podemos usar student
y menos dos, y luego podemos eliminar toda
la fila. Entonces déjame dirigir esto. Aquí. Se ha eliminado la fila dos. Dos son dos huella Nueva
Zelanda que ha sido eliminada. Entonces, si quieres eliminar
una fila en particular, puedes proporcionar aquí menos
dos significa que la segunda fila será eliminada
del DataFrame del estudiante. Así que de esta manera podemos eliminar una fila
completa de un DataFrame. Entonces así es como podemos crear un DataFrame
usando data.frame. Y podemos proporcionar el número de columnas o el número de variables. Y entonces tenemos que proporcionar
el número de valores para esas variables que se
va a llamar número de
ítems aquí cinco. Entonces todas las A y
nombres serían 55, entonces solo
creará un DataFrame. Entonces podemos obtener la estructura de un DataFrame
usando la función STR. Entonces podemos poner en fase la columna
particular usando proporcionando
el nombre de la columna usando este paréntesis o
el símbolo del dólar. Y podemos comprar el número de columna. Podemos modificar
DataFrame así, elementos
DataFrame como
este y todas esas cosas,
cbind, Irvine, todas esas
cosas que hemos visto, ¿verdad? Entonces espero que tengas una mejor comprensión
de DataFrames en R. Y espero hacerte
entender qué es DataFrame y cómo podemos caminar
con los DataFrames. Nos vemos dentro de la siguiente conferencia.
21. Combinar los marcos de datos: Hola y bienvenidos de nuevo. En esta conferencia,
vamos a aprender sobre cómo
podemos combinar vectores
en DataFrames. Significa que suponemos que tenemos
tres o cuatro vectores. Y quiero crear un
DataFrame a partir de esos vectores. Entonces, ¿cómo podemos hacer eso? Y luego en segundo lugar,
lo que
intentaremos hacer, intentaremos combinar también
los DataFrames. Bien, así que comencemos. Entonces, primero lo primero, para combinar los vectores, necesitamos crear el vector. Entonces aquí lo que estoy haciendo, estoy creando para vectores, nombres, ciudad,
código postal y salario. Entonces estos cuatro serán los cuatro vectores que estoy creando son cuatro
objetos que estoy creando. Y yo, lo que voy a hacer, voy
a combinar estos cuatro para crear un DataFrame. Entonces estos cuatro vectores
crearán un DataFrame para mí. Bien, entonces el primer rector son los nombres. Y en el nombre vector lo que estoy dando en los nombres
vector lo que estoy dando, estoy usando la
función C y estoy dando los nombres de la lactamasa
Parsons, Rockies, Henry y mono. Y luego el segundo
vector es vector ciudad. Y dentro de esto le estoy dando a este particular sus
respectivas ciudades llamadas como Bangalore, Londres, Nueva York y Mumbai. Bien, y luego voy a dar el código de regalo para estas
ciudades en el tercer vector. Y entonces el cuarto
vector es salario, en el que estoy instalando
su salario respectivo. Entonces esto tendrá
el salario dermis, salario raqueta y recientemente y
mantisa. Sueldo de mantisa. Estos cuatro vectores los podemos
crear por esto que hemos aprendido en el capítulo vectorial
en la conferencia de vectores. Entonces déjame dirigir esto. Así que esto va a crear estos
cuatro vectores, ¿de acuerdo? Ahora quiero combinar estos cuatro vectores y
crear un DataFrame. Quiero crear un DataFrame usando estos cuatro vectores. Así que quiero combinar estos cuatro vectores y
crear un DataFrame. Entonces para eso, lo que estoy haciendo, estoy dando un
nombre DataFrame aquí implica detalles. Entonces, los detalles del punto EMP
serán el nombre del DataFrame. Lo que voy a
hacer, voy a usar la función
cbind para
combinar estos vectores. ¿Bien? Entonces porque este nombre
ciudad código profundo será, ese será el equipo de columnas. Entonces, naturalmente, estoy usando
C bind aquí para combinar los nombres de las columnas,
ciudad, código postal. Y tristemente estas son las cuatro, estas serán las cuatro
columnas en el DataFrame. Entonces estoy usando c wine y estoy
proporcionando el nombre de las columnas, como nombres, vector,
vector de ciudad, código postal y salario. ¿Bien? Entonces déjame dirigir esto. Bien. Ahora déjeme imprimir los detalles del
empleado. Bien. Entonces déjame ver los
detalles de los patrones. Ver aquí. Ahora el
detalle del empleado es DataFrame. Y podemos ver las columnas nombre, ciudad y código postal y salario. Y las entradas son maniquíes, carga
bancaria y
código postal y salario, Rockies city, Londres,
tienes esto y el salario. Entonces Henry. Mira aquí a partir de estos cuatro
vectores para los que hemos creado, comenzando con estos
cuatro vectores, hemos creado uno
DataFrames, ¿verdad? Supongamos que si pongo los nombres y si corro
este nombre, lo que voy a conseguir, voy a conseguir un líder
llamado de manera similar, ciudad y el callejón de las corrientes. Así que he combinado los
vectores en un marco de datos. Entonces ahora tenemos
aquí una
estructura similar a una tabla que es un DataFrame. Entonces ahora tenemos un DataFrame. Del mismo modo, ¿qué voy a hacer? Voy a leer, puedes usar la función cat C-A-T
para imprimir algo. Bien, entonces aquí solo estoy imprimiendo el archivo DataFrame
a partir de cuatro vectores. Y esto, entonces
vendrá así. Bien, entonces el primer
DataFrame de cuatro vectores es esto implica
detalles, detalles de puntos EMP. ¿Bien? Entonces, si
quieres imprimir un titular, puedes usar la
función de chat, ¿de acuerdo? Y luego imprimir los datos del
empleado que ya
he impreso aquí. Y puedes
imprimirlo aquí también. Y entonces lo que estoy haciendo ahora, esa siguiente tarea es que
quiero combinar dos
DataFrames en uno. Así que tenemos un DataFrame
implica detalles que
hemos creado a partir de los cuatro
vectores. Ahora lo que voy a hacer. Crea otro vector, lo siento, voy a crear otro DataFrame, detalles del
empleado a los detalles del punto
EMP también, con la función
DataFrame Hale-Bopp. Y aquí, de forma manual. Dentro del DataFrame voy a dar el nombre vector c t
vector, código postal, salario. ¿Bien? Entonces de esta manera
también podemos crear, en el primer paso lo que hicimos. Hemos creado el
nombre ciudad, código postal, vector
salario por separado,
y luego
lo hemos pausado para cbind función
para crear un DataFrame. Y lo que estamos haciendo ahora, estamos
pasando directamente estos vectores. Estamos creando los vectores dentro de la función DataFrame. No estamos envejeciendo C Y, y aquí estamos
usando data.frame, función
DataFrame para
crear un DataFrame. Y dentro de la
función DataFrame estamos pasando, estamos creando nombres. Vector, vector de densidad, luego vector de
código postal y entradas también estamos dando
aquí solo, ¿de acuerdo? Salario y un factor de
borde de cuerda falso. ¿Bien? Y luego si
ejecutamos esto, estaremos creando
un DataFrame. Eso también son los detalles de los empleados. ¿Bien? Y si ejecuto esta herramienta, qué va a conseguir, obtendremos el segundo DataFrame
que se emplee. Tiende a nombrar código
estratégico y hay 3.2
RAM en minúsculas y push pop. Y su código postal de la ciudad y sus respectivos salarios
impresos aquí. Ahora tenemos los dos DataFrames, detalles del
empleado e implican detalles a lo que quería hacer. Quiero combinar las filas de ambos DataFrame y crear otro DataFrame que
sea todos los detalles del empleado, que contendrá todos los detalles
implícitos desde implique uno y empleado
hasta DataFrame. Entonces estoy creando otro objeto, todos los detalles de punto empleado punto. Bien, este será el DataFrame que combinará las filas
del empleado DataFrame, DataFrame e implicará
detalles al DataFrame. Entonces para esto, lo que
voy a usar, voy a usar son
comprar fuera de banda porque queremos
combinar las carreteras aquí, tres filas y aquí cuatro
filas a esta cuatro filas. Y estas tres filas, quiero combinar y
crear otro DataFrame. Por eso estoy usando fuera de banda
para combinar las filas. Y luego dentro del Audubon, voy a proporcionar el primer DataFrame y luego el segundo DataFrame. Y luego podemos usar
la función de chat para imprimir los titulares que
combinados implican detalles. Y luego puedo imprimir. Bien, entonces déjame dirigir esto. Nos vemos. Ahora tenemos todos los detalles
implícitos DataFrame, que
contendrá las siete filas, las cuatro del
primer DataFrame, y el último tercio es
del segundo DataFrame. Así que de esta manera podemos
combinar dos DataFrames. ¿Bien? Entonces, ¿cuáles son las cosas que
hemos aprendido? Primero, hemos
aprendido a crear un DataFrame a partir de vectores. Y luego hemos visto
cómo podemos combinar los dos DataFrame
en un marco de datos. Bien, así que de esta manera podemos combinar los DataFrame y podemos crear un DataFrame a partir de
los vectores también. Nos vemos dentro de la siguiente conferencia.
22. Analizar los datos en R desde un archivo CSV: Hola y bienvenidos de nuevo. Entonces en esta conferencia vamos a aprender el concepto muy
importante, y eso es el análisis de datos en R. Entonces lo que vamos a
hacer en esta conferencia, primero, vamos
a tratar de leer un archivo CSV, archivos
CSV separados por comas. Y es como un
asiento real que se te ocurra. Y contendrá la
suma de detalles implícitos. Y luego lo que haremos, intentaremos leer ese
archivo CSV con nuestra programación. Y luego después de leer los datos, intentaremos analizar los datos que hay dentro del archivo CSV de detalle del
empleado. Y trataremos de obtener algunas
ideas a partir de esos datos. Bien, entonces déjame
mostrarte primero el archivo CSV. Entonces este es el archivo CSV
que he creado. Y vamos a ver aquí este
es el empleado detalles punto archivo CSV y es
un archivo separado por comas. Entonces el primer ID de
empleado, nombre del empleado, salario, datos
hasta incorporarse y departamento. Estas son las cuatro columnas. Estas serán la columna de la mesa o
asiento Excel, se puede ver. Y entonces esta
será la primera fila. Los valores separados por comas. El uno será el ID del empleado, luego roster será
ese nombre del empleado. El sueldo será de 3 mil. Ellos tocaron uniéndose a esto. Y entonces departamento
será CSE o algo así. Bien. Entonces estos son los algunos datos que he guardado
dentro de este archivo CSV. Y ahora lo que voy a hacer, intentaré recuperar estos datos, estas columnas y valores de fila
a través de nuestra programación. Y luego intentaremos
analizar los datos. Así que el primer tipo es leer
un archivo CSV a través de nuestro, bien, así que déjame ir al código. Lo primero que tenemos que hacer, tenemos que establecer nuestro directorio
de trabajo. Entonces para establecer el directorio de trabajo, necesitas ir a los
archivos aquí, esta sección, y ver cuando haces clic en
estos tres puntos aquí, te llevará a la puedes navegar por los
archivos en tu computadora. Y aquí lo que voy a hacer, iré al Art
2020 porque este es mi directorio de trabajo
y quiero
establecer este lugar como nuestro directorio de
trabajo. Yo seleccionaré eso. Y ahora estamos dentro de
este directorio art 2020. Ahora quiero que esta
tasa impositiva tenga un directorio de trabajo, así puedo hacerlo. Puedo ir a esto más a menudo. Y aptitudes año, Establecer
como Directorio de Trabajo, así voy a dar click en Establecer
como Directorio de Trabajo. Bien, así que de esta manera podemos hacer este nuestro directorio 2020
como nuestro directorio de trabajo. Alternativamente, puede simplemente
usar el conjunto de comandos WD. Set WD es una función que
establecerá el directorio de trabajo. Wd significa directorio de trabajo y segmentos configurando
el directorio de trabajo. Así que configurando el conjunto de trabajo, WD es la función
dentro de la que
puedes proporcionar la ruta
para tu directorio. Y esta ruta
será tu directorio de trabajo
cuando ejecutes esto. ¿Bien? Entonces ahora hemos establecido
el directorio de trabajo. Lo que he hecho, he guardado los
datos del empleado dot archivo CSV aquí
para que nos sea fácil a los que leímos eso. No necesitamos pasar la ruta completa aquí
ya que tenemos dentro,
estamos dentro del directorio de
trabajo y nuestro empleado tilde dot CSV archivo también
está en el mismo
directorio, ¿de acuerdo? Y si no está ahí, entonces tenemos que dar
la ruta completa aquí y parte completa para este archivo. ¿Bien? Entonces, el primer paso es que queremos
leer el archivo CSV en todo momento. Entonces lo que voy a hacer, primero
voy a crear una variable
que puedas decir u objetar en nuestros datos emplear, datos de puntos EMP. Esta es una invariable
donde quiero
almacenar lo que sea que voy a
leer de este archivo CSV. Para leer un archivo CSV lo que necesitamos, necesitamos una función
llamada read.csv. Por lo que read.csv se utilizará
para leer el archivo CSV. Y dentro de esta
función, read.csv, necesitamos proporcionar
el nombre del archivo CSV punto para que nuestro nombre de archivo sea detalles del
empleado punto CSV. Eso es. Cuando ejecutemos
esta función, leerá los datos de este empleado punto
CSV y
almacenará dentro de este empleado datos. Entonces déjame correr esto primero. Ver aquí. Ahora cuando ves aquí, está mostrando nos está mostrando empleado EMP dot data ocho
objetos de cinco variables. Significa que hay ocho filas y cinco columnas
en el archivo CSV. Identificación del empleado, uno a
ocho implica nombre. Estos son el nombre implícito, tasa
salarial subiendo uniéndose. Y tiene, puedes
ver los detalles aquí. Entonces ahora hemos leído el archivo CSV y hemos almacenado los datos
dentro de estos datos de punto EMP. Ahora puedo imprimir estos datos de
punto EMP y ver qué
detalle está conteniendo. Sólo ejecutarlo y nos vemos. Déjame correr esto otra vez. Ahora estamos consiguiendo la mesa
que me gusta estructura, ¿no? Identificación Emp, nombre del empleado, salario, fecha de incorporación
y departamento. Estos son los
nombres de las columnas y estos son los valores, ¿verdad? Filas. Para las
columnas correspondientes, ¿verdad? Hay ocho filas
y cinco columnas. Cinco variables
significan cinco columnas. Entonces, ¿puedes relacionar qué tipo
de datos es este en el arte? Esto se llama DataFrame. Dataframe tendrá la estructura
similar a una tabla, ¿verdad? Entonces, lo que sea que leamos
del archivo CSV, se almacenará como
un marco de datos en R. Y podemos verificar si esto es un DataFrame o no
usando cada dato. Cada función dot data.frame, derecha, es la función dot
data.frame. Y podemos pasar este objeto de datos de
empleado. Entonces déjame dirigir esto. Ver aquí está dando
el resultado como verdadero. Significa que este empleado EMP
dot data es nuestro DataFrame. Sea lo que sea que leamos a través de esto, read.csv obtendrá un marco de datos. Entonces ahora tenemos un DataFrame aquí. Lo siguiente es que ahora
tenemos aquí nuestra estructura
similar a una tabla DataFrame. Ahora puedo encontrar el número de columnas usando una función
llamada. Entonces puedo usar un carbón y luego
puedo pasar el nombre del
DataFrame aquí. Y
nos dará el número de columnas en el DataFrame. Entonces este archivo CSV está
teniendo cinco columnas. Del mismo modo, podemos usar y rho, y rho es número de filas. Cuando ejecutemos esto,
obtendremos el número de filas, ocho filas en este DataFrame. Mira aquí con qué facilidad hemos leído el archivo CSV y hemos
creado una tabla o un DataFrame en R. Y
ahora estamos encontrando con n dos puntos y fila
número de columnas y número de filas
en este DataFrame. Ahora, vamos a conseguir alguna
información interesante con R. Así que ahora quiero encontrar
el salario máximo. ¿Cuál es el
salario máximo de un empleado? Así puedo usar la función max y puedo pasar los datos del empleado. Sueldo en dólares. Significa que quiero pasar
la columna salarial,
esta columna salarial
a la función max, la columna salarial, datos de puntos EMP. Salario en dólares significa que esta columna voy a buscar y la estoy pasando
a la función máxima. Para que esa función max
funcione internamente y encuentre el máximo
de estos salarios. Entonces nos va a dar,
nos da el resultado 95,200. Déjame imprimir este salario máximo. Mira aquí estamos obteniendo el salario máximo de
un empleado es de 95,200. ¿Bien? Entonces de esta manera podemos encontrar
el salario máximo. También podemos encontrar el salario promedio
usando la función media. Entonces dentro de la función principal, lo que haremos
proporcionará esta columna salarial. Y nos dará el
salario promedio de los empleados. Tu salario promedio
de la plaza. Cada salario de él
coloca 53 mil 009, 24. Y si usamos suma de todos los empleados
sueldo y dividimos entre ocho, porque hay
ocho empleados obtendrán la misma tasa que CEO. Entonces de esta manera podemos encontrar el salario promedio
de los empleados. De la misma manera
podemos encontrar el máximo. Podemos encontrar el
detalle del empleado teniendo salario máximo, hemos encontrado que 95,200
es salario máximo. Uno implica conseguir. Ahora podemos encontrar a ese
empleado con este detalle. Entonces podemos usar la función de subconjunto y
podemos pasar esto implica datos. Y entonces podemos poner
otro argumento aquí, salario igual al salario máximo. Entonces, lo que vamos a hacer, vamos a encontrar a ese empleado que está
teniendo el salario máximo. Por lo que nos va a dar el detalle del
empleado que está teniendo con obtener el salario
máximo de lo implícito. Déjame dirigir esto. Consulta aquí este empleado
nombres profundos está recibiendo el salario máximo
y estos son sus datos. Así que de esta manera podemos
poner punto puede ser sueldo
más soleado detalle del empleado que está recibiendo el salario máximo. Entonces de esta manera podemos encontrar al empleado que está
recibiendo el salario máximo, el salario más alto. De la misma manera. También podemos ejecutar esto. Consigue que todos los empleados
trabajen en finanzas, trabajen en departamento de finanzas y obtengan salario
superior a 85,000. Mira aquí, este es
el departamento, entonces este es el
departamento de finanzas. Hay dos empleados y ambos están consiguiendo vender
más de 85 mil. Entonces, ¿qué condición estamos dando? Estamos dando llamando a la función de subconjunto y
proporcionando los datos de los empleados. Y entonces estamos
dando una condición como departamento igual a finanzas y los salarios
estarían por encima de 85 mil. Por lo que nos dará todo el empleado detallado
cuyo departamento es finanzas y salarios,
más de 85 mil. Déjame imprimir esto.
Déjame correr esto. Aquí. Nos estamos insinuando. Déjame ejecutarlo de nuevo.
Entonces aquí estamos obteniendo el ID de empleado 3.8
significa para el y correr. Estos son los dos
empleados que pertenecen
al departamento de finanzas y su salario es
superior a 85 mil. Por lo que estos dos empleados
contratan departamento, finanzas, departamento de finanzas, y sus salarios más de 85 mil. Lo siguiente es, quiero encontrar
los implica quién se unió a partir
del 2000 o después. Entonces tenemos una fecha de
unirnos aquí también, ¿no? Entonces quiero encontrar a todos los empleados que
se incorporaron después del 2000. Honor, después del 2000. Y así puedo proporcionar los datos del empleado y
puedo dar fecha a Ashdod. Y dentro de eso voy a dar
la fecha de incorporación. Entonces datos hasta ahogándose estoy
proporcionando a esta fecha función. Y esto debería ser
mayor que agrega fecha para iniciar sesión. Primero de enero de 2000. Bien. Entonces, todos los empleados
cuyos datos arriba Joanne son mayores que este tutorial, First Gen to Tarjan obtendrá esos detalles de
los empleados aquí. Entonces déjame dirigir esto. Espera otra vez, mira aquí. Entonces ahora estamos consiguiendo las
implica Priyanka Mahesh. Entonces nos conocen cuando estos
cinco implica que
se han incorporado en el 2000 y después de
eso o no después del 2000, se
han incorporado a la
compañía y estamos obteniendo los detalles del empleado. Quienes se unieron en, uh, on son a menudo 2000. Así que de esta manera, podemos
analizar el archivo CSV y los datos que tenemos dentro
del archivo CSV en Excel. Entonces este es un análisis bastante
genial que podemos realizar con las funciones
simples. ¿Correcto? Ahora lo que quiero hacer, hemos leído un archivo CSV, ¿verdad? Hemos leído el
archivo CSV y hemos realizado todos estos análisis. Ahora lo que quiero hacer, quiero escribir un archivo CSV. Quiero obtener algunos datos. Quiero generar algunos datos, y quiero que esos datos se
publiquen en un archivo CSV. ¿Cómo puedo hacer eso? Eso lo puedo hacer con esto. Write.csv. Read.csv está leyendo
el archivo CSV. Y write.csv significa leer
o escribir un archivo CSV. Queremos escribir un archivo CSV. Cualesquiera que sean
los datos, estos datos que he encontrado como implican quién se unió
después del 2000, ¿verdad? Entonces quiero escribir esta tabla o estos datos en un archivo CSV. Entonces pasaré este
objeto unido después del 2000 a este write.csv. Y aquí voy a dar
el nombre del archivo CSV. Entonces me dan el nombre del archivo CSV como empleado punto entrelazado después
del punto de origen del diente csv. Por lo que todos estos datos serán
escritos en este archivo CSV. Se creará un nuevo archivo CSP. Bien, entonces déjame, déjame ver si
este archivo ya está, mira aquí, este archivo ya
está ahí. Entonces lo que voy a hacer, voy a
borrar esto. ¿Bien? Y luego volveré
y luego ejecutaré esto. Bien, entonces déjame dirigir esto. Y déjame ir a
la carpeta aquí. Ver aquí ahora tenemos
un nuevo archivo creado. Déjame mostrarte los datos. Aquí. Tenemos 12345 filas. Me ha dicho que pasó por
Eddie que los datos hasta n son 2000 2018, 2,914.2018. Todos estos implica
se han sumado después del año 2000. Entonces datos similares están aquí. Y ahora que los datos se han
puesto dentro de este nuevo archivo CSP, empleó punto joint
afterthought y ver lo fácil que es
obtener el resultado aquí y escribir ese
resultado en un archivo CSV que hemos creado hace un
momento a través de nuestro todo, también
podemos escribir los resultados
en un archivo CSV. Y ahora puedo leer, usar el punto de lectura csv para
volver a leer este archivo CSV e imprimirlo. Entonces déjame dirigir esto. Aquí. Aquí también estamos obteniendo el mismo
resultado. Así que de esta manera podemos escribirnos a través archivo
CSV y podremos
leer un archivo CSV. Y podemos realizar todos estos análisis como
encontrar el salario máximo, encontrar al empleado
que está teniendo, quién está recibiendo el salario
más alto. Podemos encontrar a los empleados que se unen después de una fecha determinada. Podemos encontrar el
salario promedio de los empleados. Podemos encontrar la
media del salario. Podemos encontrar muchas otras cosas, lo que sea necesario para su
negocio. Si quieres. Llega a una conclusión particular
ampliando los datos, puede hacer con el, con las funciones impares y
puede analizar sus datos. Entonces espero que hayas llegado a conocer la fortaleza de nuestra
programación y cómo enlumbrar datos en
la programación R y
leer y escribir, leer y escribir un archivo CSV. Nos vemos dentro de la siguiente conferencia.
23. Crear un gráfico de tarta en R: Hola y bienvenidos de nuevo. Entonces en esta conferencia, vamos a aprender
sobre el gráfico circular. Entonces déjame primer año estas consolas y objetos
y déjame cerrar este archivo. Y he creado un archivo que se llama
byte char Tatar. Entonces he escrito el programa, he escrito las
funciones para crear gráfico
circular usando datos. Entonces suponemos que
tenemos algunos datos y queremos trazar esos
datos en un gráfico circular. Y queremos analizar
los datos para que
podamos hacer en nuestro, muy fácilmente, un anuncio también es popular para
esta función, porque podemos visualizar los
datos usando varios gráficos. Entonces una de las guitarras es gráfico
circular y que vamos
a aprender en esta conferencia. Entonces, primero, primero, primero, tenemos que crear
los datos para el gráfico. Entonces estoy creando un
vector n y estoy dando valores como
307-82-3309, algo así. Puedes dar lo que quieras. Y luego estoy creando etiquetas a, B, C, D para este valor. Entonces el valor será 30, 78, c, 23, y D 39, así. ¿Bien? Ahora puedo obtener el nombre del
archivo de datos para el chat, sea cual sea el gráfico que esté
obteniendo lo estoy creando, le
puedo dar un nombre como abc dot PNG o un gráfico
circular dot PNG. Entonces supongamos que le voy a dar un
nombre por Jarred dot PNG. Cualquier cosa que puedas dar. Bien. Entonces le estoy dando un nombre. Puedo usar la función PMT y
puedo dar archivo igual
al nombre de archivo. Así que quiero crear un
gráfico circular punto archivo de imagen PNG. Lo que sea que se haya agarrado que va a crear, que se almacenará en un formato de imagen de archivo
PNG. Bien, Así que eso también puede
hacer con esta línea. Entonces esto es opcionalmente, si quieres archivo PNG
en un archivo de imagen, entonces puedes crear con esto. De lo contrario puedes
venir directamente aquí y puedes usar la función de pastel y
puedes pasar los datos. Y así esto entrará en los datos y luego podrás pasar las etiquetas.
Estos son los niveles. Entonces, cuando se
creará el gráfico circular con estos datos, y estos datos
se etiquetarán con a, B, C, D. Bien, así y luego dev.off
significa que este archivo
será dado de baja en
el, en el sistema. ¿Bien? Entonces déjame ejecutar este código aquí. Así que déjame correr. Bien. Entonces CEO, ahora tenemos pero
no estamos viendo ese gráfico aquí. No sé por qué. Entonces
déjame correr esta parte otra vez. Ver aquí. Ahora tenemos un gráfico circular
con las etiquetas a, B, C, D. Así que E es tarde. V es el que más se parece al 78. Así es, el
área más grande para b y luego d y C. De
esta manera, con estos datos simples, hemos creado esta representación
gráfica. Y déjame ir al becario de
arte y director general, debe
haber un archivo creado. Ver aquí gráfico circular. Ese archivo PNG ha sido creado con esa
representación gráfica. Entonces mira aquí, este archivo de
imagen también creado y mira
aquí el a, B, C, D. Estas son las etiquetas y
este es el valor de datos es 78, es algo que hemos dado. Un valor es 30, y C10 es 23, 29 así. Bien, pues mira,
creemos que hemos creado una representación gráfica de nuestros datos y podemos presentar
nuestros datos así. Bien, entonces déjame
volver al núcleo. Entonces este es el comando, esta es la función
PNG para crear un archivo PNG a partir de nuestra gráfica. Bien, entonces esta es
nuestra gráfica y este es nuestro archivo PNG para esa gráfica. ¿Bien? Entonces, si quieres enviar a
través del gráfico, puedes crear un archivo PNG
y enviarlo por correo electrónico. ¿Bien? Así que de esta manera podemos
crear un gráfico circular. Bien, lo siguiente es, ahora quiero crear
otro gráfico circular. Y para eso estoy creando como
implica y su salario. Entonces estoy creando un vector
salarial y
le estoy dando esos salarios
impulsivamente y apoya
pero nuestro salario y los nombres de los empleados cada enfermo menos una fecha y
todas esas cosas. ¿Bien? Entonces estos son los dos vectores que estoy creando
salario y los nombres. Entonces obviamente va a tener
esta élite preguntarlo, pero han sido 800 así. ¿Bien? Y lo mismo con
B y D. estoy tratando de crear un archivo PNG, sueldo punto PNG para la gráfica
que va a dibujar y el por salario y nombres estoy pasando
y pasando el salario como dato y nombre
como etiquetas. Entonces el siguiente gráfico circular que
vamos a crear, se creará con base en el salario y los nombres
serán etiquetas como aquí, ABCD hizo en estos niveles
estará ahí y se guardará. Pero BUN y esas cosas. Bien, entonces déjame crear
este trato aquí. Déjame dirigir esto. ¿Bien? Esto otra vez. Ver aquí. Ahora tenemos un gráfico circular con los nombres como obviamente
el park j tan. Y cuál es el uso de los datos
gráficos están trazando. Porque con esto,
podemos ver que, bien, titin es Aaron menos salario de música está teniendo menos salario, pero uno N far oak está
teniendo bastante buen salario. El dólar y Ellen es
Erin cada salario. Entonces con esta gráfica, podemos analizar fácilmente los datos sin
mirar los datos de una manera más profunda
podemos ver esto y podemos
llegar a la conclusión de que música está teniendo el
menor salario después de eso, Satanás está teniendo poco
más que cada enfermo. Y luego el buck y Ellen, y luego bobina y tela y
tela es lo que más está teniendo, la mayor parte de los
elementos celulares de nuestros lucas teniendo fotocopias obteniendo el
salario más alto, rs1,000 patrimonio. Entonces podemos hacer este análisis viendo el gráfico
circular y ver aquí, debe
haber un archivo salarial se
ha creado aquí, ver aquí. Entonces esto lo puedes enviar
por correo electrónico y
puedes poner así. Bien. Entonces este es el enorme gráfico circular. Y con esta sencilla función
pipe, podemos crear un
gráfico circular por y
tenemos que escribir los datos y
tenemos que proporcionar las etiquetas. Este nombre es una etiqueta que
estamos bien. Gracias. Bien. Veremos el resto de
las cosas como cómo podemos analizar el detalle del archivo CSV
en la próxima conferencia. Entonces te veré
dentro de la siguiente.
24. Analizar los datos de los empleados: Hola y bienvenidos de nuevo. Entonces en esta conferencia
vamos a analizar los datos del empleado punto CSV archivo que hemos visto
en las conferencias anteriores. Y vamos a obtener los
datos de este archivo CSV. Lee los datos del archivo CSV, y vamos a
crear un gráfico circular. Y ya veremos cuáles son las cosas que podemos hacer
con el gráfico circular. ¿Cuáles son las cosas gráficas que podemos analizar con
el gráfico circular? Cómo podemos iluminar
los detalles del empleado. Del gráfico circular. Para leer un archivo CSV, usamos el read.csv y
pasamos el archivo CSV aquí. Y voy a almacenar eso
en los datos de puntos EMP. Esto ya lo hemos visto. Entonces ejecuto esto y obtenemos los datos en el objeto de datos punto
EMP. Ahora, esta será una
tasa de DataFrame. Recuerda, ¿verdad? Entonces, si imprimo estos datos de
empleado, datos de punto
EMP,
obtendrá también marco de datos. Les gustará
la estructura aquí mismo. Estos datos los estamos obteniendo
de este archivo CSV. Ahora, quiero dibujar, quiero obtener un gráfico circular como este para esto
implica, ¿de acuerdo? Entonces para hacer eso, puedo usar la función pipe
y puedo crear un gráfico circular. Entonces quiero crear un
gráfico circular basado en el salario. Entonces lo que voy a hacer, voy a usar datos de puntos EMP, ensalada de
dólares, todos
esos elementos. Sube la columna
salarial este DataFrame. Y va a crear un gráfico circular
y etiquetar lo que voy a dar, voy a dar la etiqueta
como nombre del empleado. Entonces, datos de puntos EMP, dólar, nombre de subrayado de E&P,
nombre del empleado. Por lo que creará un gráfico
circular como este, y este será el salario del empleado y los niveles
serán los que impliquen nombre. Entonces déjame correr esto
y ver aquí estamos consiguiendo gráfico circular donde estos bloques representarán el salario y los
niveles de implica tema. Entonces con este gráfico circular, podemos ver claramente
eso. Ver eso. Entonces D está secando el salario de este
mes. Randolph estaba dibujando
este salario imprescindible, ¿verdad? Tan profundos sueldos tasa máxima. Y vemos aquí, por lo que los salarios profundos son máximos de 95,200. Y mi cabello se está
secando menos sueldo, ¿verdad? Entonces si vemos el
salario, 7,800, bien. Así que de esta manera podemos obtener un gráfico circular basado en el salario y el
nombre del empleado y las etiquetas. Bien, lo siguiente es que
quiero trazar el gráfico, el título y la paleta de colores arcoíris, así que quiero
que sea más colorida. Entonces aquí lo que voy a hacer, voy a usar la función pipe. Pasar el sueldo,
después implicar nombre. Entonces este es el dato, entonces esta es la etiqueta y la media, media igual al salario del empleado. Este será el rumbo
de este gráfico. ¿Bien? Entonces este será el
rubro Para este gráfico. Y entonces lo que voy a usar, voy a usar call igual a
color arcoiris se llama arco iris. Y para eso, lo que le voy a dar a empleados longitud de datos de punto, ¿de acuerdo? Luego toca los datos del empleado. Bien, entonces déjame dirigir esto. Ahora. Estamos recibiendo una gráfica muy colorida
o una gráfica circular donde el rubro es el salario del
empleado y los nombres son las
etiquetas y el salario. Estos bloques están
representando el. Implica salario. ¿Bien? Así que de esta manera podemos hacer
un gráfico circular colorido, que se ve mucho
mejor que el anterior, así puedes usar esto también. Lo siguiente es que quiero
crear las etiquetas. Entonces lo que voy a hacer, a ver, sí, estamos dando los niveles
como empleándolos que
ya está ahí en este
DataFrame ¿verdad? Ahora quiero crear
mis propios niveles. Entonces lo que estoy haciendo aquí, voy a crear porcentaje del salario,
otras etiquetas, ¿bien? Entonces, lo que estoy haciendo aquí, estoy creando un
objeto cinco por ciento, y estoy usando la función
round. Y lo que estoy haciendo aquí, cien en sueldo de empleado dividido por algunos de esos
salarios de todos los empleados. Bien. Entonces básicamente lo que estoy haciendo, estoy encontrando el porcentaje
de nacimientos y muertes de
salario de cada empleado con
base en el salario total. El salario total sumará
todos los salarios. Y luego vamos
a tratar de averiguar cuánto está saliendo
Susanna. ¿Cuál es el
salario de Susanna en porcentaje? El salario total. Bien. Entonces estamos obteniendo este valor porcentual de
pipa. Y entonces lo que voy a hacer, voy a trazar el sueldo del
dentista en gráfico circular. Entonces para eso, voy a usar
la función pipe. Y aquí los datos serán el
mismo salario de los empleados, esta columna, columna salarial. Y entonces las etiquetas
serán el porcentaje de tubería. Entonces la etiqueta en lugar de nombre ahora estoy proporcionando cinco
por ciento, ¿de acuerdo? Entonces será 1%, 2% así. ¿Bien? Y luego el rubro principal, estoy dando, analizando este
salario por chat, ¿de acuerdo? Y luego la Collette, me quedo con el mismo
esquema, arcoiris. Y aquí estoy dando
las lentes y datos, datos empleados, salario, salario
y proporcionando como duración. Bien. Entonces déjame, y luego otra
cosa que estoy dando, estoy dando los ligandos,
ligandos o algo se
va a imprimir aquí para especificar
qué significa,
R, qué color va a
OXO, lo que implica. Por lo que se colgará en
la esquina superior derecha. Y entonces aquí estoy
dando datos de empleados. Dólar, nombre del empleado
significa el nombre del empleado. Y entonces estoy dando el cex significa que será el valor de la longitud o
anchura de esa cosa. Una vez que dibuje esto, se
le entenderá. Entonces déjame, entenderás una gráfica de estrellas viene C aquí. ¿Bien? Entonces déjame dirigir esto también. Y ahora déjame ver. Sí, ahora nos pusimos el nombre. Estamos obteniendo los números
porcentuales como la suma de los
salarios totales de todos los empleados. Esta persona, la verde
que es tan profunda, que está recibiendo 22.1%
del salario total. Y luego correr nuestros ojos
consiguiendo 19 puntiagudos. Entonces esto, esta legión, esto se llama lesiones. Esto, esta es la lealtad. Y basado en los bloques de
color verde, esos son el pan
pertenece al prión. Entonces con esta gráfica, se
puede entender
que los salarios de Priyanka aprendieron 0.6 por ciento
del salario total, ¿verdad? De la misma manera en esto
pertenece al Michael, Michael celular es 25.6. Y los salarios más bajos
de esta persona que es riba que estás viendo es tener
menos salario, 0.2 por ciento. Así que de esta manera podemos crear nuestras propias etiquetas y podemos poner
las leyendas para cada nivel. Y esto es más específico como cuánto está recibiendo el 1% en
porcentaje, porcentaje de salario. Lo siguiente es que podemos
dibujar el gráfico circular 3D. Y para eso necesitamos descargar esta matriz de parcela de
biblioteca. ¿Bien? Entonces si no estamos, si no está ahí
para tu RStudio, puedes llegar al archivo. Puedes ir a los paquetes y puedes hacer clic en los paquetes de
instalación. Aquí puedes dar tu nombre, nombre biblioteca
iniciado,
que deseas descargar y hacer clic
en la instalación. Una fiesta no está ahí. Puedes hacer click en Instalar
y esta biblioteca
se instalará en tu máquina, RStudio dentro de Data Studio
y podrás usarla. Entonces necesitamos esta biblioteca, trazar trucos para
crear gráfico circular 3D. Y dentro de esa biblioteca
tenemos la función 3D circular. Y con eso
podemos pasar los datos, ese es el salario del empleado. Las etiquetas darán
el nombre del empleado. Y luego explorado punto a y principal es placentas
salario en 3D. Bien, déjame ejecutar esto para ver, y ahora estamos
obteniendo gráfico circular 3D. Justo aquí. Estamos obteniendo un gráfico circular 3D como este es el
resumen de Sudán. Esto es sin duda hasta el
anticuerpo de carne Michael atravesando C, muy menos salario por menos
cosas o la masa así. Entonces esta es la representación 3D de los salarios de los empleados. Y así podemos ver aquí, y esto se verá mucho
mejor que el gráfico circular 2D. Entonces de esta manera podemos
crear un gráfico circular y podemos analizar los datos en el art. ¿Bien? Por lo que también puedes probar
con tus propios datos. Intentas crear tus propios vectores y luego
tratar de dibujar el gráfico circular. Puedes analizar los
datos de un archivo CSV, crear tu propio archivo CSV y hacer todas esas cosas. Así que quiero que ustedes creen
su propio proyecto así, y tanto esos gráficos estos gráficos circulares en la sección de
proyectos de esta clase. Y veremos que podemos proporcionar nuestros feedbacks y todo. Por lo que se compartirá entre nosotros, todos los estudiantes
y conmigo también. Entonces intentas crear o crear
tus propios datos así, e intentar visualizar tu
base de datos creando el gráfico circular o un gráfico circular 3D son como encontrar la media, encontrar el
salario promedio, todas esas cosas. Bien. Entonces y empujado a
los proyectos excelentes.
25. Leer el archivo de Excel en R: Hola y bienvenidos de nuevo. Entonces en esta conferencia
vamos a aprender cómo
podemos leer un
archivo Excel a través del arte. Es bastante simple y
necesitamos instalar un paquete, y luego tenemos que
cargar ese paquete. Y luego necesitamos leer el archivo Excel a través de
un simple código de una línea, y luego podemos imprimir los datos. Entonces veamos cómo podemos hacer eso. Entonces lo que he hecho, he creado un mismo detalle
empleado, archivo
Excel, los mismos
minoristas que he guardado en este archivo Excel que
teníamos en nuestro archivo CSV. Entonces son los mismos datos, pero he creado un
archivo Excel a través de ese archivo CSV. Y lo que he hecho por eso, las apps simplemente abren
ese archivo CSV. Lo que voy a hacer es que no tengo
el Microsoft Excel aquí. Entonces qué voy a hacer, sólo
voy a ir al y
aquí tenemos los datos del empleado punto archivo CSV, ¿no? Voy a abrir eso
aquí en el asiento de Google. Y veremos que se
creará en x. Y si veo que sí, entonces ahora
tenemos la placa de nombre de la columna, identificación del
empleado, nombre del empleado, salario, fecha de incorporación
y departamento, y todos los detalles
en formato Excel. Ahora lo que voy a hacer, sólo
voy a descargar este archivo en formato de
ética Excel. Entonces haz clic en ese formato Microsoft
Excel, descárgalo. Entonces ahora se ha descargado
y me he quedado con eso. Guardé ese archivo aquí en
nuestro directorio de trabajo. Entonces lo siguiente es que ahora tenemos este empleado detalles dot
Excel como x, y nada. Eso significa que el archivo de
Microsoft Excel aquí en nuestro directorio de trabajo, ese es nuestro 2020. Entonces lo que tengo que hacer, lo
primero que necesitamos es
instalar este paquete. Y el nombre del paquete es XLSX. Así que para instalar un paquete en R, podemos usar esta sintaxis
install.packages, y podemos proporcionar el nombre del paquete que
queremos instalar. Al ejecutar este comando, se instalará el soporte de ética de
excel. Alternativamente, también podemos
ir a esta pestaña de paquete aquí. Y tenemos que dar click
en el Instalar. Y aquí tenemos que
proporcionar X como X, ¿bien? Y puedes dar click aquí Instalar
y se instalará. Entonces podemos hacer de cualquier manera, y se
instalarán los empacadores XLSX. Este paquete es requerido
porque necesitamos leer ese archivo Excel
a través de nuestra programación. Y necesitamos las
bibliotecas que están incorporadas en el paquete excel. Así que basta con hacer clic en Ejecutar
y esto se hará. Bien. Entonces qué voy a hacer, simplemente lo
cancelaré porque
ya tengo instalado este paquete. Simplemente da click sobre esto y
se instalará, ¿de acuerdo? Y puedes ir aquí y
puedes hacerlo también. Apenas tardará
un minuto para tu tiempo y este paquete se
instalará. Lo siguiente es una ópera
que necesitamos mover esta cosa porque
todavía no está ahí en nuestro archivo script. Después de instalar la
biblioteca o el backend, hay
que eliminar esa línea. Todavía no va a la pelea del
licor Otro Guión. Entonces lo siguiente es que queremos
leer o Excel archivos de ética. Y hay una función
en esta biblioteca. Entonces necesitamos cargar la biblioteca, necesitamos cargar el paquete,
así vamos a usar library y luego nos
quedaremos con el nombre de la
biblioteca XLSX. Y entonces lo que necesito, necesito usar la
función v punto XLSX. Significa que queremos leer un archivo Excel, un archivo de
Microsoft Excel. Y aquí, primer argumento, necesitamos dar dinero
para dar el nombre del archivo. Entonces la imagen final, detalles
del empleado puntean XLSX. ¿Bien? Y entonces tenemos que
darle el índice de asientos, índice igual a uno. ¿Bien? Y esto, lo que sea que estemos leyendo aquí a través de
este Excel de punto rojo, estamos almacenando a la vista u
objeto dentro de un objeto. Datos de subrayado de empleados, datos de subrayado de
E&P. Entonces esto tendrá
todos los datos que estamos leyendo de
este archivo de Excel. Y entonces
simplemente vamos a imprimir eso. Entonces déjame ejecutar este archivo y ver que aquí estamos obteniendo
el resultado, identificación del
empleado, nombre del empleado, salario, terminan
uniéndose y departamento. Entonces de esta manera es bastante simple. Podemos leer a través del
podemos conseguir que los mayores accedan a él, podemos leer eso ¿verdad? Así que bastante simple. Cargar la biblioteca. Primero instale el paquete, luego cargue la biblioteca. Entonces tenemos que leer el archivo Excel simplemente
proporcionando el nombre del archivo Excel. Y tenemos que almacenar estos datos
en objeto en un objeto. Y luego simplemente
imprimimos ese objeto para llegar a ver qué está almacenando ese
objeto. Básicamente se trata de almacenar todos los detalles de
la hoja de Excel. Bien, espero que hayas llegado a saber cómo podemos leer un archivo Excel. Así podemos leer un archivo de
Excel mediante el uso función de
lectura punto XLSX. Y necesitamos proporcionar
el nombre del archivo Excel. Y luego simplemente obtendremos todos los datos dentro
del archivo Excel. Entonces el paquete es XLSX
que necesitamos instalar. Y necesitamos cargar
la biblioteca XLSX antes de usar la función XLSX. Entonces esta es la forma en que
podemos leer un archivo Excel, un archivo Microsoft Excel
a través de nuestra programación. Tú dentro de la siguiente conferencia.
26. Leer el archivo xml en R: Hola y bienvenidos de nuevo. Entonces en esta conferencia
vamos a aprender cómo
podemos leer un archivo XML
a través de nuestra programación. Entonces vamos a escribir un código y a través del cual
vamos a leer archivo XML. Entonces primero lo primero, déjame decirte qué pieza. Archivo Xml. Entonces un
archivo XML es un XML. Xml significa XML Extensible
Markup Language e insert lo llamamos XML
Extensivo Lenguaje de Marcado. Y es similar a
como reescribir HTML, lenguaje de marcado de
hipertexto, ya sabes, para escribir páginas web
y todo de la misma manera, XML Extensible Markup Language. Es un archivo de datos. Y en este archivo guardamos
los datos es como una base de datos, igual que almacenamos datos en
la hoja de Excel también. almacenamos datos en un archivo de
texto, También almacenamos datos en un archivo de
texto,
y los almacenamos en
la base de datos también. De la misma manera,
almacenamos datos en archivos XML, es
decir, Extensible
Markup Language. Se trata de un formato como
un documento HTML, como en documento HTML, utilizamos las marcas y todo para almacenar el documento
de la misma manera. Xml también, utilizamos el marcado para mantener los datos
dentro del archivo. Pero aquí usamos etiquetas personalizadas. En HTML, todo
está predefinido. Pero en XML podemos crear
nuestras propias etiquetas como HTML. Tenemos que usar el impuesto de
lenguaje predefinido más antiguo que es específico del HTML, pero en XML podemos escribir nuestro
propio impuesto, lo que queramos. Podemos crear una etiqueta para eso. Y es por eso que seleccionas lenguaje
personalizado basado en etiquetas o una extensión de archivo
ese fin de semana. Voy a archivar
lenguaje de marcado que podemos usar aquí etiquetas personalizadas para definir los objetos y los
datos dentro de cada uno de los objetos. Entonces podemos definir
el objeto personalizado y podemos poner los datos de
acuerdo a eso, cualquier dato que queramos
portar para las etiquetas que podamos hacer. Los archivos Xml pueden ser pensados como
una
base de datos basada en texto como MySQL. Utilizamos a los jóvenes para mantener los datos en una tabla y formato
raw y decidimos qué tipo de columna
queremos insertar de la misma manera
Es una base de datos basada en texto. Entonces ahora lo que voy a hacer, no quiero crear un archivo
XML desde cero. Y quiero usar lo
mismo nuestros datos, mismos detalles que
teníamos en nuestro archivo CSV, detalles del
empleado punto CSV, y luego tenemos claro
al empleado detalle
punto archivo Excel. Entonces quiero tener el
mismo tipo de datos, los mismos datos en XML ágil. Entonces para eso, podemos ir y
crear manualmente un archivo XML. De lo contrario, también podemos utilizar este sitio web de herramientas de conversión
dot IO, donde solo podremos navegar por el archivo Excel y podemos
convertirlo en un archivo XML. Entonces déjame mostrarte. Entonces, cuando vienes a este
sitio web herramientas de conversión dot edu slash convertir
slash Excel a XML. Entonces esta fase,
cuando vengas aquí y nosotros, cuando navegues y solo pongas los
datos de tu empleado archivo Excel aquí. Así que ahora estoy usando este
archivo XLSX de detalles del
empleado para crear un archivo XML
basado en estos datos de archivo. Así que solo necesitas
seleccionar el archivo. Y luego tenemos que hacer clic
en el Ejecutar converger en este archivo Excel se
convertirá en un archivo XML. Y tardará unos segundos y tu archivo XML se preparará
automáticamente. Entonces lo que he hecho, ya
he descargado
este archivo XML aquí, detalles del
empleado archivo dot xml. Y vamos a tratar de
leer este archivo XML. Es tener los mismos detalles que
los datos del empleado, ¿verdad? Entonces bien, entonces lo que he hecho, lo
he modificado y he
guardado sólo para registros aquí. Y si ves el archivo que acabo de crear dentro de
descargas y este archivo XML, verás datos. Ocho empleados lo identificaron
a la altura. ¿Eso está bien? Así que así, podemos hacer eso. Entonces déjame copiar y pegar
estas dos horas. Sí. Bien. Entonces a Lake rehab instaló el paquete XL XX
para leer el archivo Excel. De la misma manera para
leer el archivo XML, necesitamos instalar
el paquete XML. Y para eso, necesitamos usar install.packages y necesitamos proporcionar el nombre del paquete XML. Alternativamente, podemos ir
al paquete de instalación, y aquí podemos proporcionar
el nombre del paquete XML. Y tenemos que dar click en Instalar
y se instalará. Entonces no lo voy
a volver a instalar
porque ya lo he
instalado. Y si no lo has instalado, solo
tienes que ejecutar esta
línea o puedes venir aquí y proporcionar el XML aquí, y puedes hacer clic en Instalar, y tardarás unos segundos en
instalar el paquete, o apenas un minuto para
instalar el paquete. Una vez instalado el paquete, necesitamos eliminar esta línea porque el paquete
ya está instalado. Lo siguiente es que necesitamos cargar
el paquete XML o biblioteca. Entonces necesitamos usar el comando o necesitamos usar la biblioteca de
scripts. Y tenemos que proporcionar
el nombre del paquete. Entonces tenemos que cargar el
paquete, bien, entonces biblioteca. Y necesitamos proporcionar
el nombre del paquete XML. Por lo que todas las funciones
y requeridas para leer el archivo XML se escribirán
dentro de esta biblioteca XML. Y que todas las funciones
incorporadas serán nuestro nivel para nosotros. Lo siguiente es que necesitamos y
los métodos de biblioteca también. Esto es necesario para
este paquete XML. Bien, y luego
lo siguiente que tenemos que hacer, necesitamos usar la
función XML parse. Archivos xml es una función que
se requiere para leer, leer un archivo XML. Entonces usaremos
análisis XML y necesitamos proporcionar el
nombre del archivo para el archivo XML. Así archivo igual al nombre del archivo. Entonces nuestra imagen final, detalles del
empleado punto xml. Y necesitamos,
sea lo que sea que vaya a obtener
de este archivo XML, necesitamos almacenarlo dentro de este objeto de
detalles del empleado. Porque en R necesitamos
almacenar todo dentro de un objeto como
variables se puede decir. Entonces implican detalles, variable u objeto se quedarán con
lo que seamos. Obtenemos de este archivo, archivo XML a través de esta función de análisis
XML. Entonces ahora todos los detalles de este archivo xml de
puntos de detalles implícitos se
almacenarán en este objeto. Ahora necesitamos
imprimir ese objeto. Así que déjame correr hasta aquí. Bien, déjame ver aquí. Se trata de imprimir el
archivo XML como un acordeón Bly implica ID1 y Glassdoor fecha
salarial de
incorporarse al departamento. Bien, Así que mira aquí estas son las etiquetas definidas por el usuario que hemos creado
para nuestro archivo XML. Bien, nos vemos todos
los detalles que estamos obteniendo para que podamos leer
el archivo XML así. Xml analiza la función para leer el archivo XML en C. O podemos usar la
función XML food node, el nodo raíz hasta el archivo XML. Entonces estamos instando al nodo
raíz y
estamos pasando los detalles del
empleado, E&P subrayado detalles objeto
al nodo raíz y luego
vamos a imprimir este nodo raíz. Entonces déjame correr estas dos líneas. Si pongo nodo raíz uno, me
va a dar los
detalles del primer nodo entramado implica ID1. Si pongo uno de dos, me
va a dar el nombre. La primera fila para
verte emplear nombre priyanka
Rostow desde el primer nodo. Si pongo dos hasta lo que voy
a conseguir, voy a obtener el nombre
del segundo implica que es la identificación del empleado. El nombre del empleado es. Así
así podemos acceder a cada nodo. Puedo poner tres de uno. Supongamos que tres de tres van a obtener sueldo del
alquitranado le juega, bien. Y de la misma manera podemos
encontrar cuántos nodos hay ahí, cuántos Norths hay
en nuestro archivo XML para eso, podemos usar tamaño XML
y podemos proporcionar el objeto nodo raíz que
obtuvimos de la raíz XML. Así que cuando ejecutemos esto, vamos a hacer número de norte. Así que déjame imprimir esto. Número cuatro porque
este archivo de Excel lo he guardado solo
para empleador lo es. Entonces nos está demostrando que
hay cuatro norteños que están ahí. Tenemos cuatro nodos cuando están implícitos, uno en brillante para emplear
D3 e ID de empleado para. Entonces nos está dando el qué
al norte en el archivo XML. Ahora lo principal es que
una vez
que obtenemos estos datos, los datos
XML los podemos leer a través de
R. Necesitamos convertirlos al DataFrame porque es muy fácil leer datos o manipular datos cuando están en el formato
DataFrame, ¿verdad? Entonces en Are hay una función
llamada XML a DataFrame. Significa lo que sea que tengamos en este archivo xml de datos de empleado
punto, podemos convertir directamente
eso para trabajar DataFrame mediante uso de la
función XML a DataFrame y todos los detalles. Lo almacenaremos en el guión bajo del
empleado DataFrame y luego
podremos imprimirlo y veremos que
vendrá como DataFrame. Entonces déjame ejecutar esto y ver
ahora todos los detalles están en tabular o en
formato DataFrame en
nuestro ID de empleado senior, nombre del
empleado y
planificación de datos salariales y departamento. Entonces con esto, con esta
sola línea de código, podemos convertir un archivo XML hacia DataFrame
en programación R. Y esto es bastante
útil cuando hacemos nuestro análisis exploratorio de datos y aprendizaje automático
y ciencia de datos. Así podemos convertir fácilmente archivo
XML a un DataFrame
y luego podemos proceder más allá para analizar
los datos o la forma que queremos crear gráficos
y todos los plotting y todo. Entonces todo ese tipo de analíticas que
podemos hacer en este DataFrame. Entonces es bastante fácil hacer todas esas cosas en
nuestra programación. Espero que entiendas
cómo podemos leer un archivo XML. ¿Cómo llegamos a saber eso,
cómo, cuántos nodos hay
con este tamaño XML? Y luego cómo podemos
convertir un archivo XML a nuestro DataFrame en R usando
XML a DataFrame, ¿verdad? Entonces eso es todo para esta conferencia. Nos vemos dentro de la siguiente.
27. Leer el archivo JSON en R: Hola y bienvenidos de nuevo. Entonces en esta conferencia, vamos a aprender a
leer el archivo JSON en
nuestra programación. Entonces lo que vamos a hacer, vamos a aprender qué es el archivo JSON, luego vamos a crear un archivo JSON. Y luego finalmente intentaremos leer ese archivo JSON
a través de nuestra programación. Así que comencemos. Entonces, primero debemos estar
sabiendo qué es un sulfito. Entonces Jason significa
JavaScript Object Notation, y es un formato de archivo
estándar de código abierto. Por lo que es formato de archivo
estándar abierto y formato
de intercambio de datos. Así que básicamente formato de
archivo de Pascua también, y
formato de intercambio de datos también. Eso significa que podemos almacenar los datos
y los utilizamos para el
intercambio de los datos. Además, que solo tienes texto
legible por humanos. En esto, escribimos texto
legible por para almacenar y
transmitir objetos de datos que consisten en pares de valores de
atributo. Significa que será como Primero
vamos a pares de valores clave,
todas esas cosas sitio. Si conoces el MongoDB o
cualquier base de datos sin secuela, debes estar sabiendo que hay una base de datos de documentos
donde guardamos, almacenamos datos en
forma de pares de valores clave. Entonces habrá una clave, y para esa clave, habrá un valor
correspondiente de
la misma manera justo en la misma manera justo en también tú solo los pares de valores de
atributo. Significa que habrá un
atributo y ese atributo, habrá un atributo, pares de
valores y tipos de datos
agregados. Básicamente cualquier otro
valor también, y básicamente editó ese tipo. Entonces yo, espero que hayas llegado a saber
qué es Jason en teoría, déjame saber cómo podemos
crear un archivo JSON. Entonces nos vemos pronto. El archivo es un archivo muy sencillo. Tenemos que poner datos dentro de
estas llaves. Y dentro de las llaves, lo que haremos, usaremos ese par de
valores clave para almacenar datos. Entonces supongamos lo que voy a hacer, voy a almacenar los mismos datos de este
empleado solamente. Hemos visto cómo almacenamos
esto en un archivo CSV como aquí. Y luego hemos visto
cómo podemos
almacenarlo en un archivo Excel. Y luego hemos visto cómo podemos almacenar eso en un archivo XML. Y ahora veremos
cómo podemos almacenar el mismo
detalle de empleado en un archivo JSON. Entonces para eso, como dije, viste el mejor truco de formato de
archivo. Aquí, ID de empleado. Todas las identificaciones de los empleados, guardaré en una
matriz de uno a ocho. Entonces todas las
identificaciones de empleado de uno a él, como si tuviéramos ocho ID de empleado. Así que tenemos, hemos
restaurado a todos los que están en. Y hemos dado
nombre de atributo es ID de empleado, y los valores son
uno a ocho, ¿verdad? Y este colon es el lado
izquierdo del colon. Estos colonos que separan la clave y el valor son
atributo y valor. Por lo que lado izquierdo de las colonias, identificación de
empleado y el
lado derecho es el valor correspondiente. De la misma manera tenemos
empleado subrayado nombre, eso es un atributo y
todos los nombres de los empleados, esta Priyanka va a estar
correspondiendo a esto implica cualquiera o sentarse
los dos últimos son me gusta React todavía
hay partes
uno a cuatro a mi prisa por lo que
estás viendo así. Bien, entonces estamos almacenando
la matriz salarial, luego estamos almacenando
el entrenamiento de datos en él y luego departamento en él. De esta manera, en el departamento, podemos poner datos en el archivo JSON y he guardado este Azure
detalles del empleado punto JSON. Ahora sabemos cómo almacenamos
los datos en archivo JSON. Entonces lo siguiente es que
vamos a tratar de leer esto, en los datos de archivo
a través de nuestra programación. Entonces hagámoslo. Entonces voy a abrir,
ya he escrito el código. Entonces voy a abrir ese
archivo JSON de lectura que he escrito. Y para ello, necesitamos
instalar el paquete. Nuestros invitados en esto, en este back-end
Ministro instalado. O puedes instalarlo
ejecutando esta línea de código. Y puedes venir al paquete
de instalación. Y puedes poner
aquí o éste. Y puedes hacer click en el Instalar y se
instalará. Así que también puedes usar este script de
comandos. Entonces necesitamos usar la
biblioteca o el axón. Y luego tenemos que proporcionar
el nombre del archivo JSON. Y el nombre del archivo JSON es
detalles del empleado hacia el Sol. Y aquí vamos a usar una función de esta
biblioteca son Jason, Eso es de Jason. Significa que vamos a
leer los objetos a partir de nuestros datos, desde los detalles del empleado
punto js en este archivo JSON, archivo igual al
nombre final que necesitas proporcionar. Y esto de la función JSON
leerá los datos de
este archivo JSON y lo que sea que lea
realmente almacenados
en este objeto E&P
subrayado detalles. Entonces simplemente lo imprimiremos. Entonces déjame mostrarte aquí. Déjame ejecutar esto y ver aquí está leyendo los
datos como identificación de empleado, uno a ocho nombres de empleados. Estos son los empleados
nombrados que el salario, y luego viene la fecha de ingreso y luego
los departamentos. Así que mira aquí cómo vivimos con una línea de código de una
sola función simple. Y solo estamos
proporcionando el nombre del archivo y está leyendo todos los datos
del archivo JSON. Lo siguiente es ahora
con este fin de semana. Imprime los datos. Entonces podemos ver aquí se está imprimiendo los datos
del archivo JSON. Ahora, como sabemos en nuestro, es bastante fácil y
es bastante recomendable obtener los datos en
un formato DataFrame. Así que podemos simplemente ahora los datos del archivo JSON están en este objeto en los detalles de
subrayado de E&P, podemos
convertirlo en el DataFrame mediante uso de un marco de puntos de datos oscuros ágil. Así que cuando usamos esta función como.data.frame y
pasamos este objeto con apenas conseguir más viejos
los documentos de archivo o los datos. Este objeto está obteniendo todos los detalles de
este archivo JSON. Y cuando pasemos este objeto minorista empleado
al como.data.frame, convertirá estos datos. Ahora el formato es así. Tomará estos datos
y los convertirá en un DataFrame en R. Y estamos restaurando que
detalla nuestro DataFrame en E&P underscore data
underscore frame. Y cuando imprimimos esto obtendrá los datos en un formato DataFrame. Entonces déjame dirigir esto. Mira aquí ahora estamos
obteniendo datos en nuestro formato DataFrame
en R. Así que es bastante sencillo que
podamos leer ese archivo
JSON con la función
from JSON. Y luego simplemente
pasamos este objeto, que es obtener todos
los detalles de los detalles del empleado o del
sol y convertirlo en el DataFrame usando esta sencilla función
como.data.frame y pasando este objeto. Lo que este objeto JSON, o un objeto Python que está llevando los datos
del archivo JSON, un DataFrame en R. Y simplemente
podemos imprimir esa mano CEO, qué hermoso se está
transformando en un DataFrame. Así que de esta manera podemos, podemos leer nuestro
archivo JSON y convertir los datos de
ese archivo JSON en un
DataFrame en programación R. Y para eso, podemos
usar este DataFrame para analizar los datos y
hacer un mayor procesamiento, estamos creando gráficas y
todo lo que quieras
hacer lo puedes hacer con
este DataFrame. Entonces así es como podemos leer el archivo JSON usando
nuestra programación. Nos vemos dentro de la siguiente conferencia.
28. Crear un gráfico de barras: Hola y bienvenidos de nuevo. Entonces en esta conferencia
vamos a aprender sobre otro gráfico de visualización o
gráfico que podemos
crear usando R. Y eso es gráfico de barras
o un gráfico de barras, como se puede ver, gráfico de barras. trazado de barras o un gráfico de barras o El trazado de barras o un gráfico de barras o
un gráfico de barras es uno de los tipos de visualización
gráfica más comunes que debes haber visto en tu oficina o en
tus proyectos y todo. Siempre que intentamos visualizar
algo pronosticando, lo
usamos gráfico de barras. Y cuando veas este gráfico, este es un gráfico de barras. Y te darás cuenta de
que debes haberlo usado muchas,
muchas veces, ¿verdad? También podríamos obtener el mismo tipo de gráfico de barras en nuestro
Microsoft Excel. Y cuando tratamos de
visualizar algo, incluso cuando dibujamos algo
en una pluma y papel. Para visualizar algo,
lo más probable es que dibujemos gráfico de barras. Así que barplot es uno de los tipos más comunes de visualización
gráfica. Y es hacia la
relación entre una variable numérica y
categórica. Entonces, ¿qué significa? Significa que el CEO, el a, B, C, D, este eje x será como algo que va a ser
muy categórico como. Ahora bien, ¿cómo son las
semanas o los días en una semana? Al igual que el domingo, lunes,
martes, nuestro enero ,
febrero, marzo, abril,
mayo, junio, así. Y este eje y será la representación numérica
para estos meses, como ingresos de una organización
o salario de empleados. Entonces este eje x, ABC
serán los empleados, y este será ese
su salario respectivo. Entonces este exceso leerá la parte numérica
y esta será la parte categórica, ¿verdad? Entonces cada entidad de la variable de categoría se
representa como una barra. Entonces este es el bar. Y por eso se
llama gráfico de barras, porque el valor numérico
se está mostrando como una barra. Así que eso es genial, se conoce como el gráfico de barras y tamaño de la batería
presentan el valor numérico. Entonces este tamaño se representa como este es
en algún lugar alrededor volteando. Esto es en algún lugar alrededor de 13, Esto es en algún lugar alrededor de las siete, y esto es en algún lugar solo, nueve, y esto es alguna decisión. Entonces el valor E es 15, el valor
b es siete, valor
c es nueve, el valor es ocho. Y este valor e es 13. Así que así. Este tamaño de cuerpo representará ese valor
numérico. Si ABC o empleado, estos son sus respectivos
salarios, ¿verdad? Así que de esta manera podemos usar
el gráfico de barras y en R
podemos dibujar gráfico de barras simplemente
usando la función de gráfico de barras. Así función de trazado de barras. Y dentro de la función solo
proporcionaremos algunos, pero amateurs y nuestros datos. Y creará la gráfica de barras, esta función de gráfico de barras
para crear gráficos de barras. Puede ser tanto barras verticales
como horizontales. Y la sintaxis es barplot y
tomará el argumento th. Estos bordes serán el
vector, vector de datos. El vector que
contendrá todos los datos. Y este xlab es eje X, Y es eje y, así, a, B, a, a, B, C, D será el eje x, xlab e y será el
eje y, este principal. Y entonces el nombre
buey será el, ¿
verá qué es esto? Esto es, esto será
como nombrar así. 123, como déjame decirte esto. Este cero a 14, como el
salario del empleado será el dato. Y estos nombres que son
serán el nombre de los implica. ¿Bien? Entonces este borde
y el nombre comienzan tanto los vectores para tener ese mismo número
de datos, ¿verdad? El mismo número de operadores de
números de datos
sería el mismo en el borde llamado start. Ok, bien. Veremos que HE, el vector o matriz que contiene el valor numérico
del gráfico de barras. Como dije, xlab es
el nivel del eje x. ¿Por qué el amor es el nivel del eje y? Y principalmente el título del autobús. Entonces aquí con esto
dará el título
del gráfico de barras como salario del
empleado. Y luego llamado inicio argumenta un vector arriba nombres apareciendo
otro cada parte, como dije, para esta barra, esta barra b así. ¿Bien? Y la llamada
se utiliza para mantener los colores a las barras como aquí nos dan
diferentes colores. Entonces, si quieres hacer
un gráfico colorido, usamos la llamada. Argumento, bien,
Henry, más allá de eso. Bien. Entonces aquí hay un ejemplo
sencillo. Lo que estoy haciendo
aquí. Estoy creando un nuevo vector y
contendrá esto, estos
muchos números. ¿Bien? Entonces este vector contendrá tantos
números, ¿de acuerdo? Y quiero crear
un gráfico para esto. Entonces lo que voy a hacer, simplemente
voy a
crear este vector Q y voy a pasar esta función de gráfico de
dos barras del vector Q. Y va a crear
el gráfico de barras para nosotros. Y éste,
archivo PNG igual a b, no un PNG igual
al nombre del archivo. Puede crear un archivo de imagen
hasta el gráfico o gráfico de barras, y puede
guardarlo en su sistema. Y para eso, usamos
la función PNG. Y dentro de eso
usaremos el archivo Col2 y cualquier nombre del archivo quieras dar que
puedas dar aquí. Por lo que en base a estos datos
o carta se
crearán y los datos
del gráfico se guardarán en
este archivo de imagen. Y luego usaremos la función de gráfico de
barras para dibujar el gráfico de barras por nosotros. Y luego dev.off
significa que guardaremos el archivo y se
escribirá en nuestra máquina local. Entonces vayamos al RStudio
y ejecutemos este código. Entonces aquí estoy creando un
vector para la entrada de datos. Entonces, en base a estos datos, se creará
el gráfico de barras. Ahora estoy creando un archivo para
escribir el gráfico de barras sobre eso. Estoy dando archivo PNG igual a y aquí
se puede dar cualquier nombre. Puedes dar abc, abcd, no PNG, el nombre que
quieras, puedes, ¿de acuerdo? Entonces voy a dar un gráfico de barras a, b, c, d, ¿de acuerdo? Y luego usaremos el
gráfico de barras para crear un gráfico de barras, y luego lo guardaremos, derecho, dev.off, guardaremos el archivo. Ahora voy a correr todo el asunto y ver si por alguna extraña razón la trama no
se vende aquí. Pero como ven aquí,
ahora, nuestro gráfico de barras
ha sido creado. El archivo ha sido creado aquí. Nos vemos. Entonces bien, 12345678 entradas, ¿verdad? Y aquí tenemos 12345678. El más largo es de
9,001.99 mil. Así que de esta manera podemos
darte un gráfico de barras dobles. Entonces este es un simple gráfico de
barras que hemos creado en base a
estos datos, ¿verdad? Lo siguiente que podemos hacer, podemos ir un poco
más allá e
intentar crear un poco
más interesante. Voy a tener, entonces
lo que he hecho aquí, he creado un dato como B, un vector o un dato
que esté conteniendo los bebés nacidos en
cada mes como B contendrá el vector V
contendrá a los bebés nacidos en mes como
enero 5.600, febrero a marzo, 7.800 bebés nacidos
así hasta el verano. Bien. Entonces este es el dato de 12 meses para los bebés nacidos en
un mes en particular. Y entonces, entonces este es
el valor numérico. Y, y lo que estoy haciendo, estoy creando otro vector M, que contendrá el nombre del
mes, correcto, para cada valor, el vector de nombre de
mes correspondiente estoy creando que es enero, febrero, diciembre
contendrá, bien, Así que esto está claro. Estoy creando el
valor numérico aquí y el nombre para cada barra que estoy creando aquí para enero
factorial 600 así. ¿Bien? Entonces estoy creando un archivo, bebés nacidos punto PNG. Y estoy pasando ese
objetivo final a puntear la función PNG. Bien, colectando
diagrama de conductos, nombre del archivo de imagen. Y luego lo que estoy haciendo, simplemente
estoy trazando el
gráfico de barras basado en estos datos. ¿Bien? Entonces, lo que estoy haciendo, me veo obligado a trasladar el valor V. Entonces estoy ingresando los datos
como basados en estos datos, quiero crear un gráfico de
barras, ¿de acuerdo? Y luego nombre.org significa para nombrar el cada barra estoy
pasando este vector m. El vector M se dispersa en
enero, febrero. Por lo que el eje x será
enero, febrero, y el eje y será el número de bebés nacidos
en un mes en particular. Después xlab, les estoy
dando mes. Y y laboratorio, estoy dando bonos a
los bebés en ese mes. Entonces color le estoy dando verde. Y principal significa el
golpeo del gráfico. Le estoy dando carta de bonos a bebés. Y luego para cada barra. Estoy dando un bajo, bien, y luego estoy guardando el archivo. Entonces déjame dirigir esto. Bien, así que lo he
hecho correctamente. Veamos que el mayor, ahora tenemos otro expediente. Nace bebé punto PNG. Ahora. Tenemos este enero, febrero, marzo, abril,
mayo, junio, julio. Fue así. Y entonces aquí tenemos los
maybes bond data lake enero, en algún lugar alrededor de 5,000
algo bebés nacidos
en febrero en algún lugar para diluir,
algo así. Bien. Así que la mayor cantidad de bebés nacen
en noviembre y después julio. Esa es la, al ver
este gráfico de barras, podemos llegar a conocer esa norma. ¿Cuál es el mes en nace la
mayor cantidad de bebés y después de eso? Julio. Entonces julio y número, primer número y
luego segundo es julio. Consulta aquí para 7 mil 304 de julio. Ahora en amigo 9,800. Empecé el 9 de julio mil
y el número 9,800. Así que de esta manera podemos
darme el apoyo. Quiero cambiar
este color a rojo. Y si ejecuto esto, vea ahora nuestro gráfico se
convierte a leer, ¿verdad? Se puede ver que hay un pequeño
borde con color amarillo. Déjame cambiarlo a
verde para que podamos ver que puede ser temprano o hacerlo
limpio y ejecutarlo de nuevo. Este archivo, ver, ahora
viene limpio. El Barnard es verde. Así que de esta manera podemos crear un gráfico de barras o un
gráfico de barras usando impar. Entonces espero que quede claro para el numérico y para
el nombre, nombre.org. Estoy pasando este vector m, este vector m y B y mandando
otro vector de entrada principal. Y luego xlab, mes. Y por qué los bebés de laboratorio nacidos y
de color rojo pueden ser descargados. Golpear es carta de nacimiento del bebé
y el biberón es verde. Entonces dev.off guardará el
archivo en nuestra máquina local. Entonces espero que quede claro cómo podemos crear un gráfico de
barras simple y cómo
podemos crear este
tipo de gráficos de barras. Entonces hemos visto como
hemos creado esto. Y luego tenemos a
James para leer, escribir, y también hemos creado
este sencillo gráfico de barras. Así que de esta manera podemos crear
un gráfico de barras, ¿verdad? Nos vemos dentro de la siguiente conferencia.
29. Gráfico de barras apiladas: Hola y bienvenidos de nuevo. Entonces en esta conferencia
vamos a sacar, vamos a visualizar una trama de bar muy interesante que nos dará una
muy buena riqueza real. ¿Qué está pasando en una
organización como trimestral, cobraron región sabia? Cómo podemos trazar usando la gráfica de barras. Eso es lo que vamos a ver. Entonces para hacer eso, lo que he hecho, el
trimestral, el niño, lo que cada mes en realidad, lo que he hecho, he
creado una matriz, ¿bien? Entonces tengo todos estos ingresos que no he guardado
dentro de la matriz. Así que he creado una matriz con los ingresos desde hace cuatro meses. Cuarto uno, trimestre, dos, cuarto trimestre tres cuarto, trimestre, cuarto, cuarto, dos, trimestre, tres, cuarto cuarto. Entonces estos nichos lo que cada trimestre y cuatro
cuartos hay, ¿verdad? Entonces, para cada trimestre, estos son los ingresos. ¿Bien? Entonces he creado una matriz,
y lo que voy a hacer, pasaré esta matriz como dato de
entrada a nuestra gráfica de barras. Entonces estoy pasando la M aquí y luego el
principal ingreso total. Y luego llamado inicio en
trimestre, estoy pasando trimestre. Trimestre. Quarter es un vector
que contiene el valor Q1, Q2, Q3, Q4. ¿Bien? Entonces esta L barras también, nombre.org, y luego
xlab será cuarto, el nombre y las patas blancas. La vida silvestre será el ingreso. Y luego coloreado. Voy a pasar. Otro vector. Colores para los que quiero dibujar. El fondo
será como colorido. Una vez dibujado, te
explicaré cuatro colores. He creado un vector y
es valor continuo, azul, rosa, amarillo y verde. Y luego el trimestre.
Y luego lo que he hecho, he creado las regiones, regiones como este,
oeste, sur, norte. ¿Bien? Así que también tengo bien, y la matriz, qué tipo creó cuatro filas
y cuatro columnas. Y estoy arreglando desarrollado por el rock y
averiguaré lo que estoy haciendo por legión. Estoy agregando la leyenda
también arriba a la izquierda. Y lo que soy bastante indulgente
le estoy dando a su región
son colores llenos. Región ve esta región sur, este, oeste, sur, norte. Bien. Y me siento con los colores, cada
color también. Sí. Bien. Entonces déjame correr esto primero. Entonces mira aquí, esta
es la matriz y mira qué ingresos trimestrales. Entonces este tipo de gráfico de barras o parcela estamos llegando aquí
para el cuarto uno. Este es el trimestre TO, este es el resultado o conductor nuevo cuadrático tres este
y cuarto cuarto, esta cosa aquí, esta
azul, rosa, amarillo, y verde para estos colores, he creado un
teorema de leyenda y diciendo que el azul es para región Sur, amarillento para cada región. Y el verde es para la
región Oeste y no para la región rosada. Y el sur es azul, ¿así es amarillo? Bien, entonces al ver esta
gráfica o la gráfica de barras, podemos encontrar fácilmente
esos resultados trimestrales digitales para cada región. Sur. Este es el ingreso
para el trimestre uno para de la misma
manera para el Norte, este es el ingreso
para el oriente. Este es el ingreso
para el trimestre dos, trimestre, tres, trimestre,
cuatro así. Entonces es bastante fácil encontrar y visualizar cosas
usando la trama de barras, ¿verdad? Y cómo entonces que primero hemos creado
nuestro vector de color,
luego vector cuarto, y
luego vectores de región y luego reactivos que he
usado en la leyenda. Y las métricas se actualizaron
cuatro por cuatro. Bien. Y aquí estoy creando un archivo PNG de punto de ingresos
trimestrales. Y aquí estoy pasando
el trimestre, este trimestre como un
nombre y luego Nuevo, y estoy llenando los colores
sin pasar por el vector colores. Así que de esta manera podemos
conseguirlo Plate qué capas y usando nuestra gráfica de barras. ¿Bien? Así que también puedes jugar
con tus datos e intentar crear alguna trama de barras hermosa,
guapa y colorida. Stevens citó la siguiente conferencia.
30. Boxplot en R: Hola y bienvenidos de nuevo. Entonces en esta conferencia, vamos a aprender
sobre la trama de caja. La gráfica de caja es un método para representar
gráficamente grupos de datos numéricos
a través de sus mosaicos silenciosos. Te diré ¿qué
son estos cuartiles? Entonces es básicamente un
hijo gráfico de datos numéricos. Agrupar
datos numéricos como lo hacemos en una gráfica de barras y
todos de la misma manera. Boxplot también está ahí. Pero en esto, representamos
un grupo de datos en una caja. Entonces será tropical, pero será una caja mientras
te guste el gráfico de barras. Tenemos barras de los
datos y agrupamos una beta. Aquí. Tendremos el laboratorio, caja de
los
datos de Grubhub y las gráficas de caja son medidas de qué tan bien distribuidos en los
datos, en el conjunto de datos. Entonces, será
como un cuatro mayores. Lo que es que como
se
distribuirán los datos en ese
conjunto de datos, ¿verdad? Entonces ya veremos cuando
dibujemos el boxplot. Déjame decirte una cosa más. Las gráficas de caja son medidas de qué tan bien distribuidos si los
datos en el conjunto de datos, dividen los datos
en tres cuartiles. Entonces, ¿qué son estos cuartiles? Como se puede ver en esta imagen, que hay tres cuartiles. Uno es el cuartil uno
y el cuartil dos, y este es el cuartil tres. Y esta es la gama
intercuartil. Esta gráfica
representa el mínimo, mediana
máxima, el primer
cuartil y el tercer cuartil. Entonces esta parte C, esta es la caja de datos SAP, ¿de acuerdo? Y estos vientos son
valores atípicos este punto, y este punto es
que son son de clase, este es el valor atípico mínimo. Y este es el máximo
o resplandor, ¿verdad? Y entre esta caja y la línea azul
aquí está la mediana. Esta es la mediana de todo
el conjunto de datos. Entonces esta es la mediana, mediana del valor de todo
el conjunto de datos. Y estos son el valor mínimo de
clase antigua y el valor máximo. Y esta línea azul
es la mediana. Y este es el dato máximo
que está cerca de la mediana. Entonces esto, estos son otros datos
útiles en realidad. Entonces esto es mínimo,
esto es máximo. Y este es el, este
rango de año en año, este dato intercuartílico, y
este se conoce como Q1. Q1 cuartil, primer cuartil, y esto se conoce
como tercer cuartil. El primer cuartil, y el tercer cuartil
y primer cuartil, yo cesionario, percentil y tercer cuartil,
o cuartil 75. Y en R, utilizamos la función
boxplot para dibujar o para dibujar nuestra trama de caja. Y de esta manera proporcionar los incrementos
similares como datos X, no lo que con los nombres y Maine. Entonces te diré ¿qué
son estas cosas? Entonces X es un vector o fórmula. Entonces aquí x es un
vector de fórmulas. Entonces veremos que esto es
básicamente nos quedamos con Bu, cosas para liberar que
son fórmula relacional sobre la
que se
va a dibujar la trama de caja. Y luego los datos,
obviamente los datos de los que vamos a dibujar
esta relación, edX, escriben la fórmula x Entonces esta es la fórmula o relación sobre la
que vamos a dibujar los datos y
este dibujar la gráfica. Y estos son los datos, datos
reales de los que
obtendremos esta
fórmula o un vector. Y notch es un valor lógico. Establecer como verdadero para dibujar nada
verá lo que no es en un poco. Primero, déjame decirte
el significado de esto. Aumentos. De qué se trata. Los valores lógicos establecen S2 para dibujar ancho de la caja proporcional
al tamaño de la muestra. Entonces agua con, si se establece
a través de esta caja el tamaño
será proporcional a todo
el conjunto de datos, tamaño de todo el conjunto de datos, ¿bien? Entonces, si no es cierto, no
será proporcional
a todo el conjunto de datos. ¿Bien? El siguiente es el nombre. Nombres es el grupo de etiquetas que se imprimirán
debajo de cada parcela de caja. Entonces esta es una trama de caja. Y para esto, si
quieres dar algún nombre, puedes dar eso a través
del argumento de los nombres. Y Maine obviamente
es el nombre de la Gráfica. Bien, entonces título de la gráfica
podemos dar con la media. Ahora viene lo que no es. Las muescas en los lados de la gráfica de caja
se pueden interpretar como una compañía y luego el intervalo
alrededor del valor medio. Y la altura de los
nazis tontos medianos más o -1.7 en IQR dividido
por raíz cuadrada de n, donde IQR es el rango
intercuartil. Hemos visto lo que es el rango
intercuartil. Entonces este es el rango
intercuartil entre el percentil 25 y 75. Esta es la gama
intercuartil. Entonces básicamente, este es el, ese es el valor n, ¿de acuerdo? Donde IQR es el rango
intercuartil definido por el percentil 25
y 75. Y Yan es el número de los puntos de
datos en el conjunto de datos. El número total de
puntos de datos en el conjunto de datos es N. Y puedes ver aquí esta es la gráfica de caja y esta es la salida atípica,
máxima. Este es el valor atípico mínimo, y este es el valor
medio, ¿verdad? Y este es el
percentil 25 o Q1, y este es el
percentil 75, es decir Q3. Y este valor, esta cosa, la novena y la no, esto se conoce como el
no este valor de aquí para aquí se conoce como notch. Notch es el
intervalo de confianza 795 de la mediana. ¿Bien? Entonces a partir de la mediana, esta es
la mediana y esta, y este valor
se conocerá como notch. ¿Bien? Entonces cuando pones
no igual a verdad, puedes ver esta
curva en esta cosa. Si pones notch
no igual a dos, vas a estar viendo una línea
recta aquí. Esto no, no va a estar ahí. ¿Bien? Entonces de esta manera, ver aquí
en esta muesca es falso. Entonces verás
como esta boxplot, y si pones no
igual a true, estarás obteniendo esta muesca. Bueno, significa que la mayor parte
de los datos aquí serán, estarán cerca de la
mediana y
será intervalo muy seguro de los datos como valor
medio es esto y este más y menos de
ellos medio como aquí. Los
puntos de datos concentrados estarán cerca de la mediana y representarán
esos datos verdaderos, ¿verdad? Entonces ahora tenemos la comprensión básica
de lo que es boxplot, qué es el título tranquilo,
¿qué son los valores atípicos? Y ¿cuál es el cuartil mínimo y qué son los cuartiles máximos? ¿Qué es el rango intercuartílico? ¿Y qué es Q1? Percentil 25, y Q3 es
el cuartil 75, ¿de acuerdo? Y este es el valor medio. Entonces veremos en la próxima
conferencia cómo podemos dibujar un boxplot basado en los datos que tenemos
en nuestra Estelle Blake,
vamos a usar mt cars, vamos a usar mt cars, que es un conjunto de datos real
que está disponible dentro del paquete de autos o
la ADA dentro del
plato de arte para restablecerse. Y usaremos ese conjunto de datos de
autos vacíos para dibujar la gráfica de caja basada en el MPT y el
número de cilindros. Entonces te veré dentro de
la próxima conferencia.
31. Boxlot con un conjunto de datos de mtcars: Hola y bienvenidos de nuevo. En
esta conferencia vamos a dibujar una trama de caja, ¿de acuerdo? Y vamos a usar un conjunto de datos de autos
vacíos que ya
está disponible
en nuestra distribución. Entonces sabemos que necesitamos
descargar este conjunto de datos. Ya está incorporado en nuestro entorno
o nuestra distribución. Entonces podemos
usar eso directamente e intentamos presentar esos datos de
autos vacíos en una parcela de caja. Bien, entonces veamos
cómo podemos hacer eso. Entonces primero, déjame mostrarte
lo que hay en esa caja. ¿Qué es eso en los autos vacíos? Entonces primero déjame pagar para
acceder al Voy a crear una entrada de datos y autos
vacíos que ya están disponibles dentro
del interior aunque. Impares y uno significó. Y lo que voy a hacer, voy a tratar de ejecutar esto
y ver qué hay ahí. Déjame imprimirlo. Aquí. El auto vacío, nuestro conjunto de datos y enfermedad teniendo como
una computadora portátil guarda que Martha exporta el tablero
1017 ordenada para Dr. Riley y el equipo de
investigación de escritorio deben ciudades y todas estas tarjetas, detalles están ahí como
millas por galón. ¿Qué es la mielina? Cada
auto millas por galón. Y luego el número
de cilindros, los motores del motor tendrán
el número de cilindros, como consiguió 2468, número de
cilindros en el motor. Y luego desplazamiento, HP. ¿Cuál es el punto de acceso y el peso de
arrastre de los autos? Todos esos parámetros
se dan aquí en estos datos que son autos vacíos. Entonces lo que voy a usar, no
voy a usar todo
el conjunto de datos. Voy a usar C, D y E. Obtengo una Lee millas por galón
y número de cilindros. Bien. Entonces para eso, qué voy a hacer. Bien, Entonces usemos estos 2 mi por galón
n número de cilindro. ¿Bien? Y lo que voy a hacer, voy a imprimir y luego
voy a la cabeza enorme. Y luego paso estas entradas de
datos para que
podamos ver lo que viene. Déjame correr estas
dos líneas y ver. Ahora estamos metiendo los
autos y su kilometraje, millas por galón y número
de cilindros en eso. Están en la cárcel. Entonces estos dos detalles los estoy
obteniendo con esto, bien, así que ahora voy a
usar esta entrada de datos, que llevará las millas por galón y número de cilindro arriba. Y voy a tratar de
dibujar nuestra trama de caja. Bien, entonces
lo primero que voy a hacer, voy a crear un archivo PNG
para almacenar la gráfica en un archivo y tenía archivo enorme
igual a Allen le dio algún nombre como autos vacíos, cuadro plot punto PNG. Bien. Entonces voy a dar el nombre del archivo como autos
vacíos caja parcela punto PNG. Y entonces ahora lo que voy a hacer, voy a tratar de dibujar el boxplot y para la
dieta y perder boxplot. Y aquí lo que voy a hacer, voy a dar dos millas MPG por galón con el
número de cilindros. Bien. Entonces voy a
dibujar voy a Crear un diagrama de caja entre estos mpg y número
de cilindros. ¿Bien? Y luego lo que voy a dar, voy a dar datos de acuerdo a esta entrada de datos,
nuestros autos vacíos. Entonces voy a mantener los datos
iguales a los autos vacíos. ¿Correcto? Entonces. Lo que necesitamos conservar A continuación, necesitamos obtener el xlab. ¿Qué se hará?
¿Qué queremos escribir? Escribirá X Lab
número de cilindros. ¿Y por qué el laboratorio será blanco? El laboratorio será mpg
millas por galón. Bien. Entonces lo siguiente,
lo que guardaremos,
mantendremos principal igual
a mis pequeños datos. Datos. Más duro dará
tarjetas mielinizado. Bien. Después guardaremos el archivo. Bien, dev.off. Bien. Entonces lo que estamos
haciendo aquí estamos,
estamos creando una parcela de caja, mpg y número
épsilon n al auto,
y estamos usando el conjunto de datos autos vacíos
y el eje x se numerará hacia arriba cilindro y el eje y
será millas por galón. Y el nombre de la gráfica
serán autos, datos de kilometraje. ¿Bien? Y déjeme dirigir esto. Bien. Bien. Entonces esta es nuestra trama, la trama de caja que hemos dibujado. Vendrá aquí. Ahora el rubro es el nombre de la tabla es datos de kilometraje del auto. Y este es el número
de 468 esbeltos, y esto es millas por galón. Y la gráfica de caja de datos. ¿Bien? Así que de esta manera podemos dibujar sin embargo, podemos hacer parcelas de caja. Si quieres entender una vez
más, te lo diré. Lo que hemos hecho es sencillo. Tenemos, estamos utilizando datos de autos
vacíos, los cuales ya están
disponibles en nuestra, nuestra distribución, por lo que no
necesitamos crearlos ni descargarlos. Ya está
incorporado en el medio ambiente. Entonces estamos usando esto, toman o dos
autos vacíos significa que
vamos a usar este conjunto de datos de autos
vacíos, que está teniendo toda
esta información sobre los autos, diferentes autos. Y luego lo que estoy haciendo, estoy usando una parcela de caja y estoy
dibujando la parcela de caja entre este cilindro número arriba y kilometraje por galón
para cada auto. ¿Bien? Y estoy usando datos
y pre-comps. Y para x, x es, estoy usando el número épsilon
ahí y el eje y mpg, ¿bien? Y luego el nombre
de la gráfica estoy dando mis datos en vivo
y luego estoy escribiendo ese archivo debido a algunos
trajes en mis auditorías que hacer. No puedo ver
las parcelas aquí. Y por eso lo que he hecho. Lo he escrito al archivo carro
vacío, boxplot punto PNG. Y podemos ver el archivo aquí. Entonces esta es la gráfica de caja
y esta es la mediana. Esta es la mediana, ¿verdad? Y esta es la salida mínima. Y ese es el
máximo o mínimo. Y es Adam. Sin valor medio para
el número de vendedores. Así motor de cuatro cilindros. Mis lentes aquí y el
kilometraje medio es algo aproximadamente 26, 27 mi por galón o
número de cilindros seis. Está llegando alrededor de 20, 20 millas por galón y
número de cilindro, si es ocho,
la mielina alrededor 15 galones por 15 mi
por galón, ¿verdad? Así que de esta manera podemos dibujar una
parcela de caja de los autos vacíos. Nos vemos dentro de la siguiente conferencia.
32. Boxplot con muesca: Hola y bienvenidos de nuevo. Así que en la conferencia anterior
hemos visto cómo podemos dibujar nuestra trama de cajas utilizando el conjunto de datos de autos
vacíos. Y en base a este
número hasta cilindro y kilometraje por galón. Así que en base a estos dos parámetros no
son dish dos características
de este conjunto de datos. Hemos dibujado la trama de caja y hemos visto cómo se ve
la trama de caja. Entonces autos, datos de kilometraje aquí, mpg y número hasta cilindro
46 8 mi por galón. Sí, 15 2025. Y esta línea negra es
la mediana de cada grupo. ¿Bien? Entonces autos de cuatro cilindros, autos de
seis cilindros
y uno de cilindros. Ahora, en realidad podemos dibujar
la misma trama de caja con no. Entonces hemos visto lo que no lo es. Ahora. Ya veremos como no. Si ponemos notch llamado un
verdadero cómo va a
cambiar esta boxplot y NADH se usa para dibujar, como te dirá
cómo se relaciona
la mediana de cada grupo entre sí, ¿verdad? Cómo las medianas son diferentes
grupos coinciden entre sí. Bien, así que hagámoslo. Y también veremos, también
intentaremos
poner algunos colores en esta gráfica boxplot para que
quede bien, ¿de acuerdo? Y también vamos
a tratar de nombrar este eje x. Bien, así que hagámoslo. Entonces primero lo
primero, lo que voy a hacer, voy a cambiar este nombre
a boxplot width. No. Bien. Y entonces lo que voy a hacer, simplemente
voy a poner no igual a, perdón, no igual a verdad. Y ahora, déjame dirigir esto. Ahora déjame ir aquí. Mira aquí, tenemos, así que nuestra gráfica era así. Ahora bien, cuando pongo
no igual a verdad, nuestra gráfica ha cambiado a esto. Y mira, ya sabes, esta es la mediana de
cada una de las gráficas, ¿verdad? Cada uno de los conjuntos de datos
en cada uno del grupo, como cuatro cilindros,
seis cilindros. Y cómo
se relacionan estas medianas son diferentes
entre sí, cómo coinciden entre sí. Sin embargo, vea la mediana. Cómo van estas
cosas, vienen los nazis por
cada uno de estos grupos. Ahora, déjame poner algo de
color en las deudas. Entonces lo que voy a hacer, voy a enorme. Y luego pongo rector y
escucho qué algoritmo le das. Rojo, verde, amarillo. Ahora estoy dando tres colores. Rojo, verde, amarillo, amarillo. Y déjeme dirigir esto. Déjame ponerle algún nombre
María Callas al hockey. Entonces eso tendrá las diferentes, diferentes gráficas, imágenes. Ahora podemos tener diferentes colores para
diferentes grupos o cajas. Y antes era así, sin color y
sin colores de ancho de muesca, muesca, ancho de muesca. Bien. Ahora, déjenme dar
algunos nombres aquí. Bien. Entonces aquí, los kilometraje. Tarifa alta para autos de cuatro
cilindros, kilometraje es alto
para seis cilindros, mediano, y para el cilindro, esta ley dará los nombres
alto, medio y bajo. Para que cuando veamos ahora
boxplot, entendimos,
entenderemos que este es el auto promedio alto y este es medio y esto
es gasolina de bajo kilometraje. ¿Bien? Así que eso es genial. Nombres hotel dan alto, medio, bajo. Bien. Déjame dirigir esto. Entonces nos vemos y ahora
en vez de 46.8, tenemos alta, media y baja. Así que así podemos, ¿verdad? Y si
quieres más específico, puedes poner como
porcelana tan alta, algo así para que
quede más claro. Excelente, medio, bajo, así. Bien. Bien. Entonces de esta manera
también lo puedes poner. Entonces espero que llegues a entender
cómo puedes poner boxplots. Entonces también intentas
verte en la siguiente conferencia.
33. Histograma y distribución de Histogramas: Hola y bienvenidos de nuevo. En esta conferencia vamos
a aprender sobre histogramas. Entonces veremos cuál
es nuestro histograma. Y también veremos los tipos de histogramas y cómo podemos dibujar sobre cómo podemos poner histograma en base a nuestros
datos en nuestra temporada táctica. Bien, entonces aquí veremos la parte de teoría y
aprenderemos qué es el histograma. Entonces déjame decirte. Un histograma no es una presentación
apropiada de la distribución
de datos numéricos. Entonces es básicamente un gráfico
como gráfico de barras o
gráfico de barras que hemos visto. Simplemente parecía tipo de distribución representar esta distribución
de datos numéricos. Entonces básicamente, si
tienes datos numéricos, puedes dibujar una gráfica o una
gráfica o Brad y el histograma es una
representación muy apropiada de la distribución
de los datos numéricos. Entonces básicamente se usa ¿qué? Los datos numéricos, y que los datos
numéricos deben ser naturaleza
continua la
mayoría de las veces, fueron introducidos
por primera vez por Karl Pearson. Entonces Karl Pearson ha
introducido el histograma. Otra forma de decir histograma, como otra definición
de histograma es una visualización gráfica de Brita usando partes de
diferentes alturas. En un gráfico de barras, hemos visto que el autobús murió de la misma manera. histograma también es una visualización
gráfica de datos utilizando barras sub
diferentes alturas. Es similar a un gráfico de barras o histograma agrupa los
números en rangos. Entonces, si ves gráfico de barras, no
se agrupa los datos en el rango como diez
a 2020 a 30. No se encargará. No agrupará los datos, pero en el histograma, agrupará los
datos en los rangos. Y luego
pondrá en los rangos el gráfico de
barras, gráfico de barras con números
. Agrupar números en los rangos
te dará un histograma. Entonces espero que el panorama
se esté aclarando. Veremos las imágenes también. Veremos la
representación real de cómo el gráfico de barras es
diferente del histograma. Entonces aquí es bueno
señalar ese gráfico de barras más agrupar
los datos numéricos en rangos, como si tuvieras datos 10-100. Por lo que va a crear las barras. Y con eso, también
organizará los datos 10-2020 a
30 en los grupos. Y va a crear caminos. Entonces será un histograma, la altura de cada barra vendida, cuántos caen dentro de ese rango. Entonces básicamente
te dará una idea de que 10-20, ¿cuántos números hay? ¿Cuántos apoyos? Si estás mirando el
salario de las personas. Entonces te dirá
como diez a 20, ¿cuántas personas hay? ¿Cuántas personas
hay así? Bien. Crear un soleado histórico, crear un histograma proporciona una representación visual de la distribución
de datos. El histograma puede mostrar
gran cantidad de datos y la frecuencia
de los valores de datos. Entonces, como lo que hace, agrupará los
datos en los rangos. Por lo que te dará la
frecuencia como diez a 20. ¿Cuántos? Por lo que también te dará
la frecuencia, soportará un valor de datos particular. Te dirá cuántas
veces está ocurriendo, la frecuencia de
los valores de datos, la mediana y la
distribución de los datos pueden ser determinados
por tu histograma. Entonces, la mediana y la
distribución de los datos también se pueden
determinar por histograma. Además, puede resolver
cualquier valor atípico son lagunas
en los soportes de datos. Tenemos los datos 10-140 a 50. No tenemos ningún valor. Entonces
te dirá que de 40 a 50, no te mostrará el bar. Entonces con la
representación gráfica, puedes encontrar, bien, 40 a 50, no
tenemos ningún empleado. Por lo que te mostrará
la brecha en los datos, y también
te mostrará el valor atípico. Supongamos que tienes como
diez a 100 y luego tienes otra barra
que viene de 17180. Entonces todos los
bloques de datos tenderán a 100 y otra
gráfica está muy lejos. Está mostrando 171-81-7180 rangos y un valor atípico que fácilmente
podemos identificar
mirando el histograma. Entonces histograma, o gran manera de
resolver esto sacude datos
continuos, continuos que te
dije antes, como la altura y el
peso si quieres. Entonces el histograma es el
más adecuado para ese tipo de radar. Entonces aquí tengo. Entonces solo te estoy mostrando
cómo puedes diferenciar el gráfico de
barras y los histogramas. Entonces nos vemos en el
histograma no hay hueco. Es una muy continua, como 468 hasta 24. La barra empieza a entrar. Aquí puedes ver la diferencia entre
histogramas y gráficos de barras. Entonces aquí se puede
ver el histograma, es muy continuo así. Ignora las brechas entre
las barras aquí mismo, el gráfico de barras que puedes ver te está mostrando
lo
diferente como enero, febrero, marzo, y
hay una brecha entre las barras. Entonces este es el principal
diferente que como en un histograma. Las barras estarán no
habrá hueco
entre las barras y el gráfico de barras tendrá
algunos huecos entre las barras. ¿Bien? Entonces esa es una
diferencia pictórica que
puedes encontrar entre los
histogramas y los gráficos de barras. Ahora viene el histograma de
distribución o ¿cuántos tipos de
histogramas hay? Distribución normal, se
puede ver así. Entonces, en una distribución normal, es probable que se produzcan
puntos en un lado del
promedio como en el otro lado
de la evidencia para
verte datos de este lado, lado
izquierdo, y en el
lado derecho son casi iguales, ¿verdad? Entonces esa es la distribución
normal. Y si vamos a la distribución
bimodal, te
arrojará en una distribución
bimodal. Hay dos picos, C-O, hay un pico, y hay otro pico. Hay dos picos en los datos. Por lo que este será bimodal en un dato de distribución
bimodal. Entonces nos separamos y analizamos como distribución
normal separada. Entonces esta es una distribución
normal y esta será otra distribución
normal. Y cuando dos
distribuciones normales
se junten, creará una distribución
bimodal. Esta es la
distribución normal y esta es la distribución bimodal. El tercer tipo de
distribución o histograma es una distribución
sesgada a la derecha. Lo que es
distribución sesgada derecha o histograma, o
distribución sesgada a la derecha también se llama distribución
sesgada positivamente. ¿Por qué se llama distribución
sesgada positivamente porque ve que los valores sesgados vienen en el lado derecho, cero a infinito, a la derecha? Entonces estos son los valores
positivos. Entonces, cuando está del lado derecho, los dos valores de empuje están sesgados. Lo hará, llamamos una distribución
sesgada a la derecha. En una distribución sesgada a la derecha, se produce
una gran cantidad de valores de datos en el lado izquierdo, con un número
menor de valores de datos
en el lado derecho. Mira aquí, en el lado izquierdo, hay
más valores de datos, y en el lado derecho, el número va disminuyendo, ¿de acuerdo? Bien, es distribución
sesgada uniformemente cuando los datos tienen un límite de rango en el lado izquierdo
del histograma, por ejemplo, límite de G. Y el siguiente es la distribución
sesgada a la izquierda. Aquí. La distribución sesgada izquierda también
se llama negativamente. ¿Por qué negativamente? Porque en el lado negativo se
está sesgando. En una
distribución sesgada izquierda son grandes. Número de valores de datos
que ocurren en el lado derecho. Por lo que el número va en aumento
de izquierda a derecha. Entonces, cuando nos estamos moviendo a la derecha, el número va en aumento ¿verdad? Y menos cantidad de valores de
datos debajo del lado
izquierdo o lado izquierdo es
menor valor que el lado derecho. Más valores es una distribución
sesgada a la izquierda. Y una
distribución sesgada a la derecha suele ocurrir cuando los datos
tienen un límite de rango. En el lado derecho
de este diagrama, e.g Límite, como
cientos. ¿Bien? Entonces estos son los cuatro
tipos de histogramas. Una es la distribución sesgada a la izquierda, luego hemos visto la distribución
sesgada a la derecha, luego la distribución bimodal, y luego la primera
es la distribución normal. Histograma. Ahora, ¿estás solo hist función
en la función de hist JIST
para crear histograma Y tomará
pocos parámetros o argumentos para dibujar un histograma. Bien, entonces eax es, ¿qué es X? X es un vector de valores para el
que el histograma es un gráfico. Entonces esta x es un vector
para el que queremos dibujar el histograma, el main, xlab y ylab. Principal. Principal. Principal es el título
para el histograma, y xlab son las etiquetas
del eje, bien. Como frecuencia o
cualquier otra cosa, si quieres portar. Y luego x, lima y salvajemente son los rangos de valores X e Y. ¿Bien? Y luego se rompe
Brexit vector único dando los puntos de ruptura entre las celdas del histograma
son función de vector
computacional puntos de ruptura en un solo número dando
las ventas de un histograma. Bien, ya veremos qué
se rompe en un detalle. Entonces tenemos el carbón que es color y luego tenemos
la frontera que ya conoces. Entonces en la siguiente conferencia veremos el ejemplo de cómo podemos usar la función hist para
dibujar nuestro histograma. Así que vamos a dibujar un histograma usando la función hash
en esa siguiente conferencia.
34. Histograma de dibujo con la función de los hist: Hola y bienvenidos de nuevo. Entonces en esta conferencia
vamos a escribir nuestro primer
programa para histograma. Entonces lo que vamos a hacer, vamos a crear un vector
que contendrá nuestros datos. Y luego con ese vector, vamos a
hacer un histograma. Vamos a trazar que
los datos tienen un histograma. Entonces comencemos con esto. Entonces lo que he hecho, ya
he creado un archivo punto R que es histograma punto R. Y
he escrito el código. Entonces te mostraré
cuál es el curso. Entonces ya he escrito el
código para que
podamos ahorrar tiempo
por escrito, bien, así sucesivamente. Lo que estoy haciendo, estoy creando datos
vectoriales para la gráfica. Entonces estoy creando los datos aquí. Entonces estoy creando, estoy creando un vector y estoy asignando
ese vector a x Así que x es n vector que
está conteniendo datos, lago para impresiones y 17,000, 3,006 más soporte externo. El salario pocos implica que estoy
almacenando en este vector x. entonces este vector X es nuestro dato y que está
conteniendo apoyo, el salario de los empleados. ¿Bien? Entonces este es el salario del implica propano
Tao Qian, así. Bien, Luego en algunos rangos
como preppy a 2050 a 60, 20 a 30, 40 P2P así. Bien, entonces ahora qué siguiente cosa, lo que este va a ser el ejemplo de
histograma muy simple. Bien, entonces ahora tenemos los datos. Quiero trazar un histograma. Entonces lo que voy a hacer, voy a crear archivo de imagen de
histograma foster. Así que voy a usar
la función PNG y vamos dar archivo igual a
histograma punto PNG. Y entonces lo que voy a hacer, voy a usar la
función hist que te
he dicho en la conferencia
anterior. Así que aquí estoy creando
el histograma, ¿de acuerdo? Entonces usaré la función hist
y voy a pasar esta x. ¿Qué es x? X son
los datos para los que vamos a
trazar el histograma. Bien, entonces estos valores
irán aquí con X. Entonces X es un
vector de datos, datos vectoriales. Entonces lo que estoy dando xlab
equivale a salario y luego color lo estoy dando como verde y el borde le
estoy dando amarillo. Así que todavía no estoy dando
demasiados parámetros. No estoy pasando
demasiados parámetros. Sí. Sólo xlab que
voy a dar sueldo, luego arriba color, voy a dar verde y la frontera,
voy a dar Eslovaquia. Y luego guardaré este archivo de imagen gráfica nuestro sistema que
es depth dot off. Bien, entonces antes de movernos, déjame establecer nuestro directorio
de trabajo. Entonces para hacer eso, lo que voy a hacer, y sin embargo lo que voy a
hacer, lo guardaré. Entra en este directorio. Y lo siguiente que voy a
hacer, iré a más. Y sin embargo lo que voy a hacer, voy a establecer directorio de trabajo. Bien, entonces ahora
guardaré este archivo. Entonces espero que los pasos
sean bastante sencillos. Estoy creando un vector
X con los datos. Entonces estoy dando usando la función
PNG para crear un archivo de imagen para
toda nuestra gráfica para
que podamos ver y
podamos utilizar. Y luego lo estoy guardando en nuestro archivo local por Deborah off. Bien. Y estoy usando hist
función a riñón hace histograma con los datos y pasando x vector aquí
y luego el x lab, estoy dando el nombre
sueldo y color verde y trueque
será color amarillo. Así que ahora he guardado, ahora he hecho así todo este archivo fuente. Haga clic en Fuente,
y esto está hecho. Lo siguiente, necesito
ir a la Unidad D, ir a nuestro 20 y ver aquí nuestro firewall
con la histona. Déjame verificar el nombre del archivo. La imagen final, esta gráfica
superior punto PNG. Y si él también, creo que este es el
nombre del archivo histograma gráfico PNG. Bien, así que esta es la forma en que
tengo mi borrar todos los demás
que he creado antes. Entonces ahora tenemos el
histograma de x. Y aquí lo que estamos creando, estoy dando el,
déjame quitar esto, borrar esto. Déjame ejecutar el programa otra vez. Déjame cambiar esto a rojo. Y la frontera
será el hockey amarillo. Déjame correr esto otra vez. Déjame ver si
el archivo en general para ver tu histograma. Esto es salario y
aquí frecuencia. Y luego aquí están los
rangos como diez a 2020 a 30,030 a 40,040,
2050 a 60,000. Entonces ahora se puede ver cómo el
histograma está siendo oscuro. Entonces diez a 20 mil, cuántos implica están
tratando salario 10-2123. Verifiquemos esto con los datos. Bien. Entonces vamos
a aquí, vamos aquí. 22 tienden a 2010 a 23, así que diez a 2012. Y luego tenemos otro, tú tienes una ventaja dos. White está haciendo. Bien.
Y entonces tenemos $20 o 2,000,017,000.15
mil. Entonces estos son los tres
implica dibujar tristemente 10-20. Por lo que está mostrando tienden a
2310 a 23 empleados. Entonces de esta manera dividirá
los datos en los rangos y los hará nuestros grupos
o de diez a 23 empleados, luego 20 a 32 implica menos
25 datos también. 20 a 31. Empezaron a ver de 20 a 30. Tenemos dos empleados. Bien. 25.020, 2000. Eso también es cierto. Totalmente. Después 30 a 42. Nuevamente, 30 a 42, 34, t1, y t2 uno. Bien. 30 a 40 también
a siguiente es de 40 a 50, solo hay un empleado ahí. Entonces veamos para T2, T4, T5. Y mira esto está
más que perfectamente bien. Entonces 40 a 50 solo uno implica
durante el siguiente es el último, T2s t Tenemos cuatro implica. Veamos eso más de 5012, luego tres, y luego cuatro. Entonces tenemos cuatro, ¿verdad? A ver, si hay que confiar en la
ciudad, tenemos cuatro implica. Entonces de esta manera agrupará los datos y
dirá la frecuencia. Al igual que si ves esto, puedes decir fácilmente ese
criptosistema más de 50,000 sueldo para empleados o
dibujar de diez a 23 empleados, 20 a 32 implica y 40 a 50, solo uno en precio ahí que
está recibiendo salario por P2P. Entonces de esta manera se
dibujará el histograma y agrupará los
datos en función de la frecuencia. ¿Bien? Definirá
un rango o Beta, y luego
te dirá la frecuencia de ocurrencia de los
datos en ese rango. Así ocurre de diez a 23, 20 a 32 trabajadores, 30 a 42 trabajadores, 40 a 52 de ocurrencia y luego se pone la placa de Petri t para agonista. Entonces lo hará, lo que hará, agrupará los datos en
pocos rangos y luego te
dirá la ocurrencia
de datos en esa tendencia. Entonces diez a 20, hay tres datos, 310 a 20 y es
Jacqueline tres veces. ¿Bien? Entonces de esta manera, así de esta manera
podemos decir que tres empleados
se están secando, tristemente 10-20. Entonces esta es la
significación del Histograma. Ok. Lo siguiente es lo que he hecho. He tomado nuestros
diferentes datos aquí. Soy lo que estoy usando,
114-567-8910. Bien. Entonces entonces lo mismo, estoy dando un archivo diferente gráfico de programa
embellecido, un punto PNG. Y aquí lo que estoy usando, x sin x, estoy pasando año. Solo los puntos de datos
son diferentes. Los valores de los datos son diferentes aquí. Bien. Y bastante simple
después, 114-567-8910. Bien. Y luego lo estoy
guardando para bien. Ejecutemos esto y veamos
qué estamos obteniendo. Entonces déjame encontrar el histograma
gráfico uno aquí. Ahora. Se trata de definir los datos. Me gusta de cero a dos. Cómo está definiendo
el rango es de cero a 22 a 44 a 64,628.8 a diez. Entonces g rho 22, ¿
cuántas ocurrencias? Dos ocurrencias que
así G fila dos a 11, estas dos son
menos de dos, ¿verdad? Entonces cero a dos para corregir. Lo siguiente es a dos por uno. Entonces dos a cuatro. Sólo cuatro ¿Hay uno? Después cuatro a seis a cuatro a 65.6 para escribir de seis a 8782 nuevamente, y luego 9108 a diez a 9.10. Entonces de esta manera está dividiendo
los datos en dos rangos, cero a dos, o dos a
44 a 66 a 8.8 a diez. Y luego nos está dando
la frecuencia de ocurrencia
de datos 0-22 dos veces dos a cuatro, una vez cuatro a seis. Repetir el precio, ¿de acuerdo? A ocurrencia de
valores 4-6, ¿verdad? Sí, 5.6. Entonces de esta manera también, puedes cambiar el
color desde aquí. Puedes hacerlo negro. Y saber que la gráfica
estará en el negro. Así que de esta manera podemos cambiar
el color hasta el histograma. Te veré en
la próxima conferencia. Estaremos viendo algunos otros
ejemplos de histograma.
35. Usar brotes de ylim en el histograma: Hola y bienvenidos de nuevo. Entonces, en la conferencia anterior, hemos visto cómo
dibujar un histograma. Hemos visto dos ejemplos,
dos datos diferentes. Así que hemos tomado un vector. Y luego en el segundo ejemplo, hemos tomado los datos
muy simples. Y ahora lo que vamos a hacer, vamos a
aprender a usar break, a usar limit, y,
limit y break bonds, estos tres parámetros
a la función hist para dibujar un histograma
con break y x limit. Bien, entonces he
escrito el código. Entonces primero, voy a usar el mismo vector donde
tenemos la sutilmente de tus persianas leyendo desde el origen de
preimpresión hasta 60,000. Entonces estoy creando un vector x que hemos hecho en
la conferencia anterior. Y luego estoy creando un archivo de destino donde
almaceno este histograma. Estoy usando la función p y g
y estoy dando finalmente Mises a Brex dot PNG To
con Brex dot PNG. Este será el nombre final
que se creará en el nombre del
archivo que se
creará en el que estará
nuestra gráfica, nuestro histograma
estará en dibujado, bien, y luego aquí con
la función hist, estoy creando el histograma. Entonces estoy pasando el
vector x aquí en los datos. Y luego le estoy dando
nombre xlab agrega peso y color. Estoy dando azul,
mano la frontera. Le voy a dar ese verde. Y luego x límite que estoy dando. Aquí, estoy usando un argumento
que es excelente. Los límites x. Para el eje x, le estoy dando
el límite cero a 40,000. Y vea que nuestros datos están conteniendo los valores 15-60 de
tolerancia están cubiertos. Los datos van más allá para t, Pero aquí estoy haciendo un ciclo, limitando que
los valores del eje x a cero a 40,000. ¿Bien? Y por qué extremidad
es GTO a diez. Bien, tan bueno, por qué eje será la frecuencia
de ocurrencia de los datos como cero a diez o cero a 20, lo que sea que creamos. Nuestra apertura implica un sueldo de
dibujo 0-2020 a 30 o 30 a 40, así. Bien. Para que esté levantando dedo del pie. Entonces y luego estoy usando
otro parámetro aquí, se rompe igual a dos. Entonces déjame primero que sea uno. ¿Bien? Entonces, lo que estoy haciendo,
le estoy dando al Brexit igual a uno. Veremos qué impacto está poniendo
este Brexit igual a uno
en nuestro histograma. Y luego estoy guardando el archivo. El histograma que se
generará guardará en este dedo del pie con el archivo PNG de punto Brex
para guardar eso en nuestro local, viéndolos usando db dot off. Con esto, se
guardará en nuestra máquina. Entonces ahora este es el código, código simple de una línea que estamos pasando algunos parámetros
con ladrillos. Xlim. Xlim, xlim está limitando los valores de
datos en el eje x, los límites y para el
eje y break entenderán cuando
ejecuto este código. Entonces estarás
entendiendo mejor cuando veas la salida. Y con esa visualización, entenderemos qué hace realmente
el Brexit. ¿Bien? Así que permítanme ejecutar esta
fuente mantener Fuente, haga clic en la fuente
y esto será así que permítanme abrir los archivos de salida. Así que aquí hay dos con el
archivo Brexit se ha creado. Déjalo abrir. Ahora el expediente, nuestros números
históricos. Entonces verás aquí, ya que he
dado descansos iguales a uno, estamos viendo solo
una barra grande, ¿verdad? cero a 40, y está mostrando 0248 empleadores están intentando
salario entre éste a 40. Déjame verificar eso. Ver aquí, tenemos total 10.12 3456, 1234, 5670, 2408. Pero tenemos una lista, 702, 40, supongo 123, 456.7. Todos los demás son más de 40, ¿verdad? 1234. Bien, entonces ahora podemos
ver esta gráfica. Déjame cambiar los ladrillos a dos. Entonces ahora verás que
habrá dos particiones. ¿Bien? Entonces déjenme, cuando vuelva a aparecer el archivo, ver aquí ahora tenemos cero a 40. 40 sueldo se ha
dividido en dos partes, cero a 20.22,
40, y luego 42 estado
mostrando por separado, ¿verdad? Entonces ahora todo el conjunto de datos
se ha dividido en tres, pero de cero a 40 desde aquí. Desde aquí hemos
comenzado cuando cero a 40. Entonces cero a 40 datos, cero a 40 datos se han
dividido en dos partes. Cheeto a 20.0 a 60, c, cero a 20.0 a 22 400,220.02, 400,223.22, 44
datos y 40 a 65. Bien. Entonces déjame
mostrarte la diferencia. Si pongo t cero a t
aquí, ¿qué va a pasar? Los datos de cero a 60 se
dividirán en dos partes. Déjame Así que vuelves
a abrir el archivo. Ahora, G cero a 60
se ha dividido en tres partes porque no
tenemos datos más allá de la seguridad. No está mostrando la
otra sino de cero a 60 deuda web. Tenemos datos. Por lo que los datos de toxicidad de Quito se
han dividido en tres partes. Entonces esta etapa, lo que rompe lo
hace x lim cero a 60. Si lo hago 50,
¿qué va a pasar? De cero a 50 datos se
dividirán en dos partes. Bien, déjame dirigir esto. Y así viste que puedes, déjame hacer clic en Fuente y
déjame ir al archivo
y abrirlo de nuevo. Ahora, J22 pocos datos previos se han
dividido en tres partes. Bien. Lo tengo. Cero a 2020 a 40, luego 40 a 60 se
junta, ¿verdad? Por lo que se está mostrando hasta 50. Bien. Si lo hago tres,
¿qué pasará? A ver. Déjame abrirla otra vez. Te veo atender a
2020 a 40.40 a 60. Déjame
Sigamos experimentando. Si lo hago cuatro,
¿qué va a pasar? Ver, ahora está mostrando
diez a 2020 a 30, 30 a 40, 40 a 50, y luego 50 a 60
serán separados. Entonces 12340250 los datos se han
dividido en cuatro, ¿verdad? Eso es lo que hemos
pedido por R2P, así que lo dividimos en cuatro. Si lo hago cero para suponer 32, 30 mil datos se
dividirán en cuatro partes. Así que permítanme abrir el archivo otra vez. Diez a 20.20 a 30, porque no tenemos
tantos datos, ¿verdad? Así que de diez
a 2020 a 30 y luego 30 y
más allá se ha dividido. Porque nosotros si yo también
lo hago, a ver. 30 datos se han
dividido en dos partes. El primero es 0220 y luego
20 a 40 y más allá, ¿verdad? Así que déjame sacar mi retrato
como G nada a T y dejar que haga para y vea. La salida. La seguridad de la puerta A2 se
ha
dividido en 1234 partes. Déjame volver a abrir el
archivo para ver el archivo objeto C y G, cero a 6110 a 2020 a 30, 30 a 40, 40 a 50 a 60. Bien, entonces esto es lo que
hacemos con los descansos. ¿Bien? Entonces esto es lo que x Lim
y salvajemente, salvajemente moles. Así puedes Nuestro CEO, mientras que la imagen haciéndolo está restringiendo la
frecuencia del eje y a cero a diez. Entonces, supongamos que si cambio eso, si cambio esto para apoyar a sus seis
únicos, ¿qué pasará? Déjame ejecutar esto y
abrir ese archivo actual. Ver aquí ahora estamos viendo
frecuencia cero a seis. ¿Bien? Así que de esta manera podemos
restringir el eje x y el
eje y donde se encuentra el xilema
y ampliamente soportado. Si lo hago Por
lo que va a pasar. Es bueno experimentar con
el código para ver la salida. Y cuando veas la salida, sabrás el uso real del parámetro C.
Obtienes un dos para, uno poco para él está bien. Si lo hago soportes, lo haré de cero a
dos. ¿Qué va a pasar? Ahora estoy cambiando el
eje y, la frecuencia. Ya veo,
ves, ya sabes,
va como esta. frecuencia alélica de ocurrencia total a la misma va a la derecha. Así que de esta manera, podemos
jugar con el código en cualquier lenguaje de
programación, bit R o Python o cualquier cosa. Si quieres aprender, tienes que empezar a jugar con el código y empezar a jugar
con los parámetros. Y si cambias el parámetro, verás el
impacto exacto de ese parámetro. Y en ese sentido, aprenderás mejor y
obtendrás las implicaciones, impacto
exacto de ese argumento en
particular, parámetro
particular en
una función en particular. Al igual que en su función, sabemos qué es x, qué es x lab, qué es el color, ¿qué es el borde? Que es x Lim. Hemos visto cómo xlim está
impactando el histograma, cómo el parámetro de miembro salvaje está
impactando el histograma y cómo los ladrillos están impactando el,
impactando el histograma. Entonces, cuando experimentas, cuando juegas con
el código y sus datos, obtendrás mejores conocimientos y una mejor comprensión
del código. Entonces espero que tengas que
entender qué es lo que está ligado al X , y se rompe y cómo
impactan en nuestro histograma. Entonces con eso, vamos a verle
dentro de la siguiente conferencia.
36. Tabla básica de la línea para las series de tiempo con ggplot2: Hola y bienvenidos de nuevo. Entonces en la
conferencia anterior hemos visto cómo dibujar un histograma. Ahora nos estamos moviendo a alguna gráfica
muy interesante. Puedes ver nuestro gráfico
básico de líneas. Y esto es muy importante porque esto va
a ser importante cuando aprendas más
sobre series temporales o problemas en tu viaje de
ciencia de datos. Y esto es, en esta conferencia
nos va a gustar ver cómo podemos dibujar un sencillo gráfico de líneas para nuestras series de tiempo
usando GG plot, que es un paquete en R.
Entonces, ¿qué es el tiempo desde entonces? Primero, tenemos que
entender eso. Entonces déjame llevarte a las definiciones básicas, muy básicas de
Wikipedia sobre series de tiempo. Una serie temporal es una
serie de puntos de datos. Entonces, básicamente, sus puntos de
datos de trabajo de CD indexados
están listados o agarrados. Por lo tanto, puede ser indexación de
la serie de puntos de datos, o puede ser levantar
series de puntos de datos, o puede ser una serie
de
representaciones gráficas de puntos de datos en orden de tiempo. Entonces puede ser cualquier
cosa menos nuestro orden de tiempo. Entonces una serie de puntos de datos
indexados en orden de tiempo. Eso significa que los puntos de datos
se basan en el tiempo, por lo que deben
construirse bajo el tiempo. Entonces cuando tenemos datos en los
que se basan, que se basan en el tiempo para un periodo de tiempo determinado o tiempo
particular
en Teach basado en el tiempo entonces esa
serie una Brita. Podemos, cuando trazamos, obtenemos una trama de serie temporal. Entonces Lee más común, o series de tiempo y secuencia
tomadas en un punto sucesivo, igualmente espaciado en el tiempo. ¿Qué significa? Las medias son series de
tiempo es una secuencia
que hemos bloqueado ¿verdad? Series temporales o secuencia de
puntos de datos indexados en orden temporal. Y más comúnmente
en series de tiempo es una secuencia tomada en
citas sucesivas, igualmente espaciadas en un tiempo. Supongamos en nuestra línea de tiempo, vamos a tomar puntos sucesivos, igualmente espaciados en
tiempos de todas las 0220 4 h, luego tomaremos de cero a
3 h que de tres a 6 h 32, 9 h nueve a 12. Éxito temprano, dos puntos igualmente
espaciados como tres, intervalo de
3 h que estamos tomando. Entonces ese será un dato 0.326, 6299 a 12, así. Bien. Entonces estoy dando un ejemplo. No es lo exacto. Pero se puede entender
como qué línea de tiempo, cero a 24 h y pocas cosas
que están pasando cada una, en cada segundo,
cada minuto, ¿verdad? Entonces cuando documentamos
esos puntos de datos, como en algo de cuatro estrellas, estos son los datos de
la segunda hora. Estos son los datos sobre la
tada. Estos son los datos. Entonces, cuando definimos esos datos sucesivamente igualmente
espaciados en el tiempo, te
dará
la serie de tiempo, secuencia de series de tiempo. Por lo tanto, es una secuencia
de datos discretos de tiempo. No es continuo, es
de naturaleza discreta
porque estamos tomando puntos de
tiempo igualmente espaciados de esos datos. Entonces estamos haciendo un discreto. Entonces esta es la definición. Ahora lo que vamos a hacer, vamos a tratar de entender
esto trazándolo. Cuando tramemos,
entenderemos más al respecto. Bien, Entonces antes de trazar, pedimos instalar la
librería GG plot two, que puedas ir al paquete e instalar ese GG plot dos. ¿Bien? Entonces para esto necesitamos Biblioteca GG parcela dos
y el jugador, ¿bien? Por lo que
se requiere de estas dos bibliotecas. Y luego lo que hagamos, crearemos un dato ficticio. Entonces lo que voy a hacer, voy a crear un DataFrame
que contendrá día. Estarán agitados como punto. Eso significa que tomará datos en este formato como el total de
primera generación 15. Y entonces lo que voy a hacer, quiero de aquí a cero también. Investigación a 4 min, 365 días. Entonces de aquí a 365 días, arriba cada día como primera generación luego 31 de
diciembre de 2014 así, tardaré de tres a cinco días. Y para fecha particular en
lo que estoy tomando el valor, estoy usando la función runif. Ya sabes, lo que es ejecutar una función
corriendo zorro y va a crear qué, qué va a hacer. Se creará una secuencia
de números rectos, 4365. Por lo que creará una
secuencia de números. Entonces, ¿qué va a hacer
la función ejecutándose? Genera las desviaciones
aleatorias de distribución
uniforme y
se escribe como runif. Entonces, lo que hará, genero generará fácilmente el número n de
números aleatorios que renderizará. Entonces, lo que estamos haciendo
aquí por valor, estamos generando investigación de
iniciativa para borrar números aleatorios
para cada día. Entonces asignaremos el primer número generador
aleatorio hasta la fecha, uno, como este. Y luego el segundo número generado
aleatoriamente se asignará a la segunda fecha. ¿Bien? Así que no estamos solo, solo
estamos usando los números generados
aleatoriamente a partir de esta función estándar. ¿Bien? Pero también estamos
sumando a eso por, también
somos secuencia genética
de menos 142 a 40. Y esa secuencia
somos lo que estamos haciendo. Estamos tomando una raíz
cuadrada de eso y luego estamos dividiendo
con esos 10 mil. ¿Bien? Entonces básicamente queremos
la salida de esto. Vamos a añadir a lo que obtenemos
de esta función runif. ¿Bien? Entonces runif dará los desvíos aleatorios y
una distribución uniforme. ¿Bien? Entonces lo que obtenemos
de esto a la fecha, día y valor que vamos a
almacenar en este DataFrame, estamos creando un
DataFrame que lo hará, que contendrá dos valores, t y valor particular de estas dos funciones
que vamos a obtener, veremos cómo tenemos, cuáles son los valores que
estamos obteniendo, ¿bien? Y luego lo que haremos, solo
voy a imprimir los datos para mostrarte qué datos
estamos obteniendo. Y luego con estos datos
DataFrame, lo que voy a hacer, usaré la gráfica
GG para trazar estos datos. Entonces voy a pasar este marco de datos. Y entonces lo que esto va a hacer, voy a proporcionar el eje x como un eje
t e y como un valor. Más. Voy a usar la línea geom, función dos y luego los valores
xlab, ¿de acuerdo? Y luego voy a imprimir la impresión, voy a imprimir el producto. Bien. Lo siguiente, qué voy a hacer, qué va a hacer esta
función de línea geom aquí. Puedes ver tus
fuentes Zoom nine sobre lo que hará. Conectará los puntos en orden de la variable en el eje x y G. Y
en
realidad, creará polvo
como trama de escalón de escalera. Ok, entonces básicamente
lo que va a hacer, unirá los puntos y
creará la gráfica. ¿Bien? Entonces aquí vamos a estar usando pocos
símbolos como porcentaje, d es d como un número cero a 31. El porcentaje se creará
como un porcentaje entre semana capitalmente es como un
día de la semana abreviado, como el lunes. Y esto será agitación
y jammies porcentuales. Mes cero al 12 y presentado
b y mayúscula B se
abreviará y se
abreviará un
mes abreviado como Jan y enero completo no se
agravará. Y entonces el porcentaje Y y porcentaje de capital
Y serán Herramienta, porcentaje de vitaminas de
dos dígitos todavía, y los porcentajes de capital Y
serán de cuatro dígitos todavía. ¿Bien? Entonces esta es la abreviatura básica
que vamos a usar. Entonces vayamos al RStudio
e intentemos ejecutar este código. Entonces estamos usando la trama GG y
la biblioteca de jugadores aquí. Y entonces lo que estoy haciendo
aquí, estoy usando datos. Estoy creando un DataFrame aquí, datos
ficticio con acetato similar. Y entonces estamos creando valor
aleatorio usando este
runif y secuencia. Y luego estoy imprimiendo el, lo que sea que estemos obteniendo
del runif que te voy a
mostrar lo que
obtenemos de la función runif
y lo que obtenemos como dato. ¿Bien? Entonces déjame ejecutar este código aquí. ¿Bien? Entonces déjame correr esta cola aquí. Entonces ahora te voy a mostrar
lo que estamos obteniendo. ¿Bien? Entonces mira aquí, para
la función runif, estamos obteniendo este
valor, bien, 0.3, 44.4. Así, generará 365. Vientos. Bien, y luego para
los datos que estamos obteniendo, d, como el 1 de enero, John, total y lejos entre y
estamos obteniendo este valor. Bien. Y luego para la proteína
31, 3
y 4 de diciembre estamos obteniendo, así que estamos obteniendo estos datos
y valor en nuestro marco de datos. Y ahora lo que voy a hacer, voy a pasar el marco de datos a los datos de la gráfica GG y luego salir llamar hoy
Y igual a valor. Y voy a usar la
línea geom para trazar los datos y luego lo que va a estar ahí
o lo que estoy usando aquí. Estoy usando la escala de
desviación promedio, guión bajo, fecha de subrayado. Y aquí estoy dando los niveles de
deuda que x v. ¿Bien? Entonces déjame ejecutar todo el código. Da click en la fuente
y ve la trama aquí. Entonces déjame imprimir el piso. Ver aquí. Ahora estamos obteniendo datos de una
serie temporal todavía Jan 2014, 2014, julio 2014, octubre
2014, y ene 2015. Bien. Y si ejecuto esto, vamos a conseguir que nos vamos a
abreviar enero, julio a lo
que n. Entonces va así. Si utilizo mayúscula Y, b, small b, y d, lo que
obtenemos, obtendremos el
año completo como 2014, luego Jan one tours en 14
indumentaria uno así. Bien. Y esta es
la semana, ¿verdad? Entonces te mostrará
las semanas, las tardías. 13, semana, 26,
semana 3093, y así sucesivamente. Bien. Si una montaña enorme, ¿por qué nos va a dar el mes, por qué? Mes y YC. Tan deprimente enero totalizando 14 aprobaciones para tunelar
proteínas así. Entonces este es el aquí que estamos
viendo el mes en el eje x. Aquí estamos viendo la
montaña juntos. Estamos viendo el
valor particular en ese momento. ¿Bien? Entonces esta es la forma en que podemos dibujar una serie de tiempo simple. Aquí. Podemos modificar
esto un poco. Y aquí estoy usando SLB, nuestra biblioteca de equipos en eso
puedes, si no tienes, puedes ir a los Paquetes, dar
clic en Paquete, clic en Instalar y
puedes instalarlo, y luego puedes usarlo. Entonces estoy usando los mismos datos que hemos creado
en el anterior. Justo ahora. Y aquí
lo que estoy haciendo, todo, estoy usando
tema en la línea geom. Estoy aportando el
color como verde. Hesíodo es la línea negra. Por ahora, estoy cambiando
eso a verde. Así que aquí la línea geom, voy a proporcionar color,
el color al verde. Entonces será que la gráfica
estará en el color verde. Y luego tema subrayado Ipsum, estoy usando blast para el equipo. Lo que me dan x dx t punto x elemento punto TXT
guión bajo t En realidad ángulo. Estoy dando 45 y
solo estoy dando uno. Entonces, lo que hará este ángulo 45, girará esta
gráfica a 45 grados. Entonces déjame ejecutar todo este código. Ver aquí. Ahora la gráfica
viene así. Y los 45 grados, por lo que se convierte a 45 grados. Así que de esta manera podemos usar este
ángulo igual a 45 antes
supongo t. Veamos qué
diferencia estamos obteniendo. Un artista cambia ligeramente. Déjame cambiarlo para apoyar 160. ¿Ves alguna
diferencia si pongo 45? Y ahora lo voy a cambiar. Doe 145. A ver si estamos
haciendo alguna diferencia. Ahora viene como enero de 2020, octubre de 2019. Así. La gráfica
está cambiando la tasa. Si lo hago 45. Se viene así. Y cuando lo estoy haciendo
como supongamos 90 grados, va a estar entrando
de manera diferente. Lo es. Esta representación
está cambiando, ¿verdad? Enero. Esto, esta cosa
está cambiando, ¿verdad? Si lo hago diez grados. Y si planeo
y veo aquí cómo esto sea lo que sea que
estemos escribiendo aquí, enero de 2019, ese ángulo
se está cambiando, ¿verdad? Si lo hago, supongamos
que ve TDD, veamos cómo este género
no cambia. Déjame convertirlo en una entidad. Cuando juegues con
los datos, sigue adelante. ¿Se puede dar para entender
lo que realmente son diferentes? Lo estás haciendo
bien. La oreja. Es como a mediados,
finales de enero de 2019. Ahora se está mostrando como una
imagen espejada de enero de 2019. Entonces esta es la diferencia. Bien. Así que así podemos
en ese nivel, ¿de acuerdo? Entonces orientación al nivel del eje x, cadenas
de fin de semana como esta, ¿de acuerdo? Si pones 90 grados, vendrá en un grado de TI. Entonces espero que ahora tengas claro
qué diferente está haciendo este
ángulo ¿correcto? Ahora está en el grado 90. Entonces de esta manera podemos
usar los textos del elemento y podemos cambiar
la orientación de los textos como
enero, así. ¿Bien? Entonces de esta manera
podemos hacer eso.
37. Matrices de trazado y trazado en R: Hola y bienvenidos de nuevo. En esta conferencia vamos
a aprender sobre la trama de dispersión. Entonces, ¿qué es scatterplot? Una gráfica de dispersión es un tipo de parcela. Nuestro diagrama matemático
usando coordenadas cartesianas para mostrar valores ¿qué suelen configurar
dos variables mejor? Entonces significa que es lo simple. Si tomas nuestro plano x, y, necesitamos poner puntos
en el plano, x e y,
x coma y punto necesitamos trazar así que
no vamos
a dibujar líneas son
seguras ni nada, sino solo los puntos donde
vamos a babear así apoyar al Majlis y el número
de cilindros, así sucesivamente. Cilindro. El número épsilon en el eje x y mi leyenda el eje y. Entonces será como cuatro comas. El número de
cilindros es de cuatro y la mielina se está
triplicando aún cuatro. Sube tu huella un punto en el avión cartesiano vamos a poner. Entonces es una bastante simple. Si los puntos están codificados, uno, sigue siendo valioso, se
puede mostrar. Bien, entonces lo que estoy haciendo aquí, voy a dibujar un
conjunto de datos que son autos vacíos, esos son los datos de entrada. Set. Nuestro nivel con eso ya
hemos utilizado en
nuestros ejemplos anteriores. Así que voy a usar el conjunto de datos de autos
vacíos que está fácilmente disponible con
nuestro, nuestro entorno. Entonces lo que este carros vacíos, WHO Lab va a tener. Tendrá que datos
respecto a los autos
como número épsilon, mielina
oscura, y peso
del auto y otras cosas. Bien, entonces a partir de este
conjunto de datos, lo
que estoy haciendo, voy a recoger el número
de cilindro y mielina, y eso significa número
de cilindros y el Majlis del costo particular que voy a obtener
de este conjunto de datos. Entonces estoy usando recta. Ver cilindro de mielina. Mielina, eso significa mielina
cilíndrica. Y lo estoy guardando
en este objeto. ¿Bien? Entonces, si ejecuto estos dos, ¿qué voy a conseguir aquí? Entonces estoy consiguiendo detalles de
varios autos como Mazda, Datsun, y estoy consiguiendo el
número épsilon, es
decir seis, exportación de
formaldehído. Y el kilometraje es uno a uno. De manera similar, Lotus
Europa, número épsilon, es
decir comida y mielina
es 34 para Bandera. Es cilindro, y la
mielina es para señalada, mientras que Woof 142 e número de cilindros es cuatro
y la mielina es 21. Entonces de esta manera estamos consiguiendo
Los cuentos para muchos autos, varios autos y su kilometraje. Bien. Entonces ahora lo que voy a hacer, voy a crear un diagrama de dispersión que muestre a los dioses
y luego mi lista. Entonces para eso, lo que estoy usando, estoy usando una
función PNG y estoy dando el nombre del archivo scatterplot
como mi lista plot dot PNG. Y luego estoy usando
la función plot. Se
utilizará la función de trazado simple para dibujar
esta gráfica de dispersión. Y sin embargo estoy proporcionando
esa x igual a la entrada. Entonces x es básicamente
el vector de entrada. Entonces obtienes x igual a
lo que estoy proporcionando. Estoy proporcionando entrada como
un número de cilindros. El eje X, x será cilindro
de entrada. Significa que estoy recibiendo el
número de cilindros, ¿de acuerdo? Y el eje y será importante. Mpg entrada dólar mpg significa que estoy obteniendo estos datos mpg, mpg. Entonces esa es mi lista A eje x será cilindro
número de cilindro y eje y será
kilometraje, millas por galón. Bien. Y xlab le estoy dando nivel
del eje x del eje x. Me dan número arriba
cilindro porque estoy poniendo número
de cilindros ahí. Y para eje y estoy dando nombre como mielina y x limit estoy dando cuatro a ocho porque
número de cilindros están leyendo 4-8 o diez. ¿Bien? Entonces estoy dando de cuatro a
ocho para el límite del eje x. Y el límite del eje y, estoy dando diez a 35. ¿Bien? Y el nombre de la gráfica
o el nombre de la trama de dispersión, estoy dando número arriba cilindro,
cilindro versus sin sentido. Mi costo de punto láser, bien. Y entonces estoy usando guardado oscuro
o apagado para salvar la pelea. Por lo que aquí está bastante claro. Ahora, guardemos este archivo y usemos este nombre como autos vacíos. Ca va a cilindro menos bien. Y luego guárdala. Bien, ahora vamos a ejecutar esto. Así que vamos a ejecutar este archivo fuente. Por lo que ahora es
exitoso más adelante. Ahora, ver el archivo de salida
es para ser dispersado, trazar mi lista de producto. Entonces mira qué nombre hemos dado. Se nos da kilometraje
parcela punto PNG. Entonces esta es la trama. ¿Bien? Entonces veas ya sabes, el nombre del equipo de diagrama de dispersión es número de cilindro para
esta mielina y eje x, estoy cosiendo número arriba
cilindro que cada 45678 y eje y es mielina,
10, 152-025-3035. ¿Bien? Y aquí con cada punto, supongamos que éste es el punto. Este punto es para el número
épsilon, es decir cuatro, porque el valor del eje x es cuatro y el valor del eje
y está en algún lugar
alrededor de 21 o 22. Entonces cuatro cilindros y mielogeno Frontier 14
cilindro, otro punto, 4.23 o 2023, luego 2044 ,
coma 24, y luego
cuatro coma 26, 27, así para aproximadamente
30143034 coma cuatro. Entonces número de cilindro para, y estos son los kilometraje
para los autos de cuatro cilindros. Y nos vemos pronto como un punto, x coma y punto en este plano cartesiano en el plano x-y
bidimensional. Y estamos poniendo los puntos
como número de cilindro cuatro y mis religiosos 21
señalan algo, ¿bien? De la misma manera, el eje X seis
significa número de cilindros, seis señalan este número seis. Los autos que
no tienen cilindros como seis, tenían teniendo esta vaina de mielina
tantas. Esta mielina como una huella, 16171516 a 2021 hito. Esto, podemos saber que los protectores de seis
cilindros comienzan a dar menos kilometraje en comparación con los autos de cuatro cilindros y
llegan a los autos de cilindros de aire. Ellos son mis lentes
para ese lazo. Entonces los
autos de ocho cilindros le están dando a la mielina lo más bajo. Entonces la mejor mielina es darle a Garza el
número de cilindros, cuatro y luego seis greens. Con esta trama dispersa, podemos
llegar a la conclusión de que el número de cilindros están decidiendo el
kilometraje del automóvil, menor sea
el número de
cilindros en el automóvil, más será la mielina. Eso significa que si el número
de cilindros está aumentando, el kilometraje va disminuyendo. La incautación por el kilometraje es
más seis mielina, reduciendo. El número de cilindros
está llegando a ocho. La mielina se reduce
aún más y es más baja entre los autos de
46.8 cilindros. Entonces el número a, vaina de mielina. Inversamente proporcional
al número de cilindros, el
cilindro, el número de cilindros
en el motor del automóvil es menor, kilometraje será mayor, y el número de cilindros
en el automóvil será mayor, kilometraje será menor. ¿Bien? Entonces con este tipo
de diagrama de dispersión, podemos llegar fácilmente
a la conclusión solo mirar
el gráfico, ¿de acuerdo? Y es la, una de las gráficas
más simples que puedes ver y es bastante fácil de analizar y obtener los detalles
del propio gráfico. A continuación lo que estoy haciendo, solo
voy a dar
el nombre del archivo como autos
vacíos y discutir el
diagrama de dispersión o anochecer o colchón. Entonces lo que voy a hacer aquí, voy a usar
la función de par en R. Y con
esta función de par podemos hacer como
colchones arriba de la tabla. Y cómo podemos hacer eso. Podemos tomar los puntos de datos del conjunto
de datos de autos vacíos. Y a cada tasa. Kilometraje por cilindro de
desplazamiento de galón. De este conjunto de datos, datos de autos
vacíos, estoy obteniendo datos iguales
a m prefabricados significa que estamos usando este conjunto de datos de autos
vacíos. Y a partir de esto, estamos utilizando estas cuatro variables
son cuatro columnas, como Wait, MPG,
millas por galón, desplazamiento y
número de cilindro. Y columna F4. Estos cuatro parámetros se
utilizarán para hacer gráficas como se
tomará el peso y el gráfico de dispersión se
dibujará en función del peso. Y mi lista, peso
y desplazamiento, peso y número
épsilon.de la misma manera, se tomará
mielina y luego las gráficas serán no como
Mileage Plus peso menos,
más desplazamiento, luego cilindro
Mileage Plus. Entonces kilometraje versus cilindro, kilometraje versus desplazamiento,
kilometraje versus peso. Entonces de esta manera, se tomará una
variable y se
dibujará la gráfica con respecto a
las tres variables. Aquí estoy dando como nombre la matriz de
scatterplot de autos vacíos . Entonces primero permítanme
encomiar al principal. Y primero voy a usar, voy a empezar por el sencillo. Sólo voy a tratar de dibujar al MP. Mi lista era este número diagrama de
Epsilon que
hemos dibujado aquí sin par. Entonces lo que hago, voy a tratar de sacar unas cervezas oscuras solo usando
MPG y cilindro. Y veamos cuál
será la salida. ¿Bien? Así que vamos a ejecutar esto. Y el nombre del archivo es
esta C aquí. Nos vemos. Entonces la misma salida. Pero aquí lo que estamos viendo, estamos viendo en forma de matriz. Entonces aquí está lanzando MPG millas por galón y nadar
número épsilon doc. Entonces puedes ver aquí MPG millas por galón y
aquí número de cilindros. Entonces puedes el número épsilon que es para todos los autos de cuatro
cilindros son tus 46.8. agrupan aquí por millajes
respectivos o curan la mielina de cuatro cilindros aquí, luego mielitis de seis cilindros, y ahora es cilindro mi lista. Entonces, si combinas estos dos
obtendrás este diagrama de dispersión. Si combinamos estos dos, obtendremos este. Ceo, no vamos
a conseguir lo anterior, estamos metiendo este número
de cilindros en mi lista. Esta gráfica la estamos obteniendo, voy a subir
cilindro en mi lista. Ahora estamos viendo
la aversión al eje y. Esta será la del kilometraje. Bien. Y el número de cilindros siendo Sonia
y la mielina está siendo Sonya por separado
en forma de matriz, ¿verdad? Lo mismo pero en representaciones
distintas. Ok. Ahora déjame ir al código y déjame
comentar esta línea y luego descomentar esta línea. Ahora estoy usando DUF para variables. Y déjeme dirigir esto. Y ahora vea la gráfica
cómo viene esto. Entonces abre esto. Ahora vea las cuatro variables, peso, MPG, desplazamiento
y cilindro. Entonces entonces aquí el peso, el desplazamiento del Majlis y el
cilindro ayudando a Sonya. Todo bien. Entonces este despilfecho delgado. 123 456-789-1011, se ha extraído
12.4 cisteína. Bien, déjame trazar en realidad. Y con estas cuatro cosas, así que cuatro por cuatro matriz
marido, ¿verdad? Así que de esta manera podemos usar
estas cervezas para crear la matriz de parcela
para ese conjunto de datos. Entonces esto creará la matriz del diagrama de
dispersión para que podamos usar para
crear matrices de bloques. Bien. Nos vemos dentro de la siguiente conferencia.
38. Encontrar la media en R: Hola y bienvenidos de nuevo. En las próximas conferencias, vamos a aprender sobre estadística en R. Así veremos cuáles son
las funciones que
tenemos incorporadas en nuestra programación
que podemos utilizar para análisis
estadístico en R. Y eso va a ser muy
útil en nuestro cuerpo. Eso será muy útil
en el aprendizaje automático, inteligencia
artificial, el aprendizaje
profundo, y todas esas cosas. Entonces, la estadística es lo principal si queremos obtener
información de los datos. Y el análisis de artículos
es fundamental para los
algoritmos de aprendizaje automático. Entonces deberíamos estar conociendo cuáles son el
análisis estadístico y los dormitorios. Entonces, en las próximas conferencias, vamos a aprender
sobre estas cosas, análisis
estadístico
en nuestra programación. Así que comencemos. Hay muchas
funciones incorporadas a través de las cuales
podemos hacer análisis estadísticos. Y estas funciones son herramientas
muy útiles y solo unidad para usar el nombre de la
función y
hay que pasar el vector de datos, lo
tomó con algunos argumentos, y su trabajo estará hecho. Por lo que es bastante fácil hacer todo el análisis en
nuestra programación. Entonces ahora vamos
a ver qué es media y cómo podemos
calcular la media. Entonces también veremos
qué es la mediana. Y luego veremos más. Así que básicamente vamos
a aprender en esta conferencia, media, mediana y modo. Bien, así que comencemos. Entonces, primero, ¿qué es lo que significa? La media se calcula
tomando la suma de todos los valores divididos
por el número de valores. Entonces es como promedio. Entonces ya sabes cómo
calcular el promedio. Yo apoyo tienes números 12345 y quieres
obtener el promedio de esto. Entonces harás uno más dos más tres
más cuatro más cinco dividido por
número de valores. Entonces número de flechas, amarillo, 5/5, así obtendrás el promedio. Entonces el promedio es medio. La media también es la media es
equivalente a la media. Entonces la media es suma de valores
en un vector, nuestros datos, algunos valores en los datos
divididos por el número de datos. Bien, entonces déjame mostrarte
cómo podemos hacer eso en R. Y para calcular la media, hay una función en R
llamada función principal. ¿Bien? Entonces déjame escribir un
programa para eso. Primero, déjame decirte qué significa
la parte de sintaxis, y luego iremos a
escribir esto. Para mí. Usamos esta función mean y cuáles son las cosas
que la llevaremos, tomaremos x y ese
será el vector de datos. Y entonces tomará
otro argumento que sea igual a cero. Y luego oscuro. Entonces, qué va a hacer eso
y cuál es la corriente, veremos cuando
hagamos nuestras prácticas. Entonces es justo y luego
punto RM igual a falso. Y eso es todo. ¿Bien? Entonces esta es la función
principal básica en arte donde x es el recorte del
datavector, y luego un auto. Entonces, ¿qué es x? X es el vector de entrada. Entonces déjame decirte aquí, x es el vector de entrada, que contendrá
los datos de fecha. Y entonces nuestro sueño aquí
estamos usando el recorte aquí se usa para bajar algunos
valores de ambos extremos. Entonces, si le das sueño
igual a cero, no bajará ningún valor. Pero si le das uno, bajará uno
valores de cada lado. Entonces es Si deseas soltar valores de ambos extremos, tanto los extremos de este vector x. Bien, ya veremos, y
entenderemos mejor. Y Adán oscuro lo hará,
lo que hará. Simplemente
les quitará los valores faltantes. Entonces es para eliminar
los valores faltantes. Entonces x es el
vector de entrada, vector de datos. El recorte es valores de sequía
tanto de los extremos como de los
ejércitos NMDA. Y quita eso. Valores faltantes. Supongamos que tiene un conjunto de datos y faltan
valores mayores. Entonces, si quieres
eliminar esos valores, puedes usar cualquiera que
no sea igual a true. Entonces cuando esto terminó nuestra
imagen llamada falsa, significa que no eliminará las cargas que
no están teniendo ninguna. No eliminará los índices que no están teniendo valores. Cuando usas esto como un verdadero, eliminará todos
los valores faltantes. Bien, lo tengo. Puedes ponerlo verdadero o falso en
base a tu requerimiento. Así que permítanme comentar esto. Entonces ahora lo que vamos a hacer, vamos a crear un vector simple. Entonces lo que estoy haciendo aquí, voy a crear un rectángulo que sea vector
de entrada. ¿Bien? Entonces voy a crear
un vector de entrada. Entonces lo que voy a hacer, voy a
usar supongamos que esos datos. Supongamos uno enorme
como el vector de entrada, o simplemente uno enorme. Y voy, voy a, voy a dar
algunos valores aleatorios aquí. ¿Bien? Supongamos que tengo 789, 671-250-6304 a 405-80-9907, menos dos, -34, 32-21, todos esos,
todos los moradores. Entonces tenemos nuestro vector de entrada que está conteniendo los valores. ¿Bien? Y ahora supongamos que
quiero encontrar mezquino. Entonces, entonces lo que puedo hacer, simplemente
puedo usar supongamos media de una que voy a crear
una variable aquí. Media subrayado a,
eso significa media de a. ¿Bien? Y simplemente usaré la función mean y
voy a pasar esta una a, voy a pasar el EBITDA aquí. Entonces lo que
va a hacer esta función media, tomará esto, hizo este vector como
entrada y
calculará la media de estos valores. Entonces
déjame que esto signifique subrayado. Por lo que nos va a dar la
media de estos valores. ¿Bien? Déjame dirigir esto. Aquí. Estamos obteniendo
valor medio como 33.7, 8571. Entonces este es el promedio de estos valores son medias
de estos valores. ¿Bien? Entonces así es como podemos encontrarlos. Media del vector de entrada a partir de la
media de datos de entrada de los datos. Por lo que estas medias de
estos datos son 33.78. ¿Bien? Entonces lo siguiente, lo
que vamos a aprender es cómo aplicar
y deducir átomos. Entonces supongamos que voy a crear
otro vector aquí. Déjame poner este terminal
o consola a la izquierda, ese será EG. Entonces voy a ir a las pinturas y
voy a poner esto a la derecha para que podamos verlo
aquí mismo. Bien. Entonces significa que está aquí, bien. Ahora, lo que voy a hacer, lo haré, lo siento. Vamos a eliminar
los valores faltantes. ¿Bien? Entonces, supongamos que tengo el mismo vector con algunos valores
faltantes, ¿de acuerdo? Entonces estos son el valor que falta. Supongamos que uno está aquí. ¿Bien? Entonces para estos, no tenemos
Beta es NA no aplicable. ¿Bien? Entonces, ¿cómo eliminar
estos valores faltantes? Entonces podemos simplemente, si uso media,
subrayar a, perdón. Y voy a usar media o como
que obtenemos el resultado. A ver. Entonces déjenme. Verás, no estamos viendo
ningún resultado porque tiene los valores de NA. ¿Bien? Entonces ahora si pongo una
media de una coma y las
obscuridad igual a
verdad, ¿qué va a pasar? Nos va a dar, vamos a ver. Lo siento, he usado
y eso está mal. Entonces déjame correr esto otra vez. A ver ya estamos obteniendo
el valor. ¿Bien? Si quito alguno que se
altere por aquí, y si lo vuelvo a ejecutar,
¿qué va a pasar? ¿Para ver? Verás, no estamos recibiendo ninguna. ¿Bien? Entonces, si quieres obtener la media de este vector
bajando el valor de NA, entonces tienes que usar cualquiera
que el otoño se llame verdadero y esto te dará el bien. Entonces lo siguiente, lo que
voy a hacer,
voy a usar la función de recorte, así que usando la opción Trim aquí, ¿de acuerdo? Entonces lo que he hecho, he creado un vector C, que es tener RelU, valores
simples, 1234567. ¿Bien? Y si ejecuto esto
y encuentro la media de esto conseguiré algún valor medio. Eso es cuatro. ¿Bien? Entonces y cómo estamos consiguiendo cuatro, porque uno +2, 361-015-2120
8/7 es igual a cuatro. Ese es el
promedio simple. ¿Bien? Ahora, lo que voy a hacer, simplemente
voy a por siete aquí. Entonces. Voy a poner uno aquí, pongo cuatro aquí, y tres aquí. Entonces simplemente, solo estoy poniendo los valores
que un lugar aleatorio. ¿Bien? Entonces esta no es una matriz
ordenada, ¿verdad? Entonces, si encuentro la media de esto, otra vez, me sacaré la foto. Bien, tenemos el
mismo valor, ¿verdad? Si pierdo recorte igual a
cero, ¿qué pasará? A ver. Vamos a conseguir los cuatro ¿verdad? Ahora bien, si uso 0.13 igual a 0.1, lo que va a hacer,
va a ordenar este Addie. Ordenará esto
en orden ascendente, y luego caerá
aquel donde un valor
de cada lado. Entonces veamos qué significa que
estamos llegando hasta aquí. Estamos obteniendo por Y porque bajará 1.7
y el resto de valor para dos más 244 más
36 más 399 más 514, y luego más 62020/5
es cuatro, ¿verdad? Si sueño Coulter
a lo que va a hacer, dejará caer a los dos
Alice de su lado. Y de nuevo estamos consiguiendo para. Entonces déjame poner esto el
original, el ordenado. Entonces solo voy a comentar aquí
y voy a poner 123,456.7. Entonces, lo que hará esto igual a
cero a 0.2, eliminará 1.2 de este
lado y 67 de este lado. Entonces, ¿qué conducirá? 345. Por lo que recaerá con la C igual a tres coma cuatro coma cinco. Entonces siete más tres más 47 más 51212 dividido
por tres cuartos. Entonces ahí es donde volvemos
a conseguir cuatro. ¿Qué pasará si pongo diez? Llamamos 2.3 y ejecutamos esto. Ordenará y eliminará
tres valores de cada lado. Y otra vez, vamos a conseguir por y, llamamos si quitamos 123 de este lado y
cinco sextos n de este lado, otra vez, vamos a conseguir el 41 de
los cuatro va a quedar, ¿verdad? Sólo quedarán cuatro y la
media de cuatro será cuatro. ¿Bien? Entonces así es como funciona. Déjame, voy a poner algunos
valores más aquí, 910910 aquí. Y vamos a ejecutar esto. Mira ahora estamos obteniendo
la media como phi y porque
eliminará tres valores, 1,234.78, 7910 de esta búsqueda. Entonces, lo que nos queda
, se fue con 45.6. Entonces 4561, ¿cuál será el medio? Serán 15, ¿verdad? Algunos de los por 5 s por 15/3. Eso significa número de
valores tres ahora, así que huella dividida por tres, obtenemos, vamos a obtener cinco. Entonces así es como podemos
usar la función trim. Entonces primero, lo que va a hacer, va a ordenar esto en un resort, este vector, y lo
hará así. Y luego quitará a tres
a los que pierdo del lado este, del, de principio tres
y del final tres. Y lo restante te
conseguirá la media. Bien, así es como funciona
este sueño. ¿Bien? Entonces, si quieres eliminar los valores desde el
principio y el final, tanto el final como nosotros
queremos encontrar el promedio, o puedes usar el recorte y
el valor solo Texas 0.1. No quieres que uno signifique
uno inalámbrico de su lado. 0.2 significa dos letras mías, digamos 0.3 min, tres
valores de cada lado. ¿Bien? Entonces así es como funciona. Y si quieres eliminar
los valores faltantes, puedes usar cualquier punto
Arab igual a true. Eliminará estos
valores NA del conjunto de datos y te
dará los valores restantes, y encontrará la media de esos valores restantes,
restantes. ¿Bien? Entonces así es como funciona nn
dot autumn and trim. Nos vemos dentro de la próxima conferencia donde aprenderemos sobre mediana en cómo
encontrar la mediana en el arte.
39. Encontrar la mediana y el modo en R: Hola y bienvenidos de nuevo. En esta conferencia
vamos a ver cómo podemos calcular la mediana
de los datos, ¿bien? Entonces, ¿cómo podemos encontrar
el valor medio? Entonces, primero lo primero, estaremos conociendo
cuál es la mediana. Entonces, la mediana es el
valor medio más alto en una serie de datos. Entonces supongamos que tenemos
esta serie de datos. Entonces queremos encontrar el
valor medio de esta serie de datos. Así que comencemos. Bien, entonces medial, lo más relevante, el valor que
viene en el medio, No es como yo, que es el
valor promedio de la serie de datos. Pero esta es la media, que si trazamos
estos datos en algunas x's,
entonces, ¿qué valor
vendrá en el medio? Es decir, el valor, vamos a
encontrar, la mediana. Así que la mediana es el
valor medio más en un conjunto de datos está bien. Y para encontrar la mediana, usamos la función median en r. Entonces usaremos la mediana de
la función en el arte. Entonces no yo DNAA, es mediana. Entonces usaremos esta
función, mediana, ¿de acuerdo? Me DIN mediana para
encontrar la mediana. El conjunto de datos. Entonces este es el conjunto de datos que he creado y esta es
la función median. Y cuáles son los
valores que tomará. Tomará la E
y el vector de entrada. Y entonces tomará cualquier llamada de otoño oscuro
a falso o verdadero, lo que quieras
puedes dar. ¿Bien? Si queremos eliminar valores, puedes poner punto Adam. Si quieres eliminar
los valores N A, puedes ponerlo en
Aram igual a false. Hemos visto cómo usar el NADH en la
conferencia anterior donde hemos discutido sobre la media. Entonces a la misma funcionalidad
y también a cualquier elemento de datos. Según false
significa que no
eliminará los valores faltantes. Y si n no es igual a true, eliminará los valores
faltantes. ¿Bien? Entonces ahora si ejecuto esto,
lo que nos gusta, voy a conseguir, voy a conseguir la mediana de esta serie. Pondré la tuya mediana subrayada a y asignaré
esta mediana a esta. Pero **** duro así de
bien, esta variable, la mediana de la edad del subrayado. Entonces déjame imprimir esto. Entonces, si ejecutamos esto, obtenemos la mediana como como algún valor
medio de estos datos. La serie Seizes es nueve, ¿verdad? Supongamos que voy a usar, voy a poner algunos
valores más aleatorios como 6745, 2245, 4722, 9979. Y ahora si traté de
encontrar, obtendremos 33. ¿Bien? De igual manera, lo hará, intentará encontrar el valor
más medio del conjunto de datos. Lo haré gratis y
esto conseguirá 44, ¿de acuerdo? Por lo que intentará encontrar el valor medio más
del conjunto de datos está bien. Así es como encontramos la mediana de una
serie de datos, nuestro conjunto de datos. Ahora, lo siguiente es que vamos a aprender que es
encontrar modo. ¿Bien? Así que ahora usaremos para
tratar de encontrar el modo. Lo que hemos aprendido aquí, no
hemos encontrado la mediana. Entonces ahora
aprenderemos a encontrar más. Entonces, ¿cuál es el modo? modo es el valor que tiene el mayor número de
álcalis del centro de la ciudad. Supongamos que tenemos esto. Déjame copiar esto. Y déjame crear el conjunto de datos para este hallazgo
más problema, ¿de acuerdo? Y este es nuestro conjunto de datos donde
tenemos soporte este 45, 45 está ocurriendo muchas veces, así que 45 que el tuyo, voy a quitar este pseudo 45, y luego voy a conseguir para diverso. Así que t Aquí, 45 está repitiendo
1234 veces, ¿verdad? Apoyo. Entonces este modo de hallazgo
significa mod Pascua. Número de encontrar
el número máximo de ocurrencia o
por valor, ¿verdad? Entonces modo es el valor que tiene mayor número de
documentos en nuestro conjunto de datos. A diferencia de la media y la mediana, el modo puede tener tanto numérico como carácter. Entonces primero veremos cómo encontrar el modo de este conjunto de datos
numéricos. Y luego diremos tratar de
encontrar para el
conjunto de datos de caracteres también. Entonces si uso mod porque no
hay
función incorporada para encontrar más en R. ¿Bien? Entonces, lo que haremos, crearemos nuestra propia función
personalizada para
encontrarlos el número máximo de
ocurrencia de valor de datos en un conjunto de datos. Bien, entonces para eso, lo que voy a hacer, voy a
crear función. Entonces, lo que pueda aquí, usted obtendrá por la suma, ¿de acuerdo? Así que voy a crear el modo de
función región, ¿de acuerdo? Y lo que voy a hacer, voy a dar este nombre
como ellos lo han hecho. Vamos modo.
Bien. Y para esto, lo que voy a hacer es usar
la función y luego pasar esto. Bien, entonces, ¿cuál es
el conjunto de datos? ¿Bien? Y bajo esto lo que voy a usar, encontrar una edad de subrayado
única, única. Valor tan único en eso
lo que quiero encontrar. Entonces para esto, lo que voy a usar, voy a usar una
función única que está en el arte. Y lo que voy a hacer, voy a
pasar esto a por aquí. Entonces esta
función única me dará el valor único en
este conjunto de datos. ¿Bien? Así que permítanme simplemente traer esto puede venir a la escuela. Ellos saben lo que voy a hacer. Simplemente usaré
más de eso se llama a. y lo que voy a hacer,
solo voy a llamar a esto seleccionar Modo
hecho falso y bien, así y voy a pasar un líquido sobre esto. ¿Bien? Así que permítanme encomiar esto y
necesito ponerlo en el
modo, modo, y eso se llama a. bien, entonces déjame ejecutar esto de nuevo. Entonces mira aquí lo
que estoy obteniendo ahora. Estoy obteniendo lo mismo
este conjunto de datos ¿verdad? Ahora. Lo que tengo que hacer, necesito hacer algunos
cálculos aquí. Necesito escribir algo de
lógica aquí para encontrar el valor único número de
ocurrencia de un particular. Nos enteraremos así de
este número 45, número
más ocurrido
en esta serie. ¿Bien? Entonces para esto, lo que voy a hacer, voy a usar guión bajo único a. y lo que voy a aplicar aquí, me encanta jugar rico, oscuro max. Y luego usaré
tableta, tableta, tableta. Y luego lo que voy a usar
la función match. Y lo que voy a hacer,
voy a usar pasta, un coma, único y
hace buen día. Bien. Y ahora si consigo el retorno, si ejecuto esto, voy a
conseguir el modo, ¿de acuerdo? Sí, 45, me estoy
haciendo para digitalizar 45. Entonces así es como podemos. Para crear una
función definida por el usuario para el modo de búsqueda. Entonces aquí estamos creando nuestra propia función,
devolver subrayado más, que es tomar este vector como vector entrada o los datos de entrada que estamos dando los datos aquí. Entonces esto lo hará, este conjunto de datos
irá dentro de esta función. Y aquí lo que estoy haciendo, estoy creando otro valioso subrayado
único j. Y aquí estoy usando la función incorporada en R
que es única, única. Por lo que le dará el
único bien digno. Y entonces lo que estoy usando
para este hallazgo, este subrayado único a, um, no
lo diste a punto max, que es el, que está ocurriendo número
máximo de veces. Entonces estoy haciendo coincidir con esta e, este conjunto de datos original con
este conjunto de datos único y encontrando qué número está sucediendo la mayor parte del tiempo
y estoy obteniendo el resultado. Así que aquí estoy creando
otro modo subrayado j, y solo estoy llamando a esta
función y nos dará el mayor número de ocurrencia, el número más ocurrido de
este conjunto de datos. Eso es 45. Si supongo que un buen 76, la mayoría de veces. Y si traté de ejecutar
esto, ¿qué va a pasar? A ver. Ahora estamos obteniendo 76 como el número
que más lucha. Entonces de esta manera podemos usar esto, podemos deshacer lo mismo con el texto que tu soporte de MBA. Quiero crear carácter
subrayado algún conjunto de datos. Y aquí lo que voy a hacer, voy a poner algunos valores de cadena. Supongamos que voy a poner el
nombre del país como India, EEUU ,
Sudáfrica,
Australia así. Y lo que voy a hacer,
voy a apoyar eso. Le ganaron pocas veces a esta
Australia. Bien. Repite esta Australia dos veces, bien. Y repita este fingir dos veces. Bien. Entonces ahora este es el, este es el conjunto de datos donde
hemos escrito dos veces
y Australia dos veces. ¿Bien? Y quiero encontrar el modo apagado. Eso se llama tarde. Entonces, lo que puedo hacer, solo
puedo llamar a este modo de subrayado de
retorno. Y yo puedo simplemente Boss este conjunto de datos aquí a esta función modo
escrito, ¿de acuerdo? Y si imprimo esto, conseguiré el Australia
como resultado. Entonces déjame dirigir esto. Bien, entonces me olvidé de poner C aquí, tonto error que he cometido. Entonces déjame poner esto aquí. Bien. Entonces vamos a parar
la cosa está bien. Entonces estábamos mejorando
porque no hemos puesto aquí C. Ahí es donde te estás
metiendo en ello. Y estaba tan ignorando eso, no lo vi. Bien. Lo siento mucho por eso. Déjame correr esto
otra vez y te veo. Ahora estamos consiguiendo a
Australia lo digital, así que las hostilidades reportan
dos veces y Gran Bretaña es el doble. Entonces estamos consiguiendo a Australia. Déjame probar algo. Al igual que puse Australia probablemente mande todo dos veces también. Tanto las cosas como dos veces. Déjame ver lo que conseguimos. Obtenemos Gran Bretaña. Entonces, cuando consigas las primeras subvenciones de
acciones primero, bien, así que finge vendrá
primero y luego Australia. Y supongamos salida también
la
salida de la India. Dos veces que vemos lo que obtenemos. En C, estamos consiguiendo
India, cómo k. y supongamos salida,
finja primero, Curtis. Y lo puse aquí. Y si ejecuto esto, vamos a ver, estamos
consiguiendo a Gran Bretaña. Entonces, ¿qué hacemos alguna vez el
primer documento al que se le dará
mayor preferencia Entonces, a pesar de que meridiano, India y Australia
están ocurriendo dos veces, nos
está dando el resultado
como Gran Bretaña que llamamos finge que está al ras AL hockey. Y si pongo Australia, déjenme poner otra vez a Australia. Y si ejecuto esto ahora, llegamos a Australia y de alguna manera nos
apegamos a ellos. Así que de esta manera podemos encontrar el modo de nuestros datos más a partir de nuestros datos. Mayor valor de marketing
de nuestro conjunto de datos. Nos comemos. Dataset de caracteres o conjunto de datos
numéricos. Bien, para que podamos crear nuestra
propia función yo no modo, donde perdemos función
única y luego aludiremos a
qué punto max. Y vamos a tablet eso
y vamos a hacer coincidir y encontrar el número máximo de ocurrencia
de un valor en particular. Bien, así que de esta manera
podremos usar más. Así que hemos visto reunirse en la conferencia anterior y mediana
y modo en esta conferencia. Entonces ahora sabemos hacer lo básico
de estas cosas, media, mediana y modo
en nuestra programación, aunque Morty no
tenga función incorporada. Para encontrar más, hemos creado nuestra propia función de usuario para
encontrar el modo de un conjunto de datos. Espero que tengas que
entender cómo hacer eso. Nos vemos dentro de la siguiente conferencia.
40. ¿Qué es la regresión lineal: Hola y bienvenidos de nuevo. Entonces, en las conferencias anteriores, hemos visto cómo podemos hacer análisis
estadísticos en R para machine learning
o data science. Entonces estas son las cosas que son muy útiles y
deberíamos estar conociendo todas estas estadísticas para
seguir adelante en machine learning e inteligencia artificial
o deep learning, lo que quieras
aprender más. En este curso, estamos
aprendiendo ciencia de datos y aprendizaje automático
a través de nuestra programación. Entonces tenemos césped media,
mediana y modo, donde hemos visto esa función inversa para
encontrar media y mediana, mientras que no tiene
función incorporada para encontrar el modo. Entonces lo que hemos hecho, hemos creado una función
definida por el usuario que hemos creado unas
fuentes personalizadas y para encontrar las, para calcularlas más. Y después hemos calculado el modo que hemos hecho en
la conferencia anterior. Para que puedas ir a ver eso
si no lo has visto. Entonces, ¿qué más? Ahora, vamos a aprender un concepto muy importante que se llama regresión
lineal. La regresión lineal es muy importante y es
ampliamente utilizada en el aprendizaje
automático y la inteligencia
artificial. Entonces, si quieres
seguir adelante, tienes que saber qué es la regresión
lineal y cómo puedes usarla para predecir. Entonces, la regresión lineal es un modelo
de aprendizaje automático. Con eso, podemos predecir
los valores en base a, supongamos que tenemos datos, supongamos que tenemos datos aquí, altura y peso, donde tenemos el peso de la proporción. Y con base en el
peso de la proporción, estamos calculando la altura
o anchura y la altura. Queremos calcular el
peso de la proporción. Entonces cualquier cosa que se
quiera establecer la relación entre
estas dos variables, altura y el peso. Podemos hacer eso y para predecir, supongamos que se trata de los datos de
muestra que tenemos, que hemos recopilado
a través de nuestros experimentos. Entonces ahora tenemos los datos de
altura y peso. Y en base a estos datos, suponemos que tenemos estas discrepancias cosa
hasta 19 conjunto de datos aquí. Y en base a este conjunto de datos, queremos entrenar nuestro modelo, el modelo de aprendizaje automático sobre el modelo de regresión
lineal. Y supongamos que quiero una
nueva altura de una persona, voy a dar una nueva alta tecnología no está presente en esta
columna y
quiero predecir el
peso esperado de esa persona. Entonces lo que
hago, entreno mi modelo con estos datos. Y cada vez que doy en nueva
estatura de una persona, ello, el sistema predecirá
el peso de la persona, el peso esperado de la persona con base en el
cálculo y va a hacer. Entonces de esta manera, podemos predecir nuestro peso de una
persona en función de su estatura. Entonces entrenaremos con
estos datos y cualquier dato, cualquier dato nuevo que podamos dar altura. Y pronosticará el
peso esperado de esa persona. Bien, entonces eso es lo que
vamos a hacer a través de la regresión
lineal. Entonces, ¿qué es la regresión lineal? La regresión lineal es como método estadístico
táctico utilizado en finanzas, inversión o cualquier
otra disciplina que intenta determinar la fuerza y el carácter de la relación entre
una variable dependiente, generalmente denotada por Y, y una serie de otra variable conocida como variable
independiente. Entonces, ¿qué entendiste
lo que es este modelo, si algún método para encontrar la relación
entre dos variables, una es independiente,
Hannah que es dependiente. Entonces, ¿qué depende de
lo que sea independiente? Supongamos, en base a la altura, quiero encontrar el peso de
la porción aquí, altura, que estamos dando
la entrada será como, se
llamará como variables
independientes. Entonces aquí la altura será variable
independiente
y el peso
será la variable dependiente
ya que con base en la altura, estamos prediciendo el peso. Entonces, en base a
la altura, la entrada que
tenemos como altura, que esto se basará en el valor que
queremos predecir. Con base en la altura que
queremos predecir. altura será la variable
independiente, y el peso será
la variable dependiente. Porque dependiendo de la altura, estamos prediciendo, el peso, altura serán aunque variables
independientes, y el peso será la variable
dependiente. ¿Bien? Entonces tienes que saber
qué es la variable dependiente e independiente, ¿verdad? Por lo tanto, la variable dependiente
se denota por Y. Y las variables independientes son la serie de otras variables. Entonces habrá una hoja. Supongamos que tienes una
empresa y
quieres predecir los ingresos
de la empresa. Por lo que los ingresos de la empresa
pueden ser sólo una variable. Para que podamos predecir en
base varias otras cosas como cómo
se está desempeñando su empresa, ¿cuál es la apropiada,
cuál es la pérdida? Oye, cuántos clientes tienes, cuántos clientes perdiste, y cómo, cómo le estás dando
Salish a nuestras implica. Entonces todos estos componente salarial, ganancia, pérdida, condición del mercado, todas estas son las variables
independientes que van a
definir tus ingresos. Entonces los ingresos aquí son una variable
dependiente y todas las demás cosas
que van a
afectar a tus ingresos se
llaman variables dependientes. Entonces ahí, puede haber muchas variables
dependientes y solo
habrá una variable
independiente que vamos a predecir. ¿Bien? Entonces, el análisis de regresión es un proceso estadístico set-top para estimar la
relación entre una variable dependiente,
a menudo llamada resultados. Entonces, qué resultado vamos a obtener que se llama variable
dependiente. Y una o más variables
independientes. Entonces una o más variables
independientes implica salario, ganancia, pérdida, condición
del mercado, todas
esas cosas a menudo llamadas predictores o
covariables o características. Así que a estas también se
les llama características en
función de las características que
vamos a predecir algún valor. Voy a hacer algo en particular, ¿de acuerdo? Y a estos también se llama predictores porque nos
van a ayudar en los ingresos o
el peso de una persona. La forma más común de análisis de
regresión, análisis es la regresión lineal. ¿Bien? Entonces aquí hay análisis de
regresión múltiple como múltiple o
iban a enviar un análisis de regresión
lineal simple, regresión
lineal,
todas esas cosas. ¿Bien? Entonces en la
regresión lineal lo que hacemos, encontramos investigador
encuentra que la línea son combinación lineal
más compleja que más
se ajusta a los datos de acuerdo con el criterio
matemático específico. Bien, entonces, ¿qué significa mar? Estos son los datos Nick
peso en el eje x y Altura en el eje y. ¿Bien? Entonces, basándonos en la altura, vamos a predecir
el peso de la proporción. Entonces aquí, si ves
estos son los puntos. Estos apunta como 64, 64, R1, 77 KG, 177, altura. El peso es de 64 puntos
algo, ¿verdad? Entonces este punto, estos son los puntos de
datos que tenemos. Entonces, lo que hacemos con la regresión
lineal, tratamos de encontrar una línea aquí. Intenta encontrar aquí una línea que
represente los datos, que los preparará. Datos de resultados como soporte, encuentras cualquier punto aquí como 65. Y cuando trates una línea aquí, ésta cruzará ahí, obtendrás un punto y
construirás sobre este peso. Obtendrás esa
altura son mejores que esta altura y valor, obtendrás el valor X, ¿verdad? Entonces este punto te dará
la combinación x e y, o datos de altura y ancho, ¿verdad? Entonces, cuando trates una línea aquí, obtendrás la indicada. Supongamos que se nos da 65.8 o estamos dando
162 tiene el más alto. Entonces, cuando vengamos aquí, obtendremos el valor x aquí. Es decir, ese será el
peso de la persona. Entonces intentaremos encontrar
una línea que represente
correctamente la línea, ¿de acuerdo? Y datos, ¿verdad? Datos según los criterios
matemáticos específicos. ¿Bien? Entonces regresión lineal, estas dos variables o
a través de una ecuación. En regresión lineal,
estas dos variables, dependientes e
independientes, desgastarán la potencia exponente de
ambos niveles digitales es uno. Porque lo que vamos a usar estas una simple ecuación de línea escribir y es igual a m x más
c. Y es igual a m x más c, donde m es la pendiente y el valor
constante, ¿bien? Entonces es una constante, ¿verdad? Entonces aquí m x m es pendiente. Entonces en base a esto, podemos
trazar cualquier línea, ¿verdad? Entonces esta es la ecuación de
línea simple, ¿verdad? ecuación de línea recta y
es igual a mx más c. Entonces, basándonos en esta X e Y, tratamos de encontrar esta línea que realmente
representará esos datos, datos altura y peso. Y como se les llama
su poder es uno, y cuadrado m x más c. El
poder de x e y es uno. Se llama ecuación de
línea simple. Y si su poder no
es igual a uno, formará un auto. No va a ser una línea recta. Será alguna línea curva como función
sigmoidea o
algo así, ¿verdad? Entonces en base a esta ecuación
intentaremos encontrar,
bien, entonces y es la variable de
respuesta, ¿verdad? Debido a que el valor y vamos a
predecir con base en el valor x. Y x es el valor predictor, valor o variable independiente. A y b se denominan coeficientes. Entonces, cuando realicemos regresión
lineal, vamos a tratar de encontrar eso. valores A y b, estos se denominan coeficientes, son coeficientes de regresión. Y construir sobre estos dos valores, a y b, encontramos
el valor y, ¿de acuerdo? Y con eso,
conseguiremos estos puntos, estos puntos en la línea. Y cuando trazamos una línea, unir esos puntos obtendrá una línea recta o
una disminución en línea. Y esta línea
te dará la verdadera predicción
de los datos. ¿Bien? ¿Dónde se usa? Bueno, usamos la regresión
lineal. Por lo tanto, el análisis de regresión se utiliza
principalmente para dos fuerzas conceptuales de
propósito distinto. El análisis es ampliamente utilizado para la
predicción o pronóstico. Supongamos que tenemos datos de altura
y peso. Queremos construir sobre la altura. Queremos predecir la
altura de una persona ahí. Podemos usar nuestro pronóstico. Supongamos que mañana
lloverá o no, casos
verdaderos o falsos. ¿Bien? Entonces ese tipo de
pronósticos que podemos hacer, como en el clima
será como un día soleado. Voy a salir en un
día soleado. No va a llover. Pronosticación, podemos hacerlo en la situación de pronóstico y
predicción, utilizamos la regresión lineal
en el aprendizaje automático. Y luego segundo es
situación análisis riguroso puede ser utilizado en para la relación
casual entre las variables independientes y
dependientes
que apoyan cuando se tienen dos variables y dependientes e independientes, quiere encontrar cómo se
relacionan. Lo son, podemos usar esa regresión
lineal para encontrar la relación entre la variable dependiente e
independiente. Entonces ahora cómo
establecer la
regresión lineal o regresión. Ejemplo sencillo que
vamos a hacer en nuestra mano, puestas de sol en, que
van a ser predecir el peso de una persona en
función de la estatura. Entonces, si conocemos la
altura de una persona, podemos predecir el peso con este análisis de regresión lineal. Entonces para hacer esto, necesitamos
tener relación entre la altura y el peso de una persona
y cómo lo hacemos, porque tenemos esos datos
altura y ancho aquí que vamos a usar
en nuestro ejemplo. Entonces, lo que hago primero, necesitamos recolectar
los datos para los que queremos establecer
esa relación. Entonces vamos a tener estos
datos y luego vamos a, lo que vamos a, vamos a hacer una vez que
tengamos los datos voluntad. Lo real es que, una vez que tengamos los
datos realizaremos algún análisis exploratorio de datos para limpiar los datos si
faltan algunos valores ahí, cómo podemos eliminar, qué, cómo podemos sentir que nuestros datos. Entonces ese tipo de cosas
que hacemos en la vida real. Pero aquí, lo que vamos a hacer, habremos ordenado un dato
muy de carácter aquí. Entonces sabemos no
hacer todo ese tipo de cosas que veremos en la última parte del curso. Pero por ahora aquí tenemos
los datos muy limpios. Entonces qué vamos a hacer,
vamos a realizar eso. Utilizaremos la función lm
e intentaremos
establecer la relación
entre altura y peso. Alto y ancho,
y y x, ¿verdad? La altura y
el peso intentarán realizar. El arrendador intentará crear un modelo de regresión lineal
utilizando la función lm. función Lm es la
función inversa en R que
hará todo el
cálculo matemático en segundo plano. Y nos dará la
relación entre x e y.
Escribe y y x están
agudizadas mojadas. Creará la función IF de
esencia real. Y cuando lleguemos, cuando usamos resumen
de esa esencia real, si podemos encontrar los coeficientes a y b y cómo
están relacionados. Entonces, en base a eso, podemos trazar
la línea regular de insulina. Y también podemos predecir
el peso de una persona. No predijiste la función. Hay otra
función llamada predict, que usaremos esta relación
que es función lm. Bien, entonces utilizará
la regresión lineal, nuestra relación que hemos
establecido en este paso. Y usará estos valores
x e y
esta relación e intentará trazar la línea de regresión para nosotros. Vamos a trazar la línea de
regresión aquí, pero aquí con la función
predict. Y predecir la función
utilizará internamente esa función o relación que obtengamos a través del modelo de regresión
lineal. Y utilizará este
modelo para predecir la altura con base en el peso. Entonces veremos cómo podemos
hacerlo en la próxima conferencia. Entonces espero que hayas llegado a entender qué es la regresión
lineal. La regresión lineal es
algo así como apoyarte. Aquí tenemos los puntos y queremos predecir con base
en los nuevos datos. Queremos predecir que en
base a la altura, quiero, supongamos en base a la altura 230, ¿cuál será el
peso que quiero encontrar? Entonces aquí, si sólo tenemos los
puntos de datos, no podemos hacer eso. Entonces, ¿qué
modelo de regresión lineal hará? Creará una línea
recta que
realmente representará estos puntos de datos. Entonces se hará a 30 si dibujas una línea
aquí y aquí, el punto de intersección aquí, te dará algo así como cuál será
la altura de esa persona. Por lo que te dará
una línea de regresión. En base a eso, se puede predecir
el valor predictor de R, predecir el peso de una
persona en función de la estatura. ¿Bien? Entonces nos vemos dentro
de la siguiente conferencia.
41. Predicción con el modelo de regresión lineal: Hola y bienvenidos de nuevo. Entonces en la conferencia anterior, hemos aprendido qué es regresión y lo que
hemos aprendido, qué es la regresión lineal y cómo podemos usar
y dónde está. Tienes razón. Entonces este es
el sistema práctico. Y aquí intentaremos escribir nuestro código para implementar regresión lineal
simple, donde estaremos usando
uno de dos vectores, x e y, donde x está conteniendo el peso
de las porciones. X cada uno contiene la altura
de la altura del paciente
de altura parcial de
pocas personas, ¿de acuerdo? Y entonces y
contendrá el peso. Entonces x es altura e y está conteniendo el peso
correspondiente a esta x. ¿Bien? Entonces basándonos en ninguna altura
construida sobre la x, queremos encontrar la y, ¿verdad? Entonces este es nuestro conjunto de datos, ¿verdad? Entonces, con base
en X, en la altura de una persona, queremos predecir la altura de un saudí parcial
hecho sobre la altura. Queremos predecir el peso
de la persona, ¿no? Entonces en base
a x, queremos predecir la y, que es aquí estamos
considerando por qué otro peso. Entonces x es altura y peso. Y es bastante sencillo
establecer la relación entre x e y en R. Y
debido a que R está teniendo función oh, lm, función lm
es función de regresión
lineal o modelo lineal. Lm función va a crear esa relación
entre x e y. así que aquí la primera variable, los primeros datos
vectoriales de datos vamos a definir aquí que son las variables
dependientes. Entonces esta es la razón por la que queremos
predecir con base en la x. Entonces, cuando escribimos así, significa basado en la x, vamos a predecir y. Entonces y no es valor de predicción, y x es el predictor. X es la
variable independiente e y es la variable dependiente.
Y. Y es dependiente porque y valor depende de
la X proporcionada, ¿verdad? Entonces, cualquiera que sea el valor x que
proporcione en base a eso, nuestro modelo predecirá y valor, ese es el peso, ¿verdad? Entonces proporcionaremos X que
es altura de proporción. Y en base a eso,
predecirá la
variable dependiente Y, que es el peso y la estatura. Prediremos el
peso de la proporción. Entonces esta función lm simple, no
vamos a hacer la matemática de fondo porque función
lm la
implementará, encontrará el
coeficiente y todo ello establecerá
esa relación. Pero en R, ya que
estamos usando
in vitro en bibliotecas construidas
de función lm, automáticamente creará la relación
entre x e y y en base a eso,
podemos predecir. Entonces, lo primero, el primer paso
es tratar de establecer la relación lineal
entre x e y, ¿bien? Entonces el predictor estará aquí o la variable dependiente
estará aquí. Y esta es la variable
independiente. Entonces en base a la altura
se predecirá x. ¿Por qué es eso, esperar
hasta la porción. Entonces aquí simplemente estoy
dando un nombre de archivo, W, altura, peso un
punto PNG, cualquier archivo. Déjame, puedes darles
aquí lo que estoy haciendo. Solo estoy trazando valores y, x, y valores x
en el plano x y. Y le estoy dando un color azul. Se le puede dar verde. Y podemos escribir aquí la
altura, el peso de las lecciones. Si puedes imprimir las lecciones, la regresión,
lo que quieras, puedes poner aquí, bien, y luego estoy usando la línea AB. Cada línea creará
la línea de regresión, y sin embargo yo estoy proporcionando el LM. ¿Bien? Y luego en esto vamos, veremos cómo podemos
cambiar y ¿qué es eso? Es como jaja, como quieres poner los puntos de
datos en la gráfica. Y luego en el eje x, esperando cagey y eje y,
altura en centímetros. ¿Bien? Entonces así es como lo
vamos a trazar. Y luego lo que estoy haciendo aquí. Voy a proporcionar el
alto toque de 170 centímetros. Entonces aquí estoy aportando X
igual a 170 centímetros. Y en base a este valor x, quiero predecir el
peso predicho de la persona Y. Entonces X estoy aportando aquí. Entonces estoy creando un DataFrame y estoy trazando x igual a 170. Esto será, le estoy dando a
esta variable nombre como un nuevo borde, nueva altura. ¿Bien? Y entonces lo que estoy haciendo, simplemente
estoy prediciendo un
museo, la función de
predecir, predecir y estoy usando esta relación que
hemos establecido. Y yo estoy proveyendo. La
variable independiente que es x. Así que este valor x
está aquí. Nuevo mojado. Estoy proporcionando nuevo
pero eso es uno 70, uno proporcionando lo que estoy trazando x aquí y quiero
predecir la Y. Así que cuando ejecutemos esto, obtendremos el valor y. Entonces para 170 centímetros de altura, cuál será el peso
de la persona que va a predecir con base
en la relación que hemos establecido en el modelo lineal, modelo de
regresión lineal. Así que déjame ejecutar esto
y ver la salida z. Salida que estamos obteniendo como 67.33. Entonces para 170 centímetros,
la altura de una persona está teniendo una altura
de 70 centímetros. Nuestro sistema predice
que debería tener el top alto 67.33. Ceo. Si ves 170, será sobre eso. Bien, veo 167. Lo es. Nuestro sistema
predice para uno, 70, 67. ¿Bien? Entonces hará el
cálculo matemático dentro y establecido antes lección y ya estamos hechos de que escuchen, en
base a este modelo, ese
modelo de regresión lineal que hemos creado, predecirá el peso de la persona que
viene alrededor de 67.33. Déjame mostrarte la gráfica. Bueno, entonces esta es la gráfica
que aquí hemos impreso. Asegúrate de ver
aquí estos puntos, los puntos de datos
vienen en verde porque hemos
dado aquí en verde. Si lo hago leer, los puntos de datos se
convertirán en derecha, derecha. Bien, entonces déjame abrir
el archivo otra vez. Los puntos de datos están en rojo. Y una cosa más que
quería decirte, mira, este valor CX
definirá si
lo hago soporta 2.5 y si lo ejecuto, los puntos de datos serán mayores. ¿Bien? Así que nos vemos, ahora los puntos de datos
vienen en una forma más grande. ¿Bien? Entonces de esta manera, este
es el valor x es aumentar o disminuir
los lados de los puntos de datos. ¿Bien? Y esta pieza aquí, cisteína y permítame cambiarla a 26 y ver qué
impacto está votando. Ahora viene así. Entonces así es básicamente como
quieres poner tus datos. Entonces ahora viene ahora. Manera rectangular, recta. Si lo pongo al proyecto en, viene en un diamante mismo. Entonces así es básicamente como
quieres poner tu aguja, cómo quieres que te guste
hacerla de un color sólido. Entonces, básicamente, el valor de PC cambiará la forma de
los puntos de datos, ¿verdad? Retrato de cisteína,
vendrá en más o menos circular en círculos. ¿Bien? Entonces ahora y xlab es lo que ponemos en el eje x y el nombre en el eje x y
luego la altura del eje y. Entonces esta es la altura y
este peso de borde. Y esta es la principal
que si hemos utilizado manejamos igual a
altura y peso y cremallera. Entonces eso va a venir
aquí y ver, sí, esta es la línea de regresión
que ha dibujado nuestro modelo. Entonces esto te las dará. Si quieres predecir un valor, puedes simplemente poner aquí 67 y te dará este sistema de
valores predecirá. Entonces mira tu proceso T7, la altura es, déjame adentrarme un
poco más en la cosa. Así buscó 67, la altura es una. Tal T7. No
quería prepararlo. Y veamos qué es lo que nuestro sistema predice
para 150, ¿de acuerdo? Ese es mi puerto 165. Entonces se puede ver para
tal T7, este también. Pero nuestro sistema
predice cinco. Por lo que es similar como
67.25, 1321 a T7. Y nuestro sistema está prediciendo uno que pondrá
el punto de control y C. Así que esto es como
jugar con el código. Si sirvo esto, veamos qué obtenemos. C, obtenemos 65.44. En nuestro conjunto de datos, ¿qué es eso? Viniendo alrededor del 67. Entonces así es como nuestro sistema está prediciendo. Es bastante exacto, ¿de acuerdo? Y esto dice esa
línea de regresión que ha dibujado. Así que aquí estamos prediciendo, ¿de acuerdo? Lo siguiente que podemos hacer
es como mi estado ideal. ¿Bien? Lo que quería decirte más, podemos alguien fuera lección y veremos qué nos da
alguien. Entonces, si le pongo peso
solo a esto, CEO, deberíamos obtener
todos los residuos como mínimo, mediana de un
cuartil, valores máximos del
tercer cuartil y luego el
coeficiente de copia m y c m y c m x más c m y c los valores están
saliendo como interceptar aquí. Y eso viene este valor t y el valor P viene así. Entonces estas son las cosas, estas son la
cooperación que se calcula por la función lm. Y en base a esto, se está pronosticando el clima. Y en base a
esto, está probando la línea celular
particular. Y CEO múltiples
valores R cuadrados vienen así. El R-cuadrado ajustado
viene así. Y F estadísticas
que vienen esto. ¿Bien? Y los valores p aquí, veremos en similares, estos son los más allá del
alcance de este curso. Cuando aprendemos, cuando aprendes algoritmos de aprendizaje
automático en profundidad, estarás llegando a conocer
qué son estas copias y para qué sirven. Eso está más allá del alcance
de este curso porque solo
estamos aprendiendo nuestra programación para
la parte de aprendizaje automático. Deberías estar sabiendo
que ahora la función lm usará internamente
estos
coeficientes de costo de mundos 3D y el error
estándar que
vendrá porque ningún modelo
predecirá el botón Conectar, por lo que habrá error. Entonces el
error estándar residual viene alrededor este valor R-cuadrado de 17 grados de
libertad. Entonces lo que quiero
son los valores predichos
y el valor esperado, los valores predichos y
lo que sea que sea. Entonces ese será el error. Sea lo que sea que estemos buscando y qué sistema está dando que
habrá una edición. Y si lo hacemos es un día bastante malo, vamos a conseguir que esos se
describan en eso. ¿Bien? Entonces estos son los
valores que serán utilizados por el modelo de
regresión lineal de aprendizaje automático internamente y para predecir la variable
dependiente. Bien, entonces espero que
tengas que entender poco de un modelo de
regresión lineal y cómo puedes usar la función lm para
predecir y cómo
puedes dibujar esa línea de
regresión lineal. Bien, Así Stephen sitio,
la siguiente conferencia.
42. Lectura de CSV que crea un modelo de LR y predicción: Hola chicos, bienvenidos de nuevo. Entonces en la conferencia anterior
hemos visto cómo podemos usar modelo de regresión
lineal
y cómo podemos crear la relación entre la variable dependiente
y la variable independiente, y cómo podemos predecir, y cómo podemos incluso trazar
la línea de regresión lineal. Línea de regresión me refería. Bien, y hemos visto cuales son los coeficientes cuando usamos el resumen y como el modelo
lineal para pixel, y hemos visto como
podemos predecir los datos. Pero en el
ejemplo anterior, lo que hemos hecho, hemos tomado el vector r, hemos tomado ese vector de datos para la altura y su peso. Y entonces hemos creado el
modelo de regresión lineal para x e
y. Y entonces hemos predicho, ahora, en el mundo real, no
tendremos los
datos en este formato, en el formato vectorial. En cambio, nosotros, la mayoría de las
veces vamos a tener los datos en nuestras bases de datos están en
los archivos Excel o CSV. La mayoría de los casos
será archivo CSV punto, archivos separados por
comas, ¿
verdad? Ya sabes. Entonces en este ejemplo, lo que voy a
hacer, te lo diré, como ya hemos
visto cómo podemos leer el archivo CSV en las conferencias
anteriores. Y eso, ese conocimiento que
vamos a utilizar en esta conferencia para
crear modelo lineal. Y leeremos los datos
del archivo CSV. Entonces para eso, he creado con los mismos datos altura
y peso que hemos utilizado en la conferencia
anterior, he creado un archivo CSV
con peso y altura. Entonces esta columna es el peso
y esta columna es la altura. ¿Bien? Entonces este es el archivo CSV, alto, ancho punto archivo CSV. Y lo que voy a hacer, el primer paso es que leeremos
los datos del archivo CSV, trataremos el archivo CSV. Entonces para eso, estoy
usando metadatos y estoy usando la
función read.csv para leer el archivo CSV. Entonces con este read.csv, leerá el archivo CSV y obtendrá los
datos en este vector, este objeto, objeto de datos. Así que podemos ver con nuestro archivo read.csv está leyendo
los datos correctamente o no. Entonces para eso, podemos usar la función view y proporcionar
el objeto dentro de eso. Entonces cuando esta vista pulmones y
obtendremos este objeto de datos, irá aquí y
leerá el archivo CSV. Y luego con BYU podemos
obtener la vista de los datos. Entonces déjame correr estas
dos líneas por ti. Ver aquí, estamos
obteniendo la vista de los datos TO en nuestro
peso y estatura. Entonces lo mismo, perdón. Ver los mismos datos que podemos ver en el RStudio ahora con
la función view, wavefunction verá
los datos de esta manera. Entonces ahora tenemos claro
que nuestro archivo de datos, datos que hemos leído
del archivo CSV. Ahora lo que podemos hacer el siguiente paso es crear el
modelo de regresión lineal para la predicción. Entonces queremos predecir el
peso y la estatura. Queremos predecir el
peso de la persona. Entonces para eso, crearemos
el modelo de regresión lineal. Entonces usaremos la
función lm y w aquí, peso será el
peso será la
variable dependiente y la altura será la variable
independiente. Entonces, con base en la altura, queremos predecir el peso. Aquí los datos se llaman datos. Datos significa que estamos
usando estos datos. Se le puede dar cualquier
nombre. Se puede. Ahora, podemos modificar esto con,
perdón, estatura peso, perdón, en realidad datos W, datos de
estatura peso. Y así nos estamos comiendo
su archivo CSP. Vamos a poner esto aquí. Y entonces los datos son CO2
pondrá altura cuando los datos, ¿de acuerdo? Entonces de esta manera, la fuente de datos
son los datos de peso de altura que hemos
obtenido del archivo CSV. Y aquí estamos creando el modelo de regresión lineal
usando la función LM. Y estamos dando la
variable dependiente o independiente aquí espera, y la variable independiente
es altura y los datos iguales a nuestra fuente de datos
serán esos DOS datos. Y permítanme comentar esto para que no
nos moleste. Y ahora tenemos, ahora este modelo. He dado nombre y modelo. Y usaremos resumen de nuestro
modelo para obtener los detalles. Entonces déjame correr estas
dos líneas son, déjame correr hasta aquí
porque hemos modificado. Entonces déjame dirigir esto. Así que mira aquí, ahora
estamos consiguiendo el Resumen nuestro modelo lineal, modelo regresión
lineal
como los niveles de colesterol o este, mediana del cuartil. Coeficiente máximo del tercer cuartil, intercepción
apretada, todos esos
valores que estamos obteniendo aquí. Y luego estamos obteniendo
el error estándar. Error estándar como 1.21, 0.789, 17 grados de libertad múltiple valor R cuadrado ajustado
valor R cuadrado, valor p. Y también estamos llegando
a las estadísticas, ¿de acuerdo? Entonces ahora nuestro modelo, eso significa que un modelo de
regresión lineal está listo. Ahora estamos listos para predecir con
base en los nuevos datos. Entonces lo que estoy haciendo aquí, estoy aportando una nueva
altura que es 152.21. Bien, déjame modificar
esto a 16485. ¿Bien? Y para esta altura, quiero predecir el peso, lo que esta altura de 165.85
centímetros, quiero predecir el
peso de la persona. Entonces este divertido DataFrame, porque lo que sea que
leamos del archivo CSV, vendrá como un DataFrame. Así que estoy creando un DataFrame aquí y con una altura igual a 174.85 y le estoy dando un nombre sabía que objeto más nuevo de
ayer
contendrá el sitio azure 164.85. Ahora, los últimos días es predecir el peso
usando un modelo. Y para eso, estamos
utilizando la función de predicción. Y dentro de la función predict, estamos aportando dos argumentos. Uno es nuestro modelo, nuestro modelo que
hemos creado aquí. Entonces este modelo LM lo
estoy aportando aquí, para que en base esta relación
prediga y lo que predice. Y estamos aportando los
datos que es altura. Por lo que estamos brindando
altura como 164.85 año. Entonces estamos proporcionando
el objeto de datos aquí que el nuevo borde. Por lo que tomará
esto como insumo. Se irá a este modelo. Y en base a esta
esencia real de altura ancho, pondrá la altura como 174.85 y
predecirá el nuevo peso, peso de esta persona. Bien, entonces ahora esto
predice algún valor. Lo estoy manteniendo en peso predicho porque
somos los pesos. Así que he dado mojado predicho
como este nombre de objeto. Ahora, lo siguiente es que tenemos el nuevo peso en este
peso repetido en este objeto. Tenemos que imprimirlo. Así que puedes usar la impresión aquí. Pero como quería
imprimir una línea múltiple, así que estoy usando la función cat. ¿Bien? Entonces debido a que la función printf imprimirá solo 11
líneas a la vez, quería concatenar o
dos oraciones. Para altura. Este peso predicho es este. ¿Bien? Entonces esto
solo puede ser posible con la función cat. No podemos hacer esto con la función de impresión
porque la función de impresión tiene limitación de solo imprimir los objetos, valores de
objeto. Sólo puede imprimir,
no puede imprimir el estado de cuenta. Entonces para eso estoy usando cat. Si quieres imprimir
algo como esto, puedes usar la función cat. Entonces ahora estoy usando cat y
estoy usando para altura igual para modificar
este para viento. Es cinco peso predicho es, estoy imprimiendo ahora
donde predijo aquí. Así que déjame ejecutar
todo el código aquí, así que voy a hacer clic en Fuente
y CEO para la altura 164.85 se predice
peso es 661794. Entonces ahora con esto podemos predecir, por lo que ahora nuestro modelo, este modelo de regresión lineal está prediciendo el peso como 66.79. Déjame mostrarte este modelo y el modelo anterior está
dando el mismo resultado o no. Entonces qué voy a hacer, en lugar de un PIP2 en el ejemplo
anterior, voy a poner 164.85 y voy a
tratar de correr este
último año también, estamos obteniendo el mismo
resultado, 66.7, 9465. Entonces en ambos sentidos, porque
los datos son los mismos aquí, hemos guardado en la forma vectorial
Aquí y aquí lo estamos leyendo desde el
archivo CSV, pero los datos son los mismos. Por eso estamos obteniendo
los mismos resultados
de los dos modelos. Así que de esta manera, se puede leer desde el archivo CSV y crear un modelo de regresión
lineal. Y luego en base a eso, puedes predecir el valor, lo que quieras.
Eso se puede hacer. Puedes probar este problema con cualquier otro punto de datos
que puedas tener. Como basado en la edad, puedes detectar el
peso o
en base a algo que datos
categóricos, tus datos puedes tomar
y puedes poner en el archivo CSV y
puedes predecir un valor pero en el otro creando
el modelo de regresión lineal. Entonces espero que con este ejemplo, estemos bastante seguros
de la regresión lineal, cómo podemos crear un modelo de regresión
lineal
para predecir los valores. Y espero que
practiques más con esto. Y puedes hacerlo mucho
mejor que esto, ¿verdad? Entonces, cuando practiques, mejorarás con nuestra programación y las cosas
de aprendizaje automático. Espero que llegues a entender el modelo de regresión
lineal. Y eso es todo para esta conferencia. Entonces veamos qué
podemos aprender más.
43. Regresión múltiple: En la conferencia anterior, hemos visto cómo podemos
utilizar la regresión lineal. Lo que hemos visto como regresión
lineal usando dos vectores son dos
objetos de datos como el peso y la altura. Y hemos creado que
la marca licenciataria, entonces tenemos hockey. Y entonces tenemos ese archivo
CSV land o
creamos nuestro modelo LM, la relación lineal entre el peso y la altura y
luego se reunió y la altura. Predijimos lo
menos productivo correspondiente. Genial hasta el parcial. ¿Bien? Ahora bien, esta fue la lineal
o la colisión, ¿verdad? Ahora, nuestra regresión
lineal simple, ahora tenemos otro
problema donde
estamos la variable de respuesta
en nuestra variable dependiente, o el valor que
vamos a predecir va a ella. Puede, como en
regresión lineal lo que hemos visto, la variable dependiente y las variables
independientes. Variable dependiente,
dependiendo de una sola variable, una tasa variable independiente. Pero en situaciones de la vida real, la
mayoría de las veces la salida o el valor que
vamos a predecir. No necesariamente va a depender de una sola variable
dependiente. Pero puede haber muchas, muchas
variables independientes que van a definir van a afectar a
la variable independiente. Entonces no es como la situación como siempre obtendremos la regresión lineal, simple
lineal. Podemos tener múltiples variables
independientes que van a
afectar a la salida. Como en caso de apoyar la
forma en que la predicción, el clima. predicción puede depender muchas situaciones como
si es un día lluvioso, qué región es, ¿qué tipo de nubes hay? Y muchas cosas más, ¿verdad? Supongamos que tienes un
negocio y vas a predecir tus ingresos en
base a algunos factores. Entonces debe haber, puede
haber muchos factores, como dije antes, como, debe tener el
número de empleados, cómo vamos a
elogiar a sus empleados, eso también va a
afectar sus ingresos. ¿Cómo es tu ganancia y pérdida? Si estás en ganancias, tus ingresos
van a ser más. Si estás en pérdida, tus ingresos van a disminuir. Y si no vas a hacerlo, supongamos que tienes algunos nuestros impuestos, más impuestos, entonces
vas a ser ingresos que
van a afectarlo. Entonces hay muchos
factores que van
a decidir o definir
tus ingresos. Entonces aquí, esto, este problema no se puede manejar con
la regresión lineal. Tenemos que usar regresión
lineal múltiple porque el valor de salida o los ingresos
dependen de muchos factores. Entonces aquí los factores son
características serán independientes. Las características son los factores que
van a encontrar los ingresos. Entonces en ese caso, tendremos como a, B X1, X2 más así sucesivamente
y así sucesivamente, bn XN. Esto significa esto, b1, b2, bn, y E, todos los coeficientes
más adelante los hemos visto en nosotros, y igual a mx más c aquí mismo, solo un eje allá. Pero en regresión múltiple
habrá b1, b2, b3 ante nosotros hasta Vn, ¿verdad? Que pueda haber n
número de factores que van a afectar a esta y. ¿Bien? Entonces esta es la regresión lineal
simple. Y esta ecuación es para regresión lineal
múltiple
porque eres B1, B2. Puede haber una serie de factores que van
a afectar el resultado. Entonces, la regresión lineal múltiple, también conocida simplemente como regresión
múltiple, es una técnica estadística
que solo tiene varias variables
explicativas para predecir el resultado de nuestra variable de
respuesta. Bien, entonces qué voy a hacer, déjame mostrarte un conjunto de datos. Entonces lo que voy a usar, voy a usar en datos
reales que
están disponibles con la R, es
decir autos vacíos. Así que los datos empíricos, este conjunto de datos está disponible
con el propio paquete R. Entonces, cuando descargues R, vendrá
incorporado con el paquete R. ¿Bien? Así que los autos vacíos, para
que puedas usar la vista. Ver. Soy disparadores
te dará la vista del conjunto de datos. Así que mira, este es el conjunto de datos de varios dioses como
Martha Jackson, Hornet. Eso es inigualable está bien. Entonces hay muchos autos y
es como millas por galón, desplazamiento de
cilindros,
caballos de fuerza, peso. Bien. Así que hay, hay muchos
clave un número de años coche. Bien. Entonces todos estos factores
van a definir las millas por galón o pocos factores pueden no
estar afectando mucho. Y los vectores de campo
van a afectar más. Al igual que si considera millas por galón como la
salida a la
que desea llegar, desea predecir
las millas por galón en función
del desplazamiento, caballos de fuerza, peso del automóvil. Entonces también, tal vez número
de cilindros no
van a afectar gran parte
del partido bajo tienen mucho efecto en las millas por
galón o en algunos casos, puede tener mucho Lexi sí, cuatro cilindros está teniendo
un -33, 30, 26 más. Y si ves que ocho cilindros
están teniendo menos menos dos, esta cantidad de cilindros en el motor va
a afectar a la mielina. Entonces este es un factor. Entonces. El desplazamiento también puede tener efecto en el promedio
del kilometraje del automóvil. Y luego leer el auto también
va a afectar. Vea aquí que existen
diversas características, son las variables independientes, el número de
desplazamiento del cilindro, peso y el número de engranajes. Entonces estas son las
cosas que van a afectar a la mielina. Entonces aquí tenemos que usar regresión
múltiple si se
quiere predecir el kilometraje o por automóvil en función del número de
desplazamiento del cilindro, peso. Todos esos factores,
si hay que considerar, entonces tenemos que usar esa regresión
múltiple. Y si tú, si ves esta ecuación
de regresión múltiple, esta b0, b1, b2, x2, y x1. Entonces este X uno puede ser
el peso del auto, extra puede ser el
desplazamiento del auto. Y X3 podría ser
el otro factor, como el número de
cilindros en el auto. Entonces y este b1, b2, b3 sea, por todos
estos coeficientes, van a decidir con
base en el cómo, el, cómo X1 o el peso
del auto está afectando
al Majlis general o
promedio arriba del auto. Entonces en base a estos valores, ¿cómo le está afectando
se decidirá si es a, b1 es más que este peso del
X1 va a ser más correcto? Así que de esta manera podemos usar
la regresión múltiple. Entonces, lo que haré en
la próxima conferencia, lo
haremos de manera práctica en este
conjunto de datos que son autos vacíos. Y trataremos de utilizar regresión lineal
múltiple
o regresión múltiple para predecir millas por galón o promediar
hasta un automóvil en función las características que esto depende, así que aquí, el desplazamiento del cilindro, el
peso del automóvil. Todas estas serán variables dependientes
o independientes. Y millas por galón
serán las variables dependientes. Significa que estos valores serán peso del
cilindro
del automóvil, el número de peso del cilindro del automóvil, el
desplazamiento del automóvil
número de años en el automóvil. Estos serán los predictores y millas por galón
serán el valor predicho. O estas serán las características o las características independientes, variables
independientes. Y esta será la variable de
respuesta, o la variable de salida, o el valor de predicción. Entonces esa cosa que vamos a hacer en una lección práctica
en la próxima conferencia. Nos vemos dentro de la siguiente conferencia.
44. Cómo predecir el kilometraje de automóviles con una regresión múltiple: Hola y bienvenidos de nuevo. Entonces ahora vamos a hacer algo
con la regresión múltiple. Entonces este es un sistema práctico
bajo regresión múltiple. Entonces vamos a usar el conjunto de datos de autos
vacíos. Y para eso,
no vamos a usar todas las columnas son todas las
cosas que están ahí fuera. Pero vamos a usar MPG, desplazamiento, SP,
y esperar a Dios, bien, caballos de fuerza y
peso del auto. Bien. Entonces, con base en estos tres, vamos a predecir kilometraje del auto o
el promedio hasta el auto, millas por galón arriba del auto. Bien, entonces vamos a
usar estas tres características,
estas cuatro características hasta nuestro conjunto de datos. Y tres serán las, estas tres serán las variables
independientes, y este NPD será la variable dependiente
o el valor predicho. Y estos tres serán el predictor
predicho. ¿Bien? Entonces, lo primero es que necesitamos
crear el modelo de relación, el modelo de regresión lineal,
nuestro modelo de regresión múltiple. Así mismo, vamos a usar la función lm
que tenemos aquí dos en regresión
lineal simple. El tema lm función
vamos a utilizar, pero con una fórmula ligeramente
diferente. Entonces, sea lo que sea que demos, escuchen esta llamada fórmula. Y la segunda entrada es, segundo argumento son los datos. ¿Bien? Entonces aquí, déjame
poner estos datos de costos. Esto tiene un costo para ello. ¿Bien? Entonces ahora este es el, estos son nuestros datos. Esto contendrá estas
cuatro características, ¿de acuerdo? Y sus valores correspondientes. ¿Bien? Entonces datos, estamos usando datos de
costos hockey que estamos
obteniendo de los autos vacíos. ¿Bien? Vamos a
crear el modelo. ¿Bien? Déjame hacerlo modelo de
regresión lineal, modelo regresión lineal
múltiple,
modelo MLR. Le estoy dando el nombre. Entonces déjame, bien. Entonces ahora aquí, nuestra
capa, ¿qué hacemos? Teníamos solo un valor predicho
y un predictor, ¿verdad? Entonces solíamos dar así,
bien, casados bajo
desplazamiento, encontrar al Majlis. Pero ahora tenemos tres
variables independientes que
van a afectar a la
mielina arriba del auto. Entonces tenemos que dar, este será el valor predicho o la variable dependiente. Y aquí estos tres, podemos dar desplazamiento
más ese p más peso. Estas tres estarán ahí variables
independientes que
van a afectar a la mielina. Así que de esta manera podemos usar
la función lm para regresión
múltiple y regresión múltiple porque estamos usando múltiples características para
predecir un valor. Un valor predicho
vendrá en base a las más, una o más
variables independientes, ¿de acuerdo? Y datos iguales a cos theta. Así que déjame correr hasta aquí. Imprimiremos el modelo. Bien, veamos cuales son
los coeficientes y todo lo que estamos obteniendo sodio. Entonces mira aquí ahora nuestro
modelo está dando la intercepción como 37 y desplazamiento como viento urogenital 97 al coeficiente b
viene así. Y lo haríamos coeficiente
viene esto. Entonces aquí está la intercepción. Este valor de intercepción es 37. Eso será, eso es un. si miras esta fórmula, y es igual a un más b1 x1 más x2 más beta tres x tres. ¿Bien? Entonces aquí tenemos tres, así que va a llegar a ser tres. X d. Aquí está 37. Este valor de intercepción
será la a, y luego B1 será
el desplazamiento. B2 será el HP, el coeficiente
HP, y B3 serán las copias
ponderadas, y eso es -3.8. ¿Bien? Entonces ahora tenemos aquí los valores
de los coeficientes. Simplemente podemos imprimir
el valor del coeficiente. Si pongo x. esto, voy a obtener el
coeficiente de desplazamiento. El mismo valor que estoy
consiguiendo aquí, ¿verdad? Entonces lo que puedo hacer ahora, puedo poner estos
valores de coeficiente en esto, en esta ecuación para obtener nuestro valor predicho
y. y será el MPG. En este caso, nuestros
pilotos en este caso, tenemos esta intercepción y
tenemos el B1 como este, B2. Tenemos esto y
este será el V3. Ahora, si tenemos un auto
con desplazamiento 324 y HP y 110
y peso como 2.5. Podemos predecir el
promedio poniendo estos valores con
el coeficiente y las cosas están
separando esta fórmula. Entonces lo que voy a hacer, y igual a un plus, entonces a será este
valor 37, ¿bien? Y x será la intercepción
de desplazamiento, ésta. Y entonces multiplicaré eso con el valor de desplazamiento 324. Entonces x es p será el
coeficiente de HP, este. Y voy a multiplicar
eso con el 110. Esa será la
parte más caliente del auto. Y entonces x t será el coeficiente de peso que
estamos consiguiendo aquí, -3.8. Y voy a multiplicar eso con
el peso del auto. Así que nos vemos simplemente poniendo en esta ecuación, estos valores, podemos predecir la salida, cualquiera que sea esta
ecuación,
salida de regalo será el
kilometraje previsto del automóvil. Entonces déjame correr esto
déjame correr estas dos líneas. Ahora las millas pronosticadas
de la tarjeta son 23.87. Entonces basado en la pregunta aquí, basada en esta ecuación, porque aquí el valor de E
será 37 -0.00, 0937. Y todos estos valores. Y si ponemos esto, obtendremos el valor y. Y es el mpg millas arriba del auto. Entonces el auto con
324 desplazamiento, HP ciento 10.2, 0.5, nuestro sistema está prediciendo
la mielina como 23.8 7247. Por lo que 23.8 será el
promedio de este auto. Entonces de manera similar, se puede dar otro valor por
el desplazamiento a B y peso del automóvil. Entonces, en base a estas tres variables
independientes, estamos prediciendo una variable
dependiente que es y Entonces mira aquí tenemos
los coeficientes e interceptamos en esta ecuación para
obtener el kilometraje del auto. Esto es bastante simple
y bastante real, ¿verdad? Estamos obteniendo la salida real, estamos obteniendo la salida. Y es decir, es decir a través un
modelo de regresión múltiple que hemos creado a través de esta relación,
a través de esta fórmula. Aquí la fórmula es que sólo
cambiando todas las demás cosas son bastante similares a
la regresión lineal. Pero aquí, si queremos
poner aún más características, puedes poner esa variable más
independiente aquí. Y habrá una variable dependiente
o la variable de salida. ¿Bien? Entonces en base a esto, estamos obteniendo la
salida como 23.87. Así que de esta manera podemos usar la regresión lineal múltiple y la regresión múltiple
para predecir el valor. Así que predecir un valor basado en las muchas características son muchas variables
independientes. Tenemos que usar regresión
lineal múltiple.
45. Regresión logística: Hola y bienvenidos de nuevo. En esta conferencia
vamos a aprender regresión
logística
y veremos un ejemplo sencillo de regresión
logística y
cómo podemos usarla. Bien, entonces primero lo primero, entendamos qué
es la regresión logística. Modelo de regresión logística. modelo logístico, también
conocido como modelo lógico, se utiliza para modelar la
probabilidad de una determinada clase. Como supongamos que si quieres, tú, si tienes algunos datos de Watson donde estoy como etiqueta diabética, etiqueta todas esas cosas. Y en base a eso,
quieres predecir si ellos sol está en forma o no, ¿verdad? Entonces aquí la persona
está en forma o no en forma. Así que sí, los datos son la salida que queremos predecir es una especie de naturaleza binaria,
ahí mismo. Hay dos cosas que encajan, no encajan, encajan persona o
no una persona en forma, ¿verdad? Entonces el modelo logístico se utiliza
para modelar la probabilidad de una determinada clase o el
evento exista tal píldora jefe, si estás escribiendo algo jam, ya sea
pasarás o fallarás tasa. Si estás participando
en acompañamientos y lo ganarás o perderás. Entonces hay
salida binaria derecha, pasado pálido, ganar-perder, vivo, muerto,
sano, o enfermo. Esto se puede extender para modelar varias clases de eventos
como determinar si una imagen contiene un gato o
un perro, un león, ¿verdad? Para que puedas poner nuestros correos electrónicos y podrás entrenar un sistema
que va a encontrar el, ya sean las imágenes de gato
o perro o línea, ¿verdad? Entonces gato o perro, tipo de
león, ¿verdad? cada objeto que se detecte en
la imagen se le asignaría una probabilidad 0-1, ¿verdad? Entonces puede ser un gato
o un perro, ¿verdad? Entonces siendo gato, uno siendo perro. Y si presentas
alguna, cualquier imagen, bien le asignará
el valor cero o uno, o una probabilidad
entre cero o uno. Podría ser 00.5 o
1.65, así, ¿verdad? Entonces la probabilidad será
0-1 y toda la suma de toda la probabilidad
será igual a uno porque la ocurrencia de eventos, probabilidad de ocurrencia
de eventos
sería siempre uno, ¿verdad? Así que de esa manera usamos nuestra regresión logística y regresión
logística, ¿verdad? La ecuación para
regresión logística es y es igual a 1/1 más e potencia a más b 1X1 más b2 x2
más B3 X3, y así sucesivamente. Entonces esta es la ecuación
matemática de regresión logística. En Python, usamos la función GLM
a la función GLM para la regresión
logística. Entonces la función GLM para ello también se conoce como modelo
logístico generalizado, ¿verdad? Glm. Y contendrá la fórmula como hicimos en regresión
lineal. Entonces escribiremos Cuando fórmula con la variable dependiente y la variable
independiente, ¿verdad? Y luego tenemos que
dar los datos sobre los que queremos realizar
la función GLM. Y luego tenemos que darle a la familia de
fuentes. Como familia. Aquí usaremos el
binomio en nuestros ejemplos. Entonces lo que voy a hacer, voy a usar los datos
temáticos de autos, datos autos
vacíos que
hemos usado antes, ¿verdad? Así que los datos de costo también
hemos usado en el ejemplo
anterior. Y voy a usar AIM. El objetivo es como un sistema de transmisión automática o
manual. Entonces HP, caballos de fuerza, peso y cantidad de cilindros
en el motor, ¿verdad? Y este EM es
automático o manual. Entonces los datos en los autos vacíos, contiene cero o uno. Entonces déjame mostrarte, déjame correr estas dos
líneas y ver los datos. Consulta aquí, para todos los autos, HP, peso y cilindro, m
es cero o uno. Es un
valor binario, cero o uno. O es el automático
o manual, ¿verdad? Bien. Para todos los autos,
tenemos datos para m, que es cero o uno, luego es uno o cero para toda la combinación de pesos HP y
cilindros. Entonces lo que voy a hacer aquí en este problema, en esta conferencia, qué vamos a hacer con la función GLM o función de
regresión logística. Eso basado en lo que vamos a hacer, que hay cuatro cosas. Cuatro columnas, am, HP,
peso y cilindro. Entonces vamos a tratar de encontrar esto. Haremos este HP, peso y cilindro como variables
independientes. Y m será la variable
dependiente. Medios. Vamos a predecir. No, estoy bien, bien, entonces lo que vamos a hacer, veremos solidario
estás haciendo un modelo. Deberíamos estar sabiendo cuáles
son los factores o cuáles son
las características que van a
impactar en los valores predichos. Más apoyo. Si creamos un modelo de
regresión logística con todas estas tres variables de
respuesta o variables
independientes o
modelo puede no ser correcto porque en estos tres
HP peso y cilindro, los tres no impactarán los autos siendo manuales en
los autos siendo manuales
o automáticos de la
misma manera, ¿verdad? A lo mejor el número de
cilindros de cilindro endocast
decidirá tener más impacto en el tallado
considerado
como sirvienta, ya que un automático o manual o peso hasta el auto tenga
más peso o HP. Caballos de fuerza es
decidir el factor que los costos serían
automáticos o manuales. Entonces, lo que haremos con la
simple función GLM intentará encontrar cuál de estas tres variables
dependientes,
lo siento, alcanzamos estas tres variables
independientes que
están teniendo impacto en la EM. Entonces, qué va a hacer, nos ayudará a
analizar eso, cuáles son las características que debemos considerar para su posterior análisis. Y dejar el otro soporte IP. Llegamos a saber que el
peso está teniendo menos impacto en Am
que otros dos. Podemos dejar fuera el peso para el análisis posterior y podemos ir con el HB
y el cilindro, ¿verdad? Si cilindro no está teniendo,
no teniendo ningún impacto en esto, podemos ir con el SPN, lo
que por lo que este análisis nos
ayudará a encontrar la característica irrelevante, columna
irrelevante
en la decisión de la EM. Bien, así que eso es lo que
vamos a hacer en esta conferencia. ¿Bien? Entonces, ¿cómo vamos a hacer eso? Usaremos la función GLM y reescribiremos la
fórmula como
haremos la m como valores predichos o la variable dependiente. Y estas tres variables
independientes e intentaremos crear, intentarán generar
la función GLM. Y luego con el
resumen de GLM, intentaremos ver cuáles son
los coeficientes y el
valor p que estamos obteniendo. El valor p decidirá que impacto nuestra variable está teniendo o no valor
predicho. Valor P. Valor P
significa probabilidad de ocurrencia de esa cosa, bien, probabilidad de ocurrencia de peso en este
peso de HP y cilindro. Entonces, si el valor p es
mayor que 0.5, significa que si se admite como parte HP el valor p
viene mayor que 05, significa que P no está
teniendo ningún impacto, ningún
impacto significativo en el objetivo. Y podemos dejar el HP y
seguir adelante con el valor p. Seguir adelante con las variables
independientes que están teniendo un
valor p menor a 0.05. Entonces déjame, así lo
hemos hecho con esto. Entonces déjame, el siguiente paso, siguiente paso es que tenemos
que hacerlo regresión logística. Entonces aquí estoy dando un nombre de
variable son los datos del auto. ¿Bien? Entonces nuestro conjunto de datos es cos Theta. Y aquí estoy creando un modelo de
regresión logística. Te estoy dando el nombre cuesta
que soy y estoy usando función
GLM aquí en la
fórmula, lo que me dan, me dan soy como una variable independiente, dependiente, e
omega, automática o manual. Es tener
cosa binaria, ¿verdad? Cero o uno. Y estoy dando como variable dependiente ese
valor que vamos a predecir con base en los
estos tres cilindros, SP y radar, las variables
independientes o características que van
a decidir estoy en lo cierto. Y datos estoy usando autos, datos que estamos obteniendo
del binomio de autos vacíos y
familias. Bien, entonces ahora permítanme ejecutar esto e imprimir el
resumen de los datos, el modelo de
regresión logística de datos de
un automóvil. Ahora, hemos utilizado
la función GLM y hemos impreso
el resumen de ésta. Puedes dejar esta impresión y simplemente puedes
ejecutar el resumen. Esto también te dará lo
mismo, ¿de acuerdo? Entonces mira aquí,
nos está dando todas las cosas
que nos bastaron. Incluso la
regresión lineal también considera el coeficiente
y todos aquí también, estamos llamando a la función GLM
con la fórmula esto. ¿Bien? Y estamos usando los datos de clase de conjunto de datos y binomio familiar
y vemos tu dividendo. Media, mediana del primer cuartil, tercer cuartil máximo, todos
esos valores que estamos obteniendo. Y luego estamos obteniendo
los coeficientes para cada variable independiente. Entonces aquí, mira aquí
interceptar estamos obteniendo este valor y este
es el valor PR, ese es el valor p del que
estaba hablando. Si el valor p es
mayor que 050.05, eso, bueno, esa valiosa, esa variable de respuesta
podemos dejar fuera, ¿verdad? Eso no está teniendo mucho
impacto en la puntería. Para cilindro. ¿Te veo? El valor p es 0.6 491. Es demasiado alto
comparado con 0.05, ¿verdad? Entonces cilindro,
significa que el valor p del cilindro es
mayor a 0.05. Significa que este
número de cilindros de cilindros no está teniendo un impacto
significativo
en decidir si los costos serían
automáticos o manuales, ¿verdad? Entonces podemos dejar el
cilindro siguiente, HP, HP, el valor p es un esquema de
valor de probabilidad 0.084, que nuevamente es
mayor que 0.05, ¿verdad? podemos dejar el HP porque eso
también está teniendo un valor p
mayor a 0.05. A continuación se lee la tercera variable de
respuesta. Y está teniendo el
valor p es 0.0 276, que es menor que 0.05. Significa que el peso está teniendo
un impacto en el peso
del auto decidirá que los autos sean automáticos
o manuales, ¿verdad? Entonces el peso de la tarjeta está
teniendo un efecto significativo en el valor m porque
su valor de probabilidad viene 2.0, 276, ¿verdad? Correcto. Entonces con esto, ¿a qué conclusiones podemos llegar? Podemos llegar a la
conclusión de que en el análisis posterior,
estamos más allá. Si vas a construir más nuestro modelo de regresión
logística, podemos dejar el cilindro y
HP y podemos seguir adelante con la variable de respuesta de peso solo porque eso está teniendo, es
decir solo teniendo el impacto
significativo en el valor m comparado con
el cilindro y HP. Bueno, bien, llegamos a saber
por este valor p,
el valor p mayor a 0.05 decidirá que la
variable de respuesta está teniendo algún impacto significativo en la variable
dependiente o no. Bien, entonces este es
el uso sencillo de la función
GLM en la que
hemos aprendido. Ahora. Entonces puedes practicar con esto y puedes tomar
cualquier conjunto de datos y
puedes hacerlo para
averiguar cuál responde muy bien está teniendo impacto
en los valores predichos. Y se pueden dejar fuera los que
no están teniendo mucho impacto
basado en el valor p.
46. Distribución normal: Hola y bienvenidos de nuevo. En esta conferencia, vamos a aprender sobre la distribución normal. Entonces cuál es la distribución normal. Entonces antes de entender
lo que es una distribución normal,
déjame decirte. En la vida real, la mayoría de los datos, la
mayoría de los datos, normalmente se
distribuyen. ¿Y por qué estoy diciendo esto? Porque si miras los
datos de altura en pies, entonces supongamos que tienes datos,
datos para altura y peso, y datos de altura y peso, estaremos muy, muy
normalmente distribuidos? ¿Por qué estoy diciendo muy
normalmente distribuido? Porque es muy raro
conseguir a la persona que está
teniendo muy menos estatura. Y también es muy raro conseguir que la persona con un ralentí
muy alto, altura
larga como parcela con menos de 3 pies es muy baja
probabilidad de que suceda. Una persona con la altura
Clifford es muy rara, ¿verdad? De igual manera, boston
con tener altura de 6.5 libres a 7 pies.
¿Por qué la tríada, verdad? Entonces en ese sentido, entonces la mayoría de los datos se distribuyen
normalmente entre 4.5 y 6 pies, ¿verdad? Entonces, ¿por qué este tipo de distribución de datos se conoce como distribución
normal, bien? Por lo que este tipo de
distribución beta se conoce como distribución normal donde la mayoría de los datos se distribuyen para observar
la media de los datos. Entonces supongamos que si
consideramos esta gráfica, esta gráfica como la
distribución del peso de la altura de Parsons, entonces se puede ver que esta
representará estos datos. Esto, esto, esto festejar. Voy a representar la
altura del sillín, sabor a sal Tailandia. Este es el
tipo C más largo o los Parsons con la altura
muy amable. Es muy raro acertar. Entonces la persona con nosotros ordenar altura de menos de tres
bits tiene mucha razón. Déjame hacer menos de tres. Menos de tres.
De igual manera, ancho Parson, altura
muy larga, ¿verdad? Hola altura. Eso también es muy raro, ¿verdad? Mayor a 6.5, ¿verdad? Por lo que estos dos datos se ordenan menos de 3 pies y la altura de
6 pies es muy raro. Y por eso
se puede ver que es muy baja en la curva normalmente
distribuida. Una distribución normal
de la curva viene como cuando distribuimos, cuando trazamos los datos normalmente
distribuidos, vendrá como una curva de campana. ¿Por qué vendrá
como una curva de campana? Porque mira aquí, este es el caso muy raro de suceder. Se distribuye hacia aquí y
altura muy alta está aquí, 6.5 pies. Entonces estos dos están
representados aquí. Y la mayoría de los datos, cuando vas hacia aquí, se
distribuye la mayor parte de los datos. La mayoría de los datos se
distribuyen aquí, ¿verdad? Por esta parte. Correcto. Entonces esta es la media
de los datos, ¿verdad? Entonces esta es la media. Esta es la
altura promedio de las Parcelas. Entonces, si puedes ver correctamente, mayoría de los datos se distribuyen a ambos lados
de la media, ¿verdad? Si divide la mitad de los datos, obtendrá la media y la
mayoría de los jubilados divididos hacia la media. Entonces la altura del
párroco va en aumento y
vamos a ver la media. Y luego después del valor
promedio, va en aumento y está llegando a una altura muy
alta de 6.5. Por lo que la mayoría de los datos se distribuyen
normalmente
en esta región. Y esta región es
la región, ¿verdad? Entonces, la mayoría de la gente, podemos decir fácilmente que
caen por debajo de la altura de 526.5 pies. después de eso
será el hallazgo de una persona con la
estatura 6.57 es muy, pidieron que
viene así. Entonces de esta manera obtenemos una curva de campana, una distribución normal las curvas son siempre BellKor Y
esta es la media. Y a esto se le llama desviación
estándar. Entonces desviación estándar
del valor medio. Entonces así, cuanto más te
desvíes del valor medio, vas a ir ya sea de
este lado o de este lado. Entonces a esto se le llama una distribución
normal. La curva de distribución normal puede ser muy alta en carbohidratos así, o puede ser como
esta morada, o puede ser como esta. Esto también depende de sus datos, pero esta será la
media de los datos. ¿Bien? Esta será la media de estos datos y esta será
la media de estos datos, ¿verdad? Entonces a esto se le llama distribución
normal. La mayoría de las cosas en nuestra vida normalmente se
distribuyen, ¿verdad? Entonces, en la próxima conferencia, veremos cuál
es la propiedad de distribución
normal y cómo
podemos trazar datos
distribuidos normalmente.
47. Distribución normal con la función de dnorm y pnorm: Hola y bienvenidos de nuevo. Entonces en la conferencia anterior
hemos entendido qué es la distribución normal
y cómo funciona. En esta conferencia, vamos a hacer nuestras prácticas con la distribución
normal y veremos cuáles son las funciones
incorporadas que
tenemos en nuestra programación
para distribución normal. Por lo que básicamente hay cuatro tipos de
distribuciones normales. Las funciones están niveladas en nuestra programación y
son denom. Esta función d norma, que toma como entrada tres argumentos
o tres objetos de valor, es
decir x media y sd, es
decir desviación estándar. Entonces, ¿qué es X aquí? X es el número del vector. ¿Como qué?
Vector de números del número. Entonces supongamos que tiene un conjunto de datos, tenemos una serie de
soporte que
desea obtener la probabilidad y todo. Entonces para eso, el
número de salida vector trabajo hecho número vector de números y media es la media
que se
quiere, hay que decidir
qué pin en qué significa. Se quiere trazar la distribución
normal. Y entonces esa es la media del conjunto
de datos, ¿de acuerdo? Y luego desviación estándar, tendrás que dar
la desviación estándar. El valor máximo por defecto es uno para la desviación
estándar. Y podemos dar cualquier
valor de lo que la trama, pero el valor por defecto es uno. Si no le das el
color a algo, por defecto tomará como desviación
estándar como uno. Entonces d norma es una función. Y entonces tenemos la
norma p ser enorme. También envía mensajes de texto a los números superiores, luego la media y la desviación
estándar. Entonces tenemos la norma Q, que toma la p. P es un
vector de probabilidades. Aquí X es un vector de números. En la qnorm, la entrada p es
un vector de probabilidades, luego media y
desviación estándar tal como es, entonces tenemos otra
función llamada son no-bancos y función
desconocida
tomará como entrada y media y la
desviación estándar también. Bien, Entonces, ¿qué es n Aquí? N es el número de observaciones. Significa que el tamaño de la muestra
sube el número total de muestra que entraremos
y tomaremos esto, ¿de acuerdo? Y la media es el
valor medio de los datos de la muestra. Su valor predeterminado es cero. ¿Bien? Aquí lo que vamos y estamos dando desviación estándar, el
valor estándar por defecto es uno. ¿Bien? Entonces comencemos con una distribución muy
normal. Entonces lo que haré primero, veremos cuál es la
distribución normal para X y d. Ahora bien, ¿cuál es la función de norma? Entonces el don nulo, la altura de la distribución de
probabilidad en cada punto para una media
y desviación estándar dadas. Por lo que
te dará la altura de la distribución de probabilidad en cada punto del conjunto de datos. Y para la media dada, porque media es la entrada que damos junto con
la desviación estándar y el vector de números. ¿Bien? Entonces supongamos que
entendemos cuál es el ejemplo, estamos tomando una x como una serie de actores
que son números corruptos. ¿Bien? Sea lo que sea que estemos haciendo aquí, estamos generando
una secuencia de números de menos cinco a 20. Y luego lo que se nos da, se
nos da la desviación
estándar ya que estamos incrementando menos cinco a 20
incrementando 0.15. ¿Bien? Así como -0.15, -5.15,
-5.3, así. Bien. Por lo que se incrementará. Número generado
número se habrá
incrementado blanco 0.5, ¿de acuerdo? Por lo que X tiene carriles de peaje gratuitos. Ver, así es como
se van a generar los números. ¿Bien? Y luego lo que
estamos haciendo aquí, estamos tomando nuestra función de norma de vector y y
región D
y estamos trazando x tan importante que X estamos obteniendo de esta función de
secuencia. Entonces media estoy dando 7.5 supongamos y
desviación estándar estoy dando puntiaguda. Y luego estoy trazando la
gráfica con la x e y. Entonces x será este valor e
y obtendrá de esta función
dnorm. ¿Bien? Entonces déjame comentar esta x y ejecutar esta
pieza de código. Así que haga clic aquí, c aquí. Ahora estamos consiguiendo esta trama de distribución
normal. Entonces aquí la media es 7.5. Y 7.5 datos
normalmente se distribuyen con una desviación
estándar de 0.1. Desviación estándar del punto. Eso, si doy me gusta 0.5, mira, nuestros datos van a venir
como este punto, vendrá así. Si doy uno, que es la desviación
estándar por defecto, nuestra gráfica vendrá
algo así. Si le di 1.5, nuestra gráfica vendrá así. Si lo di como herramienta, nuestra trama vendrá así. Bien, Así se puede dar desviación
estándar como para el otro cuadrante
y trazar x e y, lo haremos, estamos trazando
los valores x e y. ¿Bien? Entonces esta es 13 toda toxina, lo que da la altura de la
distribución de probabilidad en cada punto. Entonces el siguiente es p nada p norma. Lo que da
la probabilidad de que el número aleatorio
normalmente distribuido sea menor que,
menor que el valor del número
dado, ¿de acuerdo? Y también se le llama función de
distribución acumulativa. Entonces aquí estamos tomando el mismo ejemplo y aquí
estamos incrementando en 0.4. Y luego estamos generando y usando la p-norm x. Estamos pasando x aquí
dentro de la función p-norm. Y luego le estoy dando
a alguien por cinco otra vez y
desviación estándar Vamos a señalar. Y luego estoy trazando x e y.
Y cuando trazamos,
obtenemos este tipo de datos. Si pongo un puntiagudo
soporte desviación estándar, mira, estamos viendo
así, bien, si aumento esto por el
viento, Soporte 0.5. ¿Bien? Así que de esta manera podemos obtener la función p-norm que
podemos usar y obtenemos
este tipo de trama. Entonces lo que le dará, nos
dará la probabilidad de número
aleatorio
normalmente distribuido sea menor que
el número dado. ¿Bien? Y el resto de los dos 2-norma y nuestro número lo
veremos en la próxima conferencia.
48. Distribución normal con la función de qnorm y rnorm: En la conferencia anterior,
hemos visto cómo podemos implementar la función dnorm
para la distribución normal. Y también hemos visto p Ahora
para distribución normal. Ahora en esta conferencia
veremos la qnorm y nuestro sentido Don Funk
para la distribución normal. Entonces, ¿qué es la función qnorm? Esta función toma la
probabilidad de valor de probabilidad y mantiene el número cuyo valor
acumulativo coincide con
el valor de probabilidad. Esto es bastante simple
aquí usaremos el otro importante aquí. Lo que haremos, usaremos
0.1 y generaremos la secuencia de números 0-1 y tres números
se incrementará en 0.03. Entonces generaremos una
secuencia de números 0-1, y cada número
se incrementará en OpenGL o tres. Y luego usaremos la función qnorm y sin embargo proporcionaremos esta entrada
exógena. Y lo que estoy dando, estoy dando media S2 y desviación
estándar como dos. Puedes dar cualquier cosa como
puedas si quieres, dar, media como 1.5, puedes dar
y desviación estándar, puedes dar uno o 1.5 y
ver cómo viene tu gráfica para dos y una
media estándar S2 y
desviación estándar dos, estamos obteniendo esta trama. Y si ejecuto esto por 1.5, estamos obteniendo
algo como esto. ¿Bien? Entonces así es como usamos la función qnorm para la
distribución normal de los datos. ¿Bien? Ahora lo siguiente es, no
son anónimos
utilizados para generar los números aleatorios para su
distribución es normal. Entonces, ¿qué toma nuestro num y como dije
en la conferencia anterior, Dexter n como entrada donde n
es el número de observaciones o los sitios de
muestra, verdad? Entonces, cualquiera que sea el otro
número que tengamos, el tamaño de la muestra lo dará
como entrada a la función. Entonces qué va a hacer, tomará como entrada el
tamaño de muestra, como aquí, le
estoy dando cartílago
y va a generar números generados
al azar
para el tamaño de la muestra. Supongamos que aquí nos dan
30, tamaño de muestra. Por lo que generará los números
aleatorios del generador. Y luego usaremos
el histograma para dibujar esta distribución normal
usando consola desconocida. Por lo que este vector y
surgirá números generados aleatoriamente a partir de este tamaño de muestra 30. ¿Bien? Entonces, una vez que
ejecutamos esto, obtenemos este histograma para los números generados,
generados aleatoriamente. Bien, Entonces así es como usamos la función desconocida para la distribución
normal. Entonces déjame imprimir y para que
podamos ver qué números
estamos obteniendo aquí, c aquí. Entonces, si haces clic en Consola, entonces estos son los números que se
generan usando el por 30. Por lo que generará los números
aleatorios así. Y el histograma vamos a trazar estos son
números generados al azar en un histograma. Entonces esta es la, esta es la y entre menos uno a tres,
se está vendiendo. Y luego en el soporte, este es el eje x, este es el eje y, esta
es la frecuencia. Entonces g rho dos, como menos uno a menos
de menos uno números que están ocurriendo cuatro
veces menos uno a cero. Esta es la frecuencia
de los números y cero a 1.122 así. ¿Bien? Entonces, permítanme cambiar los datos por soporte que lo harán 100. Y si ejecuto esto, verás, estamos obteniendo
este histograma. Y si ves la consola, verás que así es como
usamos la función pnorm para dibujar el diagrama usando nuestra función desconocida
para distribución normal. ¿Bien? Entonces así es como usamos
la distribución normal. Y hemos visto la qnorm de Vietnam
del Norte y funciones
desconocidas
distribución normal de los datos. Cómo kay
49. Recursión en R: Hola y bienvenidos de nuevo. En esta conferencia vamos a aprender sobre la recursión
en nuestro programa. Entonces, ¿qué es Dickerson o qué
es una función recursiva? Entonces, la función recursiva
es una función que se llama a sí misma varias
veces, ¿verdad? Así que apoyarte si
quieres realizar la misma operación
una y otra vez. Podemos usar el
Dickerson para no actuar como debiste haber aprendido como un número algo
antinatural. Algunos de ustedes fueron numerando
todas esas cosas como estos problemas como encontrar algunos números naturales donde n puede variar de uno a en
cualquier número, ¿verdad? Hasta uno a 100 mil,
algo así. Entonces aquí para resolver este
tipo de problemas, necesitamos usar el Dickerson
y tu cursor es cosa
muy importante cuando
hacemos la programación, ¿verdad? Entonces en nuestro También podemos usar
la función Dickerson. función recursiva
puede llamarse
a sí misma una y otra vez
para hacer las operaciones. Y finalmente nos va
a dar el resultado. Entonces para entender cómo funciona
la recursión en nuestra
programación,
diremos, haremos un programa sencillo
para encontrar la suma de números
naturales hasta
n usando recursión. ¿Bien? Entonces vamos a tratar de encontrar, vamos a dar un número, cualquier número. Y trataremos de
encontrar la suma de números
naturales de
uno a ese número. Como supongamos aquí
estoy dando 85. Entonces aquí quiero
encontrar la suma de números
naturales hasta 85 min, uno más dos más tres más
cinco más seis más
siete más ocho, hasta más 85, ¿verdad? Entonces, para resolver este
tipo de problemas, necesitamos usar la recursión. Entonces lo que estoy haciendo aquí, simplemente
estoy escribiendo
una función simple aquí y le estoy dando un nombre subrayado n. Eso significa algunos de los
números naturales, ¿verdad? Algunos subrayan n. Y dentro de eso,
estoy tomando entrada como argumento ya que n u n será el número de
números naturales, ¿verdad? Número natural hasta el cual queremos calcular
la suma. ¿Correcto? Aquí. Estoy haciendo la simple comprobación. Lo que estoy haciendo aquí. Simplemente estoy comprobando si n es
menor o igual a uno, simplemente
lo devuelvo. Y entonces, ¿por qué estoy revisando
esta condición aquí? Porque si es n es uno, necesitamos devolver uno
porque uno es un mes. Los números naturales
comienzan con uno. Y a veces algunas personas
considerarán números naturales
con cero de todo tipo. En caso de 0.1, necesitamos devolver ese número en
particular por
sí mismo porque se produce cero, tenemos que devolver cero
y si es uno, necesitamos determinar
uno solo, ¿verdad? No es necesario llamar a la función
recursiva. ¿Bien? Entonces este es el caso
para encargarte del 0.1
si en todo consideras los números naturales
incluyendo cero, y si es a partir de uno, si consideras entonces uno, ¿bien? Entonces, básicamente,
los números naturales comienzan con uno, pero a veces la gente considera en cero Ágil comenzando desde
cero también. ¿Bien? Y luego estoy usando esto, estoy dando una condición if y luego estoy usando
otra condición más. Y en lo demás lo que estoy haciendo, simplemente
estoy regresando Gan más algunos Yan plus significa
supongamos que un número es para, supongamos que te voy a dar dos. Entonces supongamos que este
número es de dos a dos más suma hasta menos
uno, suma de uno. Entonces qué va a hacer, hará unos dos más suma de dos verano a menos
uno. Vamos a sumar de uno. Vendrá aquí y suma
de uno devolverá uno. Esta función
devolverá dos más uno a más uno será tres. Entonces, si ejecutamos esta función, obtendremos la salida
como tres aquí. Porque algunos de los números
naturales hasta dos son tres, ¿verdad? Supongamos que voy a dar tres
aquí. ¿Qué va a pasar? Tomará,
entrará en la otra parte porque tres no está satisfaciendo
esta condición, ¿verdad? Mayor que uno, ¿verdad? Por lo que va a entrar en otra parte y sólo
va a devolver n más
acusación tres más. Y entonces los llamará de nuevo a
sí mismo. La función se
llamará a sí misma la función sum n dentro de Excel. Y provocará algunos
de N tres menos dos, algunos tienen dos, algunos tienen
dos vendrán aquí. Entonces n es igual a dos
, vendrá aquí. Entonces qué va a hacer, dos más tres más dos más suma de dos
menos uno, suma de uno. Entrará aquí y
devolverá uno. Entonces tres más dos más uno. ¿Cuánto? Seis. Entonces este sexo escrito. Consulta aquí la salida
es de seis años. Entonces entendimos cómo va a funcionar. Déjame poner
el comando en tenso. ¿Eres la primera vez
cuando llegará? Será como, será como hola, hecho. Tres más tres más
suma subrayado N. Tres menos 13 menos
uno significa dos. Entonces causará algunos hasta,
bien, entonces se llamará a sí mismo. A esto se le llama recursión. Entonces otra vez, en el siguiente paso, lo hará, el siguiente paso
se escribirá tres, resumen de cómo vendrá. Vendrá aquí para funcionar, tomará entrada S2, y luego vendrá en
la parte else, bu plus. Entonces aquí va a
venir como tres más dos más dos menos 12, menos 12 menos uno es
suma de uno, ¿verdad? Entonces el siguiente paso es tres
más dos más suma de una
agua divertida de verano irá, irá, llamará a
la función en sí. Y va a ir a
la suma de uno. Suma de uno va a devolver
n, eso significa uno. Entonces esto
nos dará el resultado uno. Por lo que vendrán tres
más dos más uno. Entonces esto se llama
el ticarcilina, la salida final que estamos
obteniendo como apenas seis. Y aquí también tres
más 25 más 16. Entonces esto se llama
Records sun, ¿verdad? Apoyo. Te voy a dar
un número grande, 785. Entonces va a ir dentro esta función y
estará llamando a 75 menos uno, luego 782-52-7875 menos 1784. Entonces vendrá
aquí, 74 menos 17823. Por lo que seguirá llamando. A esto se le llama recursión. Entonces, si
ejecutamos esto, obtendremos la salida así. Bien, relájate algo, ¿de acuerdo? Así que de esta manera podemos
usar la recursión en nuestra programación para encontrar
la suma de números naturales.
50. Encontrar un factorial de un número que utiliza la recursión en R: Entonces en esta conferencia
haremos otra Hansen. Y en esta conferencia
trataremos de
encontrar el factorial
utilizando recursividad. Entonces, ¿sabes qué es
factorial de un número? Debes ser amable, ¿verdad? Debiste haber estudiado esto
en tus clases de matemáticas murió. Entonces las matemáticas de secundaria, debes estar sabiendo
lo que es factorial. Déjame decirte
lo que es factorial. Factorial, nuestro
número de teléfono es producto de todos los enteros de uno
a ese Número soporta, si digo factorial de dos, factor dos será
producto de uno a dos. Producto de los números 1-2. Entonces producto de factorial de dos será uno en dos, ¿verdad? Si digo factorial de tres
es uno en dos en tres. De igual manera, si digo factorial de siete y denotamos
el factor así. Por lo que siete factoriales serán uno de un producto de los números 1-7. Por lo que será uno en dos
en tres en 45 y 6.7, que vendrán alrededor de 5,040
como producto del número. Entonces factorial para número
está comenzando desde uno hasta que ese número multiplicará cada número números y obtendrá el producto de
todos los números. ¿Bien? Entonces 1287, si pongo
y factorial ocho aquí, será producto
de los números 1-8. Y esto va a ser otra
cosa, ¿verdad? Entonces encontremos cuál es
el factorial de la misma. Así que déjame ejecutar este programa
y dejarme imprimirlo. Déjame dirigir esto. C factorial de ocho es 43 20, por lo que factorial del
mismo será 43 20. Entonces así es como
podemos encontrar el factorial de un
número usando la recursión. Entonces déjame explicarte esta función, que hemos escrito para encontrar
el factorial de un número. Entonces aquí estoy escribiendo una
función factorial recursiva. Y esto tomará el
número como entrada. Y aquí estoy comprobando si n es
menor o igual a uno, voy a devolver simplemente
ese número uno, ¿bien? Entonces factor de cero
es uno también, ¿de acuerdo? Entonces si es uno o cero
devolverá la salida como uno. Y si el número es
mayor que uno
entrará en la otra parte. Y aquí, lo que estoy
haciendo, estoy usando, estoy usando N en, N en, y luego vuelvo a llamar a la función
la misma función. A esto se le llama el
concentrado para ser. La función se llamará a
sí misma dentro de la función. La función se llamará a
sí misma dentro de la función, y eso se llama recursión. Entonces dentro de esta función
factorial de registro, llamaremos a eso la función
factorial. Y
te llevará n menos uno. Significa para apoyo
factorial de la misma. Entonces en, luego
irá a las fuentes
y recapitulará factorial. Y tomará la
entrada como ocho menos 17. Entonces tomará el
insumo como siete, y llamaremos a ese
disco factorial. Entonces otra vez, la función
vendrá aquí. Entonces otra vez
vendrá aquí y
será ocho en siete,
en factorial discográfico de seis. Y así
será un recurrente, ¿verdad? Esto se llama recurse on, seguirá
llamándose a sí mismo
dentro de la píldora de función. El número se convierte en cero. ¿Bien? Por lo que
comenzará 8-7 a seis. Y entonces vendrá como
lo que vendrá uno menos 10. Y luego factorial
de n menos uno. Entonces factorial de cero se
convertirá en uno y los conseguiremos producto de ocho en siete
en seis en cinco en cuatro en
tres en uno. Y así es como funciona el
factorial. Déjame cambiar esto a cinco
y va a llegar alrededor del 120. Verás, el factorial de
cinco es 120, ¿de acuerdo? Entonces así es como la
función factorial camina en nuestra programación
usando la recursión. Entonces se apoya la constante y estoy escribiendo esta
función respecto factorial. Y dentro de esta función en sí estoy llamando a
la función misma. Entonces dentro de la función
factorial recursiva, estoy llamando a ese
registro factorial. Y esto se llama recursión
cuando la función se llama a sí misma dentro se
llama el Carson. Cuando la función se llama a sí
misma, llama al hijo del auto. ¿Bien? Entonces así es como
funciona la recursión en nuestra programación. Hemos visto dos ejemplos. Uno es encontrar el factorial de una función usando recursión. Y en el ejemplo anterior, hemos visto cómo encontrar la suma de
números naturales usando recursión, donde construimos ese ecosistema para encontrar la suma de números
naturales. Y aquí hemos encontrado el factorial de un
número usando recursión.
51. Muestra de datos de una población: Hola y bienvenidos de nuevo. En esta conferencia, vamos
a aprender sobre el muestreo de una población a partir de un
conjunto de datos en programación R. Entonces eso es muy importante
porque cuando tenemos un problema de aprendizaje automático o un problema ciencia de
datos o
el problema de inundaciones, tenemos un enorme conjunto
de datos, ¿verdad? Y queremos obtener
una idea de los datos, o queremos una muestra de datos. Supongamos que tenemos la mayor
población de la ciudad y queremos analizar cuántos Parsons
tienen diabetes. Entonces nosotros uno para obtener
una muestra de datos, analizar eso y con base en eso, podemos crear un modelo
y luego podemos aplicar ese modelo a una población
más grande, ¿verdad? Por lo tanto, tomar una población pequeña o una población de muestra de un gran conjunto de datos se denomina
muestreo de una población. En, en un término general, muestreo de una Beta es
muy importante. Y para saber esto, deberíamos estar sabiendo qué es, nuestras funciones son simples, cómo crear vectores. Y así sabemos todas esas cosas. Entonces nosotros, lo que hagamos, veremos un ejemplo sencillo, cómo podemos hacer muestreos. ¿Bien? Así que para manejar muestreo y para proporcionar
soporte de muestreo al muestreo, o tiene una
función incorporada llamada muestra. Entonces nuestra función de muestra, esta simple muestra SAM PLE, esta función de muestra,
qué
hará, simplemente muestreará
población si damos muestra y damos cualquier número
entero como entrada. Entonces, qué hará,
tomará muestras de uno
a 20 números, significa que creará
una población, muestreará población de uno a 20. Entonces si ejecuto esto, mira aquí, déjame aclarar esto para que podamos ver la
salida correctamente. Entonces, si ejecuto esta muestra 20, mira lo que va a hacer. Se crearán algunos números en nuestra población
de números 1-20. Y no está en contra, no ganó un
cierto azar, ¿de acuerdo? Entonces simplemente no se arregla en orden creciente
o decreciente. Apenas los números 1-20,
va a generar. Entonces 123, todos los números 1-20. ¿Bien? Esta es la forma que podemos crear una muestra
hasta los números 1-20. Ese es un ejemplo sencillo. Lo siguiente es lo
que voy a hacer. Voy a crear un vector
1-15 números. Supongamos que este es el, este es nuestro conjunto de datos que
está conteniendo los números 1-21 a 15 aquí, estoy por ejemplo así que uno a 20, este es nuestro vector x donde estamos guardando
los números 1-20. Entonces esta es la población. Esta x se conocerá como población porque este es el conjunto de datos completo
que tenemos. Entonces X es la población. Y de esta población de x, quiero muestrear exteriormente
cinco elementos, o cinco. Quiero un archivo de muestra. Quiero que me den los cinco. Estas son las marcas. Son estos, estos son el
número de personas preprint. Quiero los números
de sólo cinco personas. Quiero muestrear cinco elementos. ¿Cómo podemos hacer eso? Podemos usar la función sample. Podemos proporcionar la
población aquí, x y luego coma cinco, cuántos elementos
desea muestrear
del conjunto de datos de lote de X. Así que la muestra x coma cinco
nos dará los cinco números aleatorios de estos grandes datos de población y creará
una muestra para nosotros. Entonces déjame correr esto apresurado
y luego muestrear el exón cinco. Ver aquí. Ahora estamos obteniendo 481,410.12 del conjunto de datos de
población, ¿verdad? El conjunto de datos de populismo
es este, ¿de acuerdo? Uno a 15. Entonces a partir de eso, estamos obteniendo el
aleatorio por 81,410.12. Este es nuestro conjunto de datos de muestra. Si lo vuelvo a ejecutar, nos dará cinco números
diferentes. Ver aquí, ahora
se cambia la muestra y así se elige
aleatoriamente cinco números de este vector x o población x, y se creará
una muestra de datos. Entonces así es como funciona nuestra función de
muestra. Lo siguiente, podemos dar
reemplazo igual a verdadero. Entonces para éste, reemplace igual a dos. Generará
los mismos números. Si lo vuelvo a ejecutar, nos va a dar los cinco números
diferentes aquí reemplazados no nos está dando a
la guerra lo que hace. si usamos nuestra muestra y proporcionaremos
actos como población, y simplemente usaremos
replace igual a true. ¿Qué va a pasar? A ver. Sustituirá al elemento c. Ahora 51302, 74, 414-151-2312. Ver, todos los números
no son los adecuados para 15. Algunos números han sido
reemplazados como 131 veces, pero cinco también es una vez, 14 se repite tres veces, 12 se repite dos veces. Oye, ahí. De manera similar, algunos de los números
serán
reemplazados por algunos otros números como algunos que apoyan
uno, soporte. No hay nadie en esto, pero nuestro conjunto de datos original
está teniendo de uno a 15. Pero aquí no todos los números,
1-15 aquí, ¿verdad? La mayoría de los números
son reemplazados. Entonces, lo que reemplazó igual
a true
hará, seguirá reemplazando los
números del conjunto de datos. Entonces del
uno-dos-tres por ciento, tomará algunos de los datos, repetirá algunos de los datos, y reemplazará
algunos de los números. Entonces algunos de los números
han sido reemplazados por la suma de los otros números como uno. Supongamos que uno se repite, uno ha sido reemplazado
por cuatro, ¿verdad? De manera similar,
14 ha sustituido algún otro número como
seis o algo así. Porque aquí falta el sexo. Aquí falta. Entonces esos 6.8 que faltan, cuales han sido reemplazados por los otros números en
el conjunto de datos poblacionales. Eso es 14412, ¿verdad? Entonces, lo que hará, reemplazará el número
internamente y refrescará el género en nuestra
población de muestra para nosotros. Por lo que simplemente seguirá
reemplazando los datos entre sí. ¿Bien? Entonces supongamos que tenemos evento de cabeza y
cola lanzando una moneda. Entonces tenemos dos eventos, ¿verdad? O nos sale la cabeza, ¿estamos bien? Supongamos que tenemos
este conjunto de datos de muestra y evento recíproco de
H y T cabeza y cola. Y queremos que se muestree. Dará el
tamaño de la muestra para imprimir y reemplazará
igual a dos. Qué va a hacer, simplemente
va a ejecutar esto, ver qué va a hacer. Simplemente creará una muestra con t y
borde, cabeza y cola. Y repetirá cabeza
y le dice varias veces. Porque hemos dado
los tamaños de muestra púrpura. Y así creará el
edge DHHS, una entidad. Esto es bastante aleatorio. Están secuenciando que
si lo vuelves a ejecutar, posible
que obtengas la otra
secuencia de H y T, y será scripting alcista. Así que de esta manera podemos
crear una muestra de eventos de cabeza y cola. Y aquí podemos dar
los números. Si doy cinco, se hará. Nos va a dar el TTT. Ver aquí en estas tendencias
temporales
hemos dado sólo cinco colas. acercan colas, colas.
No, no hay cabeza. Si lo hago, supongamos seis. Ahora vamos a cabeza,
cola, cola, cola, cola y cabeza. Entonces es bastante aleatorio. Así que de esta manera podemos usar
la función sample en la programación R para obtener la muestra de una población
grande, como hicimos aquí. Hemos tomado esta población x, que contiene
los números uno al nueve, y hemos tomado sólo
cinco elementos de muestra de ese conjunto de datos. Y hemos creado nuestra
muestra de cinco elementos. Entonces así es como podemos
usar la función de muestra para obtener la muestra de un conjunto de datos de
población, ¿de acuerdo?
52. Programa para revisar los números principales: Hola y bienvenidos de nuevo. Entonces en esta conferencia
vamos a aprender cómo verificar si un
número es primo o no. Entonces estos son los problemas
que podríamos estar enfrentando en nuestras entrevistas competitivas de
codificación, donde el entrevistador puede
pedirte que escribas un programa para encontrar la suma de n números o si tomar
un número es primo o no, o algunos de los números pares
o encontrar números pares. Cómo verificar el número par, cómo tomar el número primo. Entonces estos son los problemas, con bastante frecuencia
están pidiendo los exámenes integrales y acuden a, a programar pruebas. Entonces es mejor saber cómo
implementar esto también en nuestra
programación. Si eres un aspirante a científicos de
datos e ingenieros de aprendizaje automático
e inteligencia artificial. Entonces es bueno saber lo
básico, ¿verdad? Entonces en la serie de conferencias, estamos explotando
estas cosas, cómo, cómo podemos escribir un programa
en nuestra programación para encontrar un número primo, particularmente en esta conferencia. ¿Bien? Entonces este programa es para verificar si el número
es primo o no. Y el número que
tomaremos como entradas jack. Entonces le pediremos
al usuario que ingrese la entrada, y una vez que
el usuario ingrese el número de entrada, tomaremos ese
número de entrada y
verificaremos si ese
número es primo o no. Y para eso,
usaremos el bucle for. Entonces si sabes como usar
si y de lo contrario, y para loop, te va a ser
bastante bueno para hacer este programa. ¿Bien? Y déjame decirte ¿
qué es el número primo? Así que el número primo es un
entero positivo mayor que uno, que no tiene otros factores excepto uno y el
número en sí. Entonces, ¿qué significa? Supongamos que tenemos un
número para el número cuatro, podemos escribir en
forma de dos en dos. Por lo que tiene dos factores. Dos en, dos en
dos es cuatro, ¿verdad? Entonces este no es un número primo. Supongamos que tenemos un número. Supongamos que tenemos el número seis. Número seis, podemos escribir
en forma dos en T3. Por lo que tiene dos factores, 2.3. De igual manera, tenemos número. Supongamos que tenemos el número cinco. Número cinco, no podemos
escribir en un factor, ¿verdad? No podemos probar el número como dos en algo así como dos
en, no podemos esperar. Podemos hacer dos en 2.5, pero eso no es correcto. Deberíamos tener los factores
enteros rectos. De esta manera no es
posible, ¿verdad? Entonces los números como cinco, que tiene uno, factor,
uno y sí mismo. Entonces podemos escribir cinco en
forma de uno en cinco. De igual manera, nos gusta tenemos 77 también podemos escribir en forma
de querer a siete Wanli. Podemos escribirlo en un
poco con la ayuda de algunos otros números como
hemos escrito de seis a tres, no
podemos, no podemos encontrar
un número que pueda dividir. 77 se puede dividir por
uno, sólo 1.7 en sí. Entonces es por eso que los
números primos son los números, números enteros
positivos
mayores que uno, que se pueden dividir por uno. Número en sí, que
no tiene otros factores excepto
uno y el número en sí. Entonces los números primos o dos, luego tres, luego cinco, luego siete, luego LeBron, y luego 13, luego 17, y así sucesivamente. Entonces estos son los números
primos, C7. No podemos dividirlo por ningún otro número
excepto uno y él mismo, 13 también, 11 también. Entonces estos son los números primos. Entonces ahora tenemos la comprensión de cuáles
son los números primos. Procedamos a
resolver este problema. Entonces lo primero, cómo tomar
entrada del usuario en R. Así podemos usar la función de línea de lectura para
obtener la entrada del usuario. Entonces deberías ser, debes
conocer la función readline, que tiene un argumento
Azure prompt. Por lo tanto, la función readline
tomará el prompt, por lo que le solicitará al usuario. Y lo que sea que escribas aquí, se mostrará
en la consola. Y te pedirá que
hagas lo que escribas aquí para pedirte que hagas supongamos
aquí estamos entrando, estamos escribiendo, por favor
ingresa un número. Entonces el prompt tomará
el número ingresado por el usuario es que lo pasaremos
para leer la función de línea. Y aquí podemos convertir esa entrada de
usuario dos enteros. Entonces lo que somos, estamos almacenando el número
ingresado por el usuario en. 0 y n variables. Entonces, como punto entero, se convertirá en
entero de lo que sea que obtengamos de esta
función de línea de árbol a través de este prompt. ¿Bien? Entonces si ejecuto esto aquí, si ejecuto esto,
nos pedirá que por favor ingrese un número. ¿Bien? Entonces déjame aclarar esto. ¿Bien? Y entonces
estamos poniendo una bandera. Se llama a cero. Inicialmente. Vamos, veremos
por qué estamos usando esta bandera igual a cero, y también veremos
por qué viene. Esto es suma, porque
hemos ingresado los números. Nos está mostrando
el mismo número. Esto es suma, ah, edita que ya veremos. Bien, entonces estamos poniendo
la bandera igual a cero. Y luego agregamos dar. Como, como dije, los números primos siempre son
mayores que uno, ¿verdad? Empezar con dos al
357-11-1317 así. Por lo que siempre es
mayor que uno. Entonces primero lo que comprobaremos,
comprobaremos si el número
es mayor que uno. Entonces entraremos en el bucle. Y si el número no es
mayor que uno, entonces definitivamente no es
un número primo, ¿verdad? Entonces para esa bandera será cero. Y para bandera cero,
lo que estamos dando, para bandera cero, no se nos
da un número primo. Entonces si ingresas número en menos, menos dos, menos tres, menos cinco, para que
esos vengan aquí. Pulso y dará, lo hará. Entonces el mensaje de que te ingresaron el número
no es un número primo, ¿de acuerdo? Y ¿y si el número
es mayor que uno? Soporte 235678,
todos estos números. Entonces, lo que haremos,
verificaremos los factores. Y antes
de verificar los factores, lo que haremos,
pondremos la bandera en uno. ¿Bien? Uno significa que el número es el número
primo, ¿de acuerdo? Entonces inicialmente lo hemos
puesto a cero. Ahora en cuanto a empujón entraremos
dentro de este if,
if loop , función IF, if statement, lo que haremos si el número
es mayor que uno, establecerá la bandera igual
a uno inicialmente. Y luego qué azul, vamos a crear un bucle for. Y ¿cuál será el bucle for? Para bucle es para I en dos, porque los números primos
empiezan con 22 a n menos uno. Y menos uno significa
supongamos que estamos entrando cinco, entonces dos a cuatro. Entonces yo en dos a 4 min, tardará cuatro a T
para estos tres números. Y lo que
tomará para el factor, si el número es un número está siendo dividido por los
dos o tres o cuatro, se puede dividir
por 23.4 o no. Y entonces si n persona, esta persona lo hizo, echo de menos, comprobará por el factor si el número ingresado
está dividido por, supongamos que estamos ingresando cinco. Por lo que comprobará si el segmento
dividido por dos o no. Y entonces comprobará
dividido por tres o no. Entonces tomará
a cuatro o no igual a, igual a cero. Y luego pondremos la
bandera igual a cero. Y si se divide por el 234, fijará la bandera
igual a cero y
saldrá de la declaración for. Se romperá el bucle for
y saldrá de eso. Y bien, y si n es igual a, igual a dos, establecerá
la bandera igual a uno. Entonces lo que va a hacer aquí, comprobará
si el número, supongamos que estamos ingresando seis. Entonces seis se divide por dos, ¿verdad? Por lo que vendrá como
un igual a cero. Por lo que establecerá la bandera cero y
saldrá del bucle. Y va a abanderar. bandera cero vendrá
en la otra parte, y lo hará, así que
no es un número primo. Supongamos que estamos entrando cinco. Entonces cinco se divide por dos. No, saldrá y la
bandera será de un año. Entonces bandera uno significa que cinco es
un número primo, ¿verdad? Apoyado de manera similar,
estamos entrando ocho, lo que ocho se divide por, tardará dos
a siete para dividir primero por dos. Dividir a
solo bandera es cero. Saldrá
del bucle y marcará cero no es un
número primo como ese. Se comprobará y nos
dará el resultado. Te apoyamos, estamos entrando 11, por lo que tomará N
dividido por 211/2. No, saldrá
del bucle soportado. Estamos entrando en cisteína. Cisteina dividida por 2/2. Sí, bandera cero 016
dividida por así. ¿Bien? Por lo que va a estar
saliendo del bucle guardando, estableciendo la bandera igual a cero. Y todos los números
no serán números primos. Y supongamos que estamos
entrando en 1717/2. No. Entonces, ¿qué son dos sucederá, saldrá del
bucle y fijará la Bandera igual a uno Marcar igual a uno significa
que es un número primo. Y si el número al que
estabas ingresando, entonces
los números primos directamente, ¿verdad? Y para uno, estamos
viniendo en la otra parte, mayor que uno, estamos
viniendo en la otra parte. ¿Bien? Entonces déjame dirigir toda esta fuente. ¿Cuál es el problema aquí? Bien, déjame ejecutarlo de nuevo. Ahora, la consola
nos está pidiendo que ingresemos un número. Supongamos que voy a ingresar un número uno. Lo siento. Supongamos que entro un número uno aquí y golpeo Enter
¿qué va a pasar? Uno no es un número primo. ¿Por qué uno no es un número primo? Vendrá aquí y
comprobará si n es
mayor a 100 o así. Yan es mayor que uno o no. Entonces esto en serio no
es, no va a entrar dentro este bucle y flag
será cero para este porque no viene
dentro de este bucle if porque F es uno y va a venir
aquí, bandera igual a cero. Entonces ahora va a venir aquí. Y comprobará bandera
igual a un nodo. Entonces vendrá en la otra
parte y estudiará saudí. Entrará en
esta otra parte. Y además uno no es un número
primo como este. ¿Bien? Déjame correr esto otra vez. Y si entro dos,
perdón, si entré dos
aquí, ¿qué va a pasar? En c2 es un número primo. ¿Por qué dos es número primo? Vendrá aquí y es
mayor que uno, ¿verdad? Dos es mayor que uno. Entonces bandera, pondrá uno, entonces vendrá
aquí a dividirlo por, para dividirlo por dos
a uno, ¿verdad? 2/2. Entonces C es 2/2 si celebramos. Entonces saldrá
de este bucle, ¿verdad? Y bandera será uno. Entonces dos es un número primo. Si pongo tres, lo siento. Si vuelvo a ejecutar esto
y pongo el número tres, entonces recibió tres
es un número primo. ¿Por qué? Porque va a venir
dentro de esta bandera si declaración. Establecerá la bandera en 1.4. Marcar uno será número
primo y luego
vendrá dentro de este for-loop I en 222, ¿verdad? Entonces 3/2, no. Entonces romperá esta declaración y la bandera será una, ¿verdad? Entonces y será el número primo. Entonces así, si ingresas
soporte la longitud o 17, celda de soporte
saudí
ingresa aquí 17. 17 es un número primo, ¿por qué? Vendrá aquí y
17 es mayor que uno. Vendrá aquí,
establecerá la bandera en uno, luego irá dentro de este bucle
for para i en 21617/2. Sí. 17 no se desvía en dos, por lo que saldrá de este bucle y la bandera
permanecerá 1.4. Marcar uno, el número
es número primo y por eso esos
17 es un número primo. Entonces esta es la forma en que podemos escribir un programa sencillo para encontrar números primos
en nuestra programación.
53. Programa para comprobar la INCLUSO u odD: En esta conferencia,
vamos a escribir un programa en nuestra programación para encontrar si el
número ingresado es impar o par. Entonces, tomaremos la
entrada del usuario y le
pediremos que
ingrese un número. Y en base a la entrada del usuario, verá que el número de entrada del usuario es un número impar
o un número par. ¿Correcto? Entonces, ¿qué es un
número impar o par? Entonces número que se dividen
por 0/0 sin el resto. Se llama número par. Supongamos que tenemos un número
x y si dividimos el número por dos y
obtenemos cero como recordatorio, entonces es un número par. Y si el número está
dividido por dos y nos
está dando algún resto,
entonces número par. Entonces simplemente si un
número se divide por dos y el resto es cero, entonces par numerarlo y
dividirlo por dos. Y está dando algún demandador, es número impar, ¿verdad? Entonces tomemos el programa. Entonces aquí he escrito un programa donde estoy tomando la
entrada como entero. Entonces estoy tomando la entrada
del ID de usuario como entero, y le estoy pidiendo
al usuario que ingrese el número, por favor ingrese un número. Así que la función readline
utilizará para tomar la entrada del usuario y el
prompt que estamos dando. Por favor, introduzca un número. Entonces estamos convirtiendo a
un yeoja, Ads dot integer. ¿Bien? Entonces, sea lo que sea, un número entero, ¿verdad? Y entonces simplemente estamos
comprobando si este número n está dividido por dos. Y si el resto es cero, entonces n dividido por dos. Si Amanda es igual a cero, diremos que n es un número par. Y si obtenemos
resto que no sea cero o número, ¿
verdad? Es un número impar. Tan simple cosa. Si n se divide por dos y el
resto es cero, entonces si numeran par, y si resto es
distinto de cero, es número impar, ¿verdad? Entonces espero que tengas la idea. Entonces déjame decirte cuáles son
los números pares
y los números impares. Entonces 24681012. Todos estos números
son números pares. Y nuestros números
son como 35791113. Todos estos números. Entonces no sólo
esto, continuará hasta Bien. Entonces el número que f señora esperó demasiado con
Gino exigió. Demandado se llama número par. Un número impar si da esa reclamación por
debajo de cero. Así que vamos a ejecutar este programa
y ver la salida. Entonces, permítanme aclarar esto primero. Ingresa un número. Entonces supongamos que voy a ingresar el número 45. Entonces el voltaje de salida que
viene en 45 con ellos, o número por 45 es número impar
porque si dividimos 45, obtendremos uno, ya sea demanda o dos en 20 a 44.1 obtenemos como recordatorio, entonces recordatorio es distinto a cero. Entonces entrará en
esta otra parte. Y realmente fue el método
que 45 es un número impar. Y supongamos que lo vuelvo a ejecutar, y si entro un número 12, lo siento, ingresaré el número 12, entonces 12 es un número par. Supongamos que lo vuelvo a ejecutar. Y si entro un número, aquí, tiene que darnos
número par recto. Y si lo vuelvo a ejecutar, y si me sale cinco, y obtengo cinco es un número impar. Entonces de esta manera podemos identificar
si un número es impar o incluso
lógica simple y dividido por dos es igual a cero. Si llega de cero. Como recordatorio,
decimos qué número, de lo contrario se trata de números de orden. Entonces espero que estos
sencillos programas te
ayuden a entender
cómo
funciona la programación y voluntad de tu lógica. Y estas son preguntas bastante
populares en entrevistas también, sobre todo para un congelador. Y si tuviéramos un nuevo egresado
y buscábamos el empleo, estas preguntas
son bastante comunes en la
colocación del campus de College, bien.
54. Programa para comprobar negativo o cerdo: En esta conferencia, vamos
a escribir un programa en donde verificaremos si un número es negativo, positivo o cero. Entonces va a ser una prueba
simple donde
encontraremos si un número es
negativo, positivo o cero. Entonces para eso,
lo mismo haremos lo que hemos hecho Linda conferencia
anterior, pero un poco diferente aquí. Al número se
le puede dar un doble lumbar. Bien, así que toma la
entrada como doble y usaremos la
función de línea de lectura y el mismo prompt, por favor ingresa un número. Después comprobaremos si el número ingresado es
mayor que cero. Si es mayor que cero, dará el mensaje. N es un número positivo. Y si es igual a cero, vamos a dar como si fuera un cero. Y en esto sólo si
es distinto de cero. Entonces, primero comprobará esto. Si n es mayor que cero,
entonces postrenal, ¿bien? Entonces
entrará en otra parte en L3 están usando un anidado if-else. Si el número no es
mayor que cero, llegará a esta otra parte. Y entonces en esta otra parte, estamos comprobando si número es igual a cero vamos a
dar número es cero. De lo contrario, si el número no es cero
y mayor que cero, menor que cero,
entonces lo que
haremos, vamos a querer escribir
esta otra parte. Eso quiere decir que será un número
negativo, ¿verdad? Si el número es menor que cero. Si el número no es
mayor que cero, si el número no es
mayor que cero, ¿verdad? Mantisa, puede ser cero
o menos que cero, ¿verdad? Entonces, si es cero,
obtendremos cero. Si es menor que cero, llegaremos a la
otra parte y pondremos el mensaje como numero es numero
negativo es simple check. Vamos a ejecutar esto.
Déjame aclarar esto. ¿Bien? Bien, aquí. Bien, entonces vamos a ejecutar esto. Así que permítanme ingresar un número de
apoyo al Atlanta. Oh, menos cinco. Menos cinco es un número. Supongo que lo volveré a ejecutar y entrar 45. Lo siento. Entraré 45 años. Cuatro a cinco es una porción o
supongamos que la voy a ejecutar de nuevo, a mano, voy a poner cero. J, el
número Saudi Tito es cero. ¿Bien? Y entonces supongamos que lo vuelvo a ejecutar y le doy
número doble como -78.5. Entonces -7.578.5 es un número
negativo, ¿verdad? De manera similar, si pongo menos ocho
tiene un negativo. Entonces este es el
programa sencillo para encontrar donde el número es positivo,
negativo o cero.
55. Programa para revisar el año bisiesto: Hola y bienvenidos de nuevo. En esta conferencia,
vamos a escribir un programa para encontrar dónde
está ese oído, Bolivia o no. Entonces, ¿qué es la hoja aquí? Salga de aquí.
Obtendrás un día extra, como de tres a seis
días en un año. 376 días aquí de repente
aparecieron, ¿verdad? Entonces, ¿cómo decidimos si el patio no
sería un año bisiesto o no Entonces hay una fórmula simple. Si la oreja se divide por cuatro
y el resto es cero, podría ser una Libia, pero esa no es la caja de
un litro, ¿verdad? Si el oído está dividido por cuatro, esta es la función de módulo. Si lo divides por cuatro y
le das a cualquier proveedor como cero, entonces esa podría ser Libia. Pero tenemos que comprobar
otra condición, si el número también está dividido por cien a
partes iguales. Además, si dividiste el informe de estudio de United Way
y dárselos en cero, podría ser un año bisiesto, pero tenemos que verificar
si eso está dividido por cien y darte
un recordatorio como 0/100. También dar el
resto es cero. Nuevamente, podría ser un
vivo aquí, pero nuevamente, tenemos que verificar una condición donde los datos aún se dividen por 400 y dando un
recordatorio como cero, si ese año se
divide igualmente por 400 también, entonces ese será así
tu tiro año bisiesto. Y si no lo es, entonces no será como Libia. Entonces la primera condición que
tenemos que verificar es si la edición
se divide por cuatro, entonces tenemos que verificar
si están divididos de derecha hacia adelante y resto como cero completamente dividido, derecho, para tu modelo, eso significa módulo 40. Entonces tenemos proyecto
aún más o menos 100, está alrededor, así que vienen cero
y año módulo 400. Entonces también vienen a cero. Si eso tiene su, uh, Livia. Livia. Bien. Y si y aquí también, esto no es un dividido por 100, entonces aún no está en vivo. También saldrá
de este panel, vaya a la otra parte. Y si no se
divide por cuatro, entonces ciertamente no
es un año bisiesto. ¿Bien? Entonces aquí también, si el año no se
dirige justo para esto, no
es Olimpiada. ¿Bien? Entonces, ejecutemos este programa
y apoyemos e ingresemos al 2020. El 2020 es la forma preferida
porque está dividido por cuatro. También se divide por cien. Y se dividirá ¿verdad? 400 también, ¿verdad? Bueno, realmente justo
alrededor de los 400 2020s. Sabía que sí escribí para sí. Y si no se divide y, si se está dividiendo por cien y solo
te está dando un recordatorio como cero, entonces tenemos el Proyecto 400. Pero aquí está, dándonos
algo a los demandantes, ¿no? Entonces es por eso que el resto no
es cero aquí. Entonces vendrá a la
otra parte y te
pondrá a las 20:20 es Libia. Entonces si es más
o menos es cero, entonces tenemos que verificar
dividido por 400 o no. Si el módulo no es igual a cero, entonces llegará
a esta parte y nos
dará que Libia del 2020 apoya de nuevo un marco
a su alrededor. Y si di 1520500,
sí, más bien de repente
por todavía o no. Entonces C todavía 2051, eso está dividido por cuatro. Entonces va a venir aquí. Tomará y
lo dividirá por 100 o no. Por lo que se divide por 100 en su totalidad. Entonces llegará
al dividido este bucle y comprobará si éste
está dividido por 400 o no. Entonces ver 2500/400, lo que nos
va a dar el resto. Alguien lo rinde
no va a requerir a cero, entonces vendrá aquí y
llegará a la otra parte porque el resto
no es igual a cero. Y esta parte,
imprimirá 2.500 no es una Libia. Entonces entremos y
veamos el resultado. C, 2,500 no es una
hoja aquí, ¿verdad? De igual manera, si pongo 19 mil 900, no sólo temen como 2,300.2300, aún
no vivo, ¿verdad? Como esperar, necesito de
nuevo a Tao Qian. 12. Si de pronto estamos
por qué es vivir aquí, porque está dividido por cuatro, entonces llegará
a la esta y veremos si este año tasa total
anual dividida por 100 y dándonos
un resto de cero. No, no
nos está dando el resto cero. Así que tenemos que volver a comprobarlo. Y claramente llegará a la parte de salud e
imprimirá libio. Bien. Así que de esta manera podemos
escribir un programa para encontrar si alguna
deidad en particular duerme todavía o no.
56. Programa de tabla de multiplicación: Hola y bienvenidos de nuevo. Entonces en esta conferencia vamos
a escribir un programa sencillo para imprimir
tabla de multiplicar, ¿verdad? Dar me gusta a una
tabla de multiplicar es una tabla para me gusta. Supongamos
tabla de multiplicar hasta será dos, luego dos en 24, luego 2.236, haciendo 2482 en pipa así. ¿Bien? Tan simple tabla
de multiplicación que
vamos a imprimir. Y para eso vamos
a escribir un programa. Entonces ya escribí el
programa para ahorrar nuestro tiempo. Bueno, entonces primero tomaremos la entrada
del usuario como entero, y le avisaremos,
por favor ingrese un número. En cuanto
ingreses un número. Tomaremos ese número. Y lo que vamos a hacer, vamos a ejecutar un bucle for. Lo que yo en uno a diez, porque la
tabla de multiplicar, queremos acabar con ella. 14, hasta diez números
Valle, ¿verdad? Entonces, y luego
imprimiremos multiplicación, tabla arriba el número
n. Y lo que
haremos, simplemente multiplicaremos N en i. Entonces primero los tomaremos, o alguien tomará el número
tres al tres a uno. La próxima vez que
venga la junta, yo seré uno. Entonces 3.22 y 3.23 hasta diez. Así. Se imprimirá la
tabla de multiplicación y a solo, esto es para la salida. Por lo que serán tres en
uno igual a 33 en dos. Sexo así. Bien, entonces vamos a ejecutar esto y supongamos que voy a
entrar tres aquí. Entonces cuál será la
salida para ver tres en 13 y yo es de un año, bien, entonces tres en uno igual a 33 en uno igual a tres, luego tres en 26 hasta diez. Entonces, si quieres
aumentar este número, puedes poner soporte codo aquí. Y si lo vuelvo a ejecutar, y si apuesto por tres años, así que mira aquí, esto va a
subir a pre-prints. Así que de esta manera se puede generar la tabla de multiplicación
o
para cualquier número n, para cualquier número de primos
hasta obtener el dolor adecuado, un protón lo que quiera. Entonces, supongamos que lo volveré a ejecutar y me quedaré con el número 20, estudio. Número 25 años Atlanta 25. Déjeme aclararlo. Voy a ingresar un número de 25 años. Quiero generar la tabla de
multiplicar para 25. 25 uno a uno. Si quería escoger t, 25 a tres es igual a
75.25 en diez, por favor. Entonces de esta manera podemos generar la
tabla de multiplicar en nuestro programa.
57. ¿Qué valores faltantes y tipos de valores que faltan: Hola y bienvenidos de nuevo. En esta conferencia
vamos a aprender concepto
muy importante que se llama imputar datos faltantes en. Así que cada vez que estamos haciendo
cualquier proyecto de análisis de datos, proyecto de aprendizaje
automático,
o incluso ciencia de datos, inteligencia
artificial
o proyecto de aprendizaje profundo. Sea cual sea el proyecto que estés
haciendo relacionado con los datos, necesitamos trabajar en los datos. Y uno de los problemas
desafiantes, o el mayor problema ahora es
que faltan valores en los datos. Entonces, ¿qué quiero decir con
valores faltantes o datos faltantes? Entonces, cuando apoyará la
forma en que recolectamos datos, recolectamos datos mediante encuestas o le pedimos a la gente que
rellenara los formularios. Y mientras la gente navega por
Internet, recogemos datos, mientras la gente navega, recogemos datos serán polares, vamos de compras. Recopilamos datos a través de poemas pidiendo retroalimentación,
todas esas cosas. Entonces, hay varias formas
de recopilar datos, ¿verdad? Y en esas diversas
formas de recopilar datos, a veces la persona que nos
está dando datos o
proporcionándonos datos es reacia a
proporcionar todos los datos que le pedimos a Bob, ¿verdad? Y cuando duda
y Gibbs incorrectos
datos o no
guarda datos para algunos
de los valores de los formularios, entonces
faltarán los datos, ¿verdad? Y eso va a lo similar, no completar los datos. Y cuando tratamos de
analizar esos datos, podemos enfrentarnos a problemas porque faltarán
muchas de las columnas
o filas de datos. Supongamos que el
ejemplo sencillo es cuando vas al
centro comercial y ellos son, La gente te está
pidiendo que llenes
un formulario de comentarios donde estarán preguntando como los datos de
tu familia, tu número de celular,
tu identificación de correo electrónico, y tu madre
llamada Nombre del padre, tu nombre de calle, ¿
dónde te vas? ¿Cuáles son tus preferencias? ¿Cuánto resuelves? ¿En un mes? Eres como tu salario
detalla todos estos datos. Por lo que la mayoría de nosotros
no estaremos listos para dar todos estos datos
como nuestros datos salariales o incluso la dirección particular
o el número de celular. Por lo que tendemos a escondernos y
no estamos proporcionando estos datos sensibles o los datos de
nuestra familia como si estamos
casados o solteros o
tenemos una jaula o no. Estos datos no proporcionamos. Entonces, cuando la empresa recopila los datos
de miles de personas en el centro comercial, los
encuestan, ellos,
cuando recogen los datos , cuando entran,
van a analizar los datos. Encontrarán que la
mayoría de las personas no
han respondido como cuánto poseen y cuáles son
su estado civil, cuántos hijos
tienen cuando no brindan este
tipo de ruptura, no
podrán
categorizarlos. Bueno, como si pudieran
apoyar a algunas personas. Se casaron y
no han llenado la columna,
casados o solteros. Por lo que los van a
categorizar erróneamente o no
podrán categorizarlos. Y este es el gran
problema en los proyectos de análisis de datos y aprendizaje automático o ciencia de
datos. Entonces, para abordar este problema, hay formas de llenar
los valores faltantes. Así que apoyarte. Si tienes un
dato numérico, soporte, tienes los
datos de edad y peso que has
recopilado de miles de personas y algunas personas donde está
desaparecido o envejecido desaparecido. Entonces, lo que podemos hacer en el
caso de los datos numéricos, simplemente
podemos tomar media
del conjunto de datos disponible. Y podemos llenar
el valor medio o valor promedio en
los valores faltantes. Cualesquiera que
falten los valores se
llenará con el
valor promedio o valor medio. Y eso completará
los datos y
podremos obtener un buen análisis al respecto. Entonces esa es una
forma sencilla de imputar datos
faltantes en R o cualquier proyecto de ciencia de
datos. Bien, Así que en el
caso de valores faltantes, numéricos, ¿y si los
valores faltantes no son numéricos? Lo que vamos a hacer. Entonces ahora lo que hemos entendido, hemos entendido cuáles son los valores faltantes y qué
otras Regiones para ellos. Entonces entendamos los tipos de valores
faltantes a los
tipos de valores faltantes. Los hemos clasificado
en los tres tipos. Uno es M, CAR, Luego MAR, o el
último es un MAR. Entonces, ¿qué es este MC, AR, M cat. Entonces MCAR, Stanford falta
completamente al azar, falta C4, completamente A4 en arpa aleatorio desaparecido
completamente al azar. Y es el tipo rojizo de valores
faltantes cuando no
hay costo para faltar. En otras palabras,
los valores faltantes no
están relacionados con ninguna característica tal como
sugiere el nombre. Este lago. Ellos solo un caso muy
raro donde
al igual que al poner los datos en
la base de datos CDART de Excel, te perdiste los datos. O cuando estamos muestreando un dato o una encuesta a algunas personas, algunas personas, al azar,
se pierden algunos datos. Entonces este es un
caso bastante raro donde obtenemos el MCAR. Después la siguiente columna,
los datos MAR, MAR significa que faltan al azar. Esto es bastante común e
implica que los valores que faltan pueden
explicarse completamente por los datos
que ya tenemos. Por ejemplo, puede haber un caso en el
que es probable que los hombres sientan una encuesta
relacionada con la depresión independientemente de lo
deprimidos que estén. Me gusta. Supongamos que algunas personas están deprimidas y estamos
sirviendo a esas personas. Entonces, la mayoría de la
gente, oculta su estado
mental, ¿verdad? Son muy reacios a compartir su salud mental,
mental, ¿verdad? Entonces van a ocultar que
tienen algunos problemas mentales. Y esto tenderá a que se obtenga
la
información equivocada de la gente. Entonces estos valores faltantes o MAR, derecho, faltantes al azar, realidad viene de hacer una suposición
sobre los datos. Y no hay manera de
probar si los datos
faltantes valoran arriba MAR. Siempre que los valores faltantes
se categorizan como MAR o MCA o dos números más grandes, entonces pueden ignorarse con seguridad. Entonces MCAR, MAR, ya que
están como faltantes al azar, podemos ignorarlos. Podemos, si tienes un dato
con el relleno con esto,
este tipo de valores faltantes, simplemente
puedes
ignorar esos valores y puedes
seguir completamente sin llenar
esos valores faltantes y puedes
eliminarlos del conjunto de datos. Y eso está completamente bien. No te faltará
mucho de eso porque faltan
todos los números al azar. Eso no lo
relaciona con ninguna característica ni ninguna, ninguna variable que
vaya a afectar mucho al resultado general de tus
datos. ¿Bien? El último es un AR, y M significa no
faltar al azar. Y esto es importante. ¿Por qué? Y CMR. Y cuando los datos no son MCAR, MAR, entonces serán categorizados como no
faltantes al azar. Y lo que no falta al azar significa que
como dije antes, cuando estamos encuestando a la
gente en el centro comercial, pueden ocultar el nombre de su cónyuge, el
nombre de su hijo, su dirección, los datos de
su tarjeta de crédito o los datos de su salario. Entonces esto no es al azar, ¿verdad? La gente está ocultando voluntariamente
datos que no están proporcionando. Y cuando usted, cuando
analicemos los datos, encontrará que las personas no
han proporcionado allí el estado civil
o el nombre de su cónyuge, o cuántos hijos tienen
y cuánto no son. Por lo que estos datos no
faltan al azar. Entonces esto es importante. Y esto no es por aleatoriedad y es posible que
no podamos o no saber en
qué caso están las líneas de paquetería como si una persona
no hubiera dicho nada
sobre el estado civil, ya sea que esté casado o no, no
podremos
categorizarlas como un hombre casado
o soltero. Y eso nos llevará
al problema de que
no somos capaces de categorizar a esa persona en una categoría
particular y de ahí no podremos
analizar nuestros datos correctamente. Y si ignoramos este NM AR no encuentro
faltante en datos aleatorios, entonces supongamos que analistas o
científicos de datos para
ignorar estos datos no
faltan al azar. Puede terminar en los cálculos
equivocados, son predicciones equivocadas y eso va a la enorme pérdida
en el negocio. Si estás apoyándote, si estás prediciendo los ingresos de tu
organización y si ignoras que no te faltan datos
aleatorios en tu conjunto de datos, entonces puedes terminar con las
predicciones de roca de cálculo erróneas y cuáles serán, que puede llevar a la enorme pérdida, no
están apuntando a tus
clientes correctamente. Y esto te llevará a
muchos problemas. Entonces hay que encargarte de estos tres tipos
de valores faltantes. Y tú, mientras
amplias, debes estar sabiendo cuáles son, qué tipo de valores faltantes
faltan en tu conjunto de datos. Y si no falta
al azar dataset. Y cómo, cómo sabes que al
no faltar datos aleatorios, los valores
faltantes no
faltan al azar. Y que puedas decidir en
base al cómo, cómo afectaría ese
valor faltante. Bien. Entonces como la persona está
casada o no, está afectando porque no
eres capaz de
categorizar correctamente a la persona. Entonces de esta manera puedes identificar las implicaciones que son y qué impacto
va a tener ese valor
faltante en todos
los datos y resultados que vas a obtener del
análisis de los datos. Entonces aparte de la media, si no tenemos datos numéricos, puedes poner otros
valores faltantes usando media,
media de ese conjunto de datos completo. Entonces, aparte de eso, tenemos algunos paquetes R que
podemos usar para imputar
los valores faltantes. Y estas son las fibras de los populares paquetes R para
imputar valores faltantes. Y el primero y muy
popular estos ratones MIC. Este es el paquete que se puede utilizar para imputar los valores
faltantes. Entonces Emilia es otro paquete, bosque
perdido es otro, y se pierde otro. Un MI es el quinto. Entonces estos son los cinco paquetes de Popplet R
para valores faltantes. O con la ayuda
de estos paquetes, podemos calcular mucho, imputar los valores faltantes
en nuestro conjunto de datos y
terminaremos con un gran
análisis de nuestros datos. Entonces espero que entiendas qué
es lo que está imputando datos faltantes en R. Cuáles son los valores faltantes, tipos de
valor faltante y cómo
se puede identificar el tipo correcto de valores
faltantes y cómo
podemos lidiar con los valores
faltantes. Bien, entonces nos vemos en
la próxima conferencia.
58. Imponer los valores que faltan en los NAs en el conjunto de datos: Bienvenido de nuevo. Entonces en la conferencia
anterior hemos cubierto cuáles son los valores
que nos faltan y cuáles son los tipos de valores
faltantes que tenemos, hemos aprendido sobre MCAR, MAR y MAR
que no faltan al azar. Entonces hemos aprendido qué son los valores
faltantes y
qué otro tipo de valores
faltantes podemos estar viendo en la vida real cuando
hacemos nuestra habilidad, nuestros proyectos de ciencia de datos. Y también hemos visto cuáles son
los paquetes disponibles
en nuestra programación con los que podemos utilizar para
imputar los valores faltantes. Entonces tenemos cinco, un popular R paquetes, ratones, Aemilia, Ms. Agua,
Ley, se perdió un MI. Bien. Entonces estas son las
cosas que hemos cubierto en la última conferencia. Ahora, vamos a hacer nuestra
práctica real y nuestro proyecto
donde lo que hacemos, usaremos el
conjunto de datos incorporados que está disponible
con nuestro paquete, que es el conjunto de datos iris. Y en ese
conjunto de datos de Iris, lo que
hagamos, incluiremos algunos valores
faltantes. Entonces, intencionalmente colocamos algunos valores faltantes
en el conjunto de datos Iris. Entonces intentaremos imputar valores
faltantes con algunos datos. Entonces usaremos el
paquete La señora pereció y los ratones usarán a los ratones y a la señora Pérez para hacer esto, ¿de acuerdo? Entonces imputa los
valores faltantes en el conjunto de datos. ¿Bien? Entonces para eso, vamos a estar
usando el bosque medio y vamos a utilizar el conjunto de datos Iris que
está en soldadura son. Entonces el primer paso es
que necesitamos cargar los datos. Entonces, para cargar el conjunto de datos incorporado que está fácilmente disponible en R, simplemente
necesitamos
llamar a esos datos. Entonces los datos son iguales a itis. Y cuando ponemos
a alguien datos, y cuando ejecutemos esto, haremos que alguien
suba el conjunto de datos del iris. Entonces mira aquí, estos
son los datos que obtenemos del resumen
de estos datos irlandeses. Entonces hay muchos más datos, pero esto es solo un
simple resumen
de datos de los datos irlandeses. Lo siguiente es lo
que tenemos que hacer. Lo haremos, ya que estamos usando
el paquete de ratones aquí. Entonces, los modismos de ratones faltan
en valores aleatorios, ¿verdad? Entonces veamos
los valores faltantes en nuestro conjunto de datos ya que este dataset de Iris
no tendrá ningún valor faltante. Entonces, lo que haremos,
pondremos valores faltantes, veremos los valores faltantes
en nuestro conjunto de datos usando función
amplia NA y esta función de ampliación la podremos obtener de la función Miss
Forester. Bien, entonces con esto podemos usar Iris dot miss los valores
faltantes, y podemos usar la
amplia función n a. Y usamos el conjunto de datos vamos a
dar el nombre del conjunto de datos aquí, iris y no ningún 0.01. ¿Bien? Y cuando hagamos esto, lo hará, lo que hará, verá los
valores faltantes en nuestro conjunto de datos. Entonces cuando intentemos
ejecutar este trozo,
vamos a entrar en por qué
estamos recibiendo este error, porque esta función de
ampliación
no está disponible porque esto pertenece al lujo que el
paquete pierde pulido. Entonces lo que vamos a hacer, vamos a tratar de instalar
el MS perecido y ratones. Así que primero déjame, ya que la notificación
viene aquí como un paquete de
ratones para ser instalados. Así que basta con hacer clic en Instalar y
senior datos faltantes en RMD, los ratones del paquete
estarán instalando. Por lo que comenzará a instalar. Se puede ver ahora el proceso de
instalación que se ha iniciado
instalando ratones. Por lo que lo descargará, tardará un
par de segundos. ¿Bien? Así que los paquetes
se instalaron correctamente. Bien, lo siguiente es que necesitamos
instalar otro paquete
llamado Miss Forester. Así que solo te escribiremos te lo pierdes. ¿Bien? Así que simplemente haz clic en Instalar y se instalará el
paquete Hmisc. Instala ese paquete. Además, puedes usar el
comando
paquetes instalados y puedes darles este nombre de bosque y
se instalará. Bien, así que ahora el almacenamiento de agua miss también se instaló
con éxito. Vamos a tratar de ejecutar este. Chunk arriba de aquí. Acabo de enseñar mito y religión, traje en una función
y anual 0.01. Bien, así que vamos a ejecutar esto. No sé por qué estamos
llegando de nuevo. Entonces ahora estos paquetes mal plegados se
han instalado correctamente. Así que ahora podemos simplemente y luego voy a ejecutar esto, solo pensé que la
señorita trajo. Y después voy a ejecutar el
resumen de Irish Dartmouth. Y ya veremos aquí. Entonces cuando veas este
resumen de datos irlandeses, no
verás
ninguno, ningún valor. Verás que no
hay ningún valor. Pero cuando usamos este amplio NA e impuro algunos
valores faltantes en los datos del iris. Y crearemos un nuevo
arte, faltando valores. Nadar de IDs. Me enseñaron los Ids. Ves, sí, lo que está haciendo,
está haciendo cualquier adición
en longitud sépalo, longitud sépalo y ancho
sépalo, longitud de
pétalo, y ancho de
pétalo y es 19 y proteínas de ARN de setosa. Por lo que hemos introducido
estos muchos 1,819.14. Cualquier valor usando eso traído en una función
del paquete Hmisc. Lo siguiente es que tenemos que
eliminar las
variables categóricas. ¿Bien? Así que vamos a ejecutar esto y ver aquí. Bien, entonces hemos
eliminado esta especie. Especies como cuál es
el color virginica. Todas estas cosas las
hemos eliminado, de esto se
han quitado los datos categóricos. Y lo siguiente es, vamos a proceder
con la implementación ratones para que lo hagamos
en la siguiente conferencia.
59. Imponer los valores que faltan utilizando el método de PMM: Entonces, lo que hemos hecho en
la conferencia anterior, hemos usado
trajo cualquier función del
paquete de mitos bosque para introducir 10%,
10% de valores faltantes
en nuestro conjunto de datos. Entonces nuevo conjunto de datos tenemos
ya sea start miss, y cuando ejecutemos este 10% los valores faltantes
se introducirán en nuestros datos. Y para comprobarlo, vamos a ejecutar esto y vamos a
obtener el resumen aquí. Y aquí, se puede ver que los valores de NA se han
introducido en nuestros datos. ¿Bien? Lo siguiente que
estoy haciendo, estoy haciendo, estoy quitando las variables
categóricas y para que podamos enfocarnos en
los valores continuos. ¿Bien? ¿Cómo son los pozos
continuos, como? Mira, si ves aquí, estos son el valor del hilo
continuo y las especies como se asienta, ¿Cuál es la Virginia coloreada? No son
datos categóricos, así que vamos a eliminar eso. Entonces lo que hemos eliminado eso, hemos eliminado select, hemos usado irlandés enseñado miss, el conjunto de datos y lo que
estamos conectando, estamos creando el subconjunto
y entramos en el ojo, empiezan a faltar conjunto de datos, ese conjunto de datos con valores faltantes y estamos buscando seleccionados,
se llaman dos especies menos c. Significa que
eliminará la especie, que es un
dato categórico en nuestro conjunto de datos. Y luego obtendremos el resumen. Entonces cuando ejecutamos esto, obtenemos este conjunto de datos donde las especies serán eliminadas
de nuestro conjunto de datos para que
podamos concentrarnos y
enfocarnos en los valores continuos. Bien, lo siguiente, lo que vamos a hacer, vamos a instalar
los soportes de ratones. Y por qué necesitamos
estos paquetes de ratones, porque estos
paquetes de ratones está teniendo una función llamada
Md dot pattern. Entonces Md
función de patrón de puntos, lo que hace, devuelve una
forma tabular de valor faltante presentando cada
variable en un conjunto de datos. Bien, entonces para eso, lo que hagamos, estaremos instalando el install.packages que usaremos
para instalar el paquete. Y luego usaremos los ratones
de la biblioteca. Y luego usamos
el patrón de puntos Md a los valores faltantes
presentes en cada parte, cada variable verá cuáles son los
valores faltantes presentes. Entonces primero, instalaremos o ya
lo hemos instalado. Entonces también si quieres, puedes ejecutar esto de nuevo. Si no hemos instalado. Y luego después de eso, después de que el paquete
no esté instalado, puedes llegar a esta pieza
de código y puedes ejecutar este patrón de puntos Md y
puedes poner tu conjunto de datos. Entonces este es el conjunto de
datos Iris que está teniendo los valores
faltantes. Bien, así que vamos a ejecutar esto. Y cuando ejecutemos esto, mira aquí, lo que obtenemos. Llegamos aquí los valores
faltantes para ello. Cada uno aquí, pero
como el ancho del sépalo, punto
sépalo, la longitud
del pétalo y el ancho del pétalo. Entonces entendamos esta tabla. Esto es lo que estamos recibiendo en esta forma tabular.
Vamos a entender. Entonces hay 98 o 96 objetos y aquí están ahí 96
observaciones, cuales no tienen
valores faltantes en los valores faltantes. Y luego, bien, entonces este seis. 96. Este significa que no faltan valores y
cero significa faltantes. Bueno, entonces 96 variables que no están teniendo
valores faltantes y ancho de punto sépalo. Y aquí procedes. Seis ejecutables están teniendo valor
faltante que una variable también
está teniendo faltante RelU. Entonces con esto podemos entender
cuántos valores faltantes. Cero significa que esas variables
tienen valores faltantes, ¿de acuerdo? Y esto se ve bastante mal. Y si quieres, puedes ver esto también. Bastante superpuesto. Entonces mira aquí. Bien, entonces lo siguiente que
haremos, haremos cola,
crearemos la representación
visual de lo que estamos viendo
en esta forma tabular. Entonces para eso, lo que haremos, instalaremos el paquete. ¿Bien? Y después de eso
usaremos la biblioteca BIM. Y lo que vamos a hacer,
vamos a usar eso. Trazaremos lo que sea que estemos obteniendo a través del
paquete de ratones, patrón de puntos vacíos. Vamos a tratar de trazar eso. Entonces usaremos esta función
y la función EDR, y usaremos ese
conjunto de datos, iris Dartmouth. Y luego usaremos color, azul
marino, amarillo,
lo que quieras. Se puede poner, supongamos que voy a poner rojo y amarillo y números para ordenar valor y
luego etiquetar nombre. Voy a dar los nombres que haya en cualquiera de los dos
arranques perdidos. Y por qué laboratorio realmente
falta patrón de datos. Bien, así que vamos a ejecutar esto y ver qué visualizan
y estamos consiguiendo. Ahora, estamos obteniendo
esta visualización. Entonces mira aquí con
estas visualizaciones, lo que entendemos es
67% de los valores, 67% de los valores en el
desierto sin valor faltante, 67% datos no está teniendo
ningún valor faltante. Hay diez por ciento de
13% está teniendo valores faltantes en nuestro largo de pétalo y ancho de
pétalo y hacia fuera. ¿Bien? Y podemos ver este
histograma también. Histograma. Bien, déjame ver aquí un histograma,
faltan datos y Leah, las variables pétalo,
ancho de pétalo está teniendo alrededor de pre-impresión por
ciento arriba datos faltantes, donde la longitud
es del diez por ciento, longitud del
sépalo está teniendo
alrededor del 9% o algo así. El ancho del sépalo es tener 8% o
algo de datos faltantes. Y aquí también se puede
entender, ¿de acuerdo? Entonces de esta manera, y podemos ver la representación gráfica
de los valores faltantes. Ahora lo siguiente es
la parada Crítica. Lo que estamos haciendo aquí. Estamos en,
vamos a imputar algunos valores en los valores
faltantes. Entonces para eso usaremos la función
mice y
usaremos el ID start missing data
set con valores faltantes. Y m phi m es igual a cinco. Lo que hará,
reportará a
la imagen igual a cinco si le diste, creará el
conjunto de datos de tipo de archivo con valores faltantes. Por lo que creará cinco conjuntos de datos imputados y dirección
máxima y será de 50. Y método
vamos a usar PMM. ¿Qué es este PMF? Pmm es una
coincidencia de medias predictivas para valores numéricos. Vamos a usar
el método PMM, que es la coincidencia predictiva de
medias, ¿de acuerdo? Y luego lo veremos por 500. Y luego veremos el
resumen de entrada en data. Así que vamos a ejecutar este pedazo
de código basura. Y aquí estamos
consiguiendo algo de edición. ¿Bien? No es encontrar
la función ratones ¿por qué? Entonces tenemos que ganar. Bien, así que mira aquí ahora, estamos ingresando los datos con. Valores faltantes. Por lo que los valores
faltantes serán imputados con algunos datos y
los procesos en curso. Se puede ver aquí. Entonces porque son 50, me visto de arena, estamos vendiendo por 500. Por lo que puede llevar algún tiempo. Ahora. Está hecho. ¿Verdad? Entonces estos son el número de
imputación múltiple cinco. O método de imputación es PMM que hemos utilizado,
predice y matriz. Se puede ver la
longitud del sépalo, la anchura del sépalo 11. Esta es la
matriz de confusión, ¿de acuerdo? ¿Y cuál es el ancho del pétalo? Entonces esta es la
matriz de confusión que estamos obteniendo. Ahora, lo que hacemos, podemos verificar los valores imputados
usando datos imputados, y podemos usar el ancho
sépalo para eso. Así que vamos a duplicar eso. No se encuentran los datos importados. Por qué
lo estamos consiguiendo de nuevo en eso. Bien, así que he dado
el nombre de la variable como
el nombre del conjunto de datos como
el período de tiempo. Y si ejecuto esto, mira aquí, estos son los valores que
hemos imputado para
el ancho sépalo. ¿Bien? Entonces de la misma manera, podemos bajar aquí
y Control Alt. Realmente puedo agregar
yarda y van a hacer,
voy a poner algo de largo. Y si ejecuto esto, obtendremos los valores imputados también
obtendremos los valores imputados
para la
longitud del punto sépalo. Bien, entonces ahora podemos ver cuáles son los valores que hemos
insertado en nuestro conjunto de datos, introducidos en nuestro conjunto de datos. Ahora podemos obtener los datos imputados
completos. Como tenemos los cinco datos ingresados de
configuración, podemos obtener el segundo objeto
usando la coma imputada dos. Entonces esto nos va a dar el, bueno, él tenía una especie de ser subrayado, imputado hockey y correr esto. Entonces podemos usar resumen. Datos completos. Dorsi. Esta es la petición completa de carga de
datos, bien, Así que de esta manera podemos
imputar los valores faltantes. Entonces supongamos que tienes
la necesidad de gritar proyecto
mundial donde hay algunos valores
faltantes ahí. Entonces puedes usar este programa
o este mecanismo para imputar valores faltantes usando
como aquí hemos usado PMM. También puedes usar el otro
método. Y también hay pocos otros métodos
que puedas usar, como hemos usado la coincidencia de
medias predictivas PMM para valores
numéricos. Si tienes
variables binarias con dos niveles, puedes usar la regresión
logística. Y para eso, la
función es log reg. Y si tenemos
Bali bayesiano Tom debe regresión, se
puede utilizar un cuarto
factor variables con dos o más de un niveles. Se puede utilizar el método
polimérico. Y si tienes
como modelos impares, puedes usar los modelos 4D
proporcionales para ordenar el nivel dos o más. Entonces estos son los métodos dr. Estos son el método
y los paquetes que
puedes usar para ingresar los datos. Entonces todo esto se
trata de este proyecto. Y en este proyecto hemos
aprendido a imputar datos. Entonces de la misma manera, también
podemos implementar
tu propio proyecto. Y puedes, puedes tomar este conjunto de datos o puedes
ir con cualquier otro dato. Digamos tratar de imputar los valores
faltantes e
intentar poner los
valores faltantes dentro de los datos. Primero, lo que hemos hecho aquí, hemos insertado algunos de nuestros datos con variables
sin valores, ¿verdad? Y luego nosotros, lo que hemos hecho, hemos utilizado el PMM para imputar esos valores
con algunos datos, algunos datos relevantes para que
podamos obtener la salida correcta. Entonces espero que
aprendas a imputar datos en la programación son para tus proyectos de machine learning y
data science. Entonces espero que hayas aprendido algo.
60. Analizar los conjuntos de datos con funciones de R: En esta conferencia,
vamos a analizar conjunto de datos. Entonces, primero lo primero, si planeas trabajar como científico de datos o ingeniero de
aprendizaje automático, o incluso analista de datos de visualización de
datos. Hay que tener que no tener. Qué es el análisis de datos y
cómo se pueden analizar los datos. Entonces, la parte más importante de los datos de cualquier
proyecto de ciencia de datos, cómo se analizan los datos. Por lo que el análisis de datos es la parte
más importante de cualquier proyecto de
aprendizaje automático de ciencia de datos o incluso proyecto de análisis de datos. Entonces, lo que voy a hacer, voy a usar un conjunto de datos
incorporado que
está fácilmente disponible con el paquete o descarga. Viene con el paquete
el R, ¿de acuerdo? Por lo que no es necesario
descargarlo por separado. Será que viene
con el corazón, ¿de acuerdo? Entonces es un
conjunto de datos incorporado con la r. entonces usaremos esa mano. Te diré cómo podemos usar las funciones incorporadas
para analizar los datos, para obtener información
sobre los datos. ¿Bien? Entonces, ¿qué es el conjunto de datos? Dataset es básicamente la
recopilación de datos. Y más comúnmente hemos visto que los
conjuntos de datos son como pagaderos. Utilizamos en nuestras bases de datos. Bases de datos lo que dieron. El conjunto de datos más común
que hemos visto es el. Entonces en nuestras bases de datos
como mi secuela, nuestra MongoDB o cualquier base de datos, si ves son básicamente los datos suficientes cáliz, ¿verdad? Si ves MongoDB es
una recopilación de datos en términos de par clave y valor. Si ves mi
base de datos secuela o RDBMS, sistema de
gestión de bases de datos
relacionales, estarán guardando los datos en forma
de filas y columnas. Y filas y columnas
quedarán guardando los datos, ¿verdad? Entonces, la recolección más común
de datos es la tabla, ¿de acuerdo? Y también guardamos los datos en formato
XML, también en el formato JSON. Pero
lo más común es la mesa, ¿de acuerdo? Entonces puedes, lo que sea que
hayas visto en la tabla de
Walmart que básicamente
está guardando los
datos con ella, ¿verdad? Entonces vamos a
usar autos vacíos. Los autos vacíos es un conjunto de datos incorporado en R. Y vamos
a analizar éste. Así que los autos vacíos es el conjunto de datos de autos de
tendencia del motor que está incorporado en R y
se recuperó de la década de 1970 para Motor
Trend US makin, ¿de acuerdo? Entonces estos datos se recuperan de esta coincidencia de 1970 Ford Motor
Trend US, ¿de acuerdo? Entonces lo primero es
cuando Supongamos que tenemos este conjunto de datos incorporado que es autos
vacíos y queremos
cargar estos datos. Entonces, lo que podemos hacer, simplemente
podemos escribir
el nombre del conjunto de datos. Y cuando ejecutemos esto, obtendremos el conjunto de datos. Entonces este es el
conjunto de datos que tenemos. ¿Bien? Y cuando te mantienes afuera, hay más columnas, ¿verdad? Entonces estas son las filas. Y estas son las
filas son diferentes. Nombres de Dios, ¿de acuerdo? Y para cada tarjeta hay
varias variables como MPG, desplazamiento
del cilindro
que esperamos. ¿Bien? Entonces todos estos datos que tenemos
con el auto vacío, ¿verdad? Entonces es tener 11
columnas y 32 caminos. Eso significa que contiene los 32 detalles de autos
con 11 columnas. 11 columnas son 11
variables diferentes para cada tarjeta. ¿Bien? Entonces así es como el
tipo simple nombre del conjunto y obtendrá la información
más antigua, aunque dataset todas las filas
y columna del conjunto de datos. ¿Bien? Lo siguiente es,
supongamos que tenemos esto adentro. Queremos obtener la información,
más información sobre el conjunto de datos. Entonces, cómo está este conjunto en un ángulo desde donde
obtenemos ese conjunto de datos. Así que simplemente podemos poner el signo de interrogación frente al nombre
del conjunto de datos. Y cuando ejecutamos esto, obtenemos la información
sobre el conjunto de datos. Y esta
información de conjunto de datos viene aquí. Entonces, cuando hayamos terminado. Éste. interrogación,
signo de interrogación autos vacíos
obtendrán esta información autos
vacíos conjunto de datos. Y esto está diciendo Motor
Trend Car conjunto de datos de prueba de carretera. Y esto viene de
la documentación R. Bien. Y así
te está dando la descripción total. Y total usa una Brita, cómo
se ha formateado estos datos. Bien, entonces esta es la
protesta de autos de tendencia
del motor y los datos fueron dirigidos desde la década de 1970
para el uso de Motor Trend. Makin comprende
conceptos de combustible y aspectos de antena del diseño y
rendimiento de
automóviles para 32 automóviles, 32 autos en modelos 1973-1974. Bien. Y luego está dando el formato como mpg
significa millas por galón. Cilindro significa número de cilindros desplazamiento,
HP, caballos de fuerza, calado, relación
axial peso de 141
por cuatro millas tiempo medio tiempo. Reevaluar el motor como VSEPR en general, motor
recto. Entonces nosotros como antes, ahorramos y si
está teniendo cero, se recibe y
un cuarto recto, entonces soy para transmisión
automática si un emperador automático manual
o automático y manual. Y buen numero de años y numero tallado
de prueba de Cadbury. Bien, entonces la otra información
que estamos obteniendo para esta fuente de datos, bien. Ahora, vuelve a
la parte de análisis. Así que solo pones un signo de interrogación
frente al nombre del conjunto de datos y obtendrás toda la información
sobre el conjunto de datos de entrada. Ahora, queremos obtener
las celdas de diamante y
el nombre de la variable. Supongamos que tenemos los
diamantes y slake, filas y columnas, y estos
son el nombre de la variable. Entonces supongamos cómo quiero los nombres de
las variables de un bucle. Entonces, ¿cómo puedo conseguirlo? Para que puedas usar. Así que lo primero
que tenemos que hacer es asignar este conjunto de datos
a alguna variable. Y para eso, lo que estoy haciendo, estoy creando un
conjunto de datos variables subrayado autos, y estoy asignando autos vacíos. Así que los autos vacíos, los autos de
conjunto de datos
representarán los autos vacíos. Entonces, todos los valores a nuestros autos
vacíos estarán aquí en el conjunto de datos de autos y esto lo
podremos usar en nuestro programa más adelante. Entonces si uso dim y voy a
pasar la variable dataset, este conjunto de datos
subrayan autos. Voy a obtener el diamante
suma el conjunto de datos. Entonces, si uso nombres y parte
del dataset nombre dataset, o obtendré los nombres de variables en el conjunto de datos o
dejaré ejecutar este fragmento. Ver aquí. Ahora está dando los
diamantes y 32 roles y 11 columnas que
podemos verificar desde aquí, como 32 filas y n columnas. ¿Bien? Entonces esos son los diamantes
y sube el conjunto de datos. Y luego cuando usamos nombres, obtenemos los nombres de las variables. Entonces ven aquí, estamos obteniendo los nombres de las
variables. Cilindro mpg es SP arrastrado
con todas esas cosas. Entonces 32 por 11, 32 filas y 11 columnas son
las dimensiones del conjunto de datos y estas son el nombre de la
variable. Lo siguiente es que quiero extraer el nombre equivocado de
la primera columna. Entonces quiero encontrar los
nombres de fila de las columnas. Puedo usar nombres de fila. Y puedo pasar la variable
dataset dataset. Entonces nombre rho y voy a pasar ese
conjunto de datos y tarjetas de escolta. Esto me va a traer primero
el nombre de todos los guardias, los nombres de las
columnas dicen C o D, o Delta T. ¿Cuántos? Estas son las 32 variables de
conjuntos de datos. Lo sentimos, estos son los 32, 32 autos que se han utilizado en el conjunto de datos que están
disponibles en ese conjunto de datos. Entonces la columna de descarga, ¿de acuerdo? Y luego si usamos la oscuridad, si quiero obtener la
única información valiosa, como quiero obtener las millas
por galón del conjunto de datos. Puedo usar este nombre de
conjunto de datos de signo de
dólar luego signo de dólar MPG. Obtendré los valores de la
variable mpg. ¿Bien? Así que de esta manera podemos obtener los valores de una variable
en particular. Entonces por si acaso aquí, valor de mpg,
puedo, estoy obteniendo los
valores de mpg si uso EM aquí y obtienes 0.1 porque eso es
automático y manual. Entonces veamos aquí,
1000, así. Bien, entonces cero para
automático, uno para manual. Así que de esta manera podemos usar nombres de
variables aquí
si uso MPG y obtener lo siguiente es si
quiero ordenar esto, este MPG viene
así, ¿bien? Si quiero ordenar
estos en orden, puedo usar la
función sort en esto. Y puedo ordenar conjunto de datos y
el cuadro de mando dólar mpg. Y ordenará los valores
de esta variable mpg c, un artista que viene ahora, forma
ordenada, aumentando el orden. ¿Bien? Entonces así es como
podemos ordenarlos. Pierdo un valioso. Lo siguiente es ahora que quiero
analizar el conjunto de datos. Así puedo usar a alguien
y puedo dar el nombre de la variable para el conjunto de datos y obtendré
el resumen de los datos. Mira aquí ese hermoso
resumen de los datos como millas por galón.
¿Cuál es la media? ¿Cuáles son los valores del primer
cuartil? ¿Cuál es la mediana? ¿Cuál es la media? ¿Cuál
es el tercer cuartil? ¿Cuál es el
valor máximo para cada variable? Estamos obteniendo estos
seis valores, ¿verdad? Mediana primero, como min, primer cuartil, mediana media, y luego media mínima,
mediana, valores máximos. Y el primer cuartil
y tercer cuartil para cada una de estas variables, estamos obteniendo esta información. Entonces esto te dará
ese resumen de los datos. Y estas son las cosas que
aprenderemos en las próximas conferencias. ¿Cómo llegar a la media, qué es la mediana, qué es primer cuartil y el
tercer cuartil? Entonces así es como podemos obtener
información y podemos analizar el conjunto de datos en R.
Podemos usar nuestro nombre de conjunto de datos
para obtener el conjunto de datos. Podemos usar el signo de dólar para obtener la información sobre el
conjunto de datos y vamos a conjunto de datos. Podemos usar la función lm para obtener la dimensión
del conjunto de datos. Podemos usar nombres, función para obtener el
nombre de las variables. Podemos usar nombres de fila
para obtener la caída de una fila, primera columna, cada fila en
la primera columna, ¿de acuerdo? Los valores de cada fila en
la primera columna, entonces podemos usar este signo de
dólar para obtener los valores variables
para el conjunto de datos. Y luego podemos usar la función sort para ordenar
los valores de las variables, y luego podemos usar el resumen para obtener el resumen de los datos. Bien, así es como podemos
analizar ese conjunto de datos en R.
61. Manipulación de datos Utilizando el paquete de dplyr: Hola y bienvenidos de nuevo. En esta conferencia,
vamos a aprender sobre manipulación de
datos en R. Así que vamos a aprender
sobre la manipulación de datos. Y para ello vamos
a usar el paquete ggplot. Así que duplicar el paquete es muy importante cuando se quiere
hacer la manipulación de datos en. Y estoy usando este archivo RMD. Ya escribí
el código para que solo
podamos seguir adelante y podamos aprender sobre las cosas básicas del jugador y podamos
hacer alguna manipulación de datos. Lo primero, si
quieres usar el reproductor, necesitas instalar
el paquete ¿verdad? En nuestro siempre que quieras
usar lo incorporado, queremos usar alguna
funcionalidad. Tenemos que instalar el
paquete en nuestra R y luego
podemos continuar. Si quieres trabajar
con el plan, tienes,
necesitas instalarlo. Puedes instalar la propia capa profunda,
one lady player, o si quieres instalar todo lo que viene
con el verso ordenado, puedes ir con el tidyverse. Entonces, si instalas
verso ordenado, por defecto, vendrá
capa
profunda en que el plan estará
dentro de este tidyverse. Y si no quieres instalar todo dentro
de
estos Tidyverse, puedes ir solo
con el d plus. Para que puedas correr
ya sea esto o esto. Cualquiera de estos. Se puede correr. Para que puedas ir con eso. Puedes ir con el verso ordenado o puedes ir con
la capa profunda, ¿de acuerdo? Así que construyes sobre
tu requerimiento. Puedes ir con eso. Te sugeriré que instalaste
el tidyverse. Entonces he instalado
estos dos paquetes, así que no voy a ejecutar estos
p sub trozo de código, esta pieza de código, no lo
voy a ejecutar porque ya los he
instalado. Entonces lo que voy a hacer, te
voy a mostrar lo siguiente. Bien, entonces déjame aclarar esto. Entonces lo primero,
lo que podemos hacer con la manipulación de
datos en el arte, usando esto, el reproductor es que
podemos usar el filtro
que podemos usar select. Podemos usar grupo por todas
esas cosas que podemos hacer usando la trama en R. Bien, entonces qué voy a hacer, voy a usar, también te
mostraré cómo
podemos usar el filtro en R usando las bibliotecas de desenfoque. Entonces para esto, lo
que voy a usar, voy a usar
el conjunto de datos incorporado que se llama Star Wars. Star Wars es un
conjunto de datos incorporado disponible en el arte. Entonces, lo que voy a usar, usaré Star Wars y luego
usaré este operador de tuberías. Y lo que voy a hacer, voy a usar la
función de filtro y voy a dar especies de filtro
se llama dos tríadas. Entonces, lo que va a
hacer, va a buscar todas las especies que
sean iguales para dibujarla. Por lo que irá al conjunto de datos
de Star Wars. Se enfrentará al conjunto de datos de
Star Wars. Y dentro de eso
irá y aplicará el filtro y fallará. Se filtrará el conjunto de datos en
función de esta especie. ¿Bien? Entonces así es como va a funcionar. Por lo que las especies arrastran, se
aplicará el filtro. Entonces déjame, solo ejecuto este código. Así que sólo estoy haciendo
clic aquí y ver. Ahora estamos recibiendo la recarga. Bien. Entonces mira tu nombre, realzado, color de pelo de pantano,
color de piel, color de
ojos, arregla todas esas
cosas que estamos obteniendo. Bien. Entonces esto lo estamos consiguiendo
para la especie. Pruébalo. Bien. Consulta aquí, si ves la columna Especies,
todo está seco. Sólo, ¿verdad? Por lo que está mostrando
datos solo para secos porque aquí hemos aplicado
el filtro secado. Por lo que nos mostrará terceros datos sólo para especies
que así de esta manera, podemos aplicar el filtro, podemos usar el nombre del
conjunto de datos Vía y luego operador de tubería y luego función de filtro
y su especie. El nombre de la columna es
específico de especie igual a dibujarla. Entonces lo hará, así que todas las especies, los datos borrados para nosotros, bien. Entonces así es como
funciona el filtro en la planta. Bien, lo siguiente es que
vamos a usar Select. Entonces selecciona cómo va a funcionar. Nuevamente, lo mismo. Vamos a usar. Esta estrella era
dataset y luego operador de tubería, y luego usaremos Select, select, y luego necesitamos mantener el nombre termina con color, así que va a buscar todos los
nombres que terminan con color. Entonces déjame dirigir esto. Ver aquí. Ahora lo que está haciendo. Es ir a buscar todas las columnas. Todas las columnas
terminan con color, color pelo,
color de piel y color de ojos. Entonces está mostrando
solo las columnas que están terminando
con color, ¿verdad? Entonces Star Wars seleccione
nombre, termina con color. Por lo que te mostrará las columnas de Wanli George las
cuales están terminando con color. Así subrayado, subrayado clase. Por lo que está mostrando
sólo esos datos. Si nos fijamos en lo
anterior. Aquí. Hay muchas columnas
como altura, masa. Y luego tenemos
ER, sexo, género. Pero no
nos está mostrando todas estas columnas, sino que está mostrando sólo
las columnas que están terminando con Carlos, que están terminando con color. ¿Bien? Entonces esta es la forma
de usar el select. En. Lo siguiente es que
vamos a aprender sobre mutar. Entonces, ¿qué hará mutar? Creará, si
quieres agregar algunas nuevas variables o
valor de variable en el conjunto de datos, puedes usar la
función mutar, ¿bien? Así que muta para agregar, para agregar algo nuevo, ¿de acuerdo? Agrega algo nuevo,
una nueva variable. Si quieres agregar, puedes usar el uso de la función mutar. Entonces, ¿cómo podemos hacer eso, simplemente
podemos darle
la Guerra de las Galaxias, luego operador de tubería y
luego mutar función, y luego tenemos que dar nombre. Y entonces aquí puedes definir la nueva variable o el nuevo valor que
quieras proporcionar. Entonces aquí, lo que se nos da, se
nos da nombre y nombre. Aquí estamos introduciendo
nueva variable IMC y v aquí les estamos dando Cómo se debe calcular el
IMC. Entonces, si no quieres dar
puedes codificar duro el valor. Pero aquí lo que estamos haciendo, estamos usando la masa dividida por altura por 100 de potencia para, ¿bien? Entonces esta es la fórmula
que estamos usando para calcular el índice de masa
corporal del IMC, ¿de acuerdo? Así que la altura y el peso que estamos usando para
calcular el IMC. Y luego estamos pasando este
IMC para seleccionar función. Entonces estamos usando
operador de tubería dos veces aquí. Entonces qué va a hacer, primero
calculará
este IMC aquí, y luego este IMC será, este IMC se pasará a esta
función de selección aquí mismo. Ve que tu IMC viene
aquí de ahí. Entonces, lo que sea que aquí
se recoja, llegará a esto. Entonces este IMC
vendrá aquí, ¿verdad? Entonces eso es lo que hacen los operadores
de tuberías y el operador, ¿verdad? Pasará el, pasará la salida de esta a la siguiente función,
salida off mute. Se irá al selecto mutar. Mutar, mutaremos, crearemos el IMC, crearemos el IMC, y luego pasaremos a
la función select. ¿Bien? Entonces, cómo, si di una representación
pictórica, qué, cómo va a funcionar, soporte de
TI, usaremos mutar. La función Mutar
dará alguna salida. Y esta
salida de función mutada irá al Select. ¿Bien? Entonces supongamos que aquí tenemos la masa y la altura.
Masa y altura. masa y la altura
irán a la mutada, y luego mutar la salida
irá a la, vaya a la Seleccionar. Entonces así es como funciona el
operador de tuberías, ¿verdad? Pasará la salida
de esta a esta función. ¿Bien? Entonces así es como el operador
de tuberías rockstar. Aquí estamos creando la
obtención de la nueva variable IMC, nuevo valor IMC, y
estamos pasando a la función select
para seleccionar la función lo que estamos haciendo
llamado masa e IMC. Por lo que seleccionará la máscara
y sorta IMC. Entonces déjame ejecutar este código. Así que da clic aquí y vea aquí
nombre, altura e IMC. Por lo que basado en la masa y la altura, el
peso y la altura, nos está
mostrando pronto el IMC. Esta columna de IMC, IMC no
estaba ahí en los datos
anteriores, ¿verdad? Déjame mostrarte. Aquí. No tenemos el IMC, rehabilitación de
IMC creada con el IMC que hemos creado con
esta función mutada, ¿verdad? Entonces con el mutado,
hemos creado IMC y hemos agregado
a nuestro conjunto de datos. Bien, así que de esta manera puedes crear una nueva variable o un nuevo valor y puedes agregarlo
a tu conjunto de datos con la
función mutar en la reproducción. A continuación se describe la fuente de masa. Somos lo que podemos hacer. Podemos organizar la misa. Así que vamos a ejecutar esto y ver. Mira aquí ahora estamos
obteniendo la altura, la masa y el color del pelo, el color la piel, el color de ojos, todos los datos, todas las
columnas que estamos sacando bien? Y está dando el valor de
masa ¿verdad? Aquí. Lo es. Es como un orden decreciente. Nos está dando la masa, la altura, el color del pelo,
y todas esas cosas. Bien. Si quieres
cambiarlo a, puedes cambiarlo por
alguna otra cosa y ver como viene. Siguiente. Una es, podemos usar
el grupo por aquí también. Entonces, ¿qué grupo por, grupo BY va a hacer? Se agrupará por, por especies. Entonces lo que estamos haciendo muy lean Starbucks dataset y este es el operador de tuberías. Y luego agrupar por lo que sea el grupo por especie
postula lo que va a hacer. Agrupará a cualquiera de las especies y luego nos
dará la voluntad. Entonces como el resumen en un
solo conjunto de datos, ¿de acuerdo? Dará lo que hará la
función de resumir. Te dará el
resumen único del conjunto de datos. Entonces aquí estamos usando
n es igual a n, masa igual a media,
media hasta masa. Y un na.rm significa
cualquier valor que no esté disponible que
eliminará lo que se termine
en nuestro umbilical. Mira si miras aquí, algunos de los valores
no están disponibles, ¿verdad? Por lo que eliminará los
valores que no están nivelados. Bien, así que terminé no lo son. Lo que voy a hacer. Eliminará las filas de datos que no tengan
ningún valor. ¿Bien? Entonces, lo que va a hacer, creará la media de
máscara de la masa. ¿Bien? Así lo hará, ya que estamos
agrupando por especies. Entonces, para cada SPC, te mostrará la masa
media, la masa promedio. Y para eso, estamos usando
la función media para obtener el, obtener el promedio de esta o promedio de la masa total para una especie
en particular. Y estamos agrupando
por especie. ¿Bien? Lo siguiente, Lo que estamos haciendo, estamos usando el filtro. Estamos usando filtro aquí. Y mayor que uno, masa, mayor a 50, aquí estamos
aplicando el filtro. ¿Qué filtro? Y así
ser mayor que uno y debe ser mayor a 50. Entonces este es nuestro filtro, este filtro lo estamos aplicando. ¿Bien? Entonces, ¿qué otros
pasos estamos haciendo? ¿Primero? Estamos agrupando
por especie, y luego estamos obteniendo
el único resumen. Y estamos obteniendo la media de la masa para esa especie
en particular. Y entonces estamos aplicando un filtro donde n es
mayor que uno y masa igual a. Así que vamos a ejecutar esto y ver
qué salida estamos obteniendo. Así que vamos a ejecutar esto y
ver la salida aquí. Ver la salida C. Ahora no
estamos recibiendo el nombre, estamos obteniendo la especie
porque tenemos grupo. Hemos usado, hemos usado
el grupo por especie, hemos usado grupo por especie. Y hemos calculado la media de la masa
para la especie. Entonces por eso
está mostrando el n. mayor que uno. Para n
uno no se muestra, es coser y valores
que son más de uno. Bien. Y la otra especie,
seca, goma de mascar desaparecida, humana. ¿Puedes ser dueño de MATLAB, tweak, rookie jab rack Entonces todas las especies, es swing y se está
mostrando para los valores 1250, porque lo que hemos dado, lo que te he dado la
respuesta sea mayor que uno. Entonces por eso nos está mostrando los n valores
mayores que 123630 bytes. Ahora mostrando los valores
menores a uno, ¿de acuerdo? Y luego masa, se está mostrando
mayor que propiamente. Entonces qué filtro hemos aplicado un filtro lo aplicamos como
masturbarnos mayores a 50. Por lo que nos está mostrando la
máscara mayor que la pubertad. Estas masas significan masa
hasta estas especies. Entonces para esto a nuestra exhibición hay tal vez muchas cosas, ¿verdad? Pero tenemos tomando la
media o media de todas esas piezas
y hemos dado la media hasta las secas. Bien, entonces déjame
mostrarte en el conjunto de datos. Mira aquí como todas estas especies pertenecen a la sequía y
tienen la masa, ¿verdad? Ellos tienen las matemáticas, ¿verdad? Y nos han permitido
a lo que hemos hecho. Tenemos años terminó ese
brazo para quitar estas filas. Y por todos estos nombres
pertenecen a la especie. Dibujarlo, dibujarlo, y tienen masa. Entonces lo que hemos hecho,
hemos tomado toda la masa, resumir toda la masa dividida
por el número de especies, numerar nombres en seco. Esta precisión,
hemos calculado la media usando la función
media aquí. Déjame mostrarte
aquí, bien, quiero decir, así es por eso que es
tan en una estrella media mosfet cada grupo de especies. Entonces para el mensaje principal humano que
T2 para secador significa masas. Esto, bien, Así que de esta
manera podemos usar la gráfica para la manipulación de datos. Bien, entonces, ¿cuáles son las
cosas que hemos aprendido? Hemos aprendido que nuestro paquete de
verso ordenado necesitamos
instalar para usar el duplicado. Y hemos utilizado cómo filtrar y cómo podemos aplicar
filtro en nuestro conjunto de datos. Y cómo podemos usar
select en nuestro conjunto de datos. Y luego cómo podemos
mutar y agregar, mutar o agregar una nueva
variable en nuestro conjunto de datos. Y luego hemos visto cómo
podemos organizar nuestro conjunto de datos. Y luego, por último,
hemos visto GroupBy y resumimos junto con el
filtro en nuestro último ejemplo. Entonces espero que tengas que
saber cuáles son las cosas que podemos hacer
con la capa profunda y cómo hacemos la
manipulación de datos en el arte.
62. Introducción a los paneles interactivos brillantes en R: Hola y bienvenidos de nuevo. En esta conferencia
vamos a aprender sobre la firma desde RStudio. Entonces, ¿qué es este signo? De nuestro total? Entonces esta minúscula es una forma de
comunicarse con los datos. Básicamente es una solución de
dashpot o una herramienta de
visualización de visualización para nuestro, bien. Entonces, si quieres
visualizar datos en R, puedes usar este pequeño RStudio. Esto es interactuar, analizar y comunicarse
con el inicio de sesión. Podemos crear
dashboards interactivos donde no solo se mostrarán los datos en el formato gráfico
o en un dashboard, sino que también podremos interactuar con los datos thin y
están en el dashboard. Así que esa es la belleza
del inicio de sesión de RStudio que no solo
creará un tablero
construido sobre los conjuntos de datos, también
interactuamos en
el tablero mismo. Entonces dice que tome una frase enfoque
interactivo para contar su historia de datos con la firma, permita que los usuarios interactúen
con sus datos y su análisis y
lo hagan todo con los nuestros. Así que no sólo
verán los datos en formato gráfico y en
las gráficas y dashboard, sino que también podrán interactuar
con los datos y
realmente podrán ver qué impacto tiene nuestro
análisis haciendo en los datos. Entonces déjame
desplazarme hacia abajo para ver qué dicen
las otras opciones. Así que están en arsina es un paquete R que
facilita creación de
aplicaciones web interactivas directamente desde nuestro. Entonces no vamos a
usar ninguna otra cosa, sino que usaremos la
programación R misma. Y podemos crear dashboards interactivos basados en aplicaciones
web. Puede alojar
aplicaciones independientes en la web o incrustarlas en R Markdown
documentos se construyen como deportes. Entonces mira, esto debe ser flexible. Se da que podemos, no solo
podemos crear páginas web y aplicaciones
independientes, sino que también podemos incrustarlas en el incrustarlas en
el archivo RMarkDown. Los documentos están en un tablero, así que esa es la belleza
de iniciar sesión en R. También
puedes extender tus aplicaciones de
firma con equipos CSS, HTML, widgets y
JavaScript, CEO de Exxon. Entonces esa es la
belleza que puedes usar. Css, equipos, HTML, widgets, y excelencia, para que
sea más interactivo. Así que una vez creado, podemos trabajar de varias maneras con el dashboard
creado con firma. Entonces, ¿qué otras cosas puede hacer la
firma? cesionario combina el poder
computacional de R con la interactividad
de la onda moderna. Entonces todos sabemos que R tiene paquetes que nos pueden
gustar trabajar en los datos. Podemos obtener las ideas. Podemos obtener información de los datos directamente a través de nuestros
paquetes y agregar programación. Y no sólo estas percepciones, sino también lo que sea que consigamos. Calcula a partir de los datos. Podemos ponerlos en
la ola moderna e interactuar con los dashboards y
los datos o gráficos. Entonces eso nos dará más
insights a partir de los datos, ¿verdad? Así que te veo un
ejemplo sencillo de asignar app. Te puedes ver. Bien, entonces déjame ver el
índice de Google, Trend Index. Esta es una app simple, Shiny que han creado. Y aquí se puede ver una gráfica muy bonita es
el derecho que podemos ver. Ahora con el cesionario, podemos escuchar, puede
seleccionar el índice,
Tendencia, Índice de viajes. O si quieres cambiar, puedes cambiarlo a publicidad
y marketing y SEO. La gráfica está cambiando. Puedo seleccionar
algo de aquí. Y esta gráfica
nos limitaremos a construir sobre el índice de tendencia del desempleo. Quiero ver, Ver. Ahora esto está mostrando la tendencia del
desempleo. Puedo seleccionar pequeña
empresa y
resolverá la
tendencia de la pequeña empresa para estos datos, renta, esta nueva tendencia. Bien, entonces así es como
podemos agregar selector. Podemos crear un
panel interactivo mediante la firma. ¿Bien? Y mira, sí, esto se crea con puramente nuestros
programas, nuestro código. Ahora, también crearemos una de esas aplicaciones Shiny
en la próxima conferencia. Y mira aquí, estos son
los datos de la app que es el programa que
está escrito en R4, este tipo de, este tipo de tablero
interactivo desesperado. Entonces aquí están usando paquete de
señalización, lector de capa
profunda,
equipos si110 y una capa profunda. Y esta es la descripción. Si quieres,
puedes atravesarlo. Este es el sitio web oficial
de firmar.rstudio.com. Si quieres conocer
más sobre el letrero, puedes ir a ver la
galería y obtendrás más información
sobre la firma. Bien, arsina, puedes ir a ver el
proceso de modelización de detectives regresión lineal. Y luego nuestro pequeño paquete para
aprender a modelar la respuesta inmune. Hay diversos
proyectos a los que puedes ir y leer por ti mismo. Voy a etiquetar en la
señalización a la página web. Bien. Entonces, en la próxima conferencia, también
crearemos
una aplicación Shiny. Y veremos cómo
podemos interactuar con el tablero, bien.
63. ShinyApp para crear un panel interactivo: Hola y bienvenidos de nuevo. Entonces en esta conferencia
vamos a crear nuestra propia aplicación Shiny, donde estaremos
creando una aplicación Shiny. Y entonces lo que
vamos a crear, y luego veremos
cómo crear. ¿Bien? Así que mira aquí esta
es nuestra aplicación Shiny. Y aquí vamos a hacer eso. Vamos a crear
una diáspora basada en el
videojuego Mario Kart eight y basada en los personajes del
videojuego que vamos a analizar. Vamos a diseñador. Vamos a
crear un dashboard donde puedas interactuar
con el dashboard. Da click en la Visualización
y mira aquí, por defecto, la división estará ahí. Y aquí en las otras
variables estarán ahí, ¿de acuerdo? El eje y y el eje x, ¿de acuerdo? Entonces obtienes el eje x
será la variable y, aquí estará la velocidad, y aquí en el eje y
estará cosiendo el personaje. Entonces aquí tenemos los personajes, los personajes y los nombres
de los personajes
están aquí, ¿de acuerdo? Y vamos a
analizar cuáles son su velocidad y otras
variables como la velocidad en el agua. Y también podemos seleccionar
aceleración y se
puede ver qué aceleración
beta. Entonces mira aquí, este es el
dashboard donde podemos, podemos interactuar
con el dashboard. Podemos seleccionar la
variable aquí, manejo. Y eso es lo que
vamos a resolver para el, para el manejo y decir, Sí, voy a poner manejo en agua
y va a generar. De esta manera podemos crear
eso es más suficiente, que será interactivo. Y puedes seleccionar la
variable aquí y ver el efecto en el
tablero, ¿bien? Gráfica. Y mira aquí los diferentes colores
están arrojando vidrio, pesado, ligero, y mediano. Bien, así es como podemos
usar la app de firma para nosotros, el dashboard interactivo, ya
terminamos el juego Mario
Kart eight. Bien, entonces ahora hemos
visto ¿qué es esto? Entonces mira aquí las clases, los diferentes colores están mostrando la clase pesada,
ligera y radio. Y aquí podemos seleccionar la velocidad y va a cambiar el manejo
variable, después la gráfica va a cambiar. Bien, entonces esta es la app, firma la app que
vamos a crear, ¿bien? Y esto, podemos abrir en
el navegador que
también es porque se está abriendo
en nuestro host local. Bien, así podemos abrir esto en el navegador también para hacer clic
en abrir en navegador, y se abrirá en tu
proyecto predeterminado de la misma manera. Bien, Así que ve hoy en día operando
en el navegador hockey, y estamos perdiendo el nivel de
fuente de datos en el sitio web de Kaggle. que puedas ir al sitio web de
Kaggle y ver los datos y ver
tu visualización. Puedes seleccionar cambio, ¿de acuerdo? Entonces en base a lo
que estés seleccionando, va a estar bien, así que este interactivo, eso es
lo que vamos a crear. Entonces déjame
llevarte rápidamente al código. Es un código bastante simple. Entonces, lo que tenemos
que hacer aquí, básicamente, esta app de firma
tendrá tres componentes. Tres componentes x
realmente tres componentes, o tres páginas web, tres páginas que necesitamos
para que puedas obtener la primera será la
primera será la app dot, y luego la segunda
será el servidor. Y la tercera
será la parte UI. ¿Bien? Así conjunto de palabras y luego UA. Entonces app.all server y UI.r. Entonces estos son los tres archivos
que vamos a escribir, ¿de acuerdo? Y aparte de esto, hemos creado una carpeta. Tendrás que crear
uno para leucina la app, sea cual sea el nombre que quieras
dar, puedes dar. Y luego actualizado una aplicación de
carpeta de datos mantuvo el archivo CSV, que cada uno contiene
el conjunto de datos. Bien. Entonces déjame abrir y suelo. Este es el conjunto de datos
y está conteniendo todos los personajes, cuentas de vidrio, los demás detalles, y estos son los nombres y estos son la
velocidad y todas esas cosas. ¿Bien? Entonces este es el
conjunto de datos que he guardado. Tráenos Character dot CSV, descárgalo del Kaggle. Bien. Lo siguiente es aquí, la imagen que estamos
viendo en la cara frontal. Esas imágenes aquí. Carpeta W, W, W. Y estos son los tres archivos app guitar solo data de todos modos, datos que he creado. Bien, entonces déjame ir al código. Lo primero es app.all. Lo que necesitamos. Necesitamos necesitamos necesitamos
la biblioteca cesionaria,
bien, entonces tienes que
descargar la descarga e
instalar la biblioteca Shiny. Puedes venir aquí los
paquetes instalados sexo y año. Y hay que hacer
clic, simplemente haga clic en Instalar y así nombre
minúsculo ahí, y se hará. Entonces déjame mostrarte, solo haz clic aquí. Y aquí hay que
poner la firma S, I, N, Y, firmar. Y luego tenemos que dar
click en Instalar. Y se
instalará el paquete Sami. Entonces ya lo he instalado, así que no voy a volver a hacerlo. Por lo que hay que poner el brillante y luego hacer clic en Instalar y
se instalará. Aparte de esto,
también puedes usar install.packages. Puedes usar algún problema
con la pluma, ¿de acuerdo? Y puedes instalar
el letrero con nombre aquí. Literalmente estar hecho, ¿de acuerdo? Así puedes usar install.packages y poner el nombre
del paquete y asignarme. Y aquí estamos dando esos
fuente agrega fuentes UI.r, UI.r y otras fuentes
servidor esa opción. Entonces estas son las dos cosas que
vamos a usar en la app. Punto punto, punto, punto es nuestro archivo principal dentro del cual estamos llamando
UI.r y datos celulares. Entonces estamos creando la aplicación Shiny dando la aplicación Shiny
llamada. Y aquí, UH, igual a UA
y serológico a servidor. Bien, así que sea cual sea el
nombre que estés dando, el nombre del archivo que
puedes dar aquí, bien. Así que esta es la aplicación simple punto nuestro archivo donde solo estamos
cargando la biblioteca, dando a la fuente como
que vamos a usar E-Y-E punto r y servidor que
están dentro de esta idea de último momento. Bien, y luego estamos creando la aplicación de
asignación donde estamos especificando el nombre de
archivo UID y la extremidad sulfuro. Bien. Entonces esta es la app que supera. Entonces la siguiente es
tercera palabra punto son. Tan triste por eso. Voy a ir a los datos celulares. Y aquí se puede ver que tenemos cargando la parcela
GG a biblioteca. Porque vamos a hacerlo, estamos creando un dashboard o estamos creando una
gráfica a la gráfica. Estamos viendo que
estamos creando con la ayuda de GG plot two. Y entonces aquí tenemos un
especificando ese conjunto de datos. Entonces a partir de aquí vamos
a obtener el conjunto de datos. Los datos tienen menos carácter,
no la aplicación de archivo CSV. Entonces en ti y estamos usando read dot csv total,
este archivo CSV. Y cómo leer el
archivo CSV que
ya hemos visto en las conferencias
anteriores. Bien, entonces estamos
creando el servidor aquí. Para crear servidor,
estamos ejecutando servidor donde dado el valor de mis nombres de
variables están bien, y luego estamos perdiendo función, entrada y salida y salida. Estamos leyendo en la trama. Y estamos usando la función
renderPlot para renderizar a través de la trama. Y estamos usando
carácter, carácter, y luego estamos usando factores para crear datos,
etiquetas y orden. Estamos usando la clase de
dólar de carácter, ¿de acuerdo? Y luego estamos usando GG
plot para dibujar ese Graph. Y aquí, los datos estamos
leyendo caracteres punto CSV y el eje
x, x valor carácter WM, identidad
stat. Y la entrada y. Valor en dólares y significa
cualquier entrada que
seleccionaremos para la y que se
seleccionará. Que esta es la
parte donde tenemos la interacción o el desplegable
que estamos seleccionando, va a llegar ahí, ¿bien? Y luego estamos
leyendo tarjetas volteadas. Entonces se voltearán las coordenadas. ¿Bien? Entonces lo siguiente es UI.r. Entonces, si ves por qué esa extraña, también
está bastante simplificada. Estamos usando el
carácter característico punto CSV y estamos reiterando
el archivo csv punto carácter. Y luego estamos usando la introducción de la
página uno, ya que tenemos dos páginas
y productos y n, las visualizaciones y la fase de
producción está en panel de pestañas
Dibujar para crear
el panel para la introducción. Y estamos usando el encabezado
Título de introducción para la final. Y luego estamos usando
la fuente de la imagen. Y aquí estamos dando
el respiro. Y esta es la redacción
del párrafo. Y entonces aquí estamos
dando el enlace aquí, el enlace de Kaggle
que hemos visto, que tenemos proteína
que luego página a página uno es simple. La interacción y el panel, estamos creando la mejor
herramienta para la visualización. Lo que estamos haciendo, estamos usando valores
selectos, nombre de columna. El nombre de columna de los caracteres
serán los valores. Y entonces, ¿qué estamos usando? Seleccione valores, seleccione dónde
perder caracteres. ¿Bien? Así que formamos parte de
la clase, ¿de acuerdo? Aquí estamos usando la consulta de
selección, tan buena. No en el trabajo Select Value. A diferencia básicamente estamos quitando las
columnas no deseadas aquí. Y vamos con el
personaje de esa clase. Aquí estamos obteniendo la barra lateral
usando el panel de la barra lateral. Y aquí estamos seleccionando
la entrada a y, donde y subrayado donde y nivel será
la variable y. Tú, si quieres,
puedes cambiarlo a cualquier cosa, opciones,
seleccionar valores. Y ya el valor
cargado
serán los que para la velocidad
seleccionada es igual a velocidad. Entonces la velocidad estará ahí por defecto seleccionada
para nuestros desesperados. Bien. Lo siguiente es el contenido principal. Estamos usando el panel principal y la
gráfica de salida de la parcela, ¿de acuerdo? Y esto vendrá de
la mancha sureña. Y los segundos panelistas, el panel de tabulación donde
estamos tan individualización panel de
título, ese título que estamos dando, ese párrafo que
estamos escribiendo. Y luego el diseño de la barra lateral, que barra lateral
subraya
el contenido, el contenido principal vendrá aquí. ¿Bien? Entonces así es como creamos
estos tres archivos. Y estos dos puntos, server y uy están
llamando judíos dentro del,
dentro de los datos de la app. Bien, entonces ahora
vamos a ejecutar la app. Así que haz clic en Ejecutar aplicación, y se ejecutará y
abrirá la ventana de RStudio. Y ahora estamos viendo la página, nuestra mano aquí, se puede ver la página de introducción y
visualizar y pegar dos páginas. Y la introducción paga. Nada sólo se dirigía. Y la imagen que
hemos incluido, y este es el párrafo
y este es el enlace que le hemos dado donde
lo hemos especificado. Si vienes aquí en UI.r, mira aquí el título que
hemos dado, y luego la imagen que tenemos
aún mejor Calabria, ganamos. Y sin embargo, a pesar de que hemos
dado el enlace de Kaggle, bien, así que eso es lo que
estamos viendo dentro del panel de introducción
y el segundo panel, cuando abres la visualización. Aquí, puedes ver por qué
habilitas la velocidad por defecto, porque aquí te hemos dado seleccionado como velocidad y el nivel es por qué
eres capaz de hacerlo, ¿bien? Y le estamos dando la trama
como salida y vemos el título. Y este es un párrafo
que estamos dando. Bien. Entonces déjame mostrarte cómo está cambiando en
función de la selección. Si selecciono Velocidad de tierra, la gráfica obtendrá cadena. Si selecciono manejo, la gráfica cambiará si
selecciono pistas en
la gráfica relacionada. Entonces este es el
panel interactivo que hemos creado usando la aplicación Shiny. ¿Bien? Consulta aquí los diferentes colores que
están mostrando el vidrio pesado, ligero y mediano. Y aquí puedes seleccionar y
podrás ver la diferencia
entre estas cosas. Bien, Entonces así es como funciona el
letrero, la app.
64. Algunos ejemplos de aplicaciones brillantes en R: En esta conferencia,
vamos a ver algunos de
los
ejemplos ya escritos de firma de aplicaciones que ya están ahí
en el sitio web de la firma. Entonces estos son el
ejemplo de la
aplicación Shiny que puedes mirar en la mano. Puedes verlas y
puedes modificar el código. Y puedes crear tu propia aplicación Shiny,
iniciando sesión en Esports. Entonces déjame decirte cómo
puedes ejecutar esto también. Solo necesitas llamar a
la biblioteca Shiny. Entonces necesitamos escribir
biblioteca y luego firmar, y tenemos que ejecutar esto. Y una vez hecho eso, puedes empezar a usar los ejemplos como el primero es
qué, un histograma. Entonces un ejemplo es la función
que puedes usar para llamar a esto
programas ya escritos Signing app. Bien, entonces 01 subrayado
Hola es este. Y vamos a correr esto y a
ver qué estamos obteniendo. Entonces, cuando ejecutes esto, abrirás la aplicación del cesionario. Y mira aquí está
diciendo hola firmando. Y aquí se puede ver número
de bins que vienen y aquí un histograma de tiempos de
espera, ¿de acuerdo? Entonces aquí, a medida que aumenta
el número de contenedores, vea aquí, el número de contenedores
se está incrementando. Y ahora hay medios peptídicos. Si lo haces uno, solo
hay un ganador, ¿verdad? Si pones seis, hay 6.12 3456 contenedores. Si ves aquí, es interactivo para que puedas aumentar o disminuir
el número de pines en este tablero de tareas. Entonces esta es la especialidad
de la aplicación Shiny que
podemos jugar con el dashboard
que hemos creado, dashboards
interactivos
que Shiny App Create. Entonces ahora aquí puedes ver, si vienes aquí abajo
, te dará
la descripción. Esta es pequeña, pequeña
aplicación demostrar, firmar esta actualización automática de la interfaz de usuario. ¿Bien? Así que aquí la región
RenderPlot y los bins de entrada. Y vea aquí secuestrar, nuestro expediente ya está dado aquí. Así que solo puedes copiar
el código desde aquí. Y puedes correr en, usa este código, apple.tar. Vea su laboratorio usando
biblioteca brillante y uy, y luego título, luego diseño de
barra lateral. Y aquí barra lateral de entrada ID
que estamos dando beans, número de bins y
mínimo es uno, máximo es propiedad y
valor iniciado así que por defecto, se seleccionará. Y luego aquí, la salida del
diagrama del panel principal que estamos obteniendo, la salida o el panel principal. Entonces esta es la
idea de salida de la trama. Entonces, si vienes al servidor, podrás ver las entradas de la función de tu
servidor o nosotros tomaremos la función. función F
tomará la
entrada como entrada y
dará la salida. ¿Bien? Y aquí salida esta trama. Y entonces estamos llamando a
RenderPlot. Y aquí estamos
dando el valor x. Y x valor es fiel esperando. Y Vinci está aquí puedes
dar debates como secuencia de min a max y luego
apuntar pines de entrada más uno. Bien, aquí estamos
dibujando el histograma. Entonces histograma estamos intentando con el valor x y estamos dando al Brexit igual
a pintar y coloreado. Puedes dar lo que quieras mano xlab y encabezado principal, puedes dar lo que ellos quieran. Y luego crearemos
la app usando Shiny app y luego UY igual a ui y server, cada
llamada al servidor. Entonces alguien
ha fallecido el servidor. Y uy es que aquí estamos definiendo. Entonces si quieres, puedes poner esto en
la UI.r hasta aquí. Se puede poner en la UI.r
y la parte del servidor. Puedes poner en el
servidor ese r, y esta será tu app data y donde llamaremos a
la interfaz de usuario y servidor. Así que de esta manera, puedes
tomar esta app punto r, que es un solo archivo y convertirlos en tres
archivos si quieres, y si quieres
agregar algunas cosas más, si quieres agregar, si queremos subir algún otro Graph aquí, giardia,
puedes hacerlo. Entonces puedes modificar esto
es porque el código ya
está dado con pato firmar el
sitio web de la aplicación desde ahí. Entonces esto es en la construcción del paquete
de inicio de sesión de registro, ¿verdad? Entonces déjame cerrar esto. Veamos el segundo ejemplo. segundo ejemplo es ejecutar ejemplo cero para
subrayar textos. Veamos qué hay ahí. Esto es Tabla enviar DataFrame. Así que vamos a ejecutar esta aplicación
Shiny y nos vemos. Al hacer clic en eso, se estarán abriendo
los textos de registro. Él ve aquí. Aquí podemos
seleccionar el conjunto de datos roca, Fraser y soporte para autos. Estoy seleccionando tarjeta. Entonces nos está mostrando la velocidad y esto tiende a la
velocidad y a la distancia. Y aquí se puede definir
el número de filas, número de observación a visualizar. Entonces ahora es 1012. Entonces mira aquí hoy en día. Entonces en grava. Y si reduzco esto
para suponer uno, está mostrando solo uno, puedo aumentar,
seguir aumentando. 123. Ver aquí, están interactuando con esto y aquí
puedo seleccionar la presión, por lo que le mostrará la
temperatura y presión. Y aquí
simplemente podemos aumentar la
temperatura y la presión, esta tabla también. Entonces de esta manera, podemos
jugar y aprender de esto, y este código también está aquí, app.all que
puedes tomar y
puedes modificarlo según
tu requerimiento. Entonces pasemos
al tercer ejemplo. Esa es la app de
expresión reactiva. Entonces 03 subraya la reactividad. Y vamos a ejecutar esto y ver lo que nuestra aplicación si110
está lista para llegar aquí. Entonces mira aquí las brechas y necesidades de
ensamblaje de datos. ensamblaje de datos y el conjunto de datos se conserva en roca
y los autos nuevamente. Así podemos seleccionar
llaves y aquí, lo
mismo que
filas y columnas. También puede seleccionar n para esto. Se da el outfile, el cesionario, nuestro
expediente se da aquí. Puedes tomarlo para mirarlo y puedes aprender extraño
si queremos modificarlo, puedes modificarlo. Es de código abierto, así que
puedes tomarlo y modificarlo y usarlo por ti mismo. Y a continuación, veamos a
los extranjeros de judo llamados MPG. Y da clic en Ejecutar. Entonces la apertura del apogeo notó el número
de cilindros oscilantes, transmisión y engranajes. Por lo que está mostrando
millas por galón. La relación entre
el MPT y el engranaje. Y cuando seleccionas
transmisión es igual a Toyoda, lecciones entre
el auto automático, manual con
el Majlis, ¿bien? Y si seleccionas engranajes con el cilindro de engranaje con el
cilindro, y para este, así podrás obtener el archivo de alquitrán y podrás
modificar n nicho por ti mismo. Lo siguiente son las barras deslizantes. Entonces vamos a ejecutar esto y a ver qué. Entonces estos son el ejemplo bastante
bueno para aprender sobre el paquete de señalización y se
puede modificar y
césped. Ver aquí. Se trata de los deslizadores. Entonces hay tantos
deslizadores en este ese deporte. Y para este trimestre ya
está ahí. Se puede ver aquí
puedo valor entero. Puedo hacer 1,000 o 172 decimales, 0.8 o uno así. Y luego el rango, puedo modificarlo desde aquí. Y en cuanto lo
modifiques aquí podrás ver los cambios ahí. Formateador personalizado podemos
definir animación de looping, podemos definir aquí. Entonces de esta manera podemos
agregar anti-A aquí. Esa es la opción de jugar
en estos formatos personalizados. Puede pinchar aquí y Siria 0-500500 automáticamente
está cambiando. Está jugando como bien, así que mira aquí, ahora va cambiando
poco a poco aquí. Y ver que esta animación
numérica, esto también está tendiendo. Entonces, como esto está cambiando, el
deslizador está cambiando. Esto también se está
cambiando y sumar. Las otras cifras
también van a cambiar. Entonces este es el paquete
Magic of si110
en R que puedes crear estos dashboards
interactivos. Mira aquí, esto está cambiando y esto también está consiguiendo cambio. Bien, así que pasemos
al siguiente ejemplo
que son las celdas tipo. Así que basta con hacer clic en ejecutar
y ver qué obtenemos en la profundidad normalmente uniforme, Largo, normal y exponencial. Entonces podemos simplemente dar click aquí
y podemos ver el resumen, podemos ver la tabla, ver cómo está cambiando. En un clic,
se puede ver la normal. Si queremos ver el uniforme, se
puede ver el uniforme. Y si queremos
ver la forma larga, se
puede ver el poema largo. Se puede ver el tratamiento más antiguo, resumen de la
trama y tablas. Y los tres están
cambiando juntos. Un clic en todos los datos aquí, número de observación
puede aumentar. Y al instante se puede ver que
esta es muy buena herramienta para analizar datos y
analistas de datos o científicos de datos. O si quieres
ampliar tus datos, puedes usar la arsina
y este tipo de dashboard
interactivo que puedes crear y decir con tu
equipo o tu manager, estás fuera con tu
cliente y ellos pueden obtener instantáneamente la
visión de los datos. Entonces de manera similar
se puede ver la otra cosa. Consulta aquí un ejemplo, subida de
arginina que nos
dará el vacilado para
subir los archivos y todo. A ver. Puedes hacer click aquí y simplemente
puedes seleccionar cualquier archivo y puedes subirlo. Supongamos que quiero subir, ahora está subido y
porque no es nuestro archivo CSV, así que nos estamos metiendo, así que si quieres
subir un archivo CSV, puedes seguir adelante y
puedes subir un archivo CSV. Entonces déjame ir a la corte de primera instancia a nuestro 2020, e intentaré abrir un archivo CSV. Déjame abrir nato dot datos CSV que hemos curado en uno de nuestros
ejemplos, abramos eso. Carguemos datos aquí. Ahora, podemos ver que el archivo CSV Data
dot ha sido subido y podemos ver
los datos dentro del CSV de punto de datos. Podemos retirar el folleto. Se puede poner el
encabezado así. Podemos hacer todas las cosas. Podemos poner punto y coma. Podemos usar un separador
coma y coma, o incluso podemos usar cinta adhesiva
y cotizar No comillas dobles. Todas esas cosas
que puedes hacer aquí. Ya estoy mostrando
todos los datos que hay en el CSV Data
dot, ¿verdad? Entonces tu karma y
mira si pongo cabeza, te demostrara
que solo
alimentaba el perro es como alguien y
consiguiendo el retail completo. Aviso arrojando datos. Entonces esto es algo bastante
importante. Y aquí puedes crear esto. Esto sucede en nuestro si110 y puedes compartirlo con
tu cliente donde pueden subir el archivo
CSV y ver el archivo CSV sin
tener XL T-TIP. No están teniendo una
justa abajo para aliarse. Simplemente pueden
seleccionar el pilón CSV. Veré mirar al CSP
el viernes, ¿de acuerdo? Y para esto también el código ya
se da aquí. Entonces eso es
algo bastante genial, vegetal, las cosas que puedes analizar
como una tarea y
puedes aprender de estas cosas que puedes modificar y
puedes usar para ti mismo. Ver el temporizador. Puedes
pinchar aquí y el temporizador vendrá de la
hora actual es esta cosa. De esta manera podremos usar la firma.
65. Aplicación brillante de 2 archivos en RStudio: Hola y bienvenidos de nuevo. En esta conferencia vamos a crear una app de firma de dos páginas. Entonces dos archivos registrándose, vamos a crear. Entonces hemos visto cómo
podemos hacer de tres páginas, como lo hemos hecho apple.tar,
UI.r y Teradata. Otro ejemplo. Aquí. Lo que vamos
a hacer, vamos
a crear un lead dos archivos. Uno es UI.r, y el
segundo serán datos del servidor. Entonces, primero,
lo que tenemos que hacer, tenemos que llegar a nuestro directorio de trabajo y necesitamos crear una
carpeta con las siglas. Así que aquí estoy dando el nombre de la aplicación como cierto al firmar la aplicación. ¿Bien? Y dentro de eso, voy a
crear dos archivos, UI.r y Solver dot art, modo que
ya he creado y he escrito el
código para la forma en
que eso está dentro de la carpeta de la aplicación de firma de
archivos. Bien. Entonces el nombre de la aplicación
será el nombre de la carpeta. Y dentro de la carpeta guardaremos este UI.r
y servidor punto r.
entonces lo que este punto tendrá la misma interfaz de usuario
igual a la página fluida y
diseño de la barra lateral y panel de la barra lateral,
panel y entrada de la barra lateral. Entonces aquí estamos dando OBS
y número de observación, observación y número sobre
visitantes y mínimo es diez, máximo es 500, y el valor
será cien. ¿Bien? Entonces estamos llamando al
panel principal y a la salida de la trama. Esta trama y esta
trama vendrán del servidor que
nuestras fuentes son lo que estamos llamando función input y output y output
será la gráfica dish. Y esta gráfica se
renderizará en el histograma, donde los datos
serán la entrada de OBS será la entrada
para nuestras normas y el color que
nos estoy dando un rojo y verde. Bien, entonces solo estos dos
archivos y sin necesidad de escribir la aplicación son y
cómo ejecutar este archivo. Simplemente podemos llegar
a la consola aquí. Entonces déjame despejar la consola. Y aquí solo necesitas
escribir una app para correr. Ejecuta eso. Ahora necesitamos llamar a run app
y dentro de la unidad RunApp para proporcionar el
nombre de la carpeta o el nombre de la app para firmar el archivo la app
que hemos creado. Entonces este cuatro que hemos
creado para firmar la app. Entonces vamos a darle un nombre a eso
aquí y tenemos que ejecutar esto. Así que presiona Enter y tu app de Simon estará encontrando el número de observación del
CEO. Y aquí hay un histograma. Entonces he dado verde, rojo y el borde
será verde. Y si cambio este
número de generación
, seguirá cambiando. Así que de esta manera podremos crear o
archivar la aplicación de firma donde
UI.r responda por esos datos, mataremos? Si quieres cambiar el color, puedes poner el
amarillo y el verde. Y aquí
solo necesitamos cerrar esto y
tenemos que ejecutarlo de nuevo. Ejecuté la aplicación a los archivos de cualquier
aplicación y golpeé Enter. Veamos aquí ahora va a
venir en amarillo y limpio. Ceo, el amarillo y
el borde es verde. Entonces puedes hacerlo así. Y se puede ver que una serie de apoptosis
variada y anormal y
se puede ver que el histograma
está cambiando. ¿Bien? Así que de esta manera podremos
crear dos archivos. Inscribirme.
66. Generación de informes descargables en brillante: En esta conferencia,
vamos a aprender a generar reportes de
carga descendente. Cómo podemos generar
los informes que
podemos descargar nuestro divorcio
descargable. Bien. Entonces, cuando vienes al sitio web
asignado.rstudio.com, puedes ver que
ya hay una sustancia
y prepara cosas que puedes aprender sobre
firmar desde nuestro estudio. Entonces, creando el
tablero interactivo aquí que es opsin. Se puede ver generando reportes
descargables. Entonces aquí puedes ver el ejemplo como app.all y que
han dado. Y aquí puedes
probar esto y reportar punto RMD. Y creía que ese informe que están vacíos y
va a crear una trama. Y lo que ese
reporte lo puedes descargar. Y hay otro
ejemplo de vértice que te voy a mostrar, donde podemos descargar el reporte en forma de PDF
o HTML y barras. Entonces mira aquí, esta es la
doncella, el conjunto de datos de autos vacíos que está fácilmente
disponible con la R. Aquí, se puede ver en base
al número de cilindros, podemos ver el modelo de regresión. Este es el modelo de regresión. Cilindro y número
de cilindros, MPG, cómo el número de cilindros están afectando el
kilometraje, millas por galón, cómo el punto de acceso está
afectando
al MPG, a cómo el peso del automóvil está afectando a las
millas por galón, la evidencia o kilometraje del
automóvil, o el radio, cómo estos factores están afectando el número de marchas está
afectando a la mielina que estos son los cosas que
estamos analizando tu deuda hemos hecho a través de
nuestra programación. Y estas son las cosas que nos pueden gustar las
internamente que se ha generado cuando se desarrolla
un modelo de regresión donde están tratando de
encontrar la línea de mejor ajuste. Y para ello, ahora, este es el informe y solidario
para su desplazamiento. Se puede poner así y
hay opción de formato de documento, PDF o HTML o trabajar para
apoyarlos haciendo clic en PDF y
hago clic en Descargar. Todo este informe se
descargará en
formato PDF si abro. Y así ves aquí, está demostrando que
funcionó así. Aquí está el modelo de regresión. Y de donde estamos
sacando estas cosas, esta cosa va desde
el reporte punto archivo RMD. Estamos ahí creando el modelo de regresión lineal basado en las
fuentes de datos, autos vacíos. Y luego están usando
el coeficiente para ello. Y luego están poniendo eso en la trama para
encontrar la línea de mejor ajuste, y luego están obteniendo la línea de mejor ajuste,
nuestra línea de regresión. Entonces este reporte
viene así. Cuando veas aquí nos está
mostrando los puntos de datos, pero cuando lo descargues, estamos obteniendo el reporte
completo. Y este es el conjunto
de archivos de r punto r y c aquí. El promedio de la fórmula, la punta y la entrada MPG,
luego la salida, desapalancando otra trama y luego descargar informe
aquí, porción poderosa, el formato de nombre de archivo será
el PDF y luego el contenido, están consiguiendo la normalizada. Pero vamos a importar que están vacíos. Esto es importante porque todos los cálculos y todo lo
que hemos visto en
este informe aquí, estas son las cosas que vienen
de los archivos de la asamblea. Bien, entonces esto es
bastante importante. Y entonces aquí están, simplemente están configurando el directorio de
trabajo a directorio
temporal para
que no pida el acceso de administrador. Y yo buscaré eso.
Están usando esto y luego encuentran copia de lote reportar
eso en MD, ¿verdad? Después biblioteca la
rebaja original y esto es para renderizarlos
archivo RMD en el PDF. ¿Bien? Entonces, y luego averiguarlo
renombrar archivo de salida. Bien. Entonces estas cosas,
permítanme mostrarles también el archivo RMD que
se ha usado internamente. Por lo que puedes hacer click en el
código Obtener y te llevará a que estés firmando repositorio
GitHub. Aquí puedes ver un reporte de que nuestros empleados son
palabras que de todos modos son, punto, punto todos los archivos. Entonces cuando haces clic en
el Informe punto RMD, puedes ver aquí el promedio
del modelo de regresión y este es el código aquí
está mi modelo de regresión. Y luego usando nuestro
modelo colapso verdadero. Y tenía opsinas. Estas otras cosas las
estamos viendo geniales. Y luego el MPG
original fructífera y esta cosa. Bien, entonces están creando un diagrama de
dispersión y luego ahí, encontrando la
línea de mejor ajuste usando el abline. ¿Y están poniendo bien
el color? Entonces así es como estamos
obteniendo este informe de mi lectura de ese archivo de
asamblea y de la
elaboración de los informes. Así que de esta manera se puede obtener un informe que se
puede descargar. Si quieres descargar este
reporte en formato Word, puedes dar click sobre eso y se lo descargará
en un doc X4, ¿verdad? Bien. Y si quieres
descargar esto en HTML, puedes hacer clic en HTML y descargarla. Y se descargará
en el HTML hacia adelante, vamos a abrir esto y los datos de CSIA, mi reporte punto archivo HTML. Entonces de esta manera, si
quieres crear un reporte o dashboard
que se pueda descargar, puedes usar la discordia y
puedes escribir el tuyo propio. Firme la aplicación.
67. Análisis de la Covariance: Hola y bienvenidos de nuevo. Entonces en esta conferencia
vamos a aprender sobre el análisis
de la covarianza. Y también se llama y cola. Entonces ENCO Reais. Eso significa análisis de covarianza y encubierto
y tipo lo llamamos. Entonces, ¿qué es este
análisis de covarianza? Entonces ya sabes lo que hacemos en los
algoritmos de aprendizaje automático o en un modelo de regresión lineal. Lo que hacemos en regresión, tratamos de encontrar valor real, un valor continuo, ¿verdad? A diferencia de los datos categóricos, siempre
tratamos de encontrar la longitud del
arco sí o no, verdadero o falso, cero o
uno así, ¿verdad? Entonces en regresión intentamos
encontrar un valor continuo. Por lo que creamos un
análisis de regresión a Lake. Utilizamos modelos de regresión. Análisis de regresión para
construir modelos que describan el efecto de la varianza en la variable
predictora, ¿verdad? Sobre las variables de respuesta. Entonces, ¿cuál es el efecto de la varianza en
las variables de predicción en el modelo de respuesta? Qué efecto van a poner
las variables
predictoras en
la variable de respuesta. Eso es lo que estamos tratando de
hacer con el análisis de regresión. Y cualesquiera que sean los modelos que
estemos creando con eso vamos a
hacer esto de una manera. Pero, a veces, ¿qué pasa? Contamos con un conjunto de datos categórico. Entonces, si ves estos autos vacíos
conjunto de datos que está incorporado en la R y que vamos a usar si ejecutamos este
trozo de código, verás que
tenemos una columna E m. ¿Qué es esto m. M es automático o manual Ver su valor, su
valor es cero o 10 significa automático
y significa manuales, así que algo así. ¿Bien? Entonces D representa el
Automático y el Manual, ¿de acuerdo? Entonces este es un dato categórico, es o bien cero o uno. No es tener un valor
continuo como millas por galón, 2,122.8, 21.14, 0.7, ¿verdad? Por lo que es difícil
encontrar el efecto de esta
variable categórica en este mpg. Ver aquí los caballos de fuerza,
HP también está ahí, pero es un
valor continuo no es categórico. Hola. Entonces, ¿qué pasa? Tenemos que, tenemos una variable categórica
con valores como un no o cero o uno,
masculino o femenino. En algunos casos. Cualquier cosa,
podría ser pérdida de ganancias, lo que sea, así que sean cuales sean los valores
categóricos que podamos tener. Por lo que el
análisis de regresión simple da múltiples resultados para cada valor de la variable categórica. Entonces para esta fila G
y una para cero, obtendremos 21 puntos
para este 018.7. Entonces estamos obteniendo un valor diferente, diferente para MPG, para el mismo cero, ¿verdad? Cero representa al Hornet
y estos representan al deporte de los Hornets sobre, ¿verdad? Entonces estos valores son diferentes. Entonces, ¿cómo vamos a encontrar qué efecto está poniendo
en las millas por galón Entonces eso es lo que entra en
cuadro, análisis de varianza. Entonces déjame darte una
pequeña explicación. El análisis de covarianza
se utiliza para probar el efecto principal y de interacción
de la variable categórica. Eso significa que este objetivo es una variable dependiente
continua, es
decir mpg, controlando el efecto de seleccionar
otras variables continuas. Entonces, si sabemos qué efecto
le está dando esto a esto, incluso
podemos haber decidido qué
HP está teniendo un efecto en el MPG o qué está teniendo
este m un
efecto en el HP o mpg, que co-varían con
el dependiente. Las variables de control se
denominan covariables. Las variables aún controladas
se llaman covariables. A veces, si tenemos una variable categórica con valores como sí o no
o masculino o femenino, o ganancia o pérdida. regresión simple y las lanzas obtienen múltiples resultados por cada valor de la variable categórica
que discutí aquí. Para cero, hay muchos valores pero MPG y para uno también
hay muchos valores. El análisis de regresión simple
da múltiples resultados para cada valor de la variable
categórica. En tal escenario, podemos estudiar el efecto de la variable
categórica
utilizándola junto con la variable
predictora oscura y comparando las líneas de
regresión para cada nivel de una variable
categórica. Entonces lo que está diciendo, es decir que
en tal escenario
podemos estudiar el efecto
de la
variable categórica utilizándola
junto con el predictor. Así que junto con el
predictor como HP. Entonces usaremos un m junto con
el HP para predecir el MPG. Y encontraremos la línea de
regresión para cada nivel de la
variable categórica para 0.41, para cada uno, pero cada nivel
encontrará para encontrar la variable
categórica. ¿Bien? Y, y a esto se le llama el
análisis de la covarianza. Entonces consideremos
este
conjunto de datos de autos vacíos donde m representa
el manual automático de transmisión. Se trata de una
variable categórica con valores 0.1, como comenté anteriormente, millas por galón o
MPG de un automóvil
pueden depender de ello. Además, el valor
de los caballos de fuerza, mpg puede
depender de si el automóvil es
automático o manual, y también puede depender de
los caballos de fuerza. Entonces estudiamos el efecto
de la EM en la regresión entre MPG y HP. Y se hace mediante el
uso de una función o V. La función Aov es la función de análisis de varianza
seguida de la función NOR. Entonces usaremos las funciones Bot. Primero usaremos la función AOV
para encontrar la regresión. Mediante el uso de estas dos variables son predecibles compañeros HP
y apuntan a encontrar el MPG. Y luego usaremos
el náhuatl y decidiremos qué modelo nos está
dando qué y cómo esta variable categórica o
una variable predictora categórica está afectando a la variable
dependiente MPG. Entonces lo que hacemos primero, obtenemos los datos de entrada
que son autos vacíos. Así que estamos almacenando eso
en los datos de los autos vacíos. Y entonces estamos creando un modelo de regresión
y un modelo de inversión. Para el modelo de regresión,
estamos usando un AOV o con función de análisis de
varianza, función
AOV que estamos usando
y estamos creando un modelo de regresión entre
MPG y HP junto con am. Y estamos aprovechando
fuentes de datos, autos vacíos, datos que estamos obteniendo
de los autos vacíos. Y luego vamos a,
vamos a imprimir dos que. Obtendremos el resumen
del modelo uno. Entonces déjame correr esto y
déjame correr el modelo uno. Entonces estamos creando un modelo de
regresión aquí. Entonces, qué visión
estamos obteniendo de este modelo de regresión aquí, esta fuente original de
que tanto los caballos de fuerza como el tipo de
transmisión que HP y M tiene un efecto significativo en las millas por galón
como el valor p o ambos. El valor de P en ambos casos
es menor a 0.5, ¿verdad? Por lo que es tener ambos valores p
teniendo menos de 0.5. Pero cuando tomamos este
HP y m juntos, el, el valor p es superior a
0.5 y eso significa que SPN am juntos no tendrá ningún
efecto significativo en el MPG. Por lo que la interacción entre la, esta AM y SB
no es significativa porque no tendrá ningún
efecto sobre el, en el MPG. Entonces este modelo nos está dando
esta idea de que HP y soy, si los tomas solos, van a tener
efecto en el MPG. Pero cuando los tomamos juntos, no
van a tener
ningún efecto significativo en el MPG ya que el valor p
es superior a 0.5. A continuación lo que haré, lo haré, voy a crear
otro modelo de regresión. ¿Dónde vas a hacer, qué vamos a hacer? No vamos a incluir
el valor categórico. Valor, ¿de acuerdo? Modelamos sin el valor
categórico, es decir am. Entonces quiero decir que sin la interacción
entre el HP y m, y vamos a crear otro
modelo de regresión, la función AOV. Y ya veremos qué efecto
están teniendo en el MPG. Entonces déjame dirigir esto. Sin embargo, estoy usando carro vacío como
valioso y va a tener
los mismos datos que los autos vacíos. Así que mira aquí. Ahora nuestro modelo con esto, no
hay interacción
entre HP y m. Entonces qué insights
estamos obteniendo. Esta es su alma que tanto los caballos de fuerza como
los transmite tiene un efecto significativo en millas por galón ya que el
valor p es inferior a 0.5. Bien, entonces ahora lo que voy a hacer, compararé estos dos modelos, modelo 11 con el valor
categórico. Interacción entre el HP
y m. Y otro modelo es sin la interacción
entre el PNM. ¿Bien? Entonces ahora permítanme comparar
estos dos modelos, modelo dos y el modelo uno. Entonces lo que soy, estoy usando, estoy usando la función NOR para comparar estos
dos modelos de regresión. Entonces déjame dirigir esto. Vea ahora qué ideas estamos
obteniendo de esta región. Estamos consiguiendo que el
valor p sea mayor que 0.5. Y así podemos llegar a la conclusión de
que la interacción entre los caballos de fuerza y tipo de
transmisión no
es significativa. Por lo que las millas por
galón
dependerán de manera similar tanto
a HP como a am. ¿Bien? Entonces el HP y m ambos
van a afectar, ambos van a tener
efecto suficiente en ese MPG. De la misma manera. No es que ambos
vayan a afectar de manera diferente. Ambos van a
afectar de la misma manera. Por lo que el MPG dependerá de
manera similar los caballos de fuerza del automóvil tanto
en automático como manual. Entonces, si los caballos de fuerza
soportan los caballos de fuerza de un automóvil, que es automático, y
está dando más kilometraje. Y si no hicimos manual
con el mismo hotspot, dará menos mielina. Eso no va al
caso el kilometraje del auto, ya sea con el mismo
soporte, la mitad. Ahora, supongamos 1 hp, hay
un auto
y es manual. Y otra tarjeta es la misma, 1 hp y es automática. Ambos darán el mismo mpg. El promedio no va a cambiar si el auto
es automático o manual. Bien. Por lo que es dependiendo de
los caballos de fuerza y manual o automático no
afectará mucho en el kilometraje del
auto. Entonces esta es la forma en que podemos hacer
el análisis de la covarianza. Covarianza significa las
otras variables predictoras que van a ir Eddie, voy a efectuar sobre
la variable dependiente. En este caso, es b
y m son la covariante y mpg es la variable
dependiente. Entonces hemos encontrado que si
el auto es automático o manual con la misma
pelota va a tener el mismo tipo de sin sentido.
68. Handson con la biblioteca de dplyr: Hola y bienvenidos de nuevo. En esta conferencia, vamos a revisitar la manipulación de datos. Y la
actividad de manipulación de datos hará con el paquete de capas profundas que está relativamente
nivelado con lo impar. Entonces el jugador es un
paquete que proporciona Egipto las herramientas para la tarea más común de manipulación de
datos. Entonces aprenderemos todo
sobre el plan hoy y veremos cuáles son las
tareas de manipulación que podemos hacer. Y vamos a hacer este
archivo largo que he escrito. Haremos todas las cosas
y veremos cuáles son las cosas que podemos hacer y cómo
podemos jugar con los datos, cómo podemos manipular las tareas de manipulación de
datos. Cómo podemos usar la tarea de
manipulación de datos usando el plan. Así que comencemos. Por lo tanto, la capa profunda proporciona la
gramática de la manipulación de datos, proporcionando un conjunto consistente
de deformaciones que le ayudaron a resolver los desafíos más comunes de
manipulación de datos. Entonces, la primera función que discutiremos es
la función mutar. Y lo que hace es agregar nuevas variables que son Celdas
de variables existentes. Entonces lo que va a hacer, agregará nuevas variables que son
funciones de variable existente, llegará a saber qué
significa cuando hacemos las prácticas. Bien, entonces el siguiente es seleccionar, seleccionar, escupe celda.
¿Qué selecciona? ¿Se escoge variables
en función de su nombre es igual una consulta de selección en SQL, si conoces SQL o MySQL o
cualquier base de datos relacional, utilizamos el select para seleccionar el valor
seleccionaremos algo de los datos de la tabla
usando el nombre de la columna. Bien, entonces eso es lo que
select también hace aquí, fijo o variable en
función de sus nombres. Entonces tenemos el filtro, filtro
más estrecho. Lo que hace es escoger los
casos en función de sus valores. Entonces, si quieres
filtrar tus datos en
base a algunos valores, como en la oreja o
algunos en cualquier cosa, cualquier vestido y
puedes ver, ¿de acuerdo? Resumiendo,
la función
reduce los múltiples valores hasta un solo resumen. Entonces, lo que resumirá
hará, reducirá los
múltiples valores hasta un solo resumen. También veremos que entonces
tenemos la función naranja. Lo que no hice, cambia el
orden de las reglas, así que simplemente arregla los
datos en un orden diferente. El orden de la rosa, el
crepúsculo, cualquier cosa bien. Además, también
soporta al operador de tubería. Entonces este es el
operador de tuberías por ciento pruebas y luego mayor que
signo y luego presentado, esto se llama operador de tubería. Bien. Entonces ahora déjame decirte
cómo puedes instalar el paquete en tus artistas
para hacer o incluso en arte. Así que simplemente puedes ir a los paquetes aquí
y puedes dar click en el Instalar y
puedes poner aplicar aquí. Bien. Aparte de eso, también puedes usar
el paquete tidy verse, la forma más fácil de instalar la parcela es instalar todo
el tidyverse. Entonces, si instalaste
el paquete
tidyverse, incluirá el plan D. Y si no quieres
instalar este tidyverse porque tidyverse
contendrá muchos paquetes. ¿Bien? Entonces si
quieres, no quieres, los paquetes que no
estás usando, puedes ir y poner
install.packages D plan, ¿de acuerdo? Por lo que instalará paquetes duplicados de un
líder. Aparte de eso, también
puedes ir por este camino. Ahora. Puedes venir al
paquete de instalación y puedes poner ese nombre de paquete y
puedes instalarlo. Y para invocar la biblioteca, tenemos que empezar a usar la biblioteca y luego el nombre
del paquete que damos. Entonces las otras cosas ya
sabes, pero solo para dividir las
cosas que te estoy diciendo. Lo siguiente es menos explorado. Las esposas básicas de manipulación
del jugador usarán
el conjunto de datos Star Wars. Entonces vamos a usar el conjunto de datos de Star Wars que
está disponible con el arco, que está precargado en R. ¿Bien? Entonces si ponemos cabeza, cabeza, Star Wars,
lo que va a dar, dará los primeros cinco. Primer tipo se levantó el conjunto de datos que
ya conocemos y que hemos
usado varias veces, ¿verdad? Pero este
paquete de capas profundas te dará otra función que se llama glimpse que
no he usado hasta él. Lo estoy usando por primera vez. Entonces, si usas un
vistazo Star Wars, te
dará toda
la información de reglas. Y así, mira aquí está diciendo
es fila, 87 filas y 14 columnas. Y está
dando, dándonos el nombre
de la columna,
nombre, altura, masa, color, y ¿cuáles son los
valores para eso? Bien. Los tres primeros para el colapso. Nos está dando el, así que este es el vistazo punks y solo te dará
un atisbo de los datos. Entonces, si quieres echar un vistazo
rápido a los datos, puedes usar la función clean. De lo contrario, también se puede
utilizar la cabeza también. Bien. Entonces, si comentas vislumbrar
y si corriste unidad
principal, head te dará
un resultado como este. Y un vistazo te dará
ese resultado así. ¿Bien? Entonces esta es la cabeza
y estas son las extremidades. ¿Bien? Entonces ahora nos trasladaremos
a ese operador de tuberías. Déjame cerrar esto. Entonces y de manera similar
también hemos visto la vista. Entonces puedes darte
una Star Wars y te dará la
vista del lago de datos. Te dará la vista
completa del conjunto de datos como una persona normal que veas. Entonces esto te dará
todo el conjunto de datos, ¿de acuerdo? Ahora el operador de tubería, toda la función de capa profunda toma DataFrame como primer argumento. Dataframe será
el primer argumento para todo lo que la plataforma algunos, en lugar de obligar al usuario a guardar
objetos intermedios o funciones de nido, La tela escocesa proporciona al operador de
tubería filas de filtro con la función de filtro. Por lo tanto, el filtro permite seleccionar el subconjunto de
carreteras en un DataFrame. El primer argumento
es el DataFrame. El segundo y posterior
documento reportan al valioso
dentro del marco de datos, seleccionando filas donde
la expresión es verdadera. Así que mira aquí para
seleccionar al personaje con color de piel claro
y ojos marrones. Entonces lo que podemos hacer podemos usar este es el
nombre del conjunto de datos Star Wars. Y luego podemos usar
el operador de tubería. Y luego podemos usar el filtro, y podemos darte el
parámetro para filtrar. Los colores de la piel
serían claros y color de
los ojos. Así que sé marrón. ¿Bien? Y también se puede hacer de
otra manera como Star Wars. Entonces puedes usar el Star
Wars y luego el soporte, Star Wars, soporte, Star
Wars dólares pueden colorear. Significa que
vamos a afectar la base de datos sobre el color de la piel del conjunto
de datos de Star Wars. Y está escalado, el
color de la piel será claro, y luego la estrella fue más alta. Color de ojos significa que
vamos a enfrentar la base de datos sobre el color de ojos y el color de ojos debe ser marrón. Se puede usar el
operador de tubería así. O alternativamente, puedes usar
el dólar. Y Star Wars. Significa que el color de piel en
dólares de Star Wars significa que vamos a ajustar el conjunto de datos en función su color de piel de
ese conjunto de datos de Star Wars. Significa que el color de la piel es una columna en el conjunto de datos de
Star Wars. ¿Bien? Y luego podemos usar
simplemente esto o puede usar el operador de tubería y usar
el lecho filtrante debajo
del color de la piel y el
color de ojos. Ambos te darán
el resultado similar. Ver aquí. Ambos te están dando
el mismo resultado. No hay diferencia. Por lo que puedes usar ya sea con el operador de tuberías
o con sus dólares. ¿Bien? Entonces estas son las dos formas en las
que puedes filtrar los datos. Filas dispuestas con función
naranja. Entonces nuestro hijo menor trabaja manera similar al
filtrado excepto que en lugar de filtrar o
seleccionar filas, lo reordena. ¿Qué hizo? Reordena todo el conjunto de datos. Se necesita el DataFrame
y una columna de configuración nombres son más complicados
expresión para ordenar POR utilizar este bien, y el orden
descendente. Entonces, si usas esta función
DESC, ordenará la columna
en orden descendente. Si usamos EEOC, se
va a enviar. Bien, entonces aquí agregando elementos en el
orden descendente de altura. Entonces, ¿cómo podemos lograr esto, podemos usar Star Wars, luego operador de tubería y luego organizar y
función DESC y altura. Y simplemente proporciona
esto y organizará los datos en el orden
descendente. Ver aquí, ahora los datos son de los más altos y
están disminuyendo. Este es el orden descendente. Entonces de esta manera podemos
agregar en los datos o filtrar los datos en función de la
altura en orden descendente. Bien, lo siguiente es rebanada. Lo que hace slash dos
diapositivas le permite indexar rodado por su ubicación
entera. Permite seleccionar, quitar y duplicar filas. Entonces, ligeramente en desacuerdo, corte
los datos de nuestro conjunto de datos. Rebanar la cabeza de subrayado y se
desliza sobre esta llamada cola. Seleccione la primera y
última fila de los datos. Rebanar la muestra de guión bajo, seleccionar
aleatoriamente esas filas. Entonces, las diapositivas bajo la
muestra de guión bajo le darán el Raj seleccionado al azar del conjunto de datos si
desea que su fuente. Entonces, si no obtienes una muestra del
conjunto de datos, big dataset, puedes usar diapositivas en
esta muestra de código y luego elegir
aleatoriamente algunas carreteras
y venderte las, usadas a menudo prop,
para elegir ciertas. Proporción de los casos. Slice underscore mean
y slice underscore max seleccione las filas con el valor
más alto o más bajo de nuestra variable. Por lo que simplemente te dará, si proporcionas rebanada subrayado media y aquí
proporcionarás altura. Te dará el mínimo de la altura y desliza
subrayado matemático, max, altura, te dará
el máximo de la altura. Entonces, hagamos las prácticas. Entonces para obtener el personaje 5-10, podemos usar el
operador de pipas de Star Wars rebanada cinco dos puntos diez. Así que permítanme simplemente ejecutar esto. ¿Bien? Te daremos de
cinco a diez, ¿de acuerdo? Si usamos n igual a tres, nos
va a dar,
ver, sólo tres filas, ¿bien? Y si usamos n igual a 512345 líneas, si ves la diferencia
aquí, cinco a diez, te
dará
56789106 estado de fila, incluyendo cinco n aquí, n igual a 5 min solo 512345. ¿Bien? Ahora bien, para muestrear el diez
por ciento de las filas, podemos usar esto. Podemos usar Star Wars
cinco operadores, diapositivas subrayan
muestra. Prop 0.1%. 0.1 significa diez por ciento. Y esto te dará el diez por ciento
de los datos. ¿Bien? Repartirá
el 10% de los datos. Ahora usando diapositivas para obtener el valor
más bajo o más alto. Para que podamos usar el filtro de
Star Wars
no es, no para escondernos. Y entonces podemos usar slice. Así que estamos consiguiendo siguiente es seleccionar columnas con select off cuando se trabaja con un
conjunto de datos grande con muchas columnas, pero sólo unas pocas son
realmente de interés, son pocos seleccionar
le permite
acercar rápidamente a un subconjunto útil utilizando tasaciones que generalmente Uno deja trabajo en posición
variable numérica. Entonces seleccionando columnas por nombre. Para que puedas usar los operadores de
pipas de Star Wars seleccionar color de pelo y color de ojos. Entonces esto te dará color de
pelo y color de ojos. La reina y sólo esta línea. Y si seleccionas las
columnas por rebanado, podemos usar el color de pelo y el color de ojos,
ambos no son iguales. Entonces queremos seleccionar eso. Este resultado se puede ver el color del pelo y el
color de ojos no está ahí. Todas las demás columnas están ahí, pero el color del pelo y el color
de ojos están bloqueados y no incluidos. Seleccionar columnas con
los criterios específicos termina con color. Entonces queremos seleccionar los datos
el uno para el otro,
cualquier cosa con ese color. Entonces déjame correr este color de pelo, color piel y color de ojos. Tres columnas que terminan
con el color. Ahora mutar, mutar del
Sol te permite, permite la creación
de nuevas variables. Esto es extremadamente útil
para el análisis estadístico. Entonces aquí están los operadores de
pipas de Star Wars mutan altura a altura por 100. Entonces, ¿qué agregamos? ¿Aquí? Estamos obteniendo
la altura de Star Wars y dividiéndola por 100 y creando un nuevo guión bajo de altura de
columna. Y luego seleccionar la altura, altura y todo lo demás. Entonces déjame correr esto y ver
qué obtenemos C aquí, estamos obteniendo el
subrayado de altura m nueva columna aquí, y esto es 172
dividido por cien, entonces 1.72 y luego todas las demás columnas de
Star Wars, está incluido. Así que de esta manera podemos mutar en la nueva altura de columna subrayado
m al conjunto de datos. Y podemos mutar la
nueva columna y podemos obtener el nuevo valor
para esa columna usando la función mutar. ¿Bien? Ahora, modelo de regresión ajustado
con la altura como examen, examen tres valioso y Marte, cualquiera de las variables de respuesta
incluyendo el valor atípico, muestran las estadísticas resumidas para la cooperación existente. Entonces aquí usamos un modelo de
regresión. Utilizaremos la función lm,
altura y masa,
y luego los valores de los datos, Star Wars y resumen. Voy a usar esto. Entonces déjame dirigir esto. Ver aquí, estos son el
resumen que estamos recibiendo. También podemos trazar este modelo de
regresión. Veamos aquí, vamos a obtener
este residual por apalancamiento. ¿Bien? Entonces si quieres
entrar en el detalle de esto, puedes ver el agua,
el coeficiente que estamos
obteniendo, el valor p de ReLu, todas esas cosas puedes ver
cuál es la mediana mínima. Primer cuartil, el tercer
cuartil, valor máximo. Todas esas cosas
que puedes analizar, puedes ver aquí Q-Q normales y residuales estándar
y ubicación
teórica de
teselas cuadrantes. Todas estas cosas.
Puedes analizar tu agenda, conseguir a alguien y
estás trazando el modelo de regresión
basado en la altura y
la masa a partir de los datos se le dijo esta es
la práctica
rápida usando la función plot, una biblioteca D-flat en la R.
Así que espero que conozcas qué es D flat y cómo podemos usar las diferentes
funciones como mutex, seleccionar Filtrar,
resumir y no son todas estas cosas.
La siguiente conferencia.
69. Regresión lineal simple con un conjunto de datos de calidad de aire: Hola y bienvenidos de nuevo. En esta conferencia, en realidad
vamos a hacer otro proyecto sencillo donde
vamos a utilizar la regresión
lineal. Y qué haremos con
la regresión lineal para tratar de encontrar la
línea que mejor se ajuste a nuestro conjunto de datos. Es decir,
conjunto de datos de calidad del aire que está fácilmente disponible
con la R. Así que este conjunto de datos de calidad del
aire está
disponible con la r. Y este es el conjunto de datos
sobre la medición de la
calidad del aire de Newark. ¿Bien? Entonces entendamos de qué se
trata estos datos
y luego qué
vamos a hacer con ese conjunto de datos y qué vamos a lograr con la regresión
lineal. Así que
las mediciones diarias de la calidad del aire en Irak de mayo a septiembre de 1973. Entonces este es el
conjunto de datos sobre todo. Se está midiendo la
calidad del aire en la ciudad de Nueva York desde mayo de 1973 hasta el 19
de septiembre del cien 73. El conjunto de datos es la calidad del aire. Y voy a formatear el formato de datos con las 153 observaciones
sobre seis variables. ¿Y cuáles son estas variables? Capa de ozono, ¿cuál es la
cantidad de niveles ordinales? Entonces r punto r será número
numérico y
estará en los pulmones. Y este será el PPB. velocidad del viento será el MPH, y luego la temperatura
será en Fahrenheit y el mes uno al 12
de enero a diciembre. Bien. Por lo que el ozono significa lecturas diarias de los siguientes valores
de calidad del aire. Del 1 al 30 de septiembre de 1973 ha sido
derribado y listado en el conjunto de datos. No signifique o no
en partes por mil millones. 1300-1500 h en la Isla Roosevelt. Bien. Tan fuerte a
lo que esto representa, interrumpiendo la radiación
solar en el arrendamiento de terrenos en banda de
frecuencia 4000-7700, Angstrom
Armstrong, de 08:00 de la mañana
a 1,200 h en Central Park. Viento. Este es el promedio cuando la
velocidad en millas por hora, 7-10 h en el aeropuerto Land Gorilla significa que esta es la temperatura máxima
diaria en grados Farenheit
en este aeropuerto. Bien, entonces esto es todo
sobre el conjunto de datos. Pasemos al código. Entonces ya
escribí el código. Te voy a explicar lo
que vamos a hacer. Lo primero
es que necesitamos usar el conjunto de datos que está
disponible con el arte, es
decir, la calidad del aire. Entonces podemos usar datos y
podemos usar la desigualdad. ¿Bien? Y aquí podemos ver
los datos con la vista, función, vista y
luego cantidad. Y ya veremos los datos. Entonces este es el conjunto de datos. Tenemos las seis columnas
o datos solares de John. Esta es la radiación solar, la velocidad
del viento, la temperatura, temperatura
más alta del día, y luego el mes, ¿qué
mes? Y este es el día. Por lo que tienen el mes, mes de temperatura
cuando partió solar, radiación
solar y origen. ¿Bien? Entonces esto es todo sobre el conjunto de datos y está conteniendo
uno por tres datos, bien, una morada, tres
filas en este conjunto de datos. Ahora, lo que quiero hacer, simplemente
quiero trazar esto o Joan y la radiación solar en una parcela y ver
lo que estamos obteniendo. Así que permítanme trazar estos datos. El eje x es alrededor la radiación
solar y la capa de ozono se
representará
en el eje y. Entonces en un día en particular, la radiación solar
será esta y el origen, dejemos que la cantidad sea esta. Entonces esta es la gráfica
que estamos obteniendo. Ahora bien, lo que quiero hacer con
la regresión lineal, quiero encontrar una línea de
mejor ajuste
que represente este
conjunto de datos correctamente. Entonces, ¿cuál será esta
línea de mejor ajuste? Algo así. Algo que dividirá
los datos casi iguales. Y con eso, podemos adivinar cuál será la
radiación solar en un día en particular. Entonces, si sigues esa línea, como y es igual a mx más c será la ecuación de la
línea recta. Entonces en eso, si trazamos esa línea en un
día en particular, podemos adivinar. Bien, entonces lo que voy a hacer, voy a averiguar
cuál es la media
del ozono, cantidad de capa de ozono. Cuál es la media
hasta lo que pierdo,
pierdo que se extraen
de esta calidad del aire. calidad del aire dólar o John nos
dará el origen, el valor arriba o abajo del conjunto de datos de calidad
del aire. Y aquí lo que estoy
haciendo, cualquier dato de cada trimestre verdadero significa si
los valores no están disponibles, acabamos de ver, no considerarlo. ¿Bien? Entonces con esto
encontraremos la media del origen. Por lo que el valor medio
del origen es 42. Entonces será
algo así como aquí. Lo que voy a hacer, voy a dibujar una línea recta que
representará el
valor medio del origen. Entonces déjame correr esta cosa aquí. Esta línea recta
representa la media del origen. ¿Bien? Ahora lo que voy a hacer, voy a usar la regresión lineal para
ajustar la mejor línea posible. Bien, Entonces, ¿cómo podemos hacer eso, podemos usar la función lm, función de modelo
lineal,
y podemos usar el origen y solar
realmente sensibles aquí. Y luego usaré los datos de calidad
del aire. Bien, entonces a partir de los datos de calidad del
aire, usa estos dos
parámetros o no respondas mucho que son radiación
solar. E intentaré crear nuestro modelo de regresión
lineal. Así que he creado, ahora voy a ver
lo que está dando nuestro modelo. Entonces déjame poner esto
en el lado derecho. Entonces mira aquí, estamos
obteniendo estos coeficientes. Y el valor de intercepción es esto y tan fuerte con
los artistas esto, ¿de acuerdo? Ahora lo que voy a hacer, voy a tratar de, con este modelo, voy a tratar de encontrar la línea de mejor ajuste que
represente completamente nuestros datos correctamente. Entonces lo que pierdo, pierdo la línea AB, y voy a pasar este modelo
que hemos creado con la función lm y
nuestro juego colateral. Quiero darle el
color diferente a la línea best fit. Entonces estoy usando la
codificación de colores aquí, naranja. Entonces déjame dirigir esto. Ceo. Ahora bien, esta línea naranja es la línea de mejor ajuste que
estamos obteniendo para esta cosa. Por lo que esto representará
el valor
del valor regularizado de la capa de ozono enterrada
sobre la radiación solar. Esta es la línea de mejor
ajuste que estamos obteniendo de la regresión
lineal. Entonces en base a este soporte un
PIP3 días de datos que
tenemos, queremos predecir eso. Entonces podemos ver que ¿cuál es el apoyo que
quiero predecir aquí? Entonces esta radiación solar,
supongamos aquí, y esto nos dará el valor alguna yarda delta que
rondará los 60 o 75. ¿Bien? Así que de esta manera podemos
encontrar la línea de mejor ajuste usando la función lm
o regresión lineal. ¿Bien? Entonces así es como podemos usar la regresión lineal para
encontrar la línea de mejor ajuste.
70. Cómo lidiar con los valores que faltan: Hola y bienvenidos de nuevo. En esta conferencia y en las
próximas conferencias, vamos a tratar con
los valores faltantes en R. Así veremos cómo podemos lidiar con los valores faltantes
en nuestra programación. Porque cada vez que inicias un proyecto de ciencia de datos o un proyecto de aprendizaje
automático y comienzas a
trabajar en los datos. El primer paso es
la exploración de los datos. Hay que leer los datos y hay que
entender los datos. ¿Cuáles son los valores ahí? ¿De qué se
trata todos esos datos que tienes
que entender realmente? A menos que, hasta que no
entiendas los datos, no
podrás crear nada ni obtener ninguna
idea de esos datos. Entonces es el primer paso
para entender los datos. Y una vez que se tiene la
comprensión de los datos, ¿cuáles son las columnas
que hay en los datos? ¿Cuáles son los valores ahí? Y de qué están hablando esos datos
, ¿para qué sirven esos datos? Entonces una vez que tienes
este entendimiento, así que una vez que tienes el
entendimiento de beta, qué están hablando los datos, para
qué sirven los datos. Puedes interpretar esos datos, y una vez que tienes comprensión, puedes caminar sobre esos datos. Entonces, muy primer paso, hay
que tener en cuenta que hay que
entender los datos. Tienes que entender
¿qué están
ahí las columnas y para qué sirven
esas columnas? Qué tipo de datos
se están almacenando en eso en esas columnas. Una vez que tengamos ese entendimiento, puedes empezar a
trabajar en los datos. Puede comenzar a trabajar en su ciclo de vida de aprendizaje automático o ciencia de
datos. Y el único
paso muy importante para trabajar en los datos y crear machine learning o inteligencia
artificial. modelos de ciencia de datos son el tratamiento de
los valores faltantes. Siempre que veas algún conjunto de datos, puedes ver que
hay muchas columnas, muchas filas donde los datos no
estarán disponibles. Y lo que eso significa. Significa que cada vez que recogemos
los datos a través del formulario, a través encuestas y
a través recopilación de insumos de los usuarios. Así que cada vez que recogemos
datos del
radio de los usuarios solo tienes un gran
grupo de usuarios. A veces odiaban compartir
sus datos o a veces no
van a tener una especie
de proto nivel con ellos. Entonces se saltan esos puntos de entrada del
Dojo. Y cuando recogemos esos
datos y hacemos nuestro conjunto de datos, y podemos encontrar que
hay muchas, muchas columnas, muchos, muchos valores están ahí los
que faltan. Y para que nuestro conjunto de datos funcione correctamente para nuestro modelo de aprendizaje
automático o
inteligencia artificial, rehab para lidiar con
los valores faltantes. Por lo que es una tarea muy común en el análisis de
datos lidiar
con los valores faltantes. En nuestra programación. Los valores faltantes están
representados por una a y significa no
aplicable o lo que sea. Se puede entender cómo los valores
faltantes son representados por una a y
en algunas otras formas, también
se representa por 99. ¿Bien? Entonces el paso muy, muy importante es tratar
con los valores faltantes. Entonces, al tratar con
los valores faltantes, tenemos que seguir
los tres pasos. El primero es la degustación de
los valores faltantes.
¿Qué significa? Significa que tenemos que
investigar el conjunto de datos y tenemos que probar
el valor faltante. Tenemos que ver cuántos valores
faltantes hay. ¿Dónde están los valores faltantes? Entonces tenemos que encontrar
los valores faltantes. Entonces, una vez que hayas probado los
valores faltantes en el conjunto de datos, tenemos que registrar
el valor faltante. El segundo paso es decodificar los valores faltantes
a lo que está
decodificando valores faltantes es que
tenemos que poner algunos, son otros valores en
su lugar hasta valores faltantes. Supongamos que tenemos nuestros datos de edad donde algunos de los simplemente
no han dado su detalle de edad. Entonces lo que podamos llenar ahí, podemos tomar la media de eso. Acabas de comerte toda
la
media o promedio de justicia juvenil es que podemos
poner en el valor faltante. Entonces, sea cual sea la fuente que solo, a
quien le falte la edad, podemos poner ese
valor promedio de edad del grupo ahí dentro. De esa manera podemos registrar
los valores faltantes. Entonces necesitamos registrar los valores
faltantes en base algún algoritmo como
media, todas esas cosas. ¿Bien? Entonces el tercer paso
es que podemos, o pensamos, o de otra manera sería
excluir el valor faltante. Así que de otra manera podemos, en lugar de grabar,
podemos excluir las filas de valores
faltantes. Así que simplemente podemos eliminar esos insumos que
no están teniendo el apoyo,
ayuda apoyarte. Tenemos nombre, tu solo ciudad y edad y detalles de
empleo. Y si a algún usuario
no se le da a su edad, simplemente
podemos eliminar
ese usuario
del conjunto de datos para que podamos
excluir los valores faltantes. Entonces estos son los tres pasos para tratar con los valores
faltantes. Y en el siguiente ejercicio,
en la siguiente conferencia, haremos una simple actividad
práctica donde veremos cómo podemos
probar los valores faltantes, cómo podemos registrar
el valor faltante y cómo podemos excluir
los valores faltantes. Por lo que la próxima conferencia será
toda práctica en el, tratando con los valores faltantes. Entonces nos vemos dentro
de la siguiente conferencia.
71. Poner a prueba los valores que faltan: Hola y bienvenidos de nuevo. Entonces, en la conferencia anterior, hemos visto cómo podemos trabajar
con valores faltantes en R, o cómo lidiar con los valores
faltantes en R. Hemos visto qué pasos
debemos seguir. Tenemos que seguir
estos tres pasos. O se pueden decir dos pasos. O puedes registrar los valores faltantes o puedes
excluir el valor faltante. Entonces, el primer paso es el
gusto por los valores faltantes. Tenemos que probar y tenemos que encontrar
los
valores faltantes en el conjunto de datos. Y luego se requiere el segundo
paso, los valores faltantes o
excluir los
valores faltantes en el conjunto de datos. Entonces comencemos con el
primer paso que es probar los valores faltantes. Entonces, ¿cómo podemos probar
los valores faltantes? Así que he escrito este código y vamos a hacer el ancho práctico. Entonces déjame decirte
lo que estoy haciendo aquí. Estoy creando un vector
con algunos valores faltantes. Entonces estoy creando un vector 1-6, y luego estoy incluyendo un valor de NA al que le falta valor y luego ocho a
diez y luego faltante. Bueno, cuando ejecutemos este
vector, vea lo que obtenemos. La salida es 123456
porque de uno a seis. Y luego cuando cualquier valor, luego 89108 a diez y luego cualquiera. Entonces aquí nos
faltan dos valores. Este conjunto de datos lo estamos
creando por nosotros mismos. Bien, entonces para decirte
lo que falta valor, solo
estoy incluyendo el valor
faltante en el vector. ¿Bien? Entonces ahora supongamos este vector
x que tenemos, que está teniendo dos valores
faltantes. Y no sabemos
aquí podemos ver, así que sabemos que
faltan dos valores. Pero supongamos que no
sabemos, no somos conscientes, no
estamos, no estamos viendo cómo podemos. Es un conjunto de datos grande no
es sólo una fila. Puede haber un conjunto de datos que
tendrá varias filas, miles de filas usted cómo vamos a encontrar los valores faltantes allí. Así que simplemente podemos
ejecutar una prueba que es,
es Annie es cualquiera, y luego tenemos que
pasar el nombre del conjunto de datos. Bien, Así que aquí pasaremos
el extractor está habilitado, encuentra el valor que falta. Dirá, si faltan valores
ahí, dirá verdad. ¿Bien? Entonces cada NA y valor faltante, pasará por
el este vector, x vector, y
encontrará el valor faltante. Y ahí está un valor faltante, volverá verdadero. Entonces déjame dirigir esto. Aquí. Nos estamos volviendo falsos, falsos, falsos,
falsos y verdaderos. Entonces esto es para 1234566. Falso significa que no
falta valor hasta seis. Entonces para
el séptimo lugar hay alguna, y para eso nos está
volviendo verdad. Después 8910, falso, falso, falso. Y hasta por diez, hay alguna, por lo que
está volviendo verdad. Por lo que te devolverá la
verdad por los valores faltantes. Entonces de esta manera podemos
llegar a saber que
faltan valores para
estos dos valores. ¿Bien? Ahora vamos a crear un DataFrame
con datos faltantes. Entonces estoy creando un DataFrame. Df data.frame es
la forma de crear DataFrame. Y aquí estoy creando
cuatro columnas, columna uno, columna dos,
columna tres, columna cuatro. Y en la columna uno, le
estoy dando 123 y una
columna a este NA es, así que estos son el valor que estoy
poniendo en el DataFrame. ¿Bien? Así que déjame ejecutar este DataFrame
y te vi la salida. Entonces mira aquí, el
DataFrame es así. La columna uno, la
columna dos, la columna tres para la
columna uno tendrá 123.1 y la columna dos
tendrá esto es un texto. Columna tres, verdadero,
falso, verdadero, verdadero. Bien. Entonces y la columna cuatro
será de 3.55, 0.26, 0.2. Y así este es el DataFrame
que he creado. Ahora, quiero identificar
n está en DataFrame completo. En este dataframe
quiero encontrar alguno. Así que simplemente puedo ejecutar la prueba es una a y
primero puedo el DataFrame V0. Por lo que cada marco de datos enter
devolverá verdadero o falso. Entonces esta NA, eso es justo aquí, columna uno, cuarta fila, estamos pasando,
luego otra entrada aquí. Así que estamos pasando por aquí. Y eso es otro
y otros dos aquí. Eso significa que en esta, ¿de acuerdo? Así que de esta manera podemos ejecutar
nuestra prueba es de cualquier vía. Supongamos que desea identificar cualquier columna específica de DataFrame. Entonces quiero verificar si
este DataFrame está teniendo alguno,
algún valor en la columna dos para que
pueda ejecutar la prueba es cualquiera. Y luego el DataFrame
nombre df dólar columna dos. Entonces lo que va a devolver, devolverá
lo verdadero
y falso para la columna. Así que vamos a ejecutar esto
y ver tu falso, verdadero, falso, falso.
¿Por qué es falso? Porque en la columna dos, el valor está ahí, por lo que
está devolviendo falso. Para N8 se está ejecutando true for is y text es
Dunning, false, false. Significa que
falta un valor en la columna dos. Así que de esta manera podemos
encontrar los valores de NA que
faltan valores en columna
particular. Ahora podemos ejecutar la función sum e identificar el conteo
de NINR DataFrame. Así que podemos usar algunos
off es cualquier df es N A, y tenemos que pasar
el nombre del conjunto de datos. Así que vamos a ejecutar esto y ver
aquí ahora estamos consiguiendo tres. Entonces hay tres. N está en el marco de datos. Ahora, la suma de columna es df, te dará la suma de los valores
faltantes en columnas. ¿Bien? Así que vamos a ejecutar esto y
ver que se hace en la columna uno, fila, uno, columna
21, columna tres. No faltan datos. Y columna para uno. Entonces C, columna tres, todo está ahí verdadero, falso, verdadero, falso, y no
nos faltan valores
en la columna tres. La columna tres soporta
si pongo algo, algunos otros valores,
en vez de verdadero-falso, voy a poner un poco de marrón. Algunos valores necesitamos
poner 20, ¿de acuerdo? Y ahora corre el DF. ¿Bien? Ahora ejecuta esto. La tercera columna está teniendo cero valores faltantes
porque está teniendo redondear hacia abajo 905123 todos los
datos disponibles, ¿verdad? Por eso se hace en
general para la columna tres,
suma de número, número de número
total de valores faltantes
en la columna tres es cero. En la columna uno,
falta un valor, es decir este. En la columna cuatro, hay una
razón, bueno esa es esta. Y en la columna dos hay una. Así que de esta manera podemos probar los valores faltantes
en R usando
es cualquiera, es cualquiera devolverá
true si falta un valor
en el DataFrame. Entonces así es como podemos
lograr ese primer paso. En la próxima conferencia
veremos cómo podemos lograr una grabación
de valores faltantes. Nos vemos dentro de la siguiente conferencia.
72. Recolectar los valores que faltan: Hola y bienvenidos de nuevo. Entonces en la conferencia anterior, hemos visto cómo podemos
trabajar con los datos faltantes. Y hemos visto
como podemos identificar los valores faltantes en un
conjunto de datos usando es punto, ¿verdad? Entonces cada punto y
te dará los valores faltantes. Y ahora, una vez que sepas
que los valores faltantes están
ahí en el conjunto de datos, qué
podemos hacer, podemos
registrarlos con algún valor
o podemos eliminarlos. Entonces veamos cómo podemos registrar el
valor faltante en un conjunto de datos. Entonces lo primero es que podemos
registrar el valor faltante. Si se trata de un dato numérico, podemos Registrar con la
media del conjunto de datos, media de los valores, bien, promedio del valor. Podemos portar dos, podemos decir. Así que aquí estoy creando
un vector x, ¿de acuerdo? Y veamos qué
hay en el vector S. Es 123456, luego uno, luego
8910, y luego cualquiera. Bien, Así que aquí están
todos en datos numéricos. Entonces lo que podemos hacer, podemos seguir adelante y encontrar la
media de los datos existentes, ajustando nuestros
números numéricos, números, y llenar la media en lugar de los valores
no faltan valores. Entonces lo que podemos hacer, podemos usar la x, que es el conjunto de datos o vector y podemos encontrar es una a de x Podemos encontrar todos los valores de NA. Y aquí podemos poner
el valor media de x Así podemos encontrar la
media de x usando la función mean y donde, donde quiera que cualquiera que
no sea igual a true. Para que podamos poner el
valor medio en su lugar. Eliminaremos los valores y pondremos el valor medio
en lugar del sobre. Entonces déjame dirigir esto. Y ahora, bien, entonces la Z aquí, ahora tenemos la 123456
y en lugar de cualquiera, tenemos 5.33 y luego 8910. Y en lugar de esto y
cada uno tiene este 5.3. Entonces déjame correr esto otra vez. Entonces aquí en vez de
una a, tenemos 5.33. Entonces, ¿cómo estamos consiguiendo este 5.33? Estamos obteniendo el promedio de 1234561 más dos más
tres más cinco más seis, más ocho más nueve más diez, y dividirlo por número de
valores cuando se obtiene el 5.3. Entonces, en lugar de anticuerpos, estamos poniendo el 5.33. Entonces esta es la única manera de lidiar con los valores
faltantes, están registrando el valor
faltante con ese valor promedio, es
decir 5.33. Lo siguiente es DataFrame que recubra el
valor faltante como nitrógeno algunos,
en algunos de los conjuntos de datos, el 99 representará
el valor faltante. Entonces supongamos que este es el
DataFrame que estoy creando, que es tener dos columnas. Y vamos a ejecutar esto y
déjame mostrarte el DataFrame. El DataFrame columna
uno, columna 2123. Y aquí en vez de cinco, está teniendo 99. Y la columna dos está
teniendo todos los pozos. Entonces este 99 está fuera de lugar. Es como un valor faltante. Por lo que se trata como
el valor faltante. Entonces ahora lo que podemos
hacer, una cosa, podemos sustituir este 99
por un a para que el, quede en su lugar. Entonces si queremos reemplazar este
d F igual a 99 dentro de a, podemos usar DFT y
en paréntesis df igual, igual a, igual a 99. Y si es 99, necesitamos reemplazarlo con ADN. Entonces déjame dirigir esto. Nos vemos ahora en recto arriba 99, estos 299, tenemos los valores
N A, ¿verdad? Para que puedas reemplazar
con lo inevitable. Si no quieres
reemplazar con ningún valor, simplemente
puedes
dejarme mostrarte el DataFrame
nuevamente con el 99. Ahora, podemos poner cualquier valor aquí. Si quieres poner cinco, sabes que
debería haber cinco y simplemente
puedes poner cinco y C. Ahora los valores reemplazaron
tanto los lugares como cinco. Entonces de esta manera puedes lidiar
con los valores faltantes. Podemos simplemente poner ADN, bien, Así que de esta manera podemos registrar
los valores que faltan en nosotros.
73. Árbol de decisión: Hola y bienvenidos de nuevo. Entonces en esta conferencia
vamos a aprender sobre el árbol de decisiones, que es muy importante
en el aprendizaje automático. Entonces aprenderemos todo
sobre el árbol de decisiones y reiniciaremos desde el principio
listo que. ¿Qué es el árbol de decisiones? Entonces primero, déjame decirte, cuál es nuestra decisión. Una decisión es algo
que tomamos todos los días. Supongamos que queremos ir a algún sitio y supongamos que quiero ir
a algún evento. Y para apoyar esto soy yo. Y necesito, la necesito para
ir un poco de agua, algún evento. Entonces lo que voy a decir si
el clima es bueno o no, y en base al clima
es bueno, voy a subir. Si el tiempo no es
bueno, no iré. Por lo que esto depende de
la condición climatológica. Entonces aquí estoy tomando
distinguirlos como son. Entonces este es una especie de
árbol de decisiones que estoy tomando. Estoy tomando, estoy
tomando una decisión basada en el clima y el apoyo. Puedo añadir una
cosa más si eso es bueno. Y otra vez, quiero
agregar algo como si estoy bien y
no bien, ¿verdad? Entonces si estoy bien, voy a ir va a ser sí. Y esto va a ser no. Entonces todo esto se convertirá en un gran árbol de decisión donde lo
primero en el
clima, el clima es bueno, me voy, clima no es bueno, no
voy. Y si es bueno También app para ver si
estoy bien o no. Y entonces mejor que
mi condición de salud, voy a decir que sí o no. Así que este es un gran árbol de
decisiones, ¿de acuerdo? Ahora bien, así es como
tomamos la decisión, ¿no? Cuando estamos manejando un auto, lo
estamos echando un vistazo, mirando el estado del
tránsito, y luego estamos tomando
nuestra jugada ¿verdad? Si trampa, si la señal de tráfico
es verde se moverá. Si es de color amarillo, esperaremos. Y si es de color rojo, vamos a parar, ¿no? Entonces eso también será un tipo de decisión que estamos tomando. Entonces, ¿qué es el árbol de decisiones? Si quieres entender, tenemos que ir a un ejemplo. Supongamos que tengo, supongamos que
este soy yo, este soy yo. Y quiero ir a algunos
go-to por algunas frutas. Y no reconozco los frutos. Bien. Entonces alguien en mi
familia, alguien, me
dijo que la manzana, manzana, manzana tiene
dos características. Es de color rojo y el
redondeo guarda, ¿verdad? Y luego dijo que el plátano, plátano es de color amarillo
y no está mal, ¿verdad? No redondo. En realidad es largo. Ok. Y luego dijo
que lo tenemos. Lo tengo es de color naranja. Y no está mal. Bien. No se equivoca. Entonces ahora voy al mercado de frutas de
pato. Y ahí vi un teclado suave. Vi a un tendero que
está vendiendo frutas. Y tiene muchas frutas como si
tuviera un montón de, perdón. Ha amontonado el apoyo de
banano. Este es el plátano. Entonces tiene muchos plátanos que, no
sé que es plátano. Bien, entonces algo
en plátano seguro, estoy planeando hacer, perdón por mi mal dibujo. Y tiene algunos frutos. Alguna batería prueba que tiene. Y luego tenía algo de color
naranja. Lo tengo. Bien. Apoyo que tengo
pocos reunidos ahí. Entonces ahora voy a
parar y estoy pensando cómo forzando el agua perdida en base lo que alguna vez la descripción que
obtuve de mi familiar, iré y le preguntaré a la tecla
programable qué pregunta voy a hacer. Voy a preguntar que cual
es el color, ¿verdad? Entonces lo primero que voy a preguntar, como Egipto o rojo
o naranja, ¿verdad? Te perdí Gita. Color naranja. Entonces la
proteasa de color naranja. Y si lo es, voy a llegar a responder directamente con él
será sí o lo será. Bien. Entonces, si es que sí. Lo tengo se clasificará aquí. La S, las zanahorias
vendrán aquí, ¿no? Entonces todos los candidatos
vendrán aquí por ello, color
naranja y
todos los plátanos, porque
no son de color naranja. Entonces todos los plátanos
serán plátanos, va a venir aquí. Y mayores. Manzanas también de este lado, ¿verdad? Porque tampoco son
de no color naranja. Entonces ahora he tomado una decisión. Los frutos, he clasificado los frutos en dos
categorías, naranja o no. Entonces naranja, me dieron la, todas las zanahorias y no naranja. Me dieron el
plátano amarillo y las manzanas rojas. Ahora bien, lo siguiente que voy a
preguntar por ahí o no ¿está bien? Redonda. Entonces me sale el sí
y voy a conseguir el no. ¿Correcto? Hasta ahora es todas las manzanas van a
venir aquí, ¿no? Todas las manzanas se clasificarán
correctamente, ¿verdad? Y para no, Para saber
qué va a pasar. Todos los plátanos
vendrán aquí, ¿verdad? Porque los plátanos no son redondos. Entonces traeré todos
los plátanos aquí. Entonces ahora mira, si
miras esta cosa, podemos ver que esto
es todo esto. Todo esto es un árbol de decisiones porque
parece un árbol, ¿verdad? El árbol tiene las ramas
y las hojas, ¿verdad? Entonces este, el principal, este se llama nodo raíz. El nodo raíz y los nodos
hijo que estamos obteniendo
y los labios digitales, ¿verdad? Bien. Entonces este es un
árbol de decisión donde estoy primero, estoy viendo todos los frutos y estoy decidiendo si
son anaranjados o no, entonces estoy clasificando datos que se están
clasificando correctamente. Entonces el plátano unipolar aquí
y luego son los suyos, luego las manzanas y los plátanos
se clasifican acertadamente. Clasifica los frutos
en función de su color y ahorra. Entonces, básicamente, los árboles de decisión se
utilizan para el problema de
clasificación. Entonces los siglos se utilizan en
problemas de clasificación, ¿verdad? Y la media de este nodo, este nodo, este nodo, el nodo raíz aquí. A esto se le llama entropía. Entonces, lo que significa nuestra entropía, la, cómo más será el número de ítems
en este nodo raíz, más denso será su árbol de
decisiones. ¿Bien? Entonces lo que tengo que hacer, necesito El cada decisión
con el cada nodo. Cada nodo necesito para
reducir la entropía. Entonces aquí la entropía está aquí, entonces el trapecio
será el más alto. Y luego con cada
decisión necesito reducir el valor de entropía para que
podamos clasificar esos ítems. ¿Bien? Entonces a esto se le llama entropía. Entonces cada ojo traza
y vamos a estar, vamos a estar reduciendo
la entropía, ¿correcto? Veremos en la
próxima conferencia cómo
vamos a estar reduciendo la entropía. Entonces aquí podemos, veremos cómo
podemos
usar eso y bajarlo también con la titulación
y llegar al nodo hijo, cómo reducimos la entropía
en la siguiente conferencia. Pero por dentro, este es el
árbol de decisiones y así es como
clasificamos las cosas en el aprendizaje
automático usando el árbol de decisiones. Y así es como hacemos
el árbol de decisiones, también
haremos nuestras prácticas
en las próximas conferencias. Primero, revisaremos toda la parte de la teoría y
luego pasaremos a la parte práctica donde
clasificará tu problema de aprendizaje automático usando el árbol de decisiones
en nuestra programación. Nos vemos dentro de la siguiente conferencia.
74. Entropía y ganancia de información: Entonces en esta conferencia, vamos
a ver cómo el árbol de decisiones, ¿cómo camina el árbol de decisiones? ¿Bien? Menos de tres. Trabajo. Bien. Entonces para eso, déjame decirte algunos
conceptos básicos antes de seguir adelante. Entonces, primero, esta
decisión, árbol de decisiones, estamos
tomando diversas decisiones. Entonces este es, este se conoce
como el nodo raíz, o este se conoce como
el nodo raíz, ¿verdad? Entonces este es un nodo raíz. Y luego a estos se
les llama nodo hoja. Entonces este es el nodo hoja. Este es otro nodo de hoja. Se llaman nodo hoja, ¿de acuerdo? Nodo raíz y nodo hoja. ¿Bien? Entonces ahora sabemos lo que es un nodo
hoja y un nodo raíz. Déjame llevarte a la, otro concepto que se llama entropía y sí vio que es
muy, muy importante. Entonces déjame decirte a
lo que me refiero. Estoy diciendo entropía. Entonces, ¿qué es la entropía? La entropía es algo muy importante. Porque mira aquí, ahora éste, esto está teniendo más
número de artículos, ¿verdad? Entonces esto es tener caída
de gama alta. Lo siento. Esto es tener alta entropía. Alta entropía, ¿de acuerdo? Y éste está
teniendo baja entropía. Es tipo de población. Entonces cuando tienes más
número de ítems en un nodo, es tener alta entropía. Y cuando está teniendo
bajo número de elementos, se le llama baja entropía. ¿Bien? Entonces la entropía es una medida de falta de
tu recopilación de datos. Como más número de
artículos, como aquí. En el nodo raíz,
tienes los artículos con, con tres colores, naranja, amarillo y rojo y apagados para guardar. Entonces eso es tener
más desordenado y correcto. Entonces eso es tener alta entropía. Y comparado con eso
en este nodo raíz está teniendo una entropía baja y esto está teniendo
muy baja entropía. ¿Bien? Entonces déjame llevarte a otro concepto
con esto y eso se llama, eso se llama ganancia de información. ¿Qué es? Se llama, se llama ganancia de información. Entonces, ¿qué es la ganancia de información? A medida que nos movemos a este árbol de decisiones desde el nodo
raíz hasta el nodo hoja, estamos ganando información. Y con la obtención de
información, lo que está reduciendo, la entropía es el road-racing. Supongamos que estas entropías,
para esta entropía es E2, para estas entropías, E3. Y para esta entropías
soportan entropías E3. Entonces por cada rastreo
y se puede decir que E2 será
menos de uno, ¿verdad? Entonces el valor y1 es E1, E1 es más y E2 está reduciendo. E2 es menor que Y1. Y de manera similar aquí, e3
será menor que E2. ¿Bien? Entonces, ¿qué es la ganancia de información? La ganancia de
información es ganancia de información, si queremos calcular, será ganancia de información
será igual a y1 menos y2. Y1 menos y2 te dará
la ganancia de información. ganancia de información es la
disminución de la entropía al dividir el conjunto de datos
en función de algunas condiciones. Entonces mira aquí. Ahora tenemos 1234567 datos aquí. Y estamos poniendo
una condición, Agente, Naranja en los protistas color
naranja. Y en base a esta
condición que estamos obteniendo, estamos reduciendo el número de
conjuntos de datos aquí mismo, dos y aquí 345. Así que estamos dividiendo el conjunto de datos. Entonces aquí la entropía se está reduciendo. ganancia de información
es la disminución entropía al dividir el conjunto de datos en
función de alguna condición. Veremos cómo podemos
calcular la entropía. Esa es otra
cosa matemática que te dejo saber. Pero por ahora, supongamos que cuando estamos bajando por el árbol de decisiones, la entropía va disminuyendo. Antes era e uno, ahora es E2, y más abajo está
bajando a e tres. Y e uno es mayor que E2
y E2 es mayor que E3. Ganancia de información para esto, de este nodo a este nodo, está llegando a y1 menos y2. Bien, entonces eso es lo que gana
la información. Entonces, ¿cuál es nuestro objetivo
del árbol de decisiones? Cuando dividimos el conjunto de datos en
función de alguna condición, estamos apuntando a
disminuir la entropía, disminuir la entropía para obtener
la información, ¿verdad? Por lo que el teléfono principal muere para
obtener más información. Bien, entonces en la próxima conferencia, veremos cómo podemos calcular la ganancia de información y cómo
podemos hacer con el conjunto de datos, cómo podemos dividir
los datos y cómo podemos calcular la ganancia de
información. Y ya veremos cuál es la ecuación matemática de
la ganancia de información con, bien, así que nos vemos dentro de
la siguiente conferencia.
75. Calcular la Entropía en el árbol de decisiones: Hola y bienvenidos de nuevo. Entonces en esta conferencia
vamos a aprender sobre la entropía y cómo
calculamos la entropía. Entonces en la conferencia anterior, hemos visto cómo funcionan
nuestros distintos paseos. Y sin embargo quiero aclarar. El nodo hoja será, este será el nodo de una hoja. Este será un nodo
de hoja, ¿verdad? Y este será otro nodo hoja
diferente, ¿de acuerdo? Ganglio linfático, el ganglio terminal. Bien, eso va a conseguir talkie. Y hemos visto como estamos cuando bajamos en lo profundo por
el árbol de decisiones, la entropía va a ser zona
decreciente principal objetivo es llegar al nodo de datos, al nodo hoja, donde la entropía será menor que
la entropía del nodo anterior. Y entropía y ganancia de
información. Hemos aprendido que y1 menos y2 será la ganancia de
información. Entonces ahora veremos qué es entropía y cómo
calculamos la entropía. Entonces el tema para esta
conferencia es la entropía. ¿Bien? Entonces vamos a
discutir en detalle qué es la entropía y cómo podemos
calcular la entropía. Entropía. En realidad, supongamos que
este es el apoyo, este es nuestro único árbol de decisiones. Supongamos que esta es nuestra, esta entidad donde
dicen F1, F2, F3, ¿bien? Y entonces, bien, entonces estas
son nuestras hojas al norte, ¿verdad? Estos son nuestros ganglios linfáticos. Y este será el nodo hoja. ¿Puede el deporte o el ganglio linfático. Y este es el nodo
raíz, ¿verdad? Entonces, ¿cómo calculamos la entropía? Supongamos en una cosa más. Sólo para recordar. Este árbol de decisión. Los árboles de decisión se utilizan para
problemas de clasificación, ¿verdad? Problemas de clasificación, ¿verdad? Entonces básicamente será la
clasificación cruzada binaria, sí o no. ¿Bien? Entonces supongamos que cuando agregamos
desde el nodo raíz aquí, estamos llegando a este F2. Estamos recibiendo,
supongamos que estamos recibiendo tres años y estamos
consiguiendo dos nodos, ¿de acuerdo? Y aquí estamos consiguiendo
cuatro años y tres nodos. Y entonces aquí
estamos consiguiendo cinco años. Estamos recibiendo dos años, y aquí estamos
consiguiendo tres nodos. Solo estamos asumiendo
estos valores, bien, y aquí para nodo y soporte, aquí estamos obteniendo tres. Sí, y tenía algo muy
bueno para los nodos y apoyó este es tener el ferrocarril como diez años,
siete nodos. ¿Bien? Entonces ahora cómo
calculamos la entropía, entropía es la
paridad del split. Entonces este es nuestro conjunto de datos y nos estamos
dividiendo en dos nodos, ¿verdad? F2 y F3. Entonces, ¿qué tan pura y qué tan
buena es esta división? Eso es lo que vamos a
decidir en base a la entropía. Entonces, entropía. entropía es básicamente
lo bueno que es, qué tan bueno es el split, ¿qué tan bueno es tu split? Eso es lo que nos
va a decir la entropía y cómo calcular la entropía. Que hay una fórmula
simple que soporta queremos calcular la
entropía de S supongamos, entonces será menos
probabilidad de sí. Y luego registrar mensaje
a probabilidad de sí. Se puede decir probabilidad
de positivo
también , más menos Alfa. Probabilidad de no log
base dos, probabilidad de No, déjame escribirla
correctamente. Eso va hacia abajo. Supongamos que soporta
entropía estamos denotando con E.
La fórmula de entropía es muy simple. Menos probabilidad de sí en log base dos de
probabilidad de sí. Menos. Se puede hacer más, menos probabilidad de norte en log de log de pashto,
probabilidad de nodo. Entonces esta es la fórmula de
calcular la entropía. Entonces supongamos que queremos calcular
la entropía de este nodo. Entonces, ¿cómo podemos hacer eso? Entonces aquí la E será
probabilidad de sí, sí serán tres. Entonces tres por contador total,
tres-plus para encontrar. Entonces probabilidad de síes
tres por cinco años. Y luego haremos
log base 23 por cinco. Y signo menos menos probabilidad de negativo
será de dos por cinco. Por cinco. Base logarítmica de dos por cinco
probabilidad de negativo. Entonces esta será la entropía de, esta será la entropía
de la nota F dos. Entonces esta es la fórmula. Obtendrás algo de valor aquí. Algún valor al calcular
obtendrá el valor. Entonces esto va a ser oscuro y te
dejará este F2. Nota entropía de F2,
puedes, ¿verdad? ¿Bien? Entonces la entropía de F2 nada será esta
menos tres por cinco. La pobreza aparece
menos probabilidad de negativo y tendrá que tomar
la base logarítmica dos de ellas, probabilidad
positiva y probabilidad
negativa. Entonces esto, sí, se puede
decir probabilidad de positividad, probabilidad
de positividad. Y esta será la probabilidad de valores negativos, negativos. ¿Bien? Entonces de esta manera podemos
calcular el valor de entropía. Entonces podemos calcular el valor de
entropía para esto también, para esto, también, para
esto también aquí, si calculas el valor de
probabilidad, ese es el único, no hay
negativo, ¿verdad? Porque esta es la
N nada, ¿verdad? Entonces supongamos que estamos haciendo el split y estamos
obteniendo, supongamos aquí estamos, en lugar de 4.3 nodos, estamos obteniendo tres
años y tres nodos. Entonces esto es un muy, esto no es útil, esto es, esto no es
algo útil, ¿verdad? Porque estamos consiguiendo las
dos cosas, tres años y tres nodos. Entonces esto no va a
dar ninguna idea, ¿verdad? Entonces esto es muy negativo. Esto es muy, muy malo
tipo de división, ¿de acuerdo? Por lo que sus datos no se dividirán de tal manera
en un árbol de decisiones. Entonces esto es discontinuidad
o hockey, porque al
calcular
éste, será tres por seis
menos tres por seis. Básicamente la probabilidad
negativa del barco y la probabilidad
parcial
ambas son iguales, ¿de acuerdo? Entonces tenemos que
dividirlo de tal manera que no deberíamos estar
consiguiendo esta cosa. ¿Bien? Entonces así es como calculamos la entropía con esta fórmula. ¿Bien? Y tenemos que, y la
ganancia de información como se discute, será la, supongamos que este
es E uno o E F1. Y esto es aquí EF2. La información obtenida de F1
a F2 será E F1 menos F2. Entonces esta será la
información obtenida de nodo a este nodo. ¿Bien? Entonces así es como calculamos la entropía
y la ganancia de información. Ganancia de información.
76. Calcular la ganancia de información para el árbol de decisiones: Hola y bienvenidos de nuevo. Entonces en la última conferencia
hemos aprendido sobre la entropía. Y los talones están en este árbol de
decisión que he dibujado. Abdullah, pequeño
error como Yolanda. Total ciudades están disparando
17, 17 artículos luego S. Y no hay. Entonces, cuando se dividen
estos dos nodos, tres años para saber. Y para sí y
tres nodos, ¿no? Cuatro más 37.5, solo 12, por lo que cinco no está incluido. Entonces puedes así que tienes
que encargarte de eso. Me gusta por error, aquí no
me han dado los números
correctos, pero eso no va a afectar nada de lo que he enseñado
en la conferencia anterior. Entonces solo los números son un total de 17 cuando estás dividiendo. ¿Bien? Entonces aparte de eso, todo es
correcto y la forma calculamos la entropía, esa fórmula es correcta, todo lo demás es correcto. Y eso es lo que quería
aclarar que esto sucediera. Algunos otros números. Bien. Y como tres
u ocho años entonces y luego bien. En esto sería mi error. He escrito 38 sí. Para conocer 10.7, 17. Bien. Y entonces aquí va a haber un apoyo de ocho años. Y sí. O McDonald's aquí mismo, entonces será uno correcto. Bien. Bien. Entonces ahora pasemos al siguiente concepto que se llama ganancia de información. Entonces en la conferencia anterior,
lo que te he dicho, te dije en granjeros
y ganancia es así en entropía
menos esta entropía. Por lo que este
juego de información obtendrá de, de esta característica F1 a F2 tasa. Pero esa no es la ganancia
total de información. Entonces, cuando conseguimos que nuestro
árbol de decisiones esté completamente formado, tenemos que encontrar la ganancia de información
del árbol de decisión total. ¿Qué juego de información? Nuevamente, nos estamos
poniendo en su totalidad. Entonces déjame simplemente lanzar como
Dawn y lo que voy a hacer, voy a crear un árbol de decisiones. Supongamos que tenemos
este árbol de decisión. Así apoyó esta
etapa, F1, F2, F3. ¿Bien? Entonces supongo que esta
está teniendo n, sí, y siete. ¿Bien? Y cuando estemos dividiendo aquí, se supondrá ETS, nariz. Y aquí estamos cortando. Que sean estos tres nodos. Entonces nivel y aquí me estoy poniendo
tres años y tres. No. Bien, entonces este es uno, nuestro árbol de decisiones apoya un árbol de decisiones de muestra
que estamos creando aquí. Ahora bien, para este nodo, entropía se supone que
E F1 te soporta. Estamos calculando la
entropía para esto, entonces. Sí, n, siete nodos, estamos obteniendo E F1. Para ello, estamos consiguiendo
y propiedad como E F2. Y para esto estamos
consiguiendo E F 30. ¿Bien? Entonces ahora esto se basa
en esta ganancia de información. Y la entropía servirá. entropía solo te dirá en
base al valor de la entropía, podemos llegar a saber que
cómo es nuestra división, ¿verdad? No será saber
que si
todo el obeso iría por
éste o éste, ¿verdad? Esta división, o
esta división, ¿verdad? Entonces supongamos que podemos
hacer otra división, como comenzar con F2, comenzar con F2 y luego
ir a la F1 y F3. Entonces esta podría ser otra división. Entonces no sabemos
cuál es la correcta, ¿verdad? Entonces, ¿cómo sabemos eso? Qué estrategia o qué split deberíamos ir a
visitar iría como F1,
F2, F3 son formas, comenzaría con
F2, F1, F3, ¿verdad? Entonces, ¿cómo podemos decidir eso? Podemos decidir esto por el
término me informó alguna ganancia. Entonces, con base en la
ganancia de información, podemos decidir. Por qué camino debemos ir, algo así como ir por aquí o por aquí. ¿Bien? Por lo que esto se decidirá por la ganancia incremental hasta
el árbol de decisión total. Entonces, cómo calculamos la ganancia
total, total de información, y eso es lo que les
voy a decir. La ganancia de información es la
cantidad de información que
estamos obteniendo para
todo este árbol de decisiones. Entonces para esto primero, lo que necesitamos obtener, necesitamos encontrar la entropía
para cada uno de los nodos,
cada una de las características,
bien, hasta ahora soportada, hemos calculado en base la fórmula explicada en
la conferencia anterior. Hemos calculado y
obtuvimos estos valores, E de un año, PUI de tres. ¿Bien? Entonces, ¿ahora qué información gana? Ganancia de información. ¿Qué
ganará la información de este árbol de decisión? Es como la información
gana hasta el nodo raíz, es
decir E, f, f1, f1 menos suma de
todas esas divisiones. Resumir todas esas
divisiones como esta. Y éste, la información
gana y te deja esto. ¿Bien? Entonces lo que va a ser, serán esos subconjunto
de todos los sub splits como este es uno
split y este es uno dividir el
mismo nodo, ¿verdad? Así que parte de este subconjunto, el peso total ponderado, ¿de acuerdo? Y luego E, F apoyo. Esto va de z igual
a uno a n soporte. Vamos de n número
de split a E F1 fn, ¿de acuerdo? Entonces E F1 soporte, hemos calculado E, F uno. Entonces, ¿cuáles serán los
cuantos subconjuntos tenemos aquí? Estamos consiguiendo dos subconjuntos. Uno es esto y otro
es este, ¿verdad? Entonces, cuál será el subconjunto de este ocho más 31111
y total es 17, 11 por 17 en E de f, dos. Y luego más tres
más 36 por 17. Total. El conteo es de 17 a E F tres. ¿Bien? Por lo que esto llegará
al E F1 -11 por 17, E F2 menos seis por 73. ¿Bien? Entonces esta fórmula, esta, esta expresión nos dará, esta expresión nos
dará algún valor. Supongamos que no estoy calculando el valor
real, puedes calcular. Entonces supongamos que este valor
estamos obteniendo 0.53. Y de manera similar, supongamos que hemos calculado también
para este árbol de decisiones. ¿Bien? ¿Qué hace esta entrada? Y aquí estamos obteniendo
la ganancia de información como viento para uno. Entonces ahora estamos consiguiendo, supongamos que esto es de nuevo
uno y esto es de nuevo para ver cómo nuestro algoritmo de
aprendizaje automático, o cómo va a decidir por
qué camino debemos ir. Deberíamos ir con esta división. Esta división basada en
la ganancia de información. Entonces aquí estamos obteniendo, nuevamente, apoyo 5.53 y aquí
estamos obteniendo 0.41 ganancia,
información ganancia uno es
mayor que la información
ganada, dos. Entonces iríamos con
el valor más alto. Cuanto mayor sea la ganancia de información, más preciso
será el árbol de decisiones. Entonces iremos con eso, vamos
con este árbol de decisiones. Entonces iremos con F1, F2 y F3. La ganancia de información
decidirá qué
árbol de decisiones o qué enfoque
debemos tomar al crear
ese árbol de decisiones. Y esto no vamos a hacer algoritmos de aprendizaje
manual o automático. O la biblioteca es que lo
van a hacer por automáticamente para nosotros, pero deberíamos estar sabiendo
cómo internamente está haciendo. Lo que cada vez que
intentas crear un árbol de decisiones para algún
problema o aprendizaje
automático, los algoritmos de aprendizaje automático
crearán estos subconjuntos,
estas placas. Y calcularán el, eso calculará
la ganancia de información. Y cualquiera que sea más la
ganancia de información, irá con esa estrategia. Entonces de esta manera, la ganancia de
información es útil para decidir qué
división o cuál un árbol de decisiones con seguimiento en
función de qué característica
debemos dividir primero. La característica uno también se
basa en la característica. Entonces ese será el mismísimo para ganancia de
información es una cosa
tan importante. Deberíamos estar conociendo las matemáticas detrás de la ganancia de información. Apoyar estos tres, sí
y tres nodos aquí, el valor de entropía de
tres será uno. ¿Por qué? Porque esto es un subconjunto totalmente
impuro, ¿verdad? Porque esto no lo es,
esto no es bueno. Porque tres S y tres notan que ambos son
números iguales, ¿verdad? Entonces esto es split impuro y para esta entropía serán 11
cosa que olvidé decirte. El valor de la entropía siempre
estará entre cero y uno. El valor de la entropía
estará siempre en 0-1. Si estás obteniendo 10, tu separación es buena. Y ahí hay que parar
la división. ¿Bien? Y si split es, tu valor
de entropía viene uno, eso significa que es una división pura
o impura. ¿Bien? Entonces para cero nos detendremos y en uno será impura dividida. ¿Bien? Entonces esa cosa
que tienes en mente.
77. Manos en el árbol de decisión en R: Hola y bienvenidos de nuevo. Entonces, en las conferencias anteriores, hemos aprendido
sobre el árbol de decisiones. También hemos visto cómo
creamos un árbol de decisiones. Y hemos visto entropía. ¿Qué es la entropía? Cómo calculamos la entropía, y cuál será
el valor de entropía. Y luego hemos visto cómo
calculamos la
ganancia de información y cómo la ganancia de
información del árbol de
decisiones
decidirá qué enfoque
debemos seguir adelante, qué enfoque debemos adoptar. Creador de libros, el mejor árbol de decisiones para nuestra declaración de problemas. Y también sabemos que
esta entrada se utiliza para árboles para problemas de
clasificación. ¿Bien? Entonces básicamente una
clasificación binaria problemas que nos ocupamos con el árbol de decisiones. Entonces en esta conferencia vamos a aprender sobre cómo
vamos a hacerlo,
básicamente vamos a escribir nuestro código
para crear un
árbol de decisiones para nuestro conjunto de datos. Así que aquí vamos a
usar un conjunto de datos incorporado
que viene con R, es
decir, habilidades de lectura. Entonces, qué está teniendo este
conjunto de datos de habilidades de lectura y qué, cómo creamos nuestro árbol de
decisiones para eso. Eso lo veremos en esta conferencia. Escribiremos el
código antes de eso. Déjame decirte algunas
aplicaciones del árbol de decisiones. Entonces árbol de decisiones, si
quieres ver en una vida real, Tú, los árboles de
decisión se están
utilizando cuando estamos
tratando de encontrar qué correo electrónico es spam, correo
electrónico, cualquiera que sea el
correo no es spam. Entonces ahí estamos tomando
disjuntos, ¿verdad? Entonces ese tipo de proyectos de
aprendizaje automático, donde estamos, tenemos que
decidir un correo electrónico, viene de una fuente, ya sea spam o no, ahí, básicamente estamos
creando un árbol de decisiones. Estamos tomando este
viaje, spam o no. Ese tipo de problema de
clasificación binaria es spam o no spam. Entonces en el
departamento de salud o sector sanitario, si ves, detecta
un cáncer de app, si puede ser un tumor, puede ser, uh, canceroso o no, que podemos decidir con la ayuda del machine learning
y usando el árbol de decisiones. Y en el
sector financiero en Europa, se
puede ver, podemos, como en los dominios de
finanzas bancarias del BFSI, tal vez lo usen para decidir si dan
o no préstamo. Y también pueden decidir
si qué tal o
qué tiene de bueno nuestro prestatario malo de agua
en función de su puntaje crediticio. Entonces, al igual que el análisis de riesgo crediticio, se
puede hacer con
el árbol de decisiones. Entonces estas son las, algunas
aplicaciones de la vida real de nuestro árbol de
decisiones y problema de aprendizaje
automático que
puedes pensar en resolver
con el árbol de decisiones. Entonces, ¿cómo resolveríamos esto? Básicamente, creamos un modelo y luego intentaremos
entrenar al modelo. Y luego con base en el modelo
entrenado intentamos proporcionar sobre los datos de la prueba y tratar de decidir
todas esas cosas. Entonces ahora, ven a este
problema, a esta conferencia. Volviendo a esta conferencia, vamos a utilizar el conjunto de datos de habilidades de
lectura y que viene con
R, El paquete R. Entonces estás diciendo,
bueno conjunto de datos y
este conjunto de datos en realidad describen
la puntuación de
alguien, la habilidad de lectura de
alguien, las habilidades de lectura de alguien. Si conocemos
las variables como la edad, puntaje de
suicidio, y si la persona es
hablante nativo o no. Entonces si tenemos esta información, es fuente me anoto y hablante
nativo un nada, podemos decidir. Podemos encontrar una puntuación de
habilidad lectora o persona negra. Entonces vamos a crear
un árbol de decisiones para esto. ¿Bien? Entonces para en nuestra programación, tenemos la función S3. Función S3 que utilizamos para
crear un árbol de decisiones. Y esto toma dos entradas. Uno es fórmula y otros lo hicieron. Entonces. C3 está tomando dos fórmulas
en la entrada y nuestros datos. Veremos en el código. Bien, entonces lo siguiente es, lo
siguiente es
escribir el código. Entonces, lo primero es que me guste
crear un árbol de decisiones. Necesitamos un paquete
llamado fiesta. Necesitamos instalar este paquete. Entonces si no has
instalado este paquete, tienes que escribir
el comando install dot packages,
installed packages. Y hay que proporcionar
el nombre del paquete. Y entonces hay
que ejecutar el código. Y esto instalará este paquete de
fiesta para nuestro uso. Por lo que he comentado esto. Si no lo has instalado, solo
lo descomentas y
lo ejecutas. Se
instalará el paquete de fiesta. Una vez instalado,
solo lo comentas para que este comando no se ejecute todas y
cada una de las veces. ¿Bien? Entonces, una vez que tenemos instalado el paquete
party, esto no es necesariamente para
crear un árbol de decisiones porque esta función S3
viene con este paquete. Necesitamos usar este paquete. Para usar un paquete en R, tenemos que usar biblioteca y luego tenemos que
proporcionar el nombre del paquete. Entonces empaquetando fiestas Mh, y por eso estamos
escribiendo fiesta de biblioteca. Entonces ahora esta fiesta de la biblioteca tendrá este conjunto de datos de habilidades de
lectura cultivado eso para que
podamos ver cuáles son las cosas que hay
con esos conjuntos de datos. Así que simplemente podemos correr esta cabeza. La habilidad de lectura de cabeza
dará los primeros. Los primeros son datos de
este conjunto de datos de habilidades de lectura. Así que vamos a ejecutar esto y ver aquí. Ahora estamos obteniendo las primeras
seis filas del conjunto de datos. Se trata de decir la edad del hablante nativo, los suicidios, y luego el puntaje. Este es el básicamente
el puntaje de lectura. Entonces ahora tenemos un
atisbo de estos datos. Podemos avanzar más y
podemos crear un árbol de decisiones. Entonces aquí usaremos punto de entrada
que para tomar la entrada. Podemos simplemente, si no
quieres poner este nombre, simplemente
puedes usar input. Entonces aquí estoy usando datos
de punto de entrada, y estoy tomando los datos
de esta escala de calificación. Y luego vamos a ir más allá. Y aquí solo estoy usando
un árbol de decisión punto PNG. Y este será
el archivo de imagen en el que tendremos impreso nuestro
árbol de decisiones. Y entonces estamos creando el
árbol aquí, el árbol de puntos de salida. Y estamos perdiendo la
función S3 aquí y aquí, estamos proporcionando la fórmula de hablante nativo
formalizado. Y esta es la, esta es la, esta es
la variable dependiente. Y con base en la edad, los suicidios y su núcleo, decidiremos si el hablante
nativo o no, ¿bien? Y los datos son, es igual
a los datos de punto de entrada. Y luego estamos trazando el, trazando el directorio de salida. Entonces voy a poner el árbol que estamos
obteniendo de esta función. Y esta es la fórmula, nativo H plus plus
score basado en estas tres variables predictoras, vamos a obtener el valor del hablante
nativo, ¿de acuerdo? Y entonces theta es igual
a los datos de punto de entrada. Y estamos tramando esto, o productividad o
lo que sea que estemos obteniendo de esta preocupación, lo
estamos tramando. Así que vamos a ejecutar esto y ver cómo estamos consiguiendo
ese árbol de decisiones. Así que mira aquí ahora tenemos nuestro archivo de árbol de
decisiones creado. Mira aquí, este es el
árbol de decisiones que estamos recibiendo. ¿Bien? Entonces no hemos decidido cómo esto,
oh, realmente, este nodo de
hoja, ¿verdad? El sistema ha decidido
automáticamente. Y T son menores o iguales a 3813 ceros
x viene aquí,
30, menos de 38.306
voltaje que viene aquí. Y entonces es igual a R7. Es menos de seis que
viene aquí mayor que c
debido a este año que viene. Entonces esto a distancia
se está imprimiendo, se están creando
con la función S3. Y aquí la
ganancia de información y todo
se hará por dy system, ¿de acuerdo? Entonces no necesitamos hacer, solo
necesitamos usar la función S3 y probablemente
la fórmula y los datos, y creará el árbol de
decisiones para nosotros. ¿Bien? Es así de simple. Pero por qué hemos discutido la teoría en la conferencia
anterior, porque deberíamos estar conociendo el detrás de escena lo que está
sucediendo con esta función S3. Y deberíamos estar
atentos, ¿de acuerdo? Entonces solo tú podrás tener éxito en el campo del aprendizaje automático
y la ciencia de datos. Tienes que conocer las intuiciones
matemáticas detrás del árbol de decisiones o cualquier algoritmo
que estés aprendiendo. ¿Bien? Cualquiera puede venir aquí y usar esta función S3
y crear un árbol de decisiones. Pero puede que no estén conscientes de cómo se
está construyendo el árbol de decisiones. ¿Qué es la entropía, qué
es la ganancia de información? Y bien,
por eso deberías estar conociendo las intuiciones reales detrás del
algoritmo de aprendizaje automático. ¿Bien? Entonces, con este árbol de decisiones, ¿qué conclusión estamos obteniendo? Estamos llegando a la conclusión que como cualquiera que esté
leyendo la escala es de 38.3, menos de 38.3, y la
edad es más de seis, no
es un hablante nativo, ¿verdad? Entonces con esto, estamos
consiguiendo lago. Si la edad es menor a, puntuación de
lectura es menor a
38.3 y la edad es mayor a seis, entonces la persona
no es hablante nativo. Entonces así es como podemos crear
el árbol de decisiones en R.
78. Ventajas y desventajas de la árbol de decisiones: En esta conferencia,
vamos a aprender sobre las ventajas y desventajas
del árbol de decisiones. Entonces primero veremos ventajas, y luego veremos estas
ventajas de los árboles de decisión. ¿Bien? Entonces, la mitad del árbol de
decisiones de estimaciones, ¿de acuerdo? Entonces esto no es realmente, como hemos aprendido, es un algoritmo de
aprendizaje automático muy popular. Y resolver claramente problemas
de aprendizaje automático
transformando los datos en un trato una presentación como esta. ¿Bien? Trata así una
presentación. Y cada nodo interno
del árbol así. Y presentan nuestro
denota un atributo y cada nodo hoja denota
el nivel de clase. Y el algoritmo de árbol de decisiones se
puede utilizar para resolver problemas de
clasificación y problemas de
regresión también. Entonces no es como cuando se filtró
problema de clasificación se puede resolver con el árbol de decisiones. Pero también podemos resolver los problemas de
regulación. ¿Bien? Así que esto ha
sido d t, ¿de acuerdo? Por lo que esta entrada puede
ser utilizada tanto para problemas de
degradación como de
clasificación. Entonces déjame decirte cuáles son
las pocas ventajas
del árbol de decisiones. Entonces, la primera ventaja del árbol de decisiones es
que requiere menos permitirse en él requiere menos importante operador de
preprocesamiento. Vamos a separarnos en el preprocesamiento
de los datos, ¿de acuerdo? Entonces, para el árbol de decisiones o en comparación con otros
algoritmos de aprendizaje automático, necesita trabajar un poco menos en el preprocesamiento de
los datos o la preparación de datos. Se puede decir, me gustaría
una pre preparación, o también se puede poner aquí
como preparación de datos. Entonces hay que poner
menos esfuerzo en preparación de
datos y el
preprocesamiento de datos, ¿de acuerdo? Entonces esa es una gran ventaja
del aprendizaje automático. Nuestro producto. La segunda ventaja sería como que un árbol de decisiones
no requiere escalamiento. No es necesario escalar los datos. El escalado de los datos
no es realmente necesario. ¿Bien? Entonces esto tampoco se requiere y esa es una gran
ventaja, ¿de acuerdo? Y luego la tercera ventaja, podemos decir que
esto generalmente
no requiere
normalización de Beta. Entonces, aunque no estés
normalizado los datos, puedes trabajar con
el árbol de decisiones. Normalización de greta. Se arriba, no se requiere. ¿Bien? Entonces esto también
es algo bueno en el aprendizaje
automático y
veremos ese árbol de decisiones. Entonces en el aprendizaje automático, los siglos y el algoritmo
donde la normal adyacente y Gil enlazan los datos no
es realmente necesario. Si quieres, puedes hacerlo, pero no realmente requerido. No va a tener gran impacto si los
datos están normalizados o no. Si estamos trabajando
con árbol de decisiones. La siguiente ventaja podría estar
faltando valores en los datos
tampoco tienen gran impacto
en el árbol de decisiones. ¿Bien? Entonces, como si usas otros
algoritmos de aprendizaje automático, tienes que trabajar extensamente para lidiar
con el valor faltante. Pero en el árbol de decisiones, esto no va a tener, no va a faltar
valor no
tendrá impacto en el árbol de decisiones. Sin impacto, bien, Así que no
va a impactar mucho. Entonces aunque falten
datos ahí, puedes seguir adelante y crear un árbol de decisiones
que no va a ir, no
vas a faltar
en nada que vaya a afectar tu decisión o
impactar tus predicciones. ¿Bien? El siguiente modelo de árbol de
decisiones de ventajas es muy intuitivo y fácil de explicar
a los equipos técnicos
ágiles a báscula titular. Entonces cuando ves
el árbol de decisiones, es muy fácil
llevarte a entender. Es muy fácil de
entender y cualquier parte no técnica o
técnica puede entender fácilmente. Entonces esta es la gran ventaja
de un árbol de decisiones. Entonces, aunque quieras presentar
tu árbol de decisiones a algún Um, tipo de gestión, puedes hacer que entiendan
fácilmente
el árbol de decisiones. Entonces esa es una ventaja
de un árbol de decisiones. Aparte de ese árbol de decisiones. O como intuiciones muy
humanas que obtienes con el árbol Get
with the decision. Entonces es muy, muy similar
al comportamiento humano. Nosotros también en nuestra vida cotidiana, tomamos el sí o no
disjuntos similares, en
base a algunas características o
condición tomamos decisiones. Entonces es muy parecido a lo humano. Seré feliz con un algoritmo
similar al humano. Bien, entonces estas son las
pocas ventajas con las que podemos contar para el aprendizaje
automático. Ahora veamos las desventajas del árbol
de decisiones. Entonces, la primera desventaja
del árbol de decisiones que
podemos ver es que es muy, no, esa parte es confiable
si tus datos están cambiando. ¿Bien? Entonces qué podemos decir, como si fuera un instable,
como en estable. Y si los datos están cambiando, si los datos cambian. Entonces apoyarte, has tomado un árbol de decisiones y
hay un pequeño cambio en los datos. Un pequeño cambio en los datos puede, puede tener un gran impacto, gran impacto en el árbol de decisiones. Entonces esa es una gran desventaja
del árbol de decisiones. Incluso los pequeños
datos de entrenamiento pueden causar gran cantidad de cambios en
la estructura de los mismos. Árbol de decisiones apoyar esta
decisión se ve así. Si cambias un poco los
datos, puede haber sido estructura
completamente diferente
del árbol de decisiones y
eso va a,
eso, ese es un tipo
de gran impacto, ¿verdad? La segunda desventaja
es que el árbol de decisiones a veces va por más complejo en comparación con
el otro algoritmo. Entonces, a veces para
los datos más simples, su árbol de decisiones
será un complejo. Entonces a veces obtenemos un árbol de decisiones muy
complejo. Y si usas algún
otro algoritmo, es posible que obtengas la solución
más simple. Entonces hay que ver si su, para nuestra declaración de
problemas en particular, realmente
necesita un árbol de
decisiones o no. Y si estás usando el árbol de
decisiones, es más sencillo que el
otro algoritmo o no. Si no es más sencillo que el otro algoritmo
en el aprendizaje automático, debes ir con el otro
algoritmo de aprendizaje automático y no
tienes que seguir adelante
con el árbol de decisiones. Así que a veces se
vuelve realmente complejo. Lo del cuello es como entrenar un modelo
de aprendizaje automático con árbol de decisiones
es enorme, ¿verdad? Así que lleva tiempo, quédate tiempo para entrenar nuestro modelo de aprendizaje automático
usando árboles de decisión. Entonces es tiempo tomando. Proceso es tomar mucho tiempo
para el árbol de decisiones de entrenamiento. El tiempo que lleva a
distancia es más. Entonces es el tiempo caro, ¿verdad? Tomará más tiempo
en comparación con otros algoritmos. Y también es como una complejidad también está aumentando
en el árbol de decisiones. Otra cosa podemos decir esa lección o no
realmente muy impactante. Así es, si se usa un árbol de decisiones para problema de
clasificación, problema de clasificación, es bueno. Pero para los árboles de regresión, no
es tan impactante, ¿verdad? Como entendí, pero se
puede hacer para ambos. Pero los árboles de regresión no
son ese impacto. Entonces estas son las pocas
desventajas de los árboles de decisión con los
que podemos contar. Entonces eso es todo para esta conferencia. Estas son las ventajas y desventajas de
los árboles de decisión.
79. Introducción del proyecto: Hola y bienvenidos. Entonces en esta conferencia, vamos a aprender sobre el proyecto al que
vamos, a partir. Entonces vamos a hacer
son muy importantes. Es un
proyecto simple de aprendizaje automático que te dará claridad de lo que puede hacer el algoritmo
simple de aprendizaje automático. En pocas líneas. Vamos a usar
nuestra programación y vamos a
usar nuestro conjunto de datos, que contendrá los
datos anteriores hasta la organización. Y con base en los datos, vamos a predecir
los precios futuros de las acciones. Sí, lo adivinaste ¿verdad? Vamos a hacer
un proyecto donde hicieron sobre los datos anteriores, StockData previos
de datos históricos de precios
de las acciones. Vamos a adivinar los futuros
precios
de las acciones como a partir de ahora. ¿Cuál será el
precio de las acciones en 100, 500 días, o después de un año o dos
años, después de 30 días, después de 40 días, cuál
será el precio de las acciones? Entonces esta será la predicción
bursátil. Project, él
aprendizaje automático, ¿de acuerdo? Y vamos a usar
nuestra programación para eso. Tan simple archivo XML
contendrá el precio de las acciones. Y para ello vamos a utilizar
los datos del precio de las acciones de Google para Google. Y vamos a romper los
precios de Google en los 400 días o 100, los días son días, ¿de acuerdo? Así que el precio de las acciones para X y
proyecto vamos a hacer. Y para eso, tenemos este conjunto de
datos en formato Excel, que está conteniendo
los datos históricos precios
de las acciones de Google 2019-2020. Bien. Y ¿ves cuáles
son las columnas aquí? La primera columna es fecha, luego a partir del
26, 19 de septiembre. Y tenemos datos hasta el
25 de septiembre de 2020, casi un año de
datos tenemos, bien, Y luego la segunda columna es D, y luego la tercera
columna está abierta. Esto significa el precio de apertura. Cuando el mercado de valores abre por
la mañana, ¿cuál era el precio? Entonces este es el
precio de apertura el día seis, septum auto toggle 19, que es el primer día. Qué hace y entonces
ese día fue 1,245, que es el más alto en un día. Y bajo deseaba que fuera a mil 232. Por lo que en un día
partió de 1,241.95. Pasó a la ley de
mil 232 y se elevó hasta mil 245 y
cerró en mil 241. Entonces estos cuatro son
detalle lo muy importante y ajustado cerrar
es casi lo mismo. Y luego el volumen,
como 15 lakh, 30,000 volumen estaba ahí. Entonces así, tenemos todos
los datos para 365 días. Entonces, con base en estos datos, vamos a predecir los futuros
precios de las acciones subiendo el Google. Si trazas estos
datos en una gráfica, podemos ver cómo
se mueven los precios hacia arriba y hacia abajo. Así que puedes ver aquí. Así que vamos a trazar
este tipo de parcelas también y ver cómo los precios van
subiendo y bajando. Dys, ¿bien? Entonces este es el
proyecto que vamos a hacer. Y veamos, en la
próxima conferencia comenzaremos a importar este
archivo Excel a nuestro estudio de arte y luego escribiremos
código simple e intentaremos predecir el precio futuro de las acciones subiendo las acciones de Google dentro de
la siguiente conferencia.
80. Proyecto - predecir los precios de las acciones: Hola y bienvenidos de nuevo. En esta conferencia, vamos a comenzar con nuestro proyecto que está prediciendo el
valor del precio de las acciones de Google en un día en particular basado en los datos históricos
que tenemos con. Entonces tenemos esta hoja de Excel, que está teniendo aunque pasado
un año datos como el 26, número 20192, hasta, creo septiembre 2020. Sí. Así que hasta el 25 de
septiembre 20 países. Así que tenemos casi
un año de datos del precio de las acciones de Google está con
nosotros todos los 365 días precio abierto. ¿Cuál fue el alto valor de las
acciones en un día en particular? Valor más bajo. ¿Cuál era el valor de cierre y cuál era el volumen? Entonces todos estos datos que tenemos, en
base a estos datos, intentaremos crear un
modelo donde podamos predecir el valor de las acciones en una fecha
determinada, ¿de acuerdo? Supongamos dentro de tres días, o 500, 500 días, ¿cuál será la frase común? Yo diría que 100 días. ¿Cuál será la fase de trazo? Así que así. Bien, así que comencemos el código. Lo primero
es lo que podemos hacer. Podemos importar el punto XLS del precio de las
acciones de Google, el archivo Excel a nuestro estudio. Y cómo podemos hacerlo, podemos ir al expediente. Y aquí tenemos que ir
al conjunto de datos de importación. Entonces tenemos que ir al conjunto
de datos de importación. Y aquí se puede ver de impuestos, de los tres NADH
del Excel, de diversas fuentes de datos se
ha enumerado aquí. Entonces, lo que necesitamos seleccionar aquí, tenemos que seleccionar
ese Excel aquí. Desde Excel, solo
necesitamos hacer clic. Y luego aquí necesitamos
navegar por el archivo donde
hemos guardado nuestros datos. Entonces tenemos este archivo Excel. Así que solo lo abriré y recortaré los datos
digitales. Y una vez hecho, nos dará
la opción de importación. Entonces esta es una forma de importar el archivo de datos
al estudio más duro. Esa es otra forma. Y eso también
veremos y veremos aquí ahora podemos ver la
vista previa del código de esta importación. Viene como biblioteca. No necesito Excel y precio de las acciones de
Google
será el objeto. Y aquí usaremos la función Leer Excel y proporcionaremos el bot al
archivo Excel con el nombre de archivo. Y entonces podemos usar
la vista, este objeto. ¿Bien? Y esto será para que simplemente
podamos copiar este código. Y no sé por qué
está tomando tanto tiempo. Podría haber alguna resonancia magnética, así que déjame cancelar esto e importar. Ver. Ahora, los datos han sido
importados a nuestra mano de estudio. Sí, podemos ver los mismos datos que estamos
viendo en este archivo de Excel. Ahora, podemos ver dentro de
este estudio de arte. Bien, entonces ahora tenemos el, ahora, si queremos ver
estos datos aquí, ver sin embargo no hay Claudia. Pero como hemos importado, podemos usar la vista real. Y aquí podemos usar el nombre de
objeto sólido tu mano. Podemos correr aquí y ver
que va a venir lo mismo. Incluso si quieres usar
resumen de los datos. Alguien podemos ejecutar esto y vamos a conseguir a alguien
arriba de este conjunto de datos aquí. Media, primer cuartil,
mediana media, tercer cuartil
valor máximo sobre la cantidad de
septiembre de 2020 Y fue
1,710, el máximo es 1,733. Ese será el más alto. Y este es el máximo
de apertura máxima. Y este es el
máximo más alto ni máximo local
y máximo de cierre. ¿Bien? Así que de esta manera podemos
ver el resumen de datos, ¿de acuerdo? Ahora, en lugar de usar esto, también
podemos usar el
podemos usar la biblioteca. Podemos usar la biblioteca de códigos. No sé por qué viene. Si no conoces el código, simplemente
puedes ir al Dataset
de Importación de Archivos
y desde Excel. Y aquí puedes
ver el código aquí. Sólo tienes que copiar esto y sólo
tenemos que pegarlo aquí. Y sin embargo hay que
poner el Excel Read, y aún así tenemos que
poner el nombre del bot. Bien, ¿cuál será la parte
aquí que vamos a poner? Sólo puede poner esto. Así que estamos reordenando la
biblioteca Read excel, y luego estamos usando el
nombre del objeto en lugar de usar la función Excel y
proporcionar el archivo XL de la parte mala. Y entonces podremos usar el precio real de las acciones de Morgan y nos dará
el mismo resultado. Esto y mira, sí, estamos
recibiendo lo mismo. ¿Bien? Entonces de esta manera
hemos leído y visto los datos en nuestro siguiente paso es que necesitamos entender la
estructura de los datos. Entonces, si quieres entender
la estructura de los datos, puedes usar la función de
resumen, resumen de este precio de acciones de
Google. Y obtendrás el resumen de los datos como ya
hemos visto. De esta manera. Lo siguiente
es lo que tenemos que hacer. Necesitamos visualizar los datos. Entonces lo siguiente es
lo que tenemos que hacer. Necesitamos visualizar los
datos, visualizar los datos. Entonces para esto, lo
que voy a usar, los
voy a usar mucho. Entonces qué voy a hacer, no
sé por qué esto
viene una trama enorme. Y usaré esa
columna abierta y usaré d y luego
los datos estarán bien. Y luego solo ejecuta esto. El horno, ejecutamos esto, veremos los datos. En tu lección. Veremos la trama aquí. Entonces aquí ese es el precio de
apertura y este es el día 1-2, morado. Esto, podemos ver los datos, cómo
están enviando sus precios de acciones el fin de semana. Usted visualiza aquí. Así que de esta manera podemos llegar más tarde, más tarde. Lo siguiente es lo
que tenemos que hacer. Necesitamos usar la
regresión lineal para predecir la función. Entonces, ¿qué va a utilizar? Voy a usar el precio predicho. Y para el precio predicho, lo que voy a usar una celda hilum Fung y esta función lm lo hará, voy a usar en la misma
entrada voy a dar jornada de puertas abiertas. Y se hizo en este conjunto de datos, bien, archivo Excel datos
ALU, conjunto de datos. Y luego sólo voy
a llevar al precio predicho. Así que sólo voy a poner en
el precio más alto aquí. Entonces déjame dirigir esto. Ver aquí está diciendo el núcleo
presente y esto. Bien, entonces ahora lo que voy a hacer, voy a usar la función de resumen para ver qué estamos obteniendo
por este precio predicho. Hasta el momento, este
precio predictivo, mínimo, primer cuartil, mediana,
tercer cuartil, todas estas cosas que estamos obteniendo. Ahora, lo que voy a hacer, voy a predecir la puerta. Valor bursátil predictor en un día determinado. ¿Bien? Para que podamos hacer eso. Puedo usar la función predict. Y puedo usar el precio. Sí. Y entonces lo que pueda usar, puedo usar data dot frame. Aquí. Puedo proporcionar d
es igual a 350, ¿de acuerdo? Y esto nos dará,
esto nos dará el precio de las
acciones previsto el tercer día. Entonces déjame correr esto, mira aquí. Sobre la tasa de mortalidad por
periodo, será, el precio de las acciones
será de mil 620 puntos para ello. Si puedo esto por 50. Por lo tanto, el precio de las acciones se separará. El precio de las acciones será de 1,700. Beneficiario, si pongo 150
, serán mil 400. Si pongo uno, leerá 12, 30 mil. Ver, el precio de las acciones de Google casi
se duplicará
desde el primer día. Entonces de esta manera podemos poner el valor
d aquí y podemos predecir cuál será el precio de las acciones en
ese día en particular. Entonces es un proyecto bastante sencillo
que también puedes probar. Se puede predecir el soporte. Quiero predecir el valor
en uno, por favor. Segundo día. Un propósito en segundo lugar, de
esta manera, bien, Así que de esta manera también puedes
probar en tu propio conjunto de datos o puedes usar el mismo
conjunto de datos que puedo proporcionar. Puedes descargar el
conjunto de datos y puedes probar y puedes predecir
el precio de las acciones. También puedes hacer
una hoja de Excel propia y poner
algunos valores aleatorios. Y puedes poner tus propios valores
aquí y puedes predecir, puedes tomar cualquier otro
conjunto de datos que esté teniendo el o algunos otros valores
que también puedes probar y puedes poner en el
mismo código y
puedes intentar predecir el valor. ¿Bien? Entonces este es
un proyecto simple utiliza la función lm para predecir
este precio de las acciones de Google. Espero que hayan entendido cómo
usamos el aprendizaje automático y todas estas funciones simples en R para predecir
los precios de las acciones. Gracias.
81. Análisis de datos de Uber con R: Hola y bienvenidos. Entonces en esta conferencia, vamos a aprender
sobre el análisis de datos a través de visualizaciones
en R. Y para ello, vamos a hacer
un proyecto en el que vamos a usar donde los datos, cuál es el gap agregator, proveedor de
servicios para conseguir el derecho en una app de evocación de cab
x. Se puede ver. Entonces usted
o el número uno en la pared para un proveedor de
servicios de taxi. Entonces vamos a
utilizar los datos de UPA
para el análisis
de datos de este producto. Entonces, la motivación
de este proyecto es realizar la visualización de
datos, la narración y cómo podemos usar los datos para analizarlos y obtener información
útil de ellos. Este es un componente importante del
aprendizaje automático a través cual las empresas son capaces comprender los antecedentes
de diversas operaciones. ¿Qué significa? Significa
que supongamos lo que se hace en el servicio de agregador de brecha
y los conductores de mini taxi están adjuntando su brecha
dos aplicaciones Over distintas. Luego hago streaming y la aceptación en brindar el derecho
al cliente. Tan enorme que está
registrándose en la aplicación y luego está tratando de gran brecha en
función de su ubicación. Entonces,
¿qué haces
en cuanto inicias sesión y seleccionas tu ubicación y tu destino a
donde quieres ir Basado en tu localidad. Enumerará todas las gorras
cercanas que pueden estas para ti en
el tiempo más rápido. Lo hará. Lo hará. Lo hará. Almacenará todas
las brechas cerca de ti y luego será la ubicación de género
y tu requerimiento, se verá mejor para ti, lo que te puede llevar
al destino por el momento más rápido. Entonces, ¿cómo lo hace? Simplemente eres un montón de concepto de inteligencia artificial, aprendizaje
automático y ciencia de
datos para analizar los datos y
darle a esto una recesión. Entonces en este proyecto
vamos a utilizar los datos. Y vamos a
analizar como cuántas están sucediendo en un día o muchas tarifas mensuales
están sucediendo en un día. Cuantos de su LEA
que empiezo
a pasar vidas mensuales y DY es a qué
hora del día el VGS, ese tipo de análisis
vamos a hacer en este proyecto. Entonces todo este tipo
de operaciones las
podemos hacer con el **** papa, hacer con la ayuda del
machine learning. Con la ayuda de visualizar y las empresas pueden aprovechar el beneficio de comprender los datos
complejos y obtener información que
les ayudará a cosechar esto no lo es. Entonces La parte de visualizar es muy importante porque con
la vigilancia y podemos analizar
rápidamente los datos y obtener insights
realmente útiles como ¿a qué hora del día es el BGN? Qué localidades tienen
menos requerimiento de la cabina donde los usuarios no están recibiendo tiempo de
cabina cuando está rezagado. Todos esos análisis los podemos
hacer con la visualización. Esto es más bien un dato visualizado en un proyecto
que lo guiará hacia el uso de la biblioteca
ggplot2 para comprender los datos y para desarrollar
una intuición para comprender
a los clientes que están en los clips en qué aplicación. Bien, entonces esta es la, esto es lo
que vamos a hacer. Y el objetivo de este
proyecto es aprender visualizaciones en R
y analizar los datos. Así que comencemos. Entonces antes de continuar, tenemos los datos
o archivos UVA con nosotros. Y estos son como
esto es este es el dato para mes afebril. Y esto es tener cuatro columnas, fecha, hora,
latitud, longitud, y con base. Entonces esta es la información
que captan tus amigos. Bien, entonces fecha y hora, longitud, latitud
y longitud. Y latitud
dará la ubicación de la brecha y la hora o a qué hora están
reservando y la base desde donde la mejor
ubicación para eso. ¿Bien? Entonces estos son los datos que tenemos. Y así es de la misma manera. Tenemos un mes de mayo, junio, julio, agosto y septiembre, los datos del mes que tenemos. Y vamos a analizar
esto con base en estos datos. Estos datos son bastante simples. Fecha y hora,
latitud, longitud Y así vamos al archivo. Sin embargo, estoy usando R para
analizar esto. Entonces antes de continuar, vamos a
importar biblioteca de frutas, es
decir GG parcela dos. Bien, luego lubricar
y ordenar las habilidades DT. Entonces, ¿qué es GG plot
to GG plot twist? La biblioteca de
visualización de datos más popular que es más utilizada para crear gráficas de regulación
estética. Así que la trama GG es muy popular en nuestra programación
por crear muy estéticamente
guapa y muy desconcertante y muy
atractiva visualizar y guantes y tramas. Entonces vamos a
usar la trama GG dos. Entonces estaremos usando Lubridate. Es este apalancamiento
para el marco de tiempo. Usar los marcos de tiempo
en el conjunto de datos. Entonces tenemos la capa profunda es la biblioteca de manipulación de datos
que vamos a usar. Dres e importante biblioteca, hará que tus
datos sean muy ordenados. ¿Nuestros datos ordenados significan pequeños, determina los datos con los que es
fácil trabajar? Los datos. Si es fácil trabajar con él, podemos usarlo en la otra
biblioteca así de fácil. Entonces usaremos la
biblioteca ordenada R para ordenar nuestros datos. Y luego usaremos el meollo, las tablas de datos en la
biblioteca JavaScript que vamos a usar. Entonces realmente alcanzando
habilidades, habilidades. Estas bibliotecas solían, con la ayuda de lo gráfico, con la ayuda de la escala
gráfica, podemos
mapear automáticamente los datos a las habilidades correctas
con el ****, con la x bien colocada. Por lo que esto nos ayudará en que mapee
automáticamente los datos
a la escala correcta. Entonces para esto, necesitamos
usar esta biblioteca. Entonces antes de eso, si
no has instalado estas bibliotecas, puedes ir a las Herramientas aquí y luego dar click en
los paquetes de instalación. Y aquí puedes simplemente paquetes
populares llamados yuk, como puedes poner GG plot dos. Y entonces si
quieres todos juntos, puedes poner temas GG
y puedes poner coma y escribir todos los
nombres, fechas luminarias. ¿Bien? Entonces así, puedes hacer, y puedes dar click en la instalación esta biblioteca, esto para ti. Entonces así, puedes
instalar los paquetes. Entonces lo repetiré otra vez. Necesitas ir en RStudio
para ir al menú superior. Aquí encontrarás las herramientas. Da click en las herramientas, y aquí verás
las distintas opciones. En Rodopsina. Hay que seleccionar
el primero,
instalar paquetes, y
luego hay que darle el nombre del paquete GG plot dos. Y si queremos instalar
varios paquetes al momento, y luego puedes
poner coma y dar los nombres de
los paquetes
poniendo una coma entre ellos
y luego dar clic en el stock. Ya tengo
instalado este paquete es así que lo dejaré para que se agite. Y si no lo has instalado, solo
tienes que hacer clic en el Instalar y se instalará
en Australia rural. Entonces, procedamos más allá. Entonces, una vez que nuestro laboratorio
los use y los use, nosotros solo tenemos que decirle a
los más difíciles de hacer eso. Vamos a agotar
estas librerías GG plot rho, g times lubridate, ordenado, verso
ordenado, DT y escamas. Entonces para eso necesitamos
importar la biblioteca. Y luego en el pequeño corchete, necesitamos poner el nombre de la
biblioteca GG parcela dos. Y todas las bibliotecas
que somos enormes, necesitamos escribir de esta manera. Bien, así que una vez
que hayas escrito esto, selecciona todas estas bibliotecas
y da click en Ejecutar. Y estará listo para
los judíos en los terrenos de Europa. Ahora lo siguiente,
lo que haremos, crearemos los vectores de color,
vectores de colores para las parcelas. En nuestras parcelas, usaremos los múltiples colores
para las parcelas. En nuestras parcelas, usaremos los
múltiples colores para hacerlo más atractivo y
estéticamente atractivo. Y para eso, crearemos
el vector de colores. Entonces aquí estoy creando un vector de
colores y estoy dando C, y luego le estoy dando
el nombre del color, el ACCC 10166 igual tipo. Entonces todos estos grises Verde, amarillo, azul, rosa, todos los
estudiosos vamos a ser utilizados. Entonces estos vectores
crearán y ejecutarán esto. ¿Bien? Y luego lo que haremos, lo
siguiente es que
leeremos los datos de cada cronograma y
comeremos. Lo que vamos a hacer. Tenemos el archivo de datos de cada
mes como tasado mayo, junio, julio y agosto. Así que vamos a hacer esto
usando un punto de lectura csv. Sabes que para
leer un archivo CSV en R, leemos la función del método dot csv, así que el punto CSV. Y luego aquí vamos a dar
la ruta para nuestro archivo de datos. Entonces tenemos
archivo de datos almacenado en esta parte, así que vamos a dar eso y el nombre del
archivo estará al final. Bien, entonces ahora vamos a tratar todos
estos datos mensuales. Bien. Simplemente haga clic en eso y vea. Se está
leyendo con éxito para agosto, septiembre, y nos vemos corriendo. Entonces ahora está hecho. Y lo siguiente es lo que haremos. Combinaremos los datos juntos. Ahora hemos leído los datos
y los hemos almacenado
en estas variables. Media junio, julio,
agosto, septiembre. Ahora lo que haremos, usaremos el método onBind para
unir los datos. Entonces ahora todos estos seis
meses saliendo con uno. Bien, entonces usaremos
los datos aquí. Método de enlace impar, y solo
pasaremos estos objetos mayo, junio ,
julio, y se
concatenarán juntos. Bien, así que vamos a ejecutar esto. Entonces ahora tenemos el sentido de
diamante
del lago de datos para columnas
y los muchos roles. Bien, entonces ahora queremos
ver cómo se ven
los datos combinados. Entonces usaremos la cabeza y proporcionaremos los datos del
objeto aquí. Por lo que imprimirá las primeras
cinco columnas de los datos. Bien, ven mi mayor, ahora, tenemos estos datos para el
tiempo, latitud, longitud. Y lo siguiente es, usaremos estos datos
contiene columnas fecha hora con estos
datos contiene columnas, fecha y hora, que es un factor, y longitud,
latitud, que son dobles, y básicamente factores. Entonces formatearemos el
datetime en ellos formato
legible usando datetime,
converger y funciones. Así que aquí estamos dentro la función de
foxing convergente datetime aquí para convertir esta datetime
en una más legible. Entonces para esto usaremos datos y
datos fecha, fecha, hora, y luego recargaremos como CD oscuro, formato de
hora, año, mes fecha, año, y horas,
minutos y segundos. Bien. Y entonces
cuando lees este formato es éste y
Ley de Reforma en el hospitalista. Excelente. Bien, y luego
combinaremos esto. Bien, vamos a correr. Esto. La secuencia de comandos sigue ejecutándose. Cuando esto desaparezca,
puedes pasar al siguiente. Sólo ejecuta esto. Entonces se está ejecutando. Lo siguiente que haremos, crearemos columnas individuales
por mes, día y año. Y para eso obtendremos datos día, mes, año y media semana. Y vamos a usar el
factor aquí vectoralmente. Y sin embargo, realmente tómate el tiempo. De hecho, nuestro nivel de
tiempo de entrega mensual
y factor de
tiempo entre semana en los datos. Bien. Bien. Y vamos a
ejecutar esto también. Entonces ahora se está ejecutando. Sí. Entonces, lo que haremos, crearemos las
columnas neutrales un mes. Lo siguiente, lo que haremos, agregaremos variables de tiempo también. Por lo que medio tiempo son capaces de
hacer INR de segundo minuto. Y aquí, el factor
material que segundo Aspen un segundo y pedirles
el segundo vector de ruido. Segundo vector mina puede
tomar la ventana RN. Esto también va a correr esto. Entonces se está ejecutando. Lo siguiente cuando esté hecho, veremos los datos. Datos. Usaremos el método para ver los datos
como se ven. Entonces corramos esto y veamos ahora tenemos la tierra diurna,
latitud y longitud. Estas son las cuatro columnas que
ya están ahí. Lo hace. Ahora hemos creado
nuevas columnas como hora, día, mes, año, día de
la semana, segundo minuto. Y así estas son las
columnas 123-45-6788, nuevas columnas que hemos creado. Y estas columnas le darán
más perspicacia al auditor. Piensa que lo hará,
dirá como Dios, solamente, que ahora sabemos qué día
del mes, qué mes, y cuál tuvo
un Richie Rich de, día de la semana también
llegará a conocer. Y luego segundo creado. Ahora. Ahora hemos terminado con la Nita caminando sobre los datos
y creando características, nuevas características, nuevas columnas aquí. Entonces lo siguiente es,
pasaremos
al visualizador de datos
y parte
creamos aleatoriamente las gráficas y las gráficas e
intentaremos utilizar más. Aquí. Lo que haremos lo primero, lo primero que haremos es trazar
los goteos por RT y RD. Para eso, lo que haremos, usaremos
los datos de subrayado son valiosos y lo que haremos
los datos agrupados por R y usaremos la
capa profunda para resumirlo. Y cuando ejecutemos esto, ahora, ahora mira esto. Ahora mira esto. Ahora estamos obteniendo estos datos
cero o uno o dos o 3 h. estamos obteniendo tabla de datos
que hemos comido ¿puedes seleccionar cuántos árboles
quieres ver a la vez. Bien. Lo siguiente son los datos fuente en
la tabla de ayer. Pero ahora lo que haremos, trazaremos los datos por nuestra gráfica
GG y la gráfica GD aquí. Los únicos datos que
hemos creado aquí. Y como nuestro li. Y luego usaremos identidades de barras
geométricas. Aún así, sigue sintiéndose con este azul verde azulado y el
color se extenderá. Después titulado tipos de revisión por
r y subtítulo agregado. Y la leyenda posiciona ninguna trama, título del texto y cómo 4.5 y 0.5 y una
habilidad como continua. Bien, entonces ahora vamos a trazar los
datos por nuestro sol esta C, y ahora estamos consiguiendo
la trama por nuestros viajes. Cada RM aquí subtítulo es productos
agregados hoy en día. Así se puede ver las tres o 24 h estamos consiguiendo que viajes cada auditoría
este juguete que he empezado, fueron estas muchas cintas. El segundo tercio, oscuro
u oscuro así. Ellos nadan club por 24 h
y se hacen con esto, podemos ver que los 17 están en ellos o tenerlos
más número de viajes. Entonces el pico son cargos si
quieren aplicar el medio aplicando desde Filipinas
están formando nuestro producto. Medianoche el segundo
o por litro. Entonces estas, estas,
estas muchas cosas, estas cosas, estos tiempos
son muy VCR y aquí, cuando veas en
el horario de la tarde, The Office y termina, van a aplicar que
van a aplicar van a cobrar los cargos más grandes y
van a aumentar la cabina. Entonces así es como lo hacen. Por esto encontraremos, llegar a los Rs están listos
VD y en base a eso, nos meteremos en el arroz. Entonces así es como Uber hace eso. Ahora, haz los
consejos de trazado por r y mes y agregar nuestros datos y realmente usar el
grupo por función aquí, mes son los declarados
para resumirlo. Entonces prueba esto Entonces haremos la trama de
GG para tramarlo. Entonces C y ahora estamos
consiguiendo la trama aquí, que está deprimida por n meses. Entonces mira aquí,
éste, este color, esto es de verdad, esto es para mí. Este es el Módulo en julio,
agosto y septiembre. Pero nuestro cada mes
lo destruyeron. Entonces, qué mes está teniendo más o menos el pKa
es similar en todos los meses. Más o menos, no exactamente, pero más o menos se
puede analizar. Entonces al parecer septiembre también, hombre
musulmán aquí arriba, jabón de
Castilla y
agua cada mes. El vaso de precipitados
queda síntesis. Es más o menos de la misma manera que va adelante cada mes. Entonces lo que resumió
a algunos chicos como grupo por mes y se puede
anular esta quiebra. Entonces ahora lo que haremos trazando, voy a trazar datos por viajes
durante todos los días del mes. Por lo que para la dieta se utilizarán los datos como un valioso
y grupo por día. Y usamos el Deepak
para resumir startups. Ejecuta esto y luego esa trama
fácil para trazar esto. Entonces esto va a refresco y
papas fritas por lo óptimo. Entonces ahora cuando veas
esto, te dará suficiente
cantidad de viajes por día. Hay muchos tipos
segundo día así,
así que muertes por día del mes. Podemos hacer así. Lo siguiente, lo
que haremos es recopilar datos por día de la
semana y meses. Entonces aquí usaremos el grupo
por día de la semana y mes. Y realmente la capa profunda para
resumirlos, tema de sangre. Así que a menudo ejecutar esto. Y después de eso. La trama DD tomó
profundidades de lote por día y mes. Entonces, cuando hagamos esto, obtendremos regalos
por día y mes. Y tenía que estar contento con una combinación de colores que
tenemos en ella y al
principio aquí, bien. Ahora, con esto, lo que podamos conseguir, lo
podemos conseguir para días de la semana así.
Para los días de la semana. Domingo, lunes. Por cada mes. ¿Cuántas vidas
hay el domingo? ¿Cuántos días
hay? ¿El lunes? ¿Cuántos días faltan para el
día? ¿Cuántos días? Miércoles, jueves,
viernes a cada día de la semana te dará el número de derechos,
pero todos los meses. Entonces con esto, podemos
analizarlo rápidamente para el domingo. Apple tiene el menor
número de peleas y este mes les fijó ¿cuál es la
que más cantidad
de paseos está teniendo el domingo? El martes de septiembre, divirtiéndose
más, más montantes. Entonces así, podemos encontrar rápidamente
el día más popular
del mes. Ahora vamos a hacer una serie de
viajes realizados al mes,
al mes, del oído interno. Entonces para eso
usaremos grupo por mes. No lo hicimos mes a
mes en un año. Entonces para eso
usaremos grupo por mes. Y luego trazaremos
usando la trama GG. Ejecuta esto y verás que ahora
estamos consiguiendo esos
viajes en un mes. Así lo hicieron muchos viajes pero
que puedan, junio, julio, agosto. Entonces es así tubo ET. Al mirar la gráfica, se
puede decir que septiembre está teniendo más número de
viajes arriba redact agosto y julio y mayo
y junio no teniendo casi tipos similares, casi. A pesar de que Joni
un poco mejor que yo, Y luego aparentemente
realizando meses en un año. De esta manera. Ahora, lo que haremos, crearemos un
mapa de calor, DR y mes. Así que para la cubierta se
agruparán por día son muchos viajes. Excelente como esta. Ahora vamos a trazar el mapa de calor
por R&D renovado GG trazarlo. Voy a usar esta
batería ¿ todavía puedes tomar un bocado? Y sin embargo, cuando se
llenan con el
protón en un día determinado, clase
particular, cuántos
totales, acumulativos se mantienen blancos. Vamos a ejecutar esto aquí. Ahora, estamos recibiendo este mapa de calor Nuestro mapa por día y así nuestro día. Y para este arte
al octavo día, esto en 11 veces 11 hoy. Y para ello
podemos analizar más. Ahora cuando el mapa de calor
parcela D y mes. Y luego esto, y luego
vamos a GG Plot mucho esto. Ahora vamos a
mantener un poco mi mes de diversión. Y lo siguiente
es que trazaremos el mapa de calor
T de la semana y del mes. Esto, así que este es el mapa de calor para mes y día
y mes, mes. Y tengo acceso a un poco de
limón más tarde hoy. Con esto también
podemos tener ahora vamos a crear la relación de mutilación
para los precios en Europa. Por lo que mínima, máxima, mínima y máxima verosimilitud conseguirá NYC. Y aquí lo que vamos a hacer, vamos a tratar de trazar
estas dos agendas. Parcela Gg, GG. Así que aquí GG plot, nuestro conocimiento de iluminación
dramática, valor
total dentro de un
color y la piel, minlength max y Min max
verosimilitud que estamos brindando. Y luego volvemos y
estamos usando la gráfica GG para trazar este
mapa de valores propios y lisina basado en los domingos. Se está llevando algún tiempo. Sigue funcionando.
Esperemos a que se salga de aquí. Tan solo tardando mucho tiempo. Entonces déjame mostrarte el mapa, ese mapa padre NYC para escribir, pero en un septiembre práctico. Entonces aquí se está tomando
algún tiempo para así que aquí hemos agotado todos mis datos anteriores a
septiembre para 2014 para analizar y que posteriormente Uber
cabalga en función del tiempo. En base a eso, llegaremos
a D qué mes es mejor. Entonces todas estas visualizaciones
podemos y usando los datos. Entonces espero que este
proyecto te ayude a entender
la visualización
y el análisis de datos
82. Segmentación de clientes del proyecto 3 con R: Hola y bienvenidos de nuevo. En esta conferencia
vamos a hablar otro proyecto que es proyecto número tres
para esta clase. Y ese es el proyecto de segmentación de
clientes
usando nuestra programación. Entonces, en este proyecto, aprenderemos cómo podemos hacer segmentaciones de
clientes
utilizando nuestra programación realizada en un conjunto de datos. Entonces, independientemente de los datos que tengamos, el conjunto de datos del cliente, eso es una enorme segmentación de
clientes de productos. Por lo que intentaremos
encontrar el segmento de clientes que por ahora
será útil. Las empresas para encontrar a
sus mejores clientes y los de mejor desempeño nuestros mejores clientes
para su negocio. Entonces, ¿qué es la
segmentación de clientes? segmentación de clientes es una de las aplicaciones más importantes
del aprendizaje no supervisado. Entonces, como sabes, hay dos, ya sabes, hay dos clases de aprendizaje. Uno es el aprendizaje supervisado y otro es el aprendizaje
no supervisado. El aprendizaje supervisado es una especie de aprendizaje donde el libre albedrío, supongo que es un niño
y queremos que aprenda. Hay dos formas de brindar donde supervisaremos
su aprendizaje. Dígale qué hacer, cómo hacerlo y nos dará
instrucciones de configuración para que aprenda. Y hay
aprendizaje no supervisado donde no
vamos a equipo de supervisión. Será sin supervisión
y aprenderá por su propia experiencia. Por lo que hay dos tipos de
supervisados y no supervisados. Y la segmentación de clientes es una especie de aprendizaje no supervisado. No te costó
Dios, agrupando. Mediante
técnicas de clustering, las empresas pueden identificar los diversos segmentos de clientes o reducir
la base de usuarios potenciales en este proyecto de
aprendizaje automático. En este proyecto de
segmentación de clientes, haremos uso de
k-means clustering. Aprenderá lo que es
k-mean clustering. Y vamos a estar con esta
tecnología de clustering k-mean para este proyecto, que es esencialmente
un algoritmo para agrupar conjuntos de datos
sin etiquetar. Así que aquí vamos a utilizar el conjunto de datos sin etiquetar
siempre que necesites
encontrar a tus
mejores clientes clientes en mentación, ya sea metodología
ideal. Porque con esto, podrás encontrar
fácilmente esos
segmentos de clientes. Y mientras mira el
segmento de clientes, puedes encontrar tu
mejor base de clientes. Y puedes tener escalera Target, Quienes ellos para vender tu
producto o servicios. Realizaremos una de las aplicaciones
más esenciales del machine learning, la segmentación de
clientes. En este proyecto,
implementaremos segmentación de
clientes
en nuestra programación. Entonces ahora tenemos la tecnología de segmentación de
clientes
y clustering de reembolsos que vamos a utilizar. Entonces entendamos
en detalle qué es la segmentación de clientes en
un poco más diferente, poco más en detalle. Entonces la segmentación de clientes es el proceso o la
región hasta la base de clientes en varios grupos de individuos que
hay similitudes diferentes maneras que son
relevantes para el marketing, como el género es interés y hábitos de
gasto diversos. Las empresas que implementan segmentaciones de
clientes están bajo el norte de que cada cliente tiene
diferentes requisitos y requieren un marketing
específico, se permiten
abordarlos adecuadamente. Las empresas tienen como objetivo obtener un enfoque más profundo de
los clientes a los que se dirigen. Por lo tanto, tiene que ser específico y debe
ser adaptado para atender los requisitos de todos
y cada uno de los individuos tiene los requisitos de
todos y cada uno de los
clientes individuales para todos ellos. A través de los datos recopilados, las empresas pueden obtener comprensión
más profunda de las preferencias de los
clientes, así
como el requisito para descubrir segmentos
valiosos de valor, ese sería el
máximo beneficio. De esta manera, pueden elaborar estrategias de sus técnicas de
marketing de
manera más efectiva y eficiente y minimizar la posibilidad de
riesgo para su inversión. La técnica de
segmentación de clientes depende varios diferenciadores clave
que dividen los clientes en grupos
para ser focalizados. Los datos relacionados con la demografía, geografía,
situación económica, así como rehabilitación, patrón
real juegan un
papel crucial en
la determinación de la dirección de la empresa hacia abordaje de la variable
diversos segmentos. Entonces, lo que entendimos por segmentación de
clientes es esto UP AL sumar la base de clientes en varios grupos de
individuos
en función de la similitud diferentes formas que son
relevantes para el marketing. Al igual que podemos dividir la base de clientes en función
del género, como género, masculino, femenino, tipo de cosas en función de los grupos de
edad como adolescentes Adultos y las personas mayores a tipo de grupos que podemos hacer, hechos sobre estos parámetros
basados en el interés. Supongamos que tenemos el cliente, una gran base de clientes donde
podemos segmentar la base de clientes en
función de sus intereses. Al igual que a alguien le
interesa la música y la danza, las artes y los títulos en el drama. Así podemos segmentar a
los clientes y luego en
base a sus intereses, podemos recomendar
productos y servicios. Si alguien está interesado en. Supongamos que en los deportes
podemos, podemos mostrarles los
anuncios se les vende el producto o servicios que están relacionados con ese deporte
en particular. Por lo que estas son cosas
muy
importantes identificar a los mejores
clientes a los que dirigirse. Con esta segmentación,
las empresas obtendrán una comprensión más profunda
de su base de clientes. Y en base a la comprensión
y segmentación, pueden dirigirse a los clientes de una
manera más específica. Y eso aumentará
su rentabilidad. Porque si solo eres remitente, enviar algún complemento al cliente y estás vendiendo
tu producto y servicios son para el apoyo de personas mayores y
estás enviando tus correos electrónicos a todos, entonces para los adolescentes, no
es relevante, ¿verdad? ¿Qué adulto? Puede ser relevante de alguna manera que tengan a los
ancianos en casa. Pero es más parecido, pero es más probable que sea
relevante para
las personas mayores de 60 años
o mayores. Por lo que es mejor apuntar
solo a las personas que tenían la edad de 60 años y luego te
dará la mayor ganancia. Entonces, ¿esto es lo que significa la segmentación de
clientes? Entonces antes de proceder
al nuestro proyecto, vamos a entender qué
es el algoritmo k-means. Mientras se usa el algoritmo de
clustering K-means, el primer paso es indicar el número de clústeres que
deseamos producir en
la salida final. Bien, entonces primero lo primero, tenemos que decidir
el número de clústeres que queremos
producir en la salida final,
el algoritmo
comienza seleccionando k objetos de
conjuntos de datos aleatoriamente. Por lo que primero seleccionará el número k número
de objetos
del conjunto de datos aleatoriamente que
servirán como los
centros iniciales para nuestros clústeres. Los cúmulos estelares selectos
significan también numerosos centros. Entonces estos son, como dije, hay k objetos
que hemos seleccionado. Entonces estos objetos seleccionados
o cluster significa, y también se les
conoce como centroides. Entonces los objetos restantes tienen una asignación del centroide
más cercano. El centroide, el centroide se define por la distancia
euclidiana. Pegue la distancia euclidiana presente entre el objeto
y el racimo. Nos referimos a esta cinta de asignación de clúster de
Azure. Cuando la asignación
sea para completar el algoritmo se
procede a calcular nuevo valor medio de cada reactivo de clúster en los datos después del
recálculo del clúster, las observaciones o verificar
si son de cierre a un clúster diferente utilizando la asignación de clúster
actualizada. Esto continúa repetidamente a través varias iteraciones hasta que las asignaciones del
clúster se detienen. Alterando. Los racimos que están presentes en las titulaciones actuales son los de hidratación previa. Resumiendo el agrupamiento de
k-medias. Entonces esto es lo que significa
k-means clustering. Especificamos el número de
clústeres que necesitamos crear. Después algoritmo
selecciona tus objetos al azar de nuestro conjunto de datos. Este objeto es cluster
inicial o significa los riesgos y pruébalo. Nuestro objeto clave o pin la asignación de
una nueva observación. Rebasó esta asignación en la distancia euclidiana entre el objeto y no lee
los k clústeres en los datos. Una vez que nuestro centro de datos a través del
cálculo de los nuevos
valores medios
presentes en el, presente en todos los puntos de datos, ese punto de datos puntos, ese punto de datos de los clústeres, el centroide de clúster késimo tiene
una longitud de P que contiene la media de todas las variables para observaciones en
el clúster késimo. Denotamos el número de
variables sería
trato de minimizar Jason hasta el total dentro de la
suma de los cuadrados, luego a través del hidrato, minimización de la suma total de la asignación
al cuadrado dejó de dudar. Cuándo y cuándo logró
el máximo arbitraje. El valor predeterminado es diez que el software de arte utiliza para la máxima operación,
por lo que la dirección máxima. Y en su lugar, calculamos
el algoritmo de clustering para varios valores
de k, esto se puede hacer creando variaciones
dentro de k, 1-10 clusters. Entonces podemos calcular la suma intraclustre de
cuadrados que se llama SS. Entonces esperábamos ese
número, k clusters. Esta trama denota. Entonces obtendríamos los k clusters. Y en base a eso, ya veremos, así que esta es la
parte teórica para este proyecto. En este proyecto,
en la próxima conferencia, empezaremos a hacer el
proyecto cuando comencemos a discutir el código
para este proyecto y haremos el proyecto
real. Segmentación de clientes. Nos vemos dentro de la siguiente conferencia.
83. Segmentación de clientes de la parte 2 del proyecto mediante R: Entonces comencemos con el proyecto. Entonces aquí lo primero
es que necesitamos un archivo de datos que contenga toda la información del
cliente. Entonces aquí estamos usando
model, model underscore. Los clientes comienzan con el archivo CSV
y este archivo CSV está aquí. Y si lo abro aquí puedes ver el número de cliente,
género, edad, e
ingresos, puntaje de gasto. Toda esta información
ha sido dada. Tenemos las cinco columnas numeradas por el
cliente, y cada puntaje anual de
gasto de ingresos. Entonces esta es la
información de todo lo que tenemos. Y en base a esto, vamos a conocer esa segmentación de
clientes utilizando Así que comencemos. Entonces, primero lo primero, tenemos que leer ese archivo. Así que utilizo los datos de la app son valiosos o
los datos de subrayado del cliente y voy a usar la función, leeré punto CSV y Mazda
parte, parte la pelea deja archivo
CSV y
va a leer el ahora
de ese archivo CSV puedas ver que
la identificación personalizada, el
género, la edad, los ingresos anuales, y el gasto de este curso. Entonces aquí puedes ver sus propias columnas de tipo de datos,
char, char ¿Bien? Lo siguiente es lo que hacemos. Nombramos
datos de clientes y luego realmente, oye, intenta imprimir las
primeras cinco columnas. Aplastado favorito o
estudiar la identificación del cliente, género, la edad y las cosas de
Cómodo dispuestas Bien, Puedes ver Lo
siguiente es realmente resumir esto con
el cliente es, así que vamos a ejecutar esto y ver Sin embargo, cuando usemos el resumen
Wong Sun Belt en el borde, nos dará la edad mínima Primer trimestre yo,
primer cuartil,
mediana, media tercer
cuartil Entonces esto es para los datos de edad sobre esto e hizo alguna
estadística, ¿de acuerdo? Entonces la edad del cliente, los ingresos
anuales y el puntaje de gastos para todas esas cosas
manejarán lo mismo. Entonces obtenemos esta información, desviación
estándar, estimación, visualización de
género. Aquí, lo que
haremos es crear una
base de datos de clientes de tabla en la agenda. Y después intentaremos
trazar una parcela de bar. Y esto tendrá el
eje x y el género y el
eje y y como la capacidad de conteo y
colores con eso Y vamos a ejecutar esto. Y verás una trama de bar, que aquí vimos el género
femenino y masculino. Si hacemos más. Entonces, usando la gráfica de barras para mostrar
la comparación de género. ¿Bien? Lo siguiente es esta fórmula aquí dividida
por suma de a en 200 LBS, macho, hembra y macho, hembra. Y esto le dará a la representación esto que
tienes masculino y femenino. Entonces C y ahora el propósito X
por ciento y masculino es 44%. Entonces ahora no queremos
eso en nuestro conjunto de datos. 56% del extremo femenino, 44% del masculino. Ahora que queremos hacer, intentaremos visualizar la distribución por
edades. Así que trata de dibujar un histograma hecho en el
cristal y la frecuencia Entonces mira aquí, ahora, este histograma
te mostrará el contacto de cada clase Entonces aquí se puede ver cero a 20 frecuencias
comenzando por 20 a 30. Todas estas cosas se pueden ver, este es el histograma Esta es la clase de edad 2030, 30 a 40, 40 a 70. Todas estas cosas las
podemos visualizar y ver una parcela de bar con la edad. Y esto nos dará el
análisis descriptivo es una gráfica de caja Entonces aquí se puede ver que
es mayormente entre el objetivo y luego
un ingreso C sub N1. Entonces aquí para inscribir empresa, tratar de trazar un histograma
o el ingreso anual y frecuencia que
pondremos en el Entonces nos vemos por los
ingresos anuales más la frecuencia, puedes mirar tu hockey. Entonces pondremos a nuestros clientes Parcela, otra parcela aquí, parcela de
densidad para ingresos anuales. Entonces todas estas cosas
que puedes analizar luego dibujaremos una trama de caja
para el puntaje de gasto. Mira aquí, este es el final, esta es la trama de caja para
ese puntaje de gasto. Entonces otra vez, nuestro histograma
para el puntaje de gasto. Y luego comenzaremos nuestra barra de biblioteca de algoritmos de
media K, y nos pondremos en semilla Y luego usaremos una función para calcular la suma total
intraclustre de ISS
cuadrada y ponerla
a uno a diez ¿Bien? Lo siguiente es que evalúo valor, reporte, mapa subrayado AV Y luego
trazaremos el número de clústeres en el eje x y el eje y, suma
total intraclustre de
cuadrados más el
número de cuadrados más el Verás del uno al diez. Y aquí se puede ver
el eje y total. Cúmulos, suma
del cúmulo total, suma de cuadrados, ¿de acuerdo? Número de cluster
para estos, 4464814. ¿Bien? Evidencia, seleccione
mi tercera biblioteca. Usarás cluster extra. Estas tres bibliotecas
vas a utilizar. Entonces, si no está instalado, puede ir aquí, herramientas, paquetes
instalados, y dar el nombre del paquete
y no podría ser. Empecemos. Ahora. Lo que voy a hacer, vamos a hacer, vamos a crear los clusters k2. Y k2 utilizará los Clústeres de
K-medias. Y luego vamos a dar que me
visto y max actriz y 100 y empezar y empezar
desde D algoritmo como. Y luego trazaremos este clúster y los valores de
los datos de los clientes. Y el euclidiano quiso decir que, bueno, así,
pondremos el Esto es más,
esto es para el A2. Ahora vamos a hacer la cosa por k3, k4, k5 Y te veremos en
la trama está tejiendo. Ahora usaremos el
racimo de envidias y no extra. Y haremos celebridad y lo
verás de uno a cinco
y datos de clientes, lo
verás de uno a cinco
y datos de clientes,
k-means. Y luego K6 Sepa que tenemos este número óptimo de clusters y
número de clusters. El grupo uno alguna vez luchó
con esto por 3.4, 647. Y luego tenemos el número
óptimo de clusters. Nosotros, entonces, lo que vamos a hacer, intentaremos visualizar los
principales componentes principales principales. El PCC arremetió con la función
PR para esto. Y vamos a ejecutar esto. Aquí. Se puede ver el puntaje anual de gasto de
ingresos. Y luego usamos la trama
GG para trazar esto. Ahora puedes ver los clientes del
modelo segmentar arriba usando los datos de clustering
k-mean, los del clúster Santa Este es un clúster, este es otro clúster. Esto es un plus,
este es un clúster. Así que los racimos suaves que el cliente se
basa en su comportamiento. Ahora. Ahora intenta poner el cluster uno, cluster dos cluster
tres, el hidrogeno me dio. Por lo que ahora se pueden ver seis clusters. Cluster uno, cluster dos, cluster tres cluster
para cluster cinco. Entonces estos son los puntos, estos son los clusters. Podemos ver los datos. Ahora ponemos eso e
intentaremos ejecutar esto de nuevo. Y ahora está bastante claro. Ahora tenemos los k-means
clustering aquí. Entonces aquí puedes ver este
rojo es el cluster uno, amarillo, uno, cluster dos, cluster tres, el verde. Este cúmulo, el racimo
cinco es azul. Y esto es cluster para. Ahora bien, lo que puedes ver, estos son los otros clústeres de
clientes que hemos creado
en base al clustering k-mean clúster cuatro y el clúster uno a clúster consta de los mejores clientes, puntajes
medianos uno y medianos de PC. Y el grupo seis. Discusión clásica Imprimo
el cluster teniendo PCA, PCO2
alto y PC bajo Uno, cluster cinco en este cluster hay
clientes con el PCO2
medio y bajo Entonces estos son el lecho en el PCA uno y los
valores de PC2 que tenemos Podemos aplicar esta glabella hecha los clusters y comportamientos Podemos apuntar a los clientes
con la ayuda de clustering. Podemos entender las
variables mucho más muertas incitándonos a
tomar decisiones cuidadosas Con
la identificación de preguntas, las empresas pueden liberar productos y servicios que se
dirigen a los clientes. No decimos eso, pero solo me
gustaría ingresos,
edad, patrones de gasto, etc.
Además, patrones más complejos
como debuts de productos, captación en consideración
para una mejor segmentación Entonces esta es la explicación
simple. Puedes ir en detalle y
conocer estas cosas. Además, espero que este
proyecto
te ayude a entender cómo
hacemos la agrupación de juegos
84. Proyecto 4 - Introducción - Recomendación de películas: Hola y bienvenidos de nuevo. Entonces en esto, vamos a
hacer proyecto número cuatro, recomendación de
películas, inicio de
sesión del sistema y aprendizaje automático. Entonces ahora tenemos el conocimiento básico
de la programación y
hemos hecho pocos proyectos
también en esta clase. Por lo que este proyecto te dará una experiencia muy amplia trabajando para algoritmos de
aprendizaje automático, juzgando nuestra programación
sucediendo en esto, estaremos haciendo el muy popular sistema de
recomendación de películas. No agregaste programación y algoritmo de aprendizaje automático. Entonces, ¿de qué se trata este
proyecto? Este proyecto se centró en el desarrollo de un recomendador de
películas Estoy usando técnicas de R y machine
learning
out y técnicas de machine
learning. El objetivo de este proyecto es
el sistema de recomendación. Ese
motor de recomendación que sugiere películas a los usuarios
en función de sus preferencias. Entonces, ¿qué está pasando realmente en todas las plataformas OTP
como Netflix, hot star, T5, Amazon
Prime videos Siempre que estés viendo
películas o pones tu, has visto películas
de comedia. Tienes Mazda fue
película romántica de Hechos y película. Entonces, en base a tu preferencia, lo que has
visto en el pasado, se
almacenarán
todas tus preferencias. Y en base a tu comportamiento
anterior, como si estuvieras viendo
una película de comedia, comúnmente género o
actos y género. Siguiente película te serán
recomendados. Entonces todos flexionan y todos están
perdiendo la misma metalurgia. Para sugerirte
la siguiente película. Apoyo. Usted ha visto
el comité y la película de X-Men en las últimas semanas Entonces, a continuación, lo que
van a hacer, pueden hacer. Te pueden sugerir una película que tenga tanto las cosas
cómicas como excelentes. te puedan sugerir X y película con los elementos cómicos en ella. Son ellos,
Definitivamente sugerirán a Duck película cómica y la
película junto con eso, pueden sugerirte
las películas que están conteniendo tanto comedia
como exón juntos Entonces todas estas cosas que hacemos usando los algoritmos de aprendizaje automático Entonces esto es muy
popular en estos días. Entonces, al implementar
la colaboración basada en elementos para filtrar lo que nuevamente haremos, obtendremos experiencia
práctica en la aplicación de nuestra ciencia de datos, aplicando nuestras habilidades de ciencia de datos
y aprendizaje automático a proyectos de la vida real como el sistema de recomendación de
películas Lo que estamos usando aquí, lo
hace MoveLens dataset, que consiste en un lakh, 5,039 calificaciones en el
archivo CSV de puntos de calificaciones Y también está conteniendo 10,329 películas en el archivo
movies dot CSV Entonces estos dos archivos CSV, archivos de
datos que
vamos a usar, uno contendrá la
película en comisión, como 10,000 películas más. Y aparte de eso, creo que CSP almacenará el spot hacia películas
particulares los diversos
críticos y auditorías Entonces ahora tenemos el entendimiento básico como
lo que vamos a hacer. Lo siguiente es, ¿qué
son las bibliotecas? ¿Cuáles son las bibliotecas que
necesitaremos para esto? Por lo que vamos a requerir la gráfica GG para laborar datos.table y receptor, las otras bibliotecas básicas que
necesitamos para este proyecto Entonces GG grafica estos para la parte de
digestión datos.table. Qué mesa y el
comandante vistas laterales. Recomiendo cosa de lección. Entonces, ¿cuáles son los pasos que vamos a dar en este proyecto? El primer paso será el preprocesamiento
de datos. Entonces estaremos
teniendo el siguiente paso Elaborar al filtrado están
explorando los datos similares. Después habrá una base de datos. Y luego iremos a
la preparación de los datos. Y la preparación de datos
implica unos pasos y luego por fin se estará haciendo
el estándar uno por uno. ¿Cuáles son las cosas
que vamos a hacer en el preprocesamiento de datos El preprocesamiento de datos
es lo que se admite. Estamos obteniendo un archivo CSV de
punto de película de datos
brutos o
leyendo drogas, sí. Necesitamos preprocesar esos datos. Así que una vez extraemos los
datos del archivo CSV de
punto de películas y clasificaciones
o conjuntos de datos CSV. Lo que observo, lo
que
observaremos ese ID de usuario y columnas de
ID de película, enteros. Entonces estas son las
cosas que veremos cuando miremos en el código también. Pero por ahora,
solo te lo haré saber. En este archivo, veremos cuáles
son las cosas que podemos hacer. Vamos a enrasar. Entonces primero entendamos lo que vamos a perder. Entonces el ID de esta película y el ID de usuario. Consistía en los enteros. Y además, necesitamos transformar el género cinematográfico
en datos de subrayado de película, marco de datos en
**** más fáciles de usar Películas o no, necesitamos
transformarnos en un
formato más fácil de usar que tú haces. Y para lograrlo, lo que he hecho, he creado una métrica de codificación
caliente que representan el género
asociado a cada campo. Entonces, para lograr este marco de datos
fácil , género de
películas, lo que he hecho, he creado una matriz de codificación one-hot
que referenda Cada película posteriormente se generaron
tales patrones para facilitar cada búsqueda
basada en las revistas John. Dado que las películas suelen
tener múltiples géneros, todos
sabemos que
una película puede tener, categorizamos en
múltiples géneros de soporte. Una película puede tener x y
también puede tener drama. Para que pueda tener la comedia también. Una película también puede tener
múltiples géneros. Entonces, lo que haremos, usaremos esa clase métrica. Y para nuestros datos, vamos a, lo que vamos a hacer, vamos a convertir la matriz, la matriz de género en
esta matriz dispersa para que sea tan tabla para el sistema de recomendación de
películas Y para ello vamos a implicar el verdadero loco por la clase de matriz
de calificación amarilla. Entonces, el siguiente paso será el filtrado colaborativo o la
exploración de los datos similares. Por lo tanto, el filtrado colaborativo
implica recomendarte películas solo en función las preferencias de otros usuarios Entonces, ¿qué significa? El filtrado colaborativo es, supongamos que estás
viendo una película, que es una película de comedia. Y no has visto gran parte de las películas en
un soporte de plataforma. Estás viendo Netflix y
acabas de empezar a
usar tu cuello. Y
solo has visto una película, que está en el género Comedia. Ahora, cómo Netflix te
recomendará películas, porque Netflix dice que no hay datos, aceptas que has
visto una película de comedia. Entonces o puede seguir adelante, recomendar nuevo,
recomendándote la tarifa de películas de comedia Y eso va a ser algo muy
raro porque una persona no va a depender. Veremos solo una película de
género acomodarse solo a él puede
interesarle la x y también el drama. Entonces suspenso, thriller
también, ¿verdad? Entonces para eso, lo hará
esta función split, usarán filtrado
colaborativo,
que en lo que están recomendando películas a los usuarios en
función de las preferencias
de otros usuarios Entonces hay millones
de usuarios usando la plataforma y están viendo el comité
también x y también. Entonces basado en nuestros usuarios
que han visto la misma película y lo
que han visto a continuación. Con base en sus datos. Netflix predecirá que también te puede gustar una película
en particular cuál era
el orden en que acabas de
ver la película. Netflix puede recomendarte película X porque has
visto la película. ¿Bien? Entonces, si saltas en X
y también lo hace el Usuario B, entonces las películas vistas
por enorme a la semana. Y nos recomendó
a gran variedad. Lo mismo que te he
explicado y viceversa. Por lo tanto, la recomendación, recomendación de películas se
basa en establecer nuestra
relación de similitud entre ellas. Serás lo que realmente estamos haciendo aquí, estamos estableciendo, estamos estableciendo una
relación entre la similitud de rendimiento basada en la similitud de su
acento o su interés. Uso de la biblioteca
de laboratorio recomendada. Lo que he hecho, he
calculado la similitud utilizando diversos operadores como
coseno, Pearson y Y luego construir lección de
visualización de datos. También veremos la
similitud en los datos. Entonces aquí lo que he hecho, he visualizado la
similitud entre los usuarios y también explorar las similitudes entre las películas que anteriores Para conseguir. Las bases de datos son la mayoría de las vistas que las películas verán que lo que he hecho. He investigado
más en el conjunto de datos. Previo a este análisis, calculé el número de enormes, enormes para cada campo y organizarlos que golpeamos
capaces en orden descendente El número total de vistas
de las películas del Golfo se
visualizarán utilizando la trama de barras
y de los vigilantes Y se escribió que fixin era la película
más vista Entonces estos son los datos
visualizan y las cosas van a hacer. Y después de eso. Después de eso, seguido de forraje
para entrar en cada lección, un mapa de calor de citas de películas para obtener una idea de
las calificaciones de las películas, creé un mapa de calor que
muestra las calificaciones de las 25 primeras filas y cinco
columnas en el conjunto de datos Lo siguiente, seleccionar selección. Entonces lo que he hecho, lo he hecho, me
gusta mucho el golf. Simplemente envía películas
a través de un mapa de calor, también examina la distribución de calificaciones
promedio para el futuro. Lo siguiente es la
normalización de datos. Estamos disfrazados de posibles
sesgos causados por usuarios que constantemente proporcionan calificaciones
altas o bajas para todas las películas que ven. Yo normalizo los datos. Normalmente de repente el
procedimiento para estandarizar los valores
numéricos en una
columna a una escala común, asegurando que no haya
distorsión en el valor Entonces en este caso, normalización transforma
la calificación promedio, donde golpeo mi
voz y la trazo. Veremos que cuando hagamos el binario
práctico en el paso final, los
datos fueron prohibidos, ¿verdad Asignación de valores discretos 1.0. Este paso mejora la eficiencia
de las recomendaciones. Lo que hice, defino
la matriz con una calificación de tres
corresponden a uno. Y de lo contrario, sólo se trata decir que si la
calificación de la película es de aproximadamente tres, corresponderá a una. De lo contrario, si es menor a tres, se le asignará
un valor de cero. Sistema de filtrado colaborativo. En esto, lo que he
desarrollado un sistema de filtrado
colaborativo basado en elementos que determina la similitud de los
artículos en
función de las enormes calificaciones El algoritmo será nuestra tabla de artículo
similar comprado
por los clientes y por una recomendación parte del mismo
es que los pasos involucrados para determinar la similitud entre
los artículos son los siguientes. Por cada ítem del orden del día, ítem ID1 presente en el catálogo de
productos comprados por los clientes ver por ítem
I a j por clientes, ver culpable de lo que había hecho Yo creo Jade por cliente, veo culpable de lo que
había hecho. Creé un registro que indica que
los clientes ven comprados I, i1 e i2, calculan la similitud entre
los artículos I1 e I2 ¿Bien? Debido a que el cliente ha
comprado I1 e I2, podría
llegar a
responder que los artículos i1 e i2 son similares Entonces esa similitud
vamos a calcular. Y luego dividiremos
el conjunto de datos en 80% para el conjunto de datos de entrenamiento y 20% más pruebas para
un sistema de recomendación. La regla 80, 20 siempre es aplicable en algoritmos de
aprendizaje automático. El siguiente y último paso
dirigirá el sistema de modelo. Para esta exportación los diversos parámetros filtro
colaborativo basado en elementos el valor predeterminado
del parámetro k, Para calcular se utiliza el valor predeterminado
del parámetro k,
que denota el número de
elementos. 30. Algoritmo identifica los k artículos
más similares y almacena sus números
correspondientes. modelo de recomendación de recomendador se recuperó usando la función get model
y la matriz de
sentido de similitud de vidrio o diamante que habíamos analizado o mapa de calor o generado para visualizar
los elementos crujientes superiores de la misma iluminación Lo siguiente es explotar ese modelo de
sistema de distancia hombre Al sumar las filas y columnas
de similitud por encima de cero, obtengo la distribución
de algunas columnas Esta distribución se visualizó
para obtener más información. Para crear el sistema de
recomendación. En esta diapositiva, la parte superior
recomendada por el
diez vertical es especificar el número de películas recomendadas
por cada usuario. Y entonces se
utilizó la
función predict para identificar
ítem similar en consecuencia. Cada calificación se
trató como un peso, cual se multiplicó por los gustos de similitud
relacionados. Por último, todos los pesos con agregado para generar
las recomendaciones. Entonces estas son las
cosas que vamos a
hacer para el sistema de
recomendación de películas usando R y machine learning. Nuestro objetivo es
recomendar películas a
los usuarios en función de
sus gustos y disgustos y qué están viendo
los usuarios Prom subinterpretado basado
en lo de la similitud. ¿Bien? Y para biblioteca GG parcela TO datos.tabla recibida
a través y laboratorio recomendado Estamos haciendo pasos realmente
buscando el preprocesamiento de datos y el procesamiento de datos
servirá entonces haremos el filtrado
colaborativo, explorando los datos similares que ya hemos discutido La lección AWT. A continuación, veremos cómo
podemos revisar los datos. Para la preparación de datos, hay tres
pasos para seleccionar algunos datos de normalización y binarización de
datos
que veremos Y el
sistema de filtrado colaborativo que
ya hemos entendido este ejemplo y lo que
ya he comentado inicialmente. Entonces espero el proyecto
que he explicado. Bueno, en la próxima conferencia, haremos el proyecto
escribiendo el guión. Así que nos vemos dentro del proyecto
85. Proyecto 4 -Parte 1- Sistema de recomendación de películas con R: Hola y bienvenidos de nuevo. En esta conferencia,
vamos a hacer el
proyecto de leer
un motor de recomendación que películas
tecnológicas te acaban de
hacer su preferencia. Han visto antes. Y también peso en los demás usuarios en la
plataforma o viendo películas. O tienen tipos similares
de películas que tú juzgas. Esta enorme deuda está vigilando
nuestra ventana de vigilancia. Si lo estás haciendo si estás usando las plataformas de streaming o TPU para otoño por primera vez, aún así
podrán
recomendarte más riesgo. Porque tienen
la base de datos habitual, que es tener millones de personas que están viendo el tipo
similar de obedecer que solo
tienes en base sus intereses y tu
interés de ver una película. Esa es la similitud
entre tú y otras personas, como solo pensar en
la plataforma para que sus preferencias sean
lo que han trabajado ahí. El más pesado. Lo es. Te lo recomiendo, las películas. Entonces aquí lo que
vamos a hacer, vamos a estar
donde está el sistema de
recomendación de filtrado
colaborativo basado en elementos sistema de
recomendación de filtrado
colaborativo ¿Bien? Entonces, ¿cuál es el ítem básicamente, puedo llegar a mí
en base a artículos particulares Consideraremos que la oscuridad colabore para imprimir
nuestra similitud. En lo que va de esta región de la realidad, vamos a utilizar la biblioteca de laboratorio
recomendada, gráfica
GG para la visualización de
datos.table, qué tablas y receptor Entonces estas cuatro bibliotecas. Bien, lo siguiente es que vamos a recuperar y
mostrar los datos. Películas y datos de películas. Más leer punto csv. El viernes veremos fuente de
andrógenos CSV. Entonces déjame mostrarte
el precio de las acciones. Entonces esto es más Vidar CSV, que está conteniendo
el id de película, que es de uno a
10,000 algo Por lo que más de 10,000
más de riesgo se
han agregado aquí
en este conjunto de datos. Y luego ve a amar la
película, título de identificación de película
del género cinematográfico, qué revistas me has
lavado. Por lo que hay más de 10 mil
películas en este conjunto de datos, su título y su género. Entonces aquí puedes ver un
género de película, el género aventura. Antes de este género
Edward Jeff animación, los niños ya entre paréntesis Ya terminamos que tres noches
teniendo comedia y drama. Es decir, me
encantan de vez en cuando
los niños y el drama. Drama, fantasía,
misterio, manera segura. Así que una película puede pertenecer a múltiples
géneros múltiples de películas. Y entonces tenemos la
estructura Sí, CSP, que tendrá el ID de usuario,
el ID película, para qué película, que se le da esa calificación Entonces, ¿qué calificación? Ustedes, hasta a la película que
es uno o uno a cinco. Y entre en alto
rechazo retrató la película. Y luego tenemos
los diversos tipos. Entonces lleguemos al núcleo. Por lo que identificó irá
a la ruta del archivo. Luego crearemos una
variable de datos de subrayado de
películas y luego
restauraremos los datos Así que lee la función de archivo CSV
usará y película tonta punto CSV Que se está almacenando en
esta tiamina nos rígiremos y y cadena como
fructosa Y los datos de subrayado dendrítico, punto CSV y las cosas empiezan Y luego veremos que los datos
son oscuros CSP menos que esto. Ver aquí. Ahora tenemos el id de película que el profesor puede saltar, ¿no? Scott actínica el
trabajo y la escritura. Ellos siempre. Naturalmente ver el resumen de los datos mediante
el uso de la función de
resumen. El resumen de los datos se
puede ver, sí, película, primer trimestre,
segundo trimestre, tercer trimestre, me refiero género. Entonces aquí pueden ver los que la película sí vi
la cabeza arriba abrir
las entidades de datos
de partitura que vienen 123456. Bien. Entonces ahora podemos ver el resumen de datos y luego realmente ver el riñón sale un corazón. Y codificación para crear
la matriz que comprende los costos para la
nueva Kendra Roth, cada uno fuera de libertad Entonces esto cumplirá con lo
del procesamiento de datos. Nosotros hemos creado. La película de codificación one-hot
subrayan gin Chandra y
data as.data.frame
película subrayado datos y data as.data.frame
película subrayado datos rivalidad Jordan. String como estructuras, cadenas como factores
es igual a false. Después revisa los
datos.table de la biblioteca y sí, creando películas
subrayado género Y aquí agregaremos datos
oscuros.frame. Y tenía DST, el STR, género de películas
divididas, y tipo dot cardboard true
strings como archivos de factores. Y luego
le llamaremos género de películas de nombre. Y usaremos C, uno para contarlo. Y detienen el género en algunas de esas cosas donde reportan
a tu rodilla izquierda. Hola, soy de aquí para acá. No hay nombre de columna y
las cosas de la correa. John, john cae y
luchó índice uno herramienta. Y caminé, escrito a mano. Yo no ejecuto este código. Y por llamar. Y tú John ella mis dos más jóvenes, me gusta llamarlos
y agregar Argentina. Chandra, rota. Quiero que Dakota haga a una cuerda. Después haga clic derecho sobre esto. Y entonces puedes escuchar para comenzar mis trucos
para tal base infantil más plan Chandra y
esos cinco trucos En este trimestre, estamos
usando la edición de mis trucos y mi opinión sobre
este punto este vista. Algún
parámetro importante para dentro ese sistema por mol
más fácil cuando haces eso. Aunque como un registro de
modelo de estación y obtener tipo de datos de
entrada para la matriz
L, una matriz. Y te entró el
recibí mis tics y
recomendación Mark Moore, subrayé la
matriz de calificación y nuestra confianza Cnidaria. Simplemente la similitud
se puede ver usando esta mi gráfica y nos
retrató a la ligera
que está entre los campos Bien, eso es todo
para esta conferencia, continuaremos en
la siguiente conferencia.
86. Proyecto 4- Parte 2- sistema de Recommender película: En la conferencia anterior, hemos comenzado con el
sistema de recomendación de películas que utiliza en este proyecto. Entonces déjame darte un
breve resumen de lo que
hemos hecho en la conferencia
anterior, primera parte de este proyecto Entonces necesitamos estos para
bibliotecas, laboratorio de recomendadores. Trama dos datos.table. Así que solo estamos de pie estas bibliotecas
y luego necesitamos obtener los datos del lugar
donde se han guardado los datos. Luego almacenaremos que leerá archivo CSV usando
la función
read.csv y restauraremos en películas los datos de guión bajo Del mismo modo,
almacenaremos los datos de calificación en el guión bajo de calificación eta por el similar
entre el CSV oscuro Y pasaremos la
numeración final inicia CSV,
luego, después STR, pulmones Y pasaremos los datos de subrayado de este
movimiento. Y después veremos
el resumen de los datos
del guión bajo de la película Y esto te dará el título de ID de
película, género. Y aquí puedes ver los detalles
estadísticos aquí. Mínimo, primer cuartil, mediana,
media, tercer cuartil y valores
máximos Después veremos a la cabeza de la película
los datos de subrayado. Te dará las primeras
cinco filas de los datos. Así que mira aquí la identificación y el título de la
película al ras, y luego el género de la película. Y luego veremos a
la cabeza de las calificaciones. Sin embargo, también se puede ver el primer cuartil
mínimo, mediana o todas las columnas, Entonces veremos al jefe
de los datos de calificaciones. Sin embargo, se da ID de usuario,
ID de película
y una calificación y tiempos apisonar Entonces ahora tenemos la
idea de lo que hay dentro de la idea de
lo que hay en el archivo CSV o el archivo de
datos que
tenemos y que están sobre estos
datos que vamos a caminar. Entonces lo siguiente
es lo que haremos. Crearemos una codificación one hot, creando una matriz que comprende
general correspondiente para cada prueba. Entonces, para nuestra codificación de dieta, necesitamos crear una matriz. Entonces vamos a crear
una variable aquí más que guión bajo género
y aquí como.data.frame, reutilizarlos Y luego usaremos
esa columna de género. Entonces si miras aquí esa es columna de
género en los datos de películas, películas de archivo de datos. Entonces usaremos eso
y luego las cadenas como factores falsos y luego la
biblioteca usarán más adelante. Entonces aquí creamos una matriz, matriz de género de
película, y luego solo usamos el
data.frame y el género de película Y luego vamos a
hacer matriz aquí, luego esto, y luego nombre de columna. Y luego detienen el género. Género. Cuál es la lista de género es tu
x y aventura. Todas esas cosas
harán una lista aquí. Y luego vemos el género, Mach one y los nombres de las columnas Y para índice en uno. Y rho película género
a cuatro leerá la columna y para cada género
obtendrá el nombre de la película Y todo. Entonces volvamos
esto entonces, género mat dos. Y luego lo mismo aquí. Entonces lo pasamos a STR aquí. Después lo pasamos a STR. Y ahora lo que vamos a hacer, vamos a crear una búsqueda Patrick's. Entonces pienso
especificando el género. Entonces, John, ¿verdad? Así que vamos a ejecutar esto
usando yes, C bind. ¿Bien? Y luego seguimos adelante y vemos aquí ahora nos estamos
metiendo de nuevo en esto. Entonces CN movie ID title, Excelente Animación de Aventura,
niños, todos los géneros Como columna en
esta matriz, ¿bien? A continuación, se trata de una matriz. El siguiente es la matriz de calificación. Y ahora lo que haremos, vamos a convertir esa matriz de
calificación y hacia
recomendar matriz dispersa de laboratorio,
esa matriz y la matriz de
calificación amarilla, ¿de acuerdo? Y entonces la matriz de calificación C es 668 en diez veces la
cantidad cinco o n columnas. La matriz de calificación de más un
rezago 5,003, 13 y calificaciones. ¿Bien? A continuación, usaremos nombres arriba, recomendador, modelo de
recomendación Y luego usaremos el modo
Play Recomendación. Y aquí usaremos
la descripción. Implementando un solo modelo en nuestro
filtrado colaborativo basado en artículos, tenemos 12 Y aquí estamos
usando AI VCF, ¿de acuerdo? Ahora, el
filtrado colaborativo implicaba sugerir películas
al atacante basadas en
preferencias colectivas de muchos otros. Estás solo, con la
ayuda de recomendadores de laboratorio. Podemos calcular la similitud
entre la Eucaristía. Entonces ahora vamos a
crear una
métrica de similitud y un método que
estamos usando ARCore shine. Y más lejos estás bien. Ahora ya veremos que
tu solo similitud va a deshacerte de esto. Otra vez. No había suficiente espacio C. Ahora
solo tienes similitudes, puedes ver solo matriz de
similitud. De igual manera, vamos a hacer, parecerá que al menos varias entre las
películas que utilizamos. Y vamos a ejecutar esto y
luego imprimir esa imagen. Ahora, se puede ver que esta es
la similitud de la película. Ahora los valores de calificación como datos de matriz de calificación de
director, ya veremos. Entonces calificaciones únicas extrayendo
las calificaciones únicas. Se utiliza un único, luego se requieren los valores de calificación. Tabla de calificaciones. Creando una calificación de película. Y luego veremos la tabla valorando
los valores y evaluando. Ahora, lo que vamos a hacer. Haremos la visualización más
vista. Y para ello vamos a trazar dos películas subrayan vistas y matriz de calificación de
Qualcomm
llamada count utilizará y luego TableViews una película data.frame Tomaremos los nombres de
los espectadores de películas y tomaremos los nombres de la
vista de películas e iremos a los espectadores de películas. Aquí dataframes de futuro
a través de esta tabla vistas. Del mismo modo, entonces el índice TableViews iterará sobre todas
las 325 películas completas Y lo haremos. Y luego veremos
que las vistas de mesa vistas funcionando. Espera a que se complete. Así que mira aquí ahora, completa fc aquí
puedes ver esas críticas de
películas y título. Lo siguiente que haremos, darse cuenta de que estás
usando la gráfica de barras o el número total de
vistas de la página superior. Hasta el momento esto usaremos la trama GG, TableViews
y la estética Usaremos título y
vistas y barra de geom, textos
geom y equipo y eliminaremos Te voy a dar el título aquí. Entonces espero que sepas
todas estas cosas. No voy a ir en detalle. Entonces ahora se puede ver que el
bosque viene como 331. Tu clásico de vuelta al
94, vistas y bulto. Bien. Entonces de esta manera podremos conseguir
espectadores duros de los campos de césped. Total botas hasta las mejores firmas. Ahora. Firmas. Bien, ahora crearemos un
mapa de calor para las películas. Así que mira aquí el mapa de calor hacia fuera
las primeras columnas de 25.25 dólares. Bien, lo siguiente es lo que haremos. Entraremos en la preparación
de datos. Por lo que las calificaciones de las películas, las
calificaciones son mayores 50 y se mejora el
contrato actual. Entonces. Vea la
calificación de la película por 22, por 1,400 en clase ¿Bien? Así que estos muchos están ahí
por más de tres, ¿de acuerdo? Ahora, impulsando métricas de
relevante solo calificaste 0.9. Entonces mínimo películas y mínimo solo
verás
usaremos el contenido para esto. Y luego crearemos un EMS, veremos un mapa de calor de la parte superior, solo
agregas las películas. Lo siguiente es visualizar
la distribución de las calificaciones
promedio son enormes Entonces para esto, usaremos la calificación
promedio de subrayado. Y forma significa que no teníamos la calificación de la película
y lo haremos tramado. Ahora trazas C y ahora estamos obteniendo la distribución
de la calificación promedio, pero simplemente estás bien, Entonces esta es la distribución
de la calificación promedio, pero estás justo entonces, vamos a usar eso para esa normalización de
datos. Para esto, usaremos calificaciones
no normalizadas, reseñas de funciones
normalizadas
y clasificación de otras películas Entonces parte de la fila significa calificaciones
normalizadas
mayores a 0.001. Y luego ver esta
calificación normalizada, los principales usuarios. Entonces aquí puedes ver que
obtendrás un artículo columnas. Bien, siguiente, binarización de datos que
ya hemos discutido en la Entonces aquí estamos usando
cuantiles y recuentos de filas, clasificación de
películas y
luego más lavado de base Y luego películas puntuadas, películas
binarias, más, calificación
mínima tres. Por lo tanto, calificación mínima a3. Todas esas películas obtendrán. Así que vamos a ejecutar esto. Ver, estas son las películas que están teniendo
calificación mínima como tres. Ahora entraremos en el filtrado
colaborativo y está dividiendo
el conjunto de datos en un conjunto de entrenamiento y
20% del conjunto de prueba. Entonces datos de muestra, tenemos
su método de muestra aquí. Y aquí lo que hemos hecho, tenemos hasta el 80% para
el entrenamiento y la prueba. Dividir los datos. Ahora veremos esos datos de entrenamiento y
datos de prueba. Y luego construiremos una recomendación usando un registro registrado de
recomendador Y aquí vamos, lo que haremos, obtendremos entradas, tipo de datos, matriz de calificación
real
que hemos creado Y luego usaremos el ojo vcf, subrayado matriz real
y parámetros,
y luego recomender
utilizará los medidores recomendadores Y aquí pasaremos el método de datos de
entrenamiento. Usaremos IV CF y comenzaremos. Bien, así que vamos a ejecutar
todas estas cosas. Ahora tenemos el modelo de
recomendación de recomendador. Ya. Ejecute esta clase
de modelo de recomendación. Se puede ver el laboratorio de recomendación y ahora explorar
la ciencia de datos, los modelos de coordinación Entonces volteemos este modelo de
clase, olvidemos modelo y modelo. Y para C, D, D, C se reunieron después,
después corchetes y el siguiente de
Patrick se ha ido. Este top artículos. Estos son los artículos principales. Y luego veremos mapa de
calor hasta la primera
fila y columnas de la. Entonces cuando ejecutes esta suma de sorteos y subas
algunos de esos 30.47, luego GG plot, veremos que este
es el qplot y el gráfico de barras Se puede ver la distribución del número de
columna de
artículos a recomendar. Simplemente pones menos de diez y predices recomendado un día. Algunas recomendaciones para la primera película urogenital
una de 1 bar, una de cada diez películas Y luego recomender matrix, matrix con la
recomendación para vuelo
easyJet, artículos de amabilidad Y estamos valorando
los nombres de las columnas de la lectura de películas Voy a comprar articulos
y luego titulo oscuro, distribucion de numero de IVC arriba y qplot numero
de articulos desde t, distribucion de
numeros del Item, numero de articulos arriba
por BCF y da Vinci, las mejores distribucion de numero de IVC arriba
y qplot numero
de articulos desde t,
distribucion de
numeros del Item,
numero de articulos arriba
por BCF y da Vinci,
las
mejores
peliculas recomendadas. Wallace y Gromit, Dios Padre, hijo murió y también lo son los YuJa Entonces de esta manera, podremos conseguir la
película recomendada para el YuJa Entonces espero que entendieras
este proyecto. Si tienes alguna duda, puedes comentando, haciendo la pregunta en clase Gracias.
87. Introducción al proyecto 5 Introducción al fraude con tarjeta de crédito: Hola y bienvenidos de nuevo. Entonces les doy la bienvenida a otro proyecto que es proyecto número cinco
para esta clase. Y eso es detección de fraude
con tarjetas de crédito, juzgando nuestra programación. Y aquí vamos a usar algún
algoritmo de aprendizaje automático también. Entonces, ¿cuál es el objetivo
de este proyecto? Es posible que sepa que los datos y fraudes
en línea ocurren en estos días, como si se estuviera utilizando la
tarjeta de calificación de
alguien. Sin su conocimiento, redes sociales de
alguien han sido pirateadas Por lo que este tipo de fraudes
se están haciendo en línea. La
formación bancaria de alguien está siendo robada. cuenta bancaria de alguien ha sido robada y
han sacado el dinero
de su cuenta. En la India, son pocos los
incidentes en los que las personas, sin saber que han compartido su permiso de tutor o su OTP está en una llamada telefónica Ah, el impostor está diciendo
que están llamando desde el banco y están
pidiendo el número de la tarjeta de débito Y luego están
pidiendo el número de CBP. Y la gente se dice sin saberlo, enviando todos los detalles, pensando que la
persona que llama es de la preocupación Banco Y ellos solo están configurando
que nuestros datos. Y una vez que esta OTP, les ha quitado
todo el dinero de
su
cuenta bancaria. Entonces este tipo de fraudes están
ocurriendo y tenemos que ser
muy, muy cuidadosos Uno de esos fraudes en línea
es el fraude con tarjetas de crédito. Bueno, la gente usa la libertad condicional de sus dibujos animados de
niños o para comprar algo, o almacenan la información de su
tarjeta de crédito, o dicen, hay números de tarjeta de Kate y algunos incluso números sin saberlo a la gente y la gente
los usa sin Y hay varios incidentes se está utilizando la tarjeta Kate sin que a pesar de que la tarjeta
Kate esté físicamente presente
en con el impasto Esto para la detección de
fraude con tarjeta de crédito. Entonces tenemos que hacer un frente ordenado. Siempre que alguien use una tarjeta
de grado, la compañía sabrá que
esta transacción podría ser
una transacción fraudulenta
e
inmediatamente pueden informar al cliente
que califica al titular de la tarjeta, que está realizando este
tipo de tangentes Y ahora mismo, el cliente o el titular de la tarjeta de
grado dice:
No, no, este no soy yo. Alguien más está haciendo
esta transacción, luego inmediatamente
declinarán esa transacción. Y de esta manera, esa tarjeta de grado que
vamos a dejar de usar y no se ahorrará
mucho dinero. Por lo que el objetivo de este proyecto
es desarrollar nuestro clasificador capaz de identificar transacciones
fraudulentas con
tarjeta de crédito Para esto, lo que he hecho, te
tengo a ti, estaré usando varios algoritmos de
aprendizaje automático, como un árbol de decisiones, regresión
logística, redes neuronales
artificiales, y finalmente clasificador de
aumento de gradiente Entonces veremos cuáles son los
algoritmos que podemos usar. Y con esto, podemos clasificar cuáles son los fraudulentos y los
no productos o Jackson's Para esto, usaremos un conjunto de datos que estará
teniendo la información sobre la tarjeta de pastel y
el tipo de transacciones con tarjeta de crédito en su prevalente o
no problema para el entrenamiento y el nivel
moderado de hombres Después veremos exploración de datos,
manipulación, modelado de datos, ajuste del
modelo de regresión logística, árbol de decisiones, redes neuronales
artificiales,
todas esas cosas servirán. Pero antes de eso, necesitamos
entender en detalle el
fraude y su tipo. Entonces, si no estás al tanto
del DOM o del
problema
que tienes en la mano, no podrás
dar la solución adecuada. Entonces antes de
saltar al proyecto, deberíamos estar sabiendo que Qué problema
vamos a mostrar. Entonces para eso, necesitamos tener la comprensión muy clara
de lo que cada fraude y qué tipo de fraude se está haciendo hoy en día en la
era de lo digital. Bien, entonces a primera
hora, cuando Internet no estaba ahí, esta gran parte de nuestras
transacciones digitales no estaban ahí. Entonces la gente solía ir al
banco y solían tomar el dinero ajustando un formulario
y luego el esquema de la tarjeta de cajero automático. Entonces la gente empezó a usar los
cajeros automáticos para retirar el dinero. Y entonces la gente empezó a
hacer los fraudes de cajeros simplemente manipulando al titular de la tarjeta
ATM con cicatrices y simplemente viendo la contraseña de alguien y
robando la tarjeta y
usando la tarjeta en IPM por esta Entonces este tipo de
suéter de fraude ocurría antes. Y con el incremento
del Davison y la banca digital hoy en día se están haciendo los
fraudes en línea Muy raramente lote. Entonces, ¿qué es el fraude? El fraude se define como
cualquier acto intencional de engaño para obtener ganancias personales
y financieras fraude se define como el acto intencional de preceptos y para beneficio personal
y financiero Entonces, si estás haciendo algo, si estás haciendo
este épsilon con alguien para tu
beneficio personal o ganancia financiera, entonces se
clasificará como fraude Implica faltar
la presentación, ocultación o manipulación
de la grasa para engañar a otros Y qué tipos de
fraude de tarjetas de actualización suceden en estos días Entonces tipos de fraude con tarjeta de crédito, Identidad, cuenta, tarjeta de
toma de posesión, no presente, fraude y tarjetas
falsificadas Y luego viene el skimming. Entonces entenderemos uno por uno. ¿Cuáles son estos tipos
de fraude con tarjetas? Entonces lo primero
es el robo de identidad. Entonces, ¿qué es el robo de identidad? Fraude nos acaba de robar
para estafadores, robar información personal
como números de seguro social o credenciales de inicio de sesión para
hacerse pasar por Entonces en esta situación, esta tilde, aparte de
información como fuente, algunos números
de seguridad u otro, nuestro número de tarjeta o número de tarjeta
prohibida o las credenciales
de inicio de sesión de tu banca Y los Kcat Dunbar
en algunos casos, para hacerse pasar por que
son Y luego iniciarán sesión con
los datos y
usarán tu información bancaria
para hacer las transacciones. Utilizan la
información robada para abrir cuenta
fraudulenta para hacer trayectoria
no autorizada. Con aquellos como tu
otra tarjeta cardio o PAN, pueden abrir una cuenta bancaria en tu nombre y
luego empiezan a hacer la suplantación de ti mismo y estarán haciendo
las transacciones, que estarán a tu nombre
pero no estás involucrado Entonces a eso se le llama robo de
identidad. Entonces viene la toma de posesión de la cuenta. La adquisición de cuenta
es otro tipo de fraude en el que los delincuentes obtienen acceso
no autorizado a una cuenta legítima de Meet al
robar datos de la cuenta
como contraseñas o número de
identificación personal Entonces en esto,
simplemente piratearán tu cuenta, te robarán tu contraseña, nombre de usuario ,
contraseña, y van a
tener tu cuenta asumida. Y luego
harán lo que quieran
con tu cuenta. Ellos toman el control de tu
cuenta y la utilizan para actividades
fraudulentas
como hacer compras, Arte,
transferir fuentes. Entonces, una vez que tengan el
control sobre tu cuenta, pueden hacer cualquier cosa. Pueden transferir el dinero de tu cuenta a
cualquier otra cuenta, o pueden comprar
cosas en línea y fuera de línea. Y no vas a
tener ningún acceso a tu cuenta porque tu
cuenta ha sido asumida, ellos
también pueden cambiar tu contraseña para que lo hagas, tú mismo no podrás
iniciar sesión en tu cuenta. El tercer tipo de fraude es fraude de
tarjeta no presente, que ocurre cuando se
realizan transacciones fraudulentas sin la
presencia física de la tarjeta de grado. Y lo muy común
es la transacción en línea o por teléfono
donde
los datos de la tarjeta
o los estafadores ingresados manualmente, enorme información de
tarjeta de crédito robada para realizar compras no autorizadas Entonces en esto, la tarjeta de grado no
estará físicamente presente, sino lo que harán, te
llamarán y te
pedirán que hagas un Jackson en particular
y te
pedirán la información de la tarjeta de niño Sobre la llamada y luego te
pedirán la OTP Y en cuanto le des
la OTP o tangentes y esté completa y tu
dinero se habrá ido, o van a estar comprando algo en tu nombre y
tu tarjeta de crédito
será cargada La siguiente etapa, las tarjetas
falsificadas, fraude como simplemente crear tarjetas de grado
falsificadas que se reúnen Entonces en este tipo de fraude, qué hará el estafador, crearán un rápido, obtendrán alguna información sobre tus números de tarjeta jaula Se contarán
todas esas cosas. Y crearán una tarjeta de aspecto
similar con un número de tarjeta de jaula similar
y el número CBP, que estaremos luciendo muy legítimos al original Y entonces pueden codificar la información de la
tarjeta de crédito robada en la tarjeta falsificada Y luego se utilizan
tarjetas falsificadas para realizar compras A menudo, sin el conocimiento de
los titulares de tarjetas Carter, posible que no sepa que su tarjeta de grado ha sido
falsificada y
alguien más está teniendo una tarjeta de crédito
duplicada del mismo número
que le
han asignado y la
usarán para las transacciones
fraudulentas Entonces este es otro tipo de fraude con tarjetas de crédito
que ocurre hoy en día. El siguiente es intrigar,
es skimming implica, legalmente, perdón,
skimming involucrado capturar
ilegalmente información de tarjetas de
crédito sin conocimiento de los titulares de tarjetas de
tarjeta, supongamos que le está dando a su carrito de carga en la tienda y sin su conocimiento
lo que están haciendo, solo
están anotando Si numeramos toda
buena información, fecha de
caducidad y todo este tipo de información cuando
la tienda puedan hacer de transacciones fraudulentas. Así que siempre que estés
poniendo tu auto sobre el mostrador para dy
dx y te
aseguras de que nadie esté tomando ninguna información de tu
tarjeta KD sin tu conocimiento. Y luego los manifestantes,
lo que haremos, este azulejo instaló los dispositivos
intrigantes o terminales de
pago o cajeros automáticos para capturar los datos de la tarjeta de crédito Recientemente en la India, un tipo
de fraude llegó a notar mes
pasado que estaban usando el carbón favorito
en los cajeros automáticos. Y con eso, estaban usando algunas técnicas
donde el cuando
insertas la tarjeta jaula o
tu tarjeta de crédito, la información
será capturada de alguna manera. Y luego más adelante, cuando te alejas de
los cajeros automáticos y ellos
harán las trágicas celdas en tu APM Y tal vez no estés
sabiendo que esto estaba
tramando para servir
sucediendo hoy en día Después utilizan la
información capturada para crear tarjetas falsificadas y
realizan probabilidad de giro Entonces este es el tipo de tarjeta de
toma de cuenta de robo de identidad que no está presente, tarjetas
falsificadas
y skimming o actividades
fraudulentas
se están Hay más tipos de fraudes también están ahí
como por teléfono, van a fingir que son empleados del banco y te
pedirán la suma
afortunadamente información, los datos de
tu tarjeta de crédito, los números de seguro
social, los números de
tarjetas bancarias son más oscuros Y entonces van a fingir que
te están dando algún premio o algo así. Están transfiriendo algo de
dinero para hacer tu cuenta, pero en realidad te van a
exigir el dinero y
te
enviarán un enlace. Y te pidieron que
hicieras clic en el enlace. Al hacer clic en
el enlace, más fuerte, no se
notará que se puso de pie
transfiriendo el dinero. Ellos están deduciendo el dinero
de tu cuenta y solo
ingresarás
la OTP y tu dinero
de tu cuenta
irá a la cuenta prevalente Entonces este tipo de fraude ocurre y necesitamos
saber cómo detenerlos. Y eso es lo que vamos
a hacer en este proyecto examinando al
guardia Jackson's. Y con eso, desarrollaremos
un modelo que detectará el tipo de transacciones y detendrá las actividades
fraudulentas
88. Importancia de la detección de fraude en línea: Ahora tenemos la breve
comprensión de lo que es el fraude y qué tipo de
fraudes ocurren en estos días Ahora, tenemos que
entender también por qué la trama detecta
y es importante. Entonces la detección de fraudes es importante, eso es uno obviamente entonces es prevenir la pérdida
financiera. Pero hay otra
región también está ahí, hay pocas otras razones
también están golpeadas una y eso es lo que
vamos a entenderla La importancia de la detección de
fraudes. Hay tres importantes detección de
fraudes importantes
que dice que están ahí. Y el uno es la prevención
de pérdidas financieras. El segundo es
productos y clientes. Y tercero es
mantener la confianza. Y estos tres
parámetros son muy, muy importantes para cualquier institución bancaria
o financiera. Porque si no va a proporcionar la
pérdida financiera por taxón, el cliente de
sus clientes
no va a quedarse con usted Si no estás protegiendo
el interés del cliente, entonces probablemente tampoco
contigo por más tiempo. Y si olvida hacer esto, la
preparación, la pérdida financiera
previene y termina los productos. Y nuestra pregunta
era la información, entonces obviamente perderás
la confianza del cliente. Por lo que también
es importante mantener la confianza. Entonces estas tres son cosas
que son muy importantes. Entonces primero, entendemos,
entenderemos esta prevención de pérdidas
financieras. El fraude puede resultar en pérdidas financieras
significativas para las personas, para las empresas y también para las instituciones
financieras. La detección de fraudes ayuda a
identificar y prevenir actividades
fraudulentas minimizando las pérdidas de
este embarazo. Por lo que el primer objetivo del producto axón
es prevenirlo, la pérdida financiera, pérdida
financiera parte
del individuo Gente como tú y yo,
para los negocios, la gente que está
haciendo negocios, y las propias
instituciones financieras. Como si alguien va
a venir y van a tener el banco, la cuenta bancaria misma. Y entonces él, el ejecutor
puede hacer el hacker puede hacer cualquier transacción en
cualquiera de los
clientes bancarios, Entonces para proteger su
cuenta también, es importante, ¿de acuerdo? Entonces, la prevención de pérdidas elegante es
una cosa tan importante. El segundo es proteger,
protege suficientes clientes. El fraude puede conducir al robo de
identidad, transacciones
no autorizadas y otra forma de daño financiero
financiero a los clientes, detectar y prevenir el fraude
y sella las protecciones de los activos financieros de los clientes
y el permiso personal. Así protege y un signo de
interrogación aquí. Significa que necesitamos
cualquiera de los dos institutos bancarios, si hay un banco, hay otras
instituciones financieras. Su
responsabilidad principal es mantener la información del cliente
segura y privada. Asegurar que
tienen que implementar esas especializaciones de detección de
fraude para
que los clientes, los activos
financieros y la información
personal sean c, es decir, seguros El tercero es mantener la confianza. La confianza también es muy
importante si tu banco, tu institución bancaria y constantemente
se están realizando actividades
fraudulentas en los conos. Entonces los clientes
perderán la confianza en ti, y luego
buscarán a otro banco. fraude socava la confianza en el
sistema financiero por actividad,
actividad detectando
y combatiendo el fraude Las instituciones financieras
y Venus pueden mantener la confianza en el apoyo de
sus clientes y
partes interesadas. Una sola vez. Supongamos que
usted es un banco, X, Y, j, y uno de los titulares de su tarjeta de
grado, cliente recibirá una
notificación cuando alguien intente hacer lo que
no autorizado tange Exelon, su Y antes de confirmar
esa transacción, solo llamas al cliente
y dices: Oye, la hay,
hay un arco tangentes y se están haciendo
$99
en tu tarjeta KD Egipto que estás haciendo en
este sitio web en particular. Y si el cliente
inmediatamente dice No, no,
no, no estoy haciendo
eso, por favor, detente. Y bloqueaste
esa transacción, declinas esa transacción. Y de esta manera, has
ahorrado 99 dólares para tu cliente. Y esto
seguramente aumentará la confianza que esa persona objeto
cliente en tu, en tu institución y seguramente te recomendará
tu herramienta instruccional Otros también, porque
sabe que
acabas de ahorrar $99 cantidad De esta manera, implementando
los salarios de detección de fraude a las instituciones financieras
a través de los negocios. Mejorará que se estrelló
también para tus clientes. Ahora entendamos qué tipo de
datos estadísticos sobre el fraude, qué tipo de fraude está ocurriendo
y cuánto cuesta el fraude porque
les cuesta a los negocios
y a los clientes Por lo que las pérdidas globales por fraude, según un informe la Asociación de Examinadores de Fraude
Certificados, ECF gratis, es una organización
global Las organizaciones globales
pierden y estiman el
5% de
los ingresos anuales por el fraude. Ver, las organizaciones globales
y las grandes grandes multinacionales están perdiendo el 5% de
sus ingresos anuales, lo
cual, lo que podría ser una cantidad muy, muy grande para
las amplias actividades Y esto se traduce billones de dólares
perdidos cada año Entonces, si implementas las carreras de detección de fraude usando inteligencia artificial
y aprendizaje automático, entonces puedes ahorrar estos billones de dólares
para El segundo es el fraude con tarjetas
Arcade. Ese reporte de Nielsen afirma que las pérdidas
globales por el fraude con
tarjetas de crédito superaron los 27 dólares, 27 dólares en
2020, lo que es una cantidad enorme,
enorme, y no
vale nada que
califique el fraude con tarjetas,
uno de los tipos de fraude uno de los tipos de Dada la
enorme tarjeta de actualización generalizada. Esto es un fusible. Los puertos de tarjetas comerciales son
muy medibles. Y se puede ver la estadística C0, 27 mil millones de dólares en 2020
Y ahora estamos en 2023 Por lo que podría haberse
duplicado con el incremento de la digitalización como
India en los últimos 34 años, van todos digitales y los
gases se utilizan muy menos Entonces en este caso, podría haber sido
levantada huella o mil millones de dólares también Por lo que la
detección de tarjetas de crédito es
muy, muy importante de implementar. El siguiente es el robo de identidad. Tan solo en Estados Unidos, la Comisión
Federal de Comercio, FTC recibió más de 1.4 millones de reportes de tipo de
identidad en 2020 Esto resalta
la prevalencia
del impacto del robo de identidad, que a menudo conduce
al fraude financiero. Entonces el fraude en línea,
con el aumento, creciente adopción del comercio electrónico y las transacciones
en línea, fraude
en línea se ha convertido en
una preocupación importante. El LexisNexis, esta
solución contiene 20 costos reales de
reporte de producto reveló que cada $1 de
transacciones fraudulentas cuestan a los testigos $3.36 debido a la carga vuelta apretón y
perdió Mark y dados Entonces este es el impacto. Empresas perdiendo $1. No es que
estén perdiendo $1, sino que indirectamente les
costará 3.3, 6 dólares según este reporte Y dijeron por las reversiones
de cargo, las tarifas y la mercancía perdida, estas estadísticas
subrayan la urgencia e importancia de implementar
medidas
efectivas de detección de fraude para mitigar finanzas y los posibles
riesgos asociados Y con esto, el conocimiento sobre el fraude es tipo y estrellas, qué impacto tiene según las instituciones
financieras, en los clientes, clientes individuales e instituciones
financieras
y debilidades. Ahora, estamos bien para
continuar con nuestros proyectos. Por lo que en la próxima conferencia en adelante, comenzaremos a hacer el sitio del proyecto
Excel de los productos de la tarjeta de fecha. La próxima conferencia
89. Cómo tratar un conjunto de datos desequilibrado: Entonces, antes de pasar a
la redacción del código para el proyecto, entendamos algunas cosas más sobre la detección de fraudes. Y esto es importante para hacer el proyecto como intentar antes de
comenzar el proyecto. Incluyendo la parte teórica que es muy importante para
potenciar tu aprendizaje. Entonces, en esta conferencia, entenderemos cuáles
son los desafíos
asociados a los modelos de
detección de fraude que podemos crear y
cómo superarlos. Así que comencemos. Desafíos asociados a
los modelos de detección de fraude. Por lo que hay algunos retos cuando vamos a nuestra mesa arriba o modelos de detección de fraude. Y uno de los muy
importantes son muy, eso ocurre con mucha frecuencia. Es decir, conjuntos de datos desequilibrados. Así desequilibrado dataset
o los conjuntos de datos. Supongamos que vas a hacer detección de fraude para la tarjeta
Kd y ya sabes, las actividades de fraude de tarjetas
Arcade son muy menos como
0.1% o 0.001% Lo más probable es que una actividad
o transacción de tarjeta de crédito sea la fraudulenta. Entonces, cuando tenemos el conjunto de datos, que están teniendo la mayoría
de las transacciones para nuestros cuatro autos
en todo el mundo. Le dejaremos compañero de equipo uno
deja pocos lagos en un lakh, 1 millón de cartuchos
x y
habrá pocos cientos de transacciones
que serán fraudulentas Entonces, cuando recojamos el conjunto de datos, habrá la mayor parte del 99%
del conjunto de datos contendrá las celdas de transacciones
legítimas, solo pocas de ellas
serán el fraude Entonces cuando creamos un modelo, o los modelos siempre
favorecerán a la mayoría. Entonces en este caso, lo hará, siempre, sea cual sea la
transacción que vaya a suceder, lo activará
como legítimo porque las
transacciones fraudulentas son muy menores, nuestros modelos no aprenderán
mucho sobre el producto. Jackson's y porque 99%
conjunto de datos que contiene las transacciones
legítimas, siempre favorecerá a la transacción
legítima. Por lo que no
lo activará muy raramente
activará alguna actividad fraudulenta. Por lo tanto, el conjunto de datos desequilibrado es
uno de los desafíos asociados con nuestro modelo de detección de
fraudes Las transacciones fraudulentas son relativamente raras en comparación con las
transacciones legítimas. Entonces el conjunto de datos sacudido y
desequilibrado, la mayoría de los
supuestos de Jackson se reunió, mientras que solo una pequeña parte de las transacciones son fraudulentas Este desequilibrio de clase
plantea a
los compañeros de clase la transacción fraudulenta y
legítima Por lo que este desequilibrio de clases
plantea desafíos para los modelos de
capacitación, ya que pueden llegar a estar sesgados hacia
la clase mayoritaria, lo que lleva a un trabajo deficiente en detectar instancias de productos de
configuración. Entonces ahora entendimos
lo que es este E, Así que esto es dos está relacionado con la mayoría del
conjunto de datos
contendrá las transacciones legítimas porque las transacciones
fraudulentas
son muy menores. Entonces. Esto llevará a
la palabra que toma suficientes
instancias fraudulentas por nuestro modelo. Otra son las técnicas de
fraude adaptativo para que evolucionemos constantemente
sus técnicas para bifosfato los sistemas de
detección Entonces, sea cual sea el sistema de detección, cómo desarrollamos a los defraudadores están un paso por delante y ellos
desarrollarán y evolucionarán sus técnicas para evitar
que detecte Adoptan sus métodos, haciéndolos más difíciles de identificar. Uso tradicional basado en reglas. Nuestros enfoques basados en patrones. Según los cargos,
los modelos de detección de fraude deben
operarse regularmente para mantenerse al día con el soporte emergente del
patrón de fraude. Tienes Deb Love en un enfoque
basado en reglas
o un enfoque basado en patrones Y hemos desarrollado uno
para sistema de detección. Y no lo estás actualizando. Pero con el tiempo, los manifestantes, van a estudiar,
van a desarrollar
técnicas y sólo
van a establecer un falso
sistema de detección y van a Empezar a hacer la actividad
fraudulenta Por lo que es muy importante adoptar las técnicas y potenciar tus modelos cada pocos
meses para que estés, yo encabezo a los manifestantes El siguiente problema es la
evolución del patrón de fraude. Por lo que los patrones de fraude no
están limitados. Apoyo. Tienes
un conjunto de datos donde estás desarrollando un
modelo y hay pocos patrones que
hayas reconocido
el modelo reconocido y se ha desarrollado un mecanismo
para identificar y activar una batuta fraudulenta mientras
Nixon continúa Pero qué pasará
que los estafadores reinventen o
seguirán inventando nuevos patrones que no están ahí
en el conjunto de
datos Y por eso, o los modelos no están
entrenados en eso. Entonces, si nuestro modelo no está encendido ese no reconocerá ese patrón y
activará que actividad legal legítima de
Azure no se detectará la actividad legal legítima de
Azure
y la actividad
fraudulenta Así que evolucionando patrón tenso. Otro reto
en la detección de fraudes. Los patrones de fraude cambian con el tiempo, lo
que hace que sea un desafío para los modelos de detección de
fraude capturar nuevas y emergentes técnicas de
fraude. Los modelos necesitan ser capaces de detectar patrones de fraude
desconocidos o nunca vistos sin
depender únicamente de datos históricos Entonces tenemos que hacer nuestro modelo de
tal manera que pueda detectar
una transacción fraudulenta, aunque
no se haya sucedido a ese pie tangentes y
no haya ocurrido anteriormente,
o no se trate de datos históricos Por lo que también debería reconocer
el nuevo patrón. Entonces ese es otro desafío
problemático que está siendo alimentado por los sistemas de detección de
fraudes. La escalabilidad y el procesamiento
en tiempo real es otro reto muy grande
en la detección de fraudes Proceso
del sistema financiero a gran escala de toda la cantidad de
transacciones en tiempo real. Los modelos de detección de fraude necesitan manejar grandes
volúmenes de datos de
manera eficiente y proporcionar análisis
en tiempo real para identificar la actividad
fraudulenta de manera
muy rápida. Esto requiere una
infraestructura robusta y optimizar algoritmos para garantizar la escalabilidad y el procesamiento
en tiempo real Entonces este es otro reto muy importante
y muy grande, escalabilidad y el procesamiento
en tiempo real Ahí se piden los datos. Si queremos detectar una transacción fraudulenta
y quieres
activarla para tener
solo muy pocos segundos, hay
seis a 8 s de tiempo para detectar, activar e identificar la transacción
que es fraudulenta. Si pierdes ese marco de tiempo, seis a 8 s,
pasará por él. Por lo que es cronometrado
el procesamiento en tiempo real es
muy, muy importante y esto debería
ser muy rápido puede incitar Entonces esa es otra cosa. Luego, Feature Engineering, que se
presenta en el desarrollo modelo de sistema
de detección de fraude y
efectivo ,
requiere conocimientos e ingeniería de
características Identificar características relevantes que capturan la detección de fraudes. El fraude o los patrones eléctricos son cruciales para una detección precisa. Sin embargo, seleccionar el
conjunto correcto de características y crear representaciones
significativas
de datos puede ser un desafío y requerir conocimiento del dominio
y realmente activo. Intenté experimentar
privacidad, fraude constante,
detectar, involucrar procesar datos
confidenciales de clientes, leer preocupaciones de privacidad. Es fundamental
garantizar el
cumplimiento de la normativa
y mantener la seguridad de
los datos a lo largo de todo el proceso de
detección de fraudes. Siguiente celda en este falso positivo
y falso negativo,
lograr el equilibrio adecuado entre la minimización de falsos positivos,
bandera
de transacción
legítima, fraudulentas,
y transacciones fraudulentas falso-negativas lograr el equilibrio adecuado entre la minimización de falsos positivos,
bandera
de transacción
legítima, fraudulentas, y transacciones fraudulentas y Y lo desencadenado
como transacción legítima
es un reto. Una alta tasa de falsos positivos
puede incomodar al cliente, mientras que una alta tasa de falsos negativos puede provocar pérdidas financieras Ajuste fino de los parámetros del
modelo. Y siempre es necesario
optimizar el rendimiento. Entonces, ¿qué es el falso positivo? Falso positivo significa que las transacciones
legítimas se marcan como fraudulentas Entonces, ¿qué pasará
en este caso? Soporte en usuario que estaba usando su propia tarjeta de crédito
y haciendo alguna transacción Que su modelo
desencadenará Azure fraudulento. E inmediatamente llama a
ese cliente y
le dice que está haciendo en
su tarjeta de crédito algunos proyectos de patria
y se está haciendo Entonces, ¿qué pasará si ese cliente él
mismo está haciendo eso, transacciones y se
irritará porque es
tangentes y ha sido detenido Entonces en este caso, falsos positivos crearán muchísimos inconvenientes
para el cliente Y si va a suceder
una y otra vez, va a
irritar mucho al cliente De igual manera, los positivos de falla, los falsos negativos también pueden
llevar a las finanzas Si se pierde una
transacción fraudulenta y está
pasando por el sistema, entonces Gordon
provocará pérdidas financieras. El tablero, tenemos que
equilibrar el falso negativo y el
falso positivo de
tal manera que
ambos casos
ocurran muy poco. Capacidad inter, inter trastada y
explicabilidad. técnicas modernas de aprendizaje automático, como aprendizaje
profundo, pueden proporcionar modelos de
detección de fraude
altamente precisos. Sin embargo, a menudo
carecen de interpretabilidad, lo que
dificulta explicar las razones detrás de las decisiones del
modelo La capacidad de interpretar
y explicar los resultados del modelo es crucial para ganar confianza y aceptación por parte
de las partes interesadas. Y abordar estos
desafíos requiere una combinación de técnicas avanzadas de
modelado, monitoreo
continuo de pericias de
dominio,
colaboración entre
los científicos de datos,
desatados colaboración entre
los científicos de datos y
expertos de dominio para construir
un fraude robusto y adaptativo
detectar Bien, ahora, discutiremos algunas técnicas con las que
lidiamos con el conjunto de datos
desequilibrado Porque en nuestro proyecto
vamos a utilizar un conjunto de datos o una transacción con tarjeta de
crédito que está desequilibrada
en la naturaleza porque la
mayoría de las transacciones
son alrededor del 98,
99%, la excelencia Tange son tan legítimas y una hoja
1% y los exones están ahí,
lo que desencadenará para
el lo que desencadenará para manejo
fraudulento Hacer frente a un
conjunto de datos desequilibrado es un paso crucial en el desarrollo de modelos efectivos de detección de
fraude Aquí hay varias técnicas
comúnmente utilizadas para abordar los desafíos que plantea
el conjunto de datos desequilibrado La primera técnica es estas técnicas de muestreo de
remuestreo con agua Vamos a muestrear datos,
tenemos, tenemos dos. Necesitamos remuestrear eso para que se pueda gestionar
el desequilibrio en el
conjunto Y hay
algunas técnicas en el remuestreo también
que podemos aplicar El primero es el submuestreo. Las técnicas de submuestreo
implican el juego aleatorio eliminando instancias
de la clase mayoritaria para equilibrar el conjunto de datos Reduce el dominio
de la clase mayoritaria, pero puede resultar en la pérdida
de información valiosa Entonces, si seguimos eliminando
aleatoriamente a la clase mayoritaria, puede
resultar en la pérdida de información
valiosa también, pero esto también
se está haciendo. ¿Bien? siguiente es sobremuestrear
estas listas de verificación implica creación
de instancias sintéticas de las clases minoritarias para equilibrar el En este caso, lo que hacemos, llenamos el conjunto de datos con
la clase minoritaria. Se puede lograr
a través de técnicas como sobremuestreo
aleatorio o sobremuestreo minoritario modelo sintético
inteligente sobremuestreo inteligente aumenta
las representaciones de la clase minoritaria, pero puede llevar al sobreajuste Entonces esto llevó al
problema del sobreajuste. Modelo híbrido. Estos modelos combinaron técnicas
de sobremuestreo y submuestreo para equilibrar el conjunto El siguiente son las técnicas algorítmicas
. El primero es el aprendizaje
sensible al costo que n. Entonces ambos métodos, detección de
anomalías es
otra técnica, métricas de
evaluación y
características en cada momento estas son técnicas con
las que
trataremos el conjunto de datos
desequilibrado Entonces en nuestro proyecto
vamos a lidiar con este conjunto de datos desequilibrado
con todo el muestreo,
en el que sobremuestremos nuestro conjunto de datos con nube
dopaminérgica con este conjunto de datos desequilibrado
con todo el muestreo,
en el que sobremuestremos
nuestro conjunto de datos con nube
dopaminérgica que es actividades fraudulentas. Entonces nos vemos dentro
de la siguiente conferencia.
90. Detección de fraude con ningún modelo: Hola y bienvenidos de nuevo. Entonces comencemos
con el proyecto. Entonces aquí estoy usando un archivo csv punto de tarjeta de
crédito, que contiene los detalles de las transacciones de la
tarjeta de crédito. Bien, Entonces nosotros, el primer paso
es leer este archivo CSV. Entonces por hacer eso, así que para hacer eso, lo que pierdo, pierdo la función
CSV de puerta y paso la ruta para el
archivo CSV y el nombre del archivo TSV Entonces lo más sucio lo
rotaremos
y luego lo guardaré en
ellos Variable de tarjeta de grado. Tan importante que sí, es así porque
¿lo conoces? Muy bien. Hasta el momento
paso es ejecutar esto. Entonces ahora tenemos los
detalles de la tarjeta de calificación en esta tarjeta de calificación, bien, en esta variable. Entonces al hacer clic en eso, ahora se puede ver aquí
hay algunas columnas
tiempos V1, V2, V3. Y este V1, V2, V3 va a leer 20. Y luego la columna es cantidad, y luego otra es de vidrio. Entonces quieres ser 28 y luego marca de tiempo y luego cantidad
columna y columna de clase Entonces, ¿qué son estas columnas? Timess, timestamp y este V1, V2 hasta V 28, detalles de
transacción de la tarjeta
Arthur Jackson de Y por qué es así,
porque esta no son las transacciones reales
para
la región de secularidad Y para mantener la información de la enorme
información de la tarjeta Arcade segura y protegida. Mediante el uso del PCM. Nosotros tenemos. Estas columnas son la versión reducida de los datos reales para mantener el sector de información del
usuario. Y para ello,
utilizamos BCM y utilizamos modalidad
diamante para
reducirla a esta forma para
que la
información del juez rechace tu hay una cantidad y luego
hay una clase clases es para euro el presentador
ledger transacciones y
una representa transacciones fraudulentas una representa transacciones fraudulentas Entonces esta es la rehabilitación del conjunto de datos, y vamos a
caminar sobre este conjunto Entonces lo siguiente es, veremos la estructura del conjunto
de datos. Y para eso usamos la función STR y
pasamos esta variable de tarjeta. Y cuando ejecutemos esto, lo haremos, los estaremos dando, esto dará el resultado. Sigue corriendo. Empezar para la
estructura de los datos. ¿Bien? Lo siguiente es que esta es la estructura de la marca de tiempo
del conjunto Entonces aquí puedes ver que todas
las columnas son numéricas. Y entre estos numéricos
y el vidrio aquí, que está aquí es
numérico GTO uno Pero en realidad esto
no sea numérico, sino que así sea, es un dato
categórico, ¿verdad? Porque lo es, el factor
determinante para el euro es para el
legítimo y 1 "más allá Una es para las
transacciones fraudulentas
así que esto estaría en el formato
categórico Entonces, lo que tenemos que hacer, tenemos que
convertir esto en el factor. Necesitamos convertir este
entero al factor. Y para eso, lo que voy a hacer y usar la tarjeta de crédito
dólar, compañeros de clase de dólar,
vamos a usar la esta clase ¿Bien? Esta columna. Bien, entonces puedes leer la clase de llamada al
dólar nos
llevará a este color. Y luego usaremos
la función factor para convertir esto en el factor. Y luego aquí otra vez, vamos a dar clase de dólar
de tarjeta de crédito y luego niveles de coma Se puede ver 01. Entonces estamos asignando factores del G21. Esto a esto. Entonces de esta manera
se convertirá a la, convertirla a los factores. Entonces antes era Integer. Ahora bien, si vemos la
estructura del conjunto de datos, si vuelvo a ejecutar esto, ahora puedes ver aquí todas las
demás columnas son nómadas y el vidrio no es factor
de dos niveles. 01. ¿Bien? Así que ahora hemos convertido
con éxito la columna de vidrio dos
factores valiosos. ¿Bien? Ahora de nuevo,
veremos la estructura del conjunto de datos y
el factor de gafas de
aviso. Lo siguiente es verificar
ese valor faltante. Así que cada vez que obtenemos nuestro conjunto de datos, lo primero que
verificamos para los valores nulos. Si no hay valores, tenemos que abordarlos. Necesitamos manejar los
valores nulos poniendo algunos perdedores, quitando las columnas, pisos, que están conteniendo más
número de valores nulos Entonces hay algunas técnicas que seguimos para
manejarles valores faltantes. Y aquí para comprobar los valores
faltantes que usamos es oscuro cualquiera y repartir
el conjunto de Y pulgar apagado es
un a nos dará el número total de
valores faltantes en el conjunto de datos. Parte de es NA oscura, y luego la
variable de conjunto de datos aquí pasará. Así que vamos a, déjame correr esto. Ahora viene a cero. Significa que nuestro
conjunto de datos
no contiene valores faltantes para que
ignoren los valores faltantes. Entonces no tenemos que
preocuparnos por eso. No necesitamos hacer
nada por eso. Lo siguiente es obtener la distribución del fraude y la transacción legal
en el conjunto Entonces ahora para eso, usaremos la
función table y pasaremos la columna de vidrio porque columna de
clase es el factor de
distribución que
dirá cuál es fraudulenta y cuál
es transacción legal Así que tarjeta de crédito, dólar,
clase, y mesas. Por lo que esto nos dará el número de transacciones y el número
de transacciones fraudulentas. Entonces cero es 28,004 a como
84 veces tres obtenemos es la
transacción del libro mayor un ascensor 492 o las
transacciones fraudulentas Así que aquí con esta semana, Gamble sabe que este es el conjunto de datos desequilibrado
porque la mayor parte del conjunto de datos, cada uno teniendo sus tangentes y
ágil transacción legit
y solitario de dos patas
34,300.492 como una transacción fraudulenta,
que es muy menor en comparación con la transacción que Entonces este es un tipo de conjunto de datos
desequilibrado. Ahora veremos cuál
es el porcentaje
de legítimo y para el conjunto de datos de Berlín, transacción
fraudulenta
en el conjunto Entonces para hacer eso, usaremos la función de
tabla de puntos prop. Y pasaremos esta tabla, y pasaremos
esta clase de columna. ¿Bien? Entonces, déjame ver. Tu 99.8% es el fraudulento,
lo siento, más tarde Angie, Excelente 0.017% son las
transacciones fraudulentas. Entonces lo siguiente es,
déjame ponerlo esto
en los gráficos circulares. Entonces, para crear un gráfico circular, lo que haremos
primero vamos a crear una lógica y producto
dos vectores aquí. Y luego lo
asignaremos a niveles, y luego crearemos
otro nivel. Y usaremos la
función paste basada en estas etiquetas. Entonces tomaremos los niveles, este legítimo, y luego
usaremos los cientos redondos
en mesa de utilería Esto nos dará
el porcentaje del porcentaje de las transacciones legítimas
y fraudulentas Y aquí coma dos y fuimos
porque quiero eso aquí, es un número de dígitos
después de decimal Quiero
restringirlo al dígito y luego Niveles, niveles
y porcentaje. Y luego usaremos la función
pipe. Aquí. Pasarán la tabla K más este nombre de columna en la que
quiero trazar mesa ICE y luego
etiquetar esta fiar y fraude Y luego la columna A colapsar o cada color
tiene un Android verde. La parte verdosa, los leptones
excelentes leer más, fraudulentos y
manejan igual a pi Este será el rumbo
de nuestro gráfico circular. Entonces déjame correr todo esto juntos. Y realmente
se había hecho por gráfico aquí, transacción
legita en 99.83
y fraudulenta y vino 17 Vamos a ejecutar esto de nuevo. Aquí. El gráfico circular son tus clínicas de contabilidad y su
99.83 y eso es tres, todo viene verde Y el rojo es por
sólo 0.17% listo menos. Entonces este es un conjunto de datos verdaderamente
desequilibrado. Ahora bien, lo que voy a hacer, sólo
voy a tratar de predecir
con el modelo normal la predicción no
va a utilizar ningún algoritmo de
aprendizaje automático y religioso tratar de predecir
sin una botella. Entonces, para esa etiqueta x e y y sin embargo una gran repetición
o función, son traídos a GTO Entonces qué voy a hacer y
remar con tarjeta de crédito. Entonces en nuestro conjunto de datos para todas las filas y ROI
dará ese número acercándose a
ese conjunto de datos de tarjetas Kate. Y para todos el cohete
repetirá cero, llenará ceros Entonces todo el proyecto se va a convertir como una transacción de
libro mayor. Y luego usaremos el factor predicen sentido y
niveles G fila uno. Y luego déjame correr esto. ¿Bien? Y si pongo
predecir sentido, Bien, y predicciones,
bien, y luego voy a usar la biblioteca de
personajes aquí. Porque voy a usar
la matriz de confusión. La
matriz de confusión, y un jefe, este dato, como lo
llamas una predicción, este y hace referencia a la clase de dólar de tarjeta de
grado. Y si ejecuto estas métricas de
confusión, vean que está cargada
hasta la predicción. Ver la precisión de
este modelo es 99.83. Por lo que todas las transacciones han
sido clasificadas
correctamente como legítimas. Todas las transacciones del libro mayor se clasifican correctamente como de fiar. Y esta enfermedad, los aditivos y
esto es negativo. Entonces esto para 92 o las transacciones
fraudulentas que no se clasifican como transacciones
fraudulentas. Por lo que todas las transacciones en el conjunto de datos han sido clasificadas
como Leggett y exones, incluso esto por 92 tan x
y Nuestro modelo de predicción no se
ha perdurado como una transacción fraudulenta que ha ido a la transacción del
libro mayor Entonces, debido a que este es un conjunto de datos verdaderamente
desequilibrado, nuestro modelo de
predicción está prediciendo todo como un legítimo porque no se está entrenando en
los datos fraudulentos porque es muy
menor y
por eso todo va a entrar en
la verdadera Entonces esta es la predicción basada en la predicción del modelo normal. No hemos utilizado ningún modelo y algoritmo de aprendizaje
automático. Entonces, en la próxima conferencia, usaremos un algoritmo de
aprendizaje automático para manejar este conjunto de datos
desequilibrado Y trataremos de predecir
de una mejor manera. Nos vemos dentro de la siguiente conferencia.
91. Creación de conjuntos de datos de entrenamiento y prueba muestreo: Hola y bienvenidos de nuevo. Entonces en esta conferencia vamos
a adentrarnos más
en nuestro proyecto. Y lo que voy a hacer aquí, me voy a llevar la cosa. Lo que haremos, tomaremos los datos de muestra de los datos
actuales de la puerta que tenemos. Entonces, lo que haremos, tomaremos el diez
por ciento de los datos
del
conjunto de datos existente en la muestra. Y sobre eso, intentaremos
crear un modelo. Y luego cuando esté dando predicciones
correctas, aplicaremos ese
modelo al conjunto de datos. Entonces, para hacer eso, ¿cuáles son las cosas que podemos hacer? Voy a usar
una biblioteca D-flat. Entonces solo lo descargaste. Si no es descargarlo. Y luego hiciste biblioteca, vamos a usar
y luego establecer semilla. Uno, este reporte, porque cuando tomo el 10% de este conjunto de datos de tarjetas de
crédito. Entonces, si no
pones set seed pool, entonces lo que sucederá cada vez que tomará aleatoriamente
el diez por ciento de todo el conjunto de datos y cada vez será
diferente, diez por ciento. Entonces por esa razón
queremos la misma configuración, 10% cada vez que ejecutamos este código. Hasta el momento que pierdo uno. Bien, así que vamos a ejecutar esto. Y luego Cape Cod. Bien, lo refresqué. Así que déjame intentar volver a ejecutar
todo el código. Bien, así que mira ahora hemos tomado el diez por ciento de esta tarjeta. Este es el
conjunto de datos completo de esto, estoy tomando muestra,
subrayado frack, esta función estoy usando
y estoy dando 0.1,
0.1 min, 10%
del conjunto de Entonces estoy tomando el flujo
de 10% paréntelos
del conjunto de datos y
asignándolo a esta guardia de puerta Valioso. ¿Bien? Y luego cuando ejecuto esto, se
puede ver ahora que hemos hecho la misma configuración,
filas y columnas. ¿Bien? Entonces usaré mesa, y voy a usar esta clase. Entonces déjame dirigir esto. Ahora. Tenemos al becario aquí alternando de un
lado a otro o algo así Entonces el 10% de eso. Bien, y aquí el legítimo
es 28,000 y no
protestante y Bien, entonces ahora hemos tomado el diez por ciento de todo
el conjunto de datos. ¿Cuáles son las cosas? Ahora usaré la trama GG
para solo usar esto. Y si no se descarga, lo descargas y
lo instalas y luego lo usas. ¿Bien? Y aquí lo que voy a hacer, voy a tratar de esparcir la gráfica aquí. Y para este año sin embargo, esta persona muerta que
hemos creado hace un momento, anestesia puede usar
los ejes x e y Hacemos columna y
colores y otra vez, hechos bajo clase de
último minuto cero o uno Un frente de punto legítimo
de largo, ¿de acuerdo? Puntos Geom, no, no
renta en blanco y negro. Haz equipo con tu gráfica. Para que se vea en blanco y
negro. Y escala manual de color
aquí en azul y negro. Azul y rojo, perdón, no negro, azul y rojo. Color azulado. El euro y la guerra por
un rojo y azul cada transacciones del
libro mayor y rojo o las transacciones fraudulentas. Entonces déjame ejecutar esta herramienta Bien, así que mira aquí, ahora tenemos este diagrama de dispersión. La clase que representa
0.1 representando, pero aún así está desequilibrada Hay tantos Jackson que sólo unos pocos de ellos
en el fraudulento. Bien, entonces ahora tenemos el 10% de los datos y lo hemos
trazado con éxito Lo siguiente es que necesitamos
crear el conjunto de capacitación y prueba para la creación del modelo
de detección de fraudes. Bien, para esto,
voy a ver herramientas. Si no ha instalado esto, puede instalar
usando install.packages. Y puedes ver hacia
el back-end para ello, quieres instalar la biblioteca Todos usan biblioteca. Y a compra este nombre de Seattle. Y lo he hecho, entonces voy a usar eso para sembrar 123. Y luego tomaré
la muestra de datos. Y lo que voy a hacer, voy a dividir esta muestra de datos
que hemos tomado 10%. Ahora, este 10% de datos
y se dividió en 80, 2080 para el entrenamiento
y Bronte para la prueba Sin embargo, voy a dar el punto de
muestra dividir la clase de tarjeta de crédito en
base a esto, ya sabes, y uno el clasificador
y luego te dividiré carrera, voy a dar puntiagudo,
puntiagudo 80% para entrenamiento y 20%
compró el punteado Bien, y lo siguiente
son los datos entrenados. Y tome el subconjunto de esta muestra de datos y subconjunto de muestra de
datos, uso
funcional y tarjeta de calificación. E hizo una muestra se
llama a tos 2 min. Déjame correr esto primero y luego te
diré por qué no te
volviste verdadero y falso. ¿Bien? Entonces, cuando ejecutamos esta muestra de datos, eso no policía
que contenga verdadero falso, verdadero, falso, verdadero, falso. Cierto es para la
transacción del libro mayor y faltas para los pulsos para
las transacciones fraudulentas Bien, entonces ahora tenemos
la muestra aquí. Entonces lo que voy a hacer, voy a
tomar los dos ALU y voy a conseguir los valores
falsos aquí Entonces déjame correr estos datos de tendencia y estos
serán los datos de prueba. Así que el conjunto de datos de entrenamiento
y este conjunto de datos. Ahora bien, si queremos conocer el sentido del diamante
de ese conjunto de datos de tren y entrenamiento y
el conjunto de datos, puede usar un nombre de función dim,
entrenar datos de subrayado 22,007, 85 filas y 31 columnas. Y para theta 5,696.31 columnas, las filas y las Así que de esta manera podemos obtener el
tren y el conjunto de datos de prueba. En la próxima conferencia
avanzaremos en la creación del modelo
predictivo
92. Métodos de muestreo aleatorios sobre y debajo de muestra: Entonces ahora tenemos los
datos de prueba y datos de entrenamiento. Vamos a manejar el conjunto de datos
desequilibrado. Entonces hay dos, hay tres enfoques
que vamos a ver en este proyecto. El primero es el sobremuestreo
aleatorio. Y luego veremos el submuestreo
aleatorio, y luego los veremos a
ambos juntos. ¿Bien? Así que permítanme comenzar con
el sobremuestreo aleatorio Entonces, ¿qué es el sobremuestreo aleatorio? sobremuestreo aleatorio significa
que necesitamos poner un 50,
50 por ciento de los casos de fiar
y fraude. Bien. Entonces para eso, lo que voy a hacer, voy a usar los datos del tren
y sobre esta mesa de cristal. Y déjame correr esto. Entonces mira aquí ahora
tenemos la rosa legit,
22,007, 50 y por nuestra
histórica fuga de 35 años Bien, entonces esto está desequilibrado, así que necesitamos
sobremuestrear aleatoriamente este sobremuestreo aleatorio
significa que necesitamos
ponerlos a ambos como acuerdos
por alumno Tenemos que hacerlos iguales a
ambos. Entonces para ese número analítico de transacciones se llaman
colágeno, Ashley 22,007, 50 Y lo que estoy queriendo hacer
nueva arena frac muchas veces de fiar, bueno es como, lo que quiero 50% Bien, entonces ahora recopilaré
el nuevo y total,
nuevo y el número total de filas
requeridas en nuestro nuevo conjunto de datos
sobre el conjunto de datos de muestra. Entonces aquí lo que voy a hacer, voy a nuevo legítimo alérgico a este dividido
por la fracción de puertas
lógicas como
queramos para que hagamos y obtendremos un nuevo número Bien, entonces déjame dirigir esto. Entonces se trata de 45 mil 500 filas. Necesitamos como autobús esto, ¿de acuerdo? Entonces ahora voy a ser
usado paquete Roche aquí. Entonces, si no lo has instalado, solo lo
instalas.
De lo contrario. Simplemente enorme. Es bastante sólido
instalado aquí y crea un sobremuestreo valioso
y eso se llama jar Y tenía un enorme método de muestra de
puntos de gran ayuda. Y aquí voy a dar la clase
como variable, variable
independiente. Y este signo punto
dará todas las demás variables
disponibles en los conjuntos de datos. Y luego coma y
luego los datos son iguales a, estamos usando esos datos de tren,
entrenar datos de subrayado
que hemos creado Y entonces el método es sobremuestreo. Y n número de rosas, nuevas y totales que están
llegando a 45,500 Y semilla que estoy usando aquí, así que eso va a obtener el
mismo resultado cada vez. Entonces déjame dirigir esto. Entonces ahora se ejecuta. Ahora bien, si miramos esto o miramos el sobremuestreo
aleatorio, cobran, puedes
ver aquí 45 mil Da click aquí y podrás ver
lo siguiente es ahora, si quieres ver los datos, tenemos que usar el
sobremuestreo y eso se llama resultado datos de signo de dólar Por lo que nos dará el conjunto de datos. ¿Bien? Ahora, si nos fijamos en esta
tabla de conjunto de datos, sobremuestreo, crédito veremos ahí 45.500 filas y
casos con patas a 22,017, 50 y también se imprimirán los casos
fraudulentos tutorial ¿Verdad? Ahora, lo que voy a hacer, solo
voy a trazar esto con
la ayuda de GG plot. Entonces aquí, theta es igual a, voy a tomar este sobremuestreo de
grandes datos y v1 ¿Por qué? Hacemos clase color, clase, clase y punto geom
y azul delgado, lo mismo que
hemos hecho antes Entonces déjame trazar esto y ver
cómo se ven nuestros datos. Ahora, tengo sobremuestreo. Bien, Porque hago clic en precio. Vea aquí ahora nuestro nuevo conjunto de datos de muestra
o palabra ha sido así. Este es el diagrama de dispersión y
por qué estamos viendo todavía, estamos viendo muy menos casos
de tierras agrícolas como se lee La mayoría de ellos se ven en
azul solo porque por cada caso
fraudulento.
Hemos creado entradas duplicadas
mientras se sobremuestrea Y es por eso que cada uno de estos contendrá más
número de valores duplicados. Entonces por eso detrás de esto,
hay más puntos. ¿Bien? Entonces para mirarlo, para trazarlo mejor,
podemos usar la prueba t La prueba t te dará
más visibilidad al respecto. Entonces déjame decirte aquí. punto de geom para Giussani
es la posición cuadrupal, el detalle del subrayado y el ancho El punto de geom para Giussani
es la posición cuadrupal, el detalle del subrayado y el ancho. Podemos poner 0.2 o
puedo poner incluso 0.5. Y déjame correr esto. Ahora estos puntos serán detalles
un poco más grandes. Entonces eso va a llegar a saber
que hay más puntos. No sólo este punto,
porque mientras se sobremuestrea, no se duplica, se
creará el duplicado de los datos existentes Podía ver aquí. Entonces
ahora se puede ver que hay más puntos, puntos más grandes. Entonces esto es, esto es por
las cosas duplicadas. ¿Bien? Entonces ahora entendimos qué es el sobremuestreo y
cómo podemos hacerlo Bien, sobremuestreo es que
hay un problema con algo que podemos
crear los puntos duplicados Ahora veremos el submuestreo
aleatorio. Para submuestreo
también use lo mismo. Después subrayamos los datos. Y entonces aquí, número de filas fraudulentas
están ahí en esto. Sólo empieza si escribo N, el fraude será de 35. Sabía lo que quiero. Quiero el 50 por ciento del conjunto
de datos total. Y nuevo y total será
n fraude dividido por 0.5. Entonces eso nos dará el
número total de caminos requeridos para el submuestreo aleatorio.
Ahora estamos en esto. Nuevo y total serán 70, por lo que habrá una
lista, se requieren 70 roles. Si lo hacemos bajo
muestreo eso es bastante bajo y esto conducirá
a la pérdida de beta. Bien, De nuevo, para
otros aspirante, así que voy a usar el paquete. Entonces aquí voy a crear
submuestreo, subrayado, adulto y muestra propia.
Lo mismo voy a usar. Todo va a ser
igual excepto este metalúrgico a bajo método
será bajo muestreo Y aquí pasaremos el
nuevo total y asiento. Y déjame correr esto. Ahora lo hemos hecho
bajo datos de muestra. Ahora quieres ver
el conjunto de datos, USDA, bajo muestreo de los datos y submuestreo gran
escritor alquilará Nosotros dirigimos esto. Ahora tenemos
este submuestreo Lo que Lisa Monday
rueda por ahí. Y la mitad de ellos
son de fiar y
la mitad son fraudulentos Pero esto nos llevará a la
pérdida de datos si trazas esta misma cosa. A ver. Aquí. Legged y los
casos fraudulentos son casi iguales Pero aquí hemos perdido
casi 22,700 filas. Eso no es bueno para ningún
análisis ni ningún dato de predicción. Entonces, en la próxima conferencia, combinaremos
ambos submuestreo,
sobremuestreo juntos y
trataremos de predecirlo
93. Cómo usar ROS y RUS para equilibrar datos: Hola y bienvenidos de nuevo. Entonces ahora hemos visto cómo
podemos trabajar con el
sobremuestreo aleatorio ROS Y entonces hemos visto cómo
podemos trabajar con ese submuestreo
aleatorio,
sobremuestreo y
submuestreo que hemos Pero ambos tienen alguna desventaja ya que el
sobremuestreo también
causará llagas y el
submuestreo
provocará la suave o eliminación
de la mayoría de las filas, lo que puede impactar en la
toma de decisiones sobre la predicción y nuestros
modelos no serán precisos ¿Bien? Entonces enfoques usando
ambos juntos, significa
que el
sobremuestreo aleatorio y el submuestreo, ambos lo harán Entonces este método se llama tablero. Entonces aquí todo va a ser igual. Lo que vamos a hacer, voy a usar
y nuevo y Andrew, el número de filas en
el conjunto de datos de entrenamiento. Así será,
serán 12 mil
becarios de estudio tutorial 785 Bien. Entonces aquí podemos poner al mando y nueva inteligencia 785. Ahora, fraude de arena frac, nuevo, lo que queremos hacer
es encontrar 5%, 0.5 La mitad de eso serían
las transacciones fraudulentas y la mitad de las transacciones del
libro mayor de origen de datos. Ahora, tomaremos el muestreo, así que usaré la muestra de puntos y lo mismo que
hemos usado parámetro underclass Y entonces todos los demás van
a llegar con este punto resolver otras columnas realmente vienen entonces tren de datos
subrayado método de datos Aquí. Anteriormente hemos utilizado
el método por debajo y otra vez. Ahora usaremos ambos. Por lo que esto hará tanto
submuestreo como sobremuestreo. Y se puede hacer un guión bajo
nuevo y ser igual a flexionar y subrayar fraude o mala conducta conocía
el marco del viento Entonces seguimos siendo semilla. Así que eso va a conseguir
el mismo retarget. Lo siguiente, vamos a ejecutar esto. Y si quieres ver
el conjunto de datos de la muestra de niños donde
alquilarán y muestrearán, muestreo subraya los datos del dólar Entonces esto le dará tu
muestra porque saltaron. Entonces estos son los datos. ¿Bien? Ahora vamos a crear nuestra mesa. Entonces nos vemos ahora. 11,004, 31 es
menor o igual a cinco. Por lo que casi mismo número hasta casos
legitos y fraudulentos. Entonces esto es una especie de
poco equilibrio. ¿Correcto? Ahora crearemos la mesa de utilería. Y aquí se puede ver
el porcentaje de los, tan legítimo, trágico, casi no son la persona
apropiada Y el 49% son las transacciones de la
patria. Ahora bien, si trazamos
esta distribución, usaremos la misma parte de examen, esta o este conjunto de datos. Y queremos y rehacer x e y.
y se hacen colores fríos en el vidrio y geom
punto G y 0.3 Bien, vamos a ejecutar esto. Entonces C sin embargo esta es
la gráfica de dispersión. Y nos vemos en los puntos
azules todavía están, se
puede ver que
viene más de, pero en realidad no es esa cosa porque tenemos una muestra robusta y otra muestra o la muestra. Entonces los casos legged con
menos en el conjunto de datos, por lo que se duplica de esos admin crean y
ahí es donde se superpone Entonces el rojo y el azul son casi iguales, pero las tasas se superponen. Uno de la derecha se
ve como menos uno, pero se puede ver. He usado el detalle aquí. Entonces ese es rasgo viene
como un poco nervioso. ¿Bien? Entonces ahora hemos visto cómo
podemos hacer el sobremuestreo,
submuestreo y usar
ambos juntos A continuación, utilizaremos la técnica de
sobremuestreo de minorías sintéticas para equilibrar los datos Que se llama técnica
inteligente. Y para ello, también usaremos la biblioteca de la familia
Smart. Y en la próxima conferencia
aprenderemos más sobre el
deporte y luego
escribiremos el código para la técnica inteligente para el sobremuestreo de minorías
sintéticas Bien, entonces nos vemos dentro
de la siguiente conferencia.
94. Ventajas y desventajas de SMOTE: En esta conferencia,
vamos a aprender sobre sobremuestreo de minorías sintéticas
pequeñas,
que es una técnica muy popular
sobre muestreo, utilizada para abordar el problema del desequilibrio de clases en el aprendizaje
automático Funciona mediante la creación muestras
sintéticas de
clase minoritaria que son similares a las muestras de clase
minoritaria existentes. Esto ayuda a equilibrar la distribución de
clases y mejorar el rendimiento de los modelos de aprendizaje
automático
en conjuntos de datos desequilibrados Entonces esto realmente
resolverá el problema que
enfrentamos en los métodos de sobremuestreo y
submuestreo Por eso se le llama técnicas
sintéticas de
sobremuestreo minoritario De modo que esa transacción
que es minoritaria, sobre-muestreará a
esa clase minoritaria, pero en una semana muy sintética Entonces aún así esta es también una técnica de
sobremuestreo solamente, pero poco diferente Entonces veremos cómo se hace. Estas son algunas de las ventajas
de la técnica inteligente e inteligente. Es una técnica realmente simple y
fácil de implementar. Se puede utilizar en una variedad de algoritmos de aprendizaje
automático. Puede ser eficaz para
mejorar el rendimiento de los modelos de aprendizaje
automático
en conjuntos de datos desequilibrados Entonces lo primero es que es muy sencillo y
fácil de implementar. Y también se puede usar con una variedad de
algoritmos de aprendizaje automático Y mejorará el rendimiento de los modelos de aprendizaje
automático. En conjunto de datos desequilibrado. También hay algunas desventajas
de smart. Puede crear muestras sintéticas que son demasiado similares a las muestras de
clase magnética existentes, lo que puede llevar a un sobreajuste Por lo que esto puede llevar al
sobreajuste porque sobre-muestrear la base de datos
en las muestras de clase
obligatorias existentes Por lo tanto, puede llevar al conjunto de datos de tal
manera que se lo comería puede sobreajustar el modelo
y nuestro modelo
no predecirá el resultado correcto Puede aumentar el
ruido en el conjunto de datos, lo que también puede conducir
a un sobreajuste Puede ser computacionalmente
costoso, especialmente para grandes conjuntos de datos
ya que estamos Y si el conjunto de datos ya
es grande, eso lo hace, será más grande y el tiempo
computacional Y los gastos serán realmente altos porque
tomará más tiempo hacer cómputos
para que cualquier
aplique algún método sobre eso Entonces, en general, sobremuestreo de minorías
más sintéticas es una técnica poderosa que puede
ser efectiva para mejorar el rendimiento de los modelos de aprendizaje
automático en conjuntos de datos desequilibrados No obstante, es importante estar
al tanto de sus limitaciones y
utilizarla con cuidado. Entonces ahora veremos cuáles son las desventajas y las ventajas son primero, técnica inteligente. Una vez más, las ventajas EEG y simples de implementar y desventajas que puede crear o sobreajuste se pueden utilizar en una variedad de algoritmos de
aprendizaje automático pueden aumentar que Dijeron una prueba. Y
podemos tener en cuenta la mejora del rendimiento de los modelos de
rendimiento de la bomba de aprendizaje automático y computacionalmente
será costoso. Entonces ahora tenemos la
comprensión básica de smart y cómo, y cuáles son las ventajas y desventajas se
rasgan a través En la próxima conferencia,
implementaremos la técnica inteligente
en nuestro proyecto
95. Aplicación de la técnica de SMOTE en el conjunto de datos: Hola y bienvenidos de nuevo. En esta conferencia vamos
a escribir más nuestro código. Técnica inteligente, técnica sobremuestreo
de minorías
sintéticas para equilibrar el conjunto de datos o la
técnica utilizada en el dataset GitHub
que es desequilibrio Entonces aquí necesitamos instalar el backend
install.packages Así que voy a usar a la familia
Smart de nuevo aquí. Entonces, si no está instalado, solo
lo instalas ejecutando este comando y luego usar
librerías de la familia spot. Bien. Entonces, lo primero
que necesitamos para ejecutar esto. Bien, lo siguiente es usar los datos del
tren en el cristal. Entonces mira aquí ahora, este es nuestro oriental,
nuestros datos de entrenamiento. Entonces 22,007, 50 es el
número de los casos, 35 son los casos amplios de tierras Ahora, fijaremos el número de fraudes y dejaremos que haga conjeturas La persona deseada
disciplinó los gases med. Bien. Entonces así el número de conjeturas
es tanto en el arte, los datos
originales de entrenamiento y
los casos prevalentes a los 35 Y lo que queremos nuestro
giroscopio, he dado 0.6. ¿Qué significa?
Significa que quiero el, nuestro nuevo conjunto de datos. Después de esta técnica inteligente. Quiero que sea como 60% de
las conjeturas legítimas y 40 por ciento de los
casos fraudulentos, bien, Así que 60, 40 este año quiero cenicar, estoy dando sin embargo Arg2
es igual a 0.6 min,
60% de los casos, y 40% de las conjeturas de primera línea serán eso Entonces, ¿cómo calcular los mejores sitios? Entonces cuando nosotros, si tú, si miras esta
función de modo, de manera sintética, puedes poner F1 y puedes ver aquí
esta técnica sintética de
sobremuestreo minoritario Entonces esto es a través de dendritas, pincel
sintético a instancias, instancias usando algoritmo inteligente ¿Y cuáles son los parámetros? Tx, dx, dx, ese es nuestro conjunto de datos. Target, es que la columna
sobre la que queremos apuntar, como en nuestro caso, es el cristal. Y luego k. Y luego tenemos
los tamaños de dub, dub, dub. Número de veces c de x es el DataFrame del conjunto de datos
numéricos atribuidos Target es un vector de la clase de destino correspondiente
a lo que hace si dx k, el número de vecinos más cercanos durante el proceso de muestreo, y luego el
tamaño de subrayado doble es el número
o el vector que representa
el dígito veces hasta instancias minoritarias
sintéticas sobre el número original de instancias
mayoritarias ¿Bien? Entonces, cuántas veces quieres esta técnica inteligente corra que tenemos que decidir
y cómo podemos decidir. Podemos decidir
usando esta fórmula. Aquí, estoy usando la fórmula uno
-0/0 en n dividida por n, n1, y eso pondrá menos ¿Bien? Entonces esta es la fórmula. Esta fórmula dará
los n tiempos que
serán vertedores iguales
a la etapa de doblaje Entonces vamos a calcular esto. Vamos a correr esto y
déjame ver cuánto. 422 veces necesita correr. Bien, 432 abierto, 334433. Bien, entonces ahora tenemos
el escenario de doblaje también. Así que ahora usaremos la
variable de salida de subrayado
inteligente para almacenar los
datos que obtendremos de aquí Así que la función suave
usaremos y luego x,
x será nuestro tren de
conjunto de datos de entrenamiento y
por lo tanto coordinador. Y entonces aquí estoy
usando coma en blanco y luego voy a hacer
menos c una coma uno ¿Por qué estoy haciendo esto?
Porque en nuestro conjunto de datos, en nuestro conjunto de datos de capacitación, en nuestro conjunto de datos de capacitación. Si nos fijamos aquí. Entonces v1 a primera columna cada
marca de tiempo que no necesitamos. Por eso estoy moviendo
esta primera columna, timestamp y luego tenemos
otra. La clase. Entonces clase también estoy
quitando Chrome. Sí, así es, 1.31 primera y última columna estoy nivelada Entonces el objetivo es
entrenar los datos de subrayado La columna de
destino es la
clase conocida como clase Estoy dando cinco y upsized
es igual a n tiempo. Entonces déjame dirigir esto. Bien, ahora, si ejecutamos esto y si
quieres ver los datos, será sobre los datos que
ellos quieran o datos en dólares. Y vamos a ejecutar esto para
mirar los datos, puede ver aquí. Ahora el nuevo conjunto de datos inteligente
está teniendo V1, V2 ,
V3, hasta leer 28 y luego la
cantidad y luego la clase, bien, Así que ahora la clase aquí está minúscula c. antes la hemos
usado estaba en la capital Entonces, para eliminar la confusión, solo
cambiaremos eso a
mayúsculas C. Así que para hacer eso, necesitamos usar la función
length, que tomará el
nombre del conjunto de datos y luego el número de columna Y entonces puedes darle el nombre
que quieras
llegar a ese nombre de columna que le
estoy dando a tu clase. Y cuando ejecute esto,
se cambiará. Y si vuelvo a hacer clic, entonces ahora la clase está
en mayúsculas, ¿bien? Ahora bien, si se quiere
ver el porcentaje de si ha
sido perturbado, el sobremuestreo o muestreo lo
ha hecho
S2 durante dos días No lo eres. Entonces usaremos la tabla prop que
hemos usado anteriormente. Y aquí pasaremos los conjuntos de datos pequeños de
subrayado de crédito, la columna de clase,
y ejecutaremos esto Ver, ahora d rho es 60%
y uno es casi 40%. Por lo que ahora nuestro conjunto de datos
se distribuye como 60% de los casos y querer por ciento son
los casos fraudulentos. Ahora, compararemos con
el gráfico de dispersión original. Esto es, este es el gráfico de dispersión original que hemos hecho en el conjunto de datos de
entrenamiento. Entonces déjame mostrarte
cómo se veía. Míralo con este aspecto. No sabía la
distribución de los datos. Los casos de fraude
fueron muy pequeños. Y ahora voy a trazar el
nuevo, correcto. Y eso es porque la técnica inteligente, inteligente la aplicamos. Ahora puedes ver ahora nuestro conjunto
de datos está más equilibrado. Y este
campo de gas más técnica aunque lo hace con
el con más número de conjeturas
fraudulentas aquí Y estos no son los valores
superpuestos o duplicados. Estos son el
punto sintético que
se ha llenado con la técnica
inteligente. Entonces ahora tenemos el conjunto de datos, dataset de
desequilibrio. Lo siguiente es lo que tenemos que hacer, tenemos que crear
un árbol de decisiones y tenemos que predecir los casos fraudulentos que
haremos en la próxima conferencia.
96. Cómo predecir los casos para las transacciones con tarjetas de crédito con el modelo: Hola y bienvenidos de nuevo. Entonces ahora somos buenos para
predecir casos de fraude con base en el conjunto de datos que
hemos creado así modo. Así que predecimos el
valor basado en nuestro modelo. Entonces para eso, vamos a usar
los paquetes rpart y rpart
plot Entonces no lo has hecho, si no lo has instalado, instálalo ejecutando
estos dos comandos. Y luego biblioteca rpart
y biblioteca nuestra dotplot. ¿Bien? Y entonces aquí suelo estar guardia
modelo como variable. Y aquí lo que voy a hacer, voy a usar la función rpart Si queremos saber qué
es la función rpart, puedes poner rpart F1 y te
dará el árbol recursivo, de
particionamiento y regresión recursivo a
nuestros socios Entonces, si queremos saber
más sobre esto, puedes leer la documentación y cuáles son las cosas
que lleva lleva la fórmula trazada
con el subíndice x y nuestras fallas de parte y modelo
y todas esas cosas ¿Bien? Entonces quieres
leer en detalle, puedes ir a leerlo. ¿Bien? Entonces lo siguiente es ladrar, y luego les damos las columnas o la variable
dependiente. Entonces en nuestro caso es cada clase y luego signo y luego punto significa todas las variables
independientes. Entonces punto tomará todas las, todas las demás variables independientes. Y luego aquí
usaremos el conjunto de datos. Curso de Grandes Honores. Más datos. Tenemos, hemos hecho a través de
la aplicación del smart el mercado. Así que vamos a ejecutar esto. Entonces ahora puedes ver que el modelo
GARCH está aquí. Y bien, lo siguiente es que necesitamos usar la R. Ahora, voy a tomar el
árbol de decisiones para esto. Entonces veamos cómo
nuestro modelo predice, clasifica las cosas en ellas. Casos legítimos y
el problema dice, por lo que toma la lesión. Entonces nuestra trama, nuestra parte dotplot
y luego pasaremos esto. Y luego extra es igual a cero tipo integral de
fibra. Y rápido 1.2. Bien, así que vamos a ejecutar esto y ver, sí, este es el árbol de decisiones. Este 1.1, 0.2,
va a hervir esta cosa. ¿Bien? Entonces este es el árbol de decisiones, y así es como nuestro modelo
decidirá cuál es. Entonces supongamos que esto es antes. Si el valor es
mayor o igual a -2.5, será clásico aplicado
como caso legítimo, y produce
menos de 0.5 -2.5, será como un invitado
fraudulento Entonces este es el
árbol de decisiones que seguirá, ¿de acuerdo? Y luego si quieres
ver los valores predichos, así podremos usar el predict y luego pasaremos
el modelo GARCH Entonces Daesh data sobre datos que predecirán tu clase tipo Clasificará cero o uno. Entonces vamos a ejecutar este modelo en nuestros datos de prueba
y ver cómo está prediciendo. Así que vamos a ejecutar esto. ¿Bien? Entonces ahora si miramos, podemos ver aquí, ahora, para una cosa de juego, se ha pronosticado para la cuarta fila, así, 0.1, se
ha clasificado. Entonces ahora, si queremos ver cuál es el
nivel de precisión hasta el momento que
podemos crear una matriz de confusión
usando la biblioteca de Keras Tan enorme zanahoria y entonces o bien conocía las métricas
convergentes Y voy a pasar este
valor predicho aquí y aquí. Datos sobre la variable dependiente del vidrio,
dependiente. ¿Bien? Así que vamos a ejecutar esto y ver aquí la matriz de
confusión. Por lo que de nuestro total
nueve casos fraudulentos donde hay y aguantar 97 ha habido siete
casos prevalentes se ha clasificado correctamente y para llevar no
clasificado correctamente. De igual manera, para la
leyenda casos rojos, casi todos los casos
se clasificaron correctamente. Por lo que la precisión de este
modelo es del 98, casi el 99%. Así que de esta manera hemos implementado el modelo de
detección de fraude con tarjeta de grado utilizando nuestra programación. Y hemos aprendido tantas
cosas como cómo manejar los datos desequilibrados y ¿cuáles son los algoritmos que podemos aplicar ¿Cuáles son las técnicas de sandía equilibrando
el conjunto de datos? Entonces espero que hayas entendido
si tenemos alguna duda, puedes preguntar en clase comentando o haciendo
una pregunta. Gracias.
97. Introducción a ggplot2: Hola y bienvenidos de nuevo. En esta serie de conferencias. En próximas conferencias,
vamos a aprender sobre la trama GG. Hemos estado usando la trama GG
demasiadas veces en nuestras conferencias. Pero lo que opto trabajo
que muchos de nosotros reutilizamos parcelas como
gráfico de barras, gráfico circular. Y hay muchos frascos o las
bibliotecas de hombres de la derecha son enormes Al igual que GG Plot tours, GG plot. Pero faltamos de conocer
los fundamentos detrás de eso. Y deberíamos estar sabiendo eso. Teniendo eso en mente. Estoy creando algunas conferencias
sobre conceptos básicos de GG plot two. Del mismo modo, estaré creando más conferencias que abarquen también
todos los demás temas, los fundamentos de todas esas
cosas para que podamos tener una
comprensión clara de las cosas. Entonces DJ ggplot2 es un paquete R para crear visualizaciones de
datos Fue desarrollado
por Hadley Wickham, tiene una implementación
de gramática de gráficos Verá qué es la
gramática de los gráficos, lo que proporciona un enfoque
estructurado para crear una gráfica
de personalización El paquete se basa en el principio de
permitir la estética, mapeos y permitir a
los usuarios crear gráficos altamente personalizables y de
calidad de publicación Así que GG plot a Deb le encantaba hacer
claves públicas y gráficos 3D Entonces antes de eso, usamos
para crear gráficos, pero que no estamos listos para
la publicación. Entonces, si quieres crear una unidad gráfica
pública no es 3D para ir y usar las herramientas
como Power BI o Tableau, alguna otra herramienta gráfica. Pero GG plot two tiene la capacidad de crear gráficos de calidad de
publicación. Y es muy personalizable. Entonces, sean cuales sean las capas que
quieras agregar que los usuarios pueden agregar
en función de sus requerimientos. Sigue el enfoque gramatical de los
gráficos que es
muy, muy importante y por
eso está teniendo tantas capacidades para crear un aspecto
impresionante en
gráficos y gráficos. Bien, entonces
entendamos algunas de
las
características y características de la trama GG
para trazar dos sigue la gramática
de los gráficos GG plot dos. Como dije antes, los problemas que
la gramática de los gráficos marco, lo que significa que las gráficas
se construyen mediante la combinación de
diferentes componentes de
capas como datos, estética, objetos geométricos, y transformaciones estadísticas. Así que no solo
traza los datos, sino que también se encarga de
los datos, la estética, los objetos
geométricos y
las transformaciones estadísticas. Estadística, estética
y mapeos. Gg plot para permitirle mapear variables en sus datos
a diferentes estéticas, atributos como coordenadas x
e y, color, forma, tamaño
y muchos más. ¿Los mapeos definieron cómo
se
presentarán visualmente los datos en la trama La siguiente característica es la estratificación. El primero es la
gramática de los gráficos, y luego tenemos la
estética y el mapping. Y luego tenemos la tercera clave, características y características.
Eso es estratificar. lotes en la
gráfica GG dos se construyen
agregando capas de elementos gráficos como cada capa representa un componente diferente de
fluidos como puntos, líneas, barras son texto. Por lo que se construye agregando capas, una encima de la otra. Y las capas tienen diferentes
componentes como plot, componente de las
parcelas como puntos,
como geom point para usar ¿verdad? Reutilización de la línea Geom. Entonces las barras que usemos nuestra
capa de texto también estarán ahí. Las capas se pueden agregar y
personalizar de forma independiente, lo que permite una visualización compleja y
en capas. Transformadores estadísticos
y gráfica GG para proporcionar un rango tan amplio de transformación
estadística
que se puede aplicar a los datos
antes de visualizarlos Estas transformaciones
incluyen agregar datos, calcular el resumen de las
estadísticas, suavizar los datos
y la gráfica
GG dos mínima y altamente personalizable ofrece un alto nivel
de opciones de personalización, lo que le permite modificar casi
todos los aspectos de la trama,
incluidos el acceso, las etiquetas, los títulos, las
legiones, los colores y los temas Por lo tanto, no solo
te proporciona como un Teams, sino que también te puede
proporcionar personalizar cosas como ejes, etiquetas, títulos, leyendas, colores, y tiene muchos temas
que puedes aplicar
Esta flexibilidad te permite crear parcelas que cumplan con requisitos
específicos
para que coincidan con tu estilo visual preferido. Soporte para facetado, GG
plot dos soportes facetado, lo que le permite crear
múltiples parcelas o paneles, pujar por, cinturón en una o más
variables en sus Esto es útil para
explorar y comparar diferentes subconjuntos o categorías
dentro de su conjunto Integración con nuestra gráfica
GG para
integrarse a la perfección con nuestros paquetes
y herramientas de manipulación de datos. Puede combinar fácilmente la gráfica GG dos con bibliotecas de
manipulación de datos, como la playa y la R ordenada para preprocesar y transformar sus datos antes de la visualización Entonces, en general, la gráfica GG proporciona un marco potente e
intuitivo para crear una amplia variedad
de médula Jason's, que van desde gráficos de
dispersión simples hasta gráficos facetados complejos de múltiples paneles Se ha convertido en uno de los paquetes de
visualización de datos más populares y ampliamente utilizados en R debido a su flexibilidad, estética y
énfasis en los buenos principios de diseño. Entonces ahora también tenemos la
comprensión básica de la trama GG. Vamos a sumergirnos en esa
Grabación y vamos a crear algunas parcelas básicas
usando GG plot two. Así que he creado un archivo de script GG plot
dos puntos R. Y aquí intentaremos usar la gráfica GG para crear una gráfica y una gráfica
básica, e intentaremos entender las diferentes
capas que se le agregan. Lo primero que
tenemos que hacer es instalar el paquete
ggplot2 Entonces, si no está instalado
en tu RStudio, puedes hacerlo ejecutando
el script install.packages, y puedes darle al nombre del
paquete GG Una vez instalados los paquetes,
puede usarlo escribiendo la biblioteca y luego
dado el nombre del paquete aquí. Por lo que esto le permitirá
utilizar el paquete de parcela GG. Entonces, el primer paso es
cargar el paquete, instalar y cargar los paquetes. El segundo paso es crear
una gráfica de dispersión básica. Entonces para eso, lo que voy a hacer, primero
voy a crear un DataFrame Entonces, para crear un DataFrame, voy a crear una
variable Y luego usaré data.frame
para crear un DataFrame. Y aquí voy a proporcionar los puntos
x, el vector x, c12,
345, y el vector y y el eje y para el
eje y y los
regalos, ver 246810 Entonces 12,243,648.5 diez serán
las coordenadas para nuestro. Así que de esta manera, voy a
crear un DataFrame. Ahora. Voy a crear una gráfica de dispersión usando GG plot two
es bastante simple Usaremos la
función GG plot aquí, GG plot. Y luego vamos a proporcionar los datos, ese DataFrame que
hemos creado Los datos sobre los que se
desea crear la parcela. Entonces los datos te darán, entonces lo siguiente
es la estética. La estética le dará eje x e y sobre el que se
desea trazar los puntos. Entonces x es igual a x
e y es igual a y Entonces a partir de aquí tomará, y luego le daremos la trama,
perdón, más punto geom Entonces geom point, vamos a
trazar los puntos. Tomará los puntos
de la parcela de orina. Entonces déjame dirigir esto. Entonces mira aquí ahora nuestra
trama de dispersión está lista. Ver, el primer punto es uno-dos, eje x y eje y Entonces
se traza 242.4 a cuatro aquí,
luego 36, y luego 4.5 Por lo que estos puntos se
han trazado correctamente usando GG plot dos Entonces déjame explicarte un poco
más sobre estas cosas. Así que creamos un DataFrame
llamado data con dos columnas, x e y.
función Gg plot inicializa
un objeto GG plot que envía un texto
al DataFrame en su primer argumento al DataFrame Y luego la función estética aquí la hemos utilizado
para tomar función especifica la estética mapeando X al eje X e Y al eje Y. Así que aquí estamos mapeando el
eje x a los ejes x e y. ¿Por qué? Y luego el punto
geom fuentes y suma los puntos a la trama Entonces función geom point,
qué va a hacer, tomará los puntos
de esto y
trazará los
puntos en la trama Ahora, lo siguiente es que
intentaremos personalizar la trama. Entonces, lo que
haremos, intentaremos personalizar
la trama por apariencia. Así que personaliza la apariencia de la
trama. Así que aquí usaremos la función GG plot data
la estética será la misma. Y luego más geom point. Y luego después del punto geom, lo que haremos, vamos a
dar filtraciones iguales a 21 Y el color del relleno será azul
y el color será negro Y sitios, te estoy dando tres. Después usaremos la
función labs para crear el título. Por lo que título de la trama
será la gráfica de dispersión. Y entonces qué eje x, vamos a dar el nombre eje x y eje y les dará
eje y les dará
eje Entonces otra vez más. Y luego usaremos, vamos a usar el tema aquí y vamos a usar
tema subrayado, mínimo, mínimo cosa que
vamos a usar, sí Entonces déjame primero
ejecutar esto y luego explicarte al usuario
varios puntos. Ahora nuestro diagrama de dispersión
está listo y se puede ver Una vez que he sido trazado aquí, pero esta es la, ya que aquí tenemos aquí en azul, los puntos se llenan con el azul y la parte
exterior Entonces aquí hemos dado negro. Si lo pongo naranja,
y si lo ejecuto. Ahora, alter fiestas naranja. Entonces déjame hacer un
poco más grande a nueve. El concesionario IP y puerto
y tamaño y 31, lo siento. Por lo que ahora puedes ver aquí se ha incrementado el
tamaño. Bien. Entonces este es el pantalón YuJa
ver que siento que es azul si lo haces amarillo Entonces esto se volverá amarillo. ¿Bien? Así que de esta manera podemos personalizar y tú
puedes hacerlo funcionar. Y mira esta es la
gráfica de dispersión que se dirige aquí abajo, y el eje x, el eje y
están llegando Y equipo estamos usando minimal. Entonces déjame correr esto otra vez. Entonces el tamaño estará bien. Lo siguiente es geom point font, algunos textos que no son argumentos para personalizar la
apariencia de los puntos Aquí dijimos que el becario uno es círculo
completo y un color de
relleno a azul, contorno de color a
negro y talla tres Entonces esto fue lo anterior.
Ahora hemos cambiado dos lados nivel llamado color
exterior es naranja, color de
relleno es amarillo. Bien. Puedes poner F1 seleccionando geom point y te dará la descripción sobre el punto geom,
el Alsoma y ¿Bien? Si quieres aprender más, puedes ir y aprender más
sobre el punto geom de ti Guardar. Puedes ver aquí si quieres conocer más
sobre el CEP, puedes venir aquí y
puedes conocer los seguros La estética segura se
puede especificar con un entero 0225 o un
solo carácter, que utiliza los caracteres en
el símbolo de trazado para secar rectángulo
más pequeño que es
visible alrededor de un píxel Y no dibujará nada
mapeando a una variable discreta. Entonces si ponemos aquí 25, veamos qué se está
tramando aquí El otro triángulo se ha
trazado si ponemos dos. Entonces como veis, el triángulo sin relleno, bien, entonces uno
será el rectángulo. Uno es el círculo cinco. Si pones cinco diferentes, vuelve a
decir ese rectángulo. Entonces para ocho, veamos
qué se está tramando aquí. Bien, Líneas 11. Para que veas, para que puedas explorar y
puedas usar otras cosas, ¿de acuerdo? Luego tenemos los laboratorios que agregarán el título
al eje x,
al eje y y al Entonces Tim minimal es la
función que se aplica al tema
minimalista a la trama Podemos usar otro tema
que sea blanco y negro. Entonces a continuación lo que haremos, aprenderemos a agregar múltiples capas y
anotaciones a nuestra gráfica Entonces aquí todo va a
ser el mismo punto geom. En estas cosas va a
ser la misma línea geom. Añadiremos una línea geom
para que
se dibuje una línea y luego
escribiremos algo de texto aquí Así que los mazos de eNodeB x es igual
a tres, y igual a cero, y los laboratorios de nivel 999 titulados darán lo mismo y el
equipo los usará mínimos. Así que vamos a ejecutar esto. Entonces mira aquí ahora, se ha
dibujado
una línea del genoma uniendo los puntos. Y vea aquí para 3.6, 3.6 puntos, hemos
escrito textos, así que el texto align está escrito
aquí, etiquetado línea. Puedes cambiarlo a cualquier cosa. Supongamos, supongamos que
quiere escribir cualquier cosa aquí
y simplemente ejecutar esto. Ahora está escrito cualquier cosa. Para que puedas poner cualquier cosa aquí. Así línea. Entonces volveremos a ejecutar esto. Lo que sea que escribas,
va a venir aquí. Entonces aquí por 3.6, el eje x tres
y las ondas son seis Lo hemos anotado
sin textos, y hemos dado como línea los textos
y el nombre del nivel Bien, y equipo
estamos usando mínimo. Bien, Lo siguiente es, así que la línea geom de la línea Sonata a las parcelas anota una vez y
reutiliza para agregar Aquí, el
texto especificado para mostrar así
como las coordenadas x e y Y se pueden modificar los niveles
x e y aumentados
mediante la función de anotación Bien, siguiente zanja
ajuste rápido y temas. Así que podemos usar facetas para agregar
múltiples parcelas a un lote. Para eso,
usaremos data.frame creará una faceta de subrayado de
datos variables, data.frame X e y punto
darán y luego agruparán. Aquí estoy creando grupo por cada punto se
adjuntará a un grupo E, , B, y C. Así que ahora
tenemos grupos aquí. Ahora vamos a ejecutar esto. Y luego ahora creamos nuestra trama de dispersión
facetada. Entonces primero déjame crear
los diagramas de dispersión. Ahora tenemos los puntos. Y luego están ahí otras categorías
o grupos ABC. Entonces geom point, todo
excepto por, excepto el rap. Y aquí le proporcionaremos
al grupo, bien, este letrero y grupo tomarán al grupo de aquí
y se facetará Entonces ahora tenemos grupos ABC y todo lo demás
es lo mismo. Estamos utilizando mínima, de nuevo, función de envoltura de subrayado
faceta se utiliza para crear una trama facetada
basada en la columna de grupo, cada grupo Harris
en hockey de panel Ahora, cambiaremos el
tema a blanco y negro. Tema subrayado
v, w. Usaremos, y veremos qué se está
consiguiendo ver aquí Ahora, el tema se ha cambiado y ahora se está
mostrando claro, gritos, ABC Tiene que punto B al
punto C tiene un punto. Bien. Así que ser tema canción
punk cambia la trama,
él a blanco y negro. Y esta trama GG dos tiene varios temas incorporados
como underscore minimal, theme underscore classic
y theme underscore Entonces déjame copiar esto e intentar
usar el t subrayado gris. Ahora está en gris. Y luego equipo
subrayó clásico. Clásico es como dos grupos
aquí y luego puntos. Bien, así que vamos a
hacerlo hacerlo hoy. ¿Bien? Entonces esta es la base de la trama
GG a I. Supongo que aprendes y te
animo a hacer más práctica creando algunos puntos y trazando
varias parcelas sobre eso Y jugando con
los puntos geom, sumando los labs, pienso igual jugando con
los mismos segmentos de pierna Se preguntaba 25. Entonces puedes poner varias formas y secar lo que significan los números
para lo mismo, ¿de acuerdo? Entonces estas son las
cosas que puedes hacer
98. Trama de dispersión y trama de salto: Hola y bienvenidos de nuevo. En esta conferencia,
vamos a aprender sobre otra cosa importante del trazado que es scatterplot
y do dot plot Entonces déjame decirte que
vamos a ver algún ejemplo. Y para esto voy a
usar el conjunto de datos incorporado, es
decir el dataset Iris, que está disponible con la R. ¿Bien? Entonces déjame decirte brevemente qué gráfico de dispersión
debes estar sabiendo lo que es
un diagrama de dispersión. Pero para refrescar tu memoria, te
digo que los gráficos de dispersión
son similares a los gráficos de líneas, que suelen
utilizarse para trazar. La gráfica de dispersión almacena
cuánto
se relaciona una variable se relaciona La relación
entre las variables se denomina correlación, cual se suele utilizar
en métodos estadísticos. ¿Bien? Entonces esta es la definición
de scatterplot. Y por esto apostado, para esta conferencia, soy
un acuerdo escrito a mano Y aquí estoy usando
el conjunto de datos de iris, que es un conjunto de datos muy conocido que contiene medidas
de su impresión, flores de
iris, sépalo y longitud de pétalo
y todo su contenido Entonces para esto, necesitamos el dataset iris
que está incorporado con los datos como nuestro paquete, y luego necesitamos GG plot al que
ya hemos descargado Y si no se descarga, puedes usar install.packages y el
nombre del paquete GG plot two Y reinstalará
descargado e instalado en tu RStudio Y luego para usar la trama GG dos, necesitamos usar biblioteca y luego tenemos que
pasar el nombre del backend Así biblioteca GG plot
para realmente permitirnos usar las funciones de trama GG. Y luego para cargar
el conjunto de datos del iris, simplemente
necesitamos
escribir datos. Y luego tenemos que pasar el nombre del conjunto de datos datatype
es el data iris Cargará el conjunto de datos del iris. Y cuando haces clic en
este conjunto de datos de iris, puedes ver aquí que
contiene el ojo, esta cola de Florida
que es la longitud del sépalo, la anchura del
sépalo, la longitud del pétalo, la anchura del
pétalo, y la especie Entonces hay especies. ¿Bien? Entonces en esto los objetos de una
propiedad están ahí y las etiquetas privadas, una por p filas y cinco columnas están ahí
en este conjunto de datos. Bien, entonces déjame
volver al código. Entonces ahora lo que vamos a hacer, vamos a hacer el, vamos a
crear un diagrama de dispersión. Entonces, para crear una gráfica de dispersión, usaremos la función de diagrama GG y usaremos el nombre del
conjunto de datos aquí. Eso es conjunto de datos a conjunto de datos Iris. Luego para la estética, para el eje X, trazaremos la
longitud del sépalo y el eje y Trazaremos el ancho del sépalo. Y luego usamos la función de punto de
subrayado del genoma para trazar estos puntos Es bastante simple. Función de trazado de gg luego
nombre del dataset que la estética. Tenemos que pasar las coordenadas
x e y. Entonces x barra, coordenada X
utilizará la longitud del sépalo. Y para la coordenada y utilizará la función de ancho sépalo y punto
geom para trazar estos puntos, puntos
geométricos Entonces cuando ejecutamos esto, obtenemos este diagrama de dispersión aquí. Entonces ahora todos los puntos
sobre la longitud del sépalo y el ancho del sépalo
se han trazado aquí Ahora usamos la función de trazado GG para cualquier objeto de trazado deslizante GG
y especificamos el conjunto de datos. Eso es lo que estamos haciendo aquí. Entonces la
función estética aquí, estamos perdiendo la función
estética. Dentro de la parcela GG definen los mapeos estéticos
con longitud sépalo Lo que estamos haciendo
aquí, estamos mapeando la longitud del sépalo, la anchura del sépalo. La longitud del sépalo se
mapea al eje x, y el ancho del sépalo se
mapea al Y la función de punto geom
agrega puntos a la trama. Y así conseguimos el diagrama de
dispersión para que tu distorsione. Entonces estamos usando la función GG plot dentro de que estamos
pasando el nombre del conjunto de datos. Después alergenamos la función
estética para asignar las coordenadas Mapa aunque,
nombre de columna o a las x's. Entonces x es igual a las llamadas salidas y ancho de punto sépalo
del eje y Y luego estamos usando la función de punto Geom
Jin para trazar los puntos
en el diagrama de dispersión Entonces estamos consiguiendo esta trama. Lo siguiente es, ahora
personalizaremos el diagrama de dispersión. Así que para personalizar pasará de nuevo. Usaremos la parcela GG. Primero dibujamos la trama. Entonces, para esa gráfica de GG, luego el nombre del conjunto de datos
esa estética. Aquí, estética,
lo mismo que estamos leyendo. Y lo que estamos personalizando. Estamos personalizando
agregándole un color. Entonces el color es igual a las especies. Por lo que toda la especie
será una especie específica, longitud
específica y la longitud del
sépalo y coloreará la longitud
específica y la longitud del
sépalo y la anchura del sépalo Por lo que para cada especie
habrá un color asignado. Entonces el color se llama la especie. Entonces estamos usando geom point. Y aquí, y aquí
acabamos de trazar fuentes geom point. Estoy usando la
función de punto geom aquí lo
personalizaremos agregándole
argumentos, como psi es igual a tres
y alfa es igual a 0.7 Entonces laboratorios aquí con
la función labs, asignamos el título,
así título de la gráfica de dispersión,
daremos una gráfica de dispersión
para la longitud del sépalo ancho del sépalo para el eje X
dará el nombre de longitud del sépalo, y el eje y
dará Y luego tema aquí
vamos a utilizar el, vamos a utilizar
el tema t partido, tema mínimo, y eso
se llama función mínima. Tenemos que usar el tema
minimalista y minimalista. Así que vamos a trazar esto y luego
discutiremos más a fondo. Entonces ahora se puede ver aquí, ya que hemos dado las especies
ecológicas. Entonces todas estas especies, hay tres especies y se han asignado
tres colores. Entonces al mirar esto, podemos decir que el
verde es para versicolor, porque el rosa es
para setosa La virginica es de color azul oscuro. Bien, ahora vamos a entender
un poco más. Por lo que agregamos colores a los que llama argumento de
dos espacios dentro función
estética para colorear la función
estética para colorear los puntos en base a esta
precisión del ojo. Estas parcelas que ya
hemos discutido, el argumento de lados en el punto de subrayado geom
establece el tamaño del punto Entonces ahora son tres. Si lo hago apoya a nuestros 15, entonces ¿qué va a pasar? Esto, los puntos
serán mayores percepciones. Si quieres
ver, mira aquí ahora el
dorsal más grande en tamaño. Entonces según requerimiento, puedes, si pones uno o cinco, será así, ¿de acuerdo? Ahora, hay otra cosa, alfa igual a 0.7. Entonces, ¿qué es este argumento
alfa, alfa controla
esa transparencia Entonces si pongo, si lo aumento a
uno, ¿qué va a pasar? A ver. Ve que es más oscuro, ¿verdad? Si pongo viento, uno, mira que no es tan oscuro. Y si pongo 0.8,
va a ser más oscuro. Martin, más oscuro. ¿Bien? Entonces dispararé ese amperímetro controlará la
transparencia de los puntos Bien. Lo siguiente es
la función izquierda se utiliza para establecer el título de las etiquetas de
título y eje. Entonces para los niveles de acceso, el eje x tenemos longitud sépalo,
eje y, hemos
dado Y el título de
la gráfica de dispersión, tenemos una gráfica de
dispersión dada de muestra
versus longitud
de sépalo versus ancho de sépalo. Y el tema subrayan los puntos
mínimos y lo
minimalista Pero la trama. Si podemos poner aquí, si repito esto y si uso tema subrayado ser VW blanco y
negro de una vez
y entonces ¿qué va a pasar A ver. No se ha cambiado
mucho. Ahora entraremos
en la trama de jitter. Entonces, ¿qué trama de jitter? Las gráficas de datos incluyen efecto
especial con las gráficas de dispersión
que se pueden representar. Un especialista en efectos con los que se
pueden representar diagramas de dispersión Por lo que agregará el
efecto especial a la gráfica de dispersión. El detalle no es más que
un valor aleatorio que se asigna a los
puntos para separarlos. ¿Bien? Así podrás ver si
tu conjunto contiene los valores duplicados y cuando trazas
la gráfica de dispersión, los puntos se superpondrán Entonces en esos casos, si quieres saber cuales son
los puntos son duplicados, entonces puedes usar esa función jittered para resaltar aquellos puntos que
están teniendo los ¿Bien? La fluctuación no es más que
un valor aleatorio que
asignamos a los puntos
para separarlos. ¿Bien? Así que ahora función de trazado de GG , estética de nombre de
conjunto de datos,
luego guión bajo geom, jitter y ancho darán 0.2, altura dará cero alfa 0.7, y todas las demás cosas son casi iguales y tu equipo
usará blanco y negro ¿Bien? Así que vamos a ejecutar esto. Ver aquí. Ahora, los puntos se
han separado. ¿Bien? Entonces esta es la tercera trama. Entonces modificamos el eje x, una especie y escribimos el
acceso para mapear la longitud del pétalo y el retorno del genoma de un punto ad
jittered a la trama El argumento width. Controle el ancho de los argumentos
jitter y height y la altura de la
altura establecida en cero Esta cosa regional, el dinero
vertical que tambalea. Y voy a parlamento controló
la transparencia como con este culto y todos los demás que ya
hemos discutido. ¿Bien? Así es como podemos
crear un gráfico de dispersión normal y podemos usar un jittered
para crear un gráfico de fluctuación
99. Parcela de barras y Hostogram: Hola y bienvenidos de nuevo. Entonces en esta conferencia
vamos a aprender sobre dos conspiraciones más
importantes Las cosas son como una gráfica de
barras y luego veremos el histograma Entonces estas son dos
técnicas de enrutamiento
importantes , tipo de parcelas. Entonces déjame decirte primero
qué es barplot. Barplot también se
conoce como gráfico de barras y también se le conoce como gráfico de
columnas porque
es así ni columna ¿Bien? Y es un tipo de visualización que
representa datos categóricos Haces unas barras rectangulares. Cada barra corresponde
a una categoría específica. Y la altura o longitud de la barra representa
la frecuencia, conteo o proporción
de esa categoría. Las gráficas de barras
se utilizan comúnmente para comparar diferentes categorías o mostrar concreto cómo Saudi
mostró los datos de este grupo. Entonces se usa básicamente un gráfico de barras para los datos categóricos Bien, entonces déjame decirte cómo podemos hacer ese paquete de parcela
GD que usaremos Ya lo hemos instalado. Si no lo ha instalado, instálelo usando
install.packages. Y luego no lo hizo a. Y entonces ha sido una enorme biblioteca de
TI, ggplot2. Y simplemente vamos a ejecutar esto. Lo siento. Bien, entonces, para este ejercicio vamos
a utilizar el conjunto de datos de diamantes. ¿Bien? Entonces este es un conjunto de datos incorporado
en la gráfica GG para cargar datos. Para cargar estos datos
en este conjunto de datos, necesitamos usar datos y luego el nombre del conjunto de datos, es decir diamantes. Y así cuando haces clic en
este conjunto de datos de diamantes, podrás ver la zanahoria
del diamante y luego cortar, luego color, claridad, profundidad, precio de
tabla, x, y, z Estas son las columnas
en el conjunto de datos. hay 53,009, 40 entradas este conjunto de datos hay 53,009, 40 entradas
y un total de
diez columnas están Entonces este es un
Dios grande, lo hace. Y ahora el paso dos es
crear un gráfico de barras, dibujar. Entonces para crear un gráfico de barras, solo
usaremos la función de trazado GG
y aquí les daremos, qué le damos a diamante
el nombre del conjunto de datos entonces estética x es igual a cortar voluntad columna. Puedes ver aquí la columna
es la columna en el eje x. Y luego genoma y función
Escobar
utilizarán para crear un gráfico de barras Así que vamos a ejecutar esto
y ver el resultado. Entonces ahora puedes ver aquí en
el eje x la cinta allá arriba, y en el eje y, automáticamente el número de conteo para ese corte vendrá aquí Tan justo, bueno, muy bueno. Tipo de mercancía premium e ideal
disponible en nuestro conjunto de datos. Se puede ver aquí en el conjunto de datos, gut ideal premium, buena prima, muy Feria del Mundo, muy buena. Ideal premium. Esto
no me gustó. Bien, entonces ahora podemos ver que
nuestro gráfico de barras está listo. Entonces para crear un gráfico de barras, trataremos con esa
función Genome Atlas Group, barra en GG plot y estética, religión x es igual a cortar, por lo que utilizará el gráfico de
columnas o barras. Usamos la gráfica GG desde
el deslizador de imagen central Objeto de trazado
GG y
especificamos el conjunto de datos. No tiene estos diamantes. Y función estética. Dentro de la gráfica GG se definió el mapeo estético
con el mapa intestinal
al eje x y las funciones de
barra de subrayado geom como las
barras a la trama,
creando la gráfica creando la Bien, lo siguiente es que
podemos personalizar este gráfico de barras o gráfico de
barras mediante
el uso de la función geom bar en el interior que podemos pasar los cuatro diesel es igual a llenar,
por lo que va a rellenar Y aquí x es igual a cortar y rellenar se llenará
con la claridad. Entonces usaremos el eje x para
trazar el tipo de corte de Dios, y llenaremos la
botella con la claridad. Entonces, cuanto más esa claridad
, eliminará amigos
con ellos o color. ¿Bien? Y luego la barra de subrayado geom
para la disidencia. Y luego laboratorios. Esto dará el título
para todo el gráfico de barras, gráfico barras de
frecuencia de corte de diamante y eje x, le
daremos el nombre corte y para eje y daremos proporción Y luego equipo, pierdes mínimo. Bien, entonces vamos a ejecutar esto. Ahora puedes ver aquí está
lleno de claridad de pato. La claridad es así. La claridad se ha
dado con colores oscuros, amarillo, verde,
verde claro, azul, el azul. Bien. Entonces como esto Agregamos
argumento de claridad de campo dentro la función estética para llenar las barras hechas sobre la
claridad del diamante. El pobre, decente
prolongado fue en la barra geom, tachuelas al fondo, facilitando la
comparación de las proporciones Entonces esta es una de arriba, esa es la enorme fuera del campo. Bien. Estás enviando gente a
llenar. Y luego funcionan los laboratorios. Vamos a añadir el título
del gráfico de barras y los
niveles de acceso y Tim minimal, crear
equipo minimalista oscuro para la trama Ahora viene el histograma. Entonces histograma es representación
gráfica de la distribución de datos numéricos
continuos Entonces ahora tenemos,
hemos visto el gráfico de barras con cada uno para los datos
categóricos Y el histograma es para los datos
continuos o numéricos. Consiste en barras Topsy Regia, donde cada barra representa un rango específico o
ser de valores Y la altura de
la barra indica la frecuencia o cuenta los puntos de datos Pauling que
caen dentro de ese rango histograma proporciona información sobre
la tendencia central
y extiende los datos, alineando el análisis visual
de la distribución Entonces todo esto se trata de histograma. Vamos a crear uno. Para crear un histograma, usaremos la gráfica GG a partir de diamantes
sin y dataset Estética x es igual al precio. Entonces el eje X
trazaremos el precio y
luego la función de
histograma de subrayado geom Dentro de la parcela GG. El histograma. histograma para el
ancho de su contenedor dará 500, y luego laboratorios para dar las
etiquetas y la barra de título, la barra, nuestro título más lejos,
pero lamentablemente histograma Y entonces el equipo
utilizará el blanco y negro. Bien, entonces vamos a ejecutar esto. Este es el histograma. Puedes ver precio en el
eje x y frecuencia aquí, precios de diamante
extra en bruto. Entonces aquí modificamos el
eje x para ese precio. Y Yom subrayan la función de
histograma, añadir el lote a la sangre creando
el histograma estado sin herida controlar los contenedores de
datos de ancho en el Entonces si ponemos esto como 100, veamos los cambios. El ancho se está reduciendo. Si hago un Tao Qian, entonces se incrementará el rojo Así lo reportaron 400. Bien. Entonces así es como
creamos un gráfico de barras y levantamientos de
histograma para entender un poco más sobre
las gráficas de barras y Instagram Las diferencias clave
entre las gráficas de barras y histogramas comprenderán en términos de sangre que compré, Colocación, Modelo,
presentación y casos de uso Entonces, en términos de tipo de datos, las gráficas de
barras son adecuadas
para datos categóricos, donde cada barra representa
la categoría o grupo, mientras que los histogramas son aprobados para datos numéricos continuos Entonces esto ya es una
diferencia clave porque datatype, el datatype bar plot para datos
categóricos y para datos numéricos o datos
continuos, podemos Las barras de histograma representan esos rangos o intervalos de valores Mientras que en barra, parcela, barra representa la
categoría o grupo. En términos de
colocación de barras en la gráfica de barras, las barras se basan típicamente de manera
uniforme a lo largo del eje
x con un espacio entre cada barra para representar
diferentes categorías En histograma, las barras
que son distintas al adolescente y se tocan entre
sí ya que representan intervalos
continuos o
intervalos de valores Beta
a lo largo del eje x Entonces esta es otra diferencia
muy clara. Si puedes ver la barra, los trazados, las barras que están a lo largo del eje x y
hay un hueco entre cada barra y que representan
diferentes categorías Bien, y manejó programas, índices trazados en un
dato continuo, datos numéricos No habrá hueco entre
las barras y
serán adyacentes entre sí. Debido a que el otro brillante que rangos
continuos en volcados de representación de datos
en una gráfica de barras, la altura o longitud
de cada barra representan contador de
frecuencia proporcional categoría
específica Mientras que en el histograma, la
altura de cada barra indica que la frecuencia o cuenta hacia arriba los puntos de datos que caen dentro
del rango específico son verdes Entonces esto es, esto
habla de histograma, habla de que el número de recuentos están cayendo
en un rango particular Mientras que la trama de barras habla sobre el número de recuentos en
una categoría específica Y la enorme suposición,
que es muy clara ahora que las gráficas de barras se usan comúnmente para comparar
diferentes categorías, mostrar concreto,
discreto, perdón, mostrar
datos discretos, o ilustrar la relación entre variables
categóricas, variables Mientras que los histogramas se utilizan
frecuentemente para visualizar la distribución
o identificar patrones, tendencia
central y dispersión
de datos numéricos continuos Entonces estas son las diferencias clave entre la gráfica de barras
y un histograma Espero que
te ayude a entender y estarás
sabiendo que estamos para usar la gráfica de barras y dónde
usar el histograma
100. Tabla de tartas con ggplot2: Hola y bienvenidos. Entonces en esta conferencia vamos
a hacer algo inusual, lo cual no hacemos. Gg trama demasiado, eso sería bastante
interesante de hacer. Entonces lo que voy a hacer aquí, voy a crear un gráfico
circular usando GG plot. Y antes de hacer eso,
déjame decirte. Gg plot two está diseñado
principalmente para crear capas y gramática de gráficos gráficos basados en bits no tiene un
geom incorporado para gráficos circulares Por lo que la trama GG no
soporta bicarb. Sin embargo, todavía podemos
crear un gráfico circular usando g, g plot dos manipulando los datos y utilizando
otros geoms Entonces veamos el ejemplo. Entonces, paso uno, carga los paquetes
y crea un dato de muestra. Entonces aquí usaremos la descarga
bloqueada que no hemos hecho. Y luego usamos la biblioteca. ¿Trazaste dos? Y luego
creamos una muestra de datos. Para ello, usaremos la categoría
data.frame y las categorías ReLu ABCD
y el valor es este vector C,
13th, 20th, 20, ser 35 Bien, entonces vamos a calcular
los datos de la muestra. Este es un
dato categórico, ¿de acuerdo? Ahora el paso de juguetes y
manipular los datos para la creación de gráficos circulares. Entonces aquí lo que
haremos, calcularemos la proporción para
cada categoría. Así que los datos, cuando se crea
una variable ese diálogo en amarillo y luego se
transforman los datos. Y los datos volverán a pasar para
la transformación, calcularemos
la proporción ok, valor dividido por sum up. Bueno, bien, así que hagámoslo. Y así ahora puedes ver aquí
los datos son así. Ahora propuesta de valor de categoría, hemos creado una proporción, hemos creado, proporción
adecuada Nosotros hemos creado, ¿de acuerdo? Así que ahora ordena los datos en orden descendente
hasta proporciones de la misma. Entonces para eso,
usaremos orden de datos, datos. El beneficio del dólar será. Queremos ordenar por el
prop de YouTube porque ese es el
único dato numérico. Entonces a ese fin en
decreciente verdad. ¿Bien? Será en orden
descendente. Entonces hagámoslo. Ahora bien, si miramos los datos, bien, ese es un nuevo orden. Ahora, el paso tres es crear el gráfico circular, gráfico de barras
apiladas. ¿Bien? Entonces GG traza dos, luego pasaremos los datos. Entonces estética
usaremos x, no usaremos nada. ¿Por qué? Usaremos utilería
y llenaremos la categoría, ¿de acuerdo? Por la categoría. Y luego geom bar, función escobar
humana
dará stat es igual a identidad y
ancho dará uno Entonces qué polar
le dará Y a partir de cero. Y entonces
realmente hay que mantener ese título. Mi tabla y llenar
con la categoría. El equipo utilizará el
subrayado del tema de ancho. Entonces vamos a ver. Ya sabes, tenemos un gráfico de barras que muestra la categoría y
estos son los leads. Este gráfico circular, el pastel es éste. Estos son dibujados por la ayuda de la proporción que
hemos creado. ¿Bien? Entonces vamos, déjame explicarte un poco
más para que así sea, te
voy a dar más claridad. Así que en este enfoque una semana y lo que el gráfico circular
en un gráfico de barras apiladas. Al manipular los datos, calculamos la
proporción dividiendo
cada valor por la suma de todos los valores La función de barra de subrayado geom con las estadísticas es
igual a Crear las
barras apiladas con el, con la mayor proporción de
producto correspondiente. ¿Bien? Y luego cuádruple subrayado función
polar. Lo que va a hacer función
convierte el gráfico de barras en una forma circular para
imitar el gráfico circular Bien, y luego los laboratorios
darán el título y la leyenda
y el tema subrayado fuentes de
palabras y eliminarán el fondo innecesario y humano proporcionando una apariencia
limpia Entonces así es como creamos un gráfico
circular usando estos dos. Y te voy a dar
un descargo de responsabilidad aquí. Como ya he dicho antes, la gráfica GG no es por gráfico circular no
se soporta
porque se hace en el suelo yo mismo gráficos. Por lo que hay que anotarlo que los gráficos
circulares generalmente
no se recomiendan para los datos. Aprendimos algunos debido
a la dificultad percibir con precisión las diferencias en los ángulos
son áreas de las rebanadas O que los tipos de gráficos como gráfico de
barras o los gráficos de barras apiladas suelen ser más efectivos para representar
los datos verticales. Entonces siempre que haya
datos categóricos, no
podemos usar, aunque
no hemos usado el gráfico circular de autobuses En su lugar, podemos usar los frascos de errores o los gráficos de barras apiladas. ¿Bien? Entonces espero que esto agregue algo de
valor a su aprendizaje
101. Parcelas con ggplot2: Hola y bienvenidos de nuevo. En esta conferencia, vamos
a explorar cómo crear gráficas de
líneas usando la gráfica GG
en nuestra programación. Por lo tanto, las gráficas de líneas son útiles para visualizar tendencias y
patrones de datos continuos, datos tiempo de conexión
continua Y aprenderemos a
crear trazados de líneas básicas, trazar múltiples líneas
en un mismo Plot y personalizar la
apariencia de las líneas. Entonces, de lo que básicamente
vamos a aprender, aprender sobre la línea Parcelas. Trazados de líneas, por qué usamos para visualizar tendencias y
patrones en datos continuos. Parcelas de líneas, ni siquiera podemos
permitirnos los datos categóricos. Podemos usarlo más. Datos continuos, datos numéricos, o qué rango continuo. El rango
también debe vía continua. Y el mejor ejemplo
son los datos de series temporales. Y también aprenderemos
a crear gráficas de líneas básicas. Y también veremos, también
veremos creando una gráfica lineal básica. Cómo podemos trazar múltiples
líneas en una misma parcela. Y cómo estamos podemos personalizar la apariencia de las luces de pulgar. Hay tres líneas
en la misma trama, cómo podemos ir hacia
arriba pero en algunas de las líneas como colores
o género ahora, bien, así que comencemos. Entonces lo primero es
crear una gráfica lineal básica. Entonces, para crear gráficas de líneas básicas, tenemos un conjunto de datos con
dos variables continuas. Normalmente presentan salidas. Esa será la
variable independiente y el eje y, que serán las variables
dependientes ¿Bien? Entonces, ¿cuáles son las dos
cosas que necesitamos? Necesitamos ese Dataset. Obviamente necesitamos un conjunto de datos. Y los Datasets tendrían al
menos dos variables
continuas. Y típicamente, el
eje x será la variable independiente y el eje
Y representará las variables dependientes ¿Bien? Por lo que nuestro conjunto de datos con dos variables
continuas, una para género, datos
independientes, valiosos y otra
será dependiente. Tan independiente,
brillante en el eje y. Entonces para esto, lo
que voy a usar, voy a crear una gráfica sencilla de una línea que
representará la curva sinusoidal. Bien, hasta ahora eso vamos a
muestrear líder para eso estoy creando que
dependían del eje x, definitivamente con la variable
independiente Entonces aquí lo que voy a
hacer, lo explicaré. Bueno, voy a crear con
nuestra secuencia Fontan. Y tenía secuencia, voy a dar cero coma dos en pi
e izquierda o hija, voy a dar cien hockey Entonces esto creará la variable aleatoria de
polvo X, que va a la secuencia pop y luego Y, que es la variable dependiente, que dependerá del eje x Y como no
quieres a Canadá, mismo bordillo, la función sinusoidal tú y tanto la variable
X aquí. Entonces por cada exhalación, así que por cada excel se
le asignará la curva, ese álgebra y en
el eje y Entonces X, estoy usando la función de
secuencia, y aquí estoy pasando
la coma cero 2.2 pi y alargó o dudo estoy dando cien y ese valor X cuando estoy
pasando dos funciones sinusoidales Entonces eso llevó al pecado, dios. Y esta vez, lo que sea, vendrá en base a la X. Entonces X es la variable independiente y las variables dependientes porque, por qué es el valor agregado dependiendo la X que estamos pasando
a la función sinusoidal Entonces, ¿por qué es la variable dependiente y X es variable independiente? Así que de esta manera lo
conseguimos, vamos a obtener la X e Y. Ahora, la línea básica Plots
ggplot2 biblioteca, así que ya la tenemos instalada Entonces déjame
darte primero, ejecuta esta línea, dos líneas para que Bien. Bien. Entonces mira gritar si tratamos
de imprimir los valores X, así ver los datos X valor que tenemos intento de riñón con la ayuda de la función de
secuencia Y si imprimo Y, entonces va a ser el valor Y
dependiendo del valor X. Entonces con la ayuda de este seno
de X obtendrá el valor y, que es el para el próximo viernes Bueno, entonces ahora tenemos el Y tenemos los waypoints Bien, entonces lo siguiente es que usaremos
la biblioteca GG parcela dos. Y luego lo que voy a hacer, voy a tratar de configurar gráficas
de línea. Puede cualquiera de las líneas, y mucho menos la función de trazado de GG. Ambos datos. Vas a data.frame. Y había pasado las
coordenadas X e Y son valores X e Y. Annuli son la función
estética. Y salir igual a X
e Y es igual a Y. Y además yo aquí voy a usar el
alilo intenté trazar una línea,
así voy a usar la línea de
subrayado geom Entonces déjame correr esto a C. C, y ahora me van a
asignar golf. Entonces en el eje x
cien de mezcla, ahora, trazando las
hazañas y Y e Y. Así que de esta manera estamos subiendo misma curva hecha en la X e Y. Entonces X es la independiente
creíble e Y Por cada X hay un valor y. Entonces esta es la misma
curva que estamos obteniendo. La forma en que podemos simplemente
lote de líneas Parcelas. Líneas simples y básicas Parcelas para
llevar al coseno, van como. Entonces. Si quieres, puedes ir una vez más a
la explicación. Entonces data.frame X coma Y creará un DataFrame Entonces X e Y variable que
hemos creado aquí mediante
el uso de la secuencia pulmones
y la vuelven a abrir y valores
X y mi pasajero
extra la función sinusoidal Tenemos los valores Y
y X e Y. Me hemos visto agregar agua. Y luego hemos usado
la biblioteca de piezas DD y no
obtuviste Plot y Data es igual a data dot
frame X coma Y. Esto creará un DataFrame
con las variables X Y luego
función estética, X es igual a XY. Solo ve así,
qué va a hacer esto, este mapeo estético real. Entonces X macro el X
e Y mapeará el eje y. Y luego revise la función de línea de
subrayado geom para agregar la línea a las parcelas ¿Bien? Entonces esto se va a hacer línea. Bien, Entonces esta es la explicación para crear esta línea
simple Plot UG, X, e Y, esa muestra
más adelante la hemos creado. Ahora veremos cómo podemos trazar múltiples líneas
sobre un mismo bloqueado. ¿Bien? Entonces para esta conferencia, bien. Bien, así que ahora podemos agregar
múltiples líneas a la gráfica proporcionando diferentes
Datasets que están agrupando los datos usando variable de
agrupación. Entonces ahora, vamos a trazar tanto la
curva sinusoidal como la coseno en la misma parcela Entonces aquí voy a
trazar la curva de seno y coseno en la misma parcela Entonces X va a ser la misma pero
misma función de secuencia, garabato, no voy a comprar
terrenos que se llamaron apagones 100 Entonces el valor X
será el mismo aquí. Por qué seno y blanco crocheting
estas dos variables, alquídicas aquí y aquí, voy a pasar el letrero de la
extrusora ordenados Voy a obtener el signo Y
subrayado Valores. Y Y subrayado
costo pasará a la función de costo
cos de X
nos dará la forma de subrayar
costo Valores. ¿Bien? Así que de esta manera voy a llegar a hacer bucles
while por cada X. Así que cada X puntos tendrá seno de X y yuca
X valor, Sudbury para X, tenemos dos puntuaciones de
Y, seno y coseno. Y esos dos puntos, voy a trazar
en la misma parcela. Entonces, para crear la gráfica de líneas con las múltiples líneas se
utilizará la función de trazado GG. Y aquí se puede ver
aquí la trama de rehabilitación GG. Y tenemos por los datos, data.frame X coma
Y porque tenía, por qué era sólo uno Así que hemos mapeado VX es
igual a X e Y al cuadrado Y. Aquí cuando la función
GG plot Y aquí usaremos el operador
plus. Y luego usaremos la función de línea de
subrayado geom. Y en la función de línea
pasaremos los datos. Marco. Los datos son iguales a
datos.frame X coma Y. Aquí Y será Y signo de
subrayado Entonces aquí tenemos incluso
X coma Y simplemente porque sólo una forma
era la única ¿Por qué había? Ya que hay dos valores y. Entonces aquí me va a dar X coma Y, X va a ser lo mismo Entonces gamma, por qué cada trimestre, por qué subrayan signo y luego
función estética pasará X es igual a X e
Y es igual a Y. Y Regalos
laterales, signo. Y luego por lo
mismo haremos con la pregunta por qué. Entonces los datos son iguales a datos.frame X será el lector X e Y. ¿Por qué cuesta el endoscopio? Y X estética se llama
reacciona OH, o el por qué. Y color Se llama recursión. Aquí le dará el título Curvas de seno y coseno
Azure. Y X es igual a
X mayúscula e Y es igual a Y
mayúscula función de color y
Tim será el mínimo. Entonces déjame correr esto de nuevo
y ver el exterior. Ver aquí ahora tenemos la curva de
seno y coseno. Esta es la temp1 aquí. Y luego tenemos las líneas sinusoidales y cosenales en la trama temática Nos vemos, ahora hay
dos Parcelas. Dos líneas. Uno es representar o vergüenza y otro brillante
en el mismo. Así que de esta manera podemos trazar múltiples líneas sobre
un mismo bloqueado. Así que sólo voy a repetirlo otra vez. Ahora aquí lo que hemos hecho, hemos creado una X usando secuencia que ya
hemos usado. Mediante la creación de la gráfica de línea básica. Secuencia y cero coma dos en pi y luego
punto, punto cien Y aquí ¿por qué subraya en? Porque vamos
a trazar las líneas sinusoidales y cosenales en la misma parcela Entonces necesito dos puntos, Y señala para saldar por qué subrayar el pecado será el
seno de X e Y subrayado Coseno será Y subrayado costo será el
costo de ZR Coseno de X. Entonces estos, estos, estos pueden
considerar estos tres X coma Y firmó una coma
X Y es igual. Y ahora necesito
trazar estos puntos. Entonces, para el valor de los datos, la función de diagrama GG. Y aquí se puso de pie mandando el dataframe a la función
GG plot, el operador plus para Y voy a usar la función de línea de
subrayado geom. Y sin embargo, los datos del asesor
son iguales a datos.frame X coma Y es igual al
signo de activación y La cera es igual a X, Y es igual a blanca y coloreada. Sin embargo, el color alérgico es
igual a lo mismo, ¿de acuerdo? Y el color es igual o brillo. Y aquí, lo mismo. Sólo YOLO debilitará a Nicea. Y luego título dará a laboratorios
función para dar el tiempo. Y X es igual a X
e Y es igual a pesar una
función de vista lateral y mínima. Y cuando corremos, obtenemos este inicio de sesión o nos da vergüenza
ir cuando la misma trama Así que ya he explicado creamos dos
conjuntos de datos separados para la curva Sine y Cosine usando
data.frame X coma Y, X coma Hawaii, signo hawaii y
X coma Y.
Y es igual a X coma Y. Puedes hacer por qué cuesta, Y es igual a X coma Y. Puedes hacer ¿ Y entonces cada uno es capa de línea Yom. Aquí básicamente estamos
creando dos capas de capas de líneas separadas. ¿Bien? Entonces, cada línea geom, función de línea de subrayado
geom creará una capa
correspondiente a una línea separada,
Bien, Un signo de Parque
y uno Utilizamos la estética del color
para distinguirlos. Y luego la función labs que
usaremos nos
usaremos para establecer el título y el
eje de los niveles excesivos, ¿bien? Y el equipo subrayado mínimo, tendió la apariencia general de
la trama a una Lo siguiente, lo que haremos, intentaremos personalizar las propiedades de
la línea. Así que ahora podemos personalizar las diversas propiedades de
líneas como el color, línea, el tipo y el tamaño. Entonces aquí los datos de muestra serán la misma secuencia de San Valores y
recrear X donde bucle Y luego crearemos
por qué el
signo de subrayado y Y el costo del subrayado usando
aquí las funciones
seno y coseno y pasando el ilusorio
extra sale el independiente donde de todos modos,
subrayarán subrayarán crocheting será la variable
dependiente ya que estos valores
dependen de la X. Y aquí crearemos
trazado de líneas con Se agrega Plot plus
geom line aquí, DataFrames, lo mismo
que hemos Y aquí usaremos colores. Se va a firmar un tipo de
línea se llama un sólido y tamaño
aquí y dar 1.5. Entonces el tipo de línea sólida y lo
digo sin embargo estoy usando tamaño para determinar el
grosor de la línea. ¿Bien? Entonces me voy 1.5 aquí. Y lo mismo
cuando un lavado blanco. Y entonces todo lo
demás va a ser igual. Titulo de Laboratorio. X es igual a XY es
igual a I color. Así que vamos a darle
esto, ejecutar esto, y ahora los estamos consiguiendo. Esto es punteado y este
es ese grosor. Bien. Juntos tenemos listo tipo de
línea como Dashboard, viene como una línea discontinua Y aquí tenemos su sólido, por lo que viene como
un soporte sólido. Ellos lo harán 111.5. Y si vuelvo a ejecutar esto. Entonces veamos qué ves aquí. Ahora. Se acerca la línea discontinua. De esta manera. Podemos aumentar o disminuir
el grosor de la línea. Bien, entonces espero que sí, espero que esta parte quede clara
cómo crear una línea Parcelas en trama GG a
la siguiente conferencia.
102. Visualización de datos con ggplot2: Hola y bienvenidos de nuevo. En la conferencia anterior, hemos visto cómo
crear gráficas de líneas. Y también hemos
visto cómo podemos trazar parcelas de líneas
múltiples y cómo
podemos personalizar las parcelas de línea. En esta conferencia,
vamos a hacer algunos datos más, GG plot para agregar programación. Entonces qué esto, voy
a calentar nuestro Dataset, que tendrá nombre, algunos nombres y el género,
masculino, femenino, y luego su
edad y el puntaje de la prueba. El puntaje se repetirá
100 y claro, bien, entonces y en base a eso, intentamos visualizar estos datos, que es tener nombre, edad, sexo y puntaje de prueba. Y trataremos de visualizar este conjunto de datos con la ayuda de gráficas de radio o
vivir en GG plot to, e intentaremos hacer
personalizaciones sobre eso, como parcelas realmente facetadas Y trataremos de usar múltiples cosas en
este sencillo Datasets. Entonces estoy usando el conjunto de datos
simple para que sea
cada uno para entender. Antes de eso, déjeme aclarar esto. Así que comencemos la
Visualización de datos con ggplot2. Y con este sencillo conjunto de datos, vamos a tratar de
entender mejor lo que hemos aprendido hasta ahora
en Guinea ggplot2 Entonces esto obviamente
cargará las bibliotecas necesarias, es
decir, GG parcela dos. Así biblioteca y pasaremos la
biblioteca de nombres de bucket llamada GG plot. Lo siguiente es que dendrítaremos el conjunto de datos de muestra
que solemos continuar para este ejercicio Bien, entonces aquí voy a usar
set seed uno-dos-tres. Y esto es por la
reproducibilidad. Reproducibilidad de
semillas. Porque ver, vamos a usar sample mediante
el uso de la función sample. Y será de 18
a 25 años de edad. Se moverá 18-25. Entonces ese será el generador
aleatorio. Entonces lo que quiero hacer siempre que quiera usar esta muestra Data, si uso set.seed, lo hará, los datos no
serán Será, una vez que se
genere para este ejercicio, realmente significará
lo mismo. Por lo que reproducirá los mismos
valores aleatorios de configuración. Bien, hasta ahora. Entonces set.seed reproducirá los mismos valores
aunque estemos llegando a la
función sample, De lo contrario, si no
usa set.seed cada
vez, creará un aleatorio
nuevos valores, nuevos valores ¿Bien? Entonces ahora primero usaremos set.seed y luego crearemos
nuestras variables estudiantes Y aquí usas data.frame. Y aquí frame creará la variable name
y ahí almacenará este vector el cual
contendrá los nombres Alice, Bob, Charlie, David, Eva, rank, Frank, grace, Hannah,
Yan, y Jack. Bien. Y luego crearemos otro factor que
almacenará el género y el género utilizará el
vector sí, masculino y femenino. Bien, y parte diez por diez, ¿de acuerdo? Diez a diez y reemplazar verdadero. Entonces para Angel, use
la muestra 18 a 25. Y cuantos quiero,
quiero valores finales a los que
terminé leyendo para cuantificar y Test score up 210 Discord, quiero generar mediante el
uso de la función sample Esto obtendremos los conjuntos de
datos de muestra de datos. Entonces déjame dirigir esto. Entonces ahora tenemos el conjunto de datos
de muestra creado. ¿Bien? Entonces mira aquí ahora, si imprimimos al alumno, podemos ver tu nombre, género es, y Tesco. Entonces él tenía el nombre, nosotros hemos dado nombres. Y el género
se ha generado aleatoriamente mediante
el uso de la función de muestra. ¿Bien?
Pagos masculinos, femeninos, masculinos en manos, ¿de acuerdo? Masculino, femenino, masculino, femenino. Por lo que generador de litros aleatorios, los maridos de 18 a 25 años
asignados aleatoriamente a estos nombres y los puntajes de las
pruebas también ha sido
que a saber generado De esta manera podemos crear Conjunto de datos
de muestra. Lo siguiente, lo que yo, lo que quiero hacer, quiero crear un diagrama de dispersión entre esta edad y Tesco. Quiero ver cómo
se lleva el puntaje de la prueba en función de lo que cada uno es
Quiero trazar o diagrama de
dispersión que obtendrá la puntuación para esa edad
correspondiente. Entonces para eso, lo que estoy
confundido diagrama de dispersión, edad versus puntaje de prueba. Entonces para esto alude, voy a
crear una gráfica de dispersión variable. Y aquí voy a usar
la función y pasar el conjunto de datos del estudiante
aquí. Bien, estudiantes. Y entonces voy a estética enorme eje x y X es
igual a H y eje y Puntuación. Y punto de neodimio, usaré la función de
punto geom para trazar los puntos en el eje X e Y. Y su laboratorio, X es igual a
es y por qué se llama r2. Puntuación. Y título de la trama será la
trama de dispersión, edad versus discordia. Y luego voy a imprimir
esta gráfica de dispersión usando la función rand
para mostrar aquí abajo. Así que déjame quedármelo aquí. Y bien. Entonces mira aquí, ahora tenemos
un diagrama de dispersión aquí, que está en la página 18 a 25, y el eje y y destruyendo
el puntaje, puntaje de prueba Entonces para 18, está
en algún lugar alrededor del 85. Entonces para 18, si te
ves bien aquí. ¿Qué identidad a las cuatro? Entonces mira aquí timidina o a
400 y trazar. De esta manera. Podemos hacer un diagrama de dispersión lotta
usando el ggplot2. Entonces aquí, sobre capa estética, hemos dado los ejes X e Y, hemos superado el puntaje de la prueba. Y usamos la función de
punto geom para trazar estos puntos en la parcela y su función de laboratorio, tenemos X es igual a H. Y por qué se
llama a probar puntaje Y más apretado, diagrama de dispersión
versus diagrama de dispersión, edad versus el pañuelo Así que de esta manera podemos
conseguirla trama o gráfica de dispersión. Bien, lo siguiente es
lo que quiero hacer. Quiero la misma explicación que he escrito aquí y dejar archivo de
datos, se puede
ir a través de ella. Y si quieres, te lo
explicaré de nuevo. Entonces aquí comenzaremos cargando la biblioteca pull de
la trama GG. A continuación, crearemos el conjunto de datos de
muestra usando data.frame que
hemos creado aquí, data.frame y nombre, edad, género y Y luego usaremos la función
GG plot para iniciar lote y
proporcionar los datos. Alumnos y estética. La función estética X es igual
a egresado de Tesco, que mapea la variable
al eje x Entonces, el eje x se
mapeará en el eje x y la variable de puntaje
se mapeará al La función de punto geom se utiliza para agregar puntos a la trama Estos puntos se
agregarán a la gráfica
mediante el uso de punto geom, función de punto de subrayado
geom para
cada
punto de datos para crear un Y por último,
personalizamos las etiquetas y título de la trama
usando la función labs. Así que aquí se
utilizará la función Lab para personalizar las etiquetas y
el título de la Parcela. Y luego usaremos
la función print. Henry, pausa la gráfica de dispersión, el nombre que hemos
asignado a esta gráfica, y la pasaremos
a la impresión y
la gráfica de dispersión se
imprimirá en nuestro un-solo De esta manera podemos crear cada uno versus el conjunto de datos de muestra de puntaje
que hemos generado. Lo siguiente es, quiero agregar el facetado facetado a esto Scatterplot es cuál es
el puntaje de la prueba para cada género Bien, entonces esta
será la primera cuadra. Entonces para esto voy a crear un
manejador de trama de primer paso variable, agregas Plot. Y tenía un usuario.
Mismo DataFrame Conjunto de datos de estudiantes. Estético, que haría X es igual
a X e Y igual a Tesco. Y va a, ya que quiero
esto mucho basado en el puntaje de prueba
Cada versa basado en el para cada género por separado. Entonces aquí el color es enorme. El color va al género, por lo que el género será
especificado por el color. Y luego punto geom. Solía trazar los puntos y función de
laboratorios que solíamos dar. A continuación está el puntaje de prueba y
título del Señor. Y aquí, y usa la función de envoltura de
guión bajo faceta. Y aquí voy a envolver este. X1 de Mao estuvo en la licitación. Sigues usando el género
cuatro si me resta, bien, Entonces déjame correr esto
y ver la salida ¿Bien? Entonces ahora estoy pintando la pintura y mira aquí ahora tenemos
la trama facetada, edad versus puntaje de prueba por género. Entonces el eje x es, de nuevo, eje
y es el código de muertes Pero aquí, la trama de dispersión de nuestro Señor se
ha dividido en dos partes, hembra y macho.
Femenino o femenino. Aquí
se ha trazado el género femenino. Y el para género masculino
se ha trazado aquí. Por lo que es un corte claro. Podemos ver ese
digital pocos minutos o escritorio
femenino llamado
Valores y sobre mí. Bien. Esta es la forma en que podemos
usar la trama de fester para usar para género
son datos clasificados ¿Bien? Y queremos saber
¿qué pasa con la explicación? Lo repetiré otra vez. Así que déjame esbozarlo aquí. Lo que hemos hecho, como
lo tenemos antes. Hemos utilizado la función
GG plot para guardar la gráfica y
proporcionar los datos, los datos de los estudiantes que
hemos creado usando
la función sample. Y luego la estética. Las fuentes estéticas y
X es igual a SY al cuadrado llamado score y Gartler Tenemos su agenda para mapear
la variable edad llamada agenda para mapear la
variable edad al eje x Tesco valioso para el eje
y, y guardar ese color hasta
la velocidad del viento en el Por lo que el color de los puntos
será el basado en la agenda. Y hay dos géneros. Naturalmente el
marido de dos colores usa rojo y azul. ¿Bien? Por lo que esto dará como resultado, el resultado en diferentes colores para estudiantes masculinos y femeninos. Por lo que se ha utilizado Cl para macho y hembra en
los diferentes colores. Y eso es porque
tenemos un color enorme se
llama al género, ¿bien? El punto geom de
Sandy años para crear el punto de dispersión para cada punto de datos que ya
hemos visto Y personalizamos los niveles
y el título y la trama. No fue la última función
que ya conocemos. Después el laboratorio de subrayado facetario. Y aquí vamos a pasar la disfunción de género va a
crear unos paneles separados, facetas en estos dos
paneles, masculino y femenino Puedes ver aquí estas
se llaman visitas. Faceta, subrayado
envoltorio creará dos paneles separados que se establecen
primero para cada género Entonces aquí hemos pasado género. Entonces con base en el género
escaló dos facetas son dos paneles para
representar los ¿Bien? Esto significa que la parcela se
dividirá en dos subparcelas ¿Bien? Si hay tres
géneros como el masculino, el femenino y el neutro, entonces
se
dividirá en tres partes, bien. Subparcelas. Una firma
Kilometraje al tiempo de ejecución, otra alumnas. Y la función de impresión utilizará para mostrar el gráfico de
dispersión de visualización en la pantalla. Bien, Entonces esta es la explicación para crear un diagrama de dispersión
y facilitar bloqueado. Lo siguiente, lo que haremos, vamos a crear un bar Plot. Y aquí usaremos el género. Lo que queremos trazar, queremos trazar género versus Código de
prueba usando
valor medio en el resumen. Entonces aquí vamos
a crear un bar Plot. Y bar Plot se
creará en base a estas dos variables, género
versus Tesco. Vamos a tramar. Y lo que usaremos aquí, usarás el
valor medio, el resumen. Así que vamos a ver aquí alquilado donde sea bar
y se llama trama Y voy a usar la
función GG plot como Datasets. Estudiantes estética X es igual a la puntuación de la prueba de raíz
cuadrada sabia de género. Y voy a usar el operador plus. Y aquí voy a usar la barra de
subrayado geom para crear el gráfico de barras o la gráfica de barras Y aquí, te voy a dar
estática es igual a resumen. Y la función
será la función principal aquí y llenará cada uno
igual a estable. Por lo que se reconstruirá
con el azul acero. Y la función
se realizará en el MDA, se hará sobre el valor medio o
promedio de Alguien y stack
será el resumen Entonces resumen, lo voy a resumir por los
valores medios y reír funcional,
enorme, ecológico,
eje x, género e Y,
X, X es realmente con una puntuación media de prueba sobre puntaje
promedio de prueba Y el título será
con una barra de Trama, género fue
puntaje medio de prueba y barra de impresión Trama. Entonces déjame correr esto y
ver el resultado que ves. Y ahora tenemos bar Parcela
para masculino y femenino. Y aquí en el eje estamos mostrando el puntaje
promedio de la prueba, uno masculino y femenino Hasta el momento el
puntaje promedio femenino en las pruebas es este. ¿Para mí? Yo solo soy puntaje de prueba es esto. De esta manera podremos
crear la barra Plot. Entonces aquí, si ves la
explicación semanalmente, entonces te contamos. Entonces usaremos la
función GG plot para iniciar la trama. Estética. X es
igual al género o puntuación de la prueba y al
cuadrado
mapea la variable de género al eje x y la
variable de puntaje de prueba al Y Escobar función es
crear una barra de Plot. Y nos sentamos. Stat se llama dos
resumen y phon es igual a la media de dos funciones principales que
se calcularán y mostrarán. El puntaje para cada cúpula. Se mostrará el promedio de la puntuación que anotan y el campo
que restringirá el pegamento, será el color del pelaje
en el Barstow Azul, el color de las barras. Y hemos personalizado
los niveles
usando la última función
que ya conocemos. Y luego haremos la función de
impresión para imprimir la trama en la pantalla. Lo siguiente es, vamos a
crear una gráfica de caja. Género versus
discurso, lo mismo. Entonces aquí la trama GG,
la función, el activo varado, X
estética es igual
al género de distancia en el eje y la puntuación de la prueba y se
llena libremente por género Y usaremos la función boxplot de guión bajo
geom para crear
el
boxplot y la función latch se
acostumbrará para dar el título de la barra
y el nombre
del eje x y del eje y y simplemente lo imprimirá para crear
el
boxplot y la función
latch se
acostumbrará para dar el
título de la barra
y el nombre
del eje x y del eje y y simplemente lo imprimirá. Así que vamos a ejecutar esto. Ahora tenemos un boxplot, género versus puntaje de prueba El eje x es el puntaje de la prueba de género
y eje y. Y esta es la trama de caja
para macho y hembra. Para que veas, bien. Entonces, en base a esto, puedes hacer
el análisis más detallado, ¿de acuerdo? Hagas lo que hagas
con ellos, boxplot, primer cuartil y todas esas
cosas que puedas relajar La misma explicación Gorgias, DG plot para iniciar
la estética de la parcela para mapear los vientos y la función boxplot
joven utilizada
para crear la Y personalizamos mediante
el uso de la última función print. ¿Bien? Y aquí se pueden
ver las dos casillas, una por cada género,
masculino y femenino. Las cajas Entropía en el rango
intercuartil que La línea dentro de la caja
representa la media, el valor de la
mediana y los bigotes
externos a los valores mínimo y máximo dentro de
un cuartiles FY15, intercuartil Y señala que
los bigotes son considerados como de último punto fuera de este riesgo porque cuando llamamos menos, entonces esos son los
análisis que puedes hacer para encontrar valores atípicos
y todo si lo son,
estos conjuntos de datos
no me bastan estos conjuntos de datos
no me bastan Ahí. Este conjunto de datos no es suficiente para analizar la clase de
perro. Y todo. Este es el conjunto de datos de muestra
que hemos creado a través simplemente crear las diferentes parcelas. Bien, entonces lo siguiente que haremos, vamos a crear un histograma Y aquí usaremos la
distribución por edades de los alumnos. Aquí. Voy a usar el histograma Voy a crear un histograma donde van a función de trazado Year
GG Voy a usar el mismo conjunto de datos y sin embargo, la salida estética
igual a H más voy usar la función Geom histograma subrayado
geom Hostogram Y aquí, binwidth,
voy a dar uno. Voy a rellenar con este Tableu, el color a blanco, y usaré la función left
para dar el nombre del
Plot y los ejes X e Y,
y luego simplemente
imprimiré el Aquí, este es el histograma. Los hemos creado
siendo decir, bien, entonces este es el histograma para la distribución por edades
de los alumnos Bien. Rápidamente volveré a
la explicación. Así que aquí de nuevo tenemos aquí la función de trazado de GG
para guardar la gráfica y luego el Dashboard y los datos de
deformación a la gráfica GG para. Y usaremos la
función estética y la edad
porque vamos
a deshacer la distribución por edades
de los alumnos usando histograma Entonces X es igual a H y mapea la historia
valiosa para el eje x Geom subrayan los valores de la
función del histograma para crear el histograma cuando cada barra
representa la frecuencia,
cuenta hasta el grupo de edad específico de los estudiantes Entonces aquí, lo que estoy tratando de decir, que cada barra representa la frecuencia de los peces para
rentar en una barra de edad específica. ¿Bien? Entonces a esa frecuencia
de la cepa para 20 es frecuencia de
esto va a rentar ¿cuántos hilos
hay que puedas ver? Aquí se ven problemas
para la edad. A los 24, no hay alumnos, por lo que no
mostró ninguna barrera. Y blanco usando
argumento a todo color, una barra que es blanca, la brecha entre estos blancos, por lo que este
peso colateral no puede verlo delineado, no estará ahí Luego personaliza usando
la función izquierda. Y la impresora que utiliza la función de
impresión es un eje x. Y el presidente,
los diferentes
grupos de edad y por accidente marcas que frecuencia no pero
pesqué renta en cada grupo Entonces lo que 181 es correr para
20, hay estudiantes, entonces yo soy crítica o
al Dataset CF1 18, sólo uno es 20 Y para 2.012.3
hebras, eso está bien. Si miras aquí, para 23 alumnos, ¿qué 25? Ese es Nostradamus. Entonces, cuando nosotros, fijamos en los datos, la Parte D para eso está totalmente bien con ellos
después de 24, luego Nostradamus ¿Bien? Así que de esta manera podemos crear varias licencias
promedio netas usando GG plot
103. Añade estética a color: Hola y bienvenidos de nuevo. En la conferencia anterior, hemos visto cómo podemos obtener varias parcelas usando ggplot2 en nuestra mano de rehabilitación creando este simple conjunto de datos que contiene nombre,
género Y con eso,
hemos visto cómo
podemos trazar hace diagrama de dispersión, que representará
cada palabra dice Tesco. Y luego hemos visto cómo
podemos usar fuentes geom point y cómo podemos usar
la función labs Y hemos visto toda
la explicación. Hemos visto cómo podemos crear
una trama facetada que lo hará. Entonces los inicios de sesión son dos partes
como la edad y el puntaje de la prueba. Basado en género. Se ordenará por el género. También lo hará en las dos
partes, masculina y femenina. ¿Bien? Entonces todas esas cosas
que hemos visto así, no sería
lo rápido que fuera
el entre macho y hembra. Y así este
fascinante lote de parcela, diagrama de
dispersión también, hemos
visto cómo podemos hacer eso. Entonces hemos visto como
poner barra Plot. Y entre edad y
género y discordia. Discordia que también hemos visto. Y luego hemos
visto cómo podemos poner su jefe, mezquita, lote, boxplot y entre género
y código de prueba y cómo podemos, también
hemos visto
la explicación de cómo podemos analizar los valores atípicos,
pero en el rango intercuartil Entonces no todos distintos entonces
hemos visto el histograma. Muchas cosas más puedes
basándote en tu requerimiento. A continuación, lo que les
voy a decir
de agregar estética
a las parcelas. Entonces déjame asumir que has visto, hemos creado esta
trama, diagrama de dispersión aquí. Entonces cuando vemos el diagrama de dispersión, este es el
diagrama de dispersión así. ¿Bien? Ahora, lo que quiero hacer, quiero agregar color más adelante
en la agenda a esta trama. Entonces lo mismo va a U-Dub
library y agregará ggplot2. Y he aquí por qué
quería modificar esta
estética de esta trama. Porque al mirar estos, no
sé cuál es este
punto masculino o femenino. Hecho en él. Hicimos en cada escritorio de agente, podríamos haber trazado, pero no
sabemos, este soy yo. Esta puntuación es masculina
o femenina. Bien. Quiero poner los puntos en un color para que estemos
viendo la trama. Puedo saber eso, bien, este ser pertenece a hembra
y el azul es para mi. Entonces ese tipo de
cosas podemos hacer con el cambio estético
agregando el color. Entonces, lo que vamos a hacer, vamos a agregar estética de
color a las parcelas para diferenciar entre estudiantes masculinos y
femeninos. Bien, entonces aquí se creará la misma
muestra de configuración Data. Entonces primero necesitamos
ejecutar la biblioteca y luego me tomó en este conjunto de datos que ya
hemos creado. Y luego vamos a crear un vector aquí que
contendrá el macho, le asignará un color azul para la memoria le asignará
el color rosa. Y este rector asignará
a la variable de color. Bien, entonces ahora la misma semana, lo que hemos creado aquí, diagrama de
dispersión, de la misma
manera será oscuro. La gráfica de dispersión aquí le dará una variable llamada gráfica de dispersión a la función de gráfico
GG. Pasaremos el conjunto de datos
como estudiantes. Esta la hemos creado, entonces usaremos la función
estética. Sin embargo, X es igual a H e Y es igual al
puntaje de prueba será el mismo. Lo único es que asignaremos
otro parámetro aquí, colorearemos cada llamada al género. Entonces vamos a asignar el
color en base a la agenda. Y este color vendrá de este vector de color
aquí que hemos creado. Y luego usaremos el punto de subrayado
geom para trazar el punto en la Parcela Y luego usaremos el color de subrayado de
escala en el segundo Por lo que esta función se utilizará para colorear los puntos
hechos en la agenda Así que el color va al género. Y aquí estamos pasando aunque, esta fuente y escala de colores subrayado color
subrayado manual Valores es igual al Por lo que este valor
vendrá de este vector. Masculino y femenino. El macho será azul y
verde. Cuando estamos haciendo un looping A partir de aquí,
escogerá el color y será trazado
y función de laboratorio Ahora ya lo sabemos. Entonces déjame hacer
esto y ver aquí. Ahora tenemos el diagrama de
dispersión que hemos creado. Ahora simplemente vamos a imprimir en
la gráfica de dispersión aquí. Ahora la gráfica de dispersión
tiene rosa y azul. Los puntos que
antes eran uno Salto negro. Se está mostrando
como un azul y rosa. Los vientos rosados pertenecían a la hembra y el
azul para los machos. Así que de esta manera podemos personalizar el diagrama de dispersión
agregando estética de color. Entonces déjame explicarte esto de nuevo. Hemos creado este conjunto de datos
de muestra. Las personas que tienen este conjunto de datos de
descuento de tabla es el nombre de Eric, género, edad y puntaje de prueba. Y aquí queremos añadir
una estética de color. Así que hemos creado
nuestro color, nosotros vectoriales, donde hemos asignado un azul
al color masculino y femenino. Este color tocamos barras a la escala guión bajo,
subrayado función manual Esta función dará valores
de datos de este vector de color. Y en realidad lo va a asignar
en base a la agenda para si va a asignar color
azul y si es miliequivalentes
libres NDA,
creo, bien, entonces hemos
trazado ese Algo similar podemos hacer con la barra Plot y
boxplot e histograma Entonces hagámoslo también. Así que aquí estoy creando un valioso Botón de Barra,
hace diagrama de dispersión, función de diagrama
GG, estoy usando Dataset estudiantes estética
X es igual al género. Por qué se llama score. Y voy a llenar de género. Y luego usaré la barra de subrayado
geom, Plot hit Stat Summary y, y trazar con el resumen
con el valor medio Y luego usaré la escala, el guión bajo de la
escala, el manual de
subrayado Entonces aquí tenemos escala
subrayado color, y eso se llama manual
para la barra Plot Manual de habilidad, subrayado,
subrayado. Y pasaremos el color de
valor agregado. Y luego laboratorio Swanson
será setos tomarán. Entonces déjame dirigir esto. Y ahora voy a imprimir la barra Plot. Ver aquí ahora, la
hembra está trazada. Boxplot, PMM en cajas
traer y buzones. Correo azul. De esta manera podemos
colorear la estética. Bach, bach bar Parcela, perdón. Después boxplot. Voy a usar el mismo
conjunto de datos estético X es
igual a género, por eso se llama escritorio
o género femenino. Y luego geom bar, geom guión bajo boxplot para trazar los puntos y luego
escalar guión bajo,
subrayado manual y
sus valores cuando
coloreamos y coloreamos Por qué Dios ama la tabla es boxplot género
resiste los puntajes de las pruebas Y vamos a ejecutar esto. Y luego
boxplot al azar. El diagrama de caja El boxplot también está
teniendo colores rosa o hembra y azul para la comida Bien. Lo siguiente es que
haremos para el histograma. Así mismo GG plot
función estudiantes Dataset estética X
es igual al campo H. Se llama agenda y luego geom subrayado histograma Y que tenía
le dará el ancho de banda un hombre con cada llamada a uno y coloreará
cada color a blanco. Y luego escalar. Escala el campo de subrayado
y su comando. Pasaremos los Valores
Como los colores. Entonces este blanco será el color del borde, y
esto se hará. Colores de histograma
basados en el género. ¿Bien? Y luego última función como histograma de
Israel y
distribución de estudiantes Esto, y luego imprimir
el histograma. El histograma es que no tengo. El color rosa y azul y el color del borde
oscuro es blanco. Las líneas colindantes son blancas. Si quieres que
sea verde. Ejecutemos este programa. El Nauta, más
o menor grado. ¿Bien? Entonces este color es para el borderline y este valor
a los colores que estamos escogiendo de esta columna
vector que hemos creado siendo hembra
y crecer formyl, puedes darle cualquier
color que quieras para dar rielo a tu ¿Bien? Entonces de esta manera podemos
agregar la estética a las parcelas en ggplot2 Entonces espero haber
explicado con claridad. Y puedes caminar sobre esto. Puede comenzar a jugar alrededor de los datos
de la función de radio. Puedes cavar otro
conjunto de datos y puedes comenzar a explotar las cosas
y comenzar a expandirte, explotar las cosas y
comenzar a experimentar El color diferente, la estética
diferente. Bien, entonces nos vemos dentro
de la siguiente conferencia.
104. Estética de trama de afinación: Hola y bienvenidos de nuevo. Entonces en la conferencia anterior, hemos visto cómo podemos
agregar estética de color. Hemos visto como podemos
agregar colores a las gráficas, gráfica de
dispersión, barra, Plot, boxplot y almacenarlas. Ahora bien, lo que trato de
afinar las gráficas usando
y funciones de escala. Tan fino ajuste de
lo que está bien también. Los hallazgos realmente tratan de
hacerlo un poco más atractivo, todas esas cosas bien,
para afinar la trama, estética y ggplot2,
podemos usar la función estética, la función aes para mapear
variables a la estética
y la escala subrayado de escala comenzó con, hay varias
funciones debajo de él. Así que podemos usar las
funciones de habilidad para personalizar la apariencia de los elementos de trazado de
radio. Simplicidad, pueden
levantar la estética, pueden escalar funciones para
afinar la estética de la trama. Entonces, lo último que
cargaremos la biblioteca. Luego crearemos el
mismo conjunto de datos de muestra que hemos creado en
las conferencias anteriores. Y luego haremos la
afinación fina de una gráfica de dispersión. Entonces lo mismo que haremos, edad versus puntaje de prueba. Lo mismo. Aquí. Afinaremos el lote usando funciones
estéticas y habilidades. El valioso gráfico de dispersión, que utilizará la función plot
pasará el conjunto de datos. Entonces la función estética cuando
X es igual a H de Y es igual a la puntuación de la prueba y el color
realizado en el género del gel. Y aquí usaremos otro
parámetro llamado Guardar. Y ahorra. What Save que podamos asociar
decidirá en función del género. Y aquí, usaremos función de punto
geom
para trazar los puntos Pero aquí los
lados puntuales realmente especifican. Así que antes no hemos especificado ningún tamaño de punto aquí
vamos a especificar tres. Así que los lados del punto geom
son iguales a tres. Este parámetro pasará. Y luego usaremos el guión bajo
de escala, subrayado Y tenía valores para
el color va a dar C. Rector aquí azul y rosa. Y luego para el CEP también
se usarán guiones bajos. Resaltado manuel aquí
dará los valores. Cuenta con 16, 17. Entonces esto creará seguros, varios consejos que podemos crear, y luego usaremos
la función de laboratorio. Y déjeme dirigir esto simplemente. Cuando ejecute esto, se creará el
diagrama de dispersión. Vamos a traer el diagrama de dispersión. Por lo que ahora se puede ver aquí, ahora la gráfica de dispersión
tenía la va a crear, pero ver el tema de los puntos para machos y
hembras son indiferentes Ver los puntos son un
poco más grandes porque no
hemos especificado el
tamaño igual a tres. Si lo hago tartán,
¿qué pasará? A ver. El tamaño aumentará y se
mueve, vuelve a imprimirlo. Ahora el tamaño de los
puntos son más grandes porque tenemos un
tamaño especificado igual a 13. Y el color que hemos
dado aquí, azul y rosa. Así colores azul y rosa, Parte
azulada, hembra y macho Nosotros hemos dado rosa. Entonces aquí está. Appoggiatura Ahora podemos corregirlo simplemente. Bien. Entonces esto no es exacto o en realidad para que
puedas calcular la letra C. Ahora los puntos son más grandes. Entonces basado en este lado es igual
a 30 y el color
viene de aquí y ver si
viene de este montón Cualesquiera que sean los valores que
estamos pasando aquí. Si lo hago 117, veamos. Simplemente puedes jugar con los números y ver
ahora este par. Entonces es sólo un círculo. Y si pongo una letra fue proceso de recocido
soporte del equipo, voy a poner 88 Y veamos a qué
secreto va ahora. Observe que viene así. Entonces en base a estas cosas, se
puede ver por ello, si pongo 18,
cuales serían los mismos datos también, pueden
ver me
dejan copiar esto. Dividir. Esto por favor vea, y ahora está entrando en esta cinta laminada
y esto es triángulo. Si lo hago. Esto también en lo que vendrá
en lo mismo, digamos, si lo hago 28,
28 no es nada como esto. Podemos hacerlo bien. Bien. Por lo que en base a los números en la
caja fuerte va a cambiar. Entonces esta es la forma en que
podemos afinar las tramas. A continuación vamos a
afinar la barra Trama. Y sin embargo también lo hizo el puntaje de prueba de género
versa generalmente valor medio
del resumen. Vamos a trazar que
ya tenemos parcela aquí. El mismo conjunto de datos. Estética estudiantil, género, por qué prueba
puntuar y llenar por género. Y luego geom subrayado función
Bar. Geom subrayado La función de
barra será Resumen de
estadísticas y phon en sensible a la media
y el subrayado de escala El manual de subrayado
verá azul y rosa. Y esto es cosa simple, solo
será esto
y pegarlo aquí. De igual manera, podemos hacer lo
mismo con el boxplot. Esto para boxplot. ¿Bien? Entonces CEO, ahora, una línea de puntos viene
aquí para que tengamos
bigénero fluido de género no binario Y aquí. De igual manera, podemos
hacer este histograma. Esta es la forma en que podemos
afinar las parcelas utilizando funciones estéticas y de
escala. A los alumnos les gusta la próxima conferencia
105. Modifica tus temas, etiquetas, títulos y ejes con la función del tema: Hola y bienvenidos de nuevo. En esta conferencia vamos a modificar temas,
etiquetas, títulos y ejes usando el tema
Función para modificar temas, etiquetas, títulos y ejes. En GG plot two, podemos usar el tema
Función junto con varios elementos temáticos para personalizar la apariencia
de nuestras parcelas. Entonces comencemos con
un ejemplo y veamos cómo podemos usar el tema
Función para modificar temas, etiquetas, títulos y ejes. Así que lo muy rápido
es que vamos a cargar la biblioteca como es
relativamente trazar a. Lo siguiente es que
vamos a crear este conjunto de datos de muestra que ya
hemos hecho. Entonces déjame correr esto por ahora. Ahora, lo siguiente es
modificar temas, etiquetas, títulos, cosa
enorme, Banza Así que para nosotros recrear
la trama de barras. Entonces primero crearemos el diagrama de dispersión entre la edad y el código extra que ya
hemos hecho. Pero aquí vamos a tratar de modificar los niveles de tema y títulos y ejes usando el
tema Función. Entonces el ayuno es bueno si las variables se dispersan
como de costumbre, entonces usaremos la función
GG plot. Pasaremos el conjunto de datos, luego usaremos la función
estética. Y aquí, X igual a H, Y será el puntaje de prueba Color mencionado en la agenda y
decir construir en la agenda. Entonces ya lo hemos hecho. Lo siguiente son las funciones de punto de
subrayado geom Sij igual a tres Esto trazará los
puntos en el lote. El tamaño será de tamaño, los lados del punto serán tres. Entonces aquí usaremos las funciones escaladas subrayado
color y manual de DashCon Y aquí vamos a dar los valores
para los colores azul y rosa y seguro para muestra
nos da este Vectores 16, 17, ya
hemos visto
en la diapositiva
anterior, conferencia anterior
cómo
cambiarán las formas de los puntos o puntos en base a los
valores que pasamos aquí. ¿Bien? Entonces lo siguiente es que el laboratorio Swanson utilizará
para dar el título
de la trama y el nombre
para el eje x y el eje y Y luego usamos el tema
subrayado función minimal. Y entonces esto es lo principal que vamos
a aprender en esta conferencia. Ese es el tema Función. Así que dentro del tema Función, lo que vamos a perder mucho, título de
punto, vamos a dar. Y aquí elemento subrayado X, esto será, esta
función se utilizará para dar los lados del título ¿Bien? Toma lados del título. Al igual que el diagrama de dispersión
con la edad era un Tesco. Este título vendrá
de las parcelas que tamaño de
texto podemos
cambiar a partir de aquí usando el elemento underscore tax y el parámetro size
que haremos aquí Y luego vamos a dar
la cara es igual a negrita aquí podemos cambiar
el estilo de la fuente. Estilo de fuente que podemos cambiar
por usted no se
enfrentó, ¿llamó a dos voltios
cursiva lo que quiera y actuar solo
le dará 0.5 y existe título de
punto para el eje x
y el título del eje y, usaremos la misma función Elemento subrayado texto lados van a dar lo que quieras
escuchar Estoy dando 12 Y luego enfrentar el tazón. Y luego para acceder
los textos
te darán el elemento subrayado función
sexual y el
tamaño dará diez Y luego leyenda punto
título, vamos a utilizar elemento. Y eso se llama función
en blanco. Y loginData textos. Usaremos el elemento bajo
ciertos textos y los lados darán diez y la posición de la
leyenda dará en la parte inferior. Entonces vamos a dar el fondo aquí. Así que vamos a ejecutar esta trama de dispersión. Antes de eso, permítanme copiar este gráfico de dispersión de impresión,
dispersión. Y lo voy a poner, solo vernos en esa parcela de dispersión plantada y al mismo tiempo. Entonces déjame dirigir esto. Nos vemos ahora, aquí estamos obteniendo
el diagrama de dispersión. Y mira este es nuestro título de trama tecnológica que
hemos dado en un tazón aquí. Al igual que si cambio
esto a 14 a 24, esta voluntad, cuanto más grandes, los textos serán de
mayor tamaño. Entonces déjame dirigir esto. Ahora es omega, ¿verdad? De la misma manera para el
título del eje si se lo di a 22. Si ejecuto esto. Ver ahora test
score NAs o en mayor. ¿Bien? Entonces, la forma en que podemos modificar los títulos, niveles y ejes. Bien, Así que déjame hacerlo
y 14, buscando materia Esta gráfica de dispersión de cada curso. Bien, lo siguiente haremos lo mismo por el bar Plot. Así que para la barra Plot también se
utilizará el mismo conjunto de datos. Y vamos a crear una barra de la
variable Plot aquí y luego DD
plot function dataset. X es igual al género. Por qué se llama escritorio o género. Lo mismo que hemos
hecho antes al levantar es que vamos a utilizar este tema Función año extra
plot dot title. Lo mismo que estamos usando
para la barra Plot también. Así que no voy a tomar el
enfrentamiento el tiempo explicando lo
mismo una y otra vez. Yo sólo voy a copiar esto. Y yo solo lo mejor es
rasgar a un adulto correr esto. ¿Bien? Bien. Entonces mira aquí esta
es la mala trama. Del mismo modo, también haremos
la trama de caja. Entonces estas son las cosas
que ya hemos hecho. Lo único extra que estamos
haciendo aquí es tema. Lo mismo, Elementos y
discurso. Yo lo mismo. También estamos haciendo más
boxplot. Y sólo voy a ir a
esto y pegarlo aquí. Y ejecuta esto para boxplot. Para ver la trama de caja. El boxplot, todo
se ha cambiado en consecuencia. Bien, ¿lo siguiente es
realmente hacer qué? Histograma es,
obstruentes de distribución aquí también, tuvimos este tema Función Modificación del tamaño de
la cubierta del tamaño de la toma de Parcela. Entonces déjame dirigir esto. Entonces así es como podemos
modificar esos temas, etiquetas, títulos y ejes. Lote usando en ggplot2. En cada tema de la trama La
función se utiliza para modificar los diversos elementos del tema
como el título del punto de la trama, el título del punto los ejes existía o la leyenda del texto del título del punto de la
leyenda del texto del punto, y la posición del punto del ligando. El tema o el elemento
subrayado función de texto se utiliza para establecer el sitio, font-face y justificación
en el Utilizamos un tema subrayado función mínima para comenzar con el tema
minimalista, donde todas las parcelas y luego personalizar
aún más la apariencia
con el tema Estos ejemplos demuestran
cómo modificar temas,
etiquetas, títulos y ejes con el tema Función en ggplot2 Ahora, puede explorar elementos de tema
adicionales y personalizar aún más
la apariencia de sus parcelas para que coincida con su
visualización específica y necesidades para cada proyecto tendrá su propia visualización
necesita
hacerse que puede utilizar estas funciones y
se puede explorar más
106. Proyecto 6: Hola y bienvenidos de nuevo. En esto, vamos
a hacer un proyecto sencillo. Y con eso caminará sobre un conjunto de datos del mundo real para crear regionalización de
conocimientos Así que estamos trabajando con un conjunto de datos
del mundo real para crear licencias
perspicaces y aspectos
importantes de Análisis
de Datos, Ciencia de
Datos, narración Repasemos
un ejemplo usando un conjunto de datos
del mundo real para crear visualizaciones
perspicaces En este ejemplo, usaremos
el famoso conjunto de datos Iris, que está fácilmente
disponible con el paquete R por defecto, el IDT contiene
la información sobre diferentes especies de flor de iris,
incluyendo su longitud
de sépalo, ancho de sépalo,
longitud de pétalo y ancho pétalo,
y las especies de la Bien, Así que este es el
proyecto sencillo que relu e
intenta crear algunas visualizaciones,
visualizaciones Entonces primero, perdemos
esa biblioteca, ggplot2. Luego cargaremos el conjunto de datos de iris escribiendo la función de datos, Función datos
pasando el nombre del conjunto de datos. Entonces estos dos son el paso esencial para cargar
la biblioteca de necesidad y cargar el conjunto de datos irlandés y explorar la estructura
del conjunto de datos. Usaremos la función STR
y pasaremos el nombre del conjunto de datos. Entonces veamos la
estructura del conjunto de datos. Entonces puedes ver aquí, hay uno por cada empleado
objetos o cinco variables. Cinco variables son la longitud del sépalo, anchura del
sépalo, la longitud del pétalo, anchura del
pétalo y una especie ¿Bien? Y luego aquí se dan Valores. Bien, entonces lo siguiente es que veremos el resumen del Dataset, que nos dará
las estadísticas. Las cinco columnas, la longitud del sépalo, anchura del
sépalo, la anchura del
pétalo y una especie Y sus valores mínimos, cuartil
aplastado,
mediana, valores medios Tercero, cuartil y valores máximos
para cada una de las variables. ¿Bien? Entonces de esta manera
podemos ver analizar, bien, lo siguiente es que recarguemos Esto es
lo estadístico que obtenemos
al obtener el resumen del conjunto
de datos. Ahora, lo que quiero hacer, quiero crear una
gráfica de dispersión para este Entonces para eso, lo que voy a hacer, voy a crear una variable de diagrama de dispersión
subrayada aquí Y usaré la
función GG plot para crear la gráfica, y asignaré a esta
variable y luego la imprimiré. Así función de trazado de GG, voy a pasar el conjunto de datos,
Iris dataset. Del mismo modo, que
al igual que en las conferencias anteriores, hemos utilizado la
función estética aquí también deja la función estética aquí también deja la función
estética. Y tenía XXS para la
longitud del sépalo y la salida del eje y. Ancho de punto simple y Color. Poner construido sobre la
función de punto de subrayado de especies y geom que usaré para trazar los puntos en la trama
y funcional grande, enorme para mantener el
título para el eje x,
eje y, y el
título de la Y entonces aquí voy a usar la función
mínima subrayada del equipo Y luego voy a imprimir
esos gráficos de dispersión. Así que vamos a ejecutar esto y ver cómo la sangre que viene
a la trama de dispersión. Así que vamos a hacerlo más grande. Este es el diagrama de dispersión que estamos obteniendo
después de ejecutar esto. Así que mira aquí,
longitud sépalo en el eje x, ancho
simple en el eje
y, y Color basado en Entonces hay dos dosa,
versicolor y virginica. Entonces mira, todas las especies se
trazan aquí con base en la longitud del
sépalo y el ancho del sépalo Entonces esta es la misma gráfica de dispersión
pasada que hemos creado. Lo siguiente
es que el conjunto de datos Iris tiene para variables numéricas, longitud
sépalo,
ancho sépalo, longitud de pétalo, ancho de
pétalo, y una variable categórica
que es especie Entonces esta especie es la variable
categórica. Ahora vamos a crear alguna visualización
perspicaz repente que bloqueaste. Entonces el primero
es el diagrama de dispersión, nuestros datos los hemos creado
ya. Entonces déjame correr esto
otra vez. Obtienes lo mismo. Ahora vamos a crear una gráfica de caja. Entonces boxplot, lo mismo, boxplot GG plot to will lo hace, luego función
estética Y aquí X, X es, voy a poner estas piezas
y eje y voy a poner el hotel puesto, pongo
la longitud del pétalo Así especies y
su longitud de pétalo y vamos a llenar
de especies oscuras. Y luego geom
subrayado boxplot. Voy a utilizar para dibujar el boxplot y luego reír
función llamada título y todo Y luego voy a imprimir.
Entonces déjame dirigir esto. Mira aquí esta es la parcela de caja, longitud de
pétalo por especie Entonces esto cada uno para setosa, esto es para este boxplot
es para versicolor, esto es para ver Del mismo modo, quiero
crear un E histograma voy a
crear basado en la distribución de ancho de pétalo
entre especies Entonces para este
histograma, gramaje subrayado
plot variable DG, ggplot2 función
hace, va a pasar iris que estamos usando
estética Y voy a rellenar con
esta pieza con sus especies y
luego histograma, histograma
uso funcional y binwidth, voy a dar 0.1 color,
voy a dar color voy a dar Este es el
color de supresión entre los bins. Y voy a dar 0.7 y laboratorios de uso funcional para
dar los títulos y todo. Y luego tema mínimo
que estoy usando aquí. Así que vamos a ejecutar esto y ver, sí, este es el ancho del pétalo
son el eje x y el eje y Tenemos la frecuencia. Y este es el primer
conjunto de piezas de tamaño. Verdoso para el
versicolor y virginica. Virginica. Azul
para la virginica Bien. Así que de esta manera podemos
crear este histograma El siguiente es, voy a crear
una gráfica de dispersión facetada. Y ahí quiero mostrar el largo del pétalo versus el
ancho del pétalo para cada especie. Entonces para esto, estoy
usando el eje x, estoy usando la longitud del pétalo, el eje y, estoy usando el ancho del pétalo y el Color que estoy dando
mejor que la velocidad en la especie y
el tamaño del punto geom Me dan tres y todas las
demás cosas ese mismo año, amistad para subrayar función
envoltorio voy a dar construir sobre esta especie Bien, Así que esta función de envoltura de
guión bajo preestablecido te
dará el profesor
hizo la gráfica de dispersión Ejecutemos esto y
veamos la salida. Ahora, estamos viendo el diagrama de dispersión
facetaria. Aquí, el conjunto de tallas. Esto es posiblemente mejor aterrizar en el eje x y el
ancho del pétalo en el eje Esto es para la setosa, este verde para el versicolor, y azul para la Entonces esta es la gráfica de dispersión
facetada. Y aquí también se puede
ver el bloqueo para setosa, versicolor Esta es una
categorización clara. ¿Bien? Entonces, lo siguiente, lo que bajo proyecto es mediante la utilización conjuntos de datos
del mundo real
como el conjunto de datos Iris, podemos obtener información sobre las relaciones y la
distribución de las variables, identificar los patrones y hacer interpretaciones perspicaces Bien, Ahora eres libre de
explorar más Parcelas, escribir, y personalizar la estética
que hemos hecho antes. Al igual que puedes modificar las etiquetas
temáticas, títulos, todas esas cosas que hemos aprendido en la conferencia
anterior que aplicas sobre esta y
creas tu propio proyecto. Y luego experimentar por
los diferentes conjuntos de datos. Aparte de esto, para
practicar y desarrollar tus propias habilidades de lección DWT Entonces este es el proyecto
simple
basado en el conjunto de datos de iris para crear un
histograma de diagrama de dispersión fester scatterplot,
boxplot, boxplot, Espero que tengas alguna idea sobre cómo puedes caminar sobre
el conjunto de datos del mundo real. Puedes caminar sobre el conjunto de datos del mundo
real. Gracias
107. Manejo de datos de fecha y hora en ggplot2: Hola y bienvenidos de nuevo. En esta conferencia, vamos
a aprender sobre el manejo datos de
fecha y hora en ggplot2 Por lo tanto, manejando la fecha y
hora en que la gráfica T2 para invocar, insertar esos datos se
reconoce correctamente como almacén de objetos de fecha
y hora que la gráfica GG puede formatear
adecuadamente las etiquetas del eje y crear las habilidades
adecuadas ¿Qué significa? Significa que si pasas los datos, datos fecha y hora
en un formato correcto, entonces trazas dos, te encargarás de las verduras, las cosas trazando y
no recaudaron impuestos Así que abril enseña objetos de
fecha y hora
clínicamente reconocidos. La gráfica Gg puede formatear
correctamente las etiquetas del eje y crear habilidades
adecuadas. En nuestra fecha y hora se pueden representar utilizando
diversas clases
como lógicas a ciudad y
auditorías, y funciones LD Bien, entonces veremos proyecto
City y proyectos LTE más adelante. Por ahora, basta con
saber que los datos se pueden representar usando
diversas clases
como la ciudad lógica y los
proyectos como el, bien, así que vamos a un
ejemplo sencillo usando dataset con datos de fecha y hora para demostrar cómo manejar la fecha
y la hora en ggplot2 Entonces lo primero que necesitamos de la ggplot2 y la biblioteca, hasta
qué punto estos ejemplos
cargarán estas dos Y luego lo que quiero hacer, quiero crear un
conjunto de datos de muestra que y valor de tiempo. Entonces aquí eso va a crear o
Dataset el cual tendrá la fecha y los valores
correspondientes a cada día. Entonces para esto usando set.seed 123, modo que obtendré los mismos datos de muestra de
configuración cada vez Cuando ejecuto el programa. Entonces para Data, voy a, voy a crear unas fechas valiosas
y voy a cuatro días, voy a,
voy a perder una función de secuencia
para crear los mazos para mí. Así que las ideas
de
la funcionalidad de la secuencia de añadir oscuridad para seis ciudad, añadir oscuro cuatro DX DT. Y aquí voy a dar
fecha como 23 gen, primero, primero enero 2023. Entonces este es el
origen de la fecha. Entonces a partir de esta disminución
y vamos a empezar, bien, aquí, estoy
usando por un día. Por lo que un día
será la diferencia entre cada hora fecha y
lynda punto punto será 30 30. Quería crear 30 días. En esos 34, 30 días
quiero crear, bien. Me usan la secuencia Ronson y para Valores usando la función impar pnorm, la
función pnorm Aquí voy a dejar ese número
de valores que quiero crear. Entonces quiero obtener 30 Valores. ¿Qué son estos 30 días? Y entonces quiero usar
la media igual a 50 y desviación
estándar
ya sea diez, ¿bien? Y cuatro días tengo función de secuencia de
unión y
dentro de la función de secuencia que estoy usando es igual
a Ag punto Cp. Estoy dando la fecha de inicio. Y por uno, por cada
día vivo. En títulos se
crearán a partir de 30 días, se
crearán a partir de primera generación,
continúa impreso tres Y luego estoy creando un
DataFrame, data.frame. Cada llamada a la fecha o fecha. Estoy usando estas pruebas
Valores y para Valores, estoy usando este valor. ¿Bien? Así que vamos a ejecutar esto y a
ver qué está pasando. Ahora han corrido, vamos a llevar
al dataframe df8, Así que mira aquí. Ahora es yo soy dos
columnas, fecha y Valores. Los datos empiezan desde la
primera generación 2023 y van de primera generación a
tiempo por día tres Y para cada día,
tenemos diferentes, diferentes valores
asociados a eso. Entonces ahora tenemos datos simples, conjunto de datos de
muestra, fecha
y datos correspondientes. ¿Cuál era el valor? Podría ser cualquier cosa
como el costo
del artículo en particular o algo así. Entonces tenemos fecha
y columna de revisión. Ahora podemos intentar
trazarlos usando ggplot2. Entonces en este ejemplo, creamos un conjunto de datos
con dos columnas, datos que
lo representan en datos de tiempo y valor que representan los
algunos valores numéricos. Bien, entonces lo primero, qué quiero crear una gráfica de línea
simple con fecha en eje x para estos valiosos subrayados de
línea
alquilados Trama
y aludir a la gráfica GG,
para crear la gráfica para crear Así ggplot2 y dataset, voy a pasar dF que
hemos creado Sólo sé que existe anestésico X. Quería poner la fecha y el
eje y quiero poner Valores, entonces X es igual a fecha
y ¿por qué valorizar Y luego usaré la línea de subrayado
geom Human, eso se llama función de
línea para trazar estos puntos en la Y luego la última función para dar los nombres como para eje
X estado y eje valor
y datalab aunque, plot es line Plot value over
time, y theme, minimal Entonces T-menos cuatro milimoles, y luego voy a imprimir
la trama de longitud Así que vamos a ejecutar esto y ver cuál
es la salida que viene aquí. Este es el comando de trazado de líneas. Las gráficas de línea valoran a lo largo del tiempo. Entonces para el 1 de enero, día y Valores Como
hemos trazado aquí, por
ejemplo, hay nueve
densidades así, ¿de acuerdo? Así que valorizar con el tiempo con esto, simplemente se
puede visualizar que está produciendo la segunda parte
de la trama de ese tiempo de datos. Ggplot2 es lo simple. En el eje x, los valores
del eje y de los datos y el resto de
las cosas cuando estamos tomando ggplot2 de
huida en
esta amplia gráfica GG para reconocer que el contenido de la columna de fecha,
los datos de
fecha y hora
y automáticamente agricultores acceden a Bien. Entonces etiquetas aquí.
Bueno creando esto, no
hemos dado ninguno, como el formato
es 01012323 aquí, no
nos dan así, pero la trama de GG la ha reconocido
como fecha, hora, y automáticamente
le ha dado las etiquetas que Jan a Gemini en
Genesis equipo así Bien, Entonces esto se ha
hecho automáticamente, por trama DG para saber lo
siguiente que haremos, intentaremos trazar la parcela de área con fecha y hora en el eje x Así que la gráfica de área, la gráfica GG, el eje x Alport fecha eje y sobre ALU y
lleno Por la función de
área de subrayado geom usaré para crear una
parcela de área y salida de laboratorios, valor del eje y del estado de
salida y área de
título Valor de trazado a
lo largo del tiempo tema mínimo,
e imprimir, imprimir las Así que vamos a ejecutar esto y ver. Ahora puedes ver aquí valor de
Arial Black a lo largo del
tiempo ha llegado y aquí también tonta y aquí también las cosas que se
habían cuidado Y esta es la zona Parcela
creada por did you ggplot2. En el eje x se acaba de mostrar las fechas de enero
al 9 de enero, hombres de
necesidad que son
becarios y luego 30 Y para cada fecha y Valores a lo largo del tiempo con desesperados y
así sucesivamente por el área cubierta. En esta parcela, tenemos su área subrayada
para crear una parcela de área Y GG plot automáticamente polímeros los niveles del eje x con la fecha ellos información. Así que puedes ver aquí.
Ahora lo siguiente es que crearemos un Plot de barras, fecha en el eje x Así que agregar datos por mi día, crear una gráfica de barras. Entonces aquí lo que quiero hacer, quiero leer una
parcela de barra con el swing, los datos para cada día. Para dúctil do LLC crear un DataFrame y nuestro
guión bajo diario DF y él tiene LDF un DataFrame y nuestro
guión bajo diario DF y él tiene LDF, el operador de tuberías aquí. Y agrupé por fecha, agrego fecha de punto, y ellos pasarán la fecha y resumirán
por valor promedio Esa será la
media del valor. Así que de esta manera obtendremos el subrayado
diario DF, ¿de acuerdo? Entonces si así
veo aquí este es el DF diario. Fecha y valor promedio. Descríbelos así, bien. Ese dron dos filas más. ¿Bien? Entonces ahora lo voy a subir bar Plot. Así bar Trama, anti-D ggplot2 bar. Esta vez me encanta
el nudo más allá del DF y pasar eso a SQL DB que
acabamos de crear. Y para el pase
funcional estético, X es igual a la fecha e Y
es igual al valor promedio. Por lo que la fecha vendrá a partir de esta fecha y el valor promedio que
vendrá del miedo. Y mira tu fecha. El tipo es
fecha y valor medio W. ¿Bien? Entonces y luego usaré la
función de columna de guión bajo geom para crear gráfico de barras Y en la función de pestillo
voy a dar X es igual a la fecha, Y es igual al valor promedio y barra
más apretada Trazar valor
promedio Parte D y T Kilometraje mínimo y tema existe punto X punto X elemento subrayado ángulo fiscal
45 en sólo uno Gire los niveles de acceso a él
para una mejor visibilidad. Bien. Entonces estoy rotando los niveles de
excesos en 45 grados para una mejor visibilidad sobre D. Bien, y luego
imprimo la barra Entonces déjame dirigir esto. Entonces mira aquí, así es
como nos hemos inclinado. Ve Ajahn a Jenae
se ha inclinado 45 grados. Así que no hemos conseguido mediante
el uso de la función de
impuesto de subrayado elemento y pasar el ángulo
es igual a 45 Si pongo ángulo cada
llamada a nuestro 75. Y si trato de ejecutar esto, entonces esto va a estar en
el 75 regularmente. Si yo por apoyo Albert, 90, 30 grados, se
inclinará por 30 grados C. Y 45 Eso se ve mejor. ¿Bien? Ahora tenemos el valor
promedio por día. Entonces a pesar de que
apenas se está tramando el 1 de enero, género me dijo
tres y cuatro así por 30 días, valor
promedio Parte D, podemos ver lo que hemos
hecho en este Agregamos el día a día y usamos la columna de subrayado geom
para crear una gráfica de barras También giramos el nivel
del eje x para una mejor visibilidad que
hemos hecho aquí con el
ángulo de 45 dígitos desmenuzado. Demuestre cómo
manejar los datos de fecha y hora en ggplot2 insertando
los
retiros de DateTime en el
formato apropiado GG plot para manejar
automáticamente el
exceso de nivelación y escalado,
facilitando la creación de regulaciones perspicaces y prácticamente iguales a lo ggplot2 insertando
los
retiros de DateTime en el
formato apropiado GG plot para manejar
automáticamente el
exceso de nivelación y escalado,
facilitando la
creación de regulaciones perspicaces y prácticamente iguales a lo largo del tiempo. Así que lo único que somos
es que necesitamos pasar el valor correcto de DateTime
a ggplot2 bajo detener la cosa GG plot para
entender cómo manejar la fecha y
108. Funciones de POSIXct y POSIXlt con ejemplo: Hola y bienvenidos de nuevo. En esta conferencia
vamos a conocer tanto las funciones de la ciudad como de los proyectos
LT, eso es muy común de ver ahora, programación para
el manejo de los datos de fecha y hora. Por lo que no se ven las clases
LTE de punto final judío
hasta el presente, datos de
fecha y hora. Ambas clases forman
parte de nuestro paquete. Usted desea para manejar los valores de
fecha y hora. Pero tienen diferencias en su
representación interna y su comportamiento. Obviamente, si hay
dos clases de objetos, entonces debe haber
diferencias en su comportamiento. Y así sucesivamente. Entendamos cómo funciona para la
ciudad y los proyectos LTE. Entonces primero
entenderemos cómo los pobres
paseos por la ciudad proyecto Ciudad significa
forense, tiempo calendario Entonces CT tiempo calendario, C4 calendario T para proyectos de
tiempo es 4.6, 0.6 y representa la fecha y la hora como el número de segundos desde el inicio de la única. Eso es el 1 de enero de mil 970. Entonces proyectar tiempo calendario para
comenzar a partir del nueve de enero
y Bajo soberanía Pero no conoces el sistema Unix. ¿Bien? Entonces, y a partir de ese momento, contará el
número de segundos desde el inicio del tiempo desde el inicio
del partido de tiempo para el proyecto City's 1971. Bien, así es como funciona. Y son las
clases más comunes para manejar datos de
fecha y hora en nuestra simplicidad
y eficiencia castradas, anterior empezó a hablar Por lo que es realmente eficiente
a la vez que fuerte que el tiempo Rita e israelí simple también entienden proyectos
arriba con cualquier Jump Box. Entonces supongamos que quiero
crear u objeto de ciudad. Entonces para eso voy a, voy a dar un nombre y fecha y
hora hace cruzar ciudad y y agregas proyecto
punto Ciudad. Y tenía fecha alqueno. Y le dará luz
a la oscuridad Grundy 3722. Eso significa 20 segundos
para mentir a tres. Y aquí, Algol, apenas bar
real 30 min, 45 s. y esta es la fecha y hora Y él y yo vamos a dar el
tiempo, John. Gracias. Y puedo dar lo
que quiera. Bien. Entonces lo estoy haciendo menos preciso, UPC y luego voy a
tratar de predecir Bien, Así que veamos
aquí ahora es el 22 julio de 2023, Dynavox duele cuando yo 45 s pidió
la hora UTC Bien. Ahora tenemos el
tipo es un tiempo dibujado. Ahora quiero acceder a los componentes individuales
operar y tiempo que es año, mes, día. Nuestra manecilla de minutos, segunda mano
que podemos hacer muy fácilmente. Si quiero. El
oído sondea la fecha, puedo usar formato y
después pasaré la fecha. El tiempo subrayan ciudad, ese
es el objeto del día. Y entonces voy a ceder la forma porcentual y esto me
va a dar un año. Se ajustará aquí
a partir de este objeto. Así que te veo artista. Bien. Del mismo modo meses se
había ido a enfrentar. Puedes usar fecha y hora
subrayado city, presentarles lo que hicieron, tiempo ZT y puedes llegar a presentar una D o un resumen de persona impar ¿No lo fue? M por un
minuto y S4 segundo. M y S, minuto impar y segundo hijo también fueron
el interés capital. Bien, entonces déjame correr
esto y ahora llevar a los todos estos componentes. Entonces voy a base enorme. Sí. Él y subrayan CPD por mes,
mes y capacidad de pérdida
por fecha y escasez Y para el
hombre extraño un segundo, voy a usar lo mismo, ¿de acuerdo? Y luego voy a tratar de imprimir esto. Entonces cuando imprimo un año, este producto para vender 23
meses es de siete al cuadrado El segundo impar es 20 artista que no hizo minutos y 45
s de proyectos Ciudad objeto. El siguiente es para la
toxina LT o LD Stanford por seis hora local y representan datos de
fecha y hora agrega
una lista de componentes Así que aquí se estanca
Como una serie de segundos
mezclándose de la época Y aquí lo
almacenará como lista. ¿Bien? Por lo que los proyectos LT van a Stanford o hora
local y
representan
datos de fecha y hora como un nicho de componentes principales, año, mes, día, minuto impar, y segundo se almacenarán como una lista en la zona horaria local Entonces por defecto
irá al tipo local. Es más flexible que
Project city ya que permite acceso
directo a nuevos componentes
de
rendimiento de fuerza que soy John manejando. Bien, entonces aquí hay un
ejemplo de política. Tte. Crearé un objeto de
fecha y hora,
pia, agregaré proyectos de punto,
LTE, MLK, Martin,
20 segundos, julio callbacks son diferentes, 45 s, e intentaré imprimirlas Entonces, ya sabes, aquí que no
hemos especificado el Tango. Y cuando yo, cuando estoy imprimiendo, estoy recibiendo
colisiones de 20 segundos, ozono, Grundy tres, barra bien 30 mi 45 s con el El tiempo John, mi peligro local, esa es la hora estándar india. Se viene lavado de fijado
a este objeto tóxico. Entonces ahora es común
con el local cronometrado solo ventana o
Lias en Project City, hemos especificado la línea de tiempo, Martin proyecta LT. No
es necesario precisar
ese tiempo dibujado aquí. Automáticamente tomará
la hora local, local, john, porque significa
proyectos hora local. Bien. Y si queremos acceder al minuto y segundo
mensuales, simplemente
podemos hacer por Eugene
fecha, tiempo subrayado LT, ese objeto que
hemos creado para este dólar, más 1,900 Entonces, ¿qué va a hacer cuando pone en LTE almacenado como año desde 1,904 mes fecha tiempo subrayado LT dólar M1
mes más uno proyectos LT, iniciar el mes con cero Así Data más 1€ para
enero a las 11:47. De manera similar por defecto
usarán el MD mes, día. Y para los valores impares
son para un
minuto, minuto medio y 4 s. Así que vamos a ejecutar esto
y acceder con elementos
reales y luego lo
imprimiré. Viene aquí total y
Randy, tres meses, siete días 20 s más o menos Lo mismo que estamos obteniendo y proyecta LTL real un litro La presentación es una diferencia pero proyecta la hora local y se ha almacenado el componente
que ha desatado donde Project city es para La hora del calendario representa la
fecha y la hora, mientras que el número de segundos
desde el inicio
del Unix es igual al tiempo a
partir del 197 de enero. Bien, entonces esto es algo
que podemos manejar los datos, datos fecha y hora o impares. Y hay dos formas, proyecto Ciudad y proyectos vacíos. Y los hemos entendido a
ambos
109. Conceptos básicos y resúmenes de datos: Hola y bienvenidos de nuevo. Entonces en esto, vamos a hacer otro proyecto sencillo
en el que vamos a aplicar técnicas de Transformación de Datos y Resumización
sobre datos del mundo real Entonces, para aplicar
Transformación de datos y Técnica de
resumen
en datos del mundo real, usaremos el conjunto de datos MPG, que también está disponible
en nuestro Así que este conjunto de datos MPG está fácilmente
disponible en nuestro paquete. Entonces no necesitamos descargar el conjunto
de datos por separado. Ya está disponible
en el paquete R. El conjunto de datos MPG
contiene información sobre varios modelos de automóviles
y su eficiencia de combustible Entonces, usemos la gráfica GG cuando
apliquemos Transformación de datos y resumiremos alguna
técnica para obtener información del conjunto de datos MPG, que es el conjunto de datos sobre los diversos modelos de tarjetas y
están sintiendo eficiencia Entonces lo primero que vamos a
cargar la biblioteca ggplot2. Señor, el conjunto de datos
que es MPG dataset. Entonces dejaremos la función de datos y pasaremos ese nombre de conjunto de datos que ya
está disponible
en el paquete R. Así que los datos y pasar
el nombre del conjunto de datos. Bien, entonces se
cargará este conjunto de datos. Y luego para explorar la
estructura del conjunto de datos, usamos la función llamada
función STR y pasamos
el nombre del conjunto de datos. Entonces cuando ejecutamos esto, obtenemos la estructura de
Dataset, este dataset MPG Por lo que aquí se pueden ver los modelos
del fabricante,
desplazamiento, años, número epsilon dot transmisión, dr. ciudad, carretera, y clases Entonces todas estas
variables están ahí. ¿Bien? Lo siguiente es que verás
el resumen del conjunto de datos. Así que vamos a ejecutar el resumen y
luego pasar el nombre del conjunto de datos. Sí, así que esto te dará la mejor comprensión de
cómo, cuántos años tiene ahí, qué tipo de lectura ya sea
así fabricante, modelo,
desplazamiento, Año, transmisión de
cilindro y carretera de la ciudad, y el relleno y luego clase. Para todo se
le da el valor mínimo. Primer cuartil, mediana,
tercer cuartil máximo, todos esos
valores estadísticos ¿Bien? Entonces
mirando esto siguiente es que el conjunto de datos MPG tiene varias variables
incluyendo fabricante, modelo y
desplazamiento en litros Y luego número de cilindros y luego
transiciones para algún tipo. Dre es Dr. tipo y BYU ciudad
MPG y WY es autopista MPG. Entonces este es el
promedio de la ciudad Kilometraje de ciudad, y esto es un IMC alto menos
del Auto particular Ahora vamos a aplicar eso Transformación de
datos y Técnicas de
Resumiendo
usando GG plot Entonces, lo primero que hagamos
utilizará la barra de grupo Plot. Y en esto, lo que haremos, haremos la compresión
de cada ciudad. Mpg Kilometraje basado en
número hasta cilindro. Entonces usaremos el dataset MPG
y usaremos el operador de tubería. Y aquí groupby cilindro. Y luego esta
agrupación por cilindro. Después lo pasamos a la función de
resumen. Entonces cada ciudad promedio
subrayado ciudad se llama la media del promedio
de la ciudad Y luego pasaremos esto a la función de trama GG, función
estética. Usaremos lo que x es
como.factor y faccionaremos cilindro de rechazo
y por qué será bien de receta y llenaremos con
el número de cilindros, cilindro de factores
IJ, cilindro de factores
IJ Y luego hacer jamboard utilizará para pasar el inicio
igual a identidad Y luego laboratorios número de
cilindros en el eje x. eje X le dará número épsilon, el eje y siempre ciudad,
milla, BD y ver títulos le dará cada ciudad y VD por Y equipo utilizará el mínimo. Y luego imprimiremos
la barra de grupo Plot. Así que vamos a ejecutar esto y ver, permítanme simplemente maximizar
el espacio para que podamos ver la gráfica. ¿Bien? Sí, conseguir
algunos ves fumar. Mali, aunque esto,
bien, Así que esto está
diciendo porque
tenemos la biblioteca nocturia dplyr Así que déjame saber que las parcelas bien, Si ejecutamos ahora, vemos hoy en día venir correctamente que ya sea
porque se refiere a la función by viene del paquete dplyr que no
has cargado Entonces naturalmente fue
lanzando que son así que ahora puede ver evidencia el DMB
D por número de cilindros Entonces número de cilindros
en el eje x. Y cada ciudad es El kilometraje
está en el eje y,
por lo tanto, el número de la fecha del cilindro y la mielina se
muestra aquí Pero en realidad ingresa cuatro y
diversidad Kilometraje cosas aquí para, de hecho, cosas de
Kilometraje aquí. Entonces de esta manera podemos analizar
cómo un número de cilindros en un modelo de automóvil está afectando a
cada ciudad Kilometraje. Entonces dibujaremos el boxplot y el director de caja de color realmente son
lo mismo y belleza, salida
estética, seco, autopista, MPG por tipo, tipo, tipo, y eje Y vamos a
comportarnos y favorecimos
el tipo tipo y como
esas cosas que sabemos ya hecho esta boxplot
carretera MPG Así que estamos llegando hasta aquí. El siguiente son tres. Pondremos diagrama de dispersión y eso originará el MPG de
la ciudad versus desplazamiento
del motor por
transmisión Tipos de lo que esto va a trazar un diagrama de dispersión Así que la función de trazado
GG, estética de dataset MPG, desplazamiento
X, eje y será ciudad Y entonces el color es
transmisión y punto geom para trazar los puntos Y luego eje x, eje y,
eje x, ellos
desplazamiento eje y, un amortiguador que Y vamos a ejecutar esto
y ver la salida. El diagrama de dispersión por MPG de
ciudad versus desplazamiento
del motor por compañeros de clase y tipo Esto es para automático,
automático y manual. Todas esas cosas que podemos ver. Siguiente es que incluso pondré el histograma facetado
ciudad MPG distribución para cada tipo de tipo Entonces aquí, lo mismo, XXS ciudad y el derivado tipo y geom subrayan histograma en el que darán
al título blanco, color de
ojos blanco y tema
minimal y fester Y aquí Reporta el tipo tipo, y luego ejecutaremos e
imprimiremos el I'm time. Vendrá así. Entonces este es un histograma festivo, distribución MPG de
ciudad, Tubería seca. Esta es la ciudad Kilometraje y
esta es la frecuencia. Y es por eso que la
pipa seca, ¿es así? Bien. Entonces, lo que tenemos mucho tiempo en este pequeño proyecto,
en estos ejemplos, aplicamos los datos de formación de
piedra y resume algunas técnicas, como calcular la
evidencia ciudad MPG por número de cilindros y usar agrupaciones para crear una Y también aplicamos
para resumir y usar boxplot y medula
la Distribución
Absolutamente MPG para cada tipo driver Al aplicar
que no forma. Resentir a alguien
no es técnicamente,
puedes descubrir patrones, tendencias y adolescentes si están en los
datos y hacer que sea más fácil
dibujar algunas ideas significativas del conjunto de datos
del Del conjunto de datos del mundo real. Recuerde que ggplot2 ofrece
diversas funciones y flexibilidad para realizar cada
lección
más determinada Por lo que es libre de explorar y personalizar el plásmido
según su necesidad de análisis. Entonces este es un proyecto simple
de plomeros y luego alguien algunas técnicas sobre
datos del mundo real que MPG Así que hemos visto
110. Conceptos básicos del proyecto 7 Parte 2: Hola y bienvenidos de nuevo. En esta conferencia
vamos a utilizar sentencias
condicionales y Filtrado de
Datos en la trama GD Bien, entonces ggplot2, podemos usar declaraciones
condicionales y nuestro primer enlace de datos para
personalizar nuestras parcelas en
función de esta
condición específica o subconjuntos Cualquiera que sea el requisito se
basará en eso, puedes hacerlo. Esto le permite crear visualizaciones más dinámicas y
perspicaces Entonces en esta conferencia también, vamos a continuar
con el conjunto de datos MPG, que es el dataset capaz de tarjetas, modelos y su Kilometraje
y otras cosas diferentes Bien, Así que estoy predicando
no para demostrar
cómo usar declaraciones
condicionales y Filtrado de
Datos ggplot2 Entonces lo primero que
escribimos el ggplot2. ¿Bien? Y luego
cargamos ese conjunto de datos, es
decir MPG dataset Did MPG conjunto de datos. Y luego crearemos
nuestro diagrama de dispersión, ciudad versus MPG de carretera con color hecho
en el tiempo de manejo Así que sí, eso va a
crear nuestra variable. Eso es la gráfica de guión bajo de dispersión. Y aquí voy a usar
el dígito ggplot2. Y aquí el conjunto de datos es MPD, lo
hace estética, fuentes, y voy a pasar CD y
por qué carretera y Color
hicieron bajo la dirección del Dr. Greg. Bien. Y luego
punto geom funcionalmente o para dibujar el punto en la Parcela Y luego los laboratorios funcionan para dar los nombres a los
proyectos que existían, MPD, eje y, autopista, MPG, NBA título de la gráfica de dispersión Vamos con
diagramas de dispersión a TMP versus MPG de
carretera con el color
rojo en el tipo de drapeado Y luego vamos a tema
va a utilizar el mínimo, y vamos a imprimir
el diagrama de dispersión. Entonces déjame en esto. Ahora estamos obteniendo un diagrama de
dispersión que nos muestra el CT versus MPG de carretera
basado en el tipo seco Entonces estos, estos son los
ejes x reales teniendo MPG de ciudad,
eje y es MPG eje y es Y los kilometraje cosiendo a
base de la pipa seca. Entonces este color, los colores están
balanceando la tubería seca. Bien, entonces este es el diagrama de
dispersión que hemos dibujado. Ahora bien, lo que hacemos a continuación en
esta gráfica de dispersión básica, todos los puntos de datos o ver a alguien con diferentes
colores pero bajo papel seco Ahora, agreguemos alguna declaración
condicional y Filtrado de
Datos para personalizar aún más
la trama. Entonces ahora esta trama son puntos de
datos con los diferentes colores enterrados bajo el tiempo de manejo. Ahora usaremos nuestras declaraciones
condicionales y el Filtrado de Datos para
personalizar la trama. Para lo primero,
lo que vamos a hacer,
vamos a crear
un diagrama de dispersión con puntos
condicionalmente coloreados dentro del MPG de
la ciudad Entonces aquí definiremos el
umbral de velocidad Kilometraje. Eso es ciudad subrayado
embriogénesis llamada umbral. Este es el
lema o lo que sea ANA prueba todo valor que nos estoy dando 20. Entonces ahora gráfico de dispersión con punto
condicionalmente coloreado. Cuando nuestra ciudad MPG toca todo lo que estamos
definiendo aquí como 20 Así que GG plot, la función estética del
conjunto de datos. Lo mismo. Accediendo a DY es hola Rick
y Color aquí es CD. Y real dando
la prueba o menos, mayor que el cesionario que
esos puntos sólo quería punto D mayor
densidad y densidad Y eso va a predecir
como todo lo que actualmente es distrito
fuente
mayor que cantidad. ¿Bien? Y luego función de
punto geom, y luego estamos leyendo escala subrayado colon
subrayado Y aquí estamos dando los valores para
los colores rojo y azul y las etiquetas nos
dan por debajo del umbral
y por encima del umbral. Entonces, en base a que si es
mayor que, relativo a, estará por encima del umbral
y menor de 20, estará por debajo del umbral. Y luego
la función de risa que estamos usando para dar hecho llamado así
por la Parcela y todo. Bien, entonces déjame dirigir esto. Bien, estamos recibiendo
algunas cartas. Aquí. Estamos recibiendo algún error. Problema mientras se
computa la estética. Sumar un jardín de primera capa llamada YLL objetos
ciudad y se vende No quiero agosto, perdón, no
he ejecutado esta variable. Entonces ahora tenemos. Entonces déjenme otra vez. Entonces mira aquí ahora estamos obteniendo este diagrama de dispersión con viento
condicionalmente coloreado basado en el City MPG Entonces estos puntos azules están por encima del umbral,
eso es actualmente. Y los puntos rojos
están por debajo de prueba sobre ese
MPG de esta ciudad, menos de 20 Genial. Entonces ahora el MPG de ciudad del eje x, el
eje y es de mayor energía. Los puntos azules representan el
valor por encima del umbral que
actualmente son los concesionarios de MPG de la ciudad Entonces por encima del valor umbral, loop wipes y milo
nuestro swing como un, bien, Así que esta es una
condición que hemos aplicado Lo siguiente, qué haremos en este ligamento que
expliqué un poco más En esta gráfica, utilizamos
la función estética para mapear la velocidad
estética del color mayor que el valor umbral
MPG de ciudad que es mayor que Bronte, condición lógica
rígida de
que se especifique la evolución verdadera o falsa en función de si el MPG de ciudad está por encima o por debajo ese umbral El color, escala o
escritorio o colonoscopia
funcionan mal aquí para servir
los colores personalizados a los puntos
por encima y por debajo del pterosaurio
junto con Lo siguiente que
vamos a hacer,
vamos a usar ese Filtrado de
Datos creará
una gráfica de dispersión con Filtrado de Datos respetar la vida
útil Los datos de filtro para un tipo
específico de Dr. Fred. Por ejemplo, F4,
tracción delantera. Bien, entonces aquí necesito una
variable y la asigne como F, esa voluntad con una
tracción delantera lejana Para que juegue
tracción delantera y libremente Dios, trama
dispersa en este
valioso alquilato Y voy a usar la función
GG plot y un asesor de datos, MPG Y aquí voy a dar MPG y dipolo-dipolo definido
como un tubo
seco dipolo-dipolo definido
como un tubo
seco que es tracción delantera. Aquí pasaremos el conjunto de datos
a la función GG plot. Estoy especificando que a partir de este conjunto de datos
se incrusta como si quisiera tomar dipolo-dipolo Lo hacen datos
que están teniendo el tubo seco como
tracción delantera a MPG Dollar DRE es igual
al tipo de tracción, que será la
tracción delantera Y entonces la
función estética
pasará X es igual a CT. Y por qué corrí color basado en el tiempo de manejo y
todas las demás cosas. Punto de subrayado Geom
desde algún lugar suelto hasta Plot y función de lote y laboratorios Y luego vamos a tratar de
correr esto y ver como las parcelas pueden ver este
ya sea diagrama de dispersión, ciudad MPG fue esta carretera, MPG para tracción delantera Entonces este es el diagrama de
dispersión para el CD. Y pongo mi pequeño auto que están teniendo tiempo de
tracción delantera Bien, entonces ahora
puedes comparar, bien. Entonces en esta gráfica para
usar el archivo de datos en Procreate stack
scatter plot solo para un tipo de tipo específico que es tracción delantera
sustituyendo el conjunto de datos MPG,
donde hemos hecho la
Sustitución aquí, Los datos son iguales a MPG, MPG Procreate stack
scatter plot solo para
un tipo de tipo específico que es
tracción delantera
sustituyendo el conjunto de datos MPG,
donde hemos hecho la
Sustitución aquí,
Los datos son iguales a MPG, MPG dólar, dr.
V es
igual a la preparación en seco. Así que aquí hemos
tomado el subconjunto del conjunto de datos
del conjunto
de datos MPG Y eso es un proyecto de
subsidios basados en el tipo seco que es de
tracción delantera Por lo que hemos tomado los datos uno para Dodge vehículo
daños vehículos, que están teniendo
tracción delantera y luego para dolt
tracción delantera modelos de autos, hemos comparado la
ciudad mi ligando híbrido Millaje usando la
condición MPG para Dodge vehículo
daños vehículos,
que están teniendo
tracción delantera y luego para
dolt
tracción delantera modelos de autos,
hemos comparado la
ciudad mi ligando híbrido
Millaje usando la
condición MPG dólar, dr.
V es igual al saltador tipo
buceo. Demostrar cómo usar la instrucción
condicional
y el Filtrado de Datos en ggplot2 para crear visualizaciones más personalizadas y
perspicaces Lo siguiente que haremos
será usar el color, personalizando
Escalas de Color y leyendas personalización de escalas de color y leyendas en ggplot2
le permite mejorar las representaciones visuales
de los datos y hacer que su trama sea más informativa
y Puede personalizar
colores, etiquetas, cortes
y otros aspectos del color, la escala y la leyenda para que coincidan con su
visualización y lista específicas. Sigamos usando la trama GG. Cómo personalizar Escalas de Color y leyendas y trama agitada Entonces usaremos la biblioteca de
parcelas GG aquí. Así que vamos a ejecutar esto. Usaremos los datos Datos, conjuntos de datos MPG para cargar el conjunto de datos que es el
conjunto de datos MPG Después crearemos una
parcela de dispersión ciudad MPG, autopista. Mpg. Mpg significa MPG. Bien. Espero que sepas, te
expliqué antes también con color
basado en tipo, tipo. Bien. Entonces eres GG parcela a MPG
es que no excusa estética de alguien
proyecto directamente carretera
y Color y unidad y Color y Y lo mismo que
hemos hecho antes. Así que vamos a ejecutar esto. Este es el diagrama de
dispersión que estamos obteniendo Bien. Entonces, el amigo con tracción en las cuatro ruedas de cortina real
conducida para la tracción en las
cuatro ruedas es roja, azul es la tracción trasera
y la verde es para la tracción y la verde Bien. Ahora, en esta gráfica de dispersión básica, todos los puntos de datos se juran
con diferentes colores basados en el En GG plot para
asignar automáticamente colores y
crear una leyenda Ahora, el color personalizado
y las leyendas
intentarán dar así que los colores personalizados
crearán una variable. Los clientes subrayan los colores
y crean un vector. Aquí. Creará un vector
y el amarillo
dará lo que dará F. Azul para nuestro asignará lectura y para cuatro
asignará hacer. paseo marítimo de Queens
conducirá, será azul, tracción trasera, será rojo y pobre se desviará,
será verde Y luego crearemos el diagrama de
dispersión con Dios. Déjanos Galeno leyenda, así que aquí se llama guión bajo
personalizado, colores bajos dispersos
y eso se Esta gráfica de dispersión,
vamos a crear un diagrama GG, su conjunto de datos igual,
y salir de la carretera. Y aquí color
basado en la unidad. Y entonces la función de punto geom será enorme para trazar los puntos Y luego usaremos el color de
subrayado Gayle y sí viene manuel para asignar el color
que hemos creado Y vamos a dar Valores es
igual a colores personalizados esto. Y luego crearemos
el diagrama de dispersión. Así que vamos a ejecutar esto. Ahora. Nuestro diagrama de dispersión con los colores personalizados que
hemos definido viene aquí. Así que el verde es para la tracción en las
cuatro ruedas, Bluish para la tracción delantera y el radio para la tracción real y
real Lo siguiente es, o lo que hemos
hecho en, permítanme resumir. En esta gráfica, usamos la escala de colores
subrayado dos puntos hace función de
mandamiento para establecer el color personalizado
para cada tipo de tipo Definimos colores de
subrayado personalizados como un vector con nombre donde los nombres que representan
la unidad Tipos allí, vanguardia impulsará
RPA en el mundo real maduro, y 444 Y los valores representan
los colores correspondientes. La escala y la escala. El color de subrayado sí viene. La función manual nos permite mapear los colores personalizados a la estética del
color en la parcela. Lo siguiente que haremos, intentaremos agregar
leyendas y etiquetas personalizadas. Niveles de leyenda personalizados con
derecho a proscritos. Así que disemina
la gráfica con la leyenda personalizada y el nivel
que vamos a crear. Así que aquí función de trama GG, MPD, salida estética TY, CD Por qué autopista y elaborar
sobre el tipo, tipo, punto
geom para trazar
el punto, escala, color de
subrayado,
subrayado manual para dar los Entonces los alergólogos llaman para ver. Ahora que ya lo hemos hecho. Entonces aquí agregaremos
etiquetas y él o C crearán tracción delantera,
la tracción de los codos y
asequible, madura Entonces aquí se nos da. F será reemplazado
por rueda delantera, será real y
cuatro serán de 4 vías Y luego le daremos al Dr. tipo. Y entonces y después la función
Risa
utilizará para mantener los nombres. Bien, entonces déjame dirigir esto. Nos vemos hoy en día, el swing
se produjo para la F, impar y 40
destruyéndonos el trabajo directo ya que la rueda delantera
terminará de verdad Así que de esta manera podemos personalizar
las leyendas, ¿de acuerdo? Entonces en esta trama utilizamos el argumento de
niveles aprendidos. Una partitura es el
color de subrayado de escala y la función rus por
minuto para guardar los niveles del disfraz,
para los Landry también usan
el argumento name para proporcionar nuestro
título personalizado para la leyenda Entonces este es el argumento name
que hemos utilizado para darle el nombre personalizado a la leyenda. Entonces aquí
viene, tipo correcto. Bien. Entonces espero que hayan
entendido cómo podemos usar la
declaración condicional y Filtrado de
Datos y cómo
podemos personalizar las
habilidades de color y leyendas
111. Crear gráficos interactivos con gráficos y ggplotly: Hola y bienvenidos de nuevo. En esta conferencia con quienes
vamos a crear tramas
interactivas con complot y
ggplotly. Así que las
bibliotecas plotly y ggplotly
usaremos para crear Bien, Entonces, ¿qué es ggplotly? Ggplotly nos permitirá ggplotly una función
que nos permitirá convertir lote que hemos
creado GG Hemos nombrado manera
interactiva. Así que cualquier parcela que haya creado
con ggplot2 se puede convertir en gráficas interactivas usando plotly y ggplotly. Ggplotly. ¿Bien? Por lo que la creación parcelas
interactivas con
plotly y ggplotly en nuestro le permite mejorar
sus visualizaciones con sus visualizaciones Y muchas más características. Plotly es un paquete R
que convierte ggplotly en
gráficos en visualizaciones interactivas basadas en la web ¿Bien? Entonces Plotly es otro paquete
que vamos a ti. Para que puedas instalar parcela. Bien, así que para instalar
puedes ir a las herramientas y dar click
en Instalar Paquetes. Y luego aquí solo
buscas Plotly, da clic, selecciona eso, y
luego haz clic en Instalar, y se instalará Ya lo tengo instalado, así que no voy a volver a hacerlo. Y para comprobar esto instalar
diferentes densidades. ¿Bien? Entonces lo estoy cancelando. Puede hacer clic en Instalar
si no está instalado ya. Bien. Así que vamos a UGG ggplot2
y plotly biblioteca en esto,
bien, paquetes en esto bien, Entonces lo que voy a hacer,
lo que voy a hacer. Te voy a
guiar paso a paso para crear tramas
interactivas con plotly y ggplotly. Bien, Así que los primeros
templados instalan y cargan las bibliotecas
necesarias. Como ya sabemos, hemos visto cómo podemos instalar. Entonces déjame cargar estos para
apalancar esto primero. Entonces, una vez que estas dos
bibliotecas se cargaron, siguiente paso es una buena gráfica de datos GG, usted ggplot2
plot Bien, así que comencemos creando una gráfica GG básica para trazar usando MPG ese conjunto de
datos mtcars que ya
hemos visto Bien, entonces cargue el conjunto de datos MPG, pero no obtuvo
una función. Cargar. Y luego crearemos un diagrama de dispersión,
un diagrama de dispersión simple para crear
una dispersión de guión bajo de gráfico GG variable Y voy a usar el ggplotly. Wong Sun ha utilizado
el conjunto de datos MPG. Y luego usaremos la función
estética, eje x,
sprint y eje y y trazaremos
el kilometraje de carretera y luego colorearemos rojo en la clase de la función de punto
geom Reagan que
usaremos para trazar los puntos y estanques de
laboratorio y usaremos para dar el nombre para
el eje x en ellos
desembolso L e Y existe MPG de
carretera y el título de la gráfica de dispersión será diagrama de dispersión luego colorearemos rojo en
la clase de la función de punto
geom Reagan que
usaremos para trazar los puntos y estanques de
laboratorio y
usaremos para dar el nombre para
el eje x en ellos
desembolso L e Y existe MPG de
carretera y el título de la gráfica de dispersión será diagrama de dispersión, Y luego tema sin embargo vamos a
utilizar tema mínimo. Y luego imprimiremos
el diagrama de dispersión. Así que vamos a imprimir este
sencillo diagrama de dispersión que no le hiciste a ggplot2 Entonces mira, ya ves aquí esta
es la gráfica de vértigo simple, esas gráficas de dispersión dibujadas entre un
desplazamiento del motor versus MPG de carretera ¿Por qué clase de vehículo? Entonces clases radicales aquí, compacto
biplaza,
mediano, yo, minivan, pick
up, subcompacto, un Entonces estos son los diferentes, diferentes colores para cada clase. Y aquí en el eje x estamos
lanzando el desplazamiento, ¿de acuerdo? Y luego en el eje y estamos
viendo el MPG de carretera. Entonces esta es la trama de dispersión
simple. Esto no es interactivo ¿verdad? Ahora. Quiero hacer esta Gráfica, hacer que esta gráfica de dispersión sea interactiva
cuando pase el cursor Entonces algo, bien.
Entonces los Valores, lo que cada punto y todas esas
cosas puedo hacer clic en junio, puedo manejar todas
esas cosas que quiero agregar
a nuestro scatter, volvernos más
interactivos para que podamos interactuar con el diagrama de dispersión. Entonces para hacer eso, usaremos,
convertiremos esta trama GG parcelas interactivas
de Plotly. Y para ello, haremos el
ggplotly Interactivo
usando la función ggplotly
Esta función es muy importante
para convertir cualquier gráfica GG, trama
DG para funcionar, perdón, en Entonces, ¿va a funcionar ggplotly
desde el paquete Plotly,
bien, y luego convertir trama
digital a la trama interactiva de
Plotly Lo que voy a hacer, voy a
crear una variable aquí, simple interactuar para
subrayar la trama Simplemente cualquier nombre que puedas dar aquí, y luego descargar la
función ggplotly Aquí tenemos parcela UGG. Ahora, vas a ggplotly. Y voy a pasar
el diagrama de dispersión, que los datos que hemos creado
usando la gráfica GG para. Entonces, a menos que sea pasivo a
la función ggplotly. Y luego solo voy a imprimir
estas tramas interactivas. Así que simplemente pasando
a este ggplotly, esta
gráfica de dispersión simple se convertirá Funciona, convertida en
una trama interactiva. Entonces veamos si esto
está pasando o no. Ahora puedes ver aquí esta gráfica de dispersión En den desplazamiento versus
autopista MPG por vagal La trama es tema, pero siempre que estoy
rondando sobre cualquier punto, está mostrando los valores
correspondientes a ese punto Al igual que para este punto, el
desplazamiento es 1.8 carretera, MPG es un 36 Y clase de la
lista sub-compacta. Si vengo aquí desplazamiento
1.837 clase compacta. Y si llego al rosa, estos desplazamiento 2.5 híbrido 27 y clases SUV para esto. Bien, así que mira aquí, es bastante genial que ahora
la simple scatterplot, simplemente pasando por alto esa trama a los fondos ggplotly
y retiro, la conviertan en unas hermosas parcelas interactivas.
Aquí. Aquí podemos elegir el
C. Cuando estoy dando clic en C, no tiene sentido ser
sonya Porque
tengo esto seleccionado,
deseleccionado Entonces seleccionaré biplaza. Entonces mientras que los ferrocarriles biplazas serán sonia si quiero
agregar compactos Así que voy a volver, haga clic en compacto y compacto. Se
podrá acceder a los puntos eliminados. Ahora bien, si hago clic en tamaño mediano y están Missing
Card Scheme minivan, sabíamos que corrí puede llegar a ser de manera lo que
quieras analizar, puedes agregar, si
quieres eliminar eso, incluso simplemente deseleccionar
y se hará Entonces este es el interactivo
con el que se ha agregado simplemente pasando el diagrama de
dispersión al ggplotly Y es, es bastante
sencillo y bastante frío aquí puedes ver tu descarga
la trama como PNG. Esta opción también ha llegado aquí. Entonces tenemos a la Duma. A menudo podemos hacer clic
y podemos hacer esto. Ves aquí esta diversas
opciones vienen aquí para prohibir, prohibir, prohibir así. Y se puede analizar esta
es la banda punctum. Después tenemos la casilla seleccionada. Podemos seleccionar un
viento en particular aquí y se pueden analizar aquellos puntos que se recogen
serán resaltados. Lo siguiente es que
podemos Lasso Select Puedes seleccionar así de la
manera que quieras seleccionarlo y seleccionar si quieres seleccionar
solo una cosa en particular puedes seleccionar aquí. Entonces estas
cosas interactivas se han agregado, piensa que se ha agregado con
solo pasar
la función de color de la gráfica de dispersión
Plotly. Podemos apagar eso. Y podemos poner a Jermaine. Y luego dijeron Texas. Y luego tenemos
la subtrama. ¿Bien? Así que de esta manera, bien, entonces ahora estamos anestrus, pero simplemente pasando el diagrama de dispersión a
ggplotly función, se creará un Ahora la gráfica GG a gráfica de
dispersión se ha convertido en una gráfica interactiva con
plotly. Y puedes interactuar con él usando tu mouse y apuesta holandesa. Puedes pasar el cursor sobre el punto de
datos que
ya hemos visto y ver que
se ve y humor o tono Tips y Jermaine y tu
banda bucal Plot y muchas cosas más
que ya hemos hecho Ahora, vamos a hacer un poco más de miosina
en caché a esta trama. Entonces esto otra vez, bien, Así que esta es la trama, trama
interactiva que
hemos creado. Ahora haremos la personalización
adicional. Así que ahora podemos personalizar más Trazados
Interactivos
usando la función Plotly. Por ejemplo, podemos
modificar el impuesto de Harvard
solo en el color y agregarle más anotaciones
. Entonces hagámoslo. Entonces nosotros, lo que vamos a hacer, vamos a personalizar
la trama interactiva. Hasta el momento esto creará una variable Gráfica de
subrayado interactivo, guión bajo Este es el nombre de
parcelas interactivas del cliente que puede dar. Y aquí, usaré el Interactivo para trazar
que tenemos aquí. Y usamos el diseño sol. Y dentro de la maquetación, lo que
podemos dar, podemos darle al título personalizar. trama interactiva
será el título, título
del eje x dará el desplazamiento del motor
en informe de soporte. Sí. Lo siento. Y el eje y pondrá la lista de salida de leyenda
MPG de carretera Y será la clase vehicular y el pasillo y
modo serán los mejores. Entonces déjame correr esto
y esto creará la trama interactiva de desaparición, y vamos a imprimirlo Entonces ahora puedes ver aquí el eje x, puede predecir que se
estrelló mi trama interactiva Y aquí se puede ver
los puntos siendo canción. Podemos hacer una banda así. Puede seleccionar la casilla seleccionar. Te refieres a tu boca. Todas esas cosas podemos ir. En este ejemplo, fuimos a
dividir los ejes y
niveles de título y título de leyenda. ¿Bien? Entonces, al usar plotly y
ggplotly Function, Plotly empaqueta y ggplotly
fondos en donde
puede crear y soltar
fácilmente Gg plot a Plot, facilitando la exploración
y comprensión de sus datos. Entonces espero que hayan entendido a
los alumnos en la próxima conferencia.
112. Introducción a las características Plotly y clave: Hola y bienvenidos de nuevo. En esta conferencia,
vamos a aprender sobre Plotly, y es gratis Sólo. So Plotly es una biblioteca de
código abierto que permite a los usuarios crear lenguajes de programación de
práctica
interactivos, de alta calidad ,
cargados y ritualizados, no solo en mi Plotly está disponible en Python,
R Entonces Python y dinos Control
para que puedas usar plotly. Y aquí. Además vamos
a aprender sobre Plotly. Plotly ofrece una amplia gama de tipos de
gráficos desde la gráfica de dispersión
básica hasta tipos de
gráficos desde la gráfica de dispersión
básica esencia 3D
compleja y ver cómo podemos ahora
regionalizar y 3D Anna, cómo podemos Así que echemos un vistazo a las interrupciones y arriba
Plotly y Características Clave Lo primero es interactuar con la visualización
del tractor. Así que complazmente
nos permiten continuar con ella. Lección interactiva, capacidades
interactivas no ferrosas. Permite a los usuarios interactuar. Vamos a trazar y dos, entrar y salir fan hall
o puntos de datos para ver los detalles y activar y desactivar la serie de
datos. Entonces estas son las características clave y eso te da una
interactividad puntero con las
parcelas y similares Interactuar con los gráficos. Muéstrame tu boca. Prohibición cargada, pasando el cursor sobre el punto de datos para ver
el problema de los detalles, los datos CDJ encendido Estas interacciones
facilitan la exploración y análisis de datos de
una manera intuitiva. Entonces eso es
lo mejor de complot que se obtiene, hace que la
vida gráfica esté en pista con trato Entonces, y lo siguiente
es fácil de usar. Apa o CLI proporciona un simple APA de cualquier uso UCR para
crear lo que su licencia Con algunas líneas de código. Se puede generar Josh complejo
e Interactivo, convirtiéndolo en uno de los favoritos entre los científicos y analistas de
datos. Entonces ya que es bastante sencillo de
usar tan popular entre las tácticas de
Lección de Ciencia de Datos. Entonces, dado que traza el nivel láser en
nuestro telescopio y por Thomas, bastante popular, múltiples lenguajes de
programación, esa es otra
característica clave de plotly. Plotly soporta múltiples lenguajes de
programación, incluyendo Python y JavaScript. Esto permite trabajar con su lenguaje de informes y cambiar entre ellos
sin problemas. Para diferentes tareas. Chart Plotly admite
una amplia gama de tipos de gráficos, como
gráficos de líneas, diagramas de dispersión, gráfico de barras, histograma de Josh,
probablemente gráficos 3D,
coropletas, coropletas Proporciona flexibilidad y versatilidad en el
radio ritualizante Tipos de radón Entonces Plotly también proporciona visualización
basada en la web. Plotly, basado en la web, lo que significa que puede fácilmente gráficos
interactivos y tablero en línea e
incrustarlos en aplicaciones web Poros prácticos. Así que Plotly en realidad te
da la opción integrar tus
gráficos y paneles de Plotly. Ahora, eso lo incorporamos
en los reportes. Eso es más que una
aplicación web con Plotly dash, solo
puedes crear aplicaciones web
interactivas
y eso es para Data Haga clic en la Visualización de datos. Haciéndola poderosa herramienta para construir aplicaciones basadas en
datos Hay pocas
sustancias rentables en realidad, en
parte, en parte, en
parte, ofrece una amplia
gama de opciones del cliente para adaptar la apariencia de
cargado de acuerdo con un requisito
específico Simplemente podrás
personalizar colores, etiquetas,
fuente, estilos y
Regresión, y mucho más. Animación y ggplotly soporta animaciones y transiciones
suaves. Wechat muy útil para visualizar tintados
en datos Al explorar diferentes estados
de mayor exportación, el agricultor ggplotly se da cuenta de que se
puede exportar a varios formatos como PNG,
JPEG, SVG, PDF en él, e incluso GIF animados No se podían subir grandes
presentaciones y documentos. La integración con otra
biblioteca de también bastante posible en parte Plotly se puede integrar
fácilmente con otras bibliotecas de lecciones de análisis de datos y
teoría como pandas en mi lengua, RTT ggplot2 en R. Esto permite, que acaba de tomar combinar la Entonces estas son las características clave de Plotly interactivo
religioso NADPH, APA Múltiples
lenguajes de programación admiten cada tipo de datos compatible con aplicaciones
basadas en la web. Apoyarla de la mejor manera. Que deportes y aplicaciones
web. Mis animaciones y transiciones. Ploly es ampliamente utilizado
en ciencia de datos, inteligencia de
negocios y recursos científicos
y varios otros dominios Troclear, intuitivamente
atrayente e interactúan Bien, entonces en la próxima conferencia, empezaremos a hacer
las manos con
el bloqueo. La siguiente conferencia.
113. Trabajar con Plotly: Hola y bienvenidos de nuevo. Entonces en esta conferencia vamos
a caminar complacido,
vamos a crear Plotly usando Plotly En la
conferencia anterior, hemos visto la introducción a Plotly se ven cuáles son las características, cuáles son las tramas que
podemos hacer usando Plotly Entonces en esta conferencia
haremos las prácticas. Entonces he escrito algún código para ti y te voy a explicar
y moriré ejecutar el código
y luego veremos cuáles son las cosas que
podemos hacer con el Ploly. Algunas de las cosas
como van a crear este 3D Plot usando Plotly. Entonces esto es bastante
interesante y te cuento cómo
podemos trazar estos tres gráficos de dispersión
3D. Bien, entonces estas son las pocas cosas que vamos
a hacer en esta conferencia. Bien, así que
comencemos esta conferencia. Y las cosas han tomado del sitio web de RStudio rpubs.com
y referencias Así que comencemos. Plotly es una gran
herramienta para crear hermosas parcelas
interactivas Esto se puede trazar usando el paquete
Plotly así
como usando TD Entonces podemos hacer con cosas que solo
podemos trazar con la trama,
o también podemos usar la
trama GG junto con Plotly o también podemos usar la
trama GG junto con Plotly Para ello, necesitamos librerías
Plotly y DD ggplot2. Entonces ya lo tengo instalado, así que solo lo ejecutas. Y entonces aquí voy a usar el conjunto de datos del Medio Oeste que
está fácilmente disponible con el paquete RStudio are Entonces déjame mostrarte
cómo se ve esto. Entonces
déjame poner Control Enter. Verás, sí, este es
el conjunto de datos que vamos a
enorme Medio Oeste, Ok Entonces hay un PID
entonces país, estado, área, población, población
total, densidad
poblacional, población
amplia población, negro, meridiano
pop, pop,
antiguo, otro Pero, ¿por qué negro? Entonces, aunque cada columna
está ahí junto con D, cada columna luego agrega más variables y
todas están en variables en inglés. Vamos a ser
los complots, ¿de acuerdo? Entonces este es el conjunto de datos. Entonces como país, un área estatal, Población Total, ¿todas esas
variables están bien? Eso lo decía la gente. Bien. Entonces ahora reutilizamos
estos datos para trazar. Entonces primero lo que voy a hacer,
voy a usar la
función Plotly, trazar guión bajo Y por qué función Plotly para crear una gráfica para este LPA, pasar este Dataset
Midwest y eje x,
voy a clase de parte enorme, pero la clase es un Dataset, columna de
Datos aquí, variable Pero Clark College, ¿de acuerdo? Y Colorea y usa el estado
oculto y la caja Tipos. Voy a crear una parcela de caja aquí. Trama por ciento
con educación universitaria,
lo apresuró por ciento universitario
educado por Para trazar esto. Entonces mira aquí este es el boxplot porque tipo que hemos
dado aquí como caja aquí Al hacer clic aquí, puede ver ese
mínimo primer cuartil,
mediana, tercer
cuartil , barda superior Y se puede ver el
valor máximo, esas cosas. Entonces de esta manera, podemos crear
rápidamente boxplot, 4% universitarios educados paso a paso ¿A cuánta gente se
está educando? ¿Colegio? Declarar que esta es
la trama de caja, ¿de acuerdo? Ahora intentaremos poner algunas Parcelas
básicas usando Plotly. Para ello. Lo que quiero hacer, lo que
quiero crear una parcela básica directamente usando plotly o
podemos UGG trazar dos también Así que aquí, UGG ggplot2 también. Entonces aquí voy a usar el conjunto de datos irlandés que ya
hemos visto. Entonces si quieres ver
cómo esto en este conjunto de datos puedes poner iris de cabeza. Entonces déjame primero cargar esto. Entonces esto es que acabo dataset donde se puede
ver la longitud del sépalo, la anchura del
sépalo, la longitud del pétalo, la anchura del
pétalo, y una especie Estas son las columnas o variables que tienen un nivel
en este conjunto de datos irlandés. ¿Bien? Entonces, si quieres ejecutar esto, puedes ver, sí, bien. Lo siguiente es que volveré a usar la función
LY de subrayado de trama, y el conjunto de datos será itis Entonces los datos son iguales a Iris, Xe, eje x y la longitud del sépalo y la longitud del pétalo del eje
y ¿Bien? Entonces dibujemos esta mejor trama que viene así. ¿Bien? Así que en el eje x, longitud de punto simple, y en eje y, longitud de pétalo, longitud sépalo y longitud Y estos puntos se
han dibujado. Entonces para esta longitud de sépalo
y longitud de pétalo
esposo trazó aquí. Ahora, con ggplot2,
la misma parcela
también se puede crear en ggplot2
y servir como un objeto Entonces la trama puede hacer, se
puede hacer versión interactiva ggplotly, función Plotly. Tenga en cuenta que no todas
las entidades
funcionarán al usar ggplotly Así que a veces hay que hacer
algún ensayo y error. ¿Bien? Entonces aquí, la misma gráfica de
dispersión voy a tratar de trazar usando la gráfica GG y la
gráfica que voy a crear una figura a donde la tienda
en la figura a figura, para almacenar en la figura dos. Así que vamos a ejecutar esto ahora. Y yo aludió ggplotly para
trazar esto. Figura dos. Bien, entonces déjame dirigir esto. Así que mira aquí, ahora, viniendo así, ¿de acuerdo? Lo mismo con la
ayuda de y ggplotly. Nosotros hemos trazado. Al ser capaz de Trazar
ggplotly a. Puedes personalizar la
Parcela de la misma manera que puedes con ggplotly Mira los nombres comunes de las columnas. Entonces, si quieres promocionar el nombre de la columna para
el conjunto de datos Iris, simplemente
puedes ejecutar esto. Ve los nombres de las columnas que ya
hemos visto, ¿no? Hay cinco
puntos de columna por especie. Entonces aquí ggplotly,
datos, iris, estética, fuentes,
y usaremos X, longitud
sépalo, longitud de pétalo
y Color es Entonces colorearemos los
puntos por especie. Y luego usaré
la función de
punto de subrayado geom para
trazar estos Y luego esta cifra a la que estamos sacando de la Parcela TG, voy a tratar de trazar
con el ggplotly Bien, así que simplemente imprima
esto y vea aquí, ahora tenemos el colorido diagrama de
dispersión y donde este rosa que es verdoso para
versicolor y De esta manera podemos por el color. Por lo que ahora también se puede ver que la especie aparece en el cuadro de texto a medida que pasa el
cursor sobre ellas. Ahora está demostrando que
pasas el cursor sobre ellos. Ahora está cosiendo la longitud del sépalo, la longitud del
pétalo, y es
precedida por Anika Al igual que y ggplotly, puedes personalizar
el eje, el título y el Color, un sector aquí también Por lo que tiene trama GG. Lo que podamos hacer en la
trama GG que hacemos aquí. Y luego pasaremos
eso calculado lo valioso que es para la
variable plot a la ggplotly Este objeto figura dos a la ggplotly y va a trazar, bien, así que aquí los diarios eje X
y luego geom Dentro de la función de
punto de subrayado geom, estética
del mundo real y el
color de cada trimestre es Precios y guardar también informe
basado en la especie Bien. Y entonces la longitud
del sépalo xlab, la longitud del pétalo y el título GG
serán la longitud del sépalo,
la longitud del pétalo. ¿Bien? Así que vamos a ejecutar esto. Ahora. Se puede ver aquí. Ahora los puntos también son muchos. Y para este versicolor
viene en triángulo, y para este tipo, los puntos vienen al cuadrado igual Entonces esto se debe a que hemos utilizado especies
separadas dentro de esa función de puntos
Netskope humanos De esta manera podemos
personalizar el eje, título y el Color también. Ahora crearemos un gráfico de barras
básico. Entonces, para crear un gráfico de barras básico, usaremos data.frame Y aquí voy a crear un conjunto de datos de
muestra aquí. Para este conjunto de datos,
habrá tres columnas la próxima vez Y factura total. Entonces masculino, femenino será el sexo para
este vector factor Alcatel, y luego el tiempo será
el almuerzo, la cena. Ninguno para no estar bien. Los niveles serán almuerzo y cena, y la voluntad total, guardará
algunas facturas aleatorias para aquí. Entonces déjame crear estos datos, activar este DataFrame primero Ahora voy a crear un gráfico de barras. Tiempo en el eje x Color Fill, grupo por sexo y enorme producción de subrayado
dodge función aquí Entonces GG trama a voluntad enorme y
datos a medida que vas a este, ese objeto que tenemos, algunos datos de entrenamiento
que hemos creado. Y luego
función estética eje X, vamos a poner tiempo eje y,
voy a poner Crotonville, y voy a llenar con la barra de subrayado de sexo y
geom Voy a utilizar apilado y poner
identidad y policía, la policía y subrayar la función
holandesa Y luego voy a crear
otro objeto, figura cuatro, y voy a hacer
pop Boston gráfico de barras G, ggplotly, ggplotly a, B, y luego imprimir la figura para C. figura cuatro, y voy a hacer
pop Boston gráfico de barras G,
ggplotly, ggplotly a, B,
y luego imprimir la figura para C.
Ya ves aquí. Ahora bien, este es el
simple gráfico de barras. Bien, entonces comió
y cenó. Dos cosas están ahí entonces este sistema para
mujeres y este es para hombre o mujer
factura total por comida para el almuerzo. Y esto es
lo mismo para la cena. Entonces si quieres analizar
como en el almuerzo de femenino, total será interfaz abstracta. Total. Nos encantan las
rupias sostenidas y para la cena, las hembras que nos encantan la cisteína
y MATLAB, rs17.17, 0.0 Entonces esto, podemos
analizar que en el almuerzo, masculino y femenino, los gastos
en almuerzos bastante diferentes Masculino, gasta más en el
almuerzo para la cena. Incluso masculino y femenino. Esto, podemos concluir que
para la cena compraron los gastos son casi iguales. Día masculino y femenino. Bien gastó lo mismo entre casi la misma cantidad
de dinero en la cena. Pero cuando vienen a ese almuerzo, hembras, gastan
menos en el almuerzo. ¿Y gastarán
más en el almuerzo? Esto es lo que podemos concluir con
base en este Gráfico de Barras. A continuación,
usaremos el SF básico. Para ello, usaremos
la propia biblioteca. Y para ello usaremos el objeto
NCDs, SF, dos puntos, dos puntos, guión bajo leer la
función de archivo punto del sistema será el suyo y
sin embargo revisar SIP barra
NC punto SHP y paquete será SF y SHP
y el paquete será SF
y bastante igual a true Y luego crearemos
un objeto figura tres. Y ggplotly, realmente
enorme y ggplotly. Y pasaremos a este suboc. Objetarse a ggplotly más
geom subrayado seguro. ¿Subraces
fuentes SF y revisas? Y tenía formas estéticas
y religiones como ésta. E iremos a llenarlo por área. Así que vamos a trazar esta sencilla parcela de
superficie aquí. Entonces ahora estamos consiguiendo
esta superficie. Puedes ver aquí sobre el
eje x y el eje y. Entonces en grado. Y se puede ver la etiqueta
en reposo de diferentes maneras. Entonces de esta manera podemos
apalancar para trazar. Lo siguiente es que también podemos
poner los mapas para esto. Yo soy tu Zynga. Eso es para
febrero, nosotros y el tráfico. Bien. Por lo que estos datos tomados de este sitio web directamente readaptados Estamos creando
a partir de este sitio web Y este dato es
Parte 21 de febrero, US Air Traffic dot CSV file. Así que vamos a almacenar eso
en este DataFrame. Y luego usaremos intentaremos
subir este
tráfico aéreo en el mapa. Hasta ahora ese valor
que estás estilizando. Entonces voy a crear un objeto
G. G y alcance es EU
El alcance de este mapa
son nosotros proyectos y estas listas tipo proyectos
y es tipo lista. Albert's USA. La tierra a través de
la tierra será nuestro hijo. El color de la tierra será a RGB
y usaremos el gris 95. Y sub unidad color será
grandemente cinco país color será genial en cinco país con será 0.5 y
sub unidad con azul 0.5. Entonces de esta manera podemos usar esto. ¿Bien? Y luego usaremos
la función
GO de guión bajo de trama para trazar
esto en el mapa Hasta el momento estos están más allá del
conjunto de datos como dF, este, el dataset
CSV de muesca de tráfico del aeropuerto que pondremos aquí. Entonces latitud pondrá latitud y longitud
pondrá equipaje todo el, estas son las dos cosas que vendrán de
este conjunto de datos rodilla arriba. ¿De verdad es gruesa? Agregar marcadores y
textos que pondrán aeropuerto, ciudad, estado, llegada. Y luego color realmente rico,
símbolo, tamaño cuadrado. Pongo el cursor por los textos. Bien, entonces déjame ejecutar esta herramienta y luego olvidar el valor del color en
enormes vuelos entrantes. Y para maquetar y
usar el título, la función de diseño
para maquetarlo. Y luego tratar de será la
mayor cantidad de tráfico USA están bloqueados. Y luego lean sobre esto juntos. Entonces realmente trata
de poner algo. Por lo que ahora viene ya que mayoría del tráfico nos sumamos
puerto Hauer para aeropuerto Entonces aquí, cuando sí vemos ese vaso todavía Buck llegadas
internacionales son 90, entonces obtienes llegadas o 100 a este pedazo de amigos
que yo haré, 379. Así que puedes pasar el cursor sobre
el mapa y puedes encontrar el centro de Australia Remington es para las llegadas número 26 para este país águila regional 292648 en 1998 al Aeropuerto Internacional de Salt Lake
City Así que de esta manera podrás encontrar
el aeropuerto más concurrido. Flux nosotros. Lo siguiente es que podemos trazar
el actor racional crea. Lo siguiente es que
podemos trazar el raster
trash talk crea el mapa de calor coloreado con dos variables que actúan como
la coordenada X e Y. Y tercera variable
mapeado sobre el color. Para ello, usaremos el
paso dos y Plotly. Para esto usaremos la función mágica y las
usaremos mientras no podamos. Bien, entonces ahora GG traza a este conjunto de datos y valor
estético1,
valor2, y geom Rushton, relleno
estético Los valores pueden llenar Destilador utilizará esta
Escala de funciones y sensación Oscar. El pellet será
la dirección espectral uno. Y esta función de rezago
dará eje x oeste a este y eje y norte a
sur, título y arenas Y luego vamos a tratar de trazar esto. Así que vamos a ejecutar esto y ver
que después de haber sido hija, un
mapa de elevación de enfermedades para Mongo mientras tanto Y esto se crea a
partir de esto. Bien. Ahora, lo siguiente es que intentaremos trazar un diagrama de dispersión 3D
del conducto renal Entonces 3D scatter plot para eso, voy a hacer los autos vacíos. ¿Bien? Entonces autos vacíos, un auto vacío, M igual a cero y
M igual a uno. Esto se llama automático. Manual. Y luego aquí autos vacíos, factor de
borde, tarjetas vacías am, y luego tratar de trazar
usando guión bajo trama solo autos vacíos conjunto de datos que
está incorporado en el are Realmente use X bar, WT, proyecto de borde de punto de acceso Wi-Fi para usted proyecto de
borde de punto de acceso Wi-Fi
enfermo para usted, color enfermo basado en
AM y Color. Vamos a definir aquí también. Esto es para el color y los colores le darán color a
esta plática. Y luego para el diseño
se utilizará salida, empate esperar y eje y
cruzar caballos de fuerza y obtener ejes serán 141
por cuatro millas Así que vamos a dibujar esta trama 3D. Entonces PUEDE saber que esta es la gráfica 3D, la gráfica de dispersión
que hemos hecho. Entonces para esto, puedes ver
entonces nuestro eje x, eje y. El eje Y es para caballos de fuerza brutos. Y el tercer exón, mi tiempo. Entonces cuando pasas el cursor
sobre el punto, puedes ver 3.78 Y
es uno en y Así que de esta manera podemos trazar las parcelas 3D y tan
agradable y así modo. Entonces este es el eje x, eje y, y ese Card
excesos ahí Así que Plotly
empaqueta en otros más grandes para crear parcelas
interactivas
altamente personalizables, mapas, porque ya está listo para integrarse con la trama GG, la posibilidad y menos Bien, para que puedas hacer más
ejercicios sobre esto y puedas practicar y puedes crear gráficas
3D
mucho más interactivas, mapas y todo. 3D Parcelas, mapas y todo, bien. Así que esto es en un barco, Ploly
114. Creación de parcelas 3D en R: Hola y bienvenidos de nuevo. En esta conferencia, vamos
a crear parcelas 3D en el arte. Así que les voy a dar
a todos algunos ejemplos diferentes, diferentes en los que
podemos crear parcelas 3D. Bien, Entonces primero, voy a usar la biblioteca Plotly y para este
usuario correctamente Entonces no has instalado,
puedes instalarlo. Así que lo primero que me encantó la librería plotly y luego voy a crear una muestra de
datos mediante el uso de una no-función Entonces x, y, z, ya sabes, 100,
100 y el proyecto existe y
usa al cuadrado más y al cuadrado ¿Bien? Entonces, pero esto va a
conseguir esos tres. ¿Lo hace después? Ahora, quiero graficar estos tres puntos usando
un diagrama de dispersión 3D. Usando Ploly. Para eso, usaré
una función ondulada de
subrayado de trama
ampliamente no reclamada llamada x,
obtengo x al cuadrado, eje y x e
y y luego se celebra x Tipo será el modo 3D
disperso serán los marcadores y armónicas
y enorme tamaño de lista, voy a dar tres colores, me pagarán en el eje
y y la escala de colores y ya
terminaste con esto, Luego el diseño, usaré la
escena y para la lista, proporcionaré una lista de los cuales
contendrá el eje x, el eje y y el
eje de chorro Y para eso, voy a dar
el Título X, Y terminó. Si quieres, puedes
poner existencia eje x,
eje y, y esa x está bien Entonces estos tres títulos los voy a dar e intentaré,
déjame correr esto. Entonces mira aquí, esta es
la trama 3D bloqueada. Tenemos gráfico de dispersión 3D, tenemos gráfico de dispersión 3D. Estamos llegando, ¿de acuerdo? Entonces ahora puedes ver
tu eje x, eje
y, y este es el eje de chorro, de la manera
que quieras Entonces C y ahora eje x, eje y que x es, estos son los puntos que
hemos creado usando nuestro num se ha trazado
en un diagrama de dispersión 3D Entonces eje x, eje y ese eje. Entonces, lo que sea que queramos analizar, esta manera, podemos crear un diagrama de
dispersión 3D usando Plotly. Entonces déjame revisar de nuevo. He creado un dato de
muestra usando nuestra función normal, punto del eje
x. He creado nuestra norma de 100. El eje Y ya no son 400 y los valores x
muertos son x e y. Y esta fórmula para
obtener los puntos para la gráfica de dispersión
3D he usado Plotly y la función de onda
cuadrada para el eje X AB producto X
punto Y eje y indexación Y luego tenemos estas
cosas, maquetación y marcadores. Y luego cuando ejecutamos esto, obtenemos este gráfico de dispersión 3D. Lo siguiente es pero
SP, función SP más enlaces B. Y se puede ver en
nuestra programación, así sintaxis BER SP, este es un
nombre de función y necesitamos
escribir ese 3.4 eje x,
eje y muerto en este punto, necesitamos escribir como
un parámetro importante de
esta función como un parámetro importante de parámetros separados
diferentes, x, y, y z con x e y son vectores que
definen la ubicación
a lo largo del eje x
e y definen la ubicación
a lo largo del eje x Y el eje muerto será la
altura de la superficie en la superficie en
el chorro de matriz. Entonces esta altura será
la matriz todavía, ¿de acuerdo? Entonces, el valor de retorno para esta función
SP será la transformación alada de métricas para proyecto
en coordenadas 3D x, y en el plano usando coordenadas
homogéneas, que serán x, y, z y t
Entonces veamos el
ejemplo de usar esta perspectiva de función
pero SP. Entonces veamos el
ejemplo de usar esta perspectiva de función
pero SP Se puede decir patrocinador. Entonces como quieras, puedes llamar, yo
lo llamo SP, sé patrocinador. Bien, entonces aquí quiero dibujar nuestro sencillo cono circular
derecho. Entonces, para ilustrar simple cono circular
derecho, creo un objeto aquí
llamado y para esa función. Y luego pasar la función, función en Boston que voy a usar esta función de
raíz cuadrada, x al cuadrado más y al cuadrado. ¿Bien? Entonces esta es la función para x valores x e y son secuencia
suelta de menos uno
a uno, retrasados mentalmente Y jet será el x
exterior, y, y frío. Entonces este será el eje neto y luego trajo la superficie 3D, usaré la función de análisis x, y, y estos tres puntos, la
pasaré a esto. Bien, así que vamos ¿Cómo va? ¿Te veo? Ahora bien, este es el cono circular
derecho 3D que podemos crear usando esto. Así que aquí la secuencia de
funciones de código de esfuerzo es pre-generar el vector de números
igualmente espaciados
y la función externa para aplicar la función maíz en
cada combinación de x e y. entonces este es el
cono circular derecho que hemos creado Ahora. Ahora mira un ejemplo más aquí. Lo que quiero hacer, quiero agregar
los títulos y nivelar el acceso a la trama hasta el momento
que este tema de la conferencia, entonces esto también será lo mismo. Ahora, trazo la superficie 3D
y ahora vamos a jugar estamos trazando la superficie 3D mientras usa la función
y pasar el punto x, y, z aquí Y después de eso,
usaré CTO administrado, diagrama de
perspectiva de un cono ¿Bien? Bien, Así perspectiva
trama de un cono. Y luego git lab, voy a dar altura para eje jet, voy a dar un nombre
como la altura y Theta fiesta ALX1, ¿qué es Y luego phi es propileno y el color es naranja.
Y ver cual 0.4. Bien, entonces vamos a ejecutar esto y ver qué
salida estamos obteniendo. Estamos obteniendo esta trama
de
perspectiva de trama activa de un cono. Entonces aquí X Lab 11 dead lift se
puede utilizar al nivel, el nivel para nivelar
los tres ejes. Y theta y phi son
la dirección de visión. Theta y phi otro Windex
y que estamos viendo. Entonces te tenemos el jueves
y viernes, 1,245.15. Veamos qué
cambia. Ver hoy en día. Se ha cambiado el ángulo ganador, ¿verdad? Puedes lograrlo. Veamos cómo está tendiendo. El ángulo de visión
está cambiando, ¿de acuerdo? Entonces, sea cual sea el ángulo que
quieras ver que puedas dar en theta y phi, si lo hago 4.560.45, veamos como
viene y veamos este tipo de cosas así, ¿ de acuerdo Esto es T. Entonces vendrá
así. ¿Bien? Tomar una decisión. Bien. Ahora, voy a usar, voy a
decir para visualizar el sencillo modelo digital de
elevación ellos. Bien, hasta ahora esto será de
dos en volcán y genuino con diez en una columna y fila 10 m orientado de sur a norte. Y por qué te harán entonces en uno en alcohol y frío. Y tomará el jet y Danton se
dispersará de oriente a poniente ¿Bien? Ahora, gran
parte va a ser la función de
grado y perspectiva. Usaré X, Y, w1, 35 y lucharé con todos
estos otros ángulos Color marrón, piel cae, Theta uno menos uno Esto es para establecer y
borde y luego falso. Entonces veamos cómo viene esto. Entonces mira aquí esto es solo un modelo de
elevación digital Alpha. ¿Bien? Entonces así es como
podemos crear gráficas 3D en R. Así que hemos visto
cómo podemos hacerlo con
la función de onda
no descrita de Plotly plot. no descrita Entonces hemos visto
como podemos usar para funcionar mas b función de
perspectiva funcional, quieras,
puedes llamarlo. Así es como podemos crear TV
115. Creación de parcelas interactivas con gráficos altos: Hola y bienvenidos de nuevo. En esta conferencia,
vamos a crear Parcelas
Interactivas
con Highcharts Entonces hemos visto cómo podemos hacer eso con las otras bibliotecas. Y ahora vamos a hacer los
Highcharts. Atrás está aquí. Y para eso, lo hicimos para
descargar los Highcharts. Entonces solo vas a través los paquetes instalados
y tal lo tenía para carta
alta hace como puede hacerlo
en polvo y descargarlo. Bien. Por lo que la biblioteca Highcharts
será origen para esto Bien, entonces nuestro lenguaje de
programación es ampliamente utilizado para estadísticas, visualización de datos y análisis de datos que ya conocemos. Usando la biblioteca Highcharts. datos de la biblioteca Highcharts están representados
gráficamente
en el software No sólo el significado, sino también
se preparan gráficos
interactivos. Bien, entonces veamos qué tipo
de gráficos podemos preparar. Gráficos interactivos que podemos
preparar con Highcharts, columnas, gráfico de barras, gráfico
circular y gráfico de
dispersión que Estos son los cuatro tipos de gráficos que puedes crear
con los Highcharts Así Highcharts en
Texas, bastante simple. Usaremos Gráfico X y luego pasaremos el objeto de
datos, luego escribiremos, luego en Cases, los puntos
X e Y, y luego color. Entonces objeto para representar el tipo de objeto de datos es el
tipo de gráfico que desea
crear en él consiste X e Y aprehender los Xs
para representar los Lo que es importante y el Color representan ese
trazado de colores, pero no se obtiene el
valor que proporcione Así que el gráfico creará el gráfico
interactivo, ¿de acuerdo? Y estos cuatro gráficos de
columnas por barras, barras, gráfico circular y diagrama dispersión vamos a estar
consiguiendo que no lo hizo. Esta es una
sintaxis bastante simple de gráfico alto. Yo gráfico, es gráfico
es la función. Y pasaremos el
tipo de objeto de datos de la carta que queremos crear y Cases, será el eje X e
Y y Color, pero lo que
quieras darle color. Bien, entonces primero crearemos
con el gráfico de columnas doc, o el gráfico de columnas muestra datos con categorías representadas
por un rectángulo, a veces llamado gráfico de
barras verticales también. Y las categorías
suelen estar organizadas a lo largo del eje horizontal y valores a lo largo del
eje vertical que conocemos. Entonces lo primero es importar la biblioteca que
charters, So Lamport Entonces aquí lo que voy a hacer, voy a crear
un dato simple, datos muestra para nuestro ejercicio. Entonces aquí voy a crear
un vector que contendrá el nombre del país, América, India,
Indonesia, Japón ,
Canadá, China y Brasil. Y su PIB. Por lo que el vector
PIB creará y dará el PIB
correspondiente al país. Y luego te
daremos los datos, data.frame y
país y entrega Entonces este será el DataFrame. ¿Bien? Entonces lo siguiente es trazar el gráfico de barras de columnas o el gráfico de
columnas. Para ello. Almacenar eso en
el objeto P1 y borde Gráfico funcional
utilizar un objeto, bien, datos de punto, que contendrá
el país y el PIB. Y luego escribe, quiero
hacer un gráfico de columnas. Entonces voy a dar columna aquí. En Casos, voy a dar X. X es Voy a país y
el
eje y se llaman PIB y Color Quiero ponerle tasa impositiva. Si quieres que sea
otra cosa también puedes darle verde. Bien, entonces déjame correr
esto y mira aquí. Vea cómo es el hola Interactivo, este gráfico de columnas. Así que permítanme simplemente quitar
estos y otra vez, cuando haga clic vea cómo está apareciendo y desapareciendo de
una manera muy interactiva Entonces así es como podemos
gráfico de barras, lo siento, gráfico de columnas. Usando el
gráfico de columnas interactivo, puedes secuestrar. A continuación crearemos un gráfico de barras o
gráfico de columnas, mostraremos datos con categorías representadas por el rectángulo, a veces llamado gráfico de barras
horizontales. ¿Bien? Bien, así que vamos a
crear un gráfico de barras aquí. Así mismo conjunto de datos
voy a estar contigo. Después vea los datos de la vista. Si quieres ver tus datos, puedes ver el país y el PIB. ¿Bien? Lo siguiente es que
quiero trazar un gráfico de barras aquí. Entonces usaré el
objeto gráfico S, tipo de datos Bar, casos de
borde, País, eje X, país y PIB del eje y Y no había leído. Bien, así que vamos a ejecutar esto. Ahora. Este es el gráfico de barras
que estamos creando. Entonces esto es
Gráfico de Barras Interactivo usando Highcharts, bien, así que mira cómo
está apareciendo, ¿de acuerdo? Y cuando veas como lo sobrepasa, verás el
país correspondiente y el PIB, ¿bien? A continuación, cada gráfico circular, gráfico circular o tipo de gráfico en que el círculo se
divide en grupos que representan la proporción
de categoría
Los valores se dividen entre las diversas
conferencias del círculo. Sectores las marcas de
esa categoría. Entonces usaré el
mismo conjunto de datos, ¿de acuerdo? E intentaré
crear un gráfico circular. Entonces aquí voy a dar
página web igual a pi. Todos, todo lo demás es igual solo tipo
estamos cambiando aquí. Y el color, si quieres
darle algún otro
color que puedas dar, te
voy a dar el gráfico circular. Así que mira cómo el
gráfico circular interactivo ha llegado aquí. Entonces volveré a abordarlo, a ver cómo está apareciendo. Y para cada país, al pasar el cursor por encima, se
resaltará China, Japón,
Indonesia, América. Así. Sí. Entonces así es
como podemos crear por Chart. A continuación, quería
meterme en el diagrama de dispersión. Gráfico de dispersión, también
conocido como gráfico de dispersión. Acabas de llegar a los valores
actuales. ¿Qué es lo diferente que se utilizan los
gráficos de dispersión de variables médicas para ver, escucha entre
las variables, cómo una variable se ve afectada
por otra variable ¿Podemos visualizar fácilmente? Así que voy a estar usando de la
misma manera, lo hace, y ese
país y el PIB realmente testaruda Y él había usado el gráfico
S y el pañal, voy a dar scatter.
Eso es. Bien. Carla, supongamos
que quería darnos amarillo. Bien, así que vamos a poder
entrar en el gráfico de dispersión aquí
y ver cómo es. Ves los puntos. Entonces déjame ejecutarlo otra vez, Boxer de la
CIA saliendo aquí. Entonces déjame lograr esto
a algún otro color. Hazlo rosa. Rosa. El rosa tampoco es
factible tanto y hacerlo visible. ¿Bien? Entonces mira, ya sabes, esta es la
raíz cuadrada del bloque, ¿de acuerdo? Así que de esta manera podemos
usar la biblioteca
high charter, high Highcharts y podemos darte los gráficos
interactivos
116. Proyecto 8 Visualización de datos de Airbnb en la ciudad de Nueva York: Hola y bienvenidos de nuevo. Entonces en esta conferencia
vamos a hacer otro proyecto pequeño,
muy pequeño. Y en este estudio, haremos un
estudio de caso de visualización de datos de Airbnb para la
ciudad de Nueva York usando la trama GG Entonces Airbnb, hospedando
gente en tu casa. Entonces veremos cómo la gente
está anidando y cuál es el costo o cuál es la
r tendencias vecinales Entonces básicamente vamos a estar dentro de los datos de la ciudad de Nueva York. Por lo que los datos serán proporcionados aquí. Así listado o CSP que he
descargado del Airbnb. Por lo que estará conteniendo
los datos de la ciudad de Nueva York, datos de
Airbnb para la ciudad de Nueva York. Entonces, cuál es el objetivo de
lo que este pequeño proyecto es estudiar es
visualizar el juego,
visualizar y obtener insights a partir de insights la bola amarilla a y B datos de
Airbnb en la ciudad de Nueva York, enorme entidad utilizará la trama GG a
través y para tratar
de visualizarlos, obtener los insights de los datos del mundo
real de Airbnb. Bien, exploraremos
diferentes aspectos de los datos como
la distribución previa. Eran sector, ¿de acuerdo? Entonces conjunto de datos para este estudio
o para este proyecto, usamos el archivo
CSV de punto listado de aquí cuando hicimos una sentada para
la ciudad de Nueva York. El conjunto de datos contiene información
sobre varios listados, incluyendo arroz, disponibilidad
del vecindario
y otros detalles relevantes. Entonces el primer paso es la preparación
de datos. Para ello cargará la biblioteca
necesaria. Entonces voy a usar
la capa profunda. Si no has
iniciado el plan, puedes ir a los paquetes Herramientas
instaladas, donde pongo los alicates
y hago clic en Instalar, se instalará y luego
podrás usar el pasivo. ¿Bien? Así que GG traza
y aplica esto a nuestra biblioteca que vamos
a anotar para este proyecto. Y veremos la
estructura del conjunto de datos. Y tomaremos valores faltantes de un
término y convertiremos el
DateTime si es necesario Bien, así que avíseme las bibliotecas necesarias
en vivo. Y lo siguiente es enumerar un archivo CSV
grande que
tenemos en mi máquina local.
Así que escribí eso. Entonces usaré esa función
csv de punto y pasaré la ruta del
archivo CSV con el nombre de archivo Y voy a almacenar
esos datos en la variable de
datos de subrayado a
y B y B. Así que vamos a ejecutar esto. Bien, entonces estos datos
están teniendo 48,008, 95, 95 objetos,
y 16 variables ¿Bien? Así que permítanme explorar la
estructura del conjunto de datos. Mi uso de la función STR y
pasamos este AirBnB
y datos de discordia Déjanos. Entonces déjame mostrarte la
estructura para esto. A ver. Entonces 48,008 95 objetos
y dice dos variables. Hace esto a mi
nombre y nombre de identificación. Religión por manejo de costo ID, nombre de
anfitrión, barrio,
grupo, barrio. Déjalo salir en voz alta. El precio a
corto plazo Mínimo ahora es el
número de reseñas. Más grande, rico en leucina que obtuvo listados de hospedadores calculados
mensuales,
conteo, disponibilidad,
investigación T5 Entonces todas estas variables están ahí y son tipo de
datos también lo es Entonces ahora tomaremos todos
los valores que faltan. Así podemos verificar los valores
faltantes usando, No es una función f. Y pasamos ese
conjunto de datos y el número de valores faltantes y algunos monjes y para obtener la suma
de los valores faltantes,
bien, protón número
de valores faltantes Entonces esto luego imprimimos el número de valores faltantes y conjunto de datos imprimiendo este
simple valor. ¿Bien? Por lo que hay diez valores faltantes
preparatorios pentatónicos de 48, 95 ¿Bien? Lo siguiente es si el cable, si tu dataset
no lo está pasando bien, puedes convertirlos. Oye, datos de Airbnb,
última revisión, fecha, la fecha que no
agregaste de algún sentido. Veré que tu contenido no
está ahí. ¿Bien? Lo siguiente es que queremos
visualizar datos o licencias. Para ello, utilizamos la
trama GG para crear perspicaz, visualizar incrustados en el alienígena Entonces lo primero
veremos distribución de sarpullido. Hasta el momento aquí. Voy a crear un histograma
para que los escritores personalmente que el bloque
d y la pasta Tenía un dato de subrayado de B&B, es
decir el conjunto de datos que
hemos almacenado accediendo a ellos archivo
Csv Bien, Entonces para la
función estética eje x, nuestro eje x, usaremos el precio Y luego usaremos el histograma de guión bajo
geom para trazar el histograma
bin width Y Phil sentirá que con el bucle de Skype y el
color del borde será blanco. Y laboratorios, el eje x será el
precio, los precios, la diversidad frecuencia
y el título del eje
y
serán la
distribución de precios de Airbnb El listado y el equipo
usarán mínimo. Y luego imprimiremos el programa de subrayado de
precios que estamos creando
aquí. Déjame dirigir esto. Ver aquí. Esta es una gráfica. En el eje x está el precio en dólar estadounidense y en el eje y es la frecuencia Escuchando. ¿Bien? Entonces esta es una visión de tejido fresco
que ofrece anuncios de Airbnb. Bien. Entonces veremos el barrio. Entonces para esto,
crearemos una parcela de barra, número de listados en
cada barrio. Para ello,
crearemos una variable llamada
underscore de barrio. Parcela de subrayado Los mismos datos. Subrayar los datos. Usaremos al
operador de tubería para seguir
al grupo por grupo de guiones bajos Esta es la única variable
en el conjunto de datos. Y luego resumir por
conteo es igual a n. Y luego dejamos la trama GG
y el eje x se ordenará
al grupo vecinal, y usaremos la columna
count menos De esa manera,
se llamará a tu acceso y lo llenaremos con geom bar desde dentro
que pasará la identidad Y últimos punks y barrio del
eje x, eje y, número de tinte de carne,
título, número aquí arriba sean poco realistas Año senior, el
mínimo y equipo. Elemento de texto de punto Xis. Se puede hacer elemento
bajo ángulo de protección 45. Entonces este será el
nombre en el eje x. Quiero propulsor por 45. Y luego pondremos la
trama del bar en esto. Sobre esto. Entonces así es como Manhattan
y Brooklyn, Queens, la mano del barrio delta
se inclina 45 grados Y este es el
barrio y este es el número de pruebas
para cada barrio. Ciudad de Nueva York, tú destruyendo
el número de listados. Vecino en grupo, Bronx,
brooklyn, Manhattan,
Queens, Staten Island. Bien. Entonces así es como
podemos usar una parcela de barras. Cómo es así en número
levantando pesas. Y entonces lo que hemos
entendido al hacer eso, podemos dibujar el siguiente IR, la respuesta más silenciosa o
la más listada debajo nuestro dólar objetivo y con
alguna clase antigua por ese precio Entonces esa cosa que podemos ver
de este histograma, ver la mayor parte de los 10,000 y
algunos de los valores
van subiendo producción que podemos considerar ya sea Eau Claire Entonces la mayoría de ellos sólo. Y luego barplot número de
listados en cada grupo. La distribución que agrego a través de
los padres y tomé prestada, proporcionando información sobre las áreas más populares para el alojamiento Así que de esta manera podemos
verlo si quieres. Puedes obtener una
licencia más regular y solo puedes analizar los datos y
puedes crear un paragon de
instancias más vigilante,
diferente, diferente bien
específico Gracias.
117. Análisis de datos y visualización de COVID 19 de proyectos: Hola y bienvenidos de nuevo. Entonces en este proyecto, vamos a analizar
los datos del COVID-19. Entonces el COVID-19, una de las cosas muy malas que
le pasó a la humanidad, la humanidad, o al
virus mortal que estaba causando que muchos de los médicos y la gente
sufrían en todo el mundo Por lo que hoy analizaremos
los datos de COVID-19 e intentaremos hacer el análisis exploratorio de datos sobre el conjunto de datos de COVID-19
y podamos proporcionar Cuando hacemos ADA, obtenemos los valiosos conocimientos. Entonces comencemos cargando los datos y luego procedamos
con el análisis para encontrar los
diez primeros países con el número máximo
de casos de COVID-19. Haremos algunas cosas más también, pero comencemos
con lo mínimo. Así que he descargado
el conjunto de datos, dataset, country wise lattice dataset ese archivo CSV que te
proporcionaré Entonces si quieres
ir al baño y esta app descargada
del sitio web de la OMS. Para ello, necesitamos la biblioteca. Entonces si tomamos no instalados, puedes ir a las herramientas y paquetes
instalados y
puedes poner el plano. Bien. Y luego puedes
descargarlo e instalarlo. No se pudo descargar
e instalar en tu hot. Bien, entonces lo siguiente
es lo que quiero hacer. Entonces esta parte, tendrás que
reemplazar lo que sea tu cosa. Declaro que
tienes tu ruta de
directorio local. ¿Bien? Así que déjeme en paz. Ahora, ¿este archivo CSV
acercará los últimos datos del país y los almacenará
en un COVID subrayado de datos ¿Bien? Entonces voy a usar el punto
CSV para leer este archivo CSV. Y luego veamos el resumen
de este código, ¿no? Entonces pongo el resumen. Se puede ver aquí. Ahora tenemos país región,
pronta, ese registro. ¿Besos nuevos datos, nuevos para cubrir deudas, cien conjeturas,
y luego recuperados o casos no dirigidos que colorearon
confirmaron la semana pasada ¿Cuántos casos el esquema y retención de
exones
aumentaron en la región de la OMS Bien. Entonces así, hay estas columnas en esto. Maneja
estas columnas en este conjunto de datos entregado o mínimos de la
mediana del primer cuartil Entonces lo siguiente es, ahora quiero encontrar el, si quieres, puedes
hacer una cosa más. Puede verificar la estructura del conjunto
de datos mediante el
uso de la función STR. Y ahora tenemos aquí estas
muchas columnas, 197 objetos y variables. Por lo que variable país,
región confirman eso. Entonces estos son el tipo de, se pueden
ver columnas y el tipo de
datos también lo hacen aquí. Entonces déjame encontrar el plano
superior que contiene el número máximo
de casos de COVID. Esto creará un subrayado
superior variable ,
subrayado países Y usarán el
archivo CSV del conjunto de datos y almacenarán todos estos datos de subrayado de
COVID Y así usaré datos
de subrayado y
usaré el operador de tubería Y voy a agregar en
orden descendente por casos
confirmados, confirmados y cabeza. Quiero ver los diez primeros. Entonces voy a poner heptano. Por lo que será fuente de los
diez primeros desiguales aleatorios. Somos entonces de ahí, me
mandaron otro. Entonces estos son los países con el
número máximo de casos de COVID. Entonces, ¿la región de la OMS estos
países en realidad? Entonces América. Y es nuestro trabajo En el registro, primero cargamos la biblioteca requerida y
luego leemos el COVID-19. ¿Va coordenada al
cuadrado, Theta. Después DataFrame, luego mostramos el resumen básico del
conjunto de datos para obtener la visión general de los Por último, encontramos que el pin superior contiene el número máximo de casos de COVID-19 y la función del heck bombear el paquete de sangre
ha sido considerado un fracaso, contendrá los
diez primeros países con mayor número
de COVID confirmados Y cada meta representará
al país y cada columna contendrá el virus
en los datos de cada país. Ahora quiero hacer
visualización de datos sobre esto. Entonces, para visualizar los diez
principales países en casos de números de carbono, usa el gráfico circular, y usaremos el
paquete ggplot2 para esto Entonces el gráfico circular y
hacerte la trama GG, los diez mejores países de
aquí que obtuvimos de ti. ¿Bien? Y luego la función
estética x, eje y se contraerá y bombeará llenado con
la región del país Geom bar, Yeoman Escobar
función utilizará
y el estado igual
a la identidad
proporcionará y genial Empezaremos con los laboratorios Jira. Voy a dar el topper del título
y países, x-nada,
y-nada y lo contrario
y el equipo estará cableado para que gráfico circular para esto Entonces mira aquí. Ahora
tenemos el gráfico circular que muestra los
diez principales países con el sistema COVID-19 coseno
máximo COVID-19 Se puede ver la mayor cantidad de casos de COVID y la mayor
cantidad de casos de COVID. Después Reino Unido. Entonces poco a poco es primer
reino, luego Brasil. Y entonces tenemos un
medio que es la India. Entonces éste, luego este
azul, ese es el CR. Entonces de esto podemos
llegar a saber que EU,
Brasil, India y Rusia, donde los cuatro principales países,
EU, Brasil en el endosteum, los principales países pobres, principales países pobres, tiene el número máximo de casos de COVID-19 y
nosotros siendo los Bien, entonces este código
creará la carga de bytes. Entonces, en la proporción de los
casos confirmados de COVID-19 para cada país. Ahora, podemos agregar textos más
densos y personalizar los colores del gráfico circular
para que sea más interactivo, informativo y
visualmente atractivo. Bien, entonces este código
creará el gráfico circular. Ahora, queremos agregar más cosas. Así que voy a crear un gráfico circular
con niveles de Personalizar colores. Entonces, por favor, haz lo mismo. Aquí están los polares y
que ya hemos utilizado. Y años después de esta función
de todo el equipo volverá a hacer la misma función Y no había puesto leyenda
punto fondo partidista, más negro en el fondo Y lot dot title va a dar
lados sin embargo nosotros lo vamos a dar. Justicia. Pipa Frank, el tamaño es 16, y Francia se negrita y textos. El elemento subrayado función de
texto y tamaño obtendrá leyenda El tamaño del texto será 12. Y sabio para este título
serán sitios para título o 14. Y sería el tablero
y la caja de fuerza de un solo punto. Bien, entonces y luego
usaremos el gráfico circular. Y para eso, usaré escala, campo de
subrayado
y hace manual Y aquí los valores
obtendrán manualmente. Son los muchos colores se sienten juego, bien, así que cualquier código de color quieras dar puedes conseguir. Y luego crearemos
un gráfico circular con niveles. Entonces voy a tomar este
gráfico circular y luego voy a llamar X y
funcionalidad estética, que voy a llegar a
una región punto país y de donde viene Punk, ¿
verdad? ¿Cuándo eres hijo? Pila. Y luego correré
todo esto juntos. Y C, y ahora estamos consiguiendo mejor gráfico circular con ligandos
y diferentes colores. ¿Bien? Entonces ahora está diciendo las leyendas. Usted dijo que ha habido
porque su reino poco a poco. Y también aquí también
se puede ver esta tabla, bien, Así que de esta manera podemos crear una bicicleta personalizada y texto de leyenda. Ahora, quiero encontrar los diez principales países
caídos y el país que tiene un número máximo registrado que encuentran los
diez principales países que han registrado el número máximo casos
agregados de la parte
que conjunto de datos COVID-19, podemos usar un
enfoque similar al anterior Clasificaremos el
conjunto de datos en función la columna de la cubierta y luego
seleccionaremos los diez países principales. Bien, hasta ahora este valor. Y luego usaremos el COVID. Leeré este conjunto de datos y los diez
principales países usarán
arreglado usando esa columna. Y luego nos llevaremos los diez primeros Bien, este ya lo tenemos. Entonces CFTC, los diez principales países en el
número máximo de bits. ¿Bien? Lo siguiente es que quiero
crear un gráfico de barras, pero los diez principales países número
máximo de muertes porque eres el
gráfico de barras y la barra geom, las cosas tienen su angular cinco, guión uno justo en esto Ahora tenemos el gráfico de barras
arriba y los países para el
máximo de la noche a la mañana y todas
esas cosas están subiendo. Este es el gráfico circular. Esta es Sunda. Nosotros ladrar. Bien. Entonces este gráfico de 1 barras y un gráfico circular. Bueno, lo mismo. ¿Bien? Ahora quiero calcular el porcentaje de recuperación
para cada país. Entonces parte de esa recuperación
COVID-19, si has cubierto el departamento de
posgrado 200. Y sé que nos estamos recuperando y
pasamos a la recuperación. Bien. Datos del país. Entonces así es como un país y eso cubrió la recuperación
porcentual. Entonces estas vellosidades hemos
calculado la última, bien. Ahora calcule los
percentiles que puede ser para cada país en parte
superior que le diga que los países
iniciales y
luego cree un Este es el gráfico de sesgo, el porcentaje de recuperación
y los países adoptados. ¿Bien? Entonces la recuperación de EU,
Ivana es el max. México. India también está teniendo algo parecido a la
comedia, y luego a México. Y luego quiero que los diez
mejores países estén cubiertos de tiza. Esta es la persona para contrarrestar los caracteres de doctrina en
la primera oración Por Chuck. casos más activos que
provienen de qué país nos
encontrará es el país que tiene
más casos activos. Top diez países con
los casos más activos, tan duros que morirá. Los casos activos confirmaron deuda
menor menos los casos activos provienen de
menos que, menos recuperados, nos
dará la mayor cantidad de casos activos y luego
agregaremos que dos ventajas. ¿Bien? Para que puedas ver EU,
Brasil, India en el vector de números
simulados. Este es el porcentaje de países activos de
doctrina del curso y crear un gráfico circular. Esto nos mostrará la mayor
cantidad de casos activos. Porcentaje de vectores
coseno países de la doctrina aquí UTILIZAN que
será 7.73% del mismo Que contrae la
frecuencia máxima de las conjeturas. Las conjeturas usarán frecuencia eso porque
va a resumir. Después volteando para vernos como
la frecuencia de eso, qué país experimenta la frecuencia máxima
de la cavidad porque este producto algo
de lo recuperó. Y así Brasil está teniendo la mayor frecuencia
de los casos judiciales. ¿Bien? Entonces de esta manera, si queremos analizar más
tu condiciona combinación, tu forma de pensar y
podrás enlumbrar los datos Bien. Entonces, esto es todo sobre el análisis de datos de
COVID-19
118. Proyecto 10 Dibujo de flores con matemáticas en R: Hola y bienvenidos de nuevo. Entonces en esta conferencia vamos
a hablar del proyecto. Y en este proyecto
vamos a una enorme programación matemática
y artística para dibujar algunas flores. Entonces secando flores usando
las matemáticas en nuestra programación. Eso es lo que cualquiera de los dos
objetivos para este proyecto. Todos sabemos que
cuando miras a la naturaleza en todo lo
que crea la naturaleza, puedes encontrar bastón en eso, aunque veas una mariposa
que se ha cerrado, vuelta en Dawn nuestra cuerda
y mira hacia arriba a falso. Entonces la naturaleza tiene mucha creatividad. Y puede ser mucho Baton bajo creadores en las flores, en los árboles, incluso en humanos. Entonces somos,
todos somos humanos tenemos las mismas
características como ojos, nariz, boca, aquí, manos, piernas. Pero cada persona
se ve diferente. ¿Verdad? Aparte de los gemelos. Incluso los de la Reina tienen
algunos CSS diferentes. Y ese es el poder de la naturaleza. Entonces, qué haremos
en esta conferencia, en este proyecto, trataremos de
dibujar algunas porras,
que irán más allá Entonces intentaremos dibujar
un patrón de flores. Haces matemáticas
usando nuestra programación. Entonces comencemos. Entonces la recarga para ver aquí, el mandato va
a tratar de entender todas
esas cosas, ¿de acuerdo? El punto son los patrones en la naturaleza, son demasiados ejemplos
de hechos naturales y porras que se pueden describir
en términos matemáticos Bonitos ejemplos o
digamos Bob copos de nieve, la geometría fractal de la escuela,
brócoli, o cómo En el crecimiento de parcelas. Odd es una herramienta para hacer análisis
serios, pero no todo en
la vida lo es. Como sabemos. La vida también es divertida y el arte
se puede utilizar para divertirse y
hacer cosas bellas. Podemos hacer muchas
cosas creativas también, Eugene, son, Eso es lo que hace el objetivo
de este proyecto. Troy, estamos haciendo este proyecto, esta actividad, Newton, arte
y matemáticas en esta clase. Por lo que su poder gráfico
se puede utilizar para proporcionar imágenes
artísticas. Como veremos cómo podemos dibujar todas esas ilustraciones
que veremos cuando dibujemos,
cuando ejecutemos el código, que se inspira en cómo
las plantas son hojas muertas. Este hecho, se llama
filotóxico y lo resolveremos como
base para este proyecto ¿Bien? Entonces usaremos la gráfica
GG dos paquetes. Como es habitual para toda la existencia de
vigilia en el arte, en su mayoría
utilizamos la
trama GG para empaquetar Entonces aquí también usamos parcela
GG para empaquetar. Y además de
divertirnos, aprenderemos muchas características
importantes de la misma. Y eso será útil
no sólo para hacer arte, sino también para los actuales datos
y problemas de la vida real. Así que no demoremos
más problemas. No nos demoremos más. Empecemos
cargando la biblioteca. Entonces la primera pieza de código aquí, estoy usando el cuaderno AAD Entonces el beneficio de usar
nuestro cuaderno son los datos. Podemos escribir un trozo de código solo presionar Alt Control. Control, Alt, Control Alt I. Cuando pones, puedes escribir código dentro de esta sección, bien, Así puedes escribir las
explicaciones y luego puedes escribir tu código
como lo hacemos ahora. Google Colab. Para que esa cosa que podamos
hacer en el adulto, por lo que hay que ir al
Archivo, Nuevo y cenar. Estábamos creando nuestro script vez en cuando
puedes comenzar a rastrear. Por lo que te animo
a que escribas el código
tú mismo siguiendo la conferencia, porque eso te dará
la experiencia práctica Si solo descargas el
archivo y solo lo ejecutas, no
obtendrás mucho
beneficio de la conferencia. ¿Bien? Así que voy a sugerir
empezar a escribir, ¿de acuerdo? No estoy escribiendo aquí. Ya lo escribí. Porque si empiezo a escribir
todas estas sintaxis, me llevará mucho tiempo Y eso no va a ser beneficioso porque
llevará horas de tiempo. Si empiezo a escribir y
explicar las cosas. Para ahorrar nuestro tiempo para
el propósito de aprendizaje, quiero hacerlo en
y te lo explicaré. ¿Bien? Entonces lo primero es que
descargaremos la biblioteca de parcelas GG Y aquí vamos a decir
las imágenes de la trama a un gusto agradable para que pueda funcionar
y a la trama de puntos brillantes, punto, ancho y alto
serán cuatro. ¿Bien? Y luego recargar.
Así que vamos a ejecutar esto. Entonces aquí puedes ver las
dos opciones, tres opciones. Uno es el fragmento modificado opsin, el siguiente se ejecuta
todos los trozos arriba Por encima de estos están todos los
términos serán R1, R2. Puedes ver esta opción aquí que es un trozo de corriente aleatorio Entonces usaremos esta basura de
ejecución por ahora. Bien, entonces vamos a ejecutar esto. Así que ahora hecho, así que se ha cargado
la biblioteca de parcelas GG. Lo siguiente es que el paso
número dos para este proyecto es regar y secar
puntos en un círculo. Entonces en esta actividad, lo que vamos a hacer, intentaremos dibujar
los puntos del círculo. Dibuja los puntos alrededor
del círculo, ¿de acuerdo? Por lo que míticamente intentará dibujar un círculo aquí con
la ayuda de puntos Entonces, hay muchas formas de
representar datos en gráfica
GG dos para
una gráfica de dispersión simple, a otras más complejas, como las parcelas de violín. Las funciones que
comienzan con el
guión bajo geom definen cómo
la parcela es piedra Así se definió el guión bajo geom, estaremos mostrando cómo será
pronto la trama En este cuaderno, solo queremos trabajar con el punto de
subrayado geom, que warp traza puntos
en Solo necesitamos un conjunto de datos
con dos variables. Llamémoslos x e y. Entonces necesitamos dos variables, x e y para el eje x y el eje y. Ahora, quiero dibujar dos
puntos en un círculo de radio, uno en cada punto x e y. En cada punto x e y. B en el círculo unitario, se deduce que x al cuadrado más
y al cuadrado es igual a uno Podemos conseguirlo usando la súper famosa identidad
trigonométrica pitagórica,
que es que Theta sinusoidal cuadrada más cos al cuadrado
Theta es igual a uno para cualquier real cero Entonces estas son las
matemáticas básicas que ya conocemos. Bien, entonces déjame
abrir este código. Entonces aquí lo que estoy haciendo, estoy creando una
secuencia de números. Secuencia de números.
Entonces para esto, usaré t como variable
para almacenar estos puntos. Y voy a poner, usa la
función de secuencia para generar. Y voy a empezar con 0.2 en
longitud será, será 52. Se generará el punto total. Aquí. X para el punto x
son el punto del eje x. Voy a usar sine t. seno de t. En realidad estos
serán los ángulos, ¿de acuerdo? Entonces D es el ángulo que esta
secuencia regenera aunque. Los ángulos que utilizamos para encontrar nuestra x e y x es
seno Theta y cos Theta Entonces aquí sine t y luego y o y, usaremos el costo, ¿de acuerdo? Entonces tú que un DataFrame, data.frame B será
el ángulo y luego x, y x coma
y, x será seno de t e y
será el seno cos de t,
seno de t cos data.frame B será
el ángulo y luego x, y x coma
y,
x será seno de t e y
será el seno cos de t,
seno de t cos arriba. Después con estos dos puntos, se intentará hacer una gráfica de dispersión
usando gráfica GG para graficar GG dos. Ese es este, este DataFrame, el DataFrame que Y luego usaré la función
estética a la estética en la trama. Los puntos x coma y
Entonces usaré el punto
p plus geom. Entonces usaré el punto
p plus geom Por lo que los dibujará bloqueados. Bien, entonces vamos a ejecutar
esto y ver, ver, y ahora nos están
trazando en un círculo,
bien, puntos trazados
en un Lo siguiente es hacerlo armonioso. Bien, vamos a desocultar el código. Hazlo armonioso
con Colin Angle. Entonces rubias añadiendo las
hojas en esta espiral. Si nos fijamos en el, cualquier planta
deja, será suficiente. Forma final, probé
I médula espinal, que parte del origen y se aleja de su punto. Entonces, cuando miras una espiral, empezará con
un punto en particular y irá así. ¿Bien? Entonces va a ir
así para empezar a formular punto y luego
irá así. ¿Bien? Vamos a
vigorizar, Entonces parte desde el origen, se aleja de este punto, adjunto gira en torno a En la parcela. Por encima, todos
nuestros puntos son los mismos. Distancia del origen. O manera sencilla de organizarlos
en espiral es multiplicar x e y por un factor que la rutina
alcanza cada punto. Podríamos usar el Azure
AD ese factor en él, podría usar Azure ya que ese vector en él
cumple con esta condición. Pero vamos a hacer
algo más armonioso, usaremos el ángulo dorado. Dorado, ¿cuál es la
fórmula para el ángulo dorado? Es phi en tres
menos bajo raíz cinco. Y este número se
inspira en la proporción áurea. Uno de los números más famosos la historia de las matemáticas. Tanto la proporción áurea como el ángulo
Gordon aparecieron en lugares inesperados de la naturaleza, aparte de flores, pétalos y hojas de plantas, los
encontrarás en. Cabezales de semillas, se unen oro, semillas de
girasol, ventas, galaxias
espirales,
huracanes, etcétera Bien, entonces es momento de
que se finalicen. Bien, entonces veamos el código. Aquí. Vamos a definir el
número de puntos que se mezclan. Definiremos como un pastel en tres menos raíz cuadrada de cinco. Y entonces seremos,
seremos los de viento en ira multiplicaremos
el ángulo en los 0.500 puntos y luego exponente será el seno
de t e y será
el costo de T. Y luego usaremos el DataFrame para crear un DataFrame Y luego haremos la gráfica de
dispersión usando la gráfica GG. Y agregaremos el punto geom. Bien, vamos a ejecutar
esto, la salida. Ahora puedes ver cómo hemos creado una espiral
usando el cada punto. Lo siguiente es, vamos a eliminar
todo lo innecesario. Aparte de los datos, aplaudir incluye muchos otros
componentes que sí Esta trama contiene un amigo de
fondo con una cuadrícula de color gris de líneas
horizontales y verticales en el fondo. Trucos a lo largo del eje, título en el eje x, el extra a lo largo del
eje y niveles Entonces todas estas cosas
que vamos a hacer ejecutando este código
definirán el DataFrame Estoy pasando por alto este lado, la x y y a la función
DataFrame y hacer que los
puntos del diagrama de dispersión en su Entonces la trama RDD. Y llamaremos a esto 100 A-frame. Y luego valores estéticos, x en boo, perdón, x en d, y en d. ¿Bien? Y luego
asignaremos este punto. Y luego usaremos las fuentes del
equipo aquí y dentro del tema grupo
funcional panel punto grid element fonts. Y aquí y dentro de la consola, elementos de la cuadrícula de puntos
del panel
subrayan en blanco, xis dot txt
subrayado en blanco
y el elemento
título subrayado y el elemento
título En realidad no van grand
cow puede preparar patio de recreo. Fondo sólido
será el panel. Ese elemento de fondo y subrayado destrozaron y se
sienten realmente enormes, blancos Entonces volteemos y
veamos la salida. Esto es lo que estamos recibiendo. Si podemos este blanco también. Veamos qué está pasando. ¿Bien? Ahora el
fondo está en rojo. Entonces con esto podemos
crear antecedentes. Y si ejecuto esto, el fondo
sería el público. ¿Bien? Entonces tenía limpio. Entonces mira ahora cómo apunta
esta espiral y
luciendo como un patrón. ¿Bien? Lo siguiente un poco arriba, Maquillaje. El maquillaje intentará decorarlo. Sij el color y la transparencia se están secando empieza a
parecer una planta, pero no podemos hacerlo mucho mejor cambiando la transparencia
del color, también llamada transparencia alfa, más oscuro El tamaño Alpha de la imagen se volverá
más atractivo Entonces veamos el código. Aquí. Una nueva gráfica GG, Wong Sun y los datos obtienen entalpía y entropía
x Y luego Dionne punto
de Central US y tamaño le dará un color dado, verde
oscuro y tema
y el tema, lo que tenemos en el bloque
anterior Así que vamos a ejecutar esto y
ver hoy en día columna, si lo hago soporta gris. Y mira como los fondos y el mar serpentea repentinamente verde pero el fondo
se vuelve gris. Lo siguiente es jugar
con la estética. Que Dalian hasta ahora, todos los puntos del tema
de tus percepciones, color, forma y alfa A veces desea hacer que la
variable dependiente del punto central en su conjunto de datos. Ahora haremos que el tamaño sea variable. También vamos a cambiar
el tema de los puntos, aunque no vamos a
poder soplarlo, no
creen que inversionista te esté
recordando
lo que Dan Dalian Entonces déjame mostrarte el núcleo al bloque d geom punto en
el tiempo con
función estética lados es igual a, será la t alfa 0.5, di por mí para ocho
y columna te estoy dando un fondo negro
donde estoy dando blanco Vamos a ejecutar esto. Ahora. Esto viene así. ¿Bien? Entonces si cambio la
CFE o apoyo al mar, pero el punto en el que no
puede ser así, ¿bien? Así que lo que quieras, puedes poner la caja fuerte aquí y se creará
en esa cinta, ¿de acuerdo? En esa cinta, bien. Ahora vamos a juntar todo
lo que hemos hecho hasta ahora e intentaremos crear esa trama. Entonces la primera línea es lo mismo. Entonces viento aquí, el
tamaño estético es igual a 4.5. Y sip reality region 17, y el documento camisón de color verde o azul Bien, a ver. Desplegar código. Limpio. Y mira esto
se ve bien. Este manómetro oscuro,
fondo magenta. Lo siguiente. ¿Y si modificamos el ángulo? Entonces veamos si modificamos
el ángulo, ¿qué pasará? Los patrones de drenaje son muy centrales
al ángulo entre los puntos
que se encuentran en la columna vertebral. Pequeños cambios en el ángulo que
puede generar muy difícil a la religión digamos 1,704.5 y ángulo nos
dan dos puntos, vamos periodos Entonces veamos ahora qué aspecto
hermoso. A partir de aquí, hemos llegado
a esta realización. Lo siguiente es del todo. Ahora. Y ahora vamos a crear las técnicas imaginarias de flores que has visto token te permite crear en número finito de patrón inspirado en la naturaleza
que el único límite es tu patrón
inspirado en la naturaleza que el único límite
es tu imaginación Pero hacer arte también ha sido una excusa divertida para aprender
a hacer trama GG, ¿verdad? Hemos aprendido tantas cosas. Y esto es bastante interesante. Espero que a todos les guste el
proyecto. Y esta conferencia. Todos los textos que hemos
visto en un largo año para trazar los datos reales también Entonces, vamos a encontrar esta
imagen a la izquierda. Algo rojo, es ilegible
de flor anterior, se ve algo muy parecido
a los dos primeros que, volvamos a esto, veamos
lo bonito que se ve este
patrón Entonces a partir de aquí, cómo
hemos llegado al poniente, hemos empezado con
el viento circular, entonces lo hemos hecho poco
usando el ángulo dorado. Entonces nos han dado
el color de fondo, después hemos comprado
últimamente color, tamaño y transparencia,
y luego el SIP. Y luego esto, y
luego finalmente hemos llegado a esto y a este hermoso patrón de
flores que
hemos dibujado aquí. Si cambio el
estado para hacer eso, para ver qué va a pasar. Ver esto es base triangular. Enseñar una columna. Esto predice D venir
como algún otro patrón. Ven a finales de verano, el baño. Bien. Pongo un 17. Viene así. Bien. Entonces yo también lo lograré. Entonces. El uno es el gordo más hermoso
hecho que hemos creado. Así también puedes jugar
con diferentes, ver, diferentes ángulos Alfa,
diferentes tamaños, diferentes
combinaciones de colores, e
intentar crear tu propio patrón de
flores. Flor usando
matemáticas y caliente. Espero que les guste
este divertido proyecto. Y también estás haciendo
el proyecto y sube tu Florida en
el juez de Florida, en la sección
de proyectos de esta clase. Y todos podemos ver
119. Análisis y visualización de ganadores del Premio Nobel con R: Hola y bienvenidos de nuevo. En esta conferencia
vamos a hacer y otra esencia de Análisis y
Visualización Y esto también es
una especie de proyecto. Y en esto, lo
que voy a hacer, voy a analizar los datos
de los ganadores del Premio Nobel. Así que nuestros
ganadores del Premio Nobel cada año. Alguien obtendrá el Premio Nobel
en una categoría en particular. Qué categoría está
relacionada con la Ciencia del Arte, el trabajo
social en esas
cosas, ¿verdad? Entonces vamos a tratar de analizar en un amargo diferente
y vamos a resolver También visualizaremos los datos. Entonces, algunas cosas tengo Nika analizada y te voy a mostrar como
puedes hacer eso Entonces la mayoría de los premios Nobel, y luego enfocaremos
el Premio Nobel. Estos son los criterios
que discutiremos. Entonces. Ahora, veremos cómo se está
desempeñando y cómo o cuántos premios Nobel USS
obtuve dominan el escenario del Premio
Nobel. Entonces visualizaremos
el dominio de Estados Unidos. Entonces veremos el daño y
las mujeres y los hombres están
recibiendo el Premio Nobel. Y luego veremos quién es la primera mujer en
ganar el Premio Nobel. Entonces todas estas cosas y
muchas más están ahí que vamos a tratar de hacer eso. Pobres, procedemos. Déjame llevarte
a través del conjunto de datos. Entonces estamos usando este archivo
Nobel dot CSV, que es tener el oído en el que se ha entregado el
Premio Nobel. Las categorías,
diferentes categorías
en las que se le
ha dado el nombre del precio al Premio Nobel, el mismo Premio Nobel. Entonces el viernes será el Premio
Nobel de Química, Premio
Nobel de Literatura
en Fisiología. Todas esas cosas. Bien, entonces ese es el nombre. La categoría será química. Rachel Madison Police
predice todas esas cosas. Bien, entonces hay diferentes
categorías en las que dan el Premio
Nobel, ¿de acuerdo? Y luego la motivación, ¿cuál es la motivación detrás? Están dando el Premio Nobel a esa
porción en particular y el precio son uno por uno
o uno por dos de cadera, hay más de
una gente recibiendo el
Premio Nobel en el mismo Gashes está en algún lugar uno por dos. Serán dos personas. Ahí. Eran dos personas de
la misma categoría cada una. Por lo que el Premio Nobel se
dividirá a mitad y mitad. ¿Bien? Entonces esa es la bandeja uno por dos. Entonces en algún lugar
se puede ver uno por cuatro. Bien, entonces este es
el precio ahí. Entonces, cuántas personas son atrapadas en la misma categoría,
mismo precio. Entonces Laura ordenada,
todos los que recibieron el Premio Nobel obtendrán, les asignará
mucho de él. Y luego el tipo de lotería, será individual
u organización. Será si hizo
organización obteniendo todo pastel, será organización. Y si es porción individual, será individual. Entonces básicamente hay
dos tipos de personas que obtienen un individuo
y una organización. Entonces nombre completo de la
porción de la organización, mientras que obtener el
Premio Nobel que el Bar hoy precio que el bar hasta la fecha. Después la Ciudad de esa porción
en particular, el país de nacimiento,
y luego el sexo,
masculino, femenino o lo que sea. Y luego el nombre de la organización. It, get Parson lavada o venta es el nombre de la organización que
es. Lo apagaste. Madison excel,
arreglado agradable y nombra y organiza y Ciudad
de majestuoso país. Esa fecha en que esa persona venció y esa
ciudad y país. Entonces todas estas columnas están ahí en este novedoso archivo CSV punto. Vamos a analizar. Bien, así que comencemos. Entonces déjame contarte
cosas de frutas sobre el Premio Nobel. Entonces los premios Nobel, pero tienen el galardón científico más
conocido del mundo, salvo por el honor, prestigio, y el
sustancial dinero del premio. El destinatario en Under 33 al 896 que estableció el precio
de las acciones. Todos los años. Se entrega a los
científicos y académicos de las
categorías química, literatura, física,
fisiología o medicina, economía y paz Esta es la categoría
en la que se
entregará el Premio Nobel y se otorgará
desde las últimas décadas. El cargo Premio Nobel fue
entregado en mil 901. Por lo que el Premio Nobel se
inició en mil 901. Y en ese momento el Premio era realmente eurocéntrico
y enfoque masculino, pero hoy en día no está sesgado
de ninguna manera. Entonces esta es la historia
detrás del Premio Nobel. Y ahora vamos a averiguar la Fundación Premio Nobel tiene un conjunto de datos disponible
para todos los ganadores de premios. Entonces ese es el conjunto de datos Nobel disponible para todos los ganadores de premios. Entonces ese es el Nobel
notch CSP, 1901-2016. Entonces, primero, tenemos que
cargar el conjunto de datos. Entonces el nombre del conjunto de datos es novedoso o CSP. Entonces usaremos leer
subrayado CSP y leeremos esto y luego vamos a
venir la cabeza pasará Estos son conjunto de datos para la función de cabeza de fuentes
novedosas. Y veremos cuántos,
qué, cómo se ven esos datos. Para ello, vamos a
la biblioteca de versos ordenados, así que notaremos esa biblioteca también. Cuando ejecutamos esto, podemos
obtener el conjunto de datos de clips up. Así que nos vemos en absoluto. Ya hemos visto en
el archivo CSV aquí, precio de
categoría, y
luego columna de motivación. Entonces el precio aquí, Laura ordenada Laura tipo, FullName,
primogénito , pero fecha, pero
ciudad, ¿qué países? Organización sexual. Entonces toda esta información
está ahí dentro. Entonces después de cargar, podemos acceder a esta información
a través de nuestro también. Lo siguiente, lo que hagamos va a
encontrar quien se haga todo rezar. solo mirar a la
primera pareja de premiados
reforzados
sobre los premios Nobel, como el también llamado, ya
vemos que una
celebridad tendrá Conrad Rontgen Y en realidad
vemos que todos murieron. Todos los Ganadores
De en nitrógeno donde chicos que
vinieron de Europa, desde que se inició en Europa. Entonces todo el sudor amino, que de la, de EU, pero eso fue de vuelta en 1,901 Mirando todos los ganadores, el conjunto de datos 1,901 a 1966 y los países ricos los
más comúnmente representados Eso es lo que
vamos a terminar. El país del ganador
como país pequeño no
es aplicable para todos los precios
establecidos en nosotros. ¿Bien? Por lo que contar el número de premios
Nobel entregados 1901-2016 será bastante fácil Usaremos el
conjunto de datos Nobel y usaremos el operador de tubería y contaremos utilizará
la función de conteo. ¿Bien? Y luego contando
el número de precios, uno por los receptores masculinos y
femeninos. Entonces usaremos novela y luego contaremos en base a esos
seis nos dará el conteo de sexo para hombres y mujeres por separado
se dará luego contando el número
de premios propiedad diferentes
nacionalidades están aquí contabilizará sobre el
ayudante comprado país Y luego agregaremos los lesionados
por orden descendente. Y ya veremos el
primer término T. Bien, así que vamos a ejecutar esto. Ver el país. Estados Unidos a la gente nueve, Reino Unido, 85, Francia, Alemania, como T1, Francia
para P13, que 29 Y este país
no es un 26 especificado, Japan Grundy para Canadá en, en la lente suele ser 17 Y entonces podemos ver aquí la proporción
masculina y femenina. Así que uno levanta 49 hembra
hasta ahora, hasta 2,016.8. 39 pudo haber ganado el Premio Nobel y
26, se desconoce el género. ¿Bien? Lo siguiente es, se puede ver que un número total de 911 personas obtuvieron el Premio Nobel. En que se 36, el varón y el 49 o el femenino, y 2067 o dio a conocer su sexo Bien. Nosotros al precio, quizás el más
común ahora alerta. Haces 1,901 a dos veces 15 era un hombre nacido en
Estados Unidos de América Pero en general, en uno se ríe donde el
pan europeo hizo que Estados Unidos arranca. Entonces, antes cuando
empezamos el Premio Nobel, todos los ganadores
eran de Europa, pero poco a poco, dices que
América se hizo cargo. Dominaron las listas del Premio
Nobel. Entonces vamos a ver. Entonces aquí calcularemos
la proporción de ganadores de US One por década. Hasta el momento eso va a crear este apuntalamiento subrayado,
subrayado con nosotros Y vamos a utilizar el conjunto de datos Nobel, incluso el operador de tubería
y va a mutar EE.UU. nacido ganador es
igual al país de nacimiento Y aquí vamos a orgullo
anticonceptivo como
Estados Unidos de América. Y usarán er dividido
por diez en cien. Y usaremos la celda encogida del
piso. Entonces asistiendo a 200 y usaremos el grupo funcional de piso por década usaremos para obtener
el, luego resumiremos Proporción igual a la
media del bono estadounidense no lo hará. Y un dato que igual a verdadero. Así que vamos a ejecutar esto. Ve tu en 19091900, proporción de nosotros decimos ganar es 0.07 en 19 y luego
ha 1920, 0.70, 741,932.25%
Datos y 40.32 , 92.299, 290.14 más odontólogos. Y en total frente
4321 EGN, enseñas 1030. Ahora. Y luego
usaremos la trama GG para trazar la proporción
que nos estaban salvando. Y para ello, usaremos el diafragma y
lo pasaremos al DD Plot y estética
para revisión estética, eje x no morirá década y el
eje y denotará la
proporción entre mujeres Y perdemos la función de subrayado geom de
nueve líneas
para dibujar los Los humanos podrían señalar
para dibujar los puntos. subrayado de escala a través de niveles
continuos es igual a Escalas Columna, límite
porcentual de columna X1, X1 cero, menor que esto. Y mira aquí, ahora
puedes ver una partícula. Cómo va. A continuación, ¿cuál es el género
del típico Premio Nobel? A continuación, ¿cuál es el género del típico ganador del Premio Nobel? Para ello, lo que haremos, calcularemos
la proporción de mujeres premiadas
por producto de década Usamos un prop en descoping
y subrayado ganador variable aquí
y conjunto
de datos Nobel Y usaremos la función
mutar. Ganadora de subrayado femenino. Llamas a dos sexos
iguales a femenino. Y tome la palabra se
dividirá por diez en diez. Y cerraremos el
operador de tuberías y luego subiremos por década y categoría
y resumiremos Al pasar la
proporción es igual a la media premier ganadora
y los datos de dos. Y luego vamos a trazar
esta proporción Freeman lauric predijo
para esto pasará esto D, D gota subrayado. subrayado no
hará la trama fácil a partir de alguna estética utilizará X,
X al cuadrado Y. X es cuatro. Número de ganadores y Color será la categoría en
función de la categoría. Así que vamos a ejecutar esto y ver. Entonces ahora puedes ver
aquí en el eje x, los gatos han sido trazados
y en el eje y, la
química, la economía, o la
categoría la ha sido Y ahora ya veremos
cuántos otros repiten o Ganadores hasta el momento eso,
déjenme mostrarles eso. Aquí usaremos la
novela sobre Data Frame. Y lo hace y
usaremos count igual a fullname y filter Si N es mayor que uno, número
par de ocurrencias
más de una, entonces contaremos, contaremos. Entiende esto. Hay al menos
seis personas que obtuvieron el Premio Nobel a más de dos o dos o dos
o más de dos veces. Entonces bien. Maddie consulta el tiempo y Lena
se ha ido el polen dos veces. Comité de derecho
internacional, comunidad internacional de Cruz
Roja, o tres veces. Ahora cuántos años tienes cuando obtienes el Premio Nobel y el lift up repiten Ganadores contenidos
en algunas ilustraciones,
nombre, volvemos a encontrarnos con Marty consulta Madame Curie, quien obtuvo el Premio Nobel de
Física por descubrir la
radiación y la química para aislar medio y aislar medio John consiguió dos veces en la nevera los transistores de exportación y superconductividad.
Frederick Sanger. Sanger lo consiguió dos veces
en la química. Linus Pauling lo consiguió primero en química y pieza de
rotulación por cada obra
en la promoción de esta prenda, este hombre y
este
momento actual Y también aprendemos esa
organización que también Los precios son subordinados cruzados y aún no lo has
conseguido precio Entonces déjame mostrarte. Utilice el lubricar. Lubricar. Lo sentimos, no lubricar es el paquete Lubridate aquí Y aquí estamos calculando la E tuvo los ganadores del
Premio Nobel. Así novedoso y luego mutar
es igual a menos era. Pero y luego
trazaremos el análisis este DataFrame y estética
usaremos Export As
y usaremos Export As
y Y con el punto
geom gota de mano y los geometros, pequeño incluso trazar esta lección que estamos recibiendo Lo siguiente es una diferencia
entre las categorías de precios. Así que la trama alguna vez vio eso mucho. Vemos que la gente
que solía estar alrededor de cuatro a cinco días
donde se sientan erguidos. Hoy en día el promedio
está claro a 65, pero hay gran difusión
en los cines en
los más apropiados
más alguien muy joven Y también se ve que en
entonces City nombra es mucho alto hoy en día que a principios de los 90 hoy en
día, muchos altos hoy en
día que a principios de los 90 hoy en día, se fijan
muchos más precios, por lo que hay muchos más Ganadores También vemos que la disrupción en nuestro
precio alrededor del segundo lavado, Segunda Guerra Mundial 1939 a 1943. La novela Nobel subrayan
edad y estética X, Y. Y volvamos a esto Vea cómo diferente categoría, cómo afectan las edades a la
química, la economía, el derecho. Tratan niño puede
recibir fondos, cuotas y predice, medicina, paz y predice o menos
que y ganador más joven Por lo que tratamos de encontrar que
el hoyo era el más viejo y mientras que el
más joven. Así que vamos aquí hemos utilizado la oficina
como categoría por categoría precio
abdominal. Entonces se puede ver el para la química y esto
es para la economía, para la literatura, para la
medicina y la física. Entonces son menores que Angular's a cualquiera de las parcelas con muchas
ciclinas están pasando Vemos que la
enfermería, la química
y la medicina de Boltzmann han
envejecido con La tendencia es más fuerte
mientras que predice que la diabetes es tuya para ser 50 Y ahora la literatura y la
economía o más así Tabla. Y también vemos que la
economía en la categoría más nueva, pero con base en un proyecto diez enfermeras veteranas
son cada vez más jóvenes. La categoría obesos, nosotros también esta categoría tampoco
estuvimos alrededor del 2010, eso parecía que ejerce
su casi joven Esto plantea la pregunta alrededor de
las dos y luego esa misma,
excepto joven maloliente, esto plantea la pregunta, ¿Quiénes son los o menos que los
más jóvenes jamás Entonces para esto, usaremos la variable de
edad de subrayado novedoso pero en la
parte superior el subrayado N dará
uno y luego lo hará Y luego para el subrayado superior
N1, de manera descendente. Bien, así que vamos a ejecutar esto. Nos vemos. En la categoría
pieza 2014. Se le dio el Premio
Nobel al Premio Nobel se le dio a usted. Entonces Malala. Malala es dos J y C tenían apenas
17 años cuando le dieron a ver
apenas siete. Supresión de niños
y jóvenes por el derecho de todos los
niños a la educación. Y CSIA, el precio
con ellos, uno. Vea cómo Partición de Datos Julio de
1997 y la edad era de 17 años. Entonces C es el más joven, y aquí está o lista1 en
total y siete economía El Premio Caja de Ahorros en Economía firma en total siete por haber sentado las bases
sobre el mecanismo, que en teoría, y dijo los otros tres grupos
a otras personas. Y su nombre era Leonardo
cosecha y él era el todo Premio Nobel por ahora. Y a los 90 años obtuvo Premio Nobel
Dahmer y
era de América Y Malala Yousafzai
era de Pakistán. De esta manera no nos ha gustado
ni menos que de Pakistán. Así que de esta manera
no nos ha gustado ni
menos que el ganador del
Premio Nobel más joven. Puedes ofrecer ganador del
Premio Nobel. Puedes encontrar algunos puntos más
y puedes analizarlos. Espero que llegues a entender cómo podemos visualizar y más tarde. Posteriormente. Gracias.
120. Proyecto 12: cómo encontrar fuerza para la espada con R: Hola y bienvenidos de nuevo. En esta conferencia,
vamos a hacer otro proyecto en el que vamos a encontrar la Fuerza de
Contraseña usando impar. Entonces como sabemos, bastante popular
proyecto de lenguaje de
programación y esto es un extraño. A veces necesitamos tomar también
la Fortaleza de la Contraseña. En ese caso, puedes
utilizar este ejercicio. Entonces veamos. Por lo que en este proyecto, pasaremos por los papeles de la publicación especial
863 del
NIST que se alcance Lo que patea al verificador
secundario
que se
encarga de almacenar y bien bebió Contraseña lote
conocido como grasa corporal aquí Se realiza para asegurarse de que simplemente no escojas
una contraseña mala. Pasaremos por las
contraseñas de los usuarios. Lo que se arregla un
poco de compañía y usa nuestro para marcar que
solo tienes mala contraseña. Pero como poder
hacer esto ya significa que la compañía de señal fija rueda
de 800. Yo consistentemente. Pero si agrego
tienda celular memorizada, sagrada en forma, eso es
diez a los ataques Offline Memorizar la Christelle
se inició y tuvo usando la función de derivación de
tecla de una vía de tabla Esto nunca es guardarte solo
contraseña en textos sin formato, siempre encriptar las contraseñas Teniendo esto en cuenta
para la próxima vez estamos dispuestos Sistema de
Gestión de Contraseñas. Carguemos esos datos. La lista de Contraseña y la base de datos
fija o limitada. Tanto el contenido, el
enlace de contraseña real de la página web real. Esta Contraseña no ha sido
filtrada de ninguna manera y no en CloudWatch datos de
exfiltración de datos Work Europe Y así esto es sólo por querer. Bien, entonces carguemos
el archivo CSV aquí. Aquí vamos a usar la biblioteca
ordenada de versos. Así que déjame, bien. Entonces primero, cargaremos
la biblioteca, la biblioteca, y luego necesitamos leer el archivo CSV donde se han almacenado todos los datos de tu
solo. Te estamos usando
solo inicia el archivo CSV. Sí. Y
te estamos almacenando simplemente valioso. Contando cuántos
acabas de recibir rehabilitación a partir de ahora usaremos la función Endriw
y te pasaremos eso Y luego imprimiremos
la primera preimpresión. Veamos los datos. Entonces este es el año ID,
nombre de usuario y contraseña. Entonces esta es la base de datos de archivos
cosa que contiene el
ID de usuario, nombre de usuario y contraseña. ¿Bien? Entonces hay 982 Raj, bien, sin editar dos
filas o la S. Entonces ahora vamos a comprobar que la
contraseña no debería ser. Para resolver. Esa es una regla. Entonces, si echamos un vistazo a
los primeros usuarios de preimpresión, ya
vemos estable
alguna contraseña mala Esta contraseña es mala, esta contraseña es mala. Esta contraseña también está de vuelta. Casi todos los Password en
estos roles son malos, ¿verdad? Pero no nos
adelantemos. Puede comenzar a marcar
Contraseña manualmente. ¿Qué es lo primero que
ordenamos verificar de acuerdo con la publicación especial del NIST, 800 C3b, cuando tu primera
celda solicita llorar Suzanne, memoriza secreto para tener al menos ocho
caracteres Bien, entonces la contraseña de
los usuarios no debería ser para ordenar. Entonces comencemos comprobando eso. Entonces, lo que haremos, comprobaremos la longitud de
la Contraseña. Lo primero. Entonces para eso, lo que voy a hacer, voy a crear una longitud enorme, una variable, y aquí
usaré la longitud del subrayado STR Consulta la longitud de la contraseña aquí. Revisaré la parte de
longitud que
solo vas al útero y Dataset y la contraseña y comprobaré cuál es la
longitud de la Contraseña. Bien. Bien. Entonces y que
Alice dijo en el, solo
prestas y
luego voy a crear otra variable que
solo para ordenar, para ordenar. Él lo puso a ordenar cuando
es para comenzar cuando el usted acaba de longitud esta longitud. La longitud que calculamos
a partir del campo Contraseña. Si eso es menos de ocho, marcaremos esto
como para ordenar, ¿de acuerdo? Y luego imprimiremos
la suma hasta la fuente. ¿Cuántos hay? Lo resumirá e imprimirá. Bien, entonces vamos a ejecutar esto. Así que nos vemos, hay 376 Password en esta
base de datos, este Dataset, que está teniendo que ordenar menos de ocho caracteres
y ver que haces ordenar false. Se trata de más de ocho
caracteres, 3368. Esto también, esto es cierto. Entonces se trata de siete
caracteres, seis caracteres. Entonces esos Password WeChat de
menos de ocho caracteres, se marcan tratan como
una herramienta para ordenar por L2 Bien, entonces ahora tenemos la manera más
pounder de marcar la contraseña podemos tener
menos de ocho caracteres La siguiente comprobación son las contraseñas comunes. La gente enorme apoya esto. Vamos a usar la lista de
10 millones de contraseñas Bien, Así que comprobaremos con esta lista si la contraseña
es de esta lista o no. Bien. Entonces ya
esta regla de muestra, pareja
plana de delincuentes entre
los 12 primeros días de publicación
especial al día siguiente, se trata de un SSD tres V's el papel
que cuando se dispara vender, comparar los posibles
secretos contra la lista que contenidos de Valores conocidos por
ser de uso común, contraseña
esperada o comprometida por adelantado de
los cadáveres de incumplimiento anteriores Bien. Entonces estas son
la parte deja, la contraseña común que la
gente usa, la filtrada Así que las palabras del diccionario
se repiten en segundos. Vamos a caracteres pueden
acceder a palabras específicas, como nombre del servicio,
nombre de usuario, derivado. Bien, todo esto, piénsalo. Para contraseña común. Vamos a leer las
líneas de este archivo, es
decir 10 millones de contraseñas
lista punto archivo TXT. Y luego veremos la lista de contraseñas
comunes. Bien, así que solo en esa lista. Entonces estos son los comunes
Contraseña como 123456 o alguien podría Contraseña es
igual a Contraseña I Bien, entonces todos estos superman, todos Jada y Jennifer,
Jolly robot. Entonces estas son las contraseñas comunes que la gente usa. Por lo
que vendemos son amplios. Almacenan contraseñas
no deben ser la Contraseña común. ¿Cómo verificamos eso? Por lo que necesitamos marcar todas las
Contraseñas en nuestra base de datos de usuarios que se encuentran entre los
primeros, los inteligentes. Ya usaste Contraseña son
la contraseña común, bien. Para eso, voy a usar, voy a crear una variable llamada
dollar common passwords. Entonces voy a crear un campo llamado contraseña común
en la base de datos del usuario. Y esto será si la contraseña dentro de
esta contraseña común, contraseña está dentro de
esta contraseña común. ¿Bien? Si jet Password está
dentro de la contraseña común, la marcará como
contraseña común y luego veremos
cuántas contraseñas comunes hay. Entonces veamos. Así que ve tus 129 contraseñas en nuestra base de datos o las contraseñas comunes
que la gente ha usado. Ver aquí. Estos son los comunes
Password March Tom Murphy Bien, entonces ahora hemos
encontrado contraseña común. Ahora lo siguiente veremos cómo
podemos tomar eso por
una contraseña o no, porque las contraseñas no son contraseñas
muy comunes, ¿verdad? Hasta el momento que
crearemos una variable peor y leeremos líneas de los 10 mil textos en inglés de
Google. Entonces vale la pena ese corpus de vodka premium de Google
que Google nos ha dado, bien, este archivo, y luego veremos si la gente está usando palabras comunes
en su contraseña. ¿Bien? Entonces usaremos el subrayado STR para bajar la
función, para bajarla. Y luego comprobaremos dentro de esto hacia si
está ahí o no. Y luego vamos a la pestaña de resumen y encontraremos cuántas personas
están usando palabras comunes. Contraseña. Entonces las contraseñas CR1 37 están teniendo
palabras comunes en ellas. Bien. Lo siguiente es Contraseña no se
repetiría a la Predicción. Entonces, ¿cómo comprobarlo? Entonces primero partiremos lo peor. Usaremos la división de
subrayado STR
y dividiremos la
contraseña, bien, y luego seleccionaremos
los
caracteres repetidos operativos máximos que trazan los
caracteres repetidos operativos máximos cada Contraseña Entonces crearé repeticiones de
subrayado máximo. Y voy a usar aplicar la función aquí y voy a pasar esta
lista Contraseña aquí. Y luego función, dividirías subrayado Contraseña
y max es igual a RLE, dividir Y luego encontraremos la longitud. Y si demasiadas repiten, vaya, voy a almacenar en eso
demasiadas repeticiones Si es mayor que, para, mayor o igual a cuatro, igual a Más,
Más o igual a cuatro. Bien, entonces vamos a
enchufarlo. Entonces mira aquí. Repetición máxima a máx., repetir uno, grado máximo 31. Bien, entonces ahora lo que vamos a hacer, voy a poner todos estos juntos. Y fuimos todos los
gustos básicos por mala contraseña. Ahora tenemos mala contraseña. Ahora ya veremos, vamos a armar
todo. Voy a crear una
contraseña mala valiosa y comprobaré si es para ordenar nuestra
contraseña común o palabra común, o demasiadas repeticiones
son demasiadas repeticiones. Muchas repeticiones he
agregado dos veces. ¿Bien? Y si, si alguna de
estas condiciones es cierta, marca que la contraseña
tiene una contraseña mala y luego veremos cuántas contraseñas
malas estamos obteniendo. Entonces veamos, ya ves, ahora estamos viendo esta
mala contraseña y aquí pocas contraseñas
se han marcado como verdaderas Contraseña mala, verdad. Entonces esta co, esta es la normal, esta es la
palabra común, Commonwealth. Por lo que estos se marcan como una
bandera Datos mala contraseña. De esta manera podemos escribir un código para encontrar la contraseña mala o la Fuerza de
Contraseña usando odd
121. Introducción al aprendizaje automático: Hola y bienvenidos de nuevo. En esta conferencia,
vamos a aprender sobre el aprendizaje
automático. Ahora, hemos visto cómo podemos usar nuestra programación para la
visualización de datos y análisis de datos. Ahora, a partir de ahora, aprenderemos sobre el aprendizaje
automático. Empezaremos con los conceptos básicos
del aprendizaje automático. Veremos cómo funciona el
aprendizaje automático. ¿Cuáles son los tipos
de aprendizaje automático, cuáles son las aplicaciones
del aprendizaje automático? Bien, entonces veremos cuáles son
los procesos de hacer
machine learning, cómo aplicamos algoritmos, cómo creamos, modelamos,
cómo evaluamos. Bien, comencemos con una introducción
al aprendizaje automático, desbloqueando el poder de los datos Empecemos con la definición de
aprendizaje automático. Utilizando el mundo impulsado por datos, las máquinas están desempeñando un papel
cada vez mayor para dar sentido a la gran cantidad de información a nuestra disposición. Como saben, en
esta era digital, estamos obteniendo datos,
giros de datos cada segundo, giros de datos cada segundo, ya
sea en la industria de la aviación, ya
sea en las
redes sociales en todas partes, en los negocios,
en el comercio electrónico, en el aprendizaje,
en la farmacia, en el
campo médico, en todas partes. Cada segundo estamos
obteniendo una gran cantidad de datos. Esos datos no son los datos
normales que usabas para almacenar en tablas Adim, sino que son los big data No están en un formato
muy estático. Están en un formato muy
dinámico. Serán imágenes,
serán imágenes. Todas esas cosas, estos datos
dinámicos de datos son muy difíciles con
una forma tradicional. El aprendizaje automático es un subconjunto de la inteligencia
artificial que ha surgido como una fuerza transitiva, empoderando a las computadoras para
aprender y adaptarse a partir de datos, para realizar tareas sin programación
explícita Ahora, ya que tenemos muchos
datos en nuestra dispersión, si no podemos obtener
información de los datos, sirve de nada si está
recibiendo miles de comentarios del cliente o consumidor o nuestro usuario final Y si no estás
trabajando en eso, si no sabes
cómo trabajar en eso, entonces no sirve de nada, ¿verdad? No mejoraremos nuestros
procesos, nuestros productos,
nuestros servicios con la aparición
de la ciencia de
datos inteligente artificial, el aprendizaje
automático, el análisis de datos. Lo que podemos hacer, podemos
aprender de los datos, podemos explorar los datos, y podemos obtener la información
relativa buena de los datos. Y podemos adaptarnos
según los datos. Podemos analizar, podemos impulsar la
decisión a partir de los datos. En ese caso, antes
solíamos hacerlo nosotros mismos, pero debido al aprendizaje automático
y la inteligencia artificial, ahora podemos empoderar a las
computadoras para que aprendan de los datos y adopten para realizar tareas sin programación
acelerada Ni siquiera necesitamos
escribir el programa. Hace pre retail y
podemos entrenar a los modelos. Y va a dar inicio a
trabajar para nosotros menos entendernos menos entender aprendizaje
automático en un
poco más de detalle. En esencia, el aprendizaje automático consiste crear
algoritmos que permitan a
las computadoras aprender
de los datos y
tomar decisiones o predicciones
basadas en el conocimiento tecnológico. A diferencia de la
programación tradicional, donde los humanos instruyen explícitamente a
las computadoras sobre qué hacer, aprendizaje
automático permite que
los sistemas
mejoren su rendimiento y de
manera autónoma a través Esto se logra a través de los
siguientes componentes clave. Los algoritmos de datos,
el entrenamiento del modelo, evaluación y pruebas,
y luego el despliegue. Estas son las cosas que
hacemos en el aprendizaje automático. Primero obtenemos los datos, luego sobre esos datos
aplicamos algoritmos, luego entrenamos y luego
evaluamos y probamos el modelo. Y luego si
al modelo se le da lo requerido y los resultados, entonces desplegamos en
producción bien sobre lo que son los datos. Los datos son el elemento vital
del aprendizaje automático. Si no hay datos,
no hay aprendizaje automático, no
hay IA. Debido a que el aprendizaje automático, la ciencia de datos de
IA, todo
depende de los datos. Un montón de datos. Los datos ahí,
serán beneficiosos más, Será eficiente
machine learning, inteligencia
artificial,
deep learning. Todas estas cosas son todas
dependientes de los datos. Los datos son la sangre del aprendizaje
automático. Si no está ahí, el
aprendizaje automático no será caminar, algoritmo no estará caminando. Los algoritmos aprenden patrones y relaciones a partir de datos históricos
o en tiempo real, que sirven como
campo de entrenamiento para esos sistemas, algoritmos que
aprendemos y aplicamos. Aprenden del patrón de
algoritmos y la relación a partir de los datos que utilizamos para entrenar modelos
de aprendizaje automático. Para que cuando lleguen los nuevos datos, ellos predecirán con base en los datos históricos en los que
hemos entrenado al sistema. La calidad y
cantidad de datos son factores
críticos en el éxito del modelo de aprendizaje automático. Los datos que estamos obteniendo
deben ser significativos. Si los datos no son significativos, los datos no se mejoran, los datos son muy claros, entonces los modelos de aprendizaje automático no
serán muy vagos Primero, tenemos que
trabajar en los datos. Los datos deben ser muy limpios, precisos de que los
modelos de aprendizaje automático funcionen de manera efectiva. Algoritmo algoritmo, algoritmos de aprendizaje
automático son motores
matemáticos
que procesan datos. Los algoritmos son en realidad
una matemática detrás. Trabajan en los datos
y procesan los datos, identifican los patrones
en los datos, y luego con base en esos patrones hacen las predicciones
o decisiones. Estos algoritmos se
pueden
clasificar en varios tipos,
incluyendo aprendizaje supervisado, no supervisado, aprendizaje de
refuerzo, cada uno adecuado para diferentes tareas Los algoritmos y como la forma en
que aprenden de los datos, la
forma en
que aprenden de los datos, leen los datos son
diferentes tipos que
aprenderemos mientras estaremos viendo los diferentes
tipos de aprendizaje. Bien. Cuál es el modelo de
entrenamiento Durante el entrenamiento, modelo de aprendizaje
automático se expone a datos y aprende a
reconocer patrones. Cada dato
tendrá algún patrón. Si miras los sitios web de
aprendizaje, si recogen los datos, van a estar llegando
a saber que el usuario viene al sitio web. Están haciendo clic en
algo luego en función si están comprando un
pan que están comprando, pero están comprando azúcar, están comprando la E, los
algoritmos de aprendizaje automático o el modelo. Cuando llegó a los datos, llegó a los datos,
verá ese patrón. Si una persona compra un pan, la persona también está
comprando la mantequilla la hora de comprar el
pan y la mantequilla es también cuando está comprando el té, también comprando el azúcar de la leche. Este es el patrón
reconocido por el modelo. Y luego el modelo ajusta
su parámetro para minimizar el error o desviación del resultado
esperado. Evaluación y pruebas. Evaluación y pruebas.
Después del entrenamiento, se evalúa el modelo. Cuando se entrena el modelo, el modelo se evaluará
utilizando el conjunto de datos separado. Supongamos que tenemos un conjunto de datos, entrenaremos nuestro modelo en
ese conjunto de datos en particular. Y diremos que
reconozcan el patrón, como Brad, cuando persona
compra Brad, compra Pero tenemos que predecir
qué usuario puede comprar a continuación. Cuál será el comportamiento, qué producto podemos coserle. Entrenamos en un conjunto de datos y
luego probamos y evaluamos el modelo en otro
conjunto de datos para que
podamos llegar a conocer su rendimiento y capacidad de
generalización se requiere un ajuste fino y una optimización A menudo se requiere un ajuste fino y una optimización para
mejorar la precisión. Después de eso,
afinamos el modelo y optimizamos el modelo
y los algoritmos para mejorar la precisión de la implementación del
modelo de aprendizaje automático. Una vez
que el modelo es confiable, se puede implementar en aplicaciones del mundo
real
para hacer predicciones, automatizar decisiones y
proporcionar recomendaciones. Te habrías encontrado todas estas cosas como en
Amazon flip card way. Cuando
veas cuando compras un producto, el sistema
automáticamente comenzará a recomendarte
nuevos productos
en función de tu comportamiento anterior o producto
anterior que
hayas comprado Te recomendará nuevo
cuando veas Netflix. Si ves una película de comedia, próxima vez cuando
vayas a Netflix. Empieza a recomendarte las
nuevas películas de comedia, ¿verdad? Ha reconocido tu
patrón de
verlo en
modelos de aprendizaje automático, detrás de Netflix, Amazon, todas estas cosas, empiezan a
recomendarte los nuevos productos,
películas, todas esas cosas, ¿bien? ¿Cuáles son las aplicaciones
del aprendizaje automático? El aprendizaje automático ha
encontrado aplicaciones en una amplia gama de
industrias y dominios, revolucionando la forma en que
abordamos Aquí hay algunos saltos notables. Utilizamos el aprendizaje automático
en el cuidado de la salud. Ayudas de aprendizaje automático, planificación de
diagnóstico, descubrimiento de
medicamentos y medicina personalizada
mediante el análisis de datos médicos, imágenes y secuencias genómicas. En finanzas, impulsa algoritmo del sistema de detección de
fraude, el comercio algorítmico, calificación
crediticia, la evaluación de riesgos y ayuda a
las instituciones financieras a tomar decisiones basadas en
datos
en el comercio electrónico Los sistemas de recomendación
que ya he discutido utilizan el
aprendizaje automático para sugerir productos, experiencia de sopping
personalizada y optimizar la estrategia de precios Vehículos autónomos, el aprendizaje
automático es parte integral de los autos
autónomos. Permitirles percibir
su información, momento tomar decisiones
y navegar con seguridad a través de un ejemplo. procesamiento de
lenguaje natural de autos, Las aplicaciones de procesamiento de
lenguaje natural de autos,
PNL y LP incluyen traducción de
idiomas, análisis de
sentimientos, tableros de
chat y relación de voz, haciendo que la interacción humana con
computadora más fluida y L de uso de
creación hoy fabricación, el
mantenimiento predictivo y control de
calidad se mejoran
a través del aprendizaje automático. Reducción del tiempo de inactividad y defectos
en los procesos de producción. La ciencia ambiental, el aprendizaje
automático se utiliza para modelar el clima, predecir tendencias ambientales y analizar datos ecológicos La importancia del aprendizaje automático del
aprendizaje automático se extiende más allá de sus explicaciones. Tiene potencial para acelerar la decisiones,
mejorar la eficiencia, descubrir conocimientos, personalizar su
experiencia e innovación aprendizaje automático
fomenta la innovación al abrir nuevas posibilidades en campos como la robótica, realidad
virtual y la realidad
aumentada, podemos descubrir los nuevos conocimientos a
partir de los datos utilizando
el Lo que concluimos con que
ese aprendizaje automático representa un avance
tecnológico puesto, Eso es remodelar las industrias, fomentar la innovación y mejorar los procesos de toma de
decisiones
en los datos sigue creciendo
en volumen y complejidad aprendizaje automático jugará
un papel cada vez más central en la extracción de valor e inteligencia de
este mundo rico en datos. A medida que
profundizamos en este campo, exploraremos sus
diversas técnicas, algoritmos y aplicaciones con mayor
detalle, desbloqueando todo el potencial
del aprendizaje automático Al final de esta conferencia, veremos más de aprendizaje
automático en las
próximas conferencias. Gracias.
122. El papel del aprendizaje automático: Hola y bienvenidos de nuevo. En esta conferencia vamos
a aprender sobre el papel del aprendizaje
automático en la ciencia de datos
y la inteligencia artificial, transformando los datos en insight. Ya hemos aprendido
sobre los conceptos básicos de la ciencia de datos y el aprendizaje
automático, pero
entenderemos poco cómo
podemos visualizar los datos
utilizando el aprendizaje automático y la inteligencia
artificial. Y cuál es la significación
de los datos en estos campos. Ciencia de datos e inteligencia
artificial, dos de los campos más
transformadores del
panorama tecnológico moderno Dentro de estos dominios, el aprendizaje
automático juega un papel
fatal en la extracción de conocimientos
accesibles, automatización de procesos y la habilitación de datos que
impulsan la toma de decisiones En esta conferencia,
exploraremos la intrincada e
intrincada relación entre el
aprendizaje automático, la ciencia de datos y la IA, y cómo
contribuyen colectivamente a la
evolución de la tecnología ciencia de datos es el campo
interdisciplinario que combina diversas
técnicas y procesos para extraer sitios de
conocimiento a partir de datos estructurados y
no estructurados Déjame darte un poco de claridad sobre los datos estructurados y
no estructurados Los datos estructurados son los
datos que están muy estructurados de manera que tenemos las cosas predefinidas
para almacenar
los datos,
como lo hacemos en la base de datos
carámbanos
o la base de datos
relacional tradicional Cosas donde hemos definido cosas como que
habrá nombre, habrá una,
habrá dirección. Ahí estará el
producto que compró. La fecha, se definirá
y en forma tabular. ¿Bien? Y será un
dato que se definirá. Será un texto o imagen
o lo que sea, ¿verdad? Pero cuando miramos esta
cosa, los datos desestructurados. Los datos no estructurados son
muy comunes en estos días por el surgimiento
de las redes sociales, Internet, comercio electrónico, industria de la
aviación En todas partes, obtenemos una gran cantidad
de datos no estructurados. Los datos de
datos no estructurados no están definidos. Los datos vienen
de varias maneras. Al igual que, a veces
viene en forma de chat. En el chat, estamos
compartiendo el texto, estamos compartiendo las imágenes, estamos compartiendo las imágenes. Estamos vendiendo los archivos, estamos compartiendo los videos, estamos compartiendo las animaciones.
Podría ser cualquier cosa. Los datos no están definidos. Los datos son estructurados, de naturaleza
no estructurada. Con las cosas tradicionales, es muy difícil la
información de los datos, almacenar los datos u obtener información significativa
de la parte de datos. Con el big data y la ciencia de datos y el aprendizaje automático de
IA, es muy fácil analizar, almacenar y obtener información de esos datos no estructurados que obtenemos de las redes sociales, del comercio electrónico, sitios web,
de nuestro negocio Eso es bastante fácil hoy en día, extraer conocimiento
y perspicacia de los datos no estructurados que
hacemos con la ciencia de datos Abarca una amplia
gama de actividades, incluyendo la recolección de datos,
cómo recopilamos los
datos, el procesamiento previo de los datos, cómo
preprocesamos los datos
antes de trabajar en ellos, luego cómo hacemos el
análisis de los datos Esa es la
parte de análisis de datos que
veremos y la visualización de datos
puede visualizar los datos. El objetivo principal de la
ciencia de datos es convertir los datos brutos en información accesible e informar las decisiones estratégicas de
negocio. Cada negocio que
tiene muchos datos históricos, si no aprende
de los datos históricos, como si estuviéramos dirigiendo
un negocio de ropa, sitio web de comercio
electrónico donde
vendemos la tela, no sabemos lo que tenemos. Los datos que algunos de la junta directiva, los productos no están vendiendo, algunos de los productos
son más vendidos. Si no estamos obteniendo
esa información de los datos anteriores, entonces no podremos
recomendar el nuevo producto, nuevos diseños, a los clientes. Con la ayuda de datos
históricos, tomamos las decisiones
y podemos hacer que nuestras estrategias estratégicas sean
robustas y más accesibles. Bien, el papel crucial del aprendizaje automático
en la ciencia de datos. aprendizaje automático
es el subconjunto de IA que se enfoca en
desarrollar algoritmos y modelos que permitan
a las computadoras aprender y tomar predicciones o decisiones sin ser programadas
explícitamente. Así es como el aprendizaje automático
mejora la ciencia de
datos, el análisis de datos y la predicción. Los algoritmos de aprendizaje automático
pueden analizar grandes conjuntos de datos para descubrir tendencias de patrones ocultos y relaciones centrales
entre los datos. Esta capacidad es fundamental
para hacer predicciones, ya sea en el pronóstico de ventas predicciones de rotación de
clientes, o incluso el diagnóstico de dígitos
En campos médicos, el aprendizaje automático de preprocesamiento
de datos
automático puede automatizar las tareas de
preprocesamiento de datos como valores faltantes,
imputación,
detección de valores atípicos, escalado de características,
ahorro de
importancia científica de datos, ahorro de
importancia científica de datos La ingeniería de características
puede ayudar en selección de
características y la
ingeniería ayudando a identificar las variables más
relevantes para el modelado productivo, la
clasificación y la agrupación en clústeres Los modelos de aprendizaje automático como las máquinas
vectoriales de soporte
disidente, los algoritmos de
clustering se utilizan ampliamente en la
ciencia de datos para tareas como segmentación de
clientes y clasificación de
imágenes que ya
hemos discutido sistema de
recomendación ya
hemos discutido películas, sistema de recomendación de productos Estos sistemas de recomendación
se pueden mejorar muy fácilmente
con el aprendizaje automático. filtrado colaborativo y los sistemas de
recomendación basados en
contenido son impulsados por el aprendizaje automático, proporcionando
recomendaciones de personajes en comercio
electrónico y
plataformas de contenido como Netflix, lenguaje
natural, lenguaje
natural, procesamiento del lenguaje
natural, técnicas de PNL Un subconjunto de aprendizaje automático
permite el análisis de sentimientos, clasificación de
texto y el desarrollo de
paneles de chat Mejorar los datos impulsando la información a partir de datos textuales, visualización
de datos aprendizaje automático puede
ayudar a generar visualización de
datos
interactiva e informativa, haciendo que los conocimientos complejos sean
más accesibles. La sinergia de la IA y el aprendizaje
automático. Si bien la ciencia de datos
se centra principalmente en extraer
información de los datos, IA amplía las capacidades del aprendizaje
automático para realizar tareas y, por lo general, requiere inteligencia
humana. El aprendizaje automático es la
fuerza impulsora detrás de muchas aplicaciones de
IA, lo que permite que el aprendizaje automático imita las funciones cognitivas humanas Así es como el aprendizaje automático
cierra la brecha entre ciencia de
datos y la automatización
impulsada por IA. Los algoritmos de aprendizaje automático
automatizan diversas estadísticas, diversas tareas desde el reconocimiento de
imágenes en vehículos
autónomos hasta la traducción de
idiomas
en tableros de chat. Haciendo que las aplicaciones de IA sean
más eficientes y accesibles con la ayuda del aprendizaje
automático en términos de los supuestos vehículos
autónomos, cuando podemos entrenar al modelo, como cuando ve la señal, podemos alimentar la imagen de la señal, ya sea roja,
verde o amarilla. Con base en el signo de la señal, el auto automatizado puede detenerse
cuando ve la señal roja. Se puede mover cuando está
viendo la señal verde. Todas esas cosas que
podemos entrenar con la ayuda de la personalización de IA El aprendizaje automático permite que los sistemas de
IA brinden una experiencia
personalizada,
como contenido personalizado, recomendaciones de
contenido, campañas y
campañas de marketing
personalizadas, e incluso planes de
tratamiento de atención médica. Análisis predictivo, impulsé análisis
productivo impulsado
por el aprendizaje automático. La organización de salud anticipa
capacita el comportamiento del cliente, fallas en los
equipos, lo que permite la toma de
decisiones proactiva. Podemos hacer el
análisis predictivo y podemos adivinar cómo van nuestros
trenes, qué
comportamiento de los clientes son
y cómo les gustará a los clientes el nuevo producto. decisiones mejorada, los algoritmos de aprendizaje
automático
ayudan al sistema de IA a tomar
decisiones informadas mediante el análisis vastos conjuntos de datos en tiempo real, reduciendo el error humano, procesamiento y
comprensión del lenguaje
natural y los modelos LP. Un subconjunto de aprendizaje automático permite que el sistema de IA
comprenda y responda
a las aplicaciones de
manejo del lenguaje humano,
como las ollas virtuales para gatos. En conclusión, podemos decir
que el aprendizaje automático es el eje que
conecta los conjuntos de datos y yo, transformando los datos brutos
en insights procesables Y permitiendo que el sistema de
inteligencia artificial realice tareas que antes
se pensaba que eran sueño de inteligencia humana. Significa que el aprendizaje automático
será la parte crucial para obtener
la inteligencia
humana en las máquinas antes, las cosas que eran solo
para que el único humano pueda hacer. Ahora es posible con el aprendizaje automático, la ciencia de
datos y yo, nuestras máquinas pueden hacer el trabajo que
el ser humano puede hacer con lo muy preciso. A medida que la tecnología
continúa avanzando, la relación simbiótica
entre la ciencia de datos, aprendizaje
automático y la IA
continuará salvando nuestro panorama digital e impulsando la innovación en
diversas industrias De pie, el papel
del aprendizaje automático es esencial para
cualquier persona interesada en el mundo dinámico y en constante
evolución de los datos y la
inteligencia artificial. Es por ello que se debe entender la relación entre estas
ciencias de datos, aprendizaje automático entre estas
ciencias de datos, aprendizaje automático
e IA para adquirir conocimientos en este campo. Espero que hayas entendido cuál es la sinergia de la IA y el aprendizaje, cuál es el papel del
aprendizaje automático y la ciencia de datos. Nos reuniremos en la próxima conferencia y discutiremos
algunas cosas más sobre el
aprendizaje automático. Gracias.
123. Tipos de aprendizaje automático: Hola y bienvenidos de nuevo. En esta conferencia, vamos a aprender tipos de machine learning,
tipos de machine learning. Lo veremos como una visión general muy
completa. Empecemos ahora. Tenemos la comprensión básica de qué es el aprendizaje automático, cómo se relaciona con inteligencia artificial y
la ciencia de
datos, las cosas en
general. Bien, vamos a revisar un
poco más una vez más. aprendizaje automático, un subconjunto de inteligencia
artificial,
ha transformado la forma en que las computadoras pueden procesar información y tomar decisiones. Lo que entendimos, ¿verdad? Es parte de la inteligencia
artificial. Si miras el
panorama más amplio, ciencia de
datos es el panorama general. Debajo de eso viene la inteligencia
artificial y debajo de eso viene
el machine learning. Aprendizaje profundo, todas esas cosas. Bien, el aprendizaje de escenas es un subconjunto de la
inteligencia artificial. Se ha transformado que las
computadoras pueden realizar un humano que puede predecir los resultados como
humanos y más rápidos que humanos. Esa es la transformación que el aprendizaje
automático ha traído a la mesa. Es muy fácil tomar
decisiones para las empresas
procesando sus datos. Uh, algoritmo de aprendizaje automático haciendo modelos y luego
evaluando el modelo. Y luego predicen, y
a veces predicen el 100% de una información correcta Bien,
los algoritmos de aprendizaje automático permiten que sistema aprenda de los
datos. Los datos son la clave. En las últimas conferencias, hemos entendido cómo los datos son el alma del aprendizaje
automático, la inteligencia
artificial y el ecosistema general
de la ciencia de datos Todo depende de los datos. Todo comienza con
el algoritmo de datos de datos. Los algoritmos de aprendizaje automático permiten que los sistemas, computadoras
o
máquinas aprendan de los datos y mejoren su
rendimiento a lo largo del tiempo. Sin programación explícita, Necesitas programar cada vez. Solo necesitas
entrenar al modelo. Y comenzará a aprender
de los datos y
mejorará con base en el proceso de aprendizaje por el
que ha pasado. Existen varios tipos
de aprendizaje automático, cada uno adecuado para
tareas y aplicaciones específicas. En esta conferencia,
exploraremos las principales categorías del aprendizaje automático y
sus características. Bien, comencemos. Básicamente hay siete
tipos de aprendizaje automático. El primero es el aprendizaje
supervisado, luego el aprendizaje no supervisado, luego viene el aprendizaje semi
supervisado, luego el aprendizaje
profundo de refuerzo, luego viene el aprendizaje
autosupervisado, y luego viene el aprendizaje de
transferencia Entonces estos son los siete tipos de aprendizaje
automático que
vamos a aprender. Primero, comenzaremos con
el aprendizaje supervisado. El aprendizaje supervisado es un
aprendizaje que podemos relacionar con la clase de aprendizaje de la sala azul donde un maestro
supervisó nuestro aprendizaje. Y nos enseña
con las imágenes, con el video, con el audio, con las diversas ayudas
educativas correctas, que enseñan el aprendizaje supervisado. El aprendizaje supervisado es uno de los tipos más comunes
de aprendizaje automático. Implica un modelo de entrenamiento en un conjunto de datos etiquetado donde cada punto de datos se empareja con
el objetivo de salida correcto. El modelo aprende
a mapear los datos de entrada a la salida correcta mediante la
búsqueda de patrones y relaciones. Las características clave del aprendizaje
supervisado incluyen. Antes de que veamos las características
clave, déjame decirte
¿qué significa? aprendizaje supervisado es el tipo más común
de aprendizaje automático. En esto lo que hacemos, supongamos que queremos entrenar a nuestro sistema para que reconozca
los rostros humanos. En ese caso, lo que
haremos bien, uh, alimentar los datos al algoritmo o
modelo de
aprendizaje automático con imágenes como humanas. Si es una fase humana, diremos que se trata de un humano. Si es otra cosa, pondremos que esto es fase animal,
esta es una fase de dibujos animados, ¿de acuerdo? Alimentaremos tantas imágenes y cada imagen
será etiquetada con un nombre. Se etiquetará, bien, Si es un rostro humano, todos los rostros humanos
serán etiquetados, serán etiquetados con humanos. Todos los gatos, perros, animales, caras de
elefante serán etiquetados de acuerdo a
su especificación. Bien, ahora cuando alimentemos los datos a través del modelo de aprendizaje
automático, eso, verá, bien, este es el rostro humano, este es rostro
humano, este es el ritmo humano. Reconocerá el
patrón de un rostro humano y a partir de los patrones que ve en los rostros humanos, aprenderá
que
si este rostro viene, es un rostro humano. También ve el patrón de otras imágenes que no están
teniendo un patrón similar al
A los rostros humanos, reconocerá, bien, este patrón pertenece a un gato. Este patrón pertenece
al elefante. Este patrón pertenece
a los monos. Así, comenzará a
aprender después del entrenamiento, cuando alimentemos una nueva
imagen que no forma parte de ese conjunto de datos
sin etiqueta. Ejecutará los patrones y coincidirá con el
patrón que ha aprendido. Cualquiera que sea el patrón
que coincida, dirá que, bien, este es el rostro humano O si es un gato,
dirá que es una cara de gato. Con base en los datos previos de
entrenamiento, reconoce el patrón
de una nueva imagen y te dará el resultado, ya sea un rostro
humano o no. Así es como funciona el
aprendizaje supervisado. Tiene características clave, es
decir, clasificación
y regresión. Estos son los dos términos muy
importantes que
debemos recordar y de los que
debemos estar atentos. El primero es la clasificación. Clasificación en tarea de
clasificación, el modelo predice
etiqueta o categorías discretas Por ejemplo, clasificar los
correos como spam o no spam. Cuando miras el,
puedes ver el correo. Siempre que llegue un correo electrónico, correo se
clasificará automáticamente como spam. Eso lo pondrá en la carpeta de
spam. ¿Cómo lo hace? Cuenta con algún patrón de alimentación entrenado a los
modelos de
inteligencia artificial o machine learning para correo que. Si el correo electrónico proviene de
esta palabra clave dominios, se clasificará como spam. Si no está en la
lista de contactos del receptor, se marcará como spam. Hay muchos correos electrónicos
que se han enviado desde esa identificación de correo electrónico en particular en masa a las personas desconocidas. Entonces se
clasificará como spam. Así es como funciona la tarea de
clasificación. Bien, va a estar teniendo
unas categorías específicas que están etiquetadas como
spam o North spam o North spam. Mientras que la región, las otras características
región en región tarea. El modelo predice valores
continuos. Por ejemplo, predecir los precios de las
casas en función las características como
pie cuadrado y ubicación Con base en el
pie cuadrado y la ubicación, pronosticará el precio de la casa. Cuando alimentamos los datos, entrenamos, los datos se alimentarán para
esta área en particular. Esta es la tarifa de
ubicación premium que será alta en base a eso. Siempre que pongas una
nueva ubicación con las nuevas dimensiones de la casa pie cuadrado y
todo ello predecirá que, bien, esta casa debería
tener este precio. Esta es la región donde vienen los datos
numéricos continuos, donde usamos la regresión, donde los
datos de clasificación vienen categorías, luego usamos la clasificación. Estos son los dos.
Considerar. El siguiente tipo de aprendizaje automático es el aprendizaje
no supervisado En el aprendizaje no supervisado, se ocupará de
los datos no etiquetados aprendizaje no supervisado se
ocupa de datos no etiquetados, donde los algoritmos tienen como objetivo
encontrar estructuras de patrones,
agrupaciones, dentro Se utiliza para tareas como clustering y reducción de
dimensionalidad. Cada característica del aprendizaje
no supervisado
incluye clustering, algoritmo de
clustering,
qué
hace, agrupa el punto
de datos similar en función Por ejemplo, agrupar clientes con un
comportamiento de compra similar para la agrupación de marketing
dirigida significa suponer que tiene un sitio web de
aprendizaje Supongamos que tiene el sitio web e
learning donde
la mayoría de los clientes están comprando
los cursos y marketing, pocos de los clientes
están comprando en
los cursos de dominio de tecnología. Entonces lo que hará el clustering, agrupará a todos los
clientes que hayan comprado los cursos relacionados con marketing
a un grupo en particular Los
agrupará y la tecnología
hará otro cluster, tendremos dos
clusters de clientes. uno le interesan los cursos de
marketing y otro interesantes cursos de
tecnología. Esta es la forma, en base a eso, cuando el nuevo cliente
viene con algún comportamiento, lo clasificará, lo
agrupará en el grupo
particular Luego viene la reducción de
dimensionalidad. Estos algoritmos reducen
el número de características en los datos al tiempo que preservan la información
esencial. Análisis de componentes principales. Pca es una técnica común para la reducción de
dimensionalidad. Supongamos que tiene
tantas características en nuestro conjunto de datos y eso apuntará datos
innecesarios. Reducirá el número de entidades disponibles en
el conjunto de datos y se
centrará en las principales palabras clave y características y hará el aprendizaje,
¿de acuerdo? Esto se llama Análisis de
componentes principales, que es la
característica principal de su conjunto de datos. Cuál es la característica principal
que está afectando al objetivo, afectando el
resultado que
encontraremos en el Análisis de
Componentes Principales, PCA El siguiente es el aprendizaje semi
supervisado. aprendizaje semi supervisado combina elementos tanto del aprendizaje supervisado
como no supervisado Aprovecha el conjunto de datos
con una pequeña cantidad de conjunto de datos
etiquetados y una gran
cantidad de datos sin etiquetar Este enfoque se
utiliza a menudo cuando la obtención datos
etiquetados es costosa
y requiere mucho tiempo. Bien, entonces viene el aprendizaje
de refuerzo. El aprendizaje
por refuerzo consiste en capacitar a los agentes para que tomen secuencias de decisiones
en un entorno. Maximizar, en un ambiente, maximizar una recompensa acumulada. Se usa comúnmente en
aplicaciones como juegos, robótica y sistemas
autónomos Las características clave
de los refuerzos, aprendizaje de
refuerzo incluyen
agente y medio ambiente El agente interactúa con un entorno y
aprende al recibir retroalimentación en forma de
recompensas o política de castigo Esta política es la
estrategia o conjunto de reglas, que el agente sigue
para tomar decisiones. El objetivo es aprender una política
opcional que maximice las
recompensas a largo plazo. Aprendizaje profundo. El aprendizaje profundo es un subconjunto del aprendizaje
basal que se enfoca en redes
neuronales con muchas
capas de redes neuronales profundas. Ha ganado
mucha atención y popularidad en los últimos años debido a su
desempeño excepcional en tareas como el reconocimiento de imagen y
voz. Las características clave del
aprendizaje profundo incluyen redes neuronales, redes neuronales
artificiales
con múltiples capas de
nodos interconectados o neuronas. Red
neuronal convolucional profunda CNN's. Estos son los comúnmente
utilizados para la tarea de
reconocimiento de imágenes RNN de redes
neuronales recurrentes Estos se utilizan para tareas de datos
secuenciales
como el procesamiento del lenguaje natural
y el análisis de Sage del tiempo Veremos en detalle cuando veamos aprendizaje
profundo, el aprendizaje
autosupervisado. El aprendizaje autosupervisado es
una técnica en la que un modelo aprende de datos sin etiquetas proporcionadas por
humanos. En cambio, genera etiquetas
a partir de los propios datos. Aprendizaje supervisado,
reconocerá un patrón. Marcará los datos
como fase humana o Caha. Todas esas cosas que
etiquetará por sí mismo, muchas veces creando tarea
sustituta Se ha mostrado prometedor en diversas tareas de procesamiento de
lenguaje natural y procesamiento por
computadora y computadora sion. Luego viene el aprendizaje
de transferencia. El aprendizaje por transferencia implica formar un modelo en una tarea y luego usar la ganancia de conocimiento para mejorar desempeño de una tarea relacionada. Es un enfoque práctico
cuando se tienen datos limitados
para una tarea específica. Ahora, el
aprendizaje automático abarca una amplia gama de
tipos y técnicas, cada una con su fuerza
y aplicaciones. Comprender los tipos
de datos es esencial para elegir el enfoque correcto a la hora de abordar diversos problemas del mundo
real A medida que el aprendizaje automático
continúa avanzando su impacto en industrias
como la salud, finanzas,
se espera que los sistemas autónomos crezcan, lo
que lo convierte en un campo fascinante
y dinámico para explorar y dominar. Hay muchas
oportunidades en el mercado para el aprendizaje automático,
ingenieros, científicos de datos, ingenieros de
IA, analistas de datos. Todas esas cosas van a esas cosas y
podemos aprender mucho más rápido. Dijiste la siguiente
conferencia.
124. Flujo de trabajo de aprendizaje automático: Y bienvenidos de nuevo.
En esta conferencia, aprenderemos sobre el flujo de trabajo de aprendizaje
automático, cómo tratamos los datos, cómo partimos de los datos y cómo pasamos a
los insights de datos. Empecemos. El flujo de trabajo de
aprendizaje automático es una poderosa herramienta para
visualizar datos. En realidad, hola
y bienvenidos de nuevo. En esta conferencia,
estaremos aprendiendo sobre el flujo de trabajo de aprendizaje automático. flujo de trabajo de aprendizaje automático consiste
en obtener los datos, procesarlos, aplicar los modelos de aprendizaje automático y obtener los
conocimientos de los datos. Eso es lo que significa el
flujo de trabajo de aprendizaje automático en buscado. En esta conferencia,
aprenderemos sobre el flujo de trabajo del aprendizaje
automático en detalle. Empecemos, el
aprendizaje automático es una herramienta poderosa. El aprendizaje automático es una
poderosa herramienta que ha revolucionado la forma en que manejamos los datos y hacemos predicciones
y decisiones de que esto es lo que hemos aprendido en pocas conferencias
anteriores Sin embargo, aprovechar
su potencial requiere un enfoque estructurado conocido
como flujo de trabajo de aprendizaje automático En este artículo o
en esta conferencia, exploraremos
las etapas clave de este flujo de trabajo, destacando los
pasos esenciales involucrados en la transformación de los datos brutos en insights valiosos
variables. El primer paso es la recolección
de datos. recolección de datos
es la base del aprendizaje automático o
la ciencia de datos porque todo
depende del recorrido de los datos. Comienza con la recolección de datos. El paso consiste en recopilar
los datos relevantes de diversas fuentes como
bases de datos, API o sensores. Estos son los puntos de datos
donde recogemos los datos. Un dato tiene un impacto significativo en el éxito de su proyecto
de aprendizaje automático. Hacer de la recolección de datos una tarea crítica y, a menudo, que consume mucho
tiempo. Como sabes que
la mayoría del científico de datos
y analista de datos, ingeniero de aprendizaje
automático, la
mayoría de las veces alrededor del 60% de las veces
trabajan en los datos, 40% de las veces trabajan en el código y crean modelos, aplicando algoritmos, evaluando el modelo,
todas esas cosas, ¿bien? Pero la tarea del 60% se
trata de trabajar en datos
y hacerlos viable Después llega a la recolección
de datos. El siguiente paso es el preprocesamiento
de datos. preprocesamiento de datos
significa refinar los datos sin procesar y
hacerlos funcionar. Los datos sin procesar rara vez están listos para la
carga de la máquina porque si ha
recopilado los
datos de las fuentes, puede
haber muchos
problemas en los datos Habrá
problema en los datos, faltarán valores, habrá valores duplicados,
habrá valores incorrectos,
habrá valores faltantes. Tantas impurezas
estarán ahí en los datos brutos. Nunca estará listo. Si trabajas con esos datos, no
obtendrás el resultado
requerido debido a la información que
faltan y que se rellenan
erróneamente en los datos El procesamiento de datos implica
limpiar, transformar y estructurar los datos para que sean adecuados
para su análisis. Las tareas clave en esta fase incluyen el
manejo de valores faltantes, eliminación de valores atípicos y
la codificación de las variables categóricas El siguiente paso viene el análisis
exploratorio de datos. En especie, lo llamamos EDA. Esta es una etapa muy crítica porque en EDA
entendemos los datos. Antes de sumergirse en el modelado, es esencial
entender tus datos, entender tus datos a fondo. La comprensión de los
datos es muy importante. Da implica visualizar datos, calcular
estadísticas descriptivas e identificar patrones
y correlaciones Este paso proporciona información que guían la selección de características
y la creación de modelos. El siguiente paso viene, y se llama ingeniería de
características. Esto significa que elaborar las características
informativas significa si algunas de las
cosas están ahí y puedes basarlas en
esa información, puedes crear una nueva función ingeniería de características es
la ingeniería de características es el proceso de
selección, creación y transformación de
entidades, es decir, variables de
entrada que el modelo de aprendizaje
automático utilizará para las predicciones. Básicamente se está trabajando
en los datos de entrada. La ingeniería de características experta
puede mejorar
significativamente el rendimiento del modelo cuanto más mejore
el modelo obtendrá. El siguiente tipo es la selección de
modelos. Elegir el algoritmo adecuado. Seleccionar el algoritmo
de aprendizaje automático apropiado depende del tipo de problema. Es clasificación
o regresión. Lo primero que tienes que decidir qué tipo de problema
tienes en tu mano. Y luego puedes
decidir el algoritmo. Primero hay
que pensar si es
un problema de replicación clásico o
un problema de regresión basado en sus datos y las
características de los datos. Los algoritmos comunes incluyen vectoriales de soporte de árbol de
decisión máquinas vectoriales de soporte de árbol de
decisión y redes neuronales. Todos estos algoritmos los
puedes decidir usar
en base a tus datos y en base a tu clasificación
del problema. Bien, el siguiente viene después de
la selección del modelo. El siguiente paso es el entrenamiento de modelos. Aprendiendo de los
datos en este espacio. El modelo seleccionado se entrena usando la
porción de los datos. Supongamos que tiene las
miles de filas de los datos. ¿Qué haces datos, qué tomas? 60, 40% de los datos para entrenamiento y 60% restante los
conservarás para las pruebas, la parte de los
datos que tomamos y
entrenamos nuestro modelo sobre esos datos. Entonces los datos restantes del
60 o 40% que hemos guardado para
las pruebas sobre esos datos, estaremos probando el modelo. El modelo aprende a reconocer relaciones de
patrones
y amigos presentes en el conjunto de datos de entrenamiento. Luego, el entrenamiento implica ajustar
el parámetro de los modelos para minimizar los errores o la desviación
de los resultados esperados. Con base en el entrenamiento que
le damos al modelo seleccionado, afinaremos el parámetro
para minimizar los errores o desviación del
resultado esperado que es muy crítico. Después pasamos a la evaluación del
modelo. Veremos qué rendimiento o
qué resultado estamos obteniendo, qué estamos obteniendo, y luego
evaluaremos nuestro modelo. Después del entrenamiento, es crucial
evaluar el
desempeño del modelo. Esto se hace usando
un conjunto de datos separado, es
decir, la validación
o el conjunto de datos de prueba, para acceder a qué tan bien el modelo generaliza los dos datos no vistos Las métricas de evaluación comunes
incluyen la precisión, razón, la recuperación y la puntuación F one. Estas son las métricas de
evaluación, la precisión, la
recuperación de precisión y la puntuación F. El siguiente paso es el ajuste de
hiperparámetros, o la optimización de los parámetros del
modelo Los modelos de aprendizaje automático suelen tener hiperparámetros que
no se aprenden durante el entrenamiento
sino que deben establecerse manualmente El ajuste de hiperparámetros implica buscar la mejor combinación de hiperparámetros para optimizar
el rendimiento del modelo Entonces llega el paso final, es
decir, el despliegue del modelo
a la
producción, a la producción o al mundo real. Una vez que el modelo se considera confiable y preciso,
después de las pruebas, se puede implementar en un entorno del mundo
real para hacer predicciones o
automatizar decisiones. Esta fase puede estar involucrada integrando el modelo en sistemas
o aplicaciones
existentes. Como supongamos que tienes el sistema
bancario en el lugar donde decides
a qué candidato dar el préstamo y
cuál rechazar. Y has desarrollado un modelo
de aprendizaje automático que te puede dar la decisión como apto o
no apto para el préstamo. Tu modelo está dando hasta 97, 98, 99% de precisión. Durante las pruebas,
puede implementar en el entorno de producción y puede poner los
datos del usuario en eso. Y con base en el análisis de
datos del usuario por el
que ha pasado la formación
mientras
se entrena el modelo, puede analizar los datos, los criterios
financieros,
todas esas cosas. Y puede decidir si
podemos emitir un préstamo o no. Estas son las
cosas que podemos hacer en lo del despliegue del modelo. Entonces después del
despliegue del modelo, el trabajo no es 0, necesitamos monitorear y
mantener el modelo. El mantenimiento también es
muy importante para el éxito a
largo plazo ya que puede estar dando el falso
negativo o falso positivo. Todas esas cosas que tenemos
que vigilar de cerca que nuestro modelo de sistema es nuestros algoritmos funcionan bien y dan resultados
precisos. Los modelos de aprendizaje automático requieren monitoreo
y mantenimiento
continuos, distribución de
datos cambia con el
tiempo Porque
a veces el modelo, cuando hemos trabajado en el modelo, hemos
creado el modelo, el conjunto de datos o los criterios de soporte en el sector
bancario. De vez en cuando, obtienes los
lineamientos del gobierno. Con base en esos lineamientos, los criterios pueden cambiar. Así que tenemos que seguir
monitoreando, uh, y tenemos que seguir
mirando los datos y los resultados. Las distribuciones de datos
cambian con el tiempo. El desempeño del modelo puede degradarse porque se
han cambiado los criterios Puede dar las salidas equivocadas, así que tenemos que monitorearlo. Actualizaciones periódicas y reentrenamiento. Cuando algo
cambia, tenemos que
volver a entrenar el modelo sobre
los nuevos datos para
que pueda trabajar en los nuevos criterios
cambiados Es posible que sean necesarias actualizaciones periódicas y reentrenamiento para garantizar
la precisión continua del modelo Entonces ahora hemos entendido
cómo funciona el flujo de trabajo. El flujo de trabajo de aprendizaje automático es un enfoque sistemático para resolver problemas del mundo real aprovechando el poder de los datos Transforma datos brutos en
insights procesables y sistemas
inteligentes capaces de hacer predicciones
y decisiones Comprender y
dominar este flujo de trabajo es esencial para
los científicos de datos, analistas e ingenieros que buscan aprovechar todo
el potencial de Maine para aprovechar
todo el potencial del aprendizaje
automático en el mundo
actual impulsado por datos A medida que la tecnología
continúa avanzando, el
flujo de trabajo de aprendizaje automático jugará un papel central cada vez mayor en diversas industrias
impulsando la innovación
y la toma de decisiones informadas. Espero que entendamos cómo funciona
el
flujo de trabajo de aprendizaje automático desde la recolección de datos
hasta el procesamiento de datos, al análisis exploratorio de datos, a la ingeniería de características, a selección de modelos,
a la capacitación de modelos, a la evaluación de modelos, al ajuste de
hiperparámetros, al despliegue de modelos, al
monitoreo y mantenimiento Todos estos pasos son
muy cruciales para la implementación exitosa de un modelo de aprendizaje automático. Espero que hayas entendido, nos reuniremos en la próxima
conferencia. Gracias.
125. Principio de GIGO: Bienvenido de nuevo. En esta
conferencia entenderemos el concepto
y principio muy importante que es muy aplicable en el
aprendizaje automático y que es muy antiguo concepto de
basura en basura fuera gig es un principio
que se está utilizando en la industria IQ y el
software desde hace muchas veces También es aplicable
en el aprendizaje automático. Esto asegurará que
la calidad de los datos sea buena y eso se convertirá en
el poder de la calidad de los datos. Empecemos. Garbage in, garbage out, go En el
ámbito del aprendizaje automático, un
principio fundamental es cierto, ya que todos sabemos que la basura, basura fuera, es un concepto muy
fundamental. Es decir, siendo por muchos
años, basura, basura fuera. Esta frase concisa encapsula
un concepto profundo. La calidad de los insumos
influye profundamente en la calidad
de la producción producida por aprendizaje
automático.
¿Qué significa? Significa que los datos,
los datos que pones en los
modelos de aprendizaje automático que resultan, si ingresas la calidad
de los datos precisos limpiados, obtendrás el resultado preciso. Si pones los datos con
basura adentro, valores faltantes, información
incorrecta, otras cosas, cosa de valores faltantes
incorrectos, entonces no obtendrás la buena salida
requerida. Los resultados que obtendrás, los descansos que obtendrás van a
estar muy, muy mal. Porque todo
depende de la cosa de datos que pongas en el sistema
que resultan en. Te meterás en una época en la
que reinan los datos. Comprensión suprema y
apreciación del principio Gig es esencia
muy esencial de Idea simple y profunda en su núcleo. El principio Gig es
un recordatorio de que no importa cuán sofisticados sean
los algoritmos, cuán poderosa sea la infraestructura
informática o cuán capacitados sean los científicos de
datos, el valor de la salida de
aprendizaje automático está vinculado a la calidad de
los datos que se alimentan al sistema ¿Qué significa? Significa
que sea cual sea el algoritmo, algoritmo
fuerte,
cuánto codifique, cómo lo hace sofisticado, poderosa la
infraestructura informática hoy en día y cuánto científicos de
datos calificados, ingeniero de aprendizaje
automático, ingenieros de IA. Si los datos no son buenos, todos estos son de uso porque
si los datos no son buenos, su experto científico de datos, su infraestructura y sus algoritmos
no van a funcionar correctamente. Porque todo
depende de los datos. La base debe ser fuerte, base debe ser muy buena, entonces puedes cultivar u. si la semilla no es
buena, buena calidad. Una planta no puede crecer
de la misma manera. Los datos son la semilla de toda
la actividad de aprendizaje automático. Un buen dato,
obtendrás el buen resultado. Vas a sacar la buena
idea de ello. Obtendrás los buenos resultados. Obtendrás las
predicciones de ello. Los datos deben ser buenos, entonces el algoritmo
funcionará correctamente, la infraestructura de confort
apoyará y el científico de datos podrá obtener los mejores resultados
y las predicciones basadas en las cuales puede tomar
buenas decisiones comerciales. La calidad de los datos es
muy importante. Sentido de clave. Imagina
un auto auto manejando navegando por la calle. La ciudad sobre el vehículo depende de sensores y
cámara para percibirla. Alrededor, como todos
sabemos, ese conductor de
auto conductor menos autos
básicamente funcionan en las cosas. ¿Cómo trabajo? Yo trabajo pero en la cámara, cámara, cámara ojos
del humano para el
auto auto que conduce. Y los sensores son
los órganos sensoriales para los autos autónomos. Los sensores, lo que recibió, las señales y la cámara, qué ve y qué traduce y combina entre sí. Y creará un ambiente para que la
tarjeta de manejo celular avance. Si ve alguna
señal roja, debería detenerse. Si ve algunos obstáculos por
adelantado, debería detenerse. ¿Verdad? Eso es lo que hacen la señal y los sensores y las
cámaras, ¿verdad? Si la A es defectuosa.
Supongamos que está poniendo los sensores defectuosos o la
cámara ***ses está sucia, o la
calidad de la cámara no es buena Si hay una señal roja
y la calidad de la cámara o la cámara ***ses están sucias y no es
visual correctamente, no
se detendrá,
chocará contra la señal y puede causar un accidente
mortal, ¿ Entonces, los sensores defectuosos y la cámara ***ses,
si están sucios, los datos que recogerá a través de los sensores
y la cámara, serán inexactos
o incompletos, inconsistentes, y sobre eso
tomará malas decisiones En consecuencia, el proceso de
toma de decisiones del automóvil, como detectar peatones, reconocer las
señales de tránsito, se En este escenario, incluso los algoritmos
más avanzados no pueden resolver la situación. Es un ejemplo clásico de sacar
la basura en la basura. Si pones basura,
obtendrás la basura. Si pones los
sensores adecuados en su lugar, no pondrás
las buenas cámaras. Si el sistema no está recibiendo una buena entrada a través de la
cámara y
los sensores, los algoritmos y
los modelos de aprendizaje
automático no podrán
predecir nada bueno. Y provocará
auto auto auto, causará accidente. Industrias Derecha. Ahora vamos a entender cómo si los datos basura son liberados
en, en el sistema, qué impactará en las industrias donde se
utilizarán
las aplicaciones de IA y machine
learning en
el aplicaciones de IA y machine
learning en
el, en el caso de la atención médica, en el diagnóstico médico, la precisión e integridad de los datos de los
pacientes son primordiales Eso más importante, mal etiquetado o historial
médico incompleto puede llevar a un diagnóstico y recomendación de
tratamiento incorrectos Caso de finanzas,
las instituciones financieras se basan en datos para tomar decisiones de inversión
y ****** riesgo La mala calidad de los datos puede generar pérdidas
financieras y estrategias
mal informadas En el caso del marketing, las campañas
de
marketing se basan en información
impulsada por datos para el público
objetivo. Efectivamente,
los perfiles inexactos de los clientes o la información desactualizada pueden resultar en campañas
ineficaces
y recursos invertidos Es necesario obtener los perfiles de clientes correctos y los datos en el perfil
del cliente. Los datos del perfil del cliente deben ser
muy, muy recientes para
que puedan ser fácilmente dirigidos si una persona
así tiene interés en comprar televisión y ese interés
fue capturado hace seis meses. Y si estás llamando a
ese cliente, bien, quieres comprar, comprar una TV TV. Entonces puede decir que
estaba buscando un
televisor hace seis meses, ahora ya compré un televisor. Tu
campaña de marketing va a entrar, vas a llamar, el
cliente va a entrar. Y si te dirijas a un cliente que acaba de comenzar a
buscar el televisor y tienes
los datos muy recientes en 23 días, aún
podría estar
buscando el televisor adecuado. Y cuando llamas a
ese cliente y le ayudas
a decidir comprar un televisor nuevo, podría terminar
comprándote un televisor. Esa es la forma en que es el impacto de la basura
en la basura fuera. Los datos deben ser recientes y
no deben estar desactualizados, y deben ser precisos en términos de
recomendaciones de comercio electrónico del comercio. Las plataformas basadas en el comportamiento del usuario son tan buenas como
los datos que se ajustan a ellos. Los datos de baja calidad pueden llevar a malas
recomendaciones de productos y células perdidas. En el caso del procesamiento del
lenguaje natural, aplicaciones de
PNL como
tableros de chat o análisis de sentimientos, la calidad de los
datos de entrenamiento
impactan significativamente la capacidad de los modelos para comprender y responder
al lenguaje humano Mitigar el
papel de la calidad de los datos para mitigar el efecto
de Gig y garantizar la integridad de los resultados de
aprendizaje automático y la organización debe priorizar la calidad de los datos
y cómo pueden priorizar siguiendo los
pasos como la recopilación de datos, el
riguroso
proceso de recolección de datos debe estar en su lugar, riguroso
proceso de recolección de datos debe estar en su lugar, incluyendo la validación
de datos Al recopilar los datos, no
debe recopilar
los datos así como así. Debe haber un proceso
de recolección de los datos. Después de la recolección
de los datos, debe
haber una
validación de los datos y también se deben seguir los procedimientos de limpieza. Los datos de preprocesamiento de datos de
recolección de datos deben
procesarse a través de
diversas técnicas como el manejo de valores faltantes
y la búsqueda de los valores atípicos Muy crítico en nuestro procesamiento
de datos. Entonces es
muy importante el gobierno de datos, establecer el marco de
gobierno de datos para mantener la calidad de los datos a lo largo establecer el marco de
gobierno de datos para
mantener la calidad de los datos a lo largo de
su ciclo de vida. La validación de datos es otro paso
muy importante para mitigar el gig
que regularmente se valida y verificar la
precisión de los datos y consistencia de los datos porque
eso es muy importante Al igual que hemos comentado
sobre la venta perdida de TV, esos datos no fueron verificados, que han sido 67 meses que el cliente
ha mostrado el interés. Eso debería ser muy importante. Tenemos que validar tus datos, qué tan recientes son,
qué tan anticuados son, cómo son, qué tan consistentes deben verificarse todas estas
cosas. Luego, los
bucles de retroalimentación implementan un mecanismo para monitorear
y mejorar continuamente la calidad de los datos, relevancia
continua de gig medida que avanzamos en el área de big data
y aprendizaje automático Al igual que ya nos hemos movido
mucho más y ahora tenemos que poner mucho
énfasis en el principio Go. principio Gig
sigue siendo tan relevante ya que la calidad de los datos
seguirá siendo
el eje para garantizar el éxito y la
confiabilidad de
los sistemas I en un mundo donde los
datos son abundantes,
pero no siempre pero no Adoptar el
principio de Guigo es esencial para aprovechar
todo el potencial del aprendizaje
automático y evitar errores
costosos y consecuentes costosos Cuidando el trabajo, hay
que tener mucho cuidado Y si te ocupas del trabajo,
evitarás errores costosos y const
y consecuentes En conclusión, el principio
Guigo sirve como recordatorio de la relación
simbiótica
entre la calidad de los datos y la eficacia de los sistemas de aprendizaje automático Al priorizar la
calidad de los datos, las organizaciones pueden el valor de sus
inversiones en aprendizaje automático tomar decisiones informadas y mantenerse vanguardia en los datos y el panorama En el mundo del aprendizaje
automático, los datos de
calidad
no son solo un activo. Es la base sobre la que se construyen los sistemas de
inteligencia. Eso es algo muy
importante de entender. Los datos de calidad
no son solo un activo. Se requieren datos de calidad. Los datos de calidad no son solo
un conjunto u otro requisito. Es la base
sobre la que creamos todos estos sistemas de IA, modelos de aprendizaje
automático, modelos de aprendizaje
profundo, sistemas de
recomendación, todas esas cosas en las
que vamos a trabajar y que vamos a utilizar Todo
depende de la calidad de los datos. Los datos son la base y lo esencial para
el ecosistema de ciencia de datos. Espero que tengas que saber cómo
podemos mitigar el concierto y cómo podemos obtener los
datos de calidad de datos para nuestros modelos de aprendizaje automático,
datos para nuestros modelos de
aprendizaje automático Gracias dentro de
la próxima conferencia.
126. Algoritmos de aprendizaje supervisado: Hola y bienvenidos de nuevo. En esta conferencia,
vamos a aprender sobre el algoritmo de
aprendizaje supervisado. Será el camino hacia las predicciones inteligentes a través del aprendizaje automático. Hacemos
predicciones inteligentes, ¿verdad? Empecemos. Tenemos la comprensión básica
del aprendizaje supervisado. Pero antes de pasar
a los algoritmos, entendamos cuál es el concepto fundamental
del aprendizaje supervisado. El aprendizaje supervisado es
un concepto fundamental en el mundo del aprendizaje
automático. Es el rem, donde las computadoras aprenden de datos etiquetados
para hacer predicciones. O es el punto de partida
de las predicciones, ¿verdad? Lo muy básico es el aprendizaje
supervisado. Es decir, proporcionaremos los modelos de aprendizaje automático con
los datos etiquetados y esos
algoritmos de aprendizaje
automático de datos a través como qué tipo de
etiqueta tienen los datos. Entonces con base en eso, cuando lleguen
los nuevos datos, analizará el
patrón aprendido en, mientras se entrena y luego
tomará la decisión. ¿Bien? Y sustenta numerosas aplicaciones
en nuestra vida diaria. En esta conferencia, veremos más
de cerca los algoritmos de
aprendizaje supervisado. Explorando lo que
son y cómo funcionan, y algunos de los ejemplos comunes
de aprendizaje supervisado. ¿Qué es el aprendizaje supervisado? aprendizaje supervisado
es el tipo de aprendizaje
automático que
ya hemos cubierto en
la conferencia anterior. Donde se entrena el algoritmo
en nuestro conjunto de datos etiquetados. En otras palabras, los
datos de entrada se emparejan con la salida u
objetivo correcto, el algorgate El algoritmo aprende a mapear los datos de entrada a
la salida correcta, aprendiendo
efectivamente
de los ejemplos. Este proceso de aprendizaje permite que
el algoritmo haga predicciones o decisiones cuando se le presenta un
nuevo dato invisible La mecánica del aprendizaje
supervisado. aprendizaje supervisado se
puede
dividir en pocos componentes clave. El primero son los datos como
los datos son la base
de todos estos datos del
ecosistema de ciencia de datos, IA, aprendizaje automático. El conjunto de datos de etiquetas sirve como
campo de entrenamiento para algoritmos. Incluye ambas entidades de entrada, por ejemplo, atributos
variables, todas esas cosas. Y los valores objetivo correspondientes, por ejemplo, etiquetas
y categorías. Bien, los datos son el punto de
partida. Luego viene la selección del modelo, Un algoritmo de
aprendizaje supervisado específico basado en la naturaleza
de su problema. Los algoritmos comunes incluyen
decisión tres, región lineal, regresión
logística, máquinas vectoriales de
soporte
y redes neuronales. Todos estos son los
algoritmos
de aprendizaje automático que
aplicamos en un modelo modelo. Seleccionaremos en función la naturaleza del problema
que vamos a resolver. Capacitación. Durante
la fase de entrenamiento, el algoritmo analiza
los datos de entrada, aprende a reconocer el patrón que está disponible en los
datos, la relación. También, analizará
o decidirá límites. Y cuáles son los límites
definidos para la
toma de decisiones que conducen a
la salida correcta. Ajusta iterativamente
su parámetro interno para minimizar los errores de predicción Luego viene la prueba
y evaluación. Después del entrenamiento, el modelo se evalúa en un conjunto de datos separado que no se usa
durante el entrenamiento. Entonces es por eso que dividimos todo
el conjunto de datos en
dos partes antes de proceder al entrenamiento que es
el conjunto de datos de entrenamiento y el conjunto de datos de prueba en el
conjunto de datos de entrenamiento, probamos el modelo en
el conjunto de datos de prueba. Lo probamos a ****** su capacidad de generalizar
a nuevos datos no vistos Varias métricas de desempeño
como precisión, recisión y recuerdo se utilizan para el modelo de
evaluación después del entrenamiento prueba y evaluación
es uno de los pasos muy, muy importantes en el aprendizaje
supervisado. Ahora bien, ¿cuáles son los tipos
comunes de algoritmos de aprendizaje
supervisado que utilizamos durante el aprendizaje
supervisado? Cuando seleccionamos aprendizaje, cuando seleccionamos datos, seleccionamos el modelo,
seleccionamos el algoritmo. ¿Cuáles son esos
algoritmos que utilizamos? Existe una amplia gama de algoritmos de aprendizaje
supervisado, cada uno adaptado a diferentes
tipos de problemas. Cada algoritmo funcionará en todos y cada uno de los
problemas, cada problema. Necesitaremos un enfoque específico para resolver un problema
en la vida cotidiana. Además, no se puede resolver todo el problema en
un mismo enfoque. la misma manera en
el machine learning, mientras se usa el aprendizaje
supervisado, no
podemos resolver todo el problema a través de un problema de algoritmo. Cada
problema específico, necesitaremos una forma específica de
abordarlo, ¿verdad? Para el caso, hay muchos algoritmos y
en base a nuestro requerimiento, podemos elegir el
más adecuado para nuestro problema. Y a veces puede que
no estemos seguros de qué
algoritmo funcionará. En ese caso, los científicos de datos aplicarían a tres algoritmos. Y analizarán el
resultado y las predicciones. Y cualquiera que esté dando las predicciones
más correctas, se
moverán con ese
algoritmo en el juicio es la forma más común de finalizar qué tipo de algoritmo
debemos usar en nuestro modelo Aquí hay algunos ejemplos notables,
como la regresión lineal, uno de los algoritmos de aprendizaje
supervisado muy populares. Entonces la regresión logística, árbol de
decisión es muy importante. VMs de vectores de soporte de bosque aleatorio Las VMs de vectores de soporte de bosque aleatorio son redes
neuronales muy importantes Y los K vecinos más cercanos. Estos son los muy
populares algoritmos de aprendizaje automático supervisado de
aprendizaje automático que utilizamos en la resolución de problemas. Utilizando el
aprendizaje supervisado, ¿qué es regulación utilizada para predecir valores
continuos que también hemos
discutido anteriormente ¿Correcto? Hay dos
tipos de valores. Valores continuos, significa los valores numéricos y
los valores categóricos, donde tenemos las categorías claramente definidas
de los datos La regulación lineal se utiliza para predecir valores
continuos Aquí. Ahora tenemos muy claro que cada vez que tenemos los valores
continuos, necesitamos predecir algunos
precios de una acción, precio de una casa de cosas donde están involucrados los
números. Podemos usar la regulación
lineal. Podemos pensar en la
regulación lineal como uno de los algoritmos de resolución de
problemas para aprendizaje
automático mediante aprendizaje
supervisado. Regulación lineal
utilizada para predecir valores
continuos
como los precios de las casas, en
función de características como la ubicación de pies
cuadrados Asume una relación lineal entre la entidad de entrada
y la entidad de destino. En el caso de la predicción del
precio de la casa, es una relación bastante lineal. Siempre que vayas
a una ubicación premium, tus precios serán altos. Cuando vayamos a las ubicaciones de menor
presupuesto, tasa será alta. Si vas
por un pie cuadrado área
de construcción,
entonces el precio de tu casa va a subir pie cuadrado, menos precio. Es una relación lineal entre la entidad de entrada y
la entidad de entrada de destino. En este caso, en
casa una predicción es pie cuadrado de la
ubicación de la casa, ¿verdad? Ya sea una llanta,
una ciudad a ciudad. Todos estos son la
entidad de entrada y la entidad de entrada. Nuestros precios subirán y bajarán. Este es un enfoque
que podemos utilizar, la regulación lineal
para valores continuos. El logístico,
regationrimarilyedinaryssifbre logístico, problemas donde tenemos una especificación muy clara de
que hay una situación de sí o no donde se puede
decir sí o
no o se puede clasificar en términos de correo electrónico spam o no spam problemas donde tenemos
una especificación muy clara de
que hay una situación de sí o no donde se puede
decir sí o
no o se puede clasificar en términos de correo electrónico spam o no spam. Hay una
clasificación muy específica que
queremos hacer. O queremos categorizar ese correo electrónico proveniente de una persona desconocida como
spam o no spam A esto se le llama
clasificación binaria, los dos tipos de
clasificación que hacemos, spam o no spam. Binario es muy claro
que tenemos que poner en para poner en una de las
categorías, ¿bien? En este caso, es un
spam o no spam, ¿de acuerdo? En caso de aprobación de
préstamo, préstamo aprobado o no aprobado,
aprobado o rechazado. En el problema de solicitud de préstamo, es binario Clasificación
será préstamo aprobado, préstamo rechazado,
aprobado y rechazo. Esa será la clasificación
binaria. regulación logística
modela la probabilidad de que una entrada pertenezca
a una clase específica. La clase es spam. Spam, bien,
Decisión. La decisión. El algoritmo versátil. Estos son muy
versátiles utilizados
tanto para clasificación como para regrationasketil Región lineal y región
logística somos. De manera que esa región
lineal, región lineal que podamos usar para los valores continuos regresión
logística, podemos usar para los problemas categóricos o de
clasificación Pero a veces los enfoques regionales lineales
y logísticos
no son lo suficientemente educados
para el problema. Necesitamos un mejor enfoque. En ese caso, la decisión Rich
entra en el cuadro. Son
algoritmos muy versátiles y decentes
se pueden utilizar tanto para tareas de clasificación
como de región. La decisión crea una estructura similar a un
árbol para las decisiones y los resultados
basados en la entidad de entrada. Basado en la función de entrada, obtendrá la estructura
similar a un árbol. En base a eso se puede
predecir la salida. Bosque aleatorio, bosque aleatorio Gimble
método de ejecución que combina múltiples
árboles de decisión para mejorar la precisión y reducir las máquinas
vectoriales,
soportar máquinas vectoriales Los svms son muy efectivos
para la tarea de clasificación. Sbm encuentra el
hiper carril óptimo que mejor separa los puntos de datos pertenecientes a diferentes clases En este caso,
estaremos clasificando el,
uh, conjunto completo de datos
en diferentes clases Y SBM encontrará óptima línea
óptima de hiperplano que
separará los puntos de datos pertenecientes a diferentes clases
diferentes red neuronal, el aprendizaje profundo, las redes
neuronales, particularmente alimentan las redes neuronales y las redes neuronales
convencionales. cnns son herramientas poderosas para
tareas como la
recogación de imagen y voz , vamos a resolver un problema de reconocimiento de imagen Tenemos que lidiar con esas
redes neuronales
en redes neuronales profundas. También tenemos los dos enfoques. Dos enfoques alimentan la red neuronal y la red neuronal
convolucional Es decir N. Luego vienen los K vecinos
más cercanos utilizados para la clasificación
y regresión. Ambos problemas pueden ser abordados por no hace predicciones basadas en la clase mayoritaria o el valor medio del
punto
de datos K más cercano en el conjunto de entrenamiento Predice los valores
basados en la clase mayoritaria o el valor medio
del punto de datos K más cercano
en el conjunto de entrenamiento Algunos de los ejemplos del mundo real, aplicaciones del aprendizaje
supervisado en caso de diagnóstico médico, predicción del resultado G basado en datos
del paciente como la
detección de cáncer es uno de los ejemplos del diagnóstico
médico que utilizamos el aprendizaje
supervisado Con base en los datos del paciente, predecimos que
sea cáncer o no, procesamiento del lenguaje
natural, PNL se utiliza para el procesamiento del lenguaje natural Utilizamos análisis de sentimientos, clasificación de
textos y traducción
automática Este es también un ejemplo
de aprendizaje supervisado. Reconocimiento de imágenes,
identificar objetos, rostros y anomalías en
imágenes y videos, es
decir, reconocimiento de imágenes Otro ejemplo de
aprendizaje supervisado, puntaje crediticio, evaluación de la
solvencia crediticia de las personas con base en los datos
financieros y personales Ese es también un ejemplo de un aprendizaje supervisado que
se está utilizando mucho en el sector
financiero al acceder a los datos
financieros personales y datos personales para definir su puntaje crediticio
basado en el puntaje crediticio, deciden que la persona
es elegible para préstamo hipotecario, préstamo
personal, o un préstamo
comercial o no. Luego,
los sistemas de recomendación que recomiendan películas de
productos se contienen en
función de las preferencias del usuario Ese es el aprendizaje
supervisado más utilizado hoy en día. En todas partes vemos el sistema de recomendación
ser los sitios web de comercio electrónico, Amazon, ebay, voltear todos esos. Recomiendan productos basados en el sistema de recomendación y que internamente utilicen el aprendizaje
supervisado. Entonces las películas,
Netflix, Hot Star, todas esas cosas están
usando sistemas de recomendación. Después el contenido basado en la
barda, como anuncios de Facebook, Youtube, videos de Youtube
basados en tus referencias. Estas son las aplicaciones
del mundo real del aprendizaje supervisado. Ahora lo que podemos citar
de esta conferencia es que algoritmos de aprendizaje
supervisado son horas de
trabajo de aprendizaje automático, permitiendo el aprendizaje de computación, permitiendo que las computadoras aprendan de datos
etiquetados y hagan predicciones con
notable precisión. Las aplicaciones abarcan industrias, abarcan industrias y dominios, lo que las convierte en una herramienta esencial
para extraer conocimientos, automatizar tareas tomar decisiones basadas en datos
en nuestro mundo rico en datos A medida que el aprendizaje automático
continúa avanzando, los algoritmos de aprendizaje
supervisado seguirán siendo una piedra angular de la innovación y la resolución de
problemas en los campos de
la
inteligencia artificial y la ciencia de datos Espero que hayas llegado a
conocer los
algoritmos de
aprendizaje automático súper amplios que utilizamos. Y veremos en la próxima
conferencia se, en la siguiente.
127. Regresión lineal: Hola y bienvenidos de nuevo. En esta conferencia, vamos a aprender sobre la regresión lineal, que es fundamental
del modelado predictivo. Empecemos. ¿Qué
es la regresión lineal? Antes de eso,
entenderemos que la regresión lineal es una piedra angular del análisis
estadístico y el modelado predictivo, desempeñando un
papel fundamental en la comprensión relación entre
las variables y la realización En esta conferencia, nos convertiremos en el mundo de la regresión
lineal. Explorando sus principales
aplicaciones y cómo permite a los científicos de
datos bloquear
información valiosa de los datos región lineal es muy importante para el científico de datos o incluso para los ingenieros de machine
learning, ya que con la región
lineal
podemos entender y podemos predecir, podemos firmar un modelo mejor
productivo. Bien, comencemos de nuevo
entendiendo la región lineal. Como dice, la región lineal es método
estático utilizado para modelar la relación entre una variable dependiente
que se llama x, la variable dependiente que a menudo
se denota por
y, y una
variable independiente más, típicamente denotada x. X. Y será la variable dependiente y x será la Bien, Arión lineal es
el método estadístico para definir la
relación entre la variable dependiente x
y la variable independiente Y. ¿Qué significa
cuando cambiamos la x ¿Cómo la Y está cambiando
esa relación? Tratamos de encontrar esta técnica de
modelado que tiene como objetivo
encontrar la regulación
lineal que mejor ajuste que describa las variables
relacionadas. Con la regulación lineal, tratamos de encontrar la ecuación lineal que mejor se
ajuste que pueda definir
la relación entre x e y
cuando x está cambiando forma en que Y está cambiando
esa relación. Se intenta definir por esta ecuación ecuación lineal
la ecuación de regulación se denota por y. Queremos encontrar la y,
cómo está cambiando en
base a la x.
La ecuación de regulación lineal es beta 0 más beta en e
en x más error Bien, ya veremos
cuáles son los beta
0 y beta uno y
cuáles son los épsilon, esto es en realidad error Ahora bien, esta ecuación nos dará el valor y cuando pongamos X beta cero y beta
uno más error. ¿Bien? Aquí está el independiente, Y es el dependiente, independiente Y es la variable
dependiente o la variable objetivo, ¿bien? El valor que queremos
predecir en base a la X, bien, es la variable dependiente o variable objetivo que la
llamamos, ¿verdad? Y entonces beta cero
es la intercepción que representa el valor
de Y cuando X es cero, será en la siguiente conferencia, en la siguiente diapositiva, beta uno
es la pendiente que indica cuánto y cambia
para una unidad de cambio de x y épsilon
representa el Este es el término de error que
da cuenta de la variabilidad en y que no se explica por la regulación
lineal con x
Ver aquí, esta es
la región lineal,
esta es la línea de regración. Ver aquí, esta es
la región lineal, esta es la línea de regración Esta es la X que es la variable
independiente en la X, X, esta en la y. X está
cambiando la forma en que Y está cambiando. Eso es lo que
queremos predecir aquí, Eso es lo que
queremos definir aquí. Esta es variable dependiente, esta es X
variable independiente en esta ecuación, beta cero más beta uno en x
Ver aquí, el cero beta es
la intercepción independiente. Ver aquí, el cero beta es
la intercepción independiente Esta es la interceptación donde
está interceptando las y Xs. Eso es lo que es la beta cero. Si consideras este punto aquí, será el beta cero, este será el beta cero. Y beta uno será la pendiente. ¿Cuál es la pendiente?
¿Para el eje x? ¿Bien? Cuánto x, y cambia
cuando x1x está cambiando. Cuando x está cambiando, ¿cuánto está cambiando Y?
¿Eso es qué? Beta uno. ¿Bien? Aquí, este es el punto real y esta
es la línea de degración Nuestra predicción es ésta. Para x se llama a uno, estamos consiguiendo y aquí. Pero punto real en nuestro
conjunto de datos que se encuentra aquí, esta distancia entre
este valor predicho y el valor real se llama término de
error o error, y denotada por este
épsilon cuando agregamos beta
cero más beta uno en Un término, nosotros, obtenemos
el punto de regración, ¿de acuerdo? Lo entendiste bien. Esta es la línea de regration y esta distancia de pantalla se
llama épsilon Y los puntos de tasa son el punto de
datos que tenemos, estos puntos de datos, tratamos de
encontrar la línea de mejor ajuste,
esa es la línea de regración para definir las relaciones entre
la x y, ¿de
acuerdo las relaciones entre
la x y, Aplicaciones de región lineal. La regresión lineal tiene una amplia gama de aplicaciones en
varios dominios. Al igual que en la economía, los economistas
utilizan la regresión lineal para analizar el impacto de variables
como las tasas de inflación, las tasas de
interés y el gasto del
consumidor en indicadores
económicos
como las finanzas del PIB En finanzas, la regresión lineal
ayuda a modelar los precios de las acciones, predecir los rendimientos de los activos y factores de riesgo de los
activos
que afectan la inversión. Las carteras de inversión
en recursos médicos y
médicos se emplean
en regresión lineal para predecir el resultado del paciente en
función de factores como la edad, genética y el protocolo de
tratamiento En marketing, los especialistas en marketing
utilizan regresión lineal para evaluar la efectividad
de las campañas publicitarias,
analizar el comportamiento del cliente, las ventas, las ciencias sociales Los científicos sociales aplican la regulación
lineal para estudiar fenómenos
como las tasas de criminalidad, los resultados
educativos
y la tendencia prótica En ingeniería, los ingenieros utilizan la regulación
lineal para modelar propiedades
físicas
como la relación entre la temperatura
y la resistencia del material. Construyendo y evaluando modelo de regulación
lineal. La construcción de un modelo de
regulación lineal implica los siguientes pasos. La recolección de datos, lo primero es recolección de
datos recopilada
el conjunto de datos que incluye variable
independiente y y una variable
independiente más X, la variable independiente X e y, necesitamos esta es la recolección de
datos. Luego la exploración de datos,
explora los datos, usa estadísticas descriptivas y visualizaciones para conocer la relación
entre las variables Luego viene el modelo de flexión. Utilizar software estadístico. Utilice software estadístico
o lenguaje de programación como Python o R para crear software de regresión
lineal, estimar el valor
de beta cero y
beta uno que mejor se ajuste a los evaluación del modelo
es el siguiente paso donde acceder al
rendimiento del modelo usando matrices. Métricas como un coeficiente
de determinación, R cuadrado medio error cuadrado,
o Raíz de error cuadrático medio, RMSC Estas métricas cuantifican qué tan
bien se ajusta el modelo a los datos. Interpretación, interpretar
el coeficiente beta cero y beta uno Para entender la fuerza y dirección de la relación entre
las variables de predicción, utilice el modelo de tendencia para hacer predicciones para los
nuevos puntos de datos. ¿Cuáles son los retos
para esta región lineal? Si bien la región lineal es una
herramienta versátil y poderosa, tiene limitaciones. Asume que un tiempo lineal
puede que no siempre se mantenga cierto
en escenarios del mundo real. Adicionalmente, puede que no capture relación
compleja o no. En conclusión, la regulación
lineal es una
técnica fundamental en el mundo de la estática y el modelado
predictivo Su simplicidad, interpretabilidad
y amplia gama de aplicaciones
lo convierten en una
herramienta esencial para extraer
información valiosa de los datos Y
tomar decisiones informadas en diversos
campos e industrias. Si bien sirve a la, sirve como un
escalón para avanzar, avanzar hacia las técnicas avanzadas de
modelado. Dominar la regulación lineal es una habilidad fundamental para cualquier científico de
datos o analista Entendimos los fundamentos de regresión
lineal y cuáles son las aplicaciones
para la región lineal, cómo construimos un modelo de
regresión lineal y cuáles son los desafíos que tiene. En la próxima conferencia, intentaremos hacer la región usando
nuestra programación, ver dentro de la siguiente conferencia.
128. Regresión lineal en R: Hola y bienvenidos de nuevo. En la conferencia anterior, hemos aprendido a detalle sobre
la regresión lineal Hemos entendido el
concepto en teoría. Ahora haremos un ejemplo sencillo de regresión
lineal y
veremos cómo podemos implementar la región lineal
usando la programación R. R proporciona una amplia
gama de paquetes y funciones para el análisis de
regresión lineal Aquí te estoy dando una
guía para realizar región lineal
paso a paso
usando programación R. El primer paso debería
ser la preparación de los datos. Como los datos son la base para
todos los signos de datos, aprendizaje
automático, visualizaciones de
datos, aprendizaje
profundo, lo que sea
relacionado con la ciencia de datos El primer paso es la preparación
de datos. Los datos son muy importantes. Para ello, vamos a utilizar archivo
CSV que va a contener
un conjunto de datos muy sencillo. ¿Bien? El primer paso es
preparar tu cinta, es preparar tus datos, cargar tus datos en R. Entonces debería estar
muy formateado, debería estar teniendo las variables dependientes e
independientes. Bien, aquí estamos usando datos, CSP que he cargado Al usar re file
en R, todos cargamos. Esa es una función que nos
permite leer los datos, bien, De un archivo CSV estoy
creando una variable aquí, data. Y estoy usando el archivo CSV para leer los datos de este archivo, y estoy almacenando el
resultado en los datos. Bien, vamos a ejecutar esto. ¿Bien? Te proporcionaré el archivo
CSV de datos. Puedes
descargarla de la clase y
puedes usarla, ¿de acuerdo? Es necesario colocar el CSP de datos en
el directorio de su proyecto para que lo lea correctamente y le dé la ruta completa a ese directorio Y se leerá, bien. De lo contrario,
dará el camino equivocado. Te va a arrojar el error. Bien, archivo, no a, solo todos esos
errores que obtendrás. Lo siguiente es que veremos
qué hay dentro de estos datos. Usaremos la función
head head y pasaremos los datos de este objeto. Y luego cuando ejecutamos esto, podemos ver lo que
hay en nuestro conjunto de datos es un conjunto de datos bastante simple
que está teniendo x e y. X es la
variable independiente e Y es la variable dependiente
basada en x. Y está cambiando aquí. Bien, para cada x, trazaremos y e intentaremos
encontrar una región lineal. línea de retroceso representará, que representará esta
relación entre x e y. Se ajustará mejor para todos
estos puntos, puntos, En base a eso, si le das algún otro valor x que no
esté ahí en el, predecirá
el valor y, ¿bien? Lo siguiente es la construcción de modelos. Para ello, vamos
a utilizar la función LM. Función L para modelo
lineal. ¿Bien? Lm significa modelo lineal. La función Lm está ahí en la que
vamos a utilizar para la regresión lineal o
crear el modelo lineal. ¿Bien? Se escribe como función
LM LM que utilizamos para construir un modelo de
regresión lineal. En este ejemplo, vamos a predecir la
variable dependiente y en base la variable independiente x Bien, para construir un modelo de
regresión lineal, vamos a crear un objeto
modelo aquí. Y luego usaremos la
función L M y diremos que X, Y es dependiente de x datos que los
datos darán como datos, objeto de
datos
que hemos creado aquí. ¿Bien? Los datos son iguales
a los datos e Y depende de x
Ahora vamos a ejecutar esto. Creará nuestro modelo. Ahora quiero ver el
resumen de nuestro modelo. ¿Bien? Para eso podemos usar la función summary y pasar este objeto modelo
aquí. Vamos a ejecutar esto. Este es el resumen
de nuestro modelo. Aquí se puede ver
la media residual, mediana y el primer cuartil Tercer cuartil y valores
máximos, ¿bien? El valor máximo es 24.469 Bien. Entonces podemos ver el coeficiente estimado
error estándar y valor R. ¿Bien? Toda la interceptación, todo lo que se ve,
estas son las cosas Veremos cómo solo
miras las cosas y
veremos cómo podemos determinar las cosas en
base a este
primer cuartil conocido,
tercer cuartil y Bien, el siguiente paso es la evaluación del
modelo. Ahora puede evaluar el
desempeño del modelo examinando estadística resumida incluyendo
los valores del valor del
coeficiente
R al cuadrado El siguiente paso son las predicciones. Usaremos la función predict
para hacer predicciones. Con su modelo, puede especificar un
nuevo valor x que no está presente en el conjunto de datos
para el que queremos. Predecir el valor y aquí. Vamos a crear un, un
nuevo objeto aquí, nuevos datos de subrayado aquí Voy a usar el marco de datos aquí, x. Voy a proporcionarnos
102030 x valores Aquí estoy dando tres valores. Estoy dando 1,020.30 Para
estos tres valores, quiero predecir para
diez, ¿cuál será la Para 20, qué será, y para 30. Entonces usaré las predicciones. Bien, usaré la predicción. Almacenaré los nuevos valores
en las predicciones. Y usaré el
modelo predict predict function two, los valores y basados
en el valor x. Para ello, usaré nuestro modelo
que hemos creado aquí. Bien, en la función alum
hemos creado este modelo. Voy a usar ese modelo para
predecir los valores. Pasaré el modelo
para predecir la función. Y los nuevos datos son iguales
a los nuevos datos de subrayado. Los nuevos datos de subrayado que
estamos pasando X vector. ¿Bien? Este vector pasará
por estos nuevos datos. Ahora esto nos dará los
nuevos valores predichos. Bien, ahora tenemos
las predicciones. Imprimimos las predicciones
aquí. Hagamos esto. Vamos a ver aquí ahora podemos ver el valor de
predicción 22.8 para 102,035.5 Déjame poner esto
en el chunk para que podamos ver el
resultado aquí mismo Ver aquí. Ahora estamos obteniendo
los tres valores para y x. Cuando x es diez, estamos obteniendo el valor y, 22.78 Cuando
miras los datos aquí, no
hay diez, ¿verdad No 2030. Pero ves un 38. Para 38, es 56. 30 está en lo correcto, ¿verdad? Para 20 estamos obteniendo 35.65
Por diez estamos recibiendo 22. Ahora vamos a visualizar
esto trazándolo. Usaremos la función plot
y nosotros los x e y y
daremos el encabezado
como región lineal y Xlab e Ylab Alta Intente trazar la línea de región
lineal usando la función Able. Para la función Able para
trazar la línea de regresión Alec, usamos el modelo que
hemos
creado y especificaremos el color como el
regrlineilllottdlt'seeeow'etlegrelinere usamos el modelo que
hemos
creado y especificaremos el color como el
regrlineilllottdlt'seeeow'etlegrelinere, nuestros modelos de regresión lineal. Ahora, cuando puedas predecir
cualquier valor de x aquí para 30, este será el
valor de y para 35. Esta será la intercepción. Cuando pones una línea de aquí a aquí y donde está cruzando, ese será el valor
predicho, 50 para todas esas cosas. Algunos de los valores están
muy lejos de aquí, desde esta línea roja hasta lo que será la
distancia para este punto. Eso se llama error, ¿verdad? Épsilon que hemos visto
en nuestra parte de teoría, ¿verdad? La distancia entre el punto
y la línea de regresión, épsilon o error, Así es como podemos usar la región lineal
para predecir el valor. Ahora bien, si tomas algún
valor x y pasas por aquí, encontrarás el valor y en esta regresar, los valores
predichos. Bien, Ahora la región lineal es una poderosa herramienta
para el análisis
y predicción de datos , el modelado
predictivo Con R, puedes
realizar fácilmente lineales, evaluar la relación entre las variables y hacer
predicciones basadas en tu modelo. En esto hemos visto la
introducción de información básica a la región lineal, pero hay mucho más por
explorar incluyendo manejo diagnósticos del
modelo de Colinealidad
Monte, avanzadas La regresión lineal es solo una faceta del rico panorama del análisis
estadístico
y el aprendizaje automático que podemos hacer mucho
más de estas cosas Veremos algunos ejemplos más
también para regresión lineal. Espero que conozcas
cómo podemos crear el modelo de región lineal y cómo podemos predecir los valores. Cómo podemos trazar una línea de
regresión aquí para predecir los valores ver dentro de la siguiente conferencia
129. Predecir la altura de una persona usando regresión lineal: Hola y bienvenidos de nuevo. En la conferencia anterior, hemos visto cómo podemos
crear un modelo de excavación lineal,
bien, para predecir
valores de Y basados en la X. Bien, Aquí X era la variable independiente e Y fue la variable dependiente. Ahora vamos a avanzar un paso más, un pequeño paso hacia el hijo. En este ejercicio,
lo que haremos, trataremos de predecir la altura
de la persona usando grados lineales Usando nuestra programación por supuesto. Bien, lo primero es que
cuando trabajas en un proyecto, obtendrás el conjunto de datos real. Aquí. Lo que estoy haciendo, no estoy
usando los datos del mundo real. En cambio estoy generando
un conjunto de datos sintéticos. La mayoría de las veces obtenemos
los datos en tiempo real. Pero para la práctica y
todo, cada vez, no
podemos trabajar en un conjunto de datos muy
grande, ¿verdad? En ese caso, lo que hacemos,
creamos nuestro propio conjunto de datos, bien, con los valores aleatorios, e intentamos crear
modelos y trabajar en él. Bien, luego
implementamos lo mismo usando
los datos del mundo real. Para este ejemplo,
voy a utilizar conjunto de datos
sintéticos con valores de
edad que van 18-65
Tendremos los valores de edad para las personas de 18
años a 65 años ¿Bien? Y luego lo que haremos, crearemos los valores de
altura correspondientes usando una relación lineal. Bien, primero
crearemos unos valores de edad, 18-65 Por cada valor intentaremos crear un
soporte de altura correspondiente 18 años, persona tendrá la altura, 19 años, sitio así Bien. Crearemos la altura
correspondiente aleatoria para la persona de una edad determinada usando una relación
lineal. Después agregamos algo de ruido aleatorio. Cada dato nunca
será el perfecto,
correcto, algo de ruido en los datos. Tendremos alguna
irregularidad en los datos. Añadiremos algo de ruido aleatorio para simular con el conjunto de datos del mundo
real. Porque en el conjunto de datos
del mundo real, nunca
tendremos
los valores correctos, tendremos el ruido
en el conjunto de datos. Debemos tener la
ambigüedad en nuestro conjunto de datos. Bien, crearemos
esa ambigüedad usando el ruido aleatorio para simular
los datos del mundo real Creamos un marco de datos llamado
data a partir de las variables H y
height Luego realizaremos la
grationUsinLMFunction lineal, donde predecimos la altura
H Resumimos el modelo de región usando el
modelo de resumen. Nosotros hemos hecho todo esto
en el ejercicio anterior como lo mismo que vamos a hacer aquí pero en una
perspectiva diferente, ¿verdad? El resumen, usaremos el resumen para resumir
nuestro modelo de regeneración. Y pasaremos este modelo
que hemos creado durante la función Lm y
veremos los policías y las estadísticas. Predecimos la altura
para un nuevo valor de H. Una vez que creamos un modelo, lo que haremos,
pasaremos un nuevo valor de edad, supuesto de 30 años
o 35 años, e intentaremos predecir
la altura para la edad. Para eso usaremos
la función predict. Finalmente,
imprimiremos y visualizaremos la regresión lineal, ¿de acuerdo? Predecir la altura y visualizar esa línea de regresión también. Bien, comencemos con lo primero que
haremos
generará un conjunto de datos sintético. Para eso, estoy usando set 123. Qué va a hacer, establecerá
el set para la
reproducibilidad, ¿de acuerdo? Cada vez producirá
los mismos datos de configuración. ¿Bien? Aquí tomará
de la gama 18 a 65. Aquí el alumbrará del 18 al 65. Entonces para la altura voy a 15150 lo convertiré en una línea
básica mínima La gente tendrá 150 bien. Altura, 150 centímetros. Entonces tendremos el
plus 0.5 en H aquí. Usaremos la
función norm aquí. Daremos la longitud de H, luego usaremos el cero medio
y la desviación estándar cinco. Esto generará la
altura sintética para cada una de nuestras edades. Bien, aquí estamos,
pasando la H aquí. Bien, vamos a ejecutar esto. Ahora hemos creado
el dataset sintético. Ahora lo que voy a hacer, voy a
crear un dataframe. Voy a almacenar en el marco de
datos es igual a h, y la altura es igual a la altura. Esta altura, bien, es igual
a h es igual a esta. Bien, vamos a ejecutar esto también. Ahora veremos el conjunto de datos, lo que hemos creado. Ejecuta esto, mira aquí ahora para 18. La altura aleatoria. Esto lo hemos
generado desde hace 1920 años. Esto, bien. Ahora tenemos
el conjunto de datos en nuestras manos. Lo siguiente que
haremos, crearemos un
modelo de regación lineal para eso Voy a usar una variable
aquí modelo y voy a usar la función LM para crear
nuestro modelo de ación lineal. Aquí voy a dar altura, altura como el valor
que se quiere predecir son variables dependientes y
como variables independientes. Y los datos son iguales a los datos. Vamos a crear este modelo
ejecutando esta pieza de código. Ahora que se crea,
déjame quitar esto. Bien. Eso lo he hecho antes. Bien, ahora nuestro modelo está listo. Ahora nuestro modelo está listo. Ahora, veamos el
resumen de nuestro modelo. Aquí puedes ver todos
esos valores coeficientes y valor de valor de era estándar,
todas esas cosas, ¿bien? Nuestros valores al cuadrado. Bien, Lo que voy a hacer ahora, ya tenemos el modelo
listo con nosotros. Quiero predecir la edad
de una persona de 30 años. Para eso, voy a crear
una nueva era variable. Y voy a usar la función de marco de datos de marco
de datos aquí. Pasaré un 30 y
luego predije la altura. Quiero predecir la altura
para esta persona de 30 años. Voy a usar la función predict. Sobre qué base voy a predecir. Usaré el modelo para
predecir la altura. Voy a pasar este
modelo que hemos creado aquí usando la función LM. ¿Bien? Y los nuevos datos son
iguales a la nueva era aquí. Pasaré la nueva era como 30. Paso esta variable que
está conteniendo el valor. Bien, vamos a ejecutar esto. Ahora lo que voy a hacer, voy a tratar de imprimir la altura
predicha. Obtuvimos la altura predicha. Si ves aquí, la altura
predicha está bien. Déjame correr. Esta altura pronosticada para una persona de 30 años es 165.29 De esta manera
hemos pronosticado la estatura de la persona de 30
años Si tienes los datos en tiempo real, puedes usar esos datos aquí. ¿Bien? Derecha. Y entonces puedes predecir, ahora déjame poner algún otro
valor como yo quiero
poner como datos de persona de 49 años. Ahora es 165. Veamos cuál
será el valor para 49, para persona de 49 años, la estatura será
174.84 8,174.47 Entonces esa es la altura predicha. De esta manera podemos
predecir la altura. Ahora vamos a trazar aquí la línea de
regulación. He escrito un trozo de código donde si no has
instalado el GG plot dos, puedes escribir este código. Qué hará esto si
se requiere parcela GG, instalará el paquete
y usará la biblioteca, ¿bien? Y si ya está ahí, entonces está bien,
va a usar eso. Bien. Entonces aquí usaremos la función de gráfica G GG.
Voy a pasar los datos. X será la H e y, x será la altura
y el punto de ir, método
gomo LM, color azul para la línea regresora y todos estos encabezamientos, ya
sabes, ¿verdad? El mínimo que hemos
visto en la sección de parcela GG. Nuevo es marco de datos igual a 30 y altura predicha.
Voy a usar el modelo. Bien, entonces lo imprimimos. Bien, vamos a ejecutar esto. Veamos aquí. Aquí
también estamos consiguiendo la estatura de persona de 30, 30 años de edad. Y mira aquí estamos consiguiendo
la línea de regresión. También aquí, la regresión
predice la altura en función de la edad. Esta es la edad del eje X
y esta es la altura para cada edad obtendrá un
punto en la línea de regresión. Esa será la
altura pronosticada para el soporte 52 años. Vendrá aquí, esta
será la altura, 52 años, persona 62 años. Vendrá aquí
así, ¿de acuerdo? Vendrá aquí así, ¿de acuerdo? De esta manera podemos predecir
aquí si quieres, puedes dar cualquiera y
va a predecir. Espero que entendieras la regresión lineal y te
veas dentro del siguiente tramo.
130. Regresión logística: Hola y bienvenidos de nuevo. En esta conferencia vamos
a aprender sobre región logística. Entenderemos cuál es
la matemática detrás esta matemática detrás de la clasificación
usando región logística. Bien, así que comencemos. La regulación logística es un
poderoso método estadístico utilizado para
tareas de clasificación binaria como la detección de spam. Al igual que podemos ver el correo electrónico, utiliza esta
clasificación de correo electrónico, como cuando recibes el correo electrónico, lo clasificará
como auténtico o spam Entonces todos los
correos de spam irán a las carpetas de spam, ¿verdad? Entonces ese es un ejemplo de regulación
logística o una clasificación
binaria. Diagnóstico médico,
ya sea un o algún dígito específico o
ese tipo de clasificación. También podemos hacer entonces la clasificación del
ancho de banda es también la evaluación del riesgo mientras se
da el préstamo o tarjeta de crédito. Los bancos e
instituciones financieras, hacen la
evaluación del riesgo crediticio encajan, encajan, o aprueban o
rechazan cosa, bien, para averiguar si el prestamista podrá reembolsar
el dinero o no A pesar de su nombre,
no es una regresión en
el sentido tradicional, sino un algoritmo de clasificación. Aunque el nombre es
regresión logística, en realidad, no
es una regresión
en sentido tradicional, sino que es un
algoritmo de clasificación. En esta conferencia,
exploraremos los fundamentos de la regresión
logística,
las matemáticas, los fundamentos y las aplicaciones del mundo real donde todos podemos usar la regresión
logística, entendiendo la clasificación
binaria En la
clasificación binaria, tratamos problemas donde el objetivo es asignar observaciones a una o dos clases
o categorías. Por ejemplo, clasificar los correos
como spam o no spam,
predecir si un
cliente va a abandonar como spam o no spam, o permanecer compañía de telecomunicaciones determinando
si
el resultado de una prueba médica
es positivo región logística nos ayuda a
resolver este tipo de problemas
modelando la probabilidad de
que una observación pertenezca a una clase particular. Las cosas como
spam o no spam. Prueba médica, análisis de sangre es una enfermedad en particular
es positiva o no como en el caso del covid, fue covid positivo
o covid negativo. Esa clasificación binaria
y regresión logística
nos ayudan a resolver
este tipo de problemas modelando la probabilidad de
que una observación pertenezca a una clase particular. función de la región logística es el corazón de la región
logística. Y la clave de la regresión
logística radica
en la función logística, también conocida como función sigmoidea Esta función sigmoidea es muy importante en la región logística, que mapea cualquier entrada
a un valor 0-1
0.1 en 0-1 mapeará, ¿bien? La
función de región logística se define como p de y igual a uno igual a uno por uno más e a la potencia menos beta
cero más beta uno en x. Recuerdas este Beta
cero más beta uno en x Lo usamos en la ecuación
lineal, pero aquí la fórmula
tiene un cambio. Es uno, y más e a la potencia menos beta cero
más beta uno en x p de y. qual uno es la probabilidad de que la observación pertenezca a más uno Aquí Significa que
esto dará la probabilidad de la
observación de que
pertenece a clase en e.
Esta fórmula dará la probabilidad beta cero es interceptar que ya vimos
en la regresión lineal Beta uno en x representa la combinación lineal
de entidades de entrada. curva sept de la función logística comienza cerca de cero y aumenta
gradualmente y se acerca
sintomáticamente a uno Va a ir como esta curva
sinusoidal a la derecha? Después entrenando un modelo de
regresión logística. Para entrenar el modelo de
recreación logística, utilizamos un conjunto de datos con ejemplos
etiquetados. Para cada ejemplo,
calculamos la probidad de pertenecer a la clase uno
usando la función logística Luego definimos una función de pérdida, es
decir, una pérdida de entropía cruzada Para medir el rendimiento del
modelo, el objetivo es encontrar
el valor de beta
cero y beta uno que
minimice la función de pérdida Esta optimización se realiza
típicamente usando métodos
numéricos o algoritmos de
optimización
como el descenso de gradiente. Este es otro término muy
importante. Veremos aplicaciones
de región logística. La regresión logística es ampliamente utilizada en diversos dominios como ya
hemos comentado en el
diagnóstico médico prediciendo un soporte de resultados de enfermedad, por
ejemplo, la diabetes Con base en datos de pacientes como resultados de
pruebas o historial médico, alimentamos los datos
y nos dará si se trata de una permeabilidad
diabetes, diabética o no marketing y el
análisis de clientes identifican potenciales charnes dirigidos a publicidad y la segmentación de
clientes Todas estas cosas podemos usar la
regulación logística en las finanzas. Ya hemos discutido la
evaluación del riesgo crediticio, detección de
fraudes
e incumplimientos de préstamos, procesamiento del lenguaje
natural,
PNL, clasificación de texto, por
ejemplo, un
análisis de sentimiento, la detección de spam es una aplicación común de PNL utilizando el análisis de imagen de
región logística en regulación logística puede ser utilizada para la
clasificación binaria de tareas. Si das imágenes
de apoyo de humanos y animales
basadas en el Ca determinado, definirá si esta imagen pertenece a la categoría humana
o categoría animal. Así. Interpretar cofficiens
logísticos, interpretar coeficientes logísticos de
recreación logística, beta cero
eficiente
y beta uno en relación
logística Por ejemplo, en un modelo de evaluación de
riesgo crediticio, uno
beta podría
representar el impacto de los ingresos en la
probabilidad de incumplimiento. Una beta positiva indica que un ingreso mayor reduce
el riesgo de impago. ¿Cuál es la conclusión? El catión logístico es una herramienta
volátil e interpretable para problemas de
clasificación binaria Siempre debemos
recordar que esto es por el problema de
clasificación binaria. Es una base matemática y capaz de estimar
probabilidades, lo
convierten en un
componente esencial para
predecir el modelado en
ciencia de datos y aprendizaje automático Si bien es un algoritmo
fundamental, sus aplicaciones
son de gran alcance, contribuyendo a una mejor toma de
decisiones en todas
las industrias y dominios. A medida que continuamos escapando de
nuestras soluciones basadas en datos. regresión logística
sigue siendo un activo valioso para abordar los desafíos de
clasificación del mundo real Todo esto se trata de una teoría, parte de la relación logística. En la siguiente conferencia, haremos una simple práctica usando R e intentaremos implementar
una regresión logística. Ve la siguiente conferencia.
131. Predicción de pérdida de clientes con regresión logística: Hola y bienvenidos. En esta conferencia
vamos a escribir nuestro programa de regresión logística. Y trataremos de predecir si un cliente
va a producir o no Entonces veamos, este es nuestro mientras el proyecto está
prediciendo cliente san Bien, entonces aquí lo que hacemos, creamos un conjunto de datos de muestra con dos variables y
en donde John es un resultado binario
que es cero o uno representa si un
cliente produjo o no Bien, entonces eso es lo que
estamos tratando de hacer. ¿Bien? Utilizamos GLM, GL, GL es modelo de ración general ¿Bien? Utilizamos GLM aquí, función
GLM para ajustar un modelo de ración
logística,
donde modelo sobre una
función de edad, el argumento familiar
se establece Para especificar regresión logística. El argumento establecido en lógica indica la función de enlace
logístico. Bien, mostramos un resumen del modelo de regresión
logística usando función de
resumen y pasaremos el modelo logístico a
esta función de resumen para ver los valores de los coeficientes
y otras estadísticas. Hacemos predicciones
para nuevos datos. Y usaremos los datos 38.62 y veremos si los
dos un cliente con el 38.62 cuál es la probabilidad mediante el uso de la función predict con el argumento type como respuesta Bien, esta rentabilidad
predijo probabilidad de John para estos dos clientes. Y luego imprimimos, bien, veamos aquí. Estoy creando datos de muestra para clasificación del color de la
banda
aquí también. Estamos usando set seed
123 y data y estoy usando data frame y
estoy creando estos dos vectores y churn aquí En edad estoy dando la H aquí, le
estoy dando el valor de John
01 para los grupos de edad. ¿Bien? El churn es resultado binario
como ya discutimos Y entonces vamos a ejecutar esto. ¿Bien? Ahora hemos creado un conjunto de datos de
muestra. ¿Bien? Ahora lex está creando
un modelo logístico para eso. Usaremos la función GLM
y en la función GLM, sobre qué base va a crear esta cosa la creación logística
basada en la H, Aquí, los datos serán los
datos y la familia será el enlace binomial
igual a Esto quiere decir que vamos
a la regresión logística. Bien, vamos a ejecutar esto ahora. Nuestro
modelo de regresión logística está listo. Ahora lo que haremos,
pasaremos este modelo logístico a función de
resumen para ver el resumen de este modelo de
regresión. Aquí puede ver
los valores Cocopic, los errores de
intercepción, el
valor de chorro y los valores R Bien, aquí se puede ver este parámetro de
persona para la prohibición, tomado como una desviación
interna y los valores C de desviación residual Todas estas cosas,
cosas que puedes ver. Lo siguiente que quiero ahora nuestro modelo
logístico está listo. Quiero predecir si el cliente va a
producir o no Voy a pasar los dos H 38.62 y voy a ver la
probabilidad para los datos Voy a crear un nuevo dato. Voy a pasar los dos
vectores a H a, voy a almacenar en los nuevos datos. Después pasaré estos nuevos datos
a la función predict. Voy a pasar las dos cosas, modelo
logístico que hemos creado y los nuevos
datos que hay aquí, el pase y escriba una
respuesta. Entonces ejecutamos esto. Ahora tenemos los valores
predichos en este
apuntalamiento predicho para que
intentemos imprimirlo. Vamos a ejecutar esto. Ver la probabilidad de
producir el cliente H 38 viene a 0.077 clima, mientras que el cliente de 6022
años de edad, está alrededor del 97% Aquí podemos decir fácilmente que
el cliente con H 62 va a estar produciendo ya 100% 97% es casi
98% 97.75% aquí, la probabilidad de enviar
al cliente con 62 es
casi 98% Cliente
con 38 es casi 98% Cliente Bien. Aquí llegamos a señalar
que con los dos datos, la probabilidad es muy menor 38. Si cambio a 18 y
supongo que voy a cambiar a 52. Ahora lo voy a ejecutar de nuevo y ya
veremos ahora la probabilidad
de 18 incluso se reduce. Para el 0.004 6% aquí
es 76% Lo que concluimos a partir de aquí, más
la probabilidad de que el cliente esté produciendo afuera
estará ahí para 28.72 Incluso los 72 años de edad, estamos recibiendo casi
el 99% de probabilidad que el cliente con 72
esté produciendo para 28 Es casi como cero
para obtener la probabilidad,
más probabilidad para los clientes
menos envejecidos. Cuanto mayor sea la edad, más
será la probidad de que el
cliente esté produciendo Así es como podemos usar la región
logística para predecir si un cliente
va a producir o no Espero que haya entendido cómo
usar la función GLM para
Los para región logística ver
dentro de la siguiente conferencia
132. Algoritmo de KNN: Hola y bienvenidos de nuevo. En esta conferencia,
vamos a conocer sobre k vecinos más cercanos en especie. Lo llamamos el algoritmo
simple efectivo para la clasificación y
regulación tanto. Bien, A hemos visto
región y luego hemos visto la
etiqueta de regulación logística para clasificación. Ahora veremos el non
que se puede utilizar
tanto para clasificación como para región, ambos problemas. Bien, comencemos. Vecino más cercano o algoritmo
efectivo simple para problemas de clasificación
y región. En el mundo del
aprendizaje automático y la ciencia de datos, las navas o
en algoritmo más cercanas se erigen como
una de las
técnicas más simples y
notablemente poderosas para resolver problemas clasificación y
regresión Tanto cuando se tiene
los problemas que pueden ser de clasificación
y regresión, tanto entonces podemos utilizar en
ella es un algoritmo
no paramétrico basado en instancias que se basa en la proximidad
para hacer predicciones Se trata de la proximidad. Veremos cómo funciona. En esta conferencia, exploraremos los fundamentos de
Canon y cómo funciona, sus variaciones y las aplicaciones del mundo
real Como su nombre indica, en su núcleo está el algoritmo
directo. Realiza predicciones basadas en la clase mayoritaria
para clasificación. Y la media para la regresión básicamente se
encarga de dos cosas. Para los problemas de clasificación, las
predicciones se basan en la clase mayoritaria para
los problemas de regresión, significa como la base, bien, de los k
puntos de datos más cercanos de una consulta dada. El k en el k NN representa el número de vecinos
más cercanos
considerados al hacer predicciones En este vecino
más cercano, k representa el número de vecinos
más cercanos considerados al hacer predicciones
para la clasificación, estos son los pasos que seguimos El primero es la representación
de datos. Comience con un conjunto de datos etiquetado
donde cada punto de datos tenga una etiqueta de clase y luego una métrica de
distancia. Elija una
métrica de distancia, por ejemplo, incluyendo distancia o distancia de patrón de
hombre para medir la
similitud entre los puntos de datos en la predicción. El siguiente es la predicción. Para clasificar un nuevo punto de datos, calcule la distancia entre el punto de datos y todos los demás
puntos del dataset Seleccione los K
vecinos más cercanos en función del voto
mayoritario de menor distancia. Determinar la clase
de un nuevo punto de datos tomando voto mayoritario
entre las clases, sus vecinos más cercanos K Para representación de
datos de regresión. De nuevo comienzan con
el conjunto de datos de etiquetas, pero esta vez las etiquetas
son valores continuos, eso es numérico, ¿de acuerdo? Las métricas de distancia utilizan las mismas
métricas de distancia en simétricas, como hemos visto en
la clasificación Esa es la distancia Ec
o distancia Manhattan, para medir la similitud
entre los puntos de datos. Bien, Luego viene la predicción. Predecir un nuevo valor
de punto de datos. Calcular la distancia
entre ese punto y todos los demás puntos del dataset. Seleccione los K vecinos más cercanos en
función de la distancia más pequeña, luego el valor medio para completar el promedio medio de las etiquetas de los K vecinos
más cercanos. Entonces se
tomarán todos los vecinos más cercanos y luego se medirán, esos se calcularán. Entonces esto significa que
este valor medio, cualquiera que sea el
valor medio obtendrá, se convierte en la predicción
para el nuevo punto de datos. ¿Bien? Variaciones de,
Hay tres variaciones de no. El primero es Canon ponderado, segundo es métrico de distancia, y el tercero es Fit
Scaling en el Canon ponderado asigna diferentes pesos
al vecino
en función de la distancia. Los
vecinos de distancia y cierre pueden tener mayor
influencia en la predicción. Entonces la segunda
son las métricas de distancia. Experimente con las distintas métricas de
distancia para adaptar el algoritmo
para especificar tipos de datos, tipos de
datos o dominios. La escala de entidades normaliza
o estandariza las entidades para garantizar que ninguna entidad domine el cálculo de
distancia Aplicaciones del mundo real
de no hallazgos, aplicaciones en una
amplia gama de dominios, como sistemas de recomendación
como Netflix o Facebook, o incluso las tarjetas Amazon
y Flip. Todos estos sitios web de comercio electrónico, las plataformas Ott en el sistema de
recomendación, recomendando productos,
películas están contenidas en
base al comportamiento
o preferencias habituales Allí también, podemos utilizar la
imagen y el reconocimiento de voz. Después el diagnóstico médico. anomalías,
detección de anomalías en el tráfico de
la
red de transacciones financieras
o procesos industriales de procesamiento del lenguaje natural También se pueden resolver los problemas de
PNL Este canon clasifica documentos de
texto, análisis de
sentimientos y traducción de
idiomas Entonces otro ejemplo real es el monitoreo
ambiental, predicción de la calidad del aire, el
pronóstico del tiempo y el monitoreo de
la contaminación Todos estos problemas,
podemos usar el cañón. Bien, los retos. Si bien Canon es un algoritmo de
estilo, tiene algunas limitaciones. Puede ser computacionalmente
costoso, especialmente con el
gran conjunto de datos, ya que requiere calcular distancia de todos los puntos de
datos, Eso va a ser bastante costoso
de calcular, ¿verdad? Porque para cada
punto de datos necesitamos calcular el curso de la dimensionalidad. A medida que la
característica del número de dimensiones fomenta, la efectividad de no puede
atenuarse debido al curso
de la dimensionalidad Elegir k, seleccionar el valor
apropiado para K es crucial y puede afectar
el rendimiento del modelo. Bien, manejar
datos desequilibrados puede tener dificultades con el conjunto de datos desequilibrado
donde una clase supera
significativamente en número ¿Bien? Todos estos son los
desafíos para los no Canon es una valiosa adición a la caja de herramientas de aprendizaje
automático debido a su simplicidad
y versatilidad. Pero tiene algunas limitaciones que ya hemos entendido. Es particularmente
útil cuando se trata un conjunto de datos de
tamaño pequeño a moderado conjunto de datos pequeño y mediano puede ser muy, si tiene el conjunto de datos
que es pequeño o moderadamente mediano
o no tan grande, entonces non puede ser realmente útil para la recreación
y la tarea de clasificación Al comprender el
principio detrás on y sus diversos datos, los científicos y los profesionales del
aprendizaje automático pueden aprovechar su poder para hacer predicciones precisas
y clasificar los datos manera efectiva en
diversas aplicaciones Todo esto se trata de no teoría. Intentaremos hacer las manos también
usando nuestra programación. Ver dentro de la siguiente conferencia.
133. Implementación de kNN: Y bienvenidos de nuevo. En
la conferencia anterior, hemos visto sobre el algoritmo. En esta conferencia, vamos
a implementar la no utilización nuestro algoritmo de programación K
vecino más cercano para la clasificación. ¿Bien? Los pasos, te diré cuáles son los pasos que vas a seguir en este ejemplo. Lo primero que cargamos el paquete de
clase que proporciona la función in para la
clasificación. Utilizamos el popular
conjunto de datos irlandés que
ya hemos utilizado en nuestras
conferencias en esta clase. Al principio,
debe conocer el conjunto de datos
Iris que está disponible en R y
contiene la medición de flores de iris junto con las etiquetas de
sus especies. Dividimos el conjunto de datos en conjuntos de
entrenamiento y pruebas, con 70% de los datos utilizados
para entrenar el conjunto de datos. Nos dividiremos en conjuntos de
entrenamiento y pruebas, donde el 70% de los datos
utilizarán para la capacitación y 30% de los datos serán para
el propósito de prueba. Por lo general en el ejemplo del mundo real, tomamos 80% de los datos para
entrenamiento y 20% para pruebas, pero 70 30 también está bien. Dependiendo del requerimiento de tu proyecto o tus datos, puedes decidir si
quieres tomar 60% para capacitación, 70% para capacitación,
para 80% de capacitación. Para que puedas decidir en base tu requerimiento y a
las necesidades del negocio. Aquí definimos el número
de vecinos, es decir k, que determina
cuántos vecinos más cercanos considerar
a la hora de
hacer predicciones. Decidir el número de
vecinos de Uber es muy
importante mientras que hacer el nonce determina
cuántos vecinos más cercanos considerar porque
impactará en las predicciones ¿Correcto? Después realizamos
la clasificación nueve usando nueve función donde especificamos
los datos de entrenamiento, pruebas, datos, niveles de clase, y el
valor de K. Para este ejemplo, tomaremos k cinco, vecino
más cercano considerado
será el cinco. Después de eso, evaluamos la precisión del
modelo comparando las especies predichas con especies
reales en
el conjunto de pruebas. Luego creamos una métrica de
confusión para evaluar aún más el
rendimiento del modelo. Bien. Al ejecutar este código, obtendrá precisión del clasificador canino
y matriz de confusión
que muestra qué tan bien clasificó el modelo
las diferentes especies de flor de
iris en el conjunto de prueba Ahora comencemos aquí. Lo primero es que si la
clase no está instalada, se instalará
y luego lo hará. ¿Bien? Ejecutemos esto
y obtengamos la carga de datos. La función data data
utilizará datos y pasaremos el
nombre del conjunto de datos, es decir iris. Vamos a ejecutar esto también. Entonces estaremos dividiendo el conjunto de datos en conjuntos de
entrenamiento y prueba. Eso primero que
tendremos que hacer es establecer set 123. Bien, ese es un paso bastante
esencial. Entonces creamos una variable u objeto muestra índices de
subrayado Aquí tomaremos la muestra
uno para inscribir iris. Y el tamaño tomará
0.7 Eso significa que el 70%
del conjunto de datos de Iris para los datos del tren de
entrenamiento será
el iris de los índices de muestra. Estos índices
entrarán en el iris y 70% de los datos se convertirán en los datos de entrenamiento los datos
serán el iris de menos
los índices de muestra. ¿Bien? Por eso aquí estamos
usando el signo menos. ¿Bien? Restante será 30% Vamos a correr esto como
el número de vecinos, es
decir k aquí estoy
definiendo igual a cinco. Bien, vamos a ejecutar esto también. Ahora realizaremos la clasificación de
nueve. Aquí voy a crear una
variable u objeto predicho subrayado especie Aquí voy a usar la función
nueve aquí. Tren es entrenar
datos de subrayado uno a cuatro. Prueba para probar datos de subrayado, uno a cuatro clases será el tren subrayado especies de
datos, Con base en las especies que
vamos a clasificar. ¿Bien? Entonces cual dos k, esto se convertirá en cinco ¿Bien? Ahora vamos a ejecutar esto. Y ahora
evaluaremos la precisión del modelo mediante el
uso de alguna función. Las especies pronosticadas son iguales a los datos de
prueba en dólares de especies
divididas por N hasta los datos de prueba. Bien, veamos, entonces lo
imprimiremos con precisión en 200. Bien, mira aquí ahora estamos
obteniendo la precisión para este modelo es de 97.78
Eso es bastante bueno Ahora vamos a imprimir la matriz de
confusión mediante el uso de una
función de tabla realmente igual a los datos de prueba de especies P. Bien, vamos a crear la
matriz de confusión aquí, ver aquí. Ahora la
matriz de confusión se puede ver aquí para Setosa 14 casi, se ha categorizado
la especie correctamente Sólo uno ha clasificado erróneamente. De lo contrario, todo está
clasificado correctamente. Esta es la forma en que podemos
implementar el non.
134. Árbol de decisión y bosques al azar: Hola y bienvenidos de nuevo. En esta conferencia,
vamos a aprender sobre árboles de decisión
y bosque aleatorio. Estos dos son mejores amigos, trabajan juntos y son simplemente increíbles para el aprendizaje
automático. Sus aplicaciones son
utilizadas y son muy útiles y útiles si estás
trabajando en un aprendizaje automático, especialmente en el aprendizaje
supervisado. Bien, comencemos a aprender sobre estos dos poderosos
do machine learning. Primero entenderemos qué es disentería y el bosque aleatorio en el anillo del aprendizaje automático La disentería y el bosque aleatorio
son dos herramientas formidables que han revuelto la toma de decisiones de
datos Estos algoritmos son ampliamente utilizados para la clasificación
y regresión. Tarea hemos entendido
lo que es tarea correcta? Clasificación significa
donde necesitamos clasificar en dos
o más segmentos, como cred verdadero o falso,
aplicación, aceptado
o rechazado Es una amenaza spam cosas, ¿
verdad? Tarea de regresión. Lo hacemos por lo continuo, para las cosas numéricas, ¿verdad? Estos algoritmos
son ampliamente utilizados para tareas de
clasificación y
regresión, haciéndolos dispensables
para diversas aplicaciones En este artículo, en esta conferencia exploraremos los principios de
trabajo y las aplicaciones del mundo
real
de los bosques disidentes. Exploraremos cuál es el concepto detrás de los
grados y el bosque aleatorio. ¿Cuáles son los
principios de trabajo detrás, detrás de los
árboles de decisión y el bosque aleatorio? ¿Y cuáles son las aplicaciones
del mundo real de los árboles de decisión
y el bosque aleatorio? Entonces comencemos con
los árboles de decisión. El árbol de decisiones es una
estructura similar a un árbol como
puedes ver aquí, ¿de acuerdo? El nodo padre,
luego el nodo hijo, y luego el nodo hijo, ¿de acuerdo? Crecerá así, ¿verdad? Un árbol de decisiones es una
estructura similar a un árbol que se utiliza
para apoyar la decisión. Bien. Aquí, un ejemplo sencillo. Si vas
a comprar algo, si tienes confusión, quieres comprar, comprar, comprar. Ahora la decisión es dos cosas, por o no por correo electrónico, spam, spam así, ¿de acuerdo? Descompone un
complejo proceso de toma de
decisiones en
secuencia de sim. Cada nodo en el árbol representa una decisión o un gusto
sobre un atributo, cada rama representa
un resultado, cada rama es
un resultado. ¿Bien? Aquí estos son los
resultados, ¿verdad? La prueba de decisión sobre el atributo, Cada rama representa
un resultado y cada nodo hoja representa un nivel de clase o
una decisión, ¿bien? Estos son los nodos. Estas
son las hojas, ¿de acuerdo? Cómo los edificios Desiree, los árboles se construyen utilizando el enfoque
recursivo de arriba hacia abajo llamado partición
recursiva como se
puede ver aquí es un tipo de enfoque de
arriba hacia abajo Es un recursivo seguiría
repitiéndose, ¿verdad? Los árboles de decisión se construyen, se construyen de arriba
hacia abajo enfoque recursivo llamado partición recursiva Estamos particionando recursivamente
cada nodo para los nodos. Algoritmo derecho selecciona
el mejor atributo en cada paso para dividir
los datos en subconjuntos En cada paso, el algoritmo de decisión tres seleccionará el mejor atributo en cada paso Para dividir los datos, dividirá los datos en
base al atributo en datos homogéneos como sea posible con respecto
a la variable objetivo. Teniendo en cuenta la
variable objetivo, dividirá los
datos en un subconjunto. También se asegurará de que el subconjunto sea homogéneo, bien. Ayudará a lograr
la variable objetivo. Selección de atributos. diversos criterios
como gini, impureza, entropía y ganancia
de información para determinar el
mejor atributo para la división El objetivo es minimizar la impureza o maximizar la ganancia de
información Tercero es la poda. El árbol de decisión puede volverse demasiado complejo y herirse
al sobreajuste La poda consiste en eliminar
ramas que no contribuyen significativamente
a mejorar la precisión, lo que lleva a una rama más simple o
más generalizable La poda es cosa sencilla, que si
sigues creciendo un árbol, puede crecer en cualquier dirección. Pero si quieres mantener un
árbol en una muy buena caja fuerte, necesitamos cortar
las ramas extra de la
misma manera en árboles de decisión. Además, si lo mantenemos creciendo, se volverá demasiado complejo
y propenso al sobreajuste Entonces ahí es donde
viene la poda. Podar significa
retirar las ramas que no contribuyen
significativamente. Algunas ramas pueden no ser útiles. Posteriormente podaremos
esas ramas, lo que conducirá a las aplicaciones
modelo más simples y
generalizables de
la aplicaciones
modelo más simples y
generalizables disidente En muchos dominios se pueden
encontrar las aplicaciones de diferentes scienter en muchos
dominios como la medicina, el
diagnóstico de la enfermedad con base
en los síntomas del paciente
y el historial médico en la sección financiera,
la puntuación de tarjetas de
crédito, la detección de
fraudes, inversión haciendo un
ejemplo de En todos estos dominios, podemos
utilizar el marketing de disentería, la segmentación de
clientes, la
focalización y la
predicción de churn se
puede hacer manufactura, el control de
calidad y optimización del proceso de
producción se pueden hacer a través de series, los signos
ambientales, la clasificación de
especies y el monitoreo ambiental
se pueden hacer con la
ayuda de la disentería Estas son las aplicaciones de la decisión Árbol ahora cubre
el bosque aleatorio. El bosque aleatorio es como gimble. Si bien
los árboles de decisión son poderosos, pueden ser sensibles a
pequeños cambios en los datos. bosque aleatorio aborda esta
limitación combinando múltiples árboles de decisión para crear un modelo de
conjunto robusto y preciso. Vea aquí, este es
un árbol de decisión, pero combinación
de bosque aleatorio de muchos árboles de decisión. ¿Correcto? Lo que hace, el árbol de decisiones es a esto
es algo muy pequeño. Cambiará drásticamente sus resultados, procesará los nodos y todo Todo va a
cambiar. Si haces algún cambio en el conjunto de datos,
todo va a cambiar. Para superar esta limitación, bosque
aleatorio aborda esta
limitación combinando múltiples
árboles de decisión para crear un modelo
revoltijo robusto y preciso Creará árboles de
decisión similares y hará una cosa robusta de bosque
aleatorio. Habrá muchos árboles, y por eso se
llama bosque aleatorio porque muchos grupos de árboles lo
harán bosque, derecho. ¿Cómo funcionan los bosques aleatorios? Muestreo Bootstrap. El bosque aleatorio comienza
creando múltiples muestras de
arranque, muestras aleatorias para su reemplazo
a partir de los datos de entrenamiento. Comenzará a crear las muestras de bootstrap a partir
del conjunto de datos de entrenamiento. Selección de características aleatorias
para cada árbol en el bosque. considera un subconjunto aleatorio de
entidades en cada nodo a la hora de decidir
el mejor árbol. construcción de múltiples árboles de
decisión se construyen forma independiente con su
propia muestra de arranque y selección aleatoria de características. Después la votación y el promedio. Para las tareas de clasificación, bosques
aleatorios utilizan voto
mayoritario entre los árboles para
la regrationaskyuseveragingeere Utiliza la votación para
el promedio de regreationag
para hacer predicciones ¿Cuáles son las ventajas
del bosque aleatorio? Se reducirá el sobreajuste, esa es la limitación
con el centinela Los bosques aleatorios
son menos propensos al sobreajuste en comparación con
los disses individuales Generalizaciones mejoradas
y robustez los datos Los bosques aleatorios proporcionan información sobre la importancia de las características
que ayudan en la selección de características Aplicaciones de bosque aleatorio. Los bosques aleatorios son
ampliamente utilizados en muchos dominios como el análisis de
imágenes,
las finanzas, la ecología, el
marketing y la atención médica. En el análisis, el reconocimiento de objetos, la clasificación de imágenes y la extracción de características se
pueden hacer en finanzas. Nuevamente, se puede hacer
la predicción de los precios de las acciones, detección de fraude de riesgo
crediticio Ecología, nos gusta el modelado de
distribución de especies y las evaluaciones de
biodiversidad se
pueden hacer en marketing, predicción de
clientes y sistema de
recomendación en cuidado de
la salud prediciendo el resultado
del paciente y el diagnóstico G se puede hacer Bien, ¿Cuál es la conclusión? Estos dos centinela dinámicos y el bosque aleatorio son dinámicos en el mundo
del aprendizaje automático Mientras que Gentry proporciona interabilitysitrandomest mayor precisión
y robustez, la
comprensión del
algoritmo de árboles y su aplicación equipa a los científicos de
datos y a los profesionales del aprendizaje
automático
con poderosas herramientas para resolver problemas profesionales del aprendizaje
automático
con interabilitysitrandomest
mayor precisión
y robustez, la
comprensión del
algoritmo de árboles y
su aplicación equipa a los científicos de
datos y a los profesionales del aprendizaje
automático
con poderosas herramientas para resolver problemas del mundo real en diversos dominios. A medida que la toma de decisiones basada en datos continúa salvando el mundo de
la energía, la versatilidad y efectividad
de los árboles de decisión y bosque
aleatorio aseguran
su relevancia duradera en el campo del aprendizaje
automático Estos dos son muy,
muy importantes algoritmos
de aprendizaje automático
decentes y bosque aleatorio. Espero que cubramos la base
de estos dos ver conferencia.
135. Admite el algoritmo de máquinas vectoriales: Hola y bienvenidos de nuevo. En esta conferencia
vamos a aprender sobre el soporte de la máquina vectorial. Bien, déjame bien,
ignora esta. ¿Bien? Vamos a aprender sobre el algoritmo de
máquina vectorial de soporte. Máquina vectorial de soporte, o SPM. En, lo llamamos, es uno de los
algoritmos de aprendizaje
supervisado más populares el cual se utiliza tanto para la clasificación
como para problemas de regresión. No obstante, principalmente
se utiliza para problemas de
clasificación
en el aprendizaje automático, se puede usar tanto para
regresión como para clasificación, pero principalmente lo usamos solo para
clasificación, ¿de acuerdo? Así que la mayoría de las veces vas a estar usando para
problemas de clasificación, SPM se puede utilizar para la
clasificación La mayoría de las veces, el 99%
del tiempo estará usando uno o 2% de 5%
Los casos estarán ahí donde
puedas usarlo más, estarán ahí donde
puedas usarlo más. Problemas de regresión también, pero eso es muy raro
en el mundo real, ¿de acuerdo? El objetivo del
algoritmo SBM es crear el mejor
límite de decisión de línea que pueda segregar espacio
dimensional en
clases para que podamos poner
fácilmente el nuevo punto de datos en la categoría correcta
en el futuro Este mejor límite de decisión
se llama hiper carril. Es como crear una
hiper le, crear una línea. Supongamos que está trazando
los puntos de datos en el espacio x e y u y está dibujando, hemos visto en la regresión
lineal, ¿verdad Estábamos dibujando una línea que
dividía los puntos de datos
de la misma manera SBM Además, se tratará de
encontrar una línea que pueda dividir el conjunto de datos está bien. Ese es el objetivo de la SPM. El límite de dicción se
llama hiperlínea. Spm elige los puntos de datos
extremos o vectores que ayudan a
crear la hiperlínea. Los casos extremos se
denominan vectores de soporte. Sbm. El algoritmo
de máquina de vectores de soporte elige los puntos de datos extremos o vectores que ayudan a
crear el hypo Estos casos extremos se
denominan vector de soporte. Primero encontrará
los puntos extremos o vectores y estos vectores
se denominan vectores de soporte. Para crear el algoritmo de
hiperlínea es la máquina de vectores de soporte a término Bien, encontrando los vectores de
soporte, es por
eso que este algoritmo se conoce como support
vector machine. Considera el siguiente
diagrama en el que
hay dos
categorías diferentes que se clasifican usando
límite de descenso o bombo Ver aquí Ahora tenemos el X uno y X dos. Y aquí se puede ver ahí, esta es la línea de margen máximo. Esta línea es la línea de
margen máximo y este es el hipervínculo
positivo de hiperlínea de margen máximo Estos son los vectores de soporte. Estos son los vectores de soporte. Estos puntos que
hemos encontrado. Estos son los vectores de soporte. ¿Bien? Este lado,
esto es negativo. Hipolositiveypolineximumrgin
será el hiper carril, margen máximo, hiperlineal, ver aquí. Ahora bien, este hiper carril está dividiendo estos dos puntos de consigna,
¿verdad? Preciso. Estos puntos se conocen
como vectores de soporte. Bien, primero encontramos
el vector de soporte y con los vectores de soporte
intentaremos encontrar el hipervínculo Bm se puede entender
con el ejemplo que hemos usado en clasificador
canino Supongamos que vemos un gato extraño que también tiene algunas
características de perro. Supongamos que tenemos una foto de un gato que tiene algunas
características quísticas del perro. Además, si queremos
querer un modelo que pueda identificar con precisión
si se trata de un perro gato, dicho modelo se puede crear
mediante el uso de un algoritmo. Primero entrenaremos a nuestro modelo con muchas imágenes
de gatos y perros para que pueda conocer diferentes características
de gatos y perros. Y luego lo probamos con
esta extraña criatura, que es similitud tanto
con gato como con perro, pero en realidad es un gato. Como vector de soporte crea un límite distinto
entre estos dos datos, gato y perro eligen
casos extremos, vectores de soporte. Se verá el caso extremo de gato y perro sobre la base
de vectores de soporte. Lo clasificará como un gato. Considera el siguiente diagrama. Ver los datos de esta etiqueta pasada. Estos son los datos rápidos capaces como este es perro
y este es un gato. Aquí estamos creando un modelo
y dándole entrenamiento que esta criatura es perro
y esta criatura es un gato. Está leyendo todas
las características de estas dos imágenes y nuestro modelo
se está entrenando ahora. Nuestro
modelo de predicción predecirá que es un gato. Cómo va a hacer. Supongamos que estamos dando
una imagen que es
muy similar al
gato y tanto al perro. Tiene algunas características de perro. También lo que hará, verá las
características extremas de un gato. Clasificará
las características de un gato. Clasificará, encontrará el hiper carril que se basa en las características, características
extremas Se decidirá si
es un gato o un perro. El extremo
coincidirá con el gato. Categorizará eso como si no estuviera emparejando con el
gato, características extremas Entonces categorizará
eso como perro con el PM, Incluso con este extraño gato, que es muy
parecido con el perro B.
Con la ayuda de los vectores de
soporte y el hiperled con precisión que
es un gato, no un Vamos a entender ejemplo,
soporte de máquinas vectoriales, como aplicaciones de
soporte máquina vectorial, SBM se puede utilizar para la clasificación de
imágenes Como hemos visto hace un momento, SBM se han utilizado para la clasificación de
imágenes Tareas como el
reconocimiento de escritura a mano y la detección de
objetos, como el análisis de sentimientos, detección de
spam y la categorización de
documentos Bio, poética, PM se emplean para el reconocimiento de
veces de proteínas, clasificación
génica
y En el sector financiero, los PM se
utilizan para la codificación de crédito, predicción
bursátil y para detección en el segmento de
atención médica Se han utilizado en el diagnóstico y pronóstico de la DG con
base en los datos médicos, el procesamiento del lenguaje
natural
y LP SPM juegan un papel en reconocimiento de entidades
nombradas
y la categorización de textos Entendamos cuáles
son los tipos de SPM. Smm puede ser de dos tipos. El primero es la regresión
lineal. El SPM no lineal se puede
clasificar en dos tipos, SPM
lineal, dije regresión,
es SBM, SPM lineal y SPM no lineal SPM
lineal, dije regresión,
es SBM, SPM lineal y SPM no lineal. El SBM lineal se utiliza para datos separables
linealmente. Lo que significa que si un conjunto de datos se puede clasificar en dos clases mediante el uso de una sola línea recta, entonces tal dato es un
término linealmente Separable Data Classifier clasificador usado
aquí se llama lineal Si los datos son
linealmente lucha de clases, somos capaces de
clasificar los datos con hiper carril
linealmente separable,
una línea recta, entonces se denomina Y el clasificador utilizado
aquí se
llamará SBM lineal SVM lineal no lineal se usa para datos no
separados linealmente, lo que significa que si el
conjunto de datos no se puede clasificar usando
una línea recta, entonces dichos datos se
denominan datos no El clasificador utilizado en este caso
se conoce como SPM no lineal. Veremos en qué se diferencian estos dos. Bien, hipercarril y vectores de
soporte. En el algoritmo SPM,
sabemos lo que es hiper línea la cual
dibujamos hiper Puede haber múltiples líneas
o límites de decisión para segregar clases en el espacio
n dimensional, pero necesitamos encontrar el
mejor límite de decisión que ayude a clasificar el punto de datos Este mejor límite se conoce
como el hiper carril de SPM. Las dimensiones del hiperplano dependen de las entidades
presentes en el dataset Lo que significa que si hay dos entidades como
se muestra en la imagen, entonces la hiperlínea
será la línea recta Si hay tres entidades, entonces la hiperlínea será el plano
bidimensional. ¿Bien? Siempre creamos una
hiperlínea que tenga un margen máximo, lo que significa que la distancia
máxima entre los puntos de datos ¿Bien? Bien. Vector de soporte. Los puntos de datos son datos vectoriales, los más cercanos a la hiperlínea, que afectan la posición
de la hiperlínea, que están muy
cerca de la hiperlínea,
van a afectar la posición hialina de la
hipo línea de efectiva Estos puntos de datos son vectores que
se denominan vectores de soporte, ya que estos vectores soportan
el hiperleupportvector Bien, ¿cómo funciona SPM? Primero veremos el SVM lineal. El funcionamiento del algoritmo SPM
se puede entender
usando un ejemplo Supongamos que tenemos un
conjunto de datos que tiene dos tachuelas, verde y azul Aquí hemos tomado estos dos colores marrón
y marrón más claro. ¿Bien? El conjunto de datos
tiene dos características, X una y t. Quiere
clasificar el par x el maíz
en verde o azul Supongamos que esto es verde
y azul, ¿de acuerdo? Los colores, he escrito
un poco mal aquí, gris y gris más claro, ¿de acuerdo? Bien, supongamos que esto es
azul y verde, ¿de acuerdo? Ahora bien, en dos espacios D, solo usando una línea recta, podemos separar fácilmente
estas dos clases, ¿verdad? Aquí podemos trazar una línea. Podemos trazar una línea así. Y estos dos verdes y
azules, podemos separar, pero puede haber múltiples líneas que puedan separar cada
clase. Considéralos. Podemos dibujar esta imagen, una
roja, esta también son las dos. Puedo trazar una línea así. También puedo dibujar otra línea también aquí la cual
puede clasificar esto Puedo dibujar otra línea
aquí también que clasifique, puede
haber múltiples líneas que puedan separar estas clases De ahí que el algoritmo Pm
ayude a encontrar la mejor línea, o si este mejor límite
se llama hiperlínea aquí Ahora podemos tener múltiples líneas, como el objetivo es
encontrar la mejor, mejor línea para hacer. ¿Bien? Esta región se denomina vectores de soporte
hiperled Estos son los puntos azules
y verdes son los vectores de soporte. ¿Bien? La distancia entre vectores y el margen
hiperlineal, ver aquí el soporte, esta distancia se llama ¿Bien? Esto se llama
distancia entre el vector de soporte y el carril
hipo se llama margen cuanto a maximizar este margen, hypolimrginlledptimhyplaneeowf,
intenta poner una línea aquí, En cuanto a maximizar este margen,
hypolimrginlledptimhyplaneeowf,
intenta poner una línea aquí, el margen será menor. Si pones una línea aquí, el margen será menor aquí. Si consideramos esta línea, el margen de
aquí y de aquí, será máximo. Desde cada punto,
el margen desde los vectores de soporte hasta el
plano será el máximo. Este es el hallazgo óptimo de
hiperlínea, a la derecha, estos puntos de distancia entre los vectores y
el margen de hiperlínea Y el objetivo de SPM es
maximizar este margen. La hiper línea con margen
máximo se denomina hiperlínea
óptima óptima Este es el hipo
llene óptimo que estamos encontrando. Ahora vienen SPM no lineales. Si los datos están dispuestos
linealmente, entonces podemos separarlos
usando una línea recta Para datos no lineales, no
podemos dibujar una
sola línea recta. Considera lo mismo, los puntos
azules también están aquí. También aquí también,
y más verde aquí. Ahora bien, no podemos trazar una línea
recta que clasifique los puntos
azules y verdes en
una región separada, ¿verdad? Algunos puntos estarán en
cada una de las regiones. La clasificación en línea recta no
es posible aquí, ¿verdad? En este caso, para separar
estos puntos de datos, necesitamos agregar una dimensión
más. Para los datos lineales, hemos utilizado
dos dimensiones, x e y. Para los datos no lineales, agregaremos una tercera dimensión, se
calculará
usando esta fórmula, egal a x cuadrado más q. Vamos a agregar otra
dimensión aquí, porque en las dos dimensiones, esto no es posible
clasificar, para separar,
para dibujar una línea con puntos
verdes y azules separados, Para los datos no lineales,
agregaremos una tercera dimensión, se
calculará
usando esta fórmula,
egal a x cuadrado más q.
Vamos a agregar otra
dimensión aquí,
porque en las dos dimensiones,
esto no es posible
clasificar, para separar,
para dibujar una línea con puntos
verdes y azules separados,
lo haremos añadir otra dimensión que será la dimensión del chorro. Y que los jet points serán
considerados por esta fórmula. Jet call a x cuadrado
más y cuadrado. ¿Bien? Entonces, por cada x e y, habrá un punto jet, y eso se calculará
por x al cuadrado más y al cuadrado ¿Bien? Al agregar la
tercera dimensión, el espacio muestral se volverá
como esta imagen aquí. Ahora x y azul azabache
aquí y verde son ahora. Podemos ver aquí, podemos ver que en estos momentos hay
dos regiones. Sbm dividirá el conjunto
de datos en clases. En el conjunto
en clases de la siguiente manera. Este será el mejor
hiper carril que podamos dibujar, y esto separará
los puntos de datos, carril
blip de este lado
del hiper carril, ya que estamos en el espacio, ahí que se vea como un plano paralelo
al eje x Si lo convertimos en
espacio con Gal a uno, entonces se volverá así. ¿Bien? Si consideramos que este
está en el espacio, si hacemos cal a uno, entonces se volverá
así, ¿de acuerdo? De ahí que obtengamos una
circunferencia de radio uno. En el caso de los datos no lineales, esta manera podemos encontrar el mejor hiper carril en una cosa
circular, ¿verdad? Circunferencia de una
circunferencia de radio uno. Ver dentro del círculo verde y fuera del
circuito azul de esta manera, esta hiperlínea circular la
podemos obtener para estos datos Bien, espero que hayamos
entendido cómo funciona SPM. Ver dentro de la siguiente conferencia.
136. Cómo entender el análisis de regresión: Hola, y bienvenidos de nuevo. Entonces soy Son, y estoy de vuelta con la nueva
actualización para esta clase. Entonces, en esta serie de conferencias que
voy a subir ahora, cubriremos con detalle el
análisis de regresión. Entonces, primero vamos a
empezar desde lo muy básico y estas series de conferencias
llegarán en las próximas semanas, y es posible que veas actualizaciones muy regularmente en
esta clase sobre habilidad sare Entonces comencemos. Entonces lo primero es una
visión general del análisis de regresión. Entonces, ¿qué es el análisis de regresión? El análisis de regresión es
una técnica estática utilizada para comprender
la relación entre una variable dependiente y una o más variables
independientes Entonces es simplemente análisis
de la relación entre lo dependiente y una o más variables
independientes. Por lo que se puede entender de tal
manera que obtener un ataque al corazón
para un paciente
depende de variables múltiples
variables aquí, ataque al
corazón es una variable
dependiente. Eso depende una o más
variables independientes como tu edad, tu estilo de vida,
tu hábito de calificación, y cualquier otra cosa como
tienes diabetes o
tienes algún
problema genético historia del ataque cardíaco
en tu familia. Hay múltiples variables
independientes a las que
van a afectar las posibilidades de sufrir el
infarto por un paciente. Aquí, el ataque al corazón
, el ataque al
corazón variables dependientes y todos los demás síntomas de salud o tus estilos de vida o
las enfermedades existentes
son las variables independientes Por lo que el análisis de regresión es una técnica
estadística utilizada para entender la
relación entre estas variables, dependientes
e independientes. Espero que lo haya dejado muy claro. Ahora, tienes el
entendimiento de cómo lo hacemos. Por lo que es ampliamente empleado en diversos campos
como la economía, las
finanzas, las ciencias sociales
y el cuidado de la salud. Entonces salud, ejemplo, ya te
he dado, eh. En economía, también
en finanzas, también, puedes ver si estás invirtiendo
en algunas acciones y todo, así tus ganancias y pérdidas
serán las variables dependientes y los sentimientos
del mercado
y todas las demás cosas, cómo las noticias y todas las que afectan a
los precios de las acciones
serán las una o más variables
independientes Atención sanitaria para modelar y predecir resultados basados
en la variable de entrada. En esto nos detendremos
en los fundamentos del análisis de regresión y tipos,
saltos y aplicaciones Ahora vamos a entender
de manera matemática. ¿Qué es el análisis de regresión? Entonces, en su núcleo, análisis de
regresión tiene como objetivo estimar la relación
entre las variables dependientes, a menudo denotadas y, y una o
más variables independientes, denotadas x uno, x dos y así sucesivamente Bien. La relación se representa
típicamente por
una ecuación de la forma. Es una ecuación lineal, donde y es igual a Beta
cero más Beta uno en x
uno más Beta dos en x t
más Beta tres en x tres, y así sucesivamente hasta Beta n
en x más épsilon Bien. Beta cero es interceptor, donde x uno, x e y
interceptarán y Beta uno,
Beta dos y B son el coeficiente
que representa los esfuerzos de las variables independientes, cómo
van a afectar las variables independientes Este es término de error, que representa la
diferencia entre el objeto y los valores predichos. Entonces lo que estamos observando
y lo que estamos pronosticando. ¿Cuál es el valor predicho
y cuál es el valor del objeto? La diferencia será la, es que llamamos término de error. Término de error es lo que hemos predicho y qué salida
exacta vino. Entonces supongamos que estamos
pronosticando que tenemos una ganancia de seis 50, pero obser que
conseguimos la ganancia de 500 Entonces seis 50 -501 50
será el término de error, En lo sencillo si explico ¿Bien? Entonces tipo de análisis de
regresión, regresión lineal
simple
que todos conocemos implica una sola
variable independiente y una relación lineal con
la variable dependiente. Entonces si lo miras
va a ser muy sencillo, grafica x, y, y habrá una línea que lo
atraviesa, ¿verdad? Y luego viene la regresión
lineal múltiple se ocupa múltiples
variables independientes y una relación lineal con
la variable dependiente. Luego viene la
regresión polinómica ajusta una curva a datos mediante
la introducción polinomiales Y entonces la última es la regresión logística
muy popular utilizada para problemas de clasificación
binaria donde la variable dependiente
es categórica Veremos cómo podemos lograr todo esto y cómo podemos
entender y cómo
podemos usar para decodificar toda la regresión logística ponmial
múltiple y simple Ahora, adjmptons de
análisis de regresión. Para que el análisis de regresión
proporcione un resultado preciso, deben realizar
ciertos ajumptones El primero es la linealidad. Linealidad. La relación
simple entre las variables dependientes e independientes
debe ser lineal. Entonces la primera exención es que
la relación entre las
variables dependientes e independientes debe ser lineal. Entonces el segundo As
es la independencia. Las observaciones deben ser
independientes entre sí. El siguiente es Homo Sdsticity, la varianza del
término de error debe ser constante en todos los niveles de las variables
independientes Luego viene la normalidad. El término de error debe seguir
una distribución normal. Entonces el término de error
que hemos visto aquí E debería seguir la distribución
normal. Luego viene la multicolinealidad. Las variables independientes no deben estar altamente correlacionadas
entre sí. Entonces lo que voy a hacer en
la próxima conferencia, voy a explicar lo que es normalidad
y multicolinealidad y homocd en un poquito
para que puedas entender de una mejor manera Por ahora, solo necesitas
seguir la conferencia. Entonces ninguna colinealidad mult significa, las
variables independientes no
serían altamente
creladas Aplicaciones del análisis de
regresión. Entonces como dije, economía para costar la demanda y analizar la elasticidad del
precio, luego en las finanzas,
podemos usarla para predecir los precios de las acciones y evaluar los factores de riesgo En ciencias sociales,
podemos utilizarlo para estudiar el impacto
de las intervenciones, analizando los datos de la encuesta. Datos de la encuesta para el bienestar
social, ese gobierno ejecuta
todas esas cosas que podemos hacer con el análisis de
regresión Y luego en el cuidado de la salud, podemos predecir los resultados de los
pacientes evaluando el factor de riesgo para una DG en particular como hemos
comentado sobre el corazón. Cava, cualquier excavaciones que puedas
predecir en base a los datos. Entonces ahora llega la conclusión
para esta conferencia, análisis de
regresión es una
poderosa técnica estadística para modelar
las relaciones entre variables y
hacer predicciones. Al comprender
sus fundamentos, procedimientos y tipos
,
analistas como analistas de negocios
y científicos de datos, y recursos pueden
utilizar eficazmente el
análisis de regresión para obtener información de los datos y tomar decisiones informadas, Entonces, una vez que tenga
la comprensión del concepto de análisis de
regresión, puede usarlo para cualquier dominio obtener información
a partir de los datos y tomar decisiones
informadas. Entonces esta es una herramienta muy poderosa
que vamos a aprender. Entonces, en la próxima conferencia, aprenderemos algunas cosas más sobre el análisis de regresión. Entonces S dentro de la siguiente conferencia.
137. Comprensión del modelo de regresión lineal: Hola, y bienvenidos de nuevo. Entonces en esta conferencia,
vamos a aprender sobre el modelo de
regresión lineal. Por lo que la regresión lineal es una
de las técnicas fundamentales, utilizadas en estadística
y machine learning. Y esto se utiliza para modelar
la relación entre la variable dependiente y una o más variables
independientes. Esto lo hemos aprendido en
la conferencia anterior mientras entendemos el análisis de
regresión. Entonces, la regresión lineal es uno de los modelos de
análisis de regresión. En esto, profundizaremos en la mecánica de la regresión
lineal Es exención y
cómo interpretar los parámetros
del modelo y consideración
práctica. Empecemos. Entendiendo
la regresión lineal. regresión de Linar tiene como objetivo
ajustar una relación lineal entre la variable independiente
x y la variable dependiente, y La relación se
representa típicamente por la ecuación, y es igual a beta cero
más a uno en x más e, donde y es variable dependiente, x es variable independiente Beta cero es el intercem este es el valor de
y cuando x es Y Beta uno es el coeficiente de
pendiente, donde el cambio en y
para un cambio unitario en x, entonces es la eratom
que ya conocemos representando la
discrepancia entre el valor
objetivo y los valores predichos
. Ahora está claro. Si puedo dibujar Bien. Aquí no hay ninguna herramienta de dibujo. Déjame comprobar si puedo dibujar aquí. Bien. Déjame abrir un alfiler aquí. Entonces, si te puedo decir, este es el eje x, y este será el eje y. Esto es, esto es y, y la regresión lineal es encontrar una
línea de regresión como esta, donde x es igual
a y es igual a. Esta línea va a ser y
es igual a, Déjame. Lo pondremos B cero más B uno, x más. Para que puedas entender así, y es igual a Beta
cero más p1x plus Aquí, donde
entenderemos aquí, Beta cero es el término de
intercepción donde y, el valor de y cuando
x es igual a cero Entonces cuando vas aquí, x es cero, y cuando interceptas
desde aquí así Aquí x es cero e y,
de aquí a aquí, El sitio B cero o B t
cero. Lo que sea que puedas. Este será el b cero, y beta uno será el cambio en y para una unidad
de cambio en x pendiente. Entonces si ves aquí, medida que te mueves de aquí para acá, y luego de aquí, entonces esta
será la pendiente
será esta pendiente será la B una. Es el error tom,
será el término de error. Como supongamos que aquí predecimos
algún valor, y objetamos algo aquí, así que la diferencia
será el valor. Esta es la línea de regresión. Entonces déjame
decirte que esta línea es la línea de
regresión. Esta línea es la línea de regresión. Bien. Esta es la ecuación de
línea recta, y es igual a x más c con
eso también se puede entender. Espero que esto quede claro. El siguiente ajmpton para redia para regresión
lineal
para proporcionar tal confiable, varios aumpton primera es la linealidad, la
independencia, la normalidad
sadistica, no la colinealidad perfecta. Linealidad,
ya hemos entendido donde entre x e y debe
ser lineal así Para cuando trazamos x e y, debemos obtener una línea recta. Entonces eso es linealidad. Independencia, las observaciones
deben ser independientes entre sí y homo sadicidad es la varianza del término de
error debe ser constante en todos los
niveles de x normalidad Los términos de error deben seguir
una distribución normal, y sin perfecta conearidad
mult las variables independientes no deberían estar perfectamente corelacionadas
entre sí, bien Entonces interpretando Interceptar Beta cero aquí, el intercepto beta cero, beta cero, representan y
cuando x es igual a cero, el significativo solo
si cae dentro del
rango de los datos Pendiente Beta uno, la pendiente
que hemos observado aquí, Beta uno, indica el cambio en y para una unidad de cambio en x. así podemos ver a medida que nos movemos
si podemos ver esta x, entonces esta será la. Déjame cambiar el color. Para esto x, Para esta
x, esta será la y. eso es lo que está diciendo,
o cambio en y, para un cambio unitario en x, una pendiente positiva sugiere que la pendiente
negativa rec positiva indica la liberación negativafficiente de
determinación r al cuadrado
medido para la proporción de una varianza en la variable
dependiente que es
predecible a partir de la variable independiente . valor R al cuadrado más alto indica un mejor
ajuste para el modelo evaluación del
modelo de consideración práctica accede a la bondad de ajuste utilizando matrices
como MSC cuadrática media, RMS cuadrática media
y valor cuadrado R. Valores atípicos e influyentes
señalan e identifican y manejan los valores atípicos que pueden desproporcionadamente Verificación de colinaridad para la coolinaridad mult
coolity entre variables
independientes variables
independientes y considerar abordar si es Pregent. Validación cruzada, validar
el rendimiento del modelo utilizando técnicas como la validación
cruzada K fold para garantizar la legibilidad
general Bien. Ahora, conclusión, el modelo de regresión lineal proporciona simple un marco
poderoso para comprender y modelar
la relación entre las variables
al adherirse a sus suposiciones, interpretar el
parámetro del modelo de manera efectiva y considerar la consideración
práctica, los analistas y los recursos pueden aprovechar la
regresión lineal para obtener conocimientos de los datos y decisiones informadas
en diversos campos. Entonces esto es lo que debemos
saber sobre la regresión lineal. Haremos lo práctico también con el núcleo en nuestra programación, pero esa sería la última. Por ahora,
entenderemos los conceptos básicos de varios modelos de
análisis regresión
como la regresión lineal, luego veremos también la
regresión múltiple. Se dentro de la siguiente conferencia.
138. Comprensión de la cedasticidad en la casa: Hola, y bienvenidos de nuevo. Entonces en esta conferencia, vamos a aprender
sobre mo Cdesticdy Entonces homo ststicidad también conocida como homo genity
of varianza es un ajumpton de
regresión lineal que se refiere a la condición
donde la varianza del error o
residuales es constante a
través de todos
los través En términos más simples, significa
que el espadín de los residuos debe permanecer igual independientemente del valor de
las variables independientes Entonces, lo que es la homodsticía es la homogeneidad
de la varianza, y es un Ajmson que
tomamos en regresión lineal,
y se refiere a la
condición donde se encuentran los errores, que los residuos que computemos
permanecerán constantes a
través es la homogeneidad
de la varianza,
y es un Ajmson que
tomamos en regresión lineal,
y se refiere a la
condición donde se encuentran los errores,
que los residuos que computemos
permanecerán constantes a
través de todos los niveles de las variables independientes. Entonces, sea cual sea el valor que elija para las variables
independientes, la varianza de los errores será o residuales
será constante Espero que lo
sepas, ¿verdad? Entonces, ¿cuál es la importancia
de la homodatidad? homo sdsticidad es un ajumpton importante
en la regresión lineal ya que violar
esta ajumpción puede La homo sdsticidad
es un ajumpton importante
en la regresión lineal,
ya que violar
esta ajumpción puede
conducir a la estimación de parámetros sesgados. Entonces, si simplemente ignoramos a este
homocdat, ¿qué pasará? Obtendremos la estimación, pero esa será la
sesgada en los subparámetros, y te llevará a
la te
dará los errores estándar incorrectos y prueba de hipótesis engañosa, cuando heterod el proyecto de
la sádicidad homo está presente, el modelo puede poner demasiado énfasis en
ciertas observaciones con grandes residuales
y conduciendo a insuficientes y pero esa será la
sesgada en los subparámetros,
y te llevará a
la te
dará los errores estándar incorrectos
y prueba de hipótesis engañosa,
cuando heterod el proyecto de
la sádicidad homo está presente,
el modelo puede poner
demasiado énfasis en
ciertas observaciones
con grandes residuales
y conduciendo a insuficientes y
estimaciones poco fiables. Entonces cuando Si ignoramos esta homodatidad se moverá
hacia la heterodatidad, que se opone
a la homocdatía
cuando esta herosdsty se presentará en nuestro modelo cuando esta herosdsty esta homodatidad se moverá
hacia la heterodatidad,
que se opone
a la homocdatía
cuando esta herosdsty se presentará en nuestro modelo, ¿qué vamos a tener? Lo que vamos a hacer, vamos a poner más énfasis en la observación con los grandes residuos, y va a llevar a que las estimaciones eficientes no
sean confiables Estimaciones, y eso
hará que nuestro modelo muy inconsistente y
no tanto útil. Entonces, cómo identificar la homo sdsticidad
hay dos cosas primera es la parcela residual y la segunda es la prueba
pagana a paso rápido Entonces entenderemos
qué es la trama residual. Una forma común de diagnosticar la
homosadsticidad es
graficando los residuos
contra el valor predicho. Entonces, sea cual sea el
valor predicho que
obtengamos , trazamos los residuales
contra los valores predichos o las variables independientes
en una gráfica residual, si la dispersión de los residuales aparece más o menos constriñirse en
todo el rango, los valores predichos o variables
independientes, la
homocdstcidad es probablemente homocdstcidad Sin embargo, si la dispersión de los residuos se ensancha o se
estrecha como valores predichos,
el cambio de
heterodstcidad puede ser pregente el cambio de
heterodstcidad puede ser pregente La segunda técnica
es el gusto pagano ortopédico. Este es el
gusto estadístico utilizado para probar formalmente
la homosdaidad en La hipótesis nula de la prueba pagana de corsé es que varianza de
los residuos es constante Mientras que la
hipótesis alternativa es que la varianza de los residuos no
es heterosticidad constante Un resultado significativo indica
evidencia de herosticidad. Bien. ¿Qué va a pasar? ¿Cuáles serán las consecuencias de violar la homosdatcidad Habrá la estimación
sesgada. Las estimaciones de coeficientes pueden
estar sesgadas si la dispersión de los residuos varía
sistemáticamente con los valores de las variables
independientes Errores estándar incorrectos, podemos obtener los
errores estándar pueden estar
subestimados o
sobreestimados, lo que lleva
al intervalo de confianza incorrecto y la prueba de hipótesis. En estimaciones eficientes,
la eficiencia de las estimaciones de parámetros
puede verse comprometida reduciendo el poder del análisis de
regresión para detectar la verdadera relación
entre las variables. Abordando la homo sadasticidad, si se viola la homo sdstcity,
se pueden considerar varios enfoques La transformación de
variables,
la transformación de las variables dependientes o
independientes puede ayudar a estabilizar la varianza de los residuales, lista cuadrada
ponderada Usando regresión
cuadrática ponderada donde las observaciones se
ponderan en función de
su varianza y pueden dar cuenta de la sedaticidad del héroe Errores estándar robustos, se
pueden emplear técnicas de errores estándar para ajustar los errores estándar para los sedados de héroe sin
asumir lo específico Forma de la estructura de varianza. Por lo que la homo sdsticidad es una exención
crucial en la regresión
lineal que asegura la validez y confiabilidad del
modelo que estima Detectar y abordar
las violaciones de la homossticidad es esencial para producir precisos y Entonces esto es lo que es la homodacidad y se
entiende la importancia de cómo identificar, hay dos formas
y luego hemos visto las consecuencias de
violar la homo Y entonces hemos visto cómo abordar la homo sadasticidad Hay tres formas de
transformación de variables, cuadrados de cobertizo
ponderados y errores estándar
robustos. ¿Bien? Entonces, en la próxima conferencia, veremos qué es la normalidad. Entonces ella está dentro de
la siguiente conferencia.
139. Comprensión de la normalidad: Hola, y bienvenidos de nuevo. Entonces en esta conferencia,
vamos a entender qué es la normalidad. La normalidad es un aumpton de regresión lineal
que se refiere a la condición donde normalmente se
distribuyen los residuos o errores del modelo
de regresión Entonces, cuando los errores o los residuos se distribuyen
normalmente, se llama normalidad En otras palabras,
implica que la distribución
de los residuos sigue una curva de campana
o curva en forma de campana centrada alrededor de cero Con la mayoría de los residuos
agrupados cerca de la media y menos
residuos en las colas. ¿Qué significa esto en realidad? Significa que cuando los
errores en nuestro modelo o los residuales en nuestro modelo de
regresión se distribuyen normalmente.
¿Qué significa? Normalmente distribuido
significa que la distribución de los residuos sigue la curva de campana sip donde se centra
el It Está centrado. Todas las
flechas están centradas alrededor del cero con mayoría de los residuos
agrupados cerca de la media Entonces la mayor parte del si
miras la campana, si miras la
campana, ¿cómo se ve? Se ve así ¿verdad? Bien. Déjame usar una pluma. Si miras una campana, será así, ¿verdad? Entonces se centrará
alrededor de este cero, supongamos. Y la mayoría de los valores están hacia este
valor medio, valor medio. Bien, entonces esto es lo que significa. Debería ser como campanas donde están la
mayoría de los valores. A través de la media de los valores. Curva bien conformada centrada en el brazo cero con la mayoría de los
vegetulos agrupados cerca de la media y menos
residuos en Entonces ahora, importancia de la normalidad. La normalidad es una regresión de unión
importante porque
muchos métodos estadísticos de gusto
y estimación utilizados en el análisis de regresión se
basan en la adaptación de la normalidad. Cuando los residuos se distribuyen
normalmente, indica
que los errores son
aleatorios e independientes
y el cocentro de regresión estima Cómo identificar la normalidad
usando la gráfica residual, Un método común para evaluar
la exención de normalidad es
examinando un histograma
o una gráfica Q Q, gráfica cuantil cuantil En una gráfica Q Q, si los puntos caen aproximadamente
a lo largo de la línea diagonal, sugiere que los residuos
se distribuyen normalmente Alternativamente, un
histograma del residuo se
parecería a un auto b
sep como este Bien. El siguiente método
es el sabor sapiro k. Este es el sabor
estadístico utilizado para probar formalmente la
normalidad de los residuos La hipótesis nula
del sabor sapiro ilk es la prueba de
que los residuos se distribuyen
normalmente. Un resultado significativo indica evidencia contra la
normalidad. Bien. Las consecuencias de
violar la normalidad al hacer el análisis de
regresión son las mismas que las que hemos
visto en la homosedticidad, estimación
sesgada, estimación
sesgada ¿Cuál es la estimación sesgada? Las estimaciones copicientes pueden estar sesgadas si los residuos
no se distribuyen normalmente Inferencia incorrecta significa intervalo de
confianza y prueba de hipótesis
basada en t distribuciones
puede ser inválida si los residuos no
están Se producirán predicciones inexactas si violamos la normalidad, intervalos de
predicción pueden
no ser confiables si se viola la exención
de normalidad Entonces, cómo abordar la normalidad
si se viola la normalidad, se pueden
considerar
varios enfoques para abordarla El primero es la transformación
de datos transformando los datos. Al transformar las variables dependientes e independientes puede ayudar a que los residuos se distribuyan de manera más
normal, transformación
común incluye la raíz
logarítmica o cuadrada
o la Regresión
robusta, técnicas de regresión robusta
como errores estándar robustos o estimación se pueden utilizar
para estimar el
coeficiente de regresión en pregenes de
los errores no normales Y entonces el tercero
es boostraping. El flejado de refuerzo es una técnica de
remuestreo que puede proporcionar inferencia
robusta en el análisis de
regresión sin una normalidad
. Entonces, lo que podemos
concluir es una exención de regresión lineal que
asegura que la validez, eficiencia y confiabilidad
del modelo de regresión se
estime correctamente
sin inferencia Si bien las violaciones
de la normalidad
no siempre pueden conducir a problemas
significativos, es esencialmente esencial evaluar y abordar las
desviaciones de la normalidad para producir regresión
preciso y confiable Bien. Entonces espero que también hayas llegado a conocer
qué es la normalidad. En la próxima conferencia,
no
entenderemos ninguna perfecta colinealidad mult Así que quédate dentro de la siguiente conferencia.
140. No hay multicolinealidad perfecta: A y bienvenido de nuevo.
En esta conferencia, aprenderemos sobre la no
perfecta colinealidad mult Entonces ninguna multicolinealidad perfecta es una exención que tomamos en regresión
lineal que
establece que
no debe haber relación lineal exacta entre Bien. Las variables independientes
son las variables que se conocen como también predictores Las variables independientes
son los predictores y el valor que predecimos se
denominan variables dependientes En otras palabras, implica que una
variable independiente no debe ser combinación lineal
perfecta de otras. Entonces una
variable independiente no debería ser una
combinación lineal perfecta de las otras. Por lo que no debe haber ninguna
combinación de linealidad. Importancia de no
multicolinearityes perfectos, multicolinaridad ocurre cuando dos o más
variables independientes en un modelo de regresión la
multicolinaridad ocurre cuando
dos o más
variables independientes en
un modelo de regresión están altamente correlacionadas entre sí. Por lo que dos o más variables
independientes no
deben correlacionarse, altamente correlacionadas
entre sí. Si bien la multicolinealidad en sí misma
no es necesariamente un problema no multicolinealidad perfecta
puede conducir a problemas en la estimación del coeficiente de regresión
y socavar la interpretación del Identificar la matriz de
correlación mult perfecta. Un método común para
detectar multicolinealidad es examinar la matriz
de
correlación de variables independientes examinar la matriz
de
correlación de variables independientes. La correlación adecuada
cercana a más uno o menos uno indica
una fuerte relación
entre dos variables El segundo método es el factor de
inflación de varianza VF, FV es una medida del grado en que la varianza del coeficiente de
regresión estimada
se incrementa debido
a la multicolinealidad la multicolinealidad Un F F alto significa factor de
inflación de varianza, valor típicamente
obtenido indica un nivel problemático
de multicolinealidad ¿Qué pasa si violamos la perfecta
colinealidad multicolar Esto conducirá a las estimaciones
coficientes poco confiables. Cuando existe la
colinealidad perfecta de multicoli, el modelo de regresión
no puede estimar la competencia
única para cada variable independiente Como resultado, las estimaciones de los
coeficientes se vuelven inestables y poco confiables. Soluciones infinitas. Con perfecta
multicolinealidad, hay infinitamente muchas combinaciones de estimaciones de coeficientes que Por lo tanto, el
modelo de regresión no puede
determinar de manera única los problemas de
interpretación de coeficientes. La perfecta frialdad mult
complica la interpretación
del coeficiente individual, estima ya que se vuelve
imposible aislar el efecto de
las variables independientes de Cómo abordar la selección perfecta de
variables de colinealidad
mult, eliminar una o más altamente correlacionadas del modelo,
priorizar
variables que sean
teóricamente más relevantes o que tengan una asociación más teóricamente más relevantes o que tengan una asociación fuerte La transformación de datos transforma
una o más variables para reducir la friolinaridad mult Por ejemplo, la creación de términos de
interacción
o términos polinómicos
puede ayudar a capturar relaciones
complejas
sin introducir relaciones
complejas
sin introducir
una coolinaridad perfecta.
Regresión de cresta. La regresión de cresta es una
técnica de regularización que puede manejar coolinaridad
mult agregando un término de penalización a la Este término de penalización ayuda a estabilizar estimaciones de
coeficientes
y mitiga el efecto de la multicolinealidad Estas son las tres técnicas muy
efectivas que
podemos utilizar para abordar la multicolinealidad
perfecta, La una es la selección de
variables Podemos eliminar o agregar más eliminar una o más
variables altamente correlacionadas del modelo. Luego la transformación de datos, podemos transformar una o
más variables para reducir la coolidad mult y la regresión de
cresta es técnicas de regulación para manejar la multicolidad agregando Bien. Por lo tanto, garantizar que no haya una coolidad mult perfecta
es esencial para producir resultados confiables e
interpretables en Detectar y abordar
la collaridad mult temprano en el proceso de modelado
puede ayudar a mejorar la precisión y estabilidad
de las estimaciones de regresión Entonces ahora comprendimos
la homo sadisticidad,
normalidad, y perfecto Entonces ahora con este entendimiento, vamos a
avanzar en nuestro
análisis de regresión, entendiendo. Bien, así que mira dentro
de la siguiente conferencia.
141. Conceptos de regresión lineal simple y formulación: Y bienvenidos de nuevo.
En esta conferencia, estaremos entendiendo sobre regresión lineal
simple,
conceptos y formulación. Tan simple regresión lineal, como hemos comentado
anteriormente también es una
técnica estadística de base utilizada para modelar la relación
entre dos variables, una variable dependiente, y también
variable dependiente también se conoce como variable de
respuesta y
una variable independiente que se llama variable
predictora Por lo tanto, la variable predicha
será la predicción de variables
dependientes Aquí,
profundizaremos en el concepto de formulación de regresión
lineal simple, explotando los
principios fundamentales y aplicaciones
prácticas de la regresión lineal
simple Concepto de
regresión lineal simple , primero,
entendemos. En su código, la
regresión lineal simple tiene como objetivo capturar la relación lineal entre una única variable independiente x y una variable dependiente y la relación se juega a través de
una ecuación de línea recta y igual a x más
c más B t cero. B cero es cero, ya
hemos visto en
la conferencia anterior, es el punto de intercepción de
intercepción o la intercepción x e y es
la variable independiente,
y es la variable dependiente,
y B uno, Beta uno es
un Ya lo hemos
discutido aquí. Esto es Beta cero,
esto es B uno, esto, y esto es x. Bien. Entonces ahora, el término de intercepción representa
el valor de y cuando x es cero que ya hemos visto y el coeficiente de pendiente eta uno indica el cambio
en y asociado con el cambio de una unidad en x
Así que cuando mires aquí,
este eta uno, va a estar cambiando. Así que cuando mires aquí,
este eta uno, va a estar cambiando Ahora, formulación de regresión lineal
simple. Estimación estimando el copesente de
pendiente Beta uno. El copicente de pendiente Beta uno se estima utilizando el método de
mínimos cuadrados, que minimiza la suma de diferencia al
cuadrado
entre los valores objve y predichos de y. La fórmula para estimar
Beta uno es Beta uno es igual a Sigma de x
i menos x a y menos y
Esto se predice menos
objeto menos predicho,
dividido por Sigma off, y aquí I es dividido por Sigma estima utilizando el método de
mínimos cuadrados,
que minimiza la suma de la diferencia al
cuadrado
entre los valores objve
y predichos de y.
La fórmula para estimar
Beta uno es Beta uno es igual
a Sigma de x
i menos x a y menos y
Esto se predice menos
objeto menos predicho,
dividido por Sigma off, y aquí I es
variando
de igual a uno dos y xi menos
x. cuadrado entero. Donde está el número
de observaciones, x e y son los
valores individuales de x e y y x e y, estos son la media
muestral de la media x e y media son la media de x e y
Estimando el cero Beta. Una vez estimada la pendiente suficiente
Beta one, el término de intercepción
beta cero se puede calcular usando la
fórmula, beta cero, bar es igual a y bar
menos beta 1 bar,
donde x barra x barra beta uno
es pendiente cofcient y x bar y bar son las medias de
muestra de
x e y,
por lo que esta es la fórmula de formulación
de la regresión lineal simple. por lo que esta es la fórmula de formulación
de la regresión lineal simple Aplicación de regresión
lineal simple, ya
conocemos en economía para modelar la
relación entre el ingreso y
el
gasto en finanzas, predecir los precios de las acciones con base en los
datos históricos, en la salud, y Ling la relación
entre la edad del paciente y los gastos
médicos
y en la educación en tomar como predecir
el desempeño
estudiantil ya
conocemos en economía para
modelar la
relación entre el ingreso y
el
gasto en finanzas,
predecir los precios de las acciones con base
en los
datos históricos, en la salud,
y Ling la relación
entre la edad del paciente y los gastos
médicos
y en la educación
en tomar como predecir
el desempeño
estudiantil basado en el estudio s. Así que la regresión lineal
simple es una poderosa herramienta
estadística para modelar y comprender
las relaciones entre
las dos variables estimulando la pendiente y el coeficiente de
intercepción Los analistas pueden cuantificar
la fuerza y dirección de la relación y hacer predicciones basadas
en los datos observados Comprender el concepto
y la formulación de regresión lineal
simple
es esencial para realizar análisis precisos y
significativos. En diversos dominios. Entonces esto es un paso adelante, hemos ido y
hemos entendido cómo ocurre
la
formulación de regresión lineal simple. Y también hemos entendido
el concepto también. Entonces veremos más sobre esta,
uh, regresión lineal simple
en la próxima conferencia.
142. La teoría del método de los mínimos cuadrados explicada: Y bienvenidos de nuevo.
Entonces en esta conferencia, entenderemos cuál es
el método de mínimos cuadrados. Entonces, el método de mínimos cuadrados es un enfoque común utilizado
en la regresión lineal. Estimar el coeficiente
de la ecuación de la regresión. Su objetivo es encontrar la línea que mejor se ajuste a los
datos del objeto minimizando la suma de las
diferencias cuadradas entre el objeto y
los valores predichos de la variable
dependiente Así es como funciona el método list
square. Lo primero es definir
la ecuación de regresión. La ecuación de regresión para un modelo de regresión lineal simple se representa típicamente como y igual a Beta cero más Beta uno y dos x
plus o épsilon, donde y es variable dependiente También lo llamamos
variable de respuesta, x es variable independiente, llamamos variable predictora Beta cero es término de intercepción, Beta uno es slofficient
y Epsilon es el término de error, y Epsilon es el término de error Beta uno es slofficient
y Epsilon es el término de error, representado por variación inexplicable. El segundo paso es, calcular el valor predicho usando la ecuación de regresión
dada, calcular el valor predicho, es
decir para cada observación
en el conjunto de datos. Luego se da el valor predicho y
para la observación y y bar más Beta cero más Beta uno
en xi donde Beta cero y Beta uno se estiman coeficientes on a través
del método de mínimos cuadrados. Ahora, el tercer paso
será calcular el residual. El residual de para
cada observación es la diferencia entre
el valor
del objeto de y y el valor predicho, y hat colon i es
igual a dos, yi hat. Minimizar la suma
de residuos cuadrados. El objetivo del método list squa es minimizar la suma de
los residuos cuadrados Matemáticamente, esto puede ser
expraged como esta ecuación. Sigma dos n, Sigma F es igual a uno a
n i cuadrado es igual a Sigma F y menos yi hat cuadrado donde variaré de uno a
n. Al minimizar esta suma,
obtenemos la mejor línea de
ajuste que
pasa por los puntos de datos ya que reduce la discrepancia general entre los valores observados y
predichos de y. Estimar el coeficiente,
la página del quinto paso Para encontrar el valor de Beta
cero y Beta uno que minimice la suma de la técnica de cálculo
residual cuadrado, especialmente
derivadas parciales Las fórmulas para estimar el coeficiente se dan como éste, donde x bar donde x bar
y ar muestran medias de la x e y respectivamente. Después de encontrar el
valor de aquí, siguiente stepge interpreta
el coeficiente Una vez que se estiman la barra
beta cero y la barra
Beta 1, se pueden
interpretar de la siguiente barra cero beta es el término de intercepción que
representa la y
de representar el valor de y donde x es cero y
Beta 1 bar es el
coeficiente de pendiente que indica
el cambio en y asociado con un cambio
unitario en x. Al aplicar este método de
lista cuadrada, obtenemos estimaciones del coeficiente que
definen
la línea de mejor ajuste para los datos dados, lo que nos permite
cuantificar el relación entre las variables independientes y
dependientes en un modelo de
regresión lineal simple. Así es como funciona el método de cobertizo
cuadrado, y esta es la teoría
detrás del método de los cuadrados de lista.
143. Ejemplo del método de menos cuadrados en la regresión lineal: Hola, y bienvenidos de nuevo.
En la conferencia anterior, hemos visto la teoría detrás
del método list square. En esta conferencia,
ejecutaremos este sencillo
programa que he escrito para explicar el método list squared en regresión
lineal Aquí, lo que estoy haciendo, estoy
generando un dato sintético. Para eso, estoy usando
set dot set 123. Esto establecerá el set
para la reproductibilidad. Aquí, estoy tomando X
como un valor 1-200. Esta es una variable independiente, Entonces x es una variable independiente. variable dependiente
será la y, y sabemos la
recreación, lo siento, la
fórmula de línea simple es y es igual a x más c. Así que aquí van a estar los dos de x estoy
tomando dos y dos x, dos x más algún ruido aleatorio que estoy tomando aquí
usando la fórmula, usando la norma de función, 100 y media estoy tomando cero y
divación estándar estoy tomando diez Entonces esto nos dará la variable dependiente
con algún ruido aleatorio. Ahora, Lo que voy a hacer, voy a encajar el modelo de
regresión lineal usando lista cuadrada por tercera. Aquí crearé el modelo de regresión
lineal usando funciones LM,
crearé el modelo, y usaré la
función m, y aquí, y será la variable
dependiente, y x será la variable
independiente. Estoy creando el modelo de
regresión lineal aquí. Ahora, voy a imprimir el modelo de regresión
lineal. Déjame correr hasta aquí. Ver aquí ahora podemos ver aquí. Residuales mínimos. La mediana del primer cuartil es este el tercer cuartil y
max y coeficiente
que podemos Residual estándar 9.1 sobre
90 grados de libertad, múltiple R cuadrado 0.0 978
ajustado R cuadrado 0.0 Ahora, trazaré los datos y
encajaré y encontraré la línea ajustada. Para trazar, voy a usar la función plot x y voy a mantener el encabezado como título para la gráfica es regresión lineal
menos cuadrada
y x x voy a decir x e y, x p y, con la línea ab, voy a tratar de encontrar la línea de regresión
ajustada. Voy a usar el modelo aquí. Este modelo de regresión lineal, y voy a usar para la línea, voy a usar el color rojo. Ahora déjeme dirigir esto. Mira ahora aquí, déjame hacerlo. Ver ahora aquí, por cada x, estamos obteniendo y y C estoy
obteniendo una regresión lineal. Esta es la línea de regresión, la línea roja, estoy llegando hasta aquí. Esa es la línea de
regresión lineal utilizando el método de mínimos cuadrados Con esto, estamos obteniendo aquí
esta línea de regresión. Aquí hemos utilizado el método de mínimos cuadrados para
encontrar la línea de regresión. Ver dentro de la siguiente conferencia.
144. Conclusión y trabajo de proyectos: Hola chicos, Así que hemos aprendido
la programación artística y estamos bien para ir con nuestro,
nuestro conocimiento de programación. Y ahora podemos implementar este conocimiento de programación artística en ciencia de datos y
machine learning. Bien, entonces a partir de ahora, está
listo para implementar algoritmos de ciencia de datos
y aprendizaje automático
utilizando nuestra programación. Entonces nuestra programación es clara. Ahora has cargado. Ahora su siguiente paso
es implementar algoritmos de ciencia de
datos y
aprendizaje automático en nuestra programación
e intentar explorar. Entonces este es el siguiente paso. Y ahora puedes avanzar más y comenzar a analizar los datos usando R e implementar
algoritmos ML
como la regresión lineal
usando programación R. Entonces estas son las
cosas que puedes explorar más a fondo después de
completar esta clase. Entonces lo siguiente es, ¿cuál es tu proyecto
para esta clase? Así que ahora puedes crear
tus propios datos, como yo he creado datos de
empleados en archivo CSV. También puedes crear
tus propios datos en un archivo CSV para esta
clase, trabajo de proyecto. Y tratar de leer ese archivo
CSV a través del arte. Entonces intenta realizar algún análisis de
datos sobre esos datos, en ese archivo CSV datos usando arte como lo hemos
hecho en nuestra clase. Y tratar de crear algunas
tablas y gráficas basadas en los datos como rehabilitación
realizada para nuestros datos de empleados. De igual manera, se puede
pensar en un problema, pensar en un dato, y realizar
todas esas cosas. Y después de que hayas terminado con eso, dijo, tu informe final de
análisis. Como ¿cuáles son las cosas que habrás encontrado
a partir de los datos? Y tratar de crear un informe y tratar de crear gráficos y tablas. Y tratar de poner eso en
la sección
de proyectos de esta clase para que
todos podamos pasar por ello. Aprenda de su experimento, aprenda de su proyecto y fracase en
comentarios constructivos entre ellos. Entonces cuando guardas tu
proyecto, todos los demás alumnos. E incluso puedo pasar por eso e incluso puedo decir
que los comentarios y otros también lo miran y dicen los comentarios
entre ellos. Y con eso,
podemos aprender y crecer. Así que empieza a configurar y
publicar tu proyecto. Eso es todo para esta clase. Y espero que hayas disfrutado de
esta clase y hayas aprendido nuestra programación para tus
futuros proyectos de ciencia de datos y aprendizaje automático. Adiós, adiós, cuídate.