Transcripciones
1. Introducción a la ciencia de datos: Hola a todos, bienvenidos a
las puntuaciones de Data Science. En este curso,
vamos a cubrir todos los
aspectos prácticos de la ciencia de datos. Esto es en realidad un
proyecto basado también en vivir en B, en
realidad pujando por
un proyecto y usamos los conceptos en ciencia de datos y lo aplicamos a ese proyecto. Después del final de este curso, podrá
hacerse todos los
conceptos importantes de la ciencia de datos, que incluye análisis de datos, preprocesamiento de
datos y técnicas de
visualización. Entonces básicamente x plus ¿verdad? O eso significa ¿Qué es
exactamente la ciencia de datos? Y te daré
una visión general de lo que
exactamente vas a
cubrir en este curso. En primer lugar, se puede ver
que la ciencia de datos se trata de
extraer conocimientos e ideas de datos ruidosos
y no estructurados utilizando algunos elementos
y algunos procesos. Básicamente, hay muchas empresas y hay muchas industrias que en realidad utilizan diferentes tipos de datos. Tienen millones de registros. Para estructurarlos de la mano, se extraen
los conocimientos en beneficio de sus negocios. Requieren algunas técnicas de
visualización de
datos, técnicas de preprocesamiento
de datos también, porque la ciencia es los pies
crecientes
y emergentes y muchas oportunidades
para los científicos de datos. Y todo este periodo está subiendo
la norma en la industria. Durante este curso,
haré todo lo posible para darte una práctica oculta sobre cómo implementar realmente todos los conceptos que se
construyen en la ciencia
de datos. Empecemos el doc
respondió mi discurso de sal, el importador de fosfato a escalada es la
pelea y Browning. Además comenzaríamos con
la programación Python. Estoy de acuerdo con algunos conceptos básicos de
500 videos en este curso, podrás
entender estas especias Oreos. Y después de eso,
podrás
empezar con la ciencia de
datos en seis. Muy bien, por lo que el siguiente
requisito es dedicación, ya que el análisis de datos
es un muy antiguo y McDonald's porque lo
compraron que tienes buena
cantidad de vacaciones. Para entender cuál es
el conjunto de datos, para entender cuáles
son las técnicas que tendrá
que encontrar dataset. Todo bien que dije va a ser diferente al otro y tiene que
haber diferentes formas
y técnicas diferentes. Se tratarán esos datos, analizarán esos datos que
requieren mucha dedicación. Y esa es la razón media por este es un campo emergente. Ahora veamos cuáles son
las herramientas que vamos a usar demasiado tiempo la
validez como supongo, no
estaríamos usando programación
piloto y alguna lucha a pie
y bibliotecas. Podemos usar Jupyter Notebook, que en realidad es tu
tipo IDE en una megabase ocho, la otra la derecha,
la antigua
los invitan a analizar
diferentes conjuntos de datos. El talón escalonó para
hacer después de descargar los conjuntos de datos importantes y echar un vistazo a qué
exactamente podemos hacerlo. Entonces tiene algunas bibliotecas
importantes como la biblioteca pandas,
scikit-learn, que es una muy moderna,
reprocesar los datos, trayendo
también una experiencia
que se puede ver. Su
cavidad FEV1 y Microsoft aquí se utiliza para visualización de
datos
que tenemos algunas bibliotecas de
asesoría
como TensorFlow, Python usando deep learning. También haciendo algún embellecimiento como
clasificación aleatoria de bosques, árboles de
decisión y algunos modelos
de aprendizaje automático. Y también, ¿
lo haces en estos conjuntos de datos, abordando en
gran medida y cosas
muy prácticas que están dispuestas a
venir en este curso. Entonces, nos vemos en los próximos tiempos del
tutorial. La lógica.
2. Explorar los datasets de Kaggle: Este es el primer
video de este curso. Esta puntuación de ciencia de datos
y v van a realizar muchas cosas
como el preprocesamiento de
datos, la visualización de datos, y muchas cosas
como muestreo de datos, agregación, reducción de
dimensionalidad, todas esas cosas que
vas a hacer. Pero antes de comenzar con
alguno de los conceptos, quiero primero familiarizarte con el sitio web de Kaggle,
que es kaggle.com. Entonces te voy a dar
todas las ventajas de usar cálculo y por
cada ciencia de datos entusiasta usa escápula. En primer lugar, es necesario
simplemente ir al website.com. Y aquí Kaggle es
básicamente un sitio web que proporciona muchos conjuntos
de datos y muchas cosas que son realmente útiles para todos los estudiantes que quieren aprender y todos los estudiantes que también
quería competir, ¿verdad? Por lo que las competencias también están ahí. Entonces, en primer lugar, se puede
ver en esta var aquí, aquí tenemos el conjunto de datos. Por lo que si hago clic aquí,
se puede ver que nos muestra una lista de algunos conjuntos de datos de capacitación los cuales se
puede ver hablaba
datos, datos de stock de Google. Y hay muchos conjuntos de datos
populares que puedes ver aquí como Boston Housing, NSL, KDD, clasificación de
precios móviles. Entonces básicamente, en todo
el curso, realidad
vamos a realizar muchas cosas como el preprocesamiento de
datos. Para eso, vamos
a recoger diferentes,
diferentes conjuntos de datos de Kaggle. El motivo de hacerlo, de hacerlo es porque cuando
tienes diferentes tipos
de conjuntos de datos que tienes, te enfrentarás a diferentes
tipos de desafíos. Y eso realmente te
ayuda a valorar o habilidades de ciencia de datos cuando realmente estás
estudiando ciencia de datos. Entonces, por ejemplo, digamos
que tienes un conjunto de datos y quieres ver que
como hay algunos, digamos un ASR disponible en nuestro conjunto de datos y hay algunos elementos duplicados
en ese conjunto de datos. Todo hay algunos otros
retos también. Entonces para eso, si vas a recoger diferentes,
diferentes conjuntos de datos, vas a obtener
una buena exposición de diferentes tipos de
desafíos que
podrías enfrentar en tu carrera en
ciencia de datos también. Entonces estaremos recogiendo diversos conjuntos de datos y
estaré eligiendo ese conjunto de datos para resolver o simplemente mostrarte
ciertos conceptos. Y aquí se puede ver
tenemos estos conjuntos de datos. También tiene algunos
cursos y asma. Hay algunas otras cosas
como competencias también. Básicamente, Kaggle es
igual que un GitHub es para desarrolladores, lo que Kaggle es para la ciencia de datos. Por lo que tenemos algunas
competencias aquí. Y estos también están basados en los precios. Por lo que en realidad puedes conseguir algo de dinero si
participas en ellas y tú, cuando estas competencias, puedes ver estos son algunos de
los cálculos aquí. Ahora tenemos unos cursos, algunos fríos ahora parte
interesante aquí en cálculo que
vas a usar programación Python
para básicamente escribir y hacer todos los datos, reprocesar, analizar cosas. Entonces para eso, ni
siquiera necesitas
crear un entorno entero de
Python. Simplemente puedes hacer click
en Crear aquí. Y aquí solo puedes ir
directamente y hacer click en nuevo libro de carga y puedes crear tu propio cuaderno, ¿verdad? Entonces eso es algo
interesante de una manera. Puedes hacerlo
directamente en este cuaderno, que es el entorno Python, también te dará acceso
a la biblioteca de Panda, scikit-learn, por lo que no
necesitas instalarlos manualmente
en tu siguiente top. Aquí se puede ver que
tenemos algunos conjuntos de datos. Una parte interesante que te
voy a mostrar aquí es que este conjunto de datos que
tomará algún tiempo cargarse aquí. Aquí tenemos alguna progresión de
rankings de usuarios y todo eso. Así que echemos un
vistazo a algún conjunto de datos aquí. De acuerdo, así que aquí tenemos
el Boston Housing. Por lo que sólo voy a
hacer click sobre éste. Y aquí se puede ver que
esto se abrirá en un minuto. Vi tiene diferentes tipos de
conjuntos de datos y no realmente
esos conjuntos de datos aunque. gente, la comunidad de carga, en realidad publican muchos de
sus propios cuadernos y sus formas de
analizar datos sobre Kaggle. Lo que puedes hacer es que puedas, puedes ver que hay cuadernos y puedes aprender de ellos. Realmente es algo muy bueno. Al igual que estás viendo el código de
alguien en GitHub y estás aprendiendo
de él aquí mismo. Creo que necesito refrescarlo. Ya está abierto. Por lo que aquí se puede ver
muestra los datos. Se puede ver que los datos están en el formato CSV de punto y
este es todo el conjunto de datos. Pero la parte interesante aquí
es el marcador, una pestaña aquí. Entonces, si te vas a enfriar, podrás ver
que hay mucha
gente fuera de esta comunidad de
andamios a quien los tira a todos para visualizar o preprocesar
estos datos, ¿verdad? Por lo que a continuación haga clic en
éste, que está aquí. Se puede ver que muestra
que este es el cuaderno y estas son las bibliotecas
que este cuaderno ha utilizado. Los vamos a utilizar
en todo este curso. Solo te estoy dando una idea de cómo exactamente
puedes usar Goggle porque es una herramienta
realmente importante para todos los científicos de datos. Para que puedas ver tenemos
ponsores Mark Floyd, seaborne para
visualización de datos y ciencia ficción. Y aquí se puede ver que esta persona ha
escrito
aquí su propio código y para visualizar el
conjunto de datos y para entender y,
y para trazar el conjunto de datos. Se puede ver todo
aquí y pedidos también aquí. Se puede ver que hay buena también. Por lo que es una muy buena plataforma
para aprender ciencia de datos. Básicamente, lo haremos,
estaré enseñando todas estas funciones y todas estas complejas,
gracias a ustedes chicos. Para que no tengas que
preocuparte por ello. Es sólo que
te estoy dando una idea de qué exactamente puedes esperar
de este sitio web de Kaggle. Así que básicamente eso es
todo por este tutorial. En el siguiente tutorial,
comenzaremos recogiendo un conjunto de datos e importándolo usando la biblioteca Pandas en Python. Entonces eso es todo por este
tutorial. Gracias por ver.
3. Getting Started with Pandas: En este video,
vamos a discutir algunas de las funciones muy importantes
de la biblioteca Pandas. Y discutiremos
cuáles son exactamente las cosas que
podemos hacer y usar usando,
usando la biblioteca de Python y
Pandas para algunos análisis de datos importantes y comprensión y
extracción de forma de conocimiento de un conjunto de datos dado. Por lo que este va a ser un tutorial
muy importante. Y ésta
vamos a cubrir algunas de las funciones muy
básicas. Y a medida que
pasaremos a este curso, exploraremos algunas tareas
más importantes que algunas complejas que se
pueden hacer fácilmente
utilizando la biblioteca Pandas. Las primeras cosas para nosotros necesitamos para activar el Cuaderno Jupyter. Entonces aquí yo el
Cuaderno Jupyter Abrir y aquí necesitamos crear un nuevo Cuaderno Python
usando Python tree. Ya he creado
uno que es por el nombre pi bond como central. Y lo que tenemos que hacer es que sólo tenemos que
abrir éste aquí. Por lo que ahora aquí podemos escribir el programa Python
y podemos realizar todas las tareas de ciencia de datos que queremos hacer aquí, ¿verdad? Entonces lo siguiente es
descargar el conjunto de datos. Aquí puedes descargar cualquier
conjunto de datos de tu elección. He descargado el conjunto de datos Precios de la
vivienda de Boston y está disponible
en google.com. Y también voy a dar todo
el vínculo a eso. En la descripción
de este video. Puedes descargarlo desde ahí. Y aquí tengo una carpeta
nombrada como datos de vivienda. Y se puede ver tenemos aquí
un punto de vivienda CSV. Si solo quiero, primero
tendré que ver cómo se ve
este conjunto de datos. Entonces para eso, voy
a abrirla aquí. Entonces lo primero que podemos ver aquí, hay algunas columnas en
este conjunto de datos y hay muchas filas
en este conjunto de datos. Lo que queremos hacer
es que queremos
asegurarnos de que esta vivienda
dot CSV que
creamos, vamos a
crear un DataFrame que en realidad usará Todo
este conjunto de datos y lo va a importar aquí en
Cuaderno Jupyter. Y lo que hagamos
en ese DataFrame, no
va a impactar
nuestros datos originales. Entonces incluso si algo sale mal aquí en la programación de
Python, si hacemos algo mal aquí, no
afectará a
los datos originales. Entonces primero lo primero, vamos a importar la biblioteca pandas. Entonces vamos a utilizar el
comando import pandas. Y desde entonces podemos
asignarlo como Elias o un nombre aquí, que es BD, ¿verdad? Entonces siempre que queramos
utilizar la biblioteca mineros, podemos usar el atajo SPD. Lo primero es que necesitamos
crear un DataFrame. Llamemos a esto como ds. Y este DataFrame en realidad
contendrá el conjunto de datos de
nuestra vivienda dot csv. Entonces veamos cómo podemos
importar el conjunto de datos aquí. Por lo que usaremos pd dot read
underscore csv función, que es una función incorporada
de la biblioteca Pandas. Y aquí podemos especificar el
camino hacia los datos de vivienda, que está en este dato de vivienda de
Boulder. Y el nombre del expediente
es vivienda dot csv. Entonces aquí se puede ver que he
importado todo el conjunto de datos aquí. Y este DataFrame, que
es variable DF aquí va a contener
todo el conjunto de datos aquí, que son las filas y las
columnas de la vivienda dorsi. Ahora el primer pase que
vamos a ver es encontrar la primera, digamos, cinco filas
de este conjunto de datos. Esta es la primera parte
que queremos hacer. Para eso podemos utilizar una función
muy útil, que es la función de cabeza. Cabeza significa las reglas de partida. Por lo que aquí puedo especificar
cualquier número aquí. Entonces digamos que
queremos especificar cinco. Ahora si voy a golpear Control Enter. Ahora puedes ver aquí
me mostrará las primeras cinco filas de este
DataFrame, que es Bf. Ahora recuerda que
ya les he dicho que
si hacemos algún cambio
a este conjunto de datos, digamos que cambio cualquier valor de este
dataFrame, que es df. No va a impactar los datos y la
vivienda dot csv. Por lo que aunque quisiéramos
hacer algún cambio, tenemos una línea separada para
aquello que podemos hacer eso. Pero aquí, la
esencia media es que podemos hacer cualquier cosa aquí como tareas de pre-procesamiento de
datos y todo, y no afectará a
los datos originales. Entonces así es como
podemos ver cómo podemos extraer las primeras 54 filas
usando la variable head. Ahora pasemos a la siguiente función
muy importante, que es la función tail. Digamos ahora queremos
averiguar la primera, digamos las últimas cinco
filas de estos datos. De acuerdo, entonces básicamente estamos
haciendo esto porque
es muy importante que cuando se
nos da un conjunto de datos, lo
analizamos muy bien. Nosotros, vamos a utilizar estas
funciones muy a menudo dentro de nuestros programas de
ciencia de datos, lo que sea que escriba aquí, porque digamos que quiero
realizar alguna tarea de
pre-procesamiento de datos y ahora quiero ver cuáles son los cambios
en el conjunto de datos. Por lo que no necesito cargar todo
el conjunto de datos aquí. Simplemente puedo cargar las primeras cuatro
o cinco leyes y puedo hacerme una idea de cómo
ha cambiado el conjunto de datos. Entonces es muy importante. Ahora, descubramos cuáles son
las últimas cinco filas
de este conjunto de datos. Se puede ver cuándo
voy a golpear Enter, Control Enter, verá
que hay último por filas. Y aquí se puede ver esa
etapa que hay 488 reglas y dentro
de este conjunto de datos. Función tan muy importante aquí. Ahora pasemos a algunas
otras funciones también. La primera función importante
es la función de forma. Y en realidad no es una
función, es una propiedad. Por lo que si voy a golpear Control Enter, se
puede ver df forma de punto. Me da este resultado aquí. Este resultado establece que
hay 489 leyes, hay cuatro columnas. Esta es una
propiedad muy importante porque la mayoría de las veces no vamos
a abrir todo el conjunto de datos. Podemos simplemente activar esta propiedad de
forma y podemos saber cuál es el número de filas y columnas
dentro de nuestro conjunto de datos. Ahora, pasemos a una función
muy importante, que es la función descrita. Voy a Controlar Entrar aquí. Ahora cuando usamos la
función describe en cualquier detalle, es una función muy importante y una herramienta muy importante para los científicos de
datos que realmente usan esto para entender
el conjunto de datos. Aquí puedes ver estas son las cuatro reglas de este conjunto de datos. Las primeras cuatro columnas, que es m impar es la
proporción de pila B3 y me hizo bien. Entonces aquí podemos ver que cuando usamos la función
describe, nos muestra contar media. Std es sinónimo de
desviación estándar con un constante. Estos términos significan y desviación
estándar en un video separado
porque son muy importantes en la ciencia de datos. Entonces tenemos hombres 2550%
por ciento y max. Ahora lo que sí
nos da realmente describe todo el
conjunto de datos y
nos da una idea de cuál
será la media de toda la columna aquí. Entonces se puede ver ese
átomo, átomo es toda una columna y
la media de esa columna es 6.2 para la desviación estándar
es 0.6 para algo, y el elemento mínimo
es 3.56 algo. Estos son los valores
que son muy cruciales en
la visualización de datos también. Entonces cuando queremos
visualizar nuestros datos, también
necesitamos ver cuáles son
las desviaciones estándar,
los medios, y todas
esas cosas, ¿verdad? Entonces esta es nuevamente una función muy
importante, que es la función de describir. Y pasemos a algunas
otras funciones cruciales. La primera función
que vamos
a hacer es la función drop, que está en DFS consiguió drop. Aquí. Vamos a
especificar una columna. Entonces digamos que quiero
soltar átomo de columna. Por lo que voy a
especificar ítem aquí. Ahora lo que voy a hacer es que
voy a especificar el eje. Entonces eje uno significa columna. Si el acceso es igual a 0, significará que
es de estado bajo. Así que aquí especificé eje igual a uno
porque quería especificar que el ítem es realmente
de columna si era un no, si phi 0 aquí. Ahora aquí, si quiero
eliminar este conjunto de datos, ¿verdad? Entonces si voy a golpear Control
Enter ahora se puede ver que este conjunto de datos ahora
tiene sólo tres columnas, son m se elimina. Muy bien, así que aquí se
puede ver tenemos este RMD movido aquí
desde el conjunto de datos. Ahora una cosa importante que
notarás aquí es que si voy a echar
un vistazo a df.head, si recuerdo esta función
y si golpeo Control Enter, puedes ver que el ítem sigue
ahí en este DataFrame. Ahora, significa que en realidad lo
está eliminando solo temporalmente y no
permanentemente de este DataFrame. Por lo que significa que
tendremos que hacer algo para
que en realidad se elimine
de este DataFrame. Ahora hay dos
formas de hacerlo. En realidad podemos reasignar DFS, df es igual a df dot drop. Entonces ahora si llamaré a
la función df.head. Ahora se puede ver que ha quitado la columna RM de aquí. Esta es una forma, pero tengo
una forma más conveniente aquí. En lugar de hacer este
vf es igual a esto, podemos usar otro parámetro
aquí que está en su lugar. Igual a verdadero. Entonces vamos a ejecutar esto. En realidad
eliminará los datos, ganará estas columnas átomo
del conjunto de datos. Y in place igual a
true significa que lo
eliminará en lugar
del DataFrame. Por lo que ahora si voy a
golpear Control Enter, se
puede ver claramente aquí que el artículo realmente se
mueve ¿verdad? Entonces lo es, el uso de este parámetro
in place
es que sólo ¿verdad? Ahora pasemos a algunas otras
funciones importantes también. Lo siguiente importante es que
también podemos usar es df tres. Golpearé Control Enter. Se puede ver que me
dará las
tres primeras filas, ¿verdad? Entonces en lugar de usar head, también
podemos usar esta
declaración que es df, luego corchetes,
y tenemos un colon aquí y luego tres. Este es uno. Otra forma de hacerlo no si no quieres
escribir la función head, también
puedes usar esta. Es más veloces en la naturaleza. Así que ahora pasemos a algunas
otras funciones como cómo
eliminar las primeras columnas, ¿verdad? Entonces vamos a realizar esta tarea. Ahora digamos que
quieres eliminar esas dos o tres primeras
columnas de un conjunto de datos. Entonces, ¿cómo vas a hacer eso? Echemos un vistazo a esto. Ahora tenemos la función DFT, y obviamente vamos a
usar la función drop aquí. Medicare los parámetros
van a cambiar. Lo primero es que
escribiré columnas. Y voy a especificar este
parámetro columnas. Entonces tendré que precisar todas las columnas que
quiero creer. La forma de hacerlo es usar
columnas iguales a df.columnas. Aquí puedo especificar el
número de columnas. Entonces si quiero creer las dos
primeras columnas, tendré que usar dos puntos. Y puedes ver aquí
voy a tener que escribirle. Ahora. El siguiente parámetro es axis. Recuerda
especificar siempre el eje
porque especifica si
tenemos filas o columnas. Cuatro columnas,
tenemos el eje uno. Para filas tenemos el eje 0. Y obviamente el
último es el
parámetro in place x. voy
a justo por aquí. Ahora si voy
a tratar de escribir df.head. Ahora se puede ver
que ha eliminado las dos primeras columnas
de nuestro DataFrame. Primero do se
representa realmente usando
este colon y dos. Y aquí tenemos df.columnas. Por lo que hemos especificado las columnas usando esta función df.column. Ahora veamos cómo podemos
eliminar las últimas n columnas. Eliminar y última columna. Entonces digamos que tienes una tarea en la
que quieres eliminar las últimas dos o tres
columnas del conjunto de datos. Nuevamente, usaremos
la función drop. Entonces estas son básicamente las, pueden
ver las variaciones de la función de caída y
son muy cruciales porque
estarás usando
estas cosas importantes
diariamente cuando estés estarás usando
estas cosas importantes analizando el conjunto de datos. Entonces si queremos que las últimas
N últimas columnas en, en realidad para nosotros,
tendremos que especificar que queremos soltar las
columnas. Para eso. Volveré a usar
df.column. Aquí mismo. Voy a especificar, digamos menos uno en contra especificar el
eje, que será uno. Porque las columnas de eliminación
y en el lugar es igual a verdadero. Ahora aquí lo que voy a hacer es echar un
vistazo al conjunto de datos en sí. Muy bien, para que puedas ver aquí, cuando especifico menos uno, eliminará una
columna del final. Entonces se puede ver la última
columna que se hizo fue, ahora
se elimina de ella, ¿verdad? Entonces si voy a escribir dos
aquí y ejecutarlo de nuevo, se
puede ver uno menos dos
con columna se elimina. En realidad se está eliminando una
columna en esta posición de índice. Por lo que tendremos que
especificar dos puntos aquí. Porque si no
especificaremos la columna, no
va a eliminar
las últimas n columnas, ¿verdad? Sólo eliminará
la columna y el índice menos dos
que está aquí. Ahora si voy a golpear esto ahora se
puede ver que
en realidad está tratando de eliminar algunas de las columnas aquí, ¿verdad? Por lo que se puede ver que las
dos primeras columnas fueron eliminadas. Aquí. Puedo hacer una cosa más. Echemos un vistazo qué
pasará si escribo aquí y un colon ¿verdad? Ahora se puede ver que si
escribo dos y es, colon está al final, se
han eliminado las dos últimas columnas. Para que puedas probar
estas variaciones diferentes y
diferentes para echar
un vistazo a lo que exactamente
podemos hacer dentro
del conjunto de datos
porque es muy importante. Colón dos significa que estamos
eliminando las primeras n columnas. Y si leo hago dos puntos, se va a eliminar las últimas n columnas de nuestro conjunto de datos. En el DataFrame,
no el conjunto porque el conjunto de datos
está intacto, ¿verdad? Así que ahora pasemos a
algunas otras cosas también, que es tratar de eliminar
filas de nuestro marco de datos. Tenemos aquí el marco de datos. Este es nuestro DataFrame. Y digamos que queremos creer primero n filas de
este nuevo marco de datos. Ahora veamos cómo
podemos hacer eso. Ahora. Nuevamente, usaremos
la función drop. La función es en realidad una función muy importante para la eliminación. Así df dot dot drop. Ahora recuerda que
aquí queremos, no
queremos
eliminar la columna, por lo que no vamos a
usar columnas iguales a dos. Vamos a usar
la función df.head. Digamos que queremos eliminar las tres primeras filas
de nuestro conjunto de datos, por lo que voy a proporcionar eso. Ahora el siguiente
parámetro importante es el eje. Ahora el acceso es bajo, solos es en realidad 0 y el último parámetro está en
su lugar, lo cual es cierto. Echemos un vistazo a esto. Muy bien, por lo que ahora se puede
ver que es específico. Aquí se muestra que
tenemos una edición aquí, que es que se puede ver
ni se encuentra en el acceso. Entonces lo que vamos a tener que hacer aquí, df.head dot index, tendremos que especificar aquí
el índice. Entonces sólo creerá
las tres primeras filas, ¿verdad? Entonces df.head tres significa las primeras tres filas
de este DataFrame. índice de puntos
le dará el índice, el valor, y
en realidad caerá los
falsos tres roles. puedas ver que
en nuestro DataFrame, realidad
estoy mostrando
las primeras fotos. Por lo que las primeras fotos
no empiezan desde 0123, es a partir de
3456 aquí mismo. Si voy a especificar cinco aquí puede ver el conjunto de datos
va a cambiar, ¿verdad? Por lo que las primeras cinco
filas, filas se van a
eliminar de esta manera. Ahora veamos cómo podemos
eliminar las últimas n filas. Puedo hacer eso aquí solo con
solo usar el método tail. Entonces d de cinco nos darán las últimas cinco filas
del DataFrame. Y el índice de puntos en realidad nos
dará disfunción el índice de la quinta
y
última quinta columna y los va a caer. Entonces ahora si voy a escribir
aquí en lugar de cabeza, si voy a escribir cola. Ahora se puede ver que nuestro conjunto inicialmente tenía unas 488 filas, y ahora está mostrando
que la última es 4083, lo
que significa que ha eliminado cinco filas de nuestro marco de datos. Entonces así es como podemos eliminar primero y filas y
las últimas diez reglas mediante el uso de la función df.head
dot index. Df dot, función de índice de puntos. ¿ Verdad? Por lo que ahora sólo voy a
entrar en esto porque
ahora vamos a pasar a algunas otras
funciones importantes también. Ahora veamos cómo
realmente podemos resolver las columnas. Esto es algo muy importante. Ordenar columnas sobre la
base de, digamos, nombres o sus
valores numéricos en orden creciente o decreciente
es muy importante. Y lo vas
a hacer muy frecuentemente en los conjuntos de datos. Para eso, tenemos una función simple que es
la función sort values. Sólo vamos a escribir valores de sort
df dot. Ahora lo que vamos a hacer
es que tendrán que especificar la columna usando, por, digamos que queremos
ordenar el volumen RM, ¿verdad? Y se puede ver que
esta es la columna de artículos. Y aquí tenemos
5.796, luego 5.859. Después de ordenar esto, en realidad
va a cambiar en el orden ascendente, ¿
verdad? Entonces por ítem. Ahora lo siguiente que
necesitamos especificar es solo el método in place, que será cierto ¿verdad? Ahora sólo voy
a mostrar df.loc. Y aquí voy a especificar
rebanada aquí mismo. Ahora ya se puede ver que
esto tiene en realidad, intentémoslo a la cabeza aquí. Ahora se puede ver que esta variable de
ítem ahora está ordenada. Entonces este es el uso principal de
la función sort values. En realidad
ordenará todos los valores y todos los valores
de estas columnas RM. Por lo que se puede ver que ahora es 3.5613.863 y de tal manera. Entonces así es como funciona la función de
valores de orden. Ahora, digamos que queremos dejar caer algunos valores duplicados
dentro de nuestro DataFrame. Entonces digamos que tenemos un
DataFrame donde hay algunos valores duplicados
dentro de una columna. Entonces veamos cómo podemos hacer eso. Voy a comentar esto, y también
vendré en éste. Ahora pasemos a
cómo soltar duplicados. Queríamos soltar los elementos
duplicados
del DataFrame que tenemos. Nuevamente, una función muy simple, que es la BF consiguió la función de duplicación de
subrayado gota. Escribiremos en
su lugar igual a verdadero. Entonces lo que hará es que
eliminará todos los duplicados
de un DataFrame. Ahora como en este conjunto de datos
no tenemos duplicados, no
podemos ver eso en acción. Pero lo que puedes hacer es, te
daré una tarea
muy sencilla. En realidad puedes abrir
el archivo CSV de punto de vivienda y crear algunos
valores duplicados dentro de eso, y luego usar esta función d
de dot, dot drop duplicados. Y entonces se puede ver y
visualizar cómo ha caído esos valores duplicados en
su lugar iguales a true significa que en realidad está
dispuesto a hacer cambios en el DataFrame
original. Muy bien, por lo que estas fueron algunas de las funciones importantes, eliminar, algunas ordenamiento y
muchas cosas que ahora
son la tarea muy
importante, que muchas de las cuales es muy importante como
conocido como rebanar. Rebanar implica dos funciones muy
importantes aquí, que es la función LOC
y hay función Lucy. Entonces LLC básicamente significa ubicación. Esto hay dos métodos, LOC y Lucy de los
Pandas DataFrame, que en realidad nos ayuda a
rebanar las columnas y filas. Porque a veces cuando
se está analizando un conjunto de datos, no
desea analizar todo
el conjunto de datos. ¿ Qué quieres analizar? Parte básica y simple
de ese conjunto de datos. Por lo que quieres rebanar eso
para que puedas visualizar eso y puedas hacer
muchas cosas con eso. Muy bien, así que
veamos cómo podemos usar la función LLC y yo LOC. Lo primero es que
usaremos la función df.loc. Y aquí especificaremos 04. Ahora voy a especificar los nombres
de columna
aquí, que es RM. Y digamos que vamos a especificar
una columna más. Es LSAT. Lo que hará es que
en realidad cortará todo el conjunto de datos. 0 significa las primeras cuatro filas
y las columnas que
quiero dos rebanadas, RAM y como sag, ¿verdad? Si acabo de escribir la función de forma de punto
df, si toco OK. Entonces aquí se puede ver que
no es tan triste como eso aquí, así que eso fue un error. Ahora puedes ver aquí
me muestra que tenemos este df. Golpearé Control Enter. Se puede ver que
este es en realidad el dataset
de sector de todo el conjunto de datos. Ha escogido estas
dos columnas solamente, que es nuestra pila de MNL. Y el rango de las
filas es de 0 a cuatro. Por lo que en realidad puedo cambiarlo a, digamos de dos a seis. Y si pego Enter, se
puede ver que 23456, ¿verdad? Entonces las leyes son de dos a seis y las columnas
son etiqueta RM y S. Por lo que es un candado muy importante. En realidad no es una función, es un localizador. Entonces LLC básicamente
significa ubicado en
localizará estos usando
estos dos índices y se lo cortó hacia abajo. Entonces lo que podemos hacer
es que podamos asignar dfs como ds igual a éste. Si voy a tratar de
mostrar df.head, me mostrará esto. En realidad podemos
cortarlo y podemos reasignarlo al
DataFrame si queremos. Y aquí tenemos esta función LOC son función
muy importante
y estaremos usando esta función
si queremos
analizar solo una pequeña
parte del conjunto de datos. Ahora tenemos otro
localizador que es la ILC. Lucy es básicamente sin embargo, lo mismo que LLC, pero fueron la mayor diferencia, que es que
no toma valores extremos. Sólo utilizará los valores numéricos para localizar o utilizar
los índices, ¿verdad? Entonces en lugar de elementos en stack, tendremos que especificar
los valores numéricos. Entonces aquí si trato de ejecutar un comando
muy simple aquí, se
puede ver cuál es ILC. De 0 a cuatro. Se va a cortar las primeras
cuatro filas del conjunto de datos. Por lo que aquí no podemos especificar
los nombres de las columnas en sí. En realidad podemos simplemente hacer el
rebanar este rayo aquí mismo, si
lo haré, sencillamente, Son dos coma cuatro. Y si voy a golpear enter, vale, Así que tenemos, no
tenemos cuatro columnas aquí. Vamos a escribirlo tres. Ahora a continuación, pulsa Entrar aquí. Por lo que ahora se puede ver esto significa colon para perderse
las dos primeras filas. Y el colon tres significa
las tres primeras columnas. Si voy a escribir tres puntos, significa que tenemos
las últimas tres columnas. Puedes, puedes ver
que desde aquí también, hemos usado tu cola, que está en este lugar. Se puede ver que estamos usando dos
puntos para especificar las primeras n columnas en puntos para especificar las últimas columnas
finales. Lo mismo que el
suministro y adherirse en la función ILC porque
la sección de columna, no
podemos especificar esto. Entonces por eso estamos
haciendo eso aquí. Entonces si golpeo Control Enter
ahora se puede ver
que solo especificará
las últimas tres columnas. Y se puede ver que esto
es en realidad a mediados de los años 70, que es la última columna en sí. Entonces si lo haré uno. Ahora en visual me, las últimas tres
columnas aquí mismo, se pueden hacer muchas cosas. Puedes jugar por ahí
con esta cosa. ¿ Qué pasará si
voy a especificar aquí, uno, digamos 32. Aquí se puede ver que
tres y hacer no va
a funcionar porque no lo hace bien. Aquí no es un rango. Entonces tendré que
precisar, digamos 310. Aquí se especifican todas
las filas de tres a diez. Por lo que en realidad habíamos rebanado
las leyes de tres a diez. Aquí. Uno a dos significa que en realidad
va a seleccionar las columnas de la posición
uno a la posición dos. Si voy a hacer que sea tres. Se puede ver que seleccionará todas las columnas
de una a tres. Para que puedas jugar
con estos valores. puedes especificar algunos valores
negativos Aquípuedes especificar algunos valores
negativosy echar un vistazo a lo que sucede en el DataFrame y cómo
está sucediendo el rebanado. Y te ayudará mucho
en realizar análisis de datos. También. En el siguiente tutorial, vamos a empezar con la tarea de preprocesamiento de
datos. Y básicamente ahora tienes una buena idea de cómo
usar la biblioteca pandas. Asegúrate
de probar todas estas funciones por ti mismo y echa un
vistazo a cómo
está cambiando la salida mediante
el uso de la función df dot head
o la función df dot. Podrás ver los
cambios en el conjunto de datos. Entonces eso es todo por este
tutorial. Gracias por ver.
4. Numpy Arrays: En este video,
vamos a empezar con una biblioteca muy importante, que es la biblioteca numpy. Entonces lo primero que
voy a hacer aquí es que voy a
importar numpy como np. Np es básicamente alias. En el tutorial anterior de
estas puntuaciones de ciencia de datos, ya
hemos cubierto una biblioteca
muy importante, que es la biblioteca pandas. Y vimos cómo podemos hacer
diversos pacientes usando eso. Ahora, vamos a realizar estas tareas de preprocesamiento de datos en los próximos videos futuros. Y para eso, vamos a utilizar estas dos bibliotecas
importantes, que es la biblioteca
NumPy y pandas. Básicamente, si quieres ver toda
la documentación
de no ser, solo
puedes ir
en numpy dot ORG, que es la página oficial
de la biblioteca NumPy. Encontrarás todas las funciones que esta biblioteca es un barco. Ahora, ya que nos estamos enfocando en los objetivos de la ciencia de datos y en las tareas de preprocesamiento de
datos. He recogido algunas de las funciones muy importantes
de la biblioteca NumPy. Y básicamente los he seleccionado de diversos proyectos
que he hecho. Por lo que aquí vamos a cubrir todos ellos y la mayoría de ellos son muy útiles y
los usaremos en el futuro los
próximos videos. Entonces básicamente hay dos usos
básicos de la biblioteca NumPy. El primero es
el num de Alice. Y segundo es el análisis numérico o las operaciones
numéricas
que queremos realizar. Así NumPy significa Python
numérico. Entonces aquí vamos a estar, tener estas dos partes aquí. Pero en este video sólo
vamos a cubrir las matrices Numpy. Y en el siguiente video, veremos cómo podemos realizar operaciones
matemáticas
como logaritmo, desviación
estándar
media, todo eso. En el siguiente video. Empecemos con el iris NumPy. Entonces básicamente para nosotros, necesitamos entender
por qué necesitamos NumPy. Así que básicamente vamos a
crear una lista simple. Voy a simplemente crear
una lista aquí, que es
una. tendrá tres
elementos en ella. O digamos que estos son
los cuatro elementos. Entonces si ya podemos
crear un menor que, digamos que imprimo esto, imprima aquí el tipo de
esta lista. Si golpeo Control Enter, puedes ver que esto pertenece a la lista de clases usando matrices. ¿ Por qué estamos usando Eris? Discutamos eso primero. Ahora, la cosa está en lista. En realidad no se almacena en ubicaciones de memoria
continua. Por lo que estos cuatro elementos no se almacenan en una asignación continua de
memoria. Esa es la
razón principal por la que no
tendremos un acceso más rápido
a estos elementos de la lista porque no se almacenan continuamente
dentro de la memoria. Entonces es por eso que
necesitamos num por adultos. Porque en el
ser de la ciencia de datos queremos realizar
operaciones más rápido, queremos acceder a
estos elementos más rápido. Entonces vamos a
utilizar matrices NumPy. Y lo segundo es
que podemos utilizar algunas de las operaciones matemáticas en estos artistas, como multiplicaciones de
matriz. E incluso podemos crear matrices
multidimensionales usando NumPy. Muy bien, así que empecemos
con la primera transponer, que en realidad es
crear una matriz NumPy. Ninguna matriz NumPy es en realidad MDRD. Y MDRD significa array
n-dimensional. Por lo que podemos crear una
matriz n-dimensional usándolos bytes, que es la ubicación básicamente
continua de los objetos. Es el objeto n dimensional. Entonces voy a decir aquí mismo y objetos dimensionales, ¿verdad? Entonces veamos cómo
podemos crear una matriz. Por lo que voy a crear un
anuncio aquí con el nombre ARR. Una forma de hacerlo es que
usarás np dot. Y aquí solo hay que especificar los elementos
del estudio. Entonces si voy a especificar una coma, dos coma tres, esta
va a ser una matriz
NumPy, ¿verdad? Entonces intentemos marcar
el tipo de esto. Entonces sabremos qué es esto
en realidad aquí mismo. Se puede ver que muestra aquí
que pertenece a clase. Entonces ARR es una variable
y la función de empate nos
dará el tipo
de esta variable. Por lo que se puede ver define
que se trata de una matriz NumPy. Por lo que es un m por n adicionando
dimensional. Ahora veamos cómo
podemos averiguarlo. La dimensión de este ajuste, podemos utilizar la función dim, la
función endocrina, que nos
mostrará el número de
dimensiones del Sadie. Sadie tiene sólo una dimensión, que se puede ver aquí, 123. Ahora vamos a crear
otra dimensión aquí usando un coma separado. Y vamos a especificar
otra lista de elementos como 567, ¿verdad? Por lo que ahora se puede ver que dice que el tipo de datos
no se entiende. Entonces la razón por la que
esto está sucediendo es que
estos necesitan ser incluidos
en uno solo. Que necesitamos escribir aquí un cuadrilátero
más, así, y tenemos que
cerrarlo aquí. Ahora vamos a golpear Control Enter. Ahora se puede ver que se trata de
un área bidimensional. Entonces si queremos especificar matriz
bidimensional, tendremos que
especificarlo así. Por lo que la primera dimensión
tendrá estos tres elementos. La segunda dimensión
tendrá estos elementos. Si quiero crear
más dimensiones, las incluiré en
estos corchetes sitio. Incluso si quiero aumentar la dimensión de
estos dos elementos, estas dos listas, lo que
puedo hacer es simplemente añadir más
corchetes aquí, ¿verdad? Entonces si voy a añadir tres
corchetes, curiosamente,
se puede ver que ha aumentado la
dimensión de la matriz. Entonces cuanto más es el número de
estos corchetes, el modo es el
número de dimensiones. Por lo que se puede ver ahora que
mencioné es de siete, aunque sólo tenemos
estos dos elementos, ¿verdad? Entonces si trato de imprimir
este adder aquí, se
puede ver que así es
como va a aparecer. De esta manera podemos crear estos anuncios es que n
número de dimensiones. Y ahora aquí
sólo voy a hacerlo bidimensional. De acuerdo, entonces ahora tenemos esta matriz
bidimensional. Ahora veamos cómo podemos crear unas áreas de cuatro dimensiones,
cinco dimensiones. Vamos a crear otra
área que está en un du es igual a matriz NumPy. Aquí, digamos que queremos
crear 123 tridimensionales. Así es como vamos a
especificar tridimensional. Aquí escribiré una
coma dos, coma tres. Vamos a crear
otra lista que es cuatro coma cinco, coma seis. Y el último
es siete coma 89. Así que ahora
intentemos imprimir esto. Tratemos de abrir el número
de dimensiones de este Addie. ¿ Podías ver aquí tenemos tres dimensiones y así
es como tenemos la otra. De esta manera, podemos crear
cualquier objeto n dimensional. Básicamente, se puede ver que
podemos tener la capacidad de
crear anuncios que
son n dimensionales. Por lo que nos ayudará mucho en el preprocesamiento de
datos también. Y básicamente cuando
lo
combinaremos con algunas
multiplicaciones de matriz y algunas operaciones cruciales como los registros y
la desviación estándar significan, obtendremos alguna muy
buena tarea de pre-procesamiento y algunas
cosas muy importantes, ¿verdad? Entonces este fue un
paso completo y ahora veamos qué operaciones realmente podemos
realizar en estos átomos. Ahora sabemos cómo
crear una matriz, cómo crear un Hillary
dañado. Ahora veamos cómo podemos realmente hacer la indexación
de estas áreas. Así que básicamente
escribiré indexación. Digamos que tenemos
este ARR agregado. Y aquí escribo un coma uno. Veamos cuál es
la salida aquí. Se puede ver que una coma uno. Estos son los dos elementos
que estaban suministrando. Indización básicamente significa qué, ¿cómo accederé a un elemento particular dentro
de este todo dado en él? Para que puedan ver
este es nuestro ático. Si estoy escribiendo una coma 11 nos dirá la
dimensión en la que estamos. puedas ver que aquí
tenemos dos dimensiones, y empieza desde 01. Entonces esta es la dimensión cero y esta es la dimensión falsa. Entonces uno es en realidad
indexando eso. Ahora estamos encontrando el
elemento dentro de esta lista. Podemos decir esta dimensión. El siguiente que está aquí, especifica el elemento
en esa lista. Entonces aquí realmente estamos encontrando 25671 significa que en realidad
estamos señalando o
indexando al primer elemento. Por lo que cinco está en realidad en el 0, en la posición seis está
en la posición única. Si escribo tres
aquí, veamos. Vamos a obtener un error
porque hay, no solo los elementos
012 aquí, ¿verdad? Entonces vamos a hacer, vamos a
conseguir siete aquí. Ya pueden ver, ahora
veamos qué
pasará si escribo 0 coma dos. Ahora puedes ver 0 significa que en realidad estamos
mirando esto. Agregando aquí, que es
el 0 en posición, entonces estamos llegando al
segundo elemento en él, que en realidad es tres. Entonces estamos consiguiendo
tres en la salida. Muy bien, entonces así es como se
puede realizar la indexación. El primer elemento
nos dará la dimensión en la que estamos. Y segundo elemento
aquí en esta indexación nos
dará la
posición correcta del elemento. Pasemos a
otra operación que vamos a realizar. Muy a menudo en estas áreas, que se conoce como rebanar. Ya hemos visto
rebanar en pandas también. Y vimos cómo podemos hacer el
rebanado y los marcos de datos. Ahora veamos cómo podemos
hacer eso en áreas, ¿verdad? Vamos a considerar la
misma Adi, que es ARR. Y aquí sólo voy a
escribir este comando Hill, que es uno y
colon y luego tres. Veamos la salida de esto. Ahora se puede ver que
13 me da 567. Por qué estamos consiguiendo esto. Se puede ver que
en realidad estamos haciendo el rebanado de esta Adi. Esto ya tiene
estas dos dimensiones, como podemos ver aquí. La primera dimensión tiene 123 y la segunda
dimensión tiene 567. Estamos rebanando el ADA
desde 133 significa, sin embargo, todos los elementos que
tenemos desde una posición neta. que puedan ver
tenemos ceros aquí, luego tenemos primera
posición aquí, y luego todo el rebanado
que ocurre desde la primera posición hasta la segunda posición porque aquí no se incluye
tres. Entonces voy a escribir aquí
que tres no son inclusivos. Por lo que se va a
rebanar el dado en él desde la primera posición. Segunda posición porque tres no
es inclusiva, ¿verdad? Veamos cómo podemos hacer eso en la segunda área a la
que se suma. De acuerdo, entonces en los agregados dos labios escriben el mismo comando
para ver la salida. Ahora puedes ver aquí
no tenemos nada dentro de esta Adi. Veamos por qué está sucediendo
esto, porque en la primera posición no
tenemos ningún ítem. Esto es agujero es
la 0ª posición, así que vamos a probar 0 aquí. Y ahora se puede ver
rápidamente que aquí, si tratamos de cortarlo de 0, tenemos 0 coma uno, coma dos. En estas tres posiciones, tenemos todos estos elementos. Entonces esto está en la posición 0ª, ésta está agregando
la posición falsa, y ésta está en
la segunda posición. Por lo que se puede ver que este es el resultante del rebanado
que hemos hecho. Ahora necesitas
jugar con diferentes tipos
de arterias y necesitas jugar con
estos diferentes valores
para echar
un vistazo a lo que sucede
en el resultado, para realmente conseguir un
una mejor comprensión de cómo funcionan las cosas. Porque no puedes aprender
todos estos términos. No puedes memorizar
todas estas cosas. Tendrás que seguir practicando con diferentes matrices
dimensionales. Rebanarlo con
diferentes valores. Aquí en lugar de 0 a tres, vamos a quitar 0 y vamos a
ver qué va a pasar aquí. Se puede ver que aquí no
hay cambio. El motivo es cuando
escribimos del tres, básicamente
significa que el
primer 012 sin impedimentos, ¿verdad? Muy bien, entonces así
es como podemos hacer el rebanado dentro
de casa dado. Ahora veamos cómo
podemos hacer pasos de rebanar. Aquí. Lo que voy a hacer es
que voy a imprimir eso. Ahora estamos estudiando
sobre rebanar, que es otro concepto muy
importante. Entonces aquí
tenemos, se nos da el Sadie
y vamos a hacer el rebanado aquí,
los pasos rebanando. Veamos qué es exactamente esto. Por lo que voy a
traer agregar aquí. Voy a escribir un coma. Vamos a intentarlo de 10 a uno a dos. Y veamos qué exactamente
obtenemos el resultado aquí. Entonces en lugar de diapositivas
y se puede ver tenemos esto como resultado. Entonces, básicamente, ¿qué es
exactamente ese rebanado? En lugar de rebanar,
decimos que queremos rebanar al Eddie dado, pero vamos a
seguir estos pasos. Entonces primero
vamos a especificar, estamos especificando
estos tres valores. Entonces fue, en realidad se va
a rebanar de 0 a uno. Y luego fue cortada
de uno a dos, ¿verdad? Por lo que en realidad va a estar rebanando está sucediendo
en velocidad escalonada. Entonces, en lugar de rebanar
de toda la matriz, en realidad
podemos hacer algunas pequeñas partes de la
matriz usando pasos de corte. Hay más formas de hacerlo. Incluso podemos probar todos
estos métodos. Entonces básicamente voy a
crear otro átomo aquí, que llamaré
como tres agregados. Y en esto, voy
a usar num biótico. Y esto va a tener
los elementos, digamos. Riqueza coma tres,
coma 456, coma siete. Y vamos a crear
uno más que es 11 coma dos coma tres. El último será sólo tres
coma cuatro, ¿verdad? Por lo que tenemos estos elementos aquí. Esto, tendrás que tener
mucho cuidado cuando estés
creando una matriz NumPy porque tendrá que
asegurarse de que el número de dimensiones en realidad la
que deseas, ¿verdad? Entonces aquí tenemos la
culpa, la dimensión, y aquí tenemos la
segunda lista de elementos. Ahora digamos que quiero incluir estos dos en
una sola dimensión. Puedo hacer eso mediante el uso, al incluirlos en este solo corchetes. Entonces ahora si voy a
querer incluirlos
en otra dimensión, puedo hacerlo usando otra,
creando otro corchete, ¿verdad? Así que siempre que quieras
crear una dimensión, tendrás que asegurarte crear un registro cuadrado para ella. Ahora, lo que
harás es intentarlo. Usa la función final, que en realidad nos dirá
la dimensión de esta matriz. Y asegúrate de usar estas funciones finales
para que puedas saber si estás obteniendo
las dimensiones requeridas. Y el ADA es también el área requerida
que se quiere, ¿verdad? Por lo que se puede ver el número
de dimensiones o dos aquí, que está aquí, el
resultado está aquí. Ahora lo que sólo quiero hacerlo, aquí tenemos dos dimensiones. En la dimensión positiva, tengo estas dos posiciones, y en la segunda
dimensión tengo aquí
estos dos átomos. Yo quiero hacer el rebanado. Esto sumó tres. Y quiero hacer, digamos que escribo
una coma cuatro. Vamos a golpear Entrar aquí y
vamos a ver qué va a pasar. Por lo que ahora se puede ver que
no nos está mostrando nada. Entonces hagámoslo como 0. Esta será una. Lo que estamos haciendo aquí
es en la primera parte, estoy especificando que
estamos en la posición 0ª, lo que significa la
dimensión cero. En la dimensión 0, realidad
estamos rebanando de
uno hasta que incluirá, Vamos a deslizarlo como 0 hasta dos. Por lo que incluirá
todos los elementos del 01 están incluidos y la dimensión
que estamos mirando es 0. Entonces si lo haré uno, veamos cuál
será el resultado. Se puede ver que muestra
el resultado que
tenemos 123 y tres cuartas partes, que es que se puede ver en
este daño en el que está apuntando a la
primera posición, ¿verdad? Por lo tanto, si desea dividir en
una dimensión particular, puede especificar la
dimensión aquí. Entonces aquí escribiré
un comentario que la primera posición se especifica la dimensión y el índice de segunda
posición de rebanar. De esta manera. Podrás
entender esto más rápidamente. Que este primer
parámetro pertenece a la dimensión que
estamos mirando, que queremos
realizar un rebanado. Y aquí estamos escribiendo, ¿cómo queremos hacer
el rebanado, verdad? Queremos rebanar 012. Pero aquí, si queremos
hacer rebanar paso, también
podemos hacer eso. En realidad podemos
especificar que quiero elementos de 0 a uno, luego de uno a tres, que es la matriz numpy. Si tiene este
número de elementos, será capaz de
rebanarlos. Entonces así es como podemos hacer el
rebanado dentro de una matriz. Puedes jugar encima
creando diferentes áreas
con diferente número de dimensiones y diferente
número de elementos. Y
podrás entender
cómo está funcionando este paso rebanar
y cómo está caminando este tipo de
indexación. ¿ Verdad? Ahora vamos a pasar a
otro concepto, que es, digamos que queremos
probar algunas funciones de NumPy. Digamos que queremos calcular la media y algunas
otras cosas también. Entonces en ese caso es
digamos quiero crear una matriz de números continuos
y naturales. Digamos que quiero crear
una matriz n números naturales. En ese caso,
no necesitamos crear una matriz escribiendo
los números manualmente. Lo que podemos hacer es que podemos simplemente, digamos que quiero
crear una matriz. Que es NRT. Y quiero incluir primero
20 números naturales para que solo
pueda escribir
y V dot, ¿verdad? Y digamos que quiero crear
unos números naturales que se inicia a partir de una certeza de
alerta. ¿Verdad? Entonces lo que sucederá es esta biblioteca NumPy la
creará y la agregará,
que va de uno a 20. Si simplemente imprimiré
esto y lo agregaré aquí, podrás ver
eso en el occipucio, ¿verdad? Entonces aquí dice que el módulo
numpy no tiene,
vale, por lo que debería ser sencillo. Ahora se puede ver tenemos estos elementos que se
inicia desde uno hasta el 19. Por lo que se puede ver que 20 no
está incluido, ¿verdad? Por lo que el último no está incluido. Entonces si escribo 20, se iniciará desde n
y se irá hasta las 19. Ahora, ¿por qué estamos haciendo esto? Porque si queremos que un conjunto de números
naturales jueguen con, en realidad
podemos usar
esta función y asegurarnos de que solo sea
solo pelo, ¿verdad? No es W. Vale, así que veamos qué más, cómo puedes estar de acuerdo
con más valores. Digamos que queremos crear números
flotantes desde
una posición dos, digamos de un
número a otro. Entonces la forma de hacerlo es crear otra área
que se agrega aquí. Digamos que queremos
crear decidido. Volveremos a utilizar la función
de arreglo. Aquí. Vamos a especificar el rango desde donde queremos
los números flotantes, ¿verdad? Digamos que quiero
números flotantes de uno hasta n, que es diez aquí. Y ahora tendré que especificar el tipo de datos aquí
usando el tipo. Y aquí voy a especificar flotador. Correcto. Ahora, esto
realmente creará y simbiótico con
números flotantes de uno a diez. Por lo que se puede ver que estos no
son número flotante. Por lo que tiene 1.2.03 punto. Y de igual manera así, ¿verdad? Entonces esta es una Otra cosa
interesante. Recuerda que todas
estas funciones
van a venir en la tarea de
preprocesamiento de datos. Así que asegúrate de que en realidad
las practiques por nosotros mismos. Todos estos son muy importantes y ya
los hemos utilizado en algunos proyectos. Así que asegúrate de que
también practiques eso. Pasemos a un concepto muy
importante, que es cambiar la forma. Cambiar la forma de la matriz. Digamos que tenemos una matriz
con una dimensión dada. Digamos que a es tres por dimensión de búsqueda
iluminada tridimensional de dos por dos. Y ahora queremos cambiar
la forma de la matriz. Queremos cambiar la
dimensión de la matriz. Entonces veamos cómo podemos hacer eso. Lo primero es que
veamos cómo podemos comprobar
la forma del anódico. Entonces para eso lo voy
a jugar anódico a igual a numpy dot ID. Aquí acabo de especificar
una coma dos, coma tres. Y voy a imprimir en forma de punto
Hill, ¿verdad? La forma no es una función, es una propiedad. Entonces si voy a golpear Enter, nos mostrará
que la forma es tres comas y nada está aquí porque no hemos
especificado las columnas. Aquí sólo hay tres
elementos, por lo que está especificando eso. Vamos a crear uno más. En lugar de crear una
matriz como esta elevación, squeeze y números naturales mediante uso de
la función arrange np.arange. Vamos a crear seis elementos. Entonces para eso
acabaré de especificar seis. Y aquí tenemos, digamos que uso la función
reshape. Ahora digamos que quiero
remodelar esta matriz. Digamos que tenemos este
aquí y aquí
escribo esto de forma oscura. Sabemos que
mostrará tres Homero, algo bueno saber. Quiero
remodelarlo para poder usar la función reshape, ¿verdad? Entonces
reasignémoslo, dot reshape. Y como aquí hay
tres elementos, podemos crear algunos elementos
más para que realmente podamos
cambiar la forma del mismo. Entonces vamos a añadir algunos elementos más. Agregaré 456789. También. Hemos creado
estos elementos aquí. Y lo que quiero es, quiero, esto es en realidad
los nueve elementos y está teniendo una
dimensión nueve coma uno. Entonces si voy a golpear Enter
o Control Enter, me mostrará
que la forma de esta era es de nueve coma uno. Entonces lo que quiero es que quiero
convertir esta
dimensión única en ella. Quiero remodelar en matriz de tres
por tres, ¿verdad? Entonces la forma de hacerlo es
especificar las posiciones aquí. Entonces, si quería una forma
de tres por tres, me di cuenta de tres comas tres. Ahora lo que hará
es que
cambiará rápidamente la forma de
este todo dado, que está aquí, en una matriz de tres
por tres dimensiones. Entonces aquí, si voy a
golpear Control Enter, se
puede ver rápidamente
que ahora el cambio, la forma se ha cambiado
a tres por tres, ¿verdad? Así que echemos un vistazo a la forma del agregado antes de
usar la función reshape. Entonces si escribiré forma de punto
agregado, puede ver que
inicialmente fueron nueve comas 0 y ahora
son tres comas tres. Por lo que hemos cambiado
la forma o la dimensional decidida
por tres por tres. Entonces lo que sucederá es que ahora
los labios intentan traer esto aquí. Ahora se puede ver en lugar
de un sencillo en
él, ahora es 123. Entonces tenemos cuatro
luchadores y tenemos 789. Por lo que tenemos aquí una
matriz tridimensional de tres por tres. Y lo ha dividido
en así, ¿verdad? Entonces, ¿qué pasará si
escribo aquí tres coma dos? Veamos si
va a poder hacer eso. Ahora verá rápidamente aquí evaluador dice que
no podemos remodelar el área
de la talla nueve en esto. Lo que significa que siempre que
quieras hacer una remodelación, tendrás que asegurarte de
que el producto de estos dos, que es el que
vamos a escribir en esta función de forma sea igual al número de elementos
dentro del entorno. ¿ Qué más? No
podrás hacer eso. Muy bien, vamos a incluir
sólo seis elementos aquí. Y ahora sabemos que el producto de tres coma dos es de seis. Entonces si golpeo Control Enter, ahora se puede ver que
ha creado una matriz con dos elementos
aquí y hay dos, y esta es una matriz
dos por tres. Tenemos dos columnas
y tres filas. Aquí tenemos tres coma dos. Y ahora vamos a
cambiarlo a dos coma tres. Ahora
verás rápidamente aquí en incómodo que los
elementos son tres, pero aquí solo tenemos dos
dimensiones. Entonces así es como podemos
hacer la remodelación de estos elementos de una matriz
NumPy dada, ¿verdad? Por lo que es
algo muy importante que vas a
usar este video
a menudo cuando estamos realizando el análisis aunque las tareas de pre-procesamiento de
datos también se mueven a otra función
importante que sigo viendo. Muchos proyectos
sobre Data Science, que está reemplazando los
elementos por uno. Digamos que quiero
reemplazar todos los elementos de monádica por el valor uno. Entonces veamos cómo puedo,
cómo puedo hacer eso. En primer lugar, voy a
crear una nueva matriz. Y en lugar de escribir
los elementos manualmente, simplemente
usaré esta función
de arreglo. Aquí voy a crear
una matriz con, digamos que tenemos
cuatro elementos en ella. Ahora lo que voy a hacer
es que voy a reemplazar. Voy a tratar de simplemente mostrarle
el valor de esta zona. Se puede ver que
esta matriz tiene 0123. Ahora lo que voy a
hacer es que voy a usar una
función muy importante que es np dot guión bajo, función
Like. Aquí le
suministraré la nueva RA. Golpearé Control Enter. Ahora se puede ver que ha
reemplazado a todos ellos por uno. Entonces es importante, es útil en muchos
casos cuando queremos
realizar alguna
categorización de datos, queremos, podemos hacer eso
usando esto, ¿verdad? Por lo que es importante que sea
un modo que es ceros lago. Entonces si relato ceros aquí, los convertirá todos en ceros. Se puede ver aquí, estas son
dos funciones muy importantes, que he visto y personalmente
he utilizado
en algunos proyectos. Así que asegúrate de
practicarlas también. Y puedo ver que tiene
ceros y una escala. Ahora, pasemos
a la siguiente parte, que es como podemos concatenar
dos arterias aquí mismo. Voy a escribir
aquí concatenando. Muy bien, entonces para eso, necesitaré dirigirme. Entonces vamos a crear otro. Cuando creamos una
licenciatura a aquí. Así que vamos a crear algunos de los
elementos en esta matriz, que serán numpy
dot dispuestos. Y aquí, digamos que queremos
elementos de tutores seis. Aquí, voy a crear otra matriz que
estará en otras diferentes. Esto pasará de siete. Tenemos estos dos
átomos y luego
queremos concatenarlos
en una sola matriz. Para hacer eso, es muy fácil. Podemos simplemente usar, digamos vamos a crear otra área que es
la mayoría de A1 y A2. Ahora para hacer eso, tenemos
una función muy simple, que es la función np dot
concatenate. Aquí sólo tenemos que
especificar estas dos matrices. Ahora recuerda que esta
es la función y queremos
especificar A1 y A2. El modo de hacerlo no es así. A algunas personas les gusta
esto, como A1, A2. No puedes hacerlo así. Tendrás que especificar esto como un par interminables
corchetes circulares como este. Por lo que ahora podemos ver tenemos un soporte que es toda
la función concatenar. Este segundo corchete especifica
A1 y A2 como jugador. Ahora, si voy a tratar de
traer esto mucho agregado, se
puede ver que muestra
que rangos de nombres, vale, así que aquí debería ser np.arange, no en coma pico. Ahora se puede ver que tiene contactando con estas dos
flechas en una sola matriz. Podría ser utilizado,
usará mucho esta
función, que es combinar
dos o más matrices. Así es como podemos hacer
la parte de concatenación. Pasemos a la parte
contraria de esto, que es como podemos
dividir el anuncio es como, digamos que quiero
dividir este módulo. Y para hacer eso, lo que voy a hacer es que lo haré. Primero vamos a crear otra idea. Lo llamaré como papi inmovido. Aquí voy a utilizar una función muy
simple aquí, que se usa para hacer
la parte de división, que es np dot split en ella. Adición de función de
división de subrayado. Aquí solo quiero
precisar la mortalidad. Entonces tendremos que
precisar, digamos tres. Muy bien, así que quería
dividirlo en la tercera posición. Ahora, trataré de
imprimir a este papi inmutable. Papi tenía todos estos
elementos, 2345678. Entonces aquí lo vemos. El mismo nombre, fusionado no
es el caso final, por lo que no fue mucho, fue más subrayado ARR. Por lo que se dividirá esto en los datos de
imagen desde la
tercera posición. Por lo que podemos ver aquí,
tenemos 23457891011. Y ahora se puede ver
que tres significa que es, dividirlo en tres partes iguales. La primera parte es a
tres para la segunda parte es por 7891011, ¿verdad? Entonces cambiémoslo para que haga y
veamos qué va a pasar. Ahora se puede ver que
cae crea una matriz con cinco elementos y la
siguiente era con cuatro elementos. De esta manera, podemos dividir los AR en múltiples áreas ¿verdad? Ahora pasemos a otra
parte importante que es
realizar la búsqueda
dentro de un dado en ella. Usando esta biblioteca NumPy. Queremos
buscar algunos elementos. Entonces primero, tomemos un ejemplo. Vamos a llamarlo como en esto. Voy al primer
ejemplo a partir de aquí solamente. Éste. A continuación crea y agrega
una con algunos números aleatorios. Sólo estoy usando cualquier número
aleatorio aquí. Y digamos que quería
buscar 87 dentro de este agregado, que es el nodo
que está en 0123. Está en la tercera posición
y queremos buscarla. Entonces la forma de hacerlo es muy simple. Primero crearé
un elemento x, que en realidad consigue la
ubicación de los elementos 87. Entonces tenemos una función rara que se utiliza para realizar
la parte de búsqueda. Entonces np dot donde la función
obtendrá dos parámetros. Sólo funcionará un parámetro. E equivale a dos iguales a dos. Necesito precisar el
elemento que es 87. Entonces ahora lo que hará
es que buscará 87 dentro de esto dado en
una que está E aquí, ¿verdad? Entonces si voy a tratar de imprimir x, se
puede ver aquí
muestra la búsqueda. Y ahora dice en una, en tercera posición y el tipo de datos del
elemento es entero 64. puede ver aquí que
efectivamente estaba en la tercera posición. Entonces esta es la primera, lo siento, la posición número 0. Y primero, segundo,
tercer puesto. Por lo que nos ha dado la posición. Y se puede ver que
ya que estamos utilizando Eris, búsqueda es el
adoptivo en este caso. Ahora, pasemos a otra parte importante
que está clasificando. Dada matriz. La clasificación también
es importante. A continuación ordena este ERD solamente. Se puede ver este
anuncio no está ordenado. Tratemos de ordenar esto. Escribiré a Brent. Y función de clasificación de puntos P. Y dentro de este tipo
controlador especifique E aquí. Se puede ver que se trata los datos ordenados en orden
ascendente, ¿verdad? Por lo que se puede ver inicialmente no
se ordenó. Y ahora esto a una se ordena. Por lo que funciones muy
simples, simples, estas funciones
de utilidad realmente
te ayudarán mucho en la tarea de
pre-procesamiento de datos. Practicarlos es
muy importante. Y cuando vas a hacer
más y más productos, te familiarizarás
con todos estos. Y obtendrás un buen control de todas estas funciones
aquí, ¿verdad? De acuerdo, así que
pasemos a otro. Y éste es triangular
superior. Ahora esta función es, he visto en
muchos proyectos. Cómo crear un triángulos VR. Y es un concepto muy
importante. Entonces concéntrate en esta parte aquí
porque es realmente importante entender por qué
es importante crear
un triángulos de PR. Entonces digamos que creo
una matriz aquí. Lo llamaré como agregando uno. Vamos a llamarlo como un 0. Aquí usaré np dot. Tomemos e como ejemplo. Vamos a usar
e, que está aquí. Para crear un triángulos de PR. Eso lo haré,
acabaré de imprimir b dot u, que es forma corta de triangular
superior o tri, significa triángulo, significa arriba. Entonces np dot triangular U significa que creará un triángulo superior
de la matriz dada. Para eso, vamos a crear una matriz
tridimensional. Rápidamente crearé una matriz
tridimensional. Todo lo que ya hemos creado una
matriz tridimensional arriba aquí. Cuando estábamos haciendo
la parte de remodelación, hemos creado esta también. Vamos a crear de nuevo. Aquí. Voy a usar B dot orange, e incluiré elementos
del blanco uno hasta nueve. Y lo voy a
remodelar rápidamente la matriz
de tres por tres. Y echemos un
vistazo a esto, a un 0. El primer Nexi,
sea correcto o no, dice
que debe ser
uno llamado Martín. Tenemos esto se puede ver
que este es el addie. Tenemos 123456789. Entonces una matriz de tres por tres, puedes considerarla como una matriz
de tres por tres. Entonces queremos crear
un triangular superior. Lo que podemos hacer es, echemos un
vistazo a cómo va a cambiar
la RA cuando
aplicaremos aquí el
triángulo superior. Triángulo pitido. Entonces voy a imprimir la función np
dot u. Aquí. Me voy específicamente, sólo
voy a especificar
dos parámetros aquí. El primer parámetro va
a ser la matriz donde
queremos el triángulo superior y
el segundo elemento es 0. Te diré qué puede ser exactamente
este segundo elemento. Realmente cambia este valor. Puede ser en realidad 0 menos 11. Veremos los valores como esto está cambiando cuando estamos aplicando el segundo
parámetro como 0, luego menos uno y luego uno. Entonces vamos a golpear Control Enter
para ver la salida aquí. Se puede ver cuando especificé 0, creó un triángulo superior. Por lo que inicialmente esto fue RID. Y ahora después de
crear un triángulo, se pueden ver todos los
elementos más allá. Se pueden ver estos son
los elementos diagonales, 159 milímetros. Y ahora se puede ver que
en realidad está formando este triángulo. 123569 en realidad está formando un triángulo aquí, que se
puede ver aquí. Y estos elementos se
han convertido en 0, ¿verdad? Entonces, una vez que se han convertido en 0, tenemos aquí un triángulo superior. Ahora vamos a cambiar este
valor de 0 a uno. Veamos cuál será
el cambio aquí, ¿verdad? Por lo que ahora se puede ver
aquí, si escribimos uno, incluirá también los elementos
diagonales. Por lo que creará
un triángulo superior. Se puede ver que
dos tres-sesenta están involucrados en este triángulo. Estos elementos se han convertido en 0. Si cambio esto a menos uno, y golpearé Control Enter. Ahora se puede ver que V0 han
comprado un triángulo superior, pero sólo el último
elemento es 0, ¿verdad? Entonces todos los elementos
por encima de esta nada 0. Entonces de esta manera podemos
crear un bot triángulos y verás la importancia
de crear estos. Triángulos dentro de cuándo
comenzaremos con las tareas de
preprocesamiento de datos. Verás muchas
de estas funciones
disfunción seca que usaste
en muchos proyectos también. Ahora tienes una buena idea de cómo exactamente esta función
cambiará la agregada. Ahora lo que voy
a hacer es que
ahora estamos pasando a
la última función, que es cambiar el tipo de datos de la adición de los
elementos de la matriz. Muy bien, por lo que para eso, voy a crear otro añadiendo 23. Y aquí usaré np.edu. Vamos a crear elementos que valores
flotantes auto ,
que es 2.11.2. Y vamos a darle un molar, que es, veamos, de
tres puntos uno. Ahora todo lo que tenemos
esta matriz NumPy. Lo que voy a hacer
es que voy a imprimir el tipo de este sitio. Entonces, antes que nada,
crearé una nueva matriz. Aquí. Voy a utilizar IRR
a como función Gracias. Escribiré aquí. Entonces ahora lo que sucederá
es que va a crear una nueva matriz, pero que tiene todos los valores
de esto sumados a tres. Se va a convertir
en efectivamente su parte. Así que echemos un vistazo a cómo será
exactamente nuestro nuevo Adam. Por lo que el nuevo Audi tendrá
todos estos elementos, pero sólo la
parte entera de estos elementos. Por lo que aquí se puede ver el
cambio de tipo de datos, y ahora tiene 123 y ha ignorado
estas partes decimales. De esta manera, se pueden
cambiar estos por dentro. Si quieres cambiar el
tipo de datos de los elementos, en realidad
puedes
hacerlo y enfrentarás mucho a
esta dificultad cuando
estés preprocesando los datos. A veces no se
necesitan valores flotados. Entonces los conviertes por
el bien de la facilidad, los
conviertes en partes
enteras también, ¿verdad? Entonces hay algunas cosas más, como si quieres imprimir
el tipo de datos de esta matriz, solo
puedes usar
la propiedad dtype. Y aquí se mostrará
que es un número entero 32. Y digamos que quieres
cambiar el tipo de datos a string. Entonces aquí, si especifico que
esto es en realidad una cadena, vamos a crear una matriz
de cadenas aquí, que es 13. Así. Ahora aquí lo que puedo hacer es especificar el tipo de datos de esto. Entonces esto está teniendo un tipo de
datos de cadena. Ahora, veamos si en realidad
podemos convertirlo y hacerlo y
ciertamente su parte. Si presiono Control Enter, se
puede ver que se ha convertido
con éxito en parte entera. Digamos ahora quiero especificar
que esto no es
en realidad una cadena. Digamos que tiene
cuatro bytes entero. I, cuatro significa cuatro bytes entero si voy a
golpear Control Enter. Ahora se puede ver que tiene este 123 y entero Treinta y dos. Aquí tendré que
hacer algunos cambios. En lugar de nuevo en ella. Voy a especificar ARR,
hacer tres aquí. Ahora puedo ver que es 123. Aquí. Quiero especificar el tipo
de este agregado a tres. Entonces el dtype es
en realidad entero 32. Nuevamente, así es como se puede cambiar
realmente el
tipo de datos de los elementos de cadena a entero
o entero a float. Así que básicamente eso es
todo por este tutorial. Nos vemos en
el siguiente tutorial. Gracias por ver.
5. Funciones de numpy en Python: En estos CDs, en este curso, ya
hemos
cubierto matrices NumPy. Por lo que hemos cubierto algunas de las
funciones muy importantes que
podemos realizar en los no compradores. Y en este video
vamos a cubrir todas las
operaciones matemáticas NumPy que se soportan y podemos
realizarlas en biotas Dina. Por lo que estas son algunas de
las
funciones básicas y algunas de las muy importantes que estarás utilizando a lo largo de tu carrera en ciencia de
datos. Entonces empecemos con esto ahora. En primer lugar, voy a importar
numpy como np líquidamente aquí. Y aquí voy
a crear una matriz que será np.array. Aquí sólo vamos a crear tres elementos
aquí, que es 123456789. Aquí se puede ver que
he creado una matriz. Comprobemos rápidamente
si lo hemos definido correctamente
imprimiendo esto. Entonces aquí se puede ver que he creado esta matriz que tiene estos
nueve elementos en ella ¿verdad? Ahora lo que voy a hacer es
que voy a realizar algunas de las operaciones matemáticas
en esta matriz aquí. Por ejemplo, punto-producto, desviación
estándar, media, y todas las funciones
estadísticas también. Empecemos con algunos
de los básicos. Entonces el primero aquí son dos. Calcular el momento máximo, que es un
bit muy importante es el que en realidad
dará el máximo elemento
en toda esta matriz. Voy a imprimir, usar la función np dot max, que en realidad nos dará el elemento máximo
de esta matriz. Se puede ver que si
golpeo Control Enter, se
puede ver que nueve es el elemento máximo
en toda esta matriz. Ahora lo que voy a hacer aquí es Supongamos que queremos
saber cuál es el elemento máximo
en este eje, que es la ley aquí mismo. Lo que puedo hacer es que en realidad puedo especificar el eje aquí también alega Access es igual a
0 si golpeo Control Enter. Ahora se puede ver que el eje 0789 es el elemento máximo. Por lo que también podemos hacer eso. Entonces si voy a escribir uno aquí
y me gusta controlar Enter, se
puede ver que será 369. Entonces al cambiar el acceso, realidad se
puede devolver el elemento máximo de
acuerdo con el acceso que es
filas y las columnas. La siguiente parte, que es similar, es calcular el,
el elemento mínimo. Y para eso también tenemos la misma Técnica que es
utilizar np dot función principal. Y aquí solo puedo
especificar la matriz. Y se puede ver
que el mínimo, el elemento mínimo de
esta matriz es uno, y eso es lo que
está imprimiendo aquí. De igual manera, también podemos proporcionar
aquí el eje al 01 también. Ahora pasemos a algunas
otras funciones, sin embargo. Estas son en realidad las funciones
estadísticas. Entonces básicamente en este curso, todavía no
he tocado
estos temas de estadística, que es, cuál es el significado de desviación
estándar, la
varianza significa. Estos son algunos de los temas
muy cruciales que hay que abarcar
en la ciencia de datos. Entonces lo que estoy haciendo aquí
es en este tutorial, solo
voy a mostrar cómo usarlos. Y en el siguiente
video voy a enseñar todos los conceptos importantes de estas estadísticas como varianza, media, desviación
estándar. Y de esa manera
podrás entender mejor cómo estas funciones son
útiles en la ciencia de datos. Entonces empecemos con
el muy básico, que es calcular la
media del dado Eddie. Entonces digamos que aquí
se nos da esta matriz, que es ésta, quiero calcular la media. La media es básicamente promedio. Entonces lo que puedo hacer es que
quiero imprimir la media de esto. Entonces para eso solo
voy a usar la función media np dot y
solo tendré que
suministrarla con la matriz. Y se puede ver aquí
que devuelve cinco como la media porque
en realidad es el promedio de
todos los elementos. Discutiremos
más que de estas cosas, que son los conceptos
de estadística en detalle en el próximo tutorial. Entonces pasemos a
otro concepto estadístico
que es varianza. Varianza. Acabo de cubrirlos todos
en esta sola celda aquí. Varianza y desviación estándar. Estas son las dos cosas que son muy importantes y se
usan ampliamente en la ciencia de datos porque estas
son realmente muy útiles para realizar algunos de los métodos importantes
de preprocesamiento de datos. Además, aquí podemos
imprimir la media. Y si queremos
pintar la varianza, solo
puedo
suministrarla ésta. Por lo que se puede ver que
la varianza de esta matriz dada es de 6.66. De igual manera, si quiero
la desviación estándar, puedo hacer eso
usando np dot SDD, que es desviación estándar. Y simplemente lo aplicaré
con la matriz aquí. Se puede ver si
golpeo Control Enter, me dará la desviación
estándar. Estudiaremos estos tres conceptos
importantes, y hay un concepto más
importante que es una distribución normal. También estudiaremos eso. Pasemos a algunos de los temas
del álgebra lineal. Que estos son algunos conceptos
matemáticos, que es el punto-producto y la multiplicación y
adición de matrices. Entonces vamos a realizar estas salud. El primer método que
vamos a realizar es
calcular la
transposición de una matriz. Entonces básicamente este
curso requiere que tengas
conocimientos básicos de matemáticas, que son matrices
y determinantes. Entonces veamos cómo podemos calcular la transposición
de una matriz. Para eso, es muy sencillo. Sólo puedo escribir
matriz punto capital T. Si voy a golpear Control Enter. Ahora se puede ver que esta es
la transponer de una matriz. Por lo que esencialmente se puede ver que los roles
se han convertido en columnas aquí. Entonces 123 fue en realidad una
fila en la matriz aquí. Entonces queremos computar a través de ballestas
y convertirnos en la ley. Ya se puede ver
que su columna es 123. Así es como podemos calcular
la transposición de una matriz. Pasemos a cómo calcular el determinante
de una matriz. Estos son todos los conceptos de conceptos
básicos de álgebra
lineal. Y esta es la única matemática que ha requerido
en Data Science, que es estadística,
probabilidad, y álgebra lineal. Incluso si conoces los conceptos básicos de estos conceptos,
estás listo para ir. Veamos cómo podemos calcular el determinante de esta matriz. Para eso, vamos a usar la biblioteca
NumPy con
esta función aquí. Así np dot LIN función LG, que en realidad es una
propiedad en función de orden. Y luego usaremos
DEP para calcular el determinante de esta matriz. Se puede ver que
el determinante de esta matriz es esta colina, np dot LIBNAME dot db. Muy bien, así que pasemos
a cómo calcular
el rango de una matriz. Básicamente, el rango se
calcula como n menos uno, donde n representa el final, básicamente significa el
número de dimensiones. Muy bien, agregando, se puede ver que esta
zona era emisión theta. Entonces si quisiera
calcular el rango, lo que simplemente puedo hacer es
volver a tener que usar álgebra lineal np
dot. Dot LAN LG significa álgebra
lineal aquí. Y ya que estamos usando las
funciones de álgebra lineal y aquí
estoy como el rango de
subrayado de matriz. Aquí. Yo lo suministraré con
la matriz o el ático. Aquí se puede ver que aunque es el rango de esta matriz, ¿verdad? Entonces así es como se puede calcular
el rango de estas matrices. Por lo que queremos
pasar a algunas otras funciones
importantes también. Entonces echemos un
vistazo a cómo calcular los valores propios
y los vectores propios. Los valores propios y los vectores propios también
son importantes. Aquí, estarás utilizando estas funciones con mayor frecuencia
en la tarea de pre-procesamiento de datos. Veamos cómo podemos
calcular los valores propios. Básicamente,
supongamos que tenemos una matriz cuadrada a. si multiplico, si
hago un producto de punto con v será igual a k, que son los vectores propios. Y de nuevo, dot producto con v, que es el eigenvalues. Por lo que básicamente el propósito de
los vectores propios es realmente aumentar la forma de la matriz cuadrada y
no la dirección. Entonces aquí incluso puedo escribir eso, entonces lo vas a aplicar. Transformación lineal. Los vectores propios cambian, cambian la forma de la
matriz NADA dirección. De acuerdo, así que veamos cómo podemos
calcular estos dos valores. Así que de nuevo, sin embargo, vamos a calcular los valores propios
y vectores de esta matriz que estamos
utilizando en todo este programa. Lo primero es, si quieres calcular los valores propios, primero
definirá
las variables aquí. Definamos dos variables
que son valores propios y vectores propios. Tenemos una función que
devolverá ambos, que es np dot
álgebra lineal dot eigenvector EEG, y lo aplicaremos con el mutex. ¿ Qué esta función
devuelve los valores
propios y los vectores propios y qué se
almacenará aquí, verdad? Entonces intentemos ver
estos valores
imprimiendo aquí estos valores,
que son valores propios. Y aquí imprimiré
los vectores propios. Si golpeo Control Enter, se
puede ver que estos
son los valores propios. Este agujero que se puede ver
es un eigenvector. Pasemos a más funciones. Veamos cómo podemos. Calcule el producto punto. El producto Dot también es
muy importante. Veamos cómo podemos hacer eso. En primer lugar, tendré que
crear dos matrices aquí. Vamos a crear una matriz muy
simple, 123. Y voy a crear
una matriz más, que es la matriz dos. Y esto tendrá
valores para V6. Ahora quiero calcular
el producto dot. Entonces si quisiera calcular
el producto dot, lo haré. En primer lugar, esto
va a ser np dot array. Esto también será
en no periódica. Muy bien, así que ahora si
quería imprimir esto, tendré que usar la función
np dot dot. Por lo que será tener una función
oscura aquí. Y sólo necesito proporcionar estas dos matrices en el argumento que es
matriz uno, matriz Q. puede ver aquí se obtiene
el producto punto tiene 3232 es el producto punto
de estas dos matrices. Recuerda cuando estamos calculando
el producto dotnet dot, primero
tendrás que entender los conceptos de álgebra lineal de cómo calcular
el producto dot y cómo realmente
asegurarte de que las filas columnas de estos dos son
coincidentes o no, ¿verdad? Entonces entonces podremos
calcular el producto dot. Pasemos
a cómo agregar dos matrices, que es la adición
de estos vectores. ¿ Verdad? Entonces vamos a tomar estos dos matriz uno,
matriz dos solamente. Entonces si escribo print matrix uno usando la función add y queremos agregar la
matriz uno, matriz dos. Se puede ver que si
traté de agregarlos, sus valores son sus valores
correspondientes que se agregan y se
almacenan en otro vector. Es por 79, así que uno
más cuatro es cinco, luego es el F7,
luego tenemos nueve. De igual manera, si quieres
hacer la resta, tendrás que
realizar el mismo paso. Tendrás que imprimir la función de producto NumPy
np dot. Nuevamente, proveedores con estos dos valores,
que es la matriz uno. Matriz dos. Nuevamente, mira que si
los resto, uno menos cuatro me da menos tres a menos pi me
dará menos tres. Y de igual manera menos V aquí. Así es como podemos
calcular la resta. Y veamos cómo podemos
hacer la multiplicación. Esto es multiplicación,
no el producto de puntos. Entonces voy a escribir aquí que este no es
el producto dot. Esto es multiplicación de matrices. Verás aquí cuál es
la diferencia entre ellos. Entonces para eso, voy a
usar la podemos multiplicar dos matrices
simplemente usando un estatus como este y
se multiplicará estas dos. Entonces cuatro multiplicados
por uno son cuatro, luego diez, luego 181018 años. La respuesta aquí. Entonces esta es en realidad
la multiplicación de dos matrices que es diferente de la
punto-producto en su contra. Ese producto
punto-fue en realidad 32. Ahora vamos a pasar
a algunas otras funciones también. Aquí voy a empezar con cómo calcular el
inverso de una matriz. Para calcular
el inverso de una matriz, tendremos que volver a utilizar
la función de álgebra lineal. Y termino funcionamos está ahí. Sólo tendré que
suministrarlo con la matriz. Si golpeo Control Enter, se
puede ver que se mueve simplemente calcular el
inverso de esta matriz. Entonces este es el uso de la función INV
inversa aquí, que es, que pertenece a
la propiedad de álgebra lineal. Ahora vamos a ver cómo
generar valores aleatorios, que de nuevo es un concepto muy
importante, cómo podemos generar
valores aleatorios usando NumPy. Entonces para eso, voy a crear un programa muy simple que en realidad
descubrirá cinco valores aleatorios. Aquí voy a
escribir un comentario aquí. Permítanme calcular
las cinco novena sobre valores entre uno y diez. Si quisiera calcular cinco valores aleatorios
entre uno y diez, veamos cómo podemos hacer eso. Utilizaré la función
aleatoria np dot. Y, Y, y aquí tendré que suministrarlo
con tres variables. Van de 0 a 11, y quiero cinco valores. Entonces será así. Se puede ver aquí calculará los cinco
valores aleatorios de uno a 10110 a seis por estos valores, y 011 quedan excluidos de esto. Entonces así es como se puede calcular
que son valor conocido. Entonces una cosa interesante aquí es que si vuelvas a
golpear Control Enter, cambiará
estos valores aleatorios y seguirá cambiando eso. Entonces para hacer esto
constante como si
no quieres que los valores
aleatorios cambien cada vez, puedes usar una cosa muy
importante que se conoce como semilla. Para eso puedes usar la función np
dot random.seed. Aquí. Puedes suministrarlo
con uno que
no quieras cambiar el tamaño. Entonces si pego Control Enter, supongo que seguiré
golpeando Control Enter. Este valor no cambiará. Esto se volverá constante por este techo
que hemos hecho aquí. Ahora pasemos a
otra cosa importante. Digamos que queremos generar
algunos valores aleatorios a partir de
la distribución normal. La distribución normal es
otro concepto importante de la ciencia de datos porque pertenece al estado, a las
estadísticas y a la probabilidad. Por lo que discutiremos eso también en el próximo tutorial
que cubriré estos conceptos sobre estadística. El x más c, cómo podemos obtener los valores de la distribución
normal. Para eso, en realidad podemos usar np dot aleatorio dot función normal. Y luego simplemente solo
necesito darle un valor. Entonces vamos a darle un valor 1, que en realidad será significante. Por lo que tenemos
que darle tres parámetros. El primero será la media, la segunda será la desviación
estándar. Y el tercero son los números que se
quiere generar. 1 es la media, entonces tenemos a 10 y desviación
estándar. Y el número que
quería hacer esto, entonces voy a golpear Control Enter. Recogerá automáticamente estos diez números de la distribución normal de la media de la media dada
y la desviación estándar. Entonces básicamente estas son todas las funciones importantes
de esta biblioteca NumPy. Descubriremos más
de ellos en el ácido. Seguiremos adelante en este curso. Entonces básicamente eso no es lo que este factorial cancela viendo.
6. ¡Estadísticas para la ciencia de datos!: Ahora pasemos
al primer tema que vamos
a estudiar, que es un medio. Tenemos media, desviación
estándar, distribución de
lavado
y varianza. Vamos a cubrir estos temas
muy importantes y estos son humanos
enfrentarlos en datos. Muchas gracias. Empecemos con la
media y tratemos de
entender cuál es el
significado del ser. Aquí, he dibujado un
gráfico de un ejemplo. Entonces consideremos un ejemplo
muy sencillo. Consideremos que
hay una empresa de teléfonos inteligentes, y esa compañía realmente está
vendiendo los teléfonos inteligentes. Y de los malos datos, he recogido siete
días de las ventas. Aquí se puede ver
que en los datos, tengo estos siete ítems en ella. 151030
veinticinco, veinticinco y cinco. En este gráfico, se puede
ver en este eje tengo el número de día,
que es 1234567. Para quien semana tenemos estos
números de teléfonos vendidos. Se puede ver para
el primer día, 15, voy a vender teléfonos para el segundo día y se vendieron número
de teléfonos. Y de igual manera para el tercer día, se vendieron
30 número. Y así es como he
trazado estos puntos de vista, estos puntos azules que
representan los datos. Ahora veamos cómo
calcular la media. La media es en realidad el
promedio de estos valores. Podemos calcular la media con apenas
iniciarlos y
dividirlo por ID y número de puntos de
datos que tenemos, que es siete en nuestro caso. Aquí se puede ver que
en el cálculo se obtiene 150 por siete, que es 18.57. Aquí se puede ver una línea roja que está
pasando por este gráfico. Aquí se puede ver que esto es
absolutamente presentando media, que es 18.57, y
se puede ver que se
encuentra entre 1520. Ahora, tratemos de
entender qué es lo que significa. El significado de la media es
muy simple y nos da el promedio del promedio diario
de los últimos siete días. Esto significa que en realidad es 18.57. Vamos a asumirlo como un valor
absoluto de 18. En realidad significa que
18 teléfonos se vendieron cada día en los últimos
siete días en promedio. Ahora esta es una
información muy crucial porque a veces la empresa no está interesada en lo que está pasando, cuánto huesos
se venden en un solo día, lo que querían, querían calcular la media, la media. Aquí se puede ver
el promedio es de 18. Por lo que podemos decir que
18 teléfonos se vendieron cada día en
promedio en tan solo una semana. Pero si fueras a
echar un vistazo aquí, hay una
información interesante que falta en este gráfico. Este medio es
en realidad engañoso. El motivo por el que es
engañoso es que
supongamos un punto de datos que
está lejos de esta línea, que está
lejos de este medio. Lo que significa que si voy a calcular la media ahora la
media se hará más alta. Este valor de la carne aumentará
y si va a aumentar, intelectual fue un valor que, supongamos que el
valor aumente a 30. Por lo que se mostrará que totalmente
teléfonos prácticamente todos los días, lo cual no es cierto en absoluto. Un punto de datos, en realidad
malinterpretará la media. Dado que la media se
malinterpreta, nos dará una información falsa
y engañosa a la empresa de que cada
día se vendían 18 cuarenta años, lo cual no era cierto porque
en realidad era promedio. Entonces era cierto que
no te pusiste virtual. Si se puede ver que si tenemos esos puntos de datos que en
realidad son anomalías en los datos, realidad puede malinterpretar
y es engañoso. Para evitar este hecho engañoso, en realidad
podemos mejorar
esta información. Podemos hacerlo mucho
más que dilutivo. Le estoy agregando
la desviación estándar. Tratemos de entender en términos
muy simples buscados, ¿qué es en realidad desviación
estándar? Entonces la desviación estándar
es en realidad la distancia y la distancia es
en realidad la desviación solamente. Es una distancia de cuánto están
los puntos
de distancia de la media. Se puede ver que en
los átomos verdes, se
puede ver que esta
es la distancia, este punto es de. El medio.
La desviación estándar en realidad nos dice cuánto están todos
estos puntos de datos
lejos de la media. El motivo por el que estamos haciendo
esto es entender cuánto estos puntos de datos
están más cerca de la media. Si estoy diciendo que
hay 18 teléfonos vendidos cada día
durante los últimos siete días. Y la
desviación estándar también es menor. En esta
desviación estándar es menor, significa que las distancias son menores. Significa que los puntos de datos
están más cerca de la media. Esa será una buena información. Pero si la
desviación estándar es alta, significa
que estos puntos están en realidad lejos de la media. Si están lejos de la media, significa que se están
desviando de la media. Y eso puede decirle a la empresa que en realidad
el promedio era este negro. Los puntos en realidad tendrían gran desviación es una información interesante
para sumar a ésta. Vamos a entender cómo calcular
la desviación estándar. Es muy sencillo.
Sólo necesitamos calcular estas distancias verdes. Se puede ver que si quería
conseguir esta distancia verde, solo
necesito restar este
valor de cinco con la media. Si resto 18 de cinco, conseguiré esta región. Lo que haré es
calcular para todos ellos. Y entonces como aunque no
sea negativo,
no queremos, no nos interesa los valores negativos
porque la desviación estándar es
en porque la desviación estándar es realidad una magnitud de cuánto señalan estos datos
están lejos de la media. Tomamos las plazas
de estas distancias. Ya que queremos que la desviación
estándar representa la desviación de todos los puntos que
vamos a
resumirlos y lo mostraremos
así. Y el numerador. Nuevamente, ver 130 por siete, lo
he tomado de aquí,
que es la media. No uses Indian
Point 57 porque los cálculos
se convertirán en mucho de su cabello. Si va a utilizar 130 por siete, sólo
tiene que
restarlo de 15. Puedes entrar a distancia
y cuadraremos todas estas
distancias como esta. Y luego los vamos
a sumar. Y por último,
vamos a dividirlo por el número de
puntos de datos que tenemos. Contamos con siete
puntos de datos sobre cálculo. Si calcula todo
este valor, obtendrá un valor de
69.357, que está aquí. Ya que hemos hecho el
cuadrado de estos números, habrá que notificarlo. Entonces para eso vamos
a usar la raíz cuadrada. Entonces después de conseguir la
raíz cuadrada, obtengo este valor, que es 8.32, y esta es en realidad la desviación
estándar. 8.32 es la
desviación estándar de este gráfico. Tratemos de entender qué es
esta información y cómo mejorará
la información. Entonces 8.32, ¿qué presentamos? Es ese medio, que es 1818 teléfonos se vendieron todos los días
en promedio en los últimos siete días. Pero hubo una desviación
de ocho puntos. Voy a escribir aquí
más ocho puntos. En realidad esto fue de 8.32. Tendré que escribir que
hubo una desviación de 8.32, o podemos decir que hubo
una desviación de ocho huesos. Ahora ya que esta desviación puede ser más ocho y
menos ocho más o menos, por lo que tendré que
escribirla más menos ocho. ¿ Verdad? Ahora esta no es muy
buena información. Ahora a partir de esta información, una persona sabrá que sí, se vendieron
18 teléfonos en promedio y la
desviación estándar fue de ocho, ¿verdad? Entonces no hubo un aumento y
caída de las ventas en un
solo día, ¿verdad? Entonces si la desviación estándar
es menor que esta es la buena porque significa que estos valores están en realidad
más cerca de esta línea, que es la línea roja,
que es la media. Y si están más cerca,
significa que el valor que vamos a llegar aquí es en realidad cercano
al promedio. Y la información
será mucho mejor porque podrían
venderse 18 puntos y habrá, es menos dxy una o dos celdas, lo que no importará tanto. Entonces así es como calculamos
la desviación estándar. Y esa es la significación de la desviación
estándar
porque completa esta información y se suma a esta información
que habrá un incremento o decremento de este tanto valor dentro
de este promedio, se venderán
18 voltios
cada día en promedio, pero podría haber un
aumento o grados de ocho puntos máximo. Ahora pasemos a
la segunda. El tercero, que
es la varianza. Ahora aquí hemos migrado la raíz cuadrada de
este valor aquí. Si no tienes, este
valor se conoce como varianza. Entonces aquí se puede ver
esto es lidianos. Entonces 69.387 son millones. Ahora, ¿qué significa la varianza? Esta varianza es también la suma de las distancias de todos estos puntos de
datos desde la media. Entonces, ¿qué pasará si
la varianza es menor? Entonces comprendamos
qué pasará si la varianza es lección. Queremos
entender también cuál es el significado de este valor? ¿ Qué pasará si
la varianza es alta? Si la varianza es menor? Si es menor, significa
que las distancias de este punto con respecto a la
media son en realidad más bajas. Porque bajar significa que estos puntos están muy
cerca de la media. Están más cerca de la media. Aquí puedo escribir que con
las lecturas se baja. Significa que los
puntos están cerca de mí. Esto es distancia.
Si es menor, significa que están
muy cerca de la media. ¿ Qué pasará si
la varianza es alta? Si la varianza es alta, es básicamente por estas distancias
fueron muy altas. Estas diferencias
fueron muy altas. Entonces si estas distancias
son muy altas, significa que los puntos están muy
lejos de esta media. Tenemos la media aquí y
los puntos están dispersos. Su startup, significa
que hay lejos de existir. Ahora veamos cómo podemos usar
estas dos cosas importantes sobre la varianza para
aplicarla realmente en la ciencia de datos
o el aprendizaje automático. En el aprendizaje automático, existe un concepto conocido como clustering. Y agrupar lo que hacemos es que
tratamos de formar grupos
dentro de un dato. Lo que voy a hacer aquí
es que voy a dibujar aquí
un gráfico muy sencillo. Consideremos que aquí tenemos estos puntos que
están marcados en negro. Y luego tenemos estas mentes. Puede que Micelle
haya debido, ¿verdad? Entonces tenemos todo este conjunto de datos, pero tenemos a Margaret en dos
grupos o clusters diferentes. Ahora, lo que puedo hacer es bajar la
varianza. Significa que los
valores están más cerca. La varianza es alta, entonces significa que los valores
están lejos de la media. Ahora para formar clústeres
o grupos dentro de nuestros datos, existen dos condiciones. El primer estado es
que dentro de un grupo, si se considera este
grupo, dentro del grupo, los elementos de datos deben
estar más cerca unos de otros. Deben estar más cerca
el uno del otro. Y cómo podemos asegurar que estén más cerca el uno del otro
calculando la varianza de
que están más cerca. De igual manera aquí, si ves esto, si queremos crear este bucle, tendremos que asegurarnos de que estos elementos estén muy
cerca unos de otros. Esta fue la primera condición de
que los elementos, los elementos de un grupo dentro de
un grupo deberían estar más cerca. Esta fue la primera condición. Sabemos que podemos usar
el alias para eso. También hay una segunda
condición. El segundo estado dice que si quieres formar grupos, primero fue
realmente asegurar que los elementos de un grupo
estén cerca unos de otros. Segundo fue asegurar
que los valores de este grupo y de este grupo
estén lejos el uno del otro. Muy bien, por lo que estos valores
deben estar lejos el uno del otro. Y tiene sentido
porque queríamos
asegurarnos de que los
grupos estén más cerca. No sabían dentro un grupo el punto de datos
debía estar más cerca. De ahí que estén
formando un cúmulo. Pero también queremos
asegurarnos de que estén
lejos el uno del otro, entonces sólo podremos
distinguir entre
estos dos grupos. Podemos utilizar este
concepto de varianza para asegurar esta agrupación
dentro de un conjunto de datos. Y esto es muy importante
y se entenderá sólo si sabes
cómo la varianza, si aumentas la varianza, estará lejos de la media y los puntos están
lejos el uno del otro. Eso es una cosa. Ahora permítanme pasar
al último y al
concepto muy importante que se conoce como la distribución normal y la
gaussiana. Entonces para eso primero, voy a quitar este gráfico aquí. Muy bien, así que
tratemos de entender qué es la distribución
gaussiana normal. Antes de entender
esto, necesitamos
entender cuál es el
significado de la distribución. Ejemplo muy simple de
distribución es
digamos que tengo diez chocolates
y hay características. Y lo que puedo hacer
es realmente repartirles esos $10. Y esto se
conoce en realidad como distribución. Este es el claro significado
inglés de la distribución, lo mismo que aquí. También en distribución,
lo que intentamos
hacer es que estamos distribuyendo la x, que es la entrada. Haz algún reordenamiento.
Llamamos como y a las salidas. En el rango. Digamos que tenemos
un rango 0 a uno. Tengo estos puntos de datos
y estoy distribuyendo estos puntos de datos
dentro de estos rangos trazándolos, ¿verdad? Entonces para eso necesito
una función f de x, que en realidad
tomará este inverso. Y se asegurará de que estos insumos se encuentren
entre estos dos, que es éste,
que es este rango. Esto es solo un ejemplo para
explicar qué es la distribución. Entonces si queremos
distribuir los elementos, utilizaremos diferentes
tipos de distribuciones. Si la salida,
que es el rango, si es probabilidad se conoce
como distribución de probabilidad. Ahora vamos a entender qué
es la distribución gaussiana. distribución gaussiana también se conoce como distribución normal. Y tendremos que
entenderlo en realidad usando un gráfico. Este gráfico tiene en, que
voy a dibujar es en realidad una representación de esta función aquí la
cual tengo ahí. Se puede ver que esta f de
x uno dividido por ella todo de, bajo raíz de dos pi e elevado
a la potencia menos la mitad, x menos media y
desviación estándar cuadrado entero. Entonces esta es una función de la cual representa la distribución de
cautela. Y aquí se puede ver este
símbolo que es rho. Esto representa la desviación
estándar. Este valor que es mu,
representa la media. Aquí tenemos la desviación
estándar y aquí tenemos la media. Entonces si tenemos desviación media y
estándar, podemos usar la distribución
gaussiana. Esta x aquí, representa
los puntos de datos que tenemos. Entonces si voy a suministrar los puntos de
datos aquí a la x, me va a dar y se va a distribuir
realmente la
entrada sobre un cierto rango. Cualquiera
que sea el valor que esta función f x me dará, la trazaré. Y las manos de la cadera, en realidad está en un rango que lo llamamos
como las salidas, ¿verdad? Entonces ahora vamos a entender
cuáles son los pasos para crear
realmente el gráfico
de distribución normal, que es el gráfico
de esta función. El primer paso es
marcar realmente un valor que está en
el centro de este eje. Y este valor será la media. Entonces 18.57 es la media. Por simplicidad, estoy por la tarde solo indicando el valor absoluto. Esto es en realidad el medio aquí. Voy a usar Mu para
representar esto ¿verdad? Ahora, el segundo paso es agregar, es crear más marcadores
aquí sumando y restando la desviación
estándar. Entonces, ¿cómo puedo hacer eso? La desviación estándar es de 8.32. Y de nuevo, voy a tomar
el valor absoluto de ocho. Si lo agrego a esto. Aquí, voy a llegar cuando D6. Si resto ocho de esto, obtengo un valor de diez. Esta es en realidad la desviación estándar que
está representada por el rho. Y rho es igual a ocho. En nuestro caso, estoy tomando
el valor absoluto. Este es el primer paso. Esto se
conoce en realidad como el primero. Una desviación estándar.
Ahora, el tercer paso es calcular el total y la segunda desviación
estándar. Y también es simple. Sólo tenemos que sumar la desviación estándar
a este número. 26 más ocho es
en realidad igual a 34. Aquí tenemos un NAD y voy a
tener que hacer lo mismo aquí. Tendré que restar el
valor de ocho de este diez, y luego se vendrá el valor. Entonces, podemos hacerlo así en
este gráfico. Esta fue la primera desviación
estándar. Se puede ver que esta de aquí fue la primera desviación
estándar. Éste es el segundo. De igual manera, podemos
crear muchas más desviaciones estándar aquí solo agregando la desviación
estándar a la media. Entonces surge la pregunta, ¿qué estamos tratando de hacer
con este gráfico? Cuál es el motivo
de este gráfico y qué lo vamos a utilizar
en la ciencia de datos. Ahora, volvamos
a nuestro ejemplo. En nuestro ejemplo afirmamos que el número de
ventas en promedio fue 18 y hubo un incremento o decremento
de ocho teléfonos móviles. Aquí. Si trato de dibujar esto, si se puede ver aquí, tenemos desviación media y
estándar. Lo que queremos hacer es analizar que si
la desviación estándar
va a aumentar, si la
desviación estándar aumentará, cuánto va a
impactar en los puntos. Si incremento la desviación
estándar, ¿cuál será el impacto
en estos puntos de datos? ¿ Van a acercarse a la media o van
a llegar lejos de la media. Lo que hacemos es que
en realidad trama esto. Tomamos la media y tomamos
la desviación estándar y estos puntos que suministramos
a esta función. Y se observa que
si suministras a esta función, vas a obtener
un gráfico como este. El paso cuatro es realmente
dibujar el gráfico para eso. Este es el eje y. Este eje y representa
un valor bajo y un alto. Entonces aquí vemos situación menos
probable. Y aquí vemos una situación muy
probable. Entonces básicamente significa
que si el valor de esta función fx es height, si es mayor,
significa que el punto es altamente probable que esté
más cerca de la media. Entonces todo el punto es
que queremos asegurarnos, queremos entender
de este gráfico cómo los puntos de datos se están
desviando de la media. ¿ Están acercándose a
la media o van lejos a la media para
este gráfico ayudará. Ahora dibujemos este gráfico. Entonces 18 es la media. Así que sólo voy a
dibujar una línea punteada aquí. Ahora si intentas
dibujar este gráfico, esta es la primera desviación. Por lo que voy a dibujar otra línea
punteada aquí así. Entonces esta fue nuestra primera
desviación estándar y esta es la media. Ahora intentemos dibujar aunque los efectos de cohorte,
que está aquí. Se observa que se observa un golf
en forma de
campana . Va así. Cuando toca la primera desviación
estándar, comienza
a aumentar. Tu nieve sube así. Y cuando llega a la media, empieza a bajar así. Y luego se
ennegrece así. Esto aquí se conoce como
una curva en forma de campana, y este es el objetivo de f de x, que es esta función. Veamos cuáles son los
hechos importantes sobre esta materia. Se observa que cuando
suministre estos insumos, la media y la desviación
estándar, cuando consigamos esta curva, se absorbe que 34% de todos los puntos de datos estará en este región, que
estoy marcando aquí. El 34% la va a mentir y 34% de
la línea en esta otra mitad. En total, 68% de todos los puntos de datos se
ubicarán dentro de esta primera desviación
estándar. ¿ Qué significa esto? Esto significa que si
tomo este valor de diez, significa
que si el número de ventas fue entre diez y 26, 68% puntos están realmente ahí, que están más cerca de la media. Ahora, tratemos de
entender qué va a pasar si tomo un valor aquí, asumamos aquí un valor
que yace en la media. El valor está mintiendo sobre la media. Echemos un
vistazo a esta fórmula. Si es 91, la media, tiene un valor igual a
la media, que es 18.57. Este valor aquí es
18.57 menos 18.57. Esto en realidad se convertirá en 0. Y como hay menos la mitad multiplicada por 0, será 0. Y entonces tenemos e elevado
al poder 0 aquí. Todo este valor
será igual a 0. E elevado al poder
0 es igual a uno. Lo que obtenemos es solo
fx igual a uno por debajo de la raíz de dos pi, entonces el valor
del punto de datos es en realidad
igual a la media. El valor de uno por dos pi, ya lo
he calculado. En realidad es igual a 0.4, que es una restricción aquí. En realidad puedo escribir
aquí la función f de x es igual a 0.4 dividida
por desviación estándar. Se puede ver como la desviación
estándar. Y se puede ver aunque los efectos de
función, son inversamente
proporcionales entre sí. Ya que son inversamente
proporcionales entre sí. El valor de la
desviación estándar aumentará. El valor de la desviación estándar aumenta el valor de la
ética vamos a titulaciones. Se puede ver desde la curva a medida que la desviación estándar
está aumentando, el gráfico está bajando. Este es un punto importante aquí que si la desviación estándar, que básicamente tiene sentido
porque la desviación estándar es en realidad la distancia
del punto de la media. Aumentarás esa distancia, entonces va a ser menos probable que el punto
esté más cerca de la media. Entonces esa es mi disfunción
es tener un valor menor. Ahora supongamos aquí, intentemos entender
un gráfico más, que es otra cosa aquí, que es muy interesante. Entonces supongamos que en lugar de ello tenemos una
desviación estándar de dos. Entonces, en lugar de ocho, tengo una
desviación estándar de dos. Asumamos que el
valor salió a ser dos. En este caso. Si son dos, sabemos que es
menor que este caso. Significa que los puntos están
mucho más cerca de la media. Entonces intentemos trazar esto
en este gráfico y Lexi, ya sea que nuestra lógica
de los puntos que estén más cerca de la media se mantenga
verdadera en el gráfico o no. Sabemos que bajo pasos de
dibujo el gráfico es simple. Tendremos que sumar la desviación
estándar a la media. Por lo que aquí, 18 más dos se convertirán en 2018 menos dos se convertirán en 16. Ahora si quiero dibujar, el gráfico irá así y
el gráfico será plano. Pero cuando alcanza la desviación estándar
completa, comienza a aumentar así. Pero ahora la pregunta es, ¿
irá más bajo o irá más alto? Este código, ¿irá más bajo? Y luego abajo? ¿ O irá más alto? Y entonces no lo sabes? La respuesta a esta pregunta
es la lógica misma. Hay dos lógicas
que explican esto. El primero es que 68% de los puntos se observa que va a ocupar aquí. Entonces, obviamente, si
fueras a reducir esto, tendrás que
aumentar la curva para
acomodar esos valores del 68%. Esa es la primera lógica
que puedes inferir. Lo que la lógica de sentido
común más importante aquí es que si
disminuyes la desviación estándar, tienes grados la desviación
estándar. Significa que los puntos
están más cerca de la media. Si ya están
más cerca de la media, entonces van
a aumentar. Es muy probable. Se destaca que los
puntos están más cerca de la media. Este valor se volverá así y volverá a bajar, la primera desviación estándar, y nuevamente irá plana. Todo esto se trata de estos temas
importantes y
usarás estos
conceptos importantes en el aprendizaje automático. Utilizarás la varianza y aprendizaje automático para que los
grupos estén dispersos. Utilizarás tu regularización de
dulces también estudiaste el
problema del sobreajuste. Básicamente, eso es todo por este video. Gracias por ver.