Ciencia de datos | Vishal Rajput | Skillshare

Velocidad de reproducción


1.0x


  • 0.5x
  • 0.75x
  • 1x (Normal)
  • 1.25x
  • 1.5x
  • 1.75x
  • 2x

Ve esta clase y miles más

Obtenga acceso ilimitado a todas las clases
Clases enseñadas por líderes de la industria y profesionales activos
Los temas incluyen ilustración, diseño, fotografía y más

Ve esta clase y miles más

Obtenga acceso ilimitado a todas las clases
Clases enseñadas por líderes de la industria y profesionales activos
Los temas incluyen ilustración, diseño, fotografía y más

Lecciones en esta clase

    • 1.

      Curso de ciencia de datos

      3:05

    • 2.

      Cómo explorar conjuntos de datos

      5:39

    • 3.

      Preprocesamiento de datos con Pandas

      29:39

    • 4.

      Arrays Numpy

      47:17

    • 5.

      Funciones Numpy en Python

      18:24

    • 6.

      Estadísticas para ciencia de datos

      24:07

  • --
  • Nivel principiante
  • Nivel intermedio
  • Nivel avanzado
  • Todos los niveles

Generado por la comunidad

El nivel se determina según la opinión de la mayoría de los estudiantes que han dejado reseñas en esta clase. La recomendación del profesor o de la profesora se muestra hasta que se recopilen al menos 5 reseñas de estudiantes.

34

Estudiantes

--

Proyecto

Acerca de esta clase

La ciencia de datos es uno de los campos más emergentes en TI. Aprende ciencia de datos mediante la implementación de conceptos en la programación de Python y conviértete en un científico de datos.

¿Qué aprenderás?

  • ¿Qué es la ciencia de datos?
  • Técnicas de preprocesamiento
  • Agregación de datos
  • Muestreo de datos
  • Python

Conoce a tu profesor(a)

Teacher Profile Image

Vishal Rajput

Programming Instructor from India

Profesor(a)

I am a software developer with 4 years of experience in making products and working for startups.

I am a passionate teacher and educator at ThinkX Academy. I have experience in making good content for students to help them learn programming and get jobs in IT sector or build your own products.

Enroll in my classes to get in love with programming!!

Happy Coding :)

Ver perfil completo

Habilidades relacionadas

Desarrollo Más Desarrollo Ciencia de datos
Level: Intermediate

Valoración de la clase

¿Se cumplieron las expectativas?
    ¡Superadas!
  • 0%
  • 0%
  • Un poco
  • 0%
  • No realmente
  • 0%

¿Por qué unirse a Skillshare?

Mira las galardonadas Skillshare Originals

Cada clase tiene lecciones cortas y proyectos prácticos

Tu membresía apoya a los profesores de Skillshare

Aprende desde cualquier lugar

Ve clases sobre la marcha con la aplicación de Skillshare. Progresa en línea o descarga las clases para verlas en el avión, el metro o donde sea que aprendas mejor.

Transcripciones

1. Introducción a la ciencia de datos: Hola a todos, bienvenidos a las puntuaciones de Data Science. En este curso, vamos a cubrir todos los aspectos prácticos de la ciencia de datos. Esto es en realidad un proyecto basado también en vivir en B, en realidad pujando por un proyecto y usamos los conceptos en ciencia de datos y lo aplicamos a ese proyecto. Después del final de este curso, podrá hacerse todos los conceptos importantes de la ciencia de datos, que incluye análisis de datos, preprocesamiento de datos y técnicas de visualización. Entonces básicamente x plus ¿verdad? O eso significa ¿Qué es exactamente la ciencia de datos? Y te daré una visión general de lo que exactamente vas a cubrir en este curso. En primer lugar, se puede ver que la ciencia de datos se trata de extraer conocimientos e ideas de datos ruidosos y no estructurados utilizando algunos elementos y algunos procesos. Básicamente, hay muchas empresas y hay muchas industrias que en realidad utilizan diferentes tipos de datos. Tienen millones de registros. Para estructurarlos de la mano, se extraen los conocimientos en beneficio de sus negocios. Requieren algunas técnicas de visualización de datos, técnicas de preprocesamiento de datos también, porque la ciencia es los pies crecientes y emergentes y muchas oportunidades para los científicos de datos. Y todo este periodo está subiendo la norma en la industria. Durante este curso, haré todo lo posible para darte una práctica oculta sobre cómo implementar realmente todos los conceptos que se construyen en la ciencia de datos. Empecemos el doc respondió mi discurso de sal, el importador de fosfato a escalada es la pelea y Browning. Además comenzaríamos con la programación Python. Estoy de acuerdo con algunos conceptos básicos de 500 videos en este curso, podrás entender estas especias Oreos. Y después de eso, podrás empezar con la ciencia de datos en seis. Muy bien, por lo que el siguiente requisito es dedicación, ya que el análisis de datos es un muy antiguo y McDonald's porque lo compraron que tienes buena cantidad de vacaciones. Para entender cuál es el conjunto de datos, para entender cuáles son las técnicas que tendrá que encontrar dataset. Todo bien que dije va a ser diferente al otro y tiene que haber diferentes formas y técnicas diferentes. Se tratarán esos datos, analizarán esos datos que requieren mucha dedicación. Y esa es la razón media por este es un campo emergente. Ahora veamos cuáles son las herramientas que vamos a usar demasiado tiempo la validez como supongo, no estaríamos usando programación piloto y alguna lucha a pie y bibliotecas. Podemos usar Jupyter Notebook, que en realidad es tu tipo IDE en una megabase ocho, la otra la derecha, la antigua los invitan a analizar diferentes conjuntos de datos. El talón escalonó para hacer después de descargar los conjuntos de datos importantes y echar un vistazo a qué exactamente podemos hacerlo. Entonces tiene algunas bibliotecas importantes como la biblioteca pandas, scikit-learn, que es una muy moderna, reprocesar los datos, trayendo también una experiencia que se puede ver. Su cavidad FEV1 y Microsoft aquí se utiliza para visualización de datos que tenemos algunas bibliotecas de asesoría como TensorFlow, Python usando deep learning. También haciendo algún embellecimiento como clasificación aleatoria de bosques, árboles de decisión y algunos modelos de aprendizaje automático. Y también, ¿ lo haces en estos conjuntos de datos, abordando en gran medida y cosas muy prácticas que están dispuestas a venir en este curso. Entonces, nos vemos en los próximos tiempos del tutorial. La lógica. 2. Explorar los datasets de Kaggle: Este es el primer video de este curso. Esta puntuación de ciencia de datos y v van a realizar muchas cosas como el preprocesamiento de datos, la visualización de datos, y muchas cosas como muestreo de datos, agregación, reducción de dimensionalidad, todas esas cosas que vas a hacer. Pero antes de comenzar con alguno de los conceptos, quiero primero familiarizarte con el sitio web de Kaggle, que es kaggle.com. Entonces te voy a dar todas las ventajas de usar cálculo y por cada ciencia de datos entusiasta usa escápula. En primer lugar, es necesario simplemente ir al website.com. Y aquí Kaggle es básicamente un sitio web que proporciona muchos conjuntos de datos y muchas cosas que son realmente útiles para todos los estudiantes que quieren aprender y todos los estudiantes que también quería competir, ¿verdad? Por lo que las competencias también están ahí. Entonces, en primer lugar, se puede ver en esta var aquí, aquí tenemos el conjunto de datos. Por lo que si hago clic aquí, se puede ver que nos muestra una lista de algunos conjuntos de datos de capacitación los cuales se puede ver hablaba datos, datos de stock de Google. Y hay muchos conjuntos de datos populares que puedes ver aquí como Boston Housing, NSL, KDD, clasificación de precios móviles. Entonces básicamente, en todo el curso, realidad vamos a realizar muchas cosas como el preprocesamiento de datos. Para eso, vamos a recoger diferentes, diferentes conjuntos de datos de Kaggle. El motivo de hacerlo, de hacerlo es porque cuando tienes diferentes tipos de conjuntos de datos que tienes, te enfrentarás a diferentes tipos de desafíos. Y eso realmente te ayuda a valorar o habilidades de ciencia de datos cuando realmente estás estudiando ciencia de datos. Entonces, por ejemplo, digamos que tienes un conjunto de datos y quieres ver que como hay algunos, digamos un ASR disponible en nuestro conjunto de datos y hay algunos elementos duplicados en ese conjunto de datos. Todo hay algunos otros retos también. Entonces para eso, si vas a recoger diferentes, diferentes conjuntos de datos, vas a obtener una buena exposición de diferentes tipos de desafíos que podrías enfrentar en tu carrera en ciencia de datos también. Entonces estaremos recogiendo diversos conjuntos de datos y estaré eligiendo ese conjunto de datos para resolver o simplemente mostrarte ciertos conceptos. Y aquí se puede ver tenemos estos conjuntos de datos. También tiene algunos cursos y asma. Hay algunas otras cosas como competencias también. Básicamente, Kaggle es igual que un GitHub es para desarrolladores, lo que Kaggle es para la ciencia de datos. Por lo que tenemos algunas competencias aquí. Y estos también están basados en los precios. Por lo que en realidad puedes conseguir algo de dinero si participas en ellas y tú, cuando estas competencias, puedes ver estos son algunos de los cálculos aquí. Ahora tenemos unos cursos, algunos fríos ahora parte interesante aquí en cálculo que vas a usar programación Python para básicamente escribir y hacer todos los datos, reprocesar, analizar cosas. Entonces para eso, ni siquiera necesitas crear un entorno entero de Python. Simplemente puedes hacer click en Crear aquí. Y aquí solo puedes ir directamente y hacer click en nuevo libro de carga y puedes crear tu propio cuaderno, ¿verdad? Entonces eso es algo interesante de una manera. Puedes hacerlo directamente en este cuaderno, que es el entorno Python, también te dará acceso a la biblioteca de Panda, scikit-learn, por lo que no necesitas instalarlos manualmente en tu siguiente top. Aquí se puede ver que tenemos algunos conjuntos de datos. Una parte interesante que te voy a mostrar aquí es que este conjunto de datos que tomará algún tiempo cargarse aquí. Aquí tenemos alguna progresión de rankings de usuarios y todo eso. Así que echemos un vistazo a algún conjunto de datos aquí. De acuerdo, así que aquí tenemos el Boston Housing. Por lo que sólo voy a hacer click sobre éste. Y aquí se puede ver que esto se abrirá en un minuto. Vi tiene diferentes tipos de conjuntos de datos y no realmente esos conjuntos de datos aunque. gente, la comunidad de carga, en realidad publican muchos de sus propios cuadernos y sus formas de analizar datos sobre Kaggle. Lo que puedes hacer es que puedas, puedes ver que hay cuadernos y puedes aprender de ellos. Realmente es algo muy bueno. Al igual que estás viendo el código de alguien en GitHub y estás aprendiendo de él aquí mismo. Creo que necesito refrescarlo. Ya está abierto. Por lo que aquí se puede ver muestra los datos. Se puede ver que los datos están en el formato CSV de punto y este es todo el conjunto de datos. Pero la parte interesante aquí es el marcador, una pestaña aquí. Entonces, si te vas a enfriar, podrás ver que hay mucha gente fuera de esta comunidad de andamios a quien los tira a todos para visualizar o preprocesar estos datos, ¿verdad? Por lo que a continuación haga clic en éste, que está aquí. Se puede ver que muestra que este es el cuaderno y estas son las bibliotecas que este cuaderno ha utilizado. Los vamos a utilizar en todo este curso. Solo te estoy dando una idea de cómo exactamente puedes usar Goggle porque es una herramienta realmente importante para todos los científicos de datos. Para que puedas ver tenemos ponsores Mark Floyd, seaborne para visualización de datos y ciencia ficción. Y aquí se puede ver que esta persona ha escrito aquí su propio código y para visualizar el conjunto de datos y para entender y, y para trazar el conjunto de datos. Se puede ver todo aquí y pedidos también aquí. Se puede ver que hay buena también. Por lo que es una muy buena plataforma para aprender ciencia de datos. Básicamente, lo haremos, estaré enseñando todas estas funciones y todas estas complejas, gracias a ustedes chicos. Para que no tengas que preocuparte por ello. Es sólo que te estoy dando una idea de qué exactamente puedes esperar de este sitio web de Kaggle. Así que básicamente eso es todo por este tutorial. En el siguiente tutorial, comenzaremos recogiendo un conjunto de datos e importándolo usando la biblioteca Pandas en Python. Entonces eso es todo por este tutorial. Gracias por ver. 3. Getting Started with Pandas: En este video, vamos a discutir algunas de las funciones muy importantes de la biblioteca Pandas. Y discutiremos cuáles son exactamente las cosas que podemos hacer y usar usando, usando la biblioteca de Python y Pandas para algunos análisis de datos importantes y comprensión y extracción de forma de conocimiento de un conjunto de datos dado. Por lo que este va a ser un tutorial muy importante. Y ésta vamos a cubrir algunas de las funciones muy básicas. Y a medida que pasaremos a este curso, exploraremos algunas tareas más importantes que algunas complejas que se pueden hacer fácilmente utilizando la biblioteca Pandas. Las primeras cosas para nosotros necesitamos para activar el Cuaderno Jupyter. Entonces aquí yo el Cuaderno Jupyter Abrir y aquí necesitamos crear un nuevo Cuaderno Python usando Python tree. Ya he creado uno que es por el nombre pi bond como central. Y lo que tenemos que hacer es que sólo tenemos que abrir éste aquí. Por lo que ahora aquí podemos escribir el programa Python y podemos realizar todas las tareas de ciencia de datos que queremos hacer aquí, ¿verdad? Entonces lo siguiente es descargar el conjunto de datos. Aquí puedes descargar cualquier conjunto de datos de tu elección. He descargado el conjunto de datos Precios de la vivienda de Boston y está disponible en google.com. Y también voy a dar todo el vínculo a eso. En la descripción de este video. Puedes descargarlo desde ahí. Y aquí tengo una carpeta nombrada como datos de vivienda. Y se puede ver tenemos aquí un punto de vivienda CSV. Si solo quiero, primero tendré que ver cómo se ve este conjunto de datos. Entonces para eso, voy a abrirla aquí. Entonces lo primero que podemos ver aquí, hay algunas columnas en este conjunto de datos y hay muchas filas en este conjunto de datos. Lo que queremos hacer es que queremos asegurarnos de que esta vivienda dot CSV que creamos, vamos a crear un DataFrame que en realidad usará Todo este conjunto de datos y lo va a importar aquí en Cuaderno Jupyter. Y lo que hagamos en ese DataFrame, no va a impactar nuestros datos originales. Entonces incluso si algo sale mal aquí en la programación de Python, si hacemos algo mal aquí, no afectará a los datos originales. Entonces primero lo primero, vamos a importar la biblioteca pandas. Entonces vamos a utilizar el comando import pandas. Y desde entonces podemos asignarlo como Elias o un nombre aquí, que es BD, ¿verdad? Entonces siempre que queramos utilizar la biblioteca mineros, podemos usar el atajo SPD. Lo primero es que necesitamos crear un DataFrame. Llamemos a esto como ds. Y este DataFrame en realidad contendrá el conjunto de datos de nuestra vivienda dot csv. Entonces veamos cómo podemos importar el conjunto de datos aquí. Por lo que usaremos pd dot read underscore csv función, que es una función incorporada de la biblioteca Pandas. Y aquí podemos especificar el camino hacia los datos de vivienda, que está en este dato de vivienda de Boulder. Y el nombre del expediente es vivienda dot csv. Entonces aquí se puede ver que he importado todo el conjunto de datos aquí. Y este DataFrame, que es variable DF aquí va a contener todo el conjunto de datos aquí, que son las filas y las columnas de la vivienda dorsi. Ahora el primer pase que vamos a ver es encontrar la primera, digamos, cinco filas de este conjunto de datos. Esta es la primera parte que queremos hacer. Para eso podemos utilizar una función muy útil, que es la función de cabeza. Cabeza significa las reglas de partida. Por lo que aquí puedo especificar cualquier número aquí. Entonces digamos que queremos especificar cinco. Ahora si voy a golpear Control Enter. Ahora puedes ver aquí me mostrará las primeras cinco filas de este DataFrame, que es Bf. Ahora recuerda que ya les he dicho que si hacemos algún cambio a este conjunto de datos, digamos que cambio cualquier valor de este dataFrame, que es df. No va a impactar los datos y la vivienda dot csv. Por lo que aunque quisiéramos hacer algún cambio, tenemos una línea separada para aquello que podemos hacer eso. Pero aquí, la esencia media es que podemos hacer cualquier cosa aquí como tareas de pre-procesamiento de datos y todo, y no afectará a los datos originales. Entonces así es como podemos ver cómo podemos extraer las primeras 54 filas usando la variable head. Ahora pasemos a la siguiente función muy importante, que es la función tail. Digamos ahora queremos averiguar la primera, digamos las últimas cinco filas de estos datos. De acuerdo, entonces básicamente estamos haciendo esto porque es muy importante que cuando se nos da un conjunto de datos, lo analizamos muy bien. Nosotros, vamos a utilizar estas funciones muy a menudo dentro de nuestros programas de ciencia de datos, lo que sea que escriba aquí, porque digamos que quiero realizar alguna tarea de pre-procesamiento de datos y ahora quiero ver cuáles son los cambios en el conjunto de datos. Por lo que no necesito cargar todo el conjunto de datos aquí. Simplemente puedo cargar las primeras cuatro o cinco leyes y puedo hacerme una idea de cómo ha cambiado el conjunto de datos. Entonces es muy importante. Ahora, descubramos cuáles son las últimas cinco filas de este conjunto de datos. Se puede ver cuándo voy a golpear Enter, Control Enter, verá que hay último por filas. Y aquí se puede ver esa etapa que hay 488 reglas y dentro de este conjunto de datos. Función tan muy importante aquí. Ahora pasemos a algunas otras funciones también. La primera función importante es la función de forma. Y en realidad no es una función, es una propiedad. Por lo que si voy a golpear Control Enter, se puede ver df forma de punto. Me da este resultado aquí. Este resultado establece que hay 489 leyes, hay cuatro columnas. Esta es una propiedad muy importante porque la mayoría de las veces no vamos a abrir todo el conjunto de datos. Podemos simplemente activar esta propiedad de forma y podemos saber cuál es el número de filas y columnas dentro de nuestro conjunto de datos. Ahora, pasemos a una función muy importante, que es la función descrita. Voy a Controlar Entrar aquí. Ahora cuando usamos la función describe en cualquier detalle, es una función muy importante y una herramienta muy importante para los científicos de datos que realmente usan esto para entender el conjunto de datos. Aquí puedes ver estas son las cuatro reglas de este conjunto de datos. Las primeras cuatro columnas, que es m impar es la proporción de pila B3 y me hizo bien. Entonces aquí podemos ver que cuando usamos la función describe, nos muestra contar media. Std es sinónimo de desviación estándar con un constante. Estos términos significan y desviación estándar en un video separado porque son muy importantes en la ciencia de datos. Entonces tenemos hombres 2550% por ciento y max. Ahora lo que sí nos da realmente describe todo el conjunto de datos y nos da una idea de cuál será la media de toda la columna aquí. Entonces se puede ver ese átomo, átomo es toda una columna y la media de esa columna es 6.2 para la desviación estándar es 0.6 para algo, y el elemento mínimo es 3.56 algo. Estos son los valores que son muy cruciales en la visualización de datos también. Entonces cuando queremos visualizar nuestros datos, también necesitamos ver cuáles son las desviaciones estándar, los medios, y todas esas cosas, ¿verdad? Entonces esta es nuevamente una función muy importante, que es la función de describir. Y pasemos a algunas otras funciones cruciales. La primera función que vamos a hacer es la función drop, que está en DFS consiguió drop. Aquí. Vamos a especificar una columna. Entonces digamos que quiero soltar átomo de columna. Por lo que voy a especificar ítem aquí. Ahora lo que voy a hacer es que voy a especificar el eje. Entonces eje uno significa columna. Si el acceso es igual a 0, significará que es de estado bajo. Así que aquí especificé eje igual a uno porque quería especificar que el ítem es realmente de columna si era un no, si phi 0 aquí. Ahora aquí, si quiero eliminar este conjunto de datos, ¿verdad? Entonces si voy a golpear Control Enter ahora se puede ver que este conjunto de datos ahora tiene sólo tres columnas, son m se elimina. Muy bien, así que aquí se puede ver tenemos este RMD movido aquí desde el conjunto de datos. Ahora una cosa importante que notarás aquí es que si voy a echar un vistazo a df.head, si recuerdo esta función y si golpeo Control Enter, puedes ver que el ítem sigue ahí en este DataFrame. Ahora, significa que en realidad lo está eliminando solo temporalmente y no permanentemente de este DataFrame. Por lo que significa que tendremos que hacer algo para que en realidad se elimine de este DataFrame. Ahora hay dos formas de hacerlo. En realidad podemos reasignar DFS, df es igual a df dot drop. Entonces ahora si llamaré a la función df.head. Ahora se puede ver que ha quitado la columna RM de aquí. Esta es una forma, pero tengo una forma más conveniente aquí. En lugar de hacer este vf es igual a esto, podemos usar otro parámetro aquí que está en su lugar. Igual a verdadero. Entonces vamos a ejecutar esto. En realidad eliminará los datos, ganará estas columnas átomo del conjunto de datos. Y in place igual a true significa que lo eliminará en lugar del DataFrame. Por lo que ahora si voy a golpear Control Enter, se puede ver claramente aquí que el artículo realmente se mueve ¿verdad? Entonces lo es, el uso de este parámetro in place es que sólo ¿verdad? Ahora pasemos a algunas otras funciones importantes también. Lo siguiente importante es que también podemos usar es df tres. Golpearé Control Enter. Se puede ver que me dará las tres primeras filas, ¿verdad? Entonces en lugar de usar head, también podemos usar esta declaración que es df, luego corchetes, y tenemos un colon aquí y luego tres. Este es uno. Otra forma de hacerlo no si no quieres escribir la función head, también puedes usar esta. Es más veloces en la naturaleza. Así que ahora pasemos a algunas otras funciones como cómo eliminar las primeras columnas, ¿verdad? Entonces vamos a realizar esta tarea. Ahora digamos que quieres eliminar esas dos o tres primeras columnas de un conjunto de datos. Entonces, ¿cómo vas a hacer eso? Echemos un vistazo a esto. Ahora tenemos la función DFT, y obviamente vamos a usar la función drop aquí. Medicare los parámetros van a cambiar. Lo primero es que escribiré columnas. Y voy a especificar este parámetro columnas. Entonces tendré que precisar todas las columnas que quiero creer. La forma de hacerlo es usar columnas iguales a df.columnas. Aquí puedo especificar el número de columnas. Entonces si quiero creer las dos primeras columnas, tendré que usar dos puntos. Y puedes ver aquí voy a tener que escribirle. Ahora. El siguiente parámetro es axis. Recuerda especificar siempre el eje porque especifica si tenemos filas o columnas. Cuatro columnas, tenemos el eje uno. Para filas tenemos el eje 0. Y obviamente el último es el parámetro in place x. voy a justo por aquí. Ahora si voy a tratar de escribir df.head. Ahora se puede ver que ha eliminado las dos primeras columnas de nuestro DataFrame. Primero do se representa realmente usando este colon y dos. Y aquí tenemos df.columnas. Por lo que hemos especificado las columnas usando esta función df.column. Ahora veamos cómo podemos eliminar las últimas n columnas. Eliminar y última columna. Entonces digamos que tienes una tarea en la que quieres eliminar las últimas dos o tres columnas del conjunto de datos. Nuevamente, usaremos la función drop. Entonces estas son básicamente las, pueden ver las variaciones de la función de caída y son muy cruciales porque estarás usando estas cosas importantes diariamente cuando estés estarás usando estas cosas importantes analizando el conjunto de datos. Entonces si queremos que las últimas N últimas columnas en, en realidad para nosotros, tendremos que especificar que queremos soltar las columnas. Para eso. Volveré a usar df.column. Aquí mismo. Voy a especificar, digamos menos uno en contra especificar el eje, que será uno. Porque las columnas de eliminación y en el lugar es igual a verdadero. Ahora aquí lo que voy a hacer es echar un vistazo al conjunto de datos en sí. Muy bien, para que puedas ver aquí, cuando especifico menos uno, eliminará una columna del final. Entonces se puede ver la última columna que se hizo fue, ahora se elimina de ella, ¿verdad? Entonces si voy a escribir dos aquí y ejecutarlo de nuevo, se puede ver uno menos dos con columna se elimina. En realidad se está eliminando una columna en esta posición de índice. Por lo que tendremos que especificar dos puntos aquí. Porque si no especificaremos la columna, no va a eliminar las últimas n columnas, ¿verdad? Sólo eliminará la columna y el índice menos dos que está aquí. Ahora si voy a golpear esto ahora se puede ver que en realidad está tratando de eliminar algunas de las columnas aquí, ¿verdad? Por lo que se puede ver que las dos primeras columnas fueron eliminadas. Aquí. Puedo hacer una cosa más. Echemos un vistazo qué pasará si escribo aquí y un colon ¿verdad? Ahora se puede ver que si escribo dos y es, colon está al final, se han eliminado las dos últimas columnas. Para que puedas probar estas variaciones diferentes y diferentes para echar un vistazo a lo que exactamente podemos hacer dentro del conjunto de datos porque es muy importante. Colón dos significa que estamos eliminando las primeras n columnas. Y si leo hago dos puntos, se va a eliminar las últimas n columnas de nuestro conjunto de datos. En el DataFrame, no el conjunto porque el conjunto de datos está intacto, ¿verdad? Así que ahora pasemos a algunas otras cosas también, que es tratar de eliminar filas de nuestro marco de datos. Tenemos aquí el marco de datos. Este es nuestro DataFrame. Y digamos que queremos creer primero n filas de este nuevo marco de datos. Ahora veamos cómo podemos hacer eso. Ahora. Nuevamente, usaremos la función drop. La función es en realidad una función muy importante para la eliminación. Así df dot dot drop. Ahora recuerda que aquí queremos, no queremos eliminar la columna, por lo que no vamos a usar columnas iguales a dos. Vamos a usar la función df.head. Digamos que queremos eliminar las tres primeras filas de nuestro conjunto de datos, por lo que voy a proporcionar eso. Ahora el siguiente parámetro importante es el eje. Ahora el acceso es bajo, solos es en realidad 0 y el último parámetro está en su lugar, lo cual es cierto. Echemos un vistazo a esto. Muy bien, por lo que ahora se puede ver que es específico. Aquí se muestra que tenemos una edición aquí, que es que se puede ver ni se encuentra en el acceso. Entonces lo que vamos a tener que hacer aquí, df.head dot index, tendremos que especificar aquí el índice. Entonces sólo creerá las tres primeras filas, ¿verdad? Entonces df.head tres significa las primeras tres filas de este DataFrame. índice de puntos le dará el índice, el valor, y en realidad caerá los falsos tres roles. puedas ver que en nuestro DataFrame, realidad estoy mostrando las primeras fotos. Por lo que las primeras fotos no empiezan desde 0123, es a partir de 3456 aquí mismo. Si voy a especificar cinco aquí puede ver el conjunto de datos va a cambiar, ¿verdad? Por lo que las primeras cinco filas, filas se van a eliminar de esta manera. Ahora veamos cómo podemos eliminar las últimas n filas. Puedo hacer eso aquí solo con solo usar el método tail. Entonces d de cinco nos darán las últimas cinco filas del DataFrame. Y el índice de puntos en realidad nos dará disfunción el índice de la quinta y última quinta columna y los va a caer. Entonces ahora si voy a escribir aquí en lugar de cabeza, si voy a escribir cola. Ahora se puede ver que nuestro conjunto inicialmente tenía unas 488 filas, y ahora está mostrando que la última es 4083, lo que significa que ha eliminado cinco filas de nuestro marco de datos. Entonces así es como podemos eliminar primero y filas y las últimas diez reglas mediante el uso de la función df.head dot index. Df dot, función de índice de puntos. ¿ Verdad? Por lo que ahora sólo voy a entrar en esto porque ahora vamos a pasar a algunas otras funciones importantes también. Ahora veamos cómo realmente podemos resolver las columnas. Esto es algo muy importante. Ordenar columnas sobre la base de, digamos, nombres o sus valores numéricos en orden creciente o decreciente es muy importante. Y lo vas a hacer muy frecuentemente en los conjuntos de datos. Para eso, tenemos una función simple que es la función sort values. Sólo vamos a escribir valores de sort df dot. Ahora lo que vamos a hacer es que tendrán que especificar la columna usando, por, digamos que queremos ordenar el volumen RM, ¿verdad? Y se puede ver que esta es la columna de artículos. Y aquí tenemos 5.796, luego 5.859. Después de ordenar esto, en realidad va a cambiar en el orden ascendente, ¿ verdad? Entonces por ítem. Ahora lo siguiente que necesitamos especificar es solo el método in place, que será cierto ¿verdad? Ahora sólo voy a mostrar df.loc. Y aquí voy a especificar rebanada aquí mismo. Ahora ya se puede ver que esto tiene en realidad, intentémoslo a la cabeza aquí. Ahora se puede ver que esta variable de ítem ahora está ordenada. Entonces este es el uso principal de la función sort values. En realidad ordenará todos los valores y todos los valores de estas columnas RM. Por lo que se puede ver que ahora es 3.5613.863 y de tal manera. Entonces así es como funciona la función de valores de orden. Ahora, digamos que queremos dejar caer algunos valores duplicados dentro de nuestro DataFrame. Entonces digamos que tenemos un DataFrame donde hay algunos valores duplicados dentro de una columna. Entonces veamos cómo podemos hacer eso. Voy a comentar esto, y también vendré en éste. Ahora pasemos a cómo soltar duplicados. Queríamos soltar los elementos duplicados del DataFrame que tenemos. Nuevamente, una función muy simple, que es la BF consiguió la función de duplicación de subrayado gota. Escribiremos en su lugar igual a verdadero. Entonces lo que hará es que eliminará todos los duplicados de un DataFrame. Ahora como en este conjunto de datos no tenemos duplicados, no podemos ver eso en acción. Pero lo que puedes hacer es, te daré una tarea muy sencilla. En realidad puedes abrir el archivo CSV de punto de vivienda y crear algunos valores duplicados dentro de eso, y luego usar esta función d de dot, dot drop duplicados. Y entonces se puede ver y visualizar cómo ha caído esos valores duplicados en su lugar iguales a true significa que en realidad está dispuesto a hacer cambios en el DataFrame original. Muy bien, por lo que estas fueron algunas de las funciones importantes, eliminar, algunas ordenamiento y muchas cosas que ahora son la tarea muy importante, que muchas de las cuales es muy importante como conocido como rebanar. Rebanar implica dos funciones muy importantes aquí, que es la función LOC y hay función Lucy. Entonces LLC básicamente significa ubicación. Esto hay dos métodos, LOC y Lucy de los Pandas DataFrame, que en realidad nos ayuda a rebanar las columnas y filas. Porque a veces cuando se está analizando un conjunto de datos, no desea analizar todo el conjunto de datos. ¿ Qué quieres analizar? Parte básica y simple de ese conjunto de datos. Por lo que quieres rebanar eso para que puedas visualizar eso y puedas hacer muchas cosas con eso. Muy bien, así que veamos cómo podemos usar la función LLC y yo LOC. Lo primero es que usaremos la función df.loc. Y aquí especificaremos 04. Ahora voy a especificar los nombres de columna aquí, que es RM. Y digamos que vamos a especificar una columna más. Es LSAT. Lo que hará es que en realidad cortará todo el conjunto de datos. 0 significa las primeras cuatro filas y las columnas que quiero dos rebanadas, RAM y como sag, ¿verdad? Si acabo de escribir la función de forma de punto df, si toco OK. Entonces aquí se puede ver que no es tan triste como eso aquí, así que eso fue un error. Ahora puedes ver aquí me muestra que tenemos este df. Golpearé Control Enter. Se puede ver que este es en realidad el dataset de sector de todo el conjunto de datos. Ha escogido estas dos columnas solamente, que es nuestra pila de MNL. Y el rango de las filas es de 0 a cuatro. Por lo que en realidad puedo cambiarlo a, digamos de dos a seis. Y si pego Enter, se puede ver que 23456, ¿verdad? Entonces las leyes son de dos a seis y las columnas son etiqueta RM y S. Por lo que es un candado muy importante. En realidad no es una función, es un localizador. Entonces LLC básicamente significa ubicado en localizará estos usando estos dos índices y se lo cortó hacia abajo. Entonces lo que podemos hacer es que podamos asignar dfs como ds igual a éste. Si voy a tratar de mostrar df.head, me mostrará esto. En realidad podemos cortarlo y podemos reasignarlo al DataFrame si queremos. Y aquí tenemos esta función LOC son función muy importante y estaremos usando esta función si queremos analizar solo una pequeña parte del conjunto de datos. Ahora tenemos otro localizador que es la ILC. Lucy es básicamente sin embargo, lo mismo que LLC, pero fueron la mayor diferencia, que es que no toma valores extremos. Sólo utilizará los valores numéricos para localizar o utilizar los índices, ¿verdad? Entonces en lugar de elementos en stack, tendremos que especificar los valores numéricos. Entonces aquí si trato de ejecutar un comando muy simple aquí, se puede ver cuál es ILC. De 0 a cuatro. Se va a cortar las primeras cuatro filas del conjunto de datos. Por lo que aquí no podemos especificar los nombres de las columnas en sí. En realidad podemos simplemente hacer el rebanar este rayo aquí mismo, si lo haré, sencillamente, Son dos coma cuatro. Y si voy a golpear enter, vale, Así que tenemos, no tenemos cuatro columnas aquí. Vamos a escribirlo tres. Ahora a continuación, pulsa Entrar aquí. Por lo que ahora se puede ver esto significa colon para perderse las dos primeras filas. Y el colon tres significa las tres primeras columnas. Si voy a escribir tres puntos, significa que tenemos las últimas tres columnas. Puedes, puedes ver que desde aquí también, hemos usado tu cola, que está en este lugar. Se puede ver que estamos usando dos puntos para especificar las primeras n columnas en puntos para especificar las últimas columnas finales. Lo mismo que el suministro y adherirse en la función ILC porque la sección de columna, no podemos especificar esto. Entonces por eso estamos haciendo eso aquí. Entonces si golpeo Control Enter ahora se puede ver que solo especificará las últimas tres columnas. Y se puede ver que esto es en realidad a mediados de los años 70, que es la última columna en sí. Entonces si lo haré uno. Ahora en visual me, las últimas tres columnas aquí mismo, se pueden hacer muchas cosas. Puedes jugar por ahí con esta cosa. ¿ Qué pasará si voy a especificar aquí, uno, digamos 32. Aquí se puede ver que tres y hacer no va a funcionar porque no lo hace bien. Aquí no es un rango. Entonces tendré que precisar, digamos 310. Aquí se especifican todas las filas de tres a diez. Por lo que en realidad habíamos rebanado las leyes de tres a diez. Aquí. Uno a dos significa que en realidad va a seleccionar las columnas de la posición uno a la posición dos. Si voy a hacer que sea tres. Se puede ver que seleccionará todas las columnas de una a tres. Para que puedas jugar con estos valores. puedes especificar algunos valores negativos Aquípuedes especificar algunos valores negativosy echar un vistazo a lo que sucede en el DataFrame y cómo está sucediendo el rebanado. Y te ayudará mucho en realizar análisis de datos. También. En el siguiente tutorial, vamos a empezar con la tarea de preprocesamiento de datos. Y básicamente ahora tienes una buena idea de cómo usar la biblioteca pandas. Asegúrate de probar todas estas funciones por ti mismo y echa un vistazo a cómo está cambiando la salida mediante el uso de la función df dot head o la función df dot. Podrás ver los cambios en el conjunto de datos. Entonces eso es todo por este tutorial. Gracias por ver. 4. Numpy Arrays: En este video, vamos a empezar con una biblioteca muy importante, que es la biblioteca numpy. Entonces lo primero que voy a hacer aquí es que voy a importar numpy como np. Np es básicamente alias. En el tutorial anterior de estas puntuaciones de ciencia de datos, ya hemos cubierto una biblioteca muy importante, que es la biblioteca pandas. Y vimos cómo podemos hacer diversos pacientes usando eso. Ahora, vamos a realizar estas tareas de preprocesamiento de datos en los próximos videos futuros. Y para eso, vamos a utilizar estas dos bibliotecas importantes, que es la biblioteca NumPy y pandas. Básicamente, si quieres ver toda la documentación de no ser, solo puedes ir en numpy dot ORG, que es la página oficial de la biblioteca NumPy. Encontrarás todas las funciones que esta biblioteca es un barco. Ahora, ya que nos estamos enfocando en los objetivos de la ciencia de datos y en las tareas de preprocesamiento de datos. He recogido algunas de las funciones muy importantes de la biblioteca NumPy. Y básicamente los he seleccionado de diversos proyectos que he hecho. Por lo que aquí vamos a cubrir todos ellos y la mayoría de ellos son muy útiles y los usaremos en el futuro los próximos videos. Entonces básicamente hay dos usos básicos de la biblioteca NumPy. El primero es el num de Alice. Y segundo es el análisis numérico o las operaciones numéricas que queremos realizar. Así NumPy significa Python numérico. Entonces aquí vamos a estar, tener estas dos partes aquí. Pero en este video sólo vamos a cubrir las matrices Numpy. Y en el siguiente video, veremos cómo podemos realizar operaciones matemáticas como logaritmo, desviación estándar media, todo eso. En el siguiente video. Empecemos con el iris NumPy. Entonces básicamente para nosotros, necesitamos entender por qué necesitamos NumPy. Así que básicamente vamos a crear una lista simple. Voy a simplemente crear una lista aquí, que es una. tendrá tres elementos en ella. O digamos que estos son los cuatro elementos. Entonces si ya podemos crear un menor que, digamos que imprimo esto, imprima aquí el tipo de esta lista. Si golpeo Control Enter, puedes ver que esto pertenece a la lista de clases usando matrices. ¿ Por qué estamos usando Eris? Discutamos eso primero. Ahora, la cosa está en lista. En realidad no se almacena en ubicaciones de memoria continua. Por lo que estos cuatro elementos no se almacenan en una asignación continua de memoria. Esa es la razón principal por la que no tendremos un acceso más rápido a estos elementos de la lista porque no se almacenan continuamente dentro de la memoria. Entonces es por eso que necesitamos num por adultos. Porque en el ser de la ciencia de datos queremos realizar operaciones más rápido, queremos acceder a estos elementos más rápido. Entonces vamos a utilizar matrices NumPy. Y lo segundo es que podemos utilizar algunas de las operaciones matemáticas en estos artistas, como multiplicaciones de matriz. E incluso podemos crear matrices multidimensionales usando NumPy. Muy bien, así que empecemos con la primera transponer, que en realidad es crear una matriz NumPy. Ninguna matriz NumPy es en realidad MDRD. Y MDRD significa array n-dimensional. Por lo que podemos crear una matriz n-dimensional usándolos bytes, que es la ubicación básicamente continua de los objetos. Es el objeto n dimensional. Entonces voy a decir aquí mismo y objetos dimensionales, ¿verdad? Entonces veamos cómo podemos crear una matriz. Por lo que voy a crear un anuncio aquí con el nombre ARR. Una forma de hacerlo es que usarás np dot. Y aquí solo hay que especificar los elementos del estudio. Entonces si voy a especificar una coma, dos coma tres, esta va a ser una matriz NumPy, ¿verdad? Entonces intentemos marcar el tipo de esto. Entonces sabremos qué es esto en realidad aquí mismo. Se puede ver que muestra aquí que pertenece a clase. Entonces ARR es una variable y la función de empate nos dará el tipo de esta variable. Por lo que se puede ver define que se trata de una matriz NumPy. Por lo que es un m por n adicionando dimensional. Ahora veamos cómo podemos averiguarlo. La dimensión de este ajuste, podemos utilizar la función dim, la función endocrina, que nos mostrará el número de dimensiones del Sadie. Sadie tiene sólo una dimensión, que se puede ver aquí, 123. Ahora vamos a crear otra dimensión aquí usando un coma separado. Y vamos a especificar otra lista de elementos como 567, ¿verdad? Por lo que ahora se puede ver que dice que el tipo de datos no se entiende. Entonces la razón por la que esto está sucediendo es que estos necesitan ser incluidos en uno solo. Que necesitamos escribir aquí un cuadrilátero más, así, y tenemos que cerrarlo aquí. Ahora vamos a golpear Control Enter. Ahora se puede ver que se trata de un área bidimensional. Entonces si queremos especificar matriz bidimensional, tendremos que especificarlo así. Por lo que la primera dimensión tendrá estos tres elementos. La segunda dimensión tendrá estos elementos. Si quiero crear más dimensiones, las incluiré en estos corchetes sitio. Incluso si quiero aumentar la dimensión de estos dos elementos, estas dos listas, lo que puedo hacer es simplemente añadir más corchetes aquí, ¿verdad? Entonces si voy a añadir tres corchetes, curiosamente, se puede ver que ha aumentado la dimensión de la matriz. Entonces cuanto más es el número de estos corchetes, el modo es el número de dimensiones. Por lo que se puede ver ahora que mencioné es de siete, aunque sólo tenemos estos dos elementos, ¿verdad? Entonces si trato de imprimir este adder aquí, se puede ver que así es como va a aparecer. De esta manera podemos crear estos anuncios es que n número de dimensiones. Y ahora aquí sólo voy a hacerlo bidimensional. De acuerdo, entonces ahora tenemos esta matriz bidimensional. Ahora veamos cómo podemos crear unas áreas de cuatro dimensiones, cinco dimensiones. Vamos a crear otra área que está en un du es igual a matriz NumPy. Aquí, digamos que queremos crear 123 tridimensionales. Así es como vamos a especificar tridimensional. Aquí escribiré una coma dos, coma tres. Vamos a crear otra lista que es cuatro coma cinco, coma seis. Y el último es siete coma 89. Así que ahora intentemos imprimir esto. Tratemos de abrir el número de dimensiones de este Addie. ¿ Podías ver aquí tenemos tres dimensiones y así es como tenemos la otra. De esta manera, podemos crear cualquier objeto n dimensional. Básicamente, se puede ver que podemos tener la capacidad de crear anuncios que son n dimensionales. Por lo que nos ayudará mucho en el preprocesamiento de datos también. Y básicamente cuando lo combinaremos con algunas multiplicaciones de matriz y algunas operaciones cruciales como los registros y la desviación estándar significan, obtendremos alguna muy buena tarea de pre-procesamiento y algunas cosas muy importantes, ¿verdad? Entonces este fue un paso completo y ahora veamos qué operaciones realmente podemos realizar en estos átomos. Ahora sabemos cómo crear una matriz, cómo crear un Hillary dañado. Ahora veamos cómo podemos realmente hacer la indexación de estas áreas. Así que básicamente escribiré indexación. Digamos que tenemos este ARR agregado. Y aquí escribo un coma uno. Veamos cuál es la salida aquí. Se puede ver que una coma uno. Estos son los dos elementos que estaban suministrando. Indización básicamente significa qué, ¿cómo accederé a un elemento particular dentro de este todo dado en él? Para que puedan ver este es nuestro ático. Si estoy escribiendo una coma 11 nos dirá la dimensión en la que estamos. puedas ver que aquí tenemos dos dimensiones, y empieza desde 01. Entonces esta es la dimensión cero y esta es la dimensión falsa. Entonces uno es en realidad indexando eso. Ahora estamos encontrando el elemento dentro de esta lista. Podemos decir esta dimensión. El siguiente que está aquí, especifica el elemento en esa lista. Entonces aquí realmente estamos encontrando 25671 significa que en realidad estamos señalando o indexando al primer elemento. Por lo que cinco está en realidad en el 0, en la posición seis está en la posición única. Si escribo tres aquí, veamos. Vamos a obtener un error porque hay, no solo los elementos 012 aquí, ¿verdad? Entonces vamos a hacer, vamos a conseguir siete aquí. Ya pueden ver, ahora veamos qué pasará si escribo 0 coma dos. Ahora puedes ver 0 significa que en realidad estamos mirando esto. Agregando aquí, que es el 0 en posición, entonces estamos llegando al segundo elemento en él, que en realidad es tres. Entonces estamos consiguiendo tres en la salida. Muy bien, entonces así es como se puede realizar la indexación. El primer elemento nos dará la dimensión en la que estamos. Y segundo elemento aquí en esta indexación nos dará la posición correcta del elemento. Pasemos a otra operación que vamos a realizar. Muy a menudo en estas áreas, que se conoce como rebanar. Ya hemos visto rebanar en pandas también. Y vimos cómo podemos hacer el rebanado y los marcos de datos. Ahora veamos cómo podemos hacer eso en áreas, ¿verdad? Vamos a considerar la misma Adi, que es ARR. Y aquí sólo voy a escribir este comando Hill, que es uno y colon y luego tres. Veamos la salida de esto. Ahora se puede ver que 13 me da 567. Por qué estamos consiguiendo esto. Se puede ver que en realidad estamos haciendo el rebanado de esta Adi. Esto ya tiene estas dos dimensiones, como podemos ver aquí. La primera dimensión tiene 123 y la segunda dimensión tiene 567. Estamos rebanando el ADA desde 133 significa, sin embargo, todos los elementos que tenemos desde una posición neta. que puedan ver tenemos ceros aquí, luego tenemos primera posición aquí, y luego todo el rebanado que ocurre desde la primera posición hasta la segunda posición porque aquí no se incluye tres. Entonces voy a escribir aquí que tres no son inclusivos. Por lo que se va a rebanar el dado en él desde la primera posición. Segunda posición porque tres no es inclusiva, ¿verdad? Veamos cómo podemos hacer eso en la segunda área a la que se suma. De acuerdo, entonces en los agregados dos labios escriben el mismo comando para ver la salida. Ahora puedes ver aquí no tenemos nada dentro de esta Adi. Veamos por qué está sucediendo esto, porque en la primera posición no tenemos ningún ítem. Esto es agujero es la 0ª posición, así que vamos a probar 0 aquí. Y ahora se puede ver rápidamente que aquí, si tratamos de cortarlo de 0, tenemos 0 coma uno, coma dos. En estas tres posiciones, tenemos todos estos elementos. Entonces esto está en la posición 0ª, ésta está agregando la posición falsa, y ésta está en la segunda posición. Por lo que se puede ver que este es el resultante del rebanado que hemos hecho. Ahora necesitas jugar con diferentes tipos de arterias y necesitas jugar con estos diferentes valores para echar un vistazo a lo que sucede en el resultado, para realmente conseguir un una mejor comprensión de cómo funcionan las cosas. Porque no puedes aprender todos estos términos. No puedes memorizar todas estas cosas. Tendrás que seguir practicando con diferentes matrices dimensionales. Rebanarlo con diferentes valores. Aquí en lugar de 0 a tres, vamos a quitar 0 y vamos a ver qué va a pasar aquí. Se puede ver que aquí no hay cambio. El motivo es cuando escribimos del tres, básicamente significa que el primer 012 sin impedimentos, ¿verdad? Muy bien, entonces así es como podemos hacer el rebanado dentro de casa dado. Ahora veamos cómo podemos hacer pasos de rebanar. Aquí. Lo que voy a hacer es que voy a imprimir eso. Ahora estamos estudiando sobre rebanar, que es otro concepto muy importante. Entonces aquí tenemos, se nos da el Sadie y vamos a hacer el rebanado aquí, los pasos rebanando. Veamos qué es exactamente esto. Por lo que voy a traer agregar aquí. Voy a escribir un coma. Vamos a intentarlo de 10 a uno a dos. Y veamos qué exactamente obtenemos el resultado aquí. Entonces en lugar de diapositivas y se puede ver tenemos esto como resultado. Entonces, básicamente, ¿qué es exactamente ese rebanado? En lugar de rebanar, decimos que queremos rebanar al Eddie dado, pero vamos a seguir estos pasos. Entonces primero vamos a especificar, estamos especificando estos tres valores. Entonces fue, en realidad se va a rebanar de 0 a uno. Y luego fue cortada de uno a dos, ¿verdad? Por lo que en realidad va a estar rebanando está sucediendo en velocidad escalonada. Entonces, en lugar de rebanar de toda la matriz, en realidad podemos hacer algunas pequeñas partes de la matriz usando pasos de corte. Hay más formas de hacerlo. Incluso podemos probar todos estos métodos. Entonces básicamente voy a crear otro átomo aquí, que llamaré como tres agregados. Y en esto, voy a usar num biótico. Y esto va a tener los elementos, digamos. Riqueza coma tres, coma 456, coma siete. Y vamos a crear uno más que es 11 coma dos coma tres. El último será sólo tres coma cuatro, ¿verdad? Por lo que tenemos estos elementos aquí. Esto, tendrás que tener mucho cuidado cuando estés creando una matriz NumPy porque tendrá que asegurarse de que el número de dimensiones en realidad la que deseas, ¿verdad? Entonces aquí tenemos la culpa, la dimensión, y aquí tenemos la segunda lista de elementos. Ahora digamos que quiero incluir estos dos en una sola dimensión. Puedo hacer eso mediante el uso, al incluirlos en este solo corchetes. Entonces ahora si voy a querer incluirlos en otra dimensión, puedo hacerlo usando otra, creando otro corchete, ¿verdad? Así que siempre que quieras crear una dimensión, tendrás que asegurarte crear un registro cuadrado para ella. Ahora, lo que harás es intentarlo. Usa la función final, que en realidad nos dirá la dimensión de esta matriz. Y asegúrate de usar estas funciones finales para que puedas saber si estás obteniendo las dimensiones requeridas. Y el ADA es también el área requerida que se quiere, ¿verdad? Por lo que se puede ver el número de dimensiones o dos aquí, que está aquí, el resultado está aquí. Ahora lo que sólo quiero hacerlo, aquí tenemos dos dimensiones. En la dimensión positiva, tengo estas dos posiciones, y en la segunda dimensión tengo aquí estos dos átomos. Yo quiero hacer el rebanado. Esto sumó tres. Y quiero hacer, digamos que escribo una coma cuatro. Vamos a golpear Entrar aquí y vamos a ver qué va a pasar. Por lo que ahora se puede ver que no nos está mostrando nada. Entonces hagámoslo como 0. Esta será una. Lo que estamos haciendo aquí es en la primera parte, estoy especificando que estamos en la posición 0ª, lo que significa la dimensión cero. En la dimensión 0, realidad estamos rebanando de uno hasta que incluirá, Vamos a deslizarlo como 0 hasta dos. Por lo que incluirá todos los elementos del 01 están incluidos y la dimensión que estamos mirando es 0. Entonces si lo haré uno, veamos cuál será el resultado. Se puede ver que muestra el resultado que tenemos 123 y tres cuartas partes, que es que se puede ver en este daño en el que está apuntando a la primera posición, ¿verdad? Por lo tanto, si desea dividir en una dimensión particular, puede especificar la dimensión aquí. Entonces aquí escribiré un comentario que la primera posición se especifica la dimensión y el índice de segunda posición de rebanar. De esta manera. Podrás entender esto más rápidamente. Que este primer parámetro pertenece a la dimensión que estamos mirando, que queremos realizar un rebanado. Y aquí estamos escribiendo, ¿cómo queremos hacer el rebanado, verdad? Queremos rebanar 012. Pero aquí, si queremos hacer rebanar paso, también podemos hacer eso. En realidad podemos especificar que quiero elementos de 0 a uno, luego de uno a tres, que es la matriz numpy. Si tiene este número de elementos, será capaz de rebanarlos. Entonces así es como podemos hacer el rebanado dentro de una matriz. Puedes jugar encima creando diferentes áreas con diferente número de dimensiones y diferente número de elementos. Y podrás entender cómo está funcionando este paso rebanar y cómo está caminando este tipo de indexación. ¿ Verdad? Ahora vamos a pasar a otro concepto, que es, digamos que queremos probar algunas funciones de NumPy. Digamos que queremos calcular la media y algunas otras cosas también. Entonces en ese caso es digamos quiero crear una matriz de números continuos y naturales. Digamos que quiero crear una matriz n números naturales. En ese caso, no necesitamos crear una matriz escribiendo los números manualmente. Lo que podemos hacer es que podemos simplemente, digamos que quiero crear una matriz. Que es NRT. Y quiero incluir primero 20 números naturales para que solo pueda escribir y V dot, ¿verdad? Y digamos que quiero crear unos números naturales que se inicia a partir de una certeza de alerta. ¿Verdad? Entonces lo que sucederá es esta biblioteca NumPy la creará y la agregará, que va de uno a 20. Si simplemente imprimiré esto y lo agregaré aquí, podrás ver eso en el occipucio, ¿verdad? Entonces aquí dice que el módulo numpy no tiene, vale, por lo que debería ser sencillo. Ahora se puede ver tenemos estos elementos que se inicia desde uno hasta el 19. Por lo que se puede ver que 20 no está incluido, ¿verdad? Por lo que el último no está incluido. Entonces si escribo 20, se iniciará desde n y se irá hasta las 19. Ahora, ¿por qué estamos haciendo esto? Porque si queremos que un conjunto de números naturales jueguen con, en realidad podemos usar esta función y asegurarnos de que solo sea solo pelo, ¿verdad? No es W. Vale, así que veamos qué más, cómo puedes estar de acuerdo con más valores. Digamos que queremos crear números flotantes desde una posición dos, digamos de un número a otro. Entonces la forma de hacerlo es crear otra área que se agrega aquí. Digamos que queremos crear decidido. Volveremos a utilizar la función de arreglo. Aquí. Vamos a especificar el rango desde donde queremos los números flotantes, ¿verdad? Digamos que quiero números flotantes de uno hasta n, que es diez aquí. Y ahora tendré que especificar el tipo de datos aquí usando el tipo. Y aquí voy a especificar flotador. Correcto. Ahora, esto realmente creará y simbiótico con números flotantes de uno a diez. Por lo que se puede ver que estos no son número flotante. Por lo que tiene 1.2.03 punto. Y de igual manera así, ¿verdad? Entonces esta es una Otra cosa interesante. Recuerda que todas estas funciones van a venir en la tarea de preprocesamiento de datos. Así que asegúrate de que en realidad las practiques por nosotros mismos. Todos estos son muy importantes y ya los hemos utilizado en algunos proyectos. Así que asegúrate de que también practiques eso. Pasemos a un concepto muy importante, que es cambiar la forma. Cambiar la forma de la matriz. Digamos que tenemos una matriz con una dimensión dada. Digamos que a es tres por dimensión de búsqueda iluminada tridimensional de dos por dos. Y ahora queremos cambiar la forma de la matriz. Queremos cambiar la dimensión de la matriz. Entonces veamos cómo podemos hacer eso. Lo primero es que veamos cómo podemos comprobar la forma del anódico. Entonces para eso lo voy a jugar anódico a igual a numpy dot ID. Aquí acabo de especificar una coma dos, coma tres. Y voy a imprimir en forma de punto Hill, ¿verdad? La forma no es una función, es una propiedad. Entonces si voy a golpear Enter, nos mostrará que la forma es tres comas y nada está aquí porque no hemos especificado las columnas. Aquí sólo hay tres elementos, por lo que está especificando eso. Vamos a crear uno más. En lugar de crear una matriz como esta elevación, squeeze y números naturales mediante uso de la función arrange np.arange. Vamos a crear seis elementos. Entonces para eso acabaré de especificar seis. Y aquí tenemos, digamos que uso la función reshape. Ahora digamos que quiero remodelar esta matriz. Digamos que tenemos este aquí y aquí escribo esto de forma oscura. Sabemos que mostrará tres Homero, algo bueno saber. Quiero remodelarlo para poder usar la función reshape, ¿verdad? Entonces reasignémoslo, dot reshape. Y como aquí hay tres elementos, podemos crear algunos elementos más para que realmente podamos cambiar la forma del mismo. Entonces vamos a añadir algunos elementos más. Agregaré 456789. También. Hemos creado estos elementos aquí. Y lo que quiero es, quiero, esto es en realidad los nueve elementos y está teniendo una dimensión nueve coma uno. Entonces si voy a golpear Enter o Control Enter, me mostrará que la forma de esta era es de nueve coma uno. Entonces lo que quiero es que quiero convertir esta dimensión única en ella. Quiero remodelar en matriz de tres por tres, ¿verdad? Entonces la forma de hacerlo es especificar las posiciones aquí. Entonces, si quería una forma de tres por tres, me di cuenta de tres comas tres. Ahora lo que hará es que cambiará rápidamente la forma de este todo dado, que está aquí, en una matriz de tres por tres dimensiones. Entonces aquí, si voy a golpear Control Enter, se puede ver rápidamente que ahora el cambio, la forma se ha cambiado a tres por tres, ¿verdad? Así que echemos un vistazo a la forma del agregado antes de usar la función reshape. Entonces si escribiré forma de punto agregado, puede ver que inicialmente fueron nueve comas 0 y ahora son tres comas tres. Por lo que hemos cambiado la forma o la dimensional decidida por tres por tres. Entonces lo que sucederá es que ahora los labios intentan traer esto aquí. Ahora se puede ver en lugar de un sencillo en él, ahora es 123. Entonces tenemos cuatro luchadores y tenemos 789. Por lo que tenemos aquí una matriz tridimensional de tres por tres. Y lo ha dividido en así, ¿verdad? Entonces, ¿qué pasará si escribo aquí tres coma dos? Veamos si va a poder hacer eso. Ahora verá rápidamente aquí evaluador dice que no podemos remodelar el área de la talla nueve en esto. Lo que significa que siempre que quieras hacer una remodelación, tendrás que asegurarte de que el producto de estos dos, que es el que vamos a escribir en esta función de forma sea igual al número de elementos dentro del entorno. ¿ Qué más? No podrás hacer eso. Muy bien, vamos a incluir sólo seis elementos aquí. Y ahora sabemos que el producto de tres coma dos es de seis. Entonces si golpeo Control Enter, ahora se puede ver que ha creado una matriz con dos elementos aquí y hay dos, y esta es una matriz dos por tres. Tenemos dos columnas y tres filas. Aquí tenemos tres coma dos. Y ahora vamos a cambiarlo a dos coma tres. Ahora verás rápidamente aquí en incómodo que los elementos son tres, pero aquí solo tenemos dos dimensiones. Entonces así es como podemos hacer la remodelación de estos elementos de una matriz NumPy dada, ¿verdad? Por lo que es algo muy importante que vas a usar este video a menudo cuando estamos realizando el análisis aunque las tareas de pre-procesamiento de datos también se mueven a otra función importante que sigo viendo. Muchos proyectos sobre Data Science, que está reemplazando los elementos por uno. Digamos que quiero reemplazar todos los elementos de monádica por el valor uno. Entonces veamos cómo puedo, cómo puedo hacer eso. En primer lugar, voy a crear una nueva matriz. Y en lugar de escribir los elementos manualmente, simplemente usaré esta función de arreglo. Aquí voy a crear una matriz con, digamos que tenemos cuatro elementos en ella. Ahora lo que voy a hacer es que voy a reemplazar. Voy a tratar de simplemente mostrarle el valor de esta zona. Se puede ver que esta matriz tiene 0123. Ahora lo que voy a hacer es que voy a usar una función muy importante que es np dot guión bajo, función Like. Aquí le suministraré la nueva RA. Golpearé Control Enter. Ahora se puede ver que ha reemplazado a todos ellos por uno. Entonces es importante, es útil en muchos casos cuando queremos realizar alguna categorización de datos, queremos, podemos hacer eso usando esto, ¿verdad? Por lo que es importante que sea un modo que es ceros lago. Entonces si relato ceros aquí, los convertirá todos en ceros. Se puede ver aquí, estas son dos funciones muy importantes, que he visto y personalmente he utilizado en algunos proyectos. Así que asegúrate de practicarlas también. Y puedo ver que tiene ceros y una escala. Ahora, pasemos a la siguiente parte, que es como podemos concatenar dos arterias aquí mismo. Voy a escribir aquí concatenando. Muy bien, entonces para eso, necesitaré dirigirme. Entonces vamos a crear otro. Cuando creamos una licenciatura a aquí. Así que vamos a crear algunos de los elementos en esta matriz, que serán numpy dot dispuestos. Y aquí, digamos que queremos elementos de tutores seis. Aquí, voy a crear otra matriz que estará en otras diferentes. Esto pasará de siete. Tenemos estos dos átomos y luego queremos concatenarlos en una sola matriz. Para hacer eso, es muy fácil. Podemos simplemente usar, digamos vamos a crear otra área que es la mayoría de A1 y A2. Ahora para hacer eso, tenemos una función muy simple, que es la función np dot concatenate. Aquí sólo tenemos que especificar estas dos matrices. Ahora recuerda que esta es la función y queremos especificar A1 y A2. El modo de hacerlo no es así. A algunas personas les gusta esto, como A1, A2. No puedes hacerlo así. Tendrás que especificar esto como un par interminables corchetes circulares como este. Por lo que ahora podemos ver tenemos un soporte que es toda la función concatenar. Este segundo corchete especifica A1 y A2 como jugador. Ahora, si voy a tratar de traer esto mucho agregado, se puede ver que muestra que rangos de nombres, vale, así que aquí debería ser np.arange, no en coma pico. Ahora se puede ver que tiene contactando con estas dos flechas en una sola matriz. Podría ser utilizado, usará mucho esta función, que es combinar dos o más matrices. Así es como podemos hacer la parte de concatenación. Pasemos a la parte contraria de esto, que es como podemos dividir el anuncio es como, digamos que quiero dividir este módulo. Y para hacer eso, lo que voy a hacer es que lo haré. Primero vamos a crear otra idea. Lo llamaré como papi inmovido. Aquí voy a utilizar una función muy simple aquí, que se usa para hacer la parte de división, que es np dot split en ella. Adición de función de división de subrayado. Aquí solo quiero precisar la mortalidad. Entonces tendremos que precisar, digamos tres. Muy bien, así que quería dividirlo en la tercera posición. Ahora, trataré de imprimir a este papi inmutable. Papi tenía todos estos elementos, 2345678. Entonces aquí lo vemos. El mismo nombre, fusionado no es el caso final, por lo que no fue mucho, fue más subrayado ARR. Por lo que se dividirá esto en los datos de imagen desde la tercera posición. Por lo que podemos ver aquí, tenemos 23457891011. Y ahora se puede ver que tres significa que es, dividirlo en tres partes iguales. La primera parte es a tres para la segunda parte es por 7891011, ¿verdad? Entonces cambiémoslo para que haga y veamos qué va a pasar. Ahora se puede ver que cae crea una matriz con cinco elementos y la siguiente era con cuatro elementos. De esta manera, podemos dividir los AR en múltiples áreas ¿verdad? Ahora pasemos a otra parte importante que es realizar la búsqueda dentro de un dado en ella. Usando esta biblioteca NumPy. Queremos buscar algunos elementos. Entonces primero, tomemos un ejemplo. Vamos a llamarlo como en esto. Voy al primer ejemplo a partir de aquí solamente. Éste. A continuación crea y agrega una con algunos números aleatorios. Sólo estoy usando cualquier número aleatorio aquí. Y digamos que quería buscar 87 dentro de este agregado, que es el nodo que está en 0123. Está en la tercera posición y queremos buscarla. Entonces la forma de hacerlo es muy simple. Primero crearé un elemento x, que en realidad consigue la ubicación de los elementos 87. Entonces tenemos una función rara que se utiliza para realizar la parte de búsqueda. Entonces np dot donde la función obtendrá dos parámetros. Sólo funcionará un parámetro. E equivale a dos iguales a dos. Necesito precisar el elemento que es 87. Entonces ahora lo que hará es que buscará 87 dentro de esto dado en una que está E aquí, ¿verdad? Entonces si voy a tratar de imprimir x, se puede ver aquí muestra la búsqueda. Y ahora dice en una, en tercera posición y el tipo de datos del elemento es entero 64. puede ver aquí que efectivamente estaba en la tercera posición. Entonces esta es la primera, lo siento, la posición número 0. Y primero, segundo, tercer puesto. Por lo que nos ha dado la posición. Y se puede ver que ya que estamos utilizando Eris, búsqueda es el adoptivo en este caso. Ahora, pasemos a otra parte importante que está clasificando. Dada matriz. La clasificación también es importante. A continuación ordena este ERD solamente. Se puede ver este anuncio no está ordenado. Tratemos de ordenar esto. Escribiré a Brent. Y función de clasificación de puntos P. Y dentro de este tipo controlador especifique E aquí. Se puede ver que se trata los datos ordenados en orden ascendente, ¿verdad? Por lo que se puede ver inicialmente no se ordenó. Y ahora esto a una se ordena. Por lo que funciones muy simples, simples, estas funciones de utilidad realmente te ayudarán mucho en la tarea de pre-procesamiento de datos. Practicarlos es muy importante. Y cuando vas a hacer más y más productos, te familiarizarás con todos estos. Y obtendrás un buen control de todas estas funciones aquí, ¿verdad? De acuerdo, así que pasemos a otro. Y éste es triangular superior. Ahora esta función es, he visto en muchos proyectos. Cómo crear un triángulos VR. Y es un concepto muy importante. Entonces concéntrate en esta parte aquí porque es realmente importante entender por qué es importante crear un triángulos de PR. Entonces digamos que creo una matriz aquí. Lo llamaré como agregando uno. Vamos a llamarlo como un 0. Aquí usaré np dot. Tomemos e como ejemplo. Vamos a usar e, que está aquí. Para crear un triángulos de PR. Eso lo haré, acabaré de imprimir b dot u, que es forma corta de triangular superior o tri, significa triángulo, significa arriba. Entonces np dot triangular U significa que creará un triángulo superior de la matriz dada. Para eso, vamos a crear una matriz tridimensional. Rápidamente crearé una matriz tridimensional. Todo lo que ya hemos creado una matriz tridimensional arriba aquí. Cuando estábamos haciendo la parte de remodelación, hemos creado esta también. Vamos a crear de nuevo. Aquí. Voy a usar B dot orange, e incluiré elementos del blanco uno hasta nueve. Y lo voy a remodelar rápidamente la matriz de tres por tres. Y echemos un vistazo a esto, a un 0. El primer Nexi, sea correcto o no, dice que debe ser uno llamado Martín. Tenemos esto se puede ver que este es el addie. Tenemos 123456789. Entonces una matriz de tres por tres, puedes considerarla como una matriz de tres por tres. Entonces queremos crear un triangular superior. Lo que podemos hacer es, echemos un vistazo a cómo va a cambiar la RA cuando aplicaremos aquí el triángulo superior. Triángulo pitido. Entonces voy a imprimir la función np dot u. Aquí. Me voy específicamente, sólo voy a especificar dos parámetros aquí. El primer parámetro va a ser la matriz donde queremos el triángulo superior y el segundo elemento es 0. Te diré qué puede ser exactamente este segundo elemento. Realmente cambia este valor. Puede ser en realidad 0 menos 11. Veremos los valores como esto está cambiando cuando estamos aplicando el segundo parámetro como 0, luego menos uno y luego uno. Entonces vamos a golpear Control Enter para ver la salida aquí. Se puede ver cuando especificé 0, creó un triángulo superior. Por lo que inicialmente esto fue RID. Y ahora después de crear un triángulo, se pueden ver todos los elementos más allá. Se pueden ver estos son los elementos diagonales, 159 milímetros. Y ahora se puede ver que en realidad está formando este triángulo. 123569 en realidad está formando un triángulo aquí, que se puede ver aquí. Y estos elementos se han convertido en 0, ¿verdad? Entonces, una vez que se han convertido en 0, tenemos aquí un triángulo superior. Ahora vamos a cambiar este valor de 0 a uno. Veamos cuál será el cambio aquí, ¿verdad? Por lo que ahora se puede ver aquí, si escribimos uno, incluirá también los elementos diagonales. Por lo que creará un triángulo superior. Se puede ver que dos tres-sesenta están involucrados en este triángulo. Estos elementos se han convertido en 0. Si cambio esto a menos uno, y golpearé Control Enter. Ahora se puede ver que V0 han comprado un triángulo superior, pero sólo el último elemento es 0, ¿verdad? Entonces todos los elementos por encima de esta nada 0. Entonces de esta manera podemos crear un bot triángulos y verás la importancia de crear estos. Triángulos dentro de cuándo comenzaremos con las tareas de preprocesamiento de datos. Verás muchas de estas funciones disfunción seca que usaste en muchos proyectos también. Ahora tienes una buena idea de cómo exactamente esta función cambiará la agregada. Ahora lo que voy a hacer es que ahora estamos pasando a la última función, que es cambiar el tipo de datos de la adición de los elementos de la matriz. Muy bien, por lo que para eso, voy a crear otro añadiendo 23. Y aquí usaré np.edu. Vamos a crear elementos que valores flotantes auto , que es 2.11.2. Y vamos a darle un molar, que es, veamos, de tres puntos uno. Ahora todo lo que tenemos esta matriz NumPy. Lo que voy a hacer es que voy a imprimir el tipo de este sitio. Entonces, antes que nada, crearé una nueva matriz. Aquí. Voy a utilizar IRR a como función Gracias. Escribiré aquí. Entonces ahora lo que sucederá es que va a crear una nueva matriz, pero que tiene todos los valores de esto sumados a tres. Se va a convertir en efectivamente su parte. Así que echemos un vistazo a cómo será exactamente nuestro nuevo Adam. Por lo que el nuevo Audi tendrá todos estos elementos, pero sólo la parte entera de estos elementos. Por lo que aquí se puede ver el cambio de tipo de datos, y ahora tiene 123 y ha ignorado estas partes decimales. De esta manera, se pueden cambiar estos por dentro. Si quieres cambiar el tipo de datos de los elementos, en realidad puedes hacerlo y enfrentarás mucho a esta dificultad cuando estés preprocesando los datos. A veces no se necesitan valores flotados. Entonces los conviertes por el bien de la facilidad, los conviertes en partes enteras también, ¿verdad? Entonces hay algunas cosas más, como si quieres imprimir el tipo de datos de esta matriz, solo puedes usar la propiedad dtype. Y aquí se mostrará que es un número entero 32. Y digamos que quieres cambiar el tipo de datos a string. Entonces aquí, si especifico que esto es en realidad una cadena, vamos a crear una matriz de cadenas aquí, que es 13. Así. Ahora aquí lo que puedo hacer es especificar el tipo de datos de esto. Entonces esto está teniendo un tipo de datos de cadena. Ahora, veamos si en realidad podemos convertirlo y hacerlo y ciertamente su parte. Si presiono Control Enter, se puede ver que se ha convertido con éxito en parte entera. Digamos ahora quiero especificar que esto no es en realidad una cadena. Digamos que tiene cuatro bytes entero. I, cuatro significa cuatro bytes entero si voy a golpear Control Enter. Ahora se puede ver que tiene este 123 y entero Treinta y dos. Aquí tendré que hacer algunos cambios. En lugar de nuevo en ella. Voy a especificar ARR, hacer tres aquí. Ahora puedo ver que es 123. Aquí. Quiero especificar el tipo de este agregado a tres. Entonces el dtype es en realidad entero 32. Nuevamente, así es como se puede cambiar realmente el tipo de datos de los elementos de cadena a entero o entero a float. Así que básicamente eso es todo por este tutorial. Nos vemos en el siguiente tutorial. Gracias por ver. 5. Funciones de numpy en Python: En estos CDs, en este curso, ya hemos cubierto matrices NumPy. Por lo que hemos cubierto algunas de las funciones muy importantes que podemos realizar en los no compradores. Y en este video vamos a cubrir todas las operaciones matemáticas NumPy que se soportan y podemos realizarlas en biotas Dina. Por lo que estas son algunas de las funciones básicas y algunas de las muy importantes que estarás utilizando a lo largo de tu carrera en ciencia de datos. Entonces empecemos con esto ahora. En primer lugar, voy a importar numpy como np líquidamente aquí. Y aquí voy a crear una matriz que será np.array. Aquí sólo vamos a crear tres elementos aquí, que es 123456789. Aquí se puede ver que he creado una matriz. Comprobemos rápidamente si lo hemos definido correctamente imprimiendo esto. Entonces aquí se puede ver que he creado esta matriz que tiene estos nueve elementos en ella ¿verdad? Ahora lo que voy a hacer es que voy a realizar algunas de las operaciones matemáticas en esta matriz aquí. Por ejemplo, punto-producto, desviación estándar, media, y todas las funciones estadísticas también. Empecemos con algunos de los básicos. Entonces el primero aquí son dos. Calcular el momento máximo, que es un bit muy importante es el que en realidad dará el máximo elemento en toda esta matriz. Voy a imprimir, usar la función np dot max, que en realidad nos dará el elemento máximo de esta matriz. Se puede ver que si golpeo Control Enter, se puede ver que nueve es el elemento máximo en toda esta matriz. Ahora lo que voy a hacer aquí es Supongamos que queremos saber cuál es el elemento máximo en este eje, que es la ley aquí mismo. Lo que puedo hacer es que en realidad puedo especificar el eje aquí también alega Access es igual a 0 si golpeo Control Enter. Ahora se puede ver que el eje 0789 es el elemento máximo. Por lo que también podemos hacer eso. Entonces si voy a escribir uno aquí y me gusta controlar Enter, se puede ver que será 369. Entonces al cambiar el acceso, realidad se puede devolver el elemento máximo de acuerdo con el acceso que es filas y las columnas. La siguiente parte, que es similar, es calcular el, el elemento mínimo. Y para eso también tenemos la misma Técnica que es utilizar np dot función principal. Y aquí solo puedo especificar la matriz. Y se puede ver que el mínimo, el elemento mínimo de esta matriz es uno, y eso es lo que está imprimiendo aquí. De igual manera, también podemos proporcionar aquí el eje al 01 también. Ahora pasemos a algunas otras funciones, sin embargo. Estas son en realidad las funciones estadísticas. Entonces básicamente en este curso, todavía no he tocado estos temas de estadística, que es, cuál es el significado de desviación estándar, la varianza significa. Estos son algunos de los temas muy cruciales que hay que abarcar en la ciencia de datos. Entonces lo que estoy haciendo aquí es en este tutorial, solo voy a mostrar cómo usarlos. Y en el siguiente video voy a enseñar todos los conceptos importantes de estas estadísticas como varianza, media, desviación estándar. Y de esa manera podrás entender mejor cómo estas funciones son útiles en la ciencia de datos. Entonces empecemos con el muy básico, que es calcular la media del dado Eddie. Entonces digamos que aquí se nos da esta matriz, que es ésta, quiero calcular la media. La media es básicamente promedio. Entonces lo que puedo hacer es que quiero imprimir la media de esto. Entonces para eso solo voy a usar la función media np dot y solo tendré que suministrarla con la matriz. Y se puede ver aquí que devuelve cinco como la media porque en realidad es el promedio de todos los elementos. Discutiremos más que de estas cosas, que son los conceptos de estadística en detalle en el próximo tutorial. Entonces pasemos a otro concepto estadístico que es varianza. Varianza. Acabo de cubrirlos todos en esta sola celda aquí. Varianza y desviación estándar. Estas son las dos cosas que son muy importantes y se usan ampliamente en la ciencia de datos porque estas son realmente muy útiles para realizar algunos de los métodos importantes de preprocesamiento de datos. Además, aquí podemos imprimir la media. Y si queremos pintar la varianza, solo puedo suministrarla ésta. Por lo que se puede ver que la varianza de esta matriz dada es de 6.66. De igual manera, si quiero la desviación estándar, puedo hacer eso usando np dot SDD, que es desviación estándar. Y simplemente lo aplicaré con la matriz aquí. Se puede ver si golpeo Control Enter, me dará la desviación estándar. Estudiaremos estos tres conceptos importantes, y hay un concepto más importante que es una distribución normal. También estudiaremos eso. Pasemos a algunos de los temas del álgebra lineal. Que estos son algunos conceptos matemáticos, que es el punto-producto y la multiplicación y adición de matrices. Entonces vamos a realizar estas salud. El primer método que vamos a realizar es calcular la transposición de una matriz. Entonces básicamente este curso requiere que tengas conocimientos básicos de matemáticas, que son matrices y determinantes. Entonces veamos cómo podemos calcular la transposición de una matriz. Para eso, es muy sencillo. Sólo puedo escribir matriz punto capital T. Si voy a golpear Control Enter. Ahora se puede ver que esta es la transponer de una matriz. Por lo que esencialmente se puede ver que los roles se han convertido en columnas aquí. Entonces 123 fue en realidad una fila en la matriz aquí. Entonces queremos computar a través de ballestas y convertirnos en la ley. Ya se puede ver que su columna es 123. Así es como podemos calcular la transposición de una matriz. Pasemos a cómo calcular el determinante de una matriz. Estos son todos los conceptos de conceptos básicos de álgebra lineal. Y esta es la única matemática que ha requerido en Data Science, que es estadística, probabilidad, y álgebra lineal. Incluso si conoces los conceptos básicos de estos conceptos, estás listo para ir. Veamos cómo podemos calcular el determinante de esta matriz. Para eso, vamos a usar la biblioteca NumPy con esta función aquí. Así np dot LIN función LG, que en realidad es una propiedad en función de orden. Y luego usaremos DEP para calcular el determinante de esta matriz. Se puede ver que el determinante de esta matriz es esta colina, np dot LIBNAME dot db. Muy bien, así que pasemos a cómo calcular el rango de una matriz. Básicamente, el rango se calcula como n menos uno, donde n representa el final, básicamente significa el número de dimensiones. Muy bien, agregando, se puede ver que esta zona era emisión theta. Entonces si quisiera calcular el rango, lo que simplemente puedo hacer es volver a tener que usar álgebra lineal np dot. Dot LAN LG significa álgebra lineal aquí. Y ya que estamos usando las funciones de álgebra lineal y aquí estoy como el rango de subrayado de matriz. Aquí. Yo lo suministraré con la matriz o el ático. Aquí se puede ver que aunque es el rango de esta matriz, ¿verdad? Entonces así es como se puede calcular el rango de estas matrices. Por lo que queremos pasar a algunas otras funciones importantes también. Entonces echemos un vistazo a cómo calcular los valores propios y los vectores propios. Los valores propios y los vectores propios también son importantes. Aquí, estarás utilizando estas funciones con mayor frecuencia en la tarea de pre-procesamiento de datos. Veamos cómo podemos calcular los valores propios. Básicamente, supongamos que tenemos una matriz cuadrada a. si multiplico, si hago un producto de punto con v será igual a k, que son los vectores propios. Y de nuevo, dot producto con v, que es el eigenvalues. Por lo que básicamente el propósito de los vectores propios es realmente aumentar la forma de la matriz cuadrada y no la dirección. Entonces aquí incluso puedo escribir eso, entonces lo vas a aplicar. Transformación lineal. Los vectores propios cambian, cambian la forma de la matriz NADA dirección. De acuerdo, así que veamos cómo podemos calcular estos dos valores. Así que de nuevo, sin embargo, vamos a calcular los valores propios y vectores de esta matriz que estamos utilizando en todo este programa. Lo primero es, si quieres calcular los valores propios, primero definirá las variables aquí. Definamos dos variables que son valores propios y vectores propios. Tenemos una función que devolverá ambos, que es np dot álgebra lineal dot eigenvector EEG, y lo aplicaremos con el mutex. ¿ Qué esta función devuelve los valores propios y los vectores propios y qué se almacenará aquí, verdad? Entonces intentemos ver estos valores imprimiendo aquí estos valores, que son valores propios. Y aquí imprimiré los vectores propios. Si golpeo Control Enter, se puede ver que estos son los valores propios. Este agujero que se puede ver es un eigenvector. Pasemos a más funciones. Veamos cómo podemos. Calcule el producto punto. El producto Dot también es muy importante. Veamos cómo podemos hacer eso. En primer lugar, tendré que crear dos matrices aquí. Vamos a crear una matriz muy simple, 123. Y voy a crear una matriz más, que es la matriz dos. Y esto tendrá valores para V6. Ahora quiero calcular el producto dot. Entonces si quisiera calcular el producto dot, lo haré. En primer lugar, esto va a ser np dot array. Esto también será en no periódica. Muy bien, así que ahora si quería imprimir esto, tendré que usar la función np dot dot. Por lo que será tener una función oscura aquí. Y sólo necesito proporcionar estas dos matrices en el argumento que es matriz uno, matriz Q. puede ver aquí se obtiene el producto punto tiene 3232 es el producto punto de estas dos matrices. Recuerda cuando estamos calculando el producto dotnet dot, primero tendrás que entender los conceptos de álgebra lineal de cómo calcular el producto dot y cómo realmente asegurarte de que las filas columnas de estos dos son coincidentes o no, ¿verdad? Entonces entonces podremos calcular el producto dot. Pasemos a cómo agregar dos matrices, que es la adición de estos vectores. ¿ Verdad? Entonces vamos a tomar estos dos matriz uno, matriz dos solamente. Entonces si escribo print matrix uno usando la función add y queremos agregar la matriz uno, matriz dos. Se puede ver que si traté de agregarlos, sus valores son sus valores correspondientes que se agregan y se almacenan en otro vector. Es por 79, así que uno más cuatro es cinco, luego es el F7, luego tenemos nueve. De igual manera, si quieres hacer la resta, tendrás que realizar el mismo paso. Tendrás que imprimir la función de producto NumPy np dot. Nuevamente, proveedores con estos dos valores, que es la matriz uno. Matriz dos. Nuevamente, mira que si los resto, uno menos cuatro me da menos tres a menos pi me dará menos tres. Y de igual manera menos V aquí. Así es como podemos calcular la resta. Y veamos cómo podemos hacer la multiplicación. Esto es multiplicación, no el producto de puntos. Entonces voy a escribir aquí que este no es el producto dot. Esto es multiplicación de matrices. Verás aquí cuál es la diferencia entre ellos. Entonces para eso, voy a usar la podemos multiplicar dos matrices simplemente usando un estatus como este y se multiplicará estas dos. Entonces cuatro multiplicados por uno son cuatro, luego diez, luego 181018 años. La respuesta aquí. Entonces esta es en realidad la multiplicación de dos matrices que es diferente de la punto-producto en su contra. Ese producto punto-fue en realidad 32. Ahora vamos a pasar a algunas otras funciones también. Aquí voy a empezar con cómo calcular el inverso de una matriz. Para calcular el inverso de una matriz, tendremos que volver a utilizar la función de álgebra lineal. Y termino funcionamos está ahí. Sólo tendré que suministrarlo con la matriz. Si golpeo Control Enter, se puede ver que se mueve simplemente calcular el inverso de esta matriz. Entonces este es el uso de la función INV inversa aquí, que es, que pertenece a la propiedad de álgebra lineal. Ahora vamos a ver cómo generar valores aleatorios, que de nuevo es un concepto muy importante, cómo podemos generar valores aleatorios usando NumPy. Entonces para eso, voy a crear un programa muy simple que en realidad descubrirá cinco valores aleatorios. Aquí voy a escribir un comentario aquí. Permítanme calcular las cinco novena sobre valores entre uno y diez. Si quisiera calcular cinco valores aleatorios entre uno y diez, veamos cómo podemos hacer eso. Utilizaré la función aleatoria np dot. Y, Y, y aquí tendré que suministrarlo con tres variables. Van de 0 a 11, y quiero cinco valores. Entonces será así. Se puede ver aquí calculará los cinco valores aleatorios de uno a 10110 a seis por estos valores, y 011 quedan excluidos de esto. Entonces así es como se puede calcular que son valor conocido. Entonces una cosa interesante aquí es que si vuelvas a golpear Control Enter, cambiará estos valores aleatorios y seguirá cambiando eso. Entonces para hacer esto constante como si no quieres que los valores aleatorios cambien cada vez, puedes usar una cosa muy importante que se conoce como semilla. Para eso puedes usar la función np dot random.seed. Aquí. Puedes suministrarlo con uno que no quieras cambiar el tamaño. Entonces si pego Control Enter, supongo que seguiré golpeando Control Enter. Este valor no cambiará. Esto se volverá constante por este techo que hemos hecho aquí. Ahora pasemos a otra cosa importante. Digamos que queremos generar algunos valores aleatorios a partir de la distribución normal. La distribución normal es otro concepto importante de la ciencia de datos porque pertenece al estado, a las estadísticas y a la probabilidad. Por lo que discutiremos eso también en el próximo tutorial que cubriré estos conceptos sobre estadística. El x más c, cómo podemos obtener los valores de la distribución normal. Para eso, en realidad podemos usar np dot aleatorio dot función normal. Y luego simplemente solo necesito darle un valor. Entonces vamos a darle un valor 1, que en realidad será significante. Por lo que tenemos que darle tres parámetros. El primero será la media, la segunda será la desviación estándar. Y el tercero son los números que se quiere generar. 1 es la media, entonces tenemos a 10 y desviación estándar. Y el número que quería hacer esto, entonces voy a golpear Control Enter. Recogerá automáticamente estos diez números de la distribución normal de la media de la media dada y la desviación estándar. Entonces básicamente estas son todas las funciones importantes de esta biblioteca NumPy. Descubriremos más de ellos en el ácido. Seguiremos adelante en este curso. Entonces básicamente eso no es lo que este factorial cancela viendo. 6. ¡Estadísticas para la ciencia de datos!: Ahora pasemos al primer tema que vamos a estudiar, que es un medio. Tenemos media, desviación estándar, distribución de lavado y varianza. Vamos a cubrir estos temas muy importantes y estos son humanos enfrentarlos en datos. Muchas gracias. Empecemos con la media y tratemos de entender cuál es el significado del ser. Aquí, he dibujado un gráfico de un ejemplo. Entonces consideremos un ejemplo muy sencillo. Consideremos que hay una empresa de teléfonos inteligentes, y esa compañía realmente está vendiendo los teléfonos inteligentes. Y de los malos datos, he recogido siete días de las ventas. Aquí se puede ver que en los datos, tengo estos siete ítems en ella. 151030 veinticinco, veinticinco y cinco. En este gráfico, se puede ver en este eje tengo el número de día, que es 1234567. Para quien semana tenemos estos números de teléfonos vendidos. Se puede ver para el primer día, 15, voy a vender teléfonos para el segundo día y se vendieron número de teléfonos. Y de igual manera para el tercer día, se vendieron 30 número. Y así es como he trazado estos puntos de vista, estos puntos azules que representan los datos. Ahora veamos cómo calcular la media. La media es en realidad el promedio de estos valores. Podemos calcular la media con apenas iniciarlos y dividirlo por ID y número de puntos de datos que tenemos, que es siete en nuestro caso. Aquí se puede ver que en el cálculo se obtiene 150 por siete, que es 18.57. Aquí se puede ver una línea roja que está pasando por este gráfico. Aquí se puede ver que esto es absolutamente presentando media, que es 18.57, y se puede ver que se encuentra entre 1520. Ahora, tratemos de entender qué es lo que significa. El significado de la media es muy simple y nos da el promedio del promedio diario de los últimos siete días. Esto significa que en realidad es 18.57. Vamos a asumirlo como un valor absoluto de 18. En realidad significa que 18 teléfonos se vendieron cada día en los últimos siete días en promedio. Ahora esta es una información muy crucial porque a veces la empresa no está interesada en lo que está pasando, cuánto huesos se venden en un solo día, lo que querían, querían calcular la media, la media. Aquí se puede ver el promedio es de 18. Por lo que podemos decir que 18 teléfonos se vendieron cada día en promedio en tan solo una semana. Pero si fueras a echar un vistazo aquí, hay una información interesante que falta en este gráfico. Este medio es en realidad engañoso. El motivo por el que es engañoso es que supongamos un punto de datos que está lejos de esta línea, que está lejos de este medio. Lo que significa que si voy a calcular la media ahora la media se hará más alta. Este valor de la carne aumentará y si va a aumentar, intelectual fue un valor que, supongamos que el valor aumente a 30. Por lo que se mostrará que totalmente teléfonos prácticamente todos los días, lo cual no es cierto en absoluto. Un punto de datos, en realidad malinterpretará la media. Dado que la media se malinterpreta, nos dará una información falsa y engañosa a la empresa de que cada día se vendían 18 cuarenta años, lo cual no era cierto porque en realidad era promedio. Entonces era cierto que no te pusiste virtual. Si se puede ver que si tenemos esos puntos de datos que en realidad son anomalías en los datos, realidad puede malinterpretar y es engañoso. Para evitar este hecho engañoso, en realidad podemos mejorar esta información. Podemos hacerlo mucho más que dilutivo. Le estoy agregando la desviación estándar. Tratemos de entender en términos muy simples buscados, ¿qué es en realidad desviación estándar? Entonces la desviación estándar es en realidad la distancia y la distancia es en realidad la desviación solamente. Es una distancia de cuánto están los puntos de distancia de la media. Se puede ver que en los átomos verdes, se puede ver que esta es la distancia, este punto es de. El medio. La desviación estándar en realidad nos dice cuánto están todos estos puntos de datos lejos de la media. El motivo por el que estamos haciendo esto es entender cuánto estos puntos de datos están más cerca de la media. Si estoy diciendo que hay 18 teléfonos vendidos cada día durante los últimos siete días. Y la desviación estándar también es menor. En esta desviación estándar es menor, significa que las distancias son menores. Significa que los puntos de datos están más cerca de la media. Esa será una buena información. Pero si la desviación estándar es alta, significa que estos puntos están en realidad lejos de la media. Si están lejos de la media, significa que se están desviando de la media. Y eso puede decirle a la empresa que en realidad el promedio era este negro. Los puntos en realidad tendrían gran desviación es una información interesante para sumar a ésta. Vamos a entender cómo calcular la desviación estándar. Es muy sencillo. Sólo necesitamos calcular estas distancias verdes. Se puede ver que si quería conseguir esta distancia verde, solo necesito restar este valor de cinco con la media. Si resto 18 de cinco, conseguiré esta región. Lo que haré es calcular para todos ellos. Y entonces como aunque no sea negativo, no queremos, no nos interesa los valores negativos porque la desviación estándar es en porque la desviación estándar es realidad una magnitud de cuánto señalan estos datos están lejos de la media. Tomamos las plazas de estas distancias. Ya que queremos que la desviación estándar representa la desviación de todos los puntos que vamos a resumirlos y lo mostraremos así. Y el numerador. Nuevamente, ver 130 por siete, lo he tomado de aquí, que es la media. No uses Indian Point 57 porque los cálculos se convertirán en mucho de su cabello. Si va a utilizar 130 por siete, sólo tiene que restarlo de 15. Puedes entrar a distancia y cuadraremos todas estas distancias como esta. Y luego los vamos a sumar. Y por último, vamos a dividirlo por el número de puntos de datos que tenemos. Contamos con siete puntos de datos sobre cálculo. Si calcula todo este valor, obtendrá un valor de 69.357, que está aquí. Ya que hemos hecho el cuadrado de estos números, habrá que notificarlo. Entonces para eso vamos a usar la raíz cuadrada. Entonces después de conseguir la raíz cuadrada, obtengo este valor, que es 8.32, y esta es en realidad la desviación estándar. 8.32 es la desviación estándar de este gráfico. Tratemos de entender qué es esta información y cómo mejorará la información. Entonces 8.32, ¿qué presentamos? Es ese medio, que es 1818 teléfonos se vendieron todos los días en promedio en los últimos siete días. Pero hubo una desviación de ocho puntos. Voy a escribir aquí más ocho puntos. En realidad esto fue de 8.32. Tendré que escribir que hubo una desviación de 8.32, o podemos decir que hubo una desviación de ocho huesos. Ahora ya que esta desviación puede ser más ocho y menos ocho más o menos, por lo que tendré que escribirla más menos ocho. ¿ Verdad? Ahora esta no es muy buena información. Ahora a partir de esta información, una persona sabrá que sí, se vendieron 18 teléfonos en promedio y la desviación estándar fue de ocho, ¿verdad? Entonces no hubo un aumento y caída de las ventas en un solo día, ¿verdad? Entonces si la desviación estándar es menor que esta es la buena porque significa que estos valores están en realidad más cerca de esta línea, que es la línea roja, que es la media. Y si están más cerca, significa que el valor que vamos a llegar aquí es en realidad cercano al promedio. Y la información será mucho mejor porque podrían venderse 18 puntos y habrá, es menos dxy una o dos celdas, lo que no importará tanto. Entonces así es como calculamos la desviación estándar. Y esa es la significación de la desviación estándar porque completa esta información y se suma a esta información que habrá un incremento o decremento de este tanto valor dentro de este promedio, se venderán 18 voltios cada día en promedio, pero podría haber un aumento o grados de ocho puntos máximo. Ahora pasemos a la segunda. El tercero, que es la varianza. Ahora aquí hemos migrado la raíz cuadrada de este valor aquí. Si no tienes, este valor se conoce como varianza. Entonces aquí se puede ver esto es lidianos. Entonces 69.387 son millones. Ahora, ¿qué significa la varianza? Esta varianza es también la suma de las distancias de todos estos puntos de datos desde la media. Entonces, ¿qué pasará si la varianza es menor? Entonces comprendamos qué pasará si la varianza es lección. Queremos entender también cuál es el significado de este valor? ¿ Qué pasará si la varianza es alta? Si la varianza es menor? Si es menor, significa que las distancias de este punto con respecto a la media son en realidad más bajas. Porque bajar significa que estos puntos están muy cerca de la media. Están más cerca de la media. Aquí puedo escribir que con las lecturas se baja. Significa que los puntos están cerca de mí. Esto es distancia. Si es menor, significa que están muy cerca de la media. ¿ Qué pasará si la varianza es alta? Si la varianza es alta, es básicamente por estas distancias fueron muy altas. Estas diferencias fueron muy altas. Entonces si estas distancias son muy altas, significa que los puntos están muy lejos de esta media. Tenemos la media aquí y los puntos están dispersos. Su startup, significa que hay lejos de existir. Ahora veamos cómo podemos usar estas dos cosas importantes sobre la varianza para aplicarla realmente en la ciencia de datos o el aprendizaje automático. En el aprendizaje automático, existe un concepto conocido como clustering. Y agrupar lo que hacemos es que tratamos de formar grupos dentro de un dato. Lo que voy a hacer aquí es que voy a dibujar aquí un gráfico muy sencillo. Consideremos que aquí tenemos estos puntos que están marcados en negro. Y luego tenemos estas mentes. Puede que Micelle haya debido, ¿verdad? Entonces tenemos todo este conjunto de datos, pero tenemos a Margaret en dos grupos o clusters diferentes. Ahora, lo que puedo hacer es bajar la varianza. Significa que los valores están más cerca. La varianza es alta, entonces significa que los valores están lejos de la media. Ahora para formar clústeres o grupos dentro de nuestros datos, existen dos condiciones. El primer estado es que dentro de un grupo, si se considera este grupo, dentro del grupo, los elementos de datos deben estar más cerca unos de otros. Deben estar más cerca el uno del otro. Y cómo podemos asegurar que estén más cerca el uno del otro calculando la varianza de que están más cerca. De igual manera aquí, si ves esto, si queremos crear este bucle, tendremos que asegurarnos de que estos elementos estén muy cerca unos de otros. Esta fue la primera condición de que los elementos, los elementos de un grupo dentro de un grupo deberían estar más cerca. Esta fue la primera condición. Sabemos que podemos usar el alias para eso. También hay una segunda condición. El segundo estado dice que si quieres formar grupos, primero fue realmente asegurar que los elementos de un grupo estén cerca unos de otros. Segundo fue asegurar que los valores de este grupo y de este grupo estén lejos el uno del otro. Muy bien, por lo que estos valores deben estar lejos el uno del otro. Y tiene sentido porque queríamos asegurarnos de que los grupos estén más cerca. No sabían dentro un grupo el punto de datos debía estar más cerca. De ahí que estén formando un cúmulo. Pero también queremos asegurarnos de que estén lejos el uno del otro, entonces sólo podremos distinguir entre estos dos grupos. Podemos utilizar este concepto de varianza para asegurar esta agrupación dentro de un conjunto de datos. Y esto es muy importante y se entenderá sólo si sabes cómo la varianza, si aumentas la varianza, estará lejos de la media y los puntos están lejos el uno del otro. Eso es una cosa. Ahora permítanme pasar al último y al concepto muy importante que se conoce como la distribución normal y la gaussiana. Entonces para eso primero, voy a quitar este gráfico aquí. Muy bien, así que tratemos de entender qué es la distribución gaussiana normal. Antes de entender esto, necesitamos entender cuál es el significado de la distribución. Ejemplo muy simple de distribución es digamos que tengo diez chocolates y hay características. Y lo que puedo hacer es realmente repartirles esos $10. Y esto se conoce en realidad como distribución. Este es el claro significado inglés de la distribución, lo mismo que aquí. También en distribución, lo que intentamos hacer es que estamos distribuyendo la x, que es la entrada. Haz algún reordenamiento. Llamamos como y a las salidas. En el rango. Digamos que tenemos un rango 0 a uno. Tengo estos puntos de datos y estoy distribuyendo estos puntos de datos dentro de estos rangos trazándolos, ¿verdad? Entonces para eso necesito una función f de x, que en realidad tomará este inverso. Y se asegurará de que estos insumos se encuentren entre estos dos, que es éste, que es este rango. Esto es solo un ejemplo para explicar qué es la distribución. Entonces si queremos distribuir los elementos, utilizaremos diferentes tipos de distribuciones. Si la salida, que es el rango, si es probabilidad se conoce como distribución de probabilidad. Ahora vamos a entender qué es la distribución gaussiana. distribución gaussiana también se conoce como distribución normal. Y tendremos que entenderlo en realidad usando un gráfico. Este gráfico tiene en, que voy a dibujar es en realidad una representación de esta función aquí la cual tengo ahí. Se puede ver que esta f de x uno dividido por ella todo de, bajo raíz de dos pi e elevado a la potencia menos la mitad, x menos media y desviación estándar cuadrado entero. Entonces esta es una función de la cual representa la distribución de cautela. Y aquí se puede ver este símbolo que es rho. Esto representa la desviación estándar. Este valor que es mu, representa la media. Aquí tenemos la desviación estándar y aquí tenemos la media. Entonces si tenemos desviación media y estándar, podemos usar la distribución gaussiana. Esta x aquí, representa los puntos de datos que tenemos. Entonces si voy a suministrar los puntos de datos aquí a la x, me va a dar y se va a distribuir realmente la entrada sobre un cierto rango. Cualquiera que sea el valor que esta función f x me dará, la trazaré. Y las manos de la cadera, en realidad está en un rango que lo llamamos como las salidas, ¿verdad? Entonces ahora vamos a entender cuáles son los pasos para crear realmente el gráfico de distribución normal, que es el gráfico de esta función. El primer paso es marcar realmente un valor que está en el centro de este eje. Y este valor será la media. Entonces 18.57 es la media. Por simplicidad, estoy por la tarde solo indicando el valor absoluto. Esto es en realidad el medio aquí. Voy a usar Mu para representar esto ¿verdad? Ahora, el segundo paso es agregar, es crear más marcadores aquí sumando y restando la desviación estándar. Entonces, ¿cómo puedo hacer eso? La desviación estándar es de 8.32. Y de nuevo, voy a tomar el valor absoluto de ocho. Si lo agrego a esto. Aquí, voy a llegar cuando D6. Si resto ocho de esto, obtengo un valor de diez. Esta es en realidad la desviación estándar que está representada por el rho. Y rho es igual a ocho. En nuestro caso, estoy tomando el valor absoluto. Este es el primer paso. Esto se conoce en realidad como el primero. Una desviación estándar. Ahora, el tercer paso es calcular el total y la segunda desviación estándar. Y también es simple. Sólo tenemos que sumar la desviación estándar a este número. 26 más ocho es en realidad igual a 34. Aquí tenemos un NAD y voy a tener que hacer lo mismo aquí. Tendré que restar el valor de ocho de este diez, y luego se vendrá el valor. Entonces, podemos hacerlo así en este gráfico. Esta fue la primera desviación estándar. Se puede ver que esta de aquí fue la primera desviación estándar. Éste es el segundo. De igual manera, podemos crear muchas más desviaciones estándar aquí solo agregando la desviación estándar a la media. Entonces surge la pregunta, ¿qué estamos tratando de hacer con este gráfico? Cuál es el motivo de este gráfico y qué lo vamos a utilizar en la ciencia de datos. Ahora, volvamos a nuestro ejemplo. En nuestro ejemplo afirmamos que el número de ventas en promedio fue 18 y hubo un incremento o decremento de ocho teléfonos móviles. Aquí. Si trato de dibujar esto, si se puede ver aquí, tenemos desviación media y estándar. Lo que queremos hacer es analizar que si la desviación estándar va a aumentar, si la desviación estándar aumentará, cuánto va a impactar en los puntos. Si incremento la desviación estándar, ¿cuál será el impacto en estos puntos de datos? ¿ Van a acercarse a la media o van a llegar lejos de la media. Lo que hacemos es que en realidad trama esto. Tomamos la media y tomamos la desviación estándar y estos puntos que suministramos a esta función. Y se observa que si suministras a esta función, vas a obtener un gráfico como este. El paso cuatro es realmente dibujar el gráfico para eso. Este es el eje y. Este eje y representa un valor bajo y un alto. Entonces aquí vemos situación menos probable. Y aquí vemos una situación muy probable. Entonces básicamente significa que si el valor de esta función fx es height, si es mayor, significa que el punto es altamente probable que esté más cerca de la media. Entonces todo el punto es que queremos asegurarnos, queremos entender de este gráfico cómo los puntos de datos se están desviando de la media. ¿ Están acercándose a la media o van lejos a la media para este gráfico ayudará. Ahora dibujemos este gráfico. Entonces 18 es la media. Así que sólo voy a dibujar una línea punteada aquí. Ahora si intentas dibujar este gráfico, esta es la primera desviación. Por lo que voy a dibujar otra línea punteada aquí así. Entonces esta fue nuestra primera desviación estándar y esta es la media. Ahora intentemos dibujar aunque los efectos de cohorte, que está aquí. Se observa que se observa un golf en forma de campana . Va así. Cuando toca la primera desviación estándar, comienza a aumentar. Tu nieve sube así. Y cuando llega a la media, empieza a bajar así. Y luego se ennegrece así. Esto aquí se conoce como una curva en forma de campana, y este es el objetivo de f de x, que es esta función. Veamos cuáles son los hechos importantes sobre esta materia. Se observa que cuando suministre estos insumos, la media y la desviación estándar, cuando consigamos esta curva, se absorbe que 34% de todos los puntos de datos estará en este región, que estoy marcando aquí. El 34% la va a mentir y 34% de la línea en esta otra mitad. En total, 68% de todos los puntos de datos se ubicarán dentro de esta primera desviación estándar. ¿ Qué significa esto? Esto significa que si tomo este valor de diez, significa que si el número de ventas fue entre diez y 26, 68% puntos están realmente ahí, que están más cerca de la media. Ahora, tratemos de entender qué va a pasar si tomo un valor aquí, asumamos aquí un valor que yace en la media. El valor está mintiendo sobre la media. Echemos un vistazo a esta fórmula. Si es 91, la media, tiene un valor igual a la media, que es 18.57. Este valor aquí es 18.57 menos 18.57. Esto en realidad se convertirá en 0. Y como hay menos la mitad multiplicada por 0, será 0. Y entonces tenemos e elevado al poder 0 aquí. Todo este valor será igual a 0. E elevado al poder 0 es igual a uno. Lo que obtenemos es solo fx igual a uno por debajo de la raíz de dos pi, entonces el valor del punto de datos es en realidad igual a la media. El valor de uno por dos pi, ya lo he calculado. En realidad es igual a 0.4, que es una restricción aquí. En realidad puedo escribir aquí la función f de x es igual a 0.4 dividida por desviación estándar. Se puede ver como la desviación estándar. Y se puede ver aunque los efectos de función, son inversamente proporcionales entre sí. Ya que son inversamente proporcionales entre sí. El valor de la desviación estándar aumentará. El valor de la desviación estándar aumenta el valor de la ética vamos a titulaciones. Se puede ver desde la curva a medida que la desviación estándar está aumentando, el gráfico está bajando. Este es un punto importante aquí que si la desviación estándar, que básicamente tiene sentido porque la desviación estándar es en realidad la distancia del punto de la media. Aumentarás esa distancia, entonces va a ser menos probable que el punto esté más cerca de la media. Entonces esa es mi disfunción es tener un valor menor. Ahora supongamos aquí, intentemos entender un gráfico más, que es otra cosa aquí, que es muy interesante. Entonces supongamos que en lugar de ello tenemos una desviación estándar de dos. Entonces, en lugar de ocho, tengo una desviación estándar de dos. Asumamos que el valor salió a ser dos. En este caso. Si son dos, sabemos que es menor que este caso. Significa que los puntos están mucho más cerca de la media. Entonces intentemos trazar esto en este gráfico y Lexi, ya sea que nuestra lógica de los puntos que estén más cerca de la media se mantenga verdadera en el gráfico o no. Sabemos que bajo pasos de dibujo el gráfico es simple. Tendremos que sumar la desviación estándar a la media. Por lo que aquí, 18 más dos se convertirán en 2018 menos dos se convertirán en 16. Ahora si quiero dibujar, el gráfico irá así y el gráfico será plano. Pero cuando alcanza la desviación estándar completa, comienza a aumentar así. Pero ahora la pregunta es, ¿ irá más bajo o irá más alto? Este código, ¿irá más bajo? Y luego abajo? ¿ O irá más alto? Y entonces no lo sabes? La respuesta a esta pregunta es la lógica misma. Hay dos lógicas que explican esto. El primero es que 68% de los puntos se observa que va a ocupar aquí. Entonces, obviamente, si fueras a reducir esto, tendrás que aumentar la curva para acomodar esos valores del 68%. Esa es la primera lógica que puedes inferir. Lo que la lógica de sentido común más importante aquí es que si disminuyes la desviación estándar, tienes grados la desviación estándar. Significa que los puntos están más cerca de la media. Si ya están más cerca de la media, entonces van a aumentar. Es muy probable. Se destaca que los puntos están más cerca de la media. Este valor se volverá así y volverá a bajar, la primera desviación estándar, y nuevamente irá plana. Todo esto se trata de estos temas importantes y usarás estos conceptos importantes en el aprendizaje automático. Utilizarás la varianza y aprendizaje automático para que los grupos estén dispersos. Utilizarás tu regularización de dulces también estudiaste el problema del sobreajuste. Básicamente, eso es todo por este video. Gracias por ver.