Aprendizaje automático con Python y Scikit-learn para principiantes | Engineering Tech | Skillshare
Menú
Buscar

Velocidad de reproducción


  • 0.5x
  • 1x (Normal)
  • 1.25x
  • 1.5x
  • 2x

Aprendizaje automático con Python y Scikit-learn para principiantes

teacher avatar Engineering Tech, Big Data, Cloud and AI Solution Architec

Ve esta clase y miles más

Obtenga acceso ilimitado a todas las clases
Clases enseñadas por líderes de la industria y profesionales activos
Los temas incluyen ilustración, diseño, fotografía y más

Ve esta clase y miles más

Obtenga acceso ilimitado a todas las clases
Clases enseñadas por líderes de la industria y profesionales activos
Los temas incluyen ilustración, diseño, fotografía y más

Lecciones en esta clase

    • 1.

      Introducción

      1:02

    • 2.

      ¿Qué es el aprendizaje automático?

      1:19

    • 3.

      Proceso de aprendizaje automático

      2:03

    • 4.

      Tipos de aprendizaje automático

      3:17

    • 5.

      Cómo crear un entorno de desarrollo de Anaconda

      2:39

    • 6.

      Curso de choque de pandas de python

      14:21

    • 7.

      Cómo crear un modelo de clasificación

      15:07

    • 8.

      Cómo salvar el modelo

      4:08

    • 9.

      Cómo restaurar el modelo desde un archivo Pickle

      3:04

    • 10.

      Cómo exportar el modelo al entorno de Google Colab

      4:20

    • 11.

      Cómo entender el marco web de Flask

      4:08

    • 12.

      Cómo crear una API de REST

      5:05

    • 13.

      Regresión lineal

      9:02

  • --
  • Nivel principiante
  • Nivel intermedio
  • Nivel avanzado
  • Todos los niveles

Generado por la comunidad

El nivel se determina según la opinión de la mayoría de los estudiantes que han dejado reseñas en esta clase. La recomendación del profesor o de la profesora se muestra hasta que se recopilen al menos 5 reseñas de estudiantes.

84

Estudiantes

1

Proyecto

Acerca de esta clase

Este curso cubre cómo crear modelos de aprendizaje automático desde cero con bibliotecas de Python y Scikit-learn La estructura de los cursos

  • Proceso de aprendizaje automático
  • Python, NumPy, Pandas
  • Modelos de clasificación usando Scikit-learn
  • Cómo implementar modelos de clasificación con marco web de Python Flask
  • Modelos de regresión con Scikit-learn

Como requisito previo los estudiantes deben tener habilidades básicas de programación y conocimientos de matemáticas de nivel secundario antes de comenzar a cursar este curso. No es necesario tener conocimientos previos de aprendizaje automático.

Conoce a tu profesor(a)

Teacher Profile Image

Engineering Tech

Big Data, Cloud and AI Solution Architec

Profesor(a)

Hello, I'm Engineering.

Ver perfil completo

Habilidades relacionadas

Desarrollo Más Desarrollo Ciencia de datos
Level: Beginner

Valoración de la clase

¿Se cumplieron las expectativas?
    ¡Superadas!
  • 0%
  • 0%
  • Un poco
  • 0%
  • No realmente
  • 0%

¿Por qué unirse a Skillshare?

Mira las galardonadas Skillshare Originals

Cada clase tiene lecciones cortas y proyectos prácticos

Tu membresía apoya a los profesores de Skillshare

Aprende desde cualquier lugar

Ve clases sobre la marcha con la aplicación de Skillshare. Progresa en línea o descarga las clases para verlas en el avión, el metro o donde sea que aprendas mejor.

Transcripciones

1. Introducción: Bienvenido a este curso de aprendizaje automático usando Python y scikit-learn diseñado para principiantes absolutos. Empezará con las puntuaciones de clase en Python y diversas bibliotecas. Después nos sumergimos en la construcción de modelos de aprendizaje automático utilizando scikit-learn. También comprenderás cómo crear un papel arriesgado, tu modelo de aprendizaje automático usando Framework de Flask. Este es un curso completamente Hudson. Como unidad prerrequisito, contar con algunos antecedentes de programación y conocimientos matemáticos de nivel bachillerato. Para comenzar con este curso, no se requiere ningún conocimiento previo de machine learning. Estará explicando todos los conceptos paso a paso y enseñándote a construir modelo de aprendizaje automático desde cero. 2. ¿Qué es el aprendizaje automático?: Entendamos el aprendizaje automático. En el aprendizaje automático, leemos patrones a partir de datos utilizando un algoritmo de aprendizaje automático y luego creamos un modelo. Entonces usamos ese modelo para predecir la salida para nuevos datos. Por ejemplo, si un modelo está capacitado para predecir el comportamiento del cliente, puede alimentar un nuevo perfil de cliente y puede predecir si el cliente escribió BYOD no en función de su edad, salario y otros parámetros. Si un modelo es entrenado para clasificar una imagen, ya sea un gato o un perro. El nuevo alimentado nuevo image_id para predecir si se trata de un gato o un perro. Un análisis de sentimiento Moderno puede leer texto y predecir si el sentimiento es positivo o negativo. Entonces, ¿qué es exactamente un modelo? Por lo que el modelo puede ser una clase u objeto o puede ser una fórmula matemática. ¿ Y cómo se despliega y utiliza el modelo? El modelo se puede almacenar en el sistema de archivos en formato binario. Se puede almacenar en una columna de base de datos, en blog u otros formatos. Cómo se puede tomar el modelo y crear una API de descanso y hacerla accesible a las aplicaciones o qué protocolo HTTP. O simplemente puedes tomar la coordenada modal, el widget en otro programa. 3. Proceso de aprendizaje de máquina: Echemos un vistazo más de cerca al proceso de aprendizaje automático y comprendamos cuándo nuestro modelo está listo para su implementación. En el aprendizaje automático, el algoritmo mira los datos, deriva patrón y crea un modelo. Empecemos de los datos. Normalmente recibimos datos amplios y luego hacemos el preprocesamiento de datos. preprocesamiento de datos implica estapos, estandarización de datos de limpieza de datos de lago, fijación de problemas con valores nulos, registros faltantes, valores desconocidos, y varias otras cosas. Durante el preprocesamiento de datos, también convertimos valores categóricos, dos valores numéricos. Porque los modelos de aprendizaje automático pueden funcionar con numérico. Este paso se puede realizar dentro del límite de aprendizaje automático, o puede ser realizado por otro equipo. Por ejemplo, un equipo que se especializa en Big Data Spark, que es una tecnología muy popular para el preprocesamiento de datos. Para muchos modelos, también hacemos escalado de características. Eso es llevar todas las características a la misma escala para que el modelo no se vea sesgado o influenciado por la característica en particular. Una vez que eso se hace o los datos están listos para algoritmo de aprendizaje automático. Dependiendo del problema que estamos tratando de resolver, podríamos repetir este proceso varias veces para obtener los datos perfectos. Para nuestro algoritmo de aprendizaje automático. Alimentamos los datos a un algoritmo, un modelo. Pero, ¿ese es el modelo final? Una vez que obtenemos un modelo, probamos la precisión. Nos afinamos al modelo para obtener mayor precisión. Si volvemos al paso de preprocesamiento de datos y generamos los datos nuevamente y los alimentamos al algoritmo nuevamente y para obtener el modelo con la precisión deseada. Aparte de la precisión, también comprobamos si los datos están sobreajustados y subajustados. Y una vez que estamos contentos con el modelo, desplegamos un Watson en particular a la producción. Entonces ese es el modelo final y que se utiliza por diferentes aplicaciones. 4. Tipos del aprendizaje automático: Entendamos diferentes tipos de algoritmos de aprendizaje automático. Hablamos sobre el perfil del cliente, aprendiendo del comportamiento del cliente basado en cierto perfil y aplicando ese aprendizaje. Echémoslo a detalle. Entonces cuando decimos perfil de cliente, podría ser países de salario de AID, género. En base a eso, digamos que sabemos si un cliente se compra en el pasado o no. Uno comienza con la compra, euro comienza pero no se compra. Si alimentamos esa información a un algoritmo de aprendizaje automático, podrías mirar estos datos de compra pasada. Mirará estas diferentes características en su comportamiento en términos de compra o no, luego creará un modelo. Aquí la salida es siempre uno o 01 significa compra, 0 significa no compra. Por lo que este tipo de aprendizaje automático se llama clasificación. Cuando estamos prediciendo cierto número de clases a partir de los datos de entrada. Echemos un vistazo a otro ejemplo de clasificación. Cuando alimentamos una imagen a un modelo y el modelo reconoce que es un gato o un perro. Eso también es clasificación. Si creamos un algoritmo de aprendizaje automático con diferentes imágenes que pertenecían a tres clases. Es un gato, un perro, y una vaca. Y si creamos un modelo, eso también es clasificación porque nuestra predicción es siempre conjunto limitado de valores. Existe otro tipo de aprendizaje automático llamado regresión, donde en lugar de predecir una clase, predecimos ciertos valores que podrían ser un valor continuo en cuanto al precio de la vivienda. Podría tener información sobre área, número de recámara, y distancia a la parada de autobús o centro de la ciudad. En base a eso, si tienes que crear un modelo que prediga el precio de la casa, ese tipo de aprendizaje automático se llama regresión, donde predice un valor continuo en lugar de predecir a qué clase pertenece la salida. Clasificación y regresión se denominan aprendizaje automático supervisado porque Algoritmo aterriza a partir de los datos. Se aterriza a partir de conjunto de rasgos y el comportamiento. Información de montaje sobre el precio de la casa para un conjunto de características. O estás ajustando información sobre si el cliente es comprado o no. El algoritmo está aprendiendo de eso. Y luego está prediciendo salida para nuevo conjunto de variables. Esto es aprendizaje automático supervisado, donde le dices al algoritmo qué buscar en un conjunto de datos en particular. Existe otro tipo de aprendizaje automático llamado aprendizaje automático no supervisado, donde se alimentan ciertos datos a un algoritmo, pero no se dice qué buscar. Por ejemplo, podrías alimentar un salario, país, género, y cuánto está girando la persona. Y pide al algoritmo que los agrupe una manera para que puedas tomar ciertas decisiones basadas en eso. Normalmente nuclean los clústeres usando el aprendizaje automático no supervisado, podrías crear diferentes clústeres como los que gastan jóvenes son de altos ingresos, de alto gasto. Y en base a eso, puedes decidir qué grupo de clientes dirigirte en tu campaña de marketing. Esto es aprendizaje automático sin supervisión. En el aprendizaje automático supervisado, dividimos los datos en datos de entrenamiento y datos de prueba. Por lo general, se conservan datos del 70 al 80% para entrenar el modelo, y el 20 al 30% restante se utiliza para probar el modelo. 5. Crea un entorno de desarrollo de Anaconda Spyder: Perdemos Anaconda araña para el desarrollo del aprendizaje automático. Busca descarga Anaconda y accede a su página web. Haga clic en precios. Desplázate hacia abajo, selecciona la edición individual que es gratuita. Haga clic en Aprender más. Haga clic en Descargar y escoja la versión adecuada para su sistema operativo. Una vez descargado, haga clic en el instalador. Excepto que la condición Thomson sólo significa directorio bien seleccionado. Asegúrese de que no haya espacios en el directorio. Te recomendaría seleccionar ambas casillas porque puedes hacer Python NUEVA variables de entorno dalda. Haga clic en instalar. La instalación tarda unos 20 a 30 minutos. Una vez finalizado, haga clic en Siguiente. No necesitamos seleccionar esto para dar clic en Finalizar. Empezó para grabar, nuestra araña almorzó. Spider creará primero un directorio de trabajo donde almacenaremos todos los archivos. Directorio bajo motor de usuario. Este será mi directorio de trabajo. Ve a la esquina superior derecha y selecciona allí directamente. Y eso, eso estaría funcionando directamente. Ahora vamos a crear un nuevo botón. Escribiremos helloworld. Archivo es Python o inferior seleccionado y ejecutarlo. Puedes doblarlo usando reciclado. Y podemos ver helloworld dot console. 6. Curso intensivo de Python NumPy de pandas de Matplotlib: Estaremos cubriendo Python, Numpy, Pandas y matplotlib. En este laboratorio. Ya estás familiarizado con estos pasivos de Python. Entonces puedes saltarte esta conferencia y pasar a la siguiente. Vamos a crear un nuevo archivo usando spider y empecemos a codificar. En Python, puedes declarar variables sin dar tipos de datos. Y puso ahora poblar un valor de cadena que podamos, Python no se quejará. Puede spider variable explorer, se pueden ver todas las variables y su valor. Digamos tres, ser igual a cinco, luego romper en un más b Seleccione este 31. Por lo que podemos ver que la salida se está imprimiendo en Python. Se puede realizar todo tipo de operaciones aritméticas. Python es un tipo de datos llamado lista. Y tú lo declaraste entre corchetes. Y luego especificas una lista de elementos. Y luego puedes agarrar elementos especificando el número de índice. Y el número de índice comienza con 0. Imprimiremos esto. Entonces. Hacer, HACER lo que sea índice uno, y así sucesivamente. Para agarrar el último elemento, especificas minús1. También puedes especificar tres en este caso, pero minús1 también te daría el último elemento. De esa manera cuando la lista es muy larga, puedes agarrar fácilmente el último elemento especificando minus1. Y luego si haces menos dos, te dará el segundo último elemento, es decir 30. Entonces así es como podemos declarar una lista y agarrar diferentes elementos. Y la lista puede tener bastante comunista tipos de datos diferentes. En Python, puedes escribir un bucle dando un colon condición y golpeando enter. En Python, tanto las comillas simples como las dobles están bien. Batidores de espacio y sangría en Python. Entonces si escribimos esto así, le dará el bucle termina cuando Sundance. Ahora si escribo algo aquí que está afuera, si mirar fuera se está imprimiendo el bucle, debate cambiar la condición. Imprimirá ambos. Hay muchas maneras en que puedes escribir un bucle for en Python. Por lo que puedo decir para i en rango diez. Por lo que esto debería imprimir el valor de i está empezando de 0 a nueve. Por lo que estos son los diez valores. También puedes mirar a través de esta lista. Mi alistado, puedes decir para i en mi guión bajo Lista, empate, it, imprimió todos los elementos de la lista. Y hagamos otra operación en la lista, que es escoger todos los valores de la primera lista, multiplicándolos por tres, había estado creando la nueva lista. En Python, declaras función con la palabra clave def. Calcula algunos, digamos a, B. Y nos podemos hacer esta suma. Y ahora podemos llamar a esto pasar dos valores y luego obtendremos la suma. También puedes devolver múltiples valores. Por lo que podemos ver que ambas variables se están poblando. Por lo que deseo puedes devolver múltiples valores desde una función Python para crear un archivo en Python, usar con open y luego escribir algún contenido. Puedes ver mi archivo en el explorador de archivos. Tiene contenido de muestra. Tenga en cuenta que el modo es W aquí. Eso es lo que calificación. Puedes agregar más contenido con un modo de campaña de app. Ejecutemos esto y echemos un vistazo al archivo. Se puede ver más contenidos consiguiendo arte. Pero también puedes trabajar con el modo W. Ahora deberías ver que el contenido nuevo, las cosas pesadas deberían sobrescribir contenido nuevo. Por lo que estos son, podemos crear un archivo en Python. Entendamos ahora NumPy. Numpy es un pasivo popular de Python para la computación científica. En primer lugar necesitamos importar numpy, importaremos numpy como np. Y ahora podemos hacer toda la operación NumPy usando NB. Muchas de las populares bibliotecas de aprendizaje automático, scikit-learn, están diseñadas para funcionar basadas en matrices Numpy. Se puede crear una lista. Declaremos una lista. Y podemos crear una matriz unidimensional a partir de la lista. Saquemos este valor, muestra número uno DRA. Entonces este es un objeto de matriz numpy, ahora creará una matriz NumPy bidimensional. Tiene cuatro filas y tres columnas. Debe crear un armazón bidimensional de arbitraje. Se puede remodelar fácilmente el par de ellos es. Por lo que esta es una matriz de columnas para fila tres. Podemos remodelarlo a dos filas y seis columnas. Ten en cuenta que cuando te reformas, el arabismo original se vuelve a dar forma, puedes almacenarlo de una forma nueva. Tiene dos filas y seis columnas. Se puede remodelar siempre y cuando el número total de elementos coincidan. No se pueden tener dos archivos porque tiene dos elementos. Si remodelamos con, digamos una minús1, crearía una fila y número máximo de columnas. De igual manera, hay que remodelar a una columna y número máximo de bruto posible. Se puede hacer eso especificando minús1 y uno. No tienes que contar cuántas filas o columnas hay. Tendremos esto como nueva edición tres. Entonces así es como podemos remodelar NumPy R a veces está haciendo procesamiento de aprendizaje automático. Podría tener que extraer filas y extraer columnas y hacer algunas operaciones a esta remodelación sería muy útil. Se puede agarrar una porción de la matriz Numpy. Entonces esto significa dame primer sorteo hasta tercera fila pero no intuir la tercera fila. Segunda columna hasta cuarta columna, pero sin incluir la cuarta columna. A ver qué obtenemos. Por lo que la matriz original no se cambia. Vivimos para poblarlo a una nueva matriz y ver la muestra de noticias de salida. Nos pusimos rosados en el índice 12 y la columna en el índice dos, porque no hay columna en el índice tres. Pandas es una popular biblioteca de Python para el análisis de datos. Importa pandas diciendo pandas importando como pd, eso es convincente. Y pandas matrices unidimensionales conocidas como ciudades. Entonces esto es muy claro que las ciudades, es unidimensional. Su ventaja con paréntesis, puedes dar tus elementos y nombre. Por ejemplo, puedo decir 10203040, pero puedo darles una etiqueta. Vamos a comprobarlo. Se puede ver que el índice ABCD, se puede agarrar un límite especificando el número, número índice nuestra perspectiva. Si haces Sample Series dos, obtienes 30. También puedes agarrarlo diciendo ciudades muestreadas para ver. Eso también dará el mismo valor. Declaras un DataFrame, que es una matriz bidimensional usando la función pd dot DataFrame. Y puedes pasar una lista bidimensional y obtendrás un DataFrame. Podemos ver los pandas DataFrame. Y con Pandas, también puedes dar filas y columnas y etiquetar. Deberíamos ahora tener fila uno, fila cuatro, columna dos, columna tres. Y puede agarrar elementos especificando nombre de fila, nombre de columna, o especificando el número de índice para cada fila y columna. Entonces columna tres años, 36912, que es ésta. Y puedes agarrar múltiples columnas especificando ambas columnas. Para agarrar filas, estás pre-especifica una ubicación Lucy y le das a Roden m, obtendrás la fila para agarrar una porción del DataFrame. Se puede especificar una fila de barcos y nombres de columnas y obtener esa persona. Entonces estamos recibiendo la columna dos, la columna tres, la fila dos, fila tres del marco de datos de muestra dos. También puede especificar la ubicación del índice en lugar de liberales para obtener una porción de un DataFrame. Esto es rho 0 todo el camino hasta la fila dos nada incluyendo la fila dos, columna uno, hasta la columna tres, sin incluir la columna tres. Si no especificas nada, obtienes todas las filas y todas las columnas. Y si estás hasta la última columna, dices minús1 negro. Entonces tienes 14710 a 581. Es decir, columna uno, columna dos, y todas las filas. Y dijimos agarrar todas las columnas hasta la última columna. Entonces así es como podemos agarrar todas las columnas y todas las filas, pero excluyendo la última columna. Y un subconjunto de un DataFrame es un marco de datos si es olor a dos diamantes. Si estás agarrando una fila o una columna, podría ser una serie. En Python, puedes usar cinta para comprobar papel de cualquier variable. Puedes convertirlo fácilmente a Pandas invocando valores de punto cuando él los pasivos de aprendizaje automático están diseñados para nuestro Putnam PRA. También lo hace la conversión usando valores oscuros. Esto ahora es una matriz NumPy. Se ven dos corchetes de apertura y cierre. Por lo que es una matriz NumPy bidimensional. Esto se puede almacenar en una nueva matriz NumPy. Esto ahora es una matriz numpy. Agarramos una porción del DataFrame y lo convertimos a un dato NumPy con valores oscuros. Esto convertiría la última columna en un dato NumPy. Veamos un ejemplo de operaciones de filtro en DataFrames. Entonces estamos diciendo aquí, tráeme esas muestras donde los valores de la columna uno sean mayores que para. Donde sea mayor a 48 te da verdad. De lo contrario te dio falso. DataFrame de muestra. Aplicas esa condición en el medio DataFrame. Con Pandas, puedes leer fácilmente los archivos CSV son de hecho get-up file. Y como es el read_csv, leamos un archivo sample.csv de nuestro repositorio. Diría tienda data dot CSV. Pandas cargaría el archivo CSV en un DataFrame. Y si revisamos nuestro DF Ahora, ahí, esa es persecución se ha cargado en un DataFrame. Podemos revisar el expediente también. Por lo que estos son enormes en parte puede cargar fácilmente todas las filas y columnas a un DataFrame. Con df.describe, puede obtener elemento estadístico de video sobre el DataFrame. Al igual que cuántas filas, ¿cuál es la media y la desviación estándar? Puedes obtener información adicional con dF dot info. ¿ Qué tipo de datos y cuáles son las columnas? DF.Loc head te daría las primeras cinco filas. Se puede tomar muestra de un DataFrame haciendo head. Y también puedes especificar cuántas filas no estabas en la cabeza. Por lo que esta premisa get-up tres columnas. Podemos agarrar las dos primeras columnas y convertir ese Vietnam. Ahora vamos al explorador de variables y comprobemos x. Así que son las dos primeras columnas porque excluimos la última columna y se ha convertido en un umpire. Para convertir la última columna, simplemente agarras la última columna. No es necesario especificar el rango. Y la última columna se convertirá en un arbitraje. Es un área unidimensional. Por último, veamos la biblioteca matplotlib. Utilizando matplotlib, se pueden visualizar los datos dibujando diferentes sangres. Spider es aplaude pestaña donde se crearán las parcelas. Importa matplotlib así. Ahora declaremos dos listas. Y trazaremos x e y. tenemos inline-block por defecto, obtenemos una parcela de línea. Cuando tramamos para obtener una trama de dispersión, dices plt.plot scatter. Y obtendrás una trama de dispersión. Puedes darle etiquetas a tu sangre y también una gráfica de muestra de título, eje x e y. Vamos a crear una trama para nuestros datos que leemos del archivo CSV. Crearemos una nueva trama. Y X6 es que apalancemos el eje y tendrá salario, y agarraremos columnas y lo pasaremos a la función de trama para obtener el bloque. Por lo que se puede ver trama para nuestros datos la cual será de ayuda desde el archivo CSV. Este es un ejemplo de un histograma. Entonces esto se trata de Numpy, Pandas, Matplotlib y algunas Python básicas. Esto no es todo lo que hay ahí fuera en esos pasivos. No obstante, este conocimiento es suficiente para que empiece con la programación de aprendizaje automático usando Python. 7. Crea un modelo de clasificación con el algoritmo KNN: Contamos con los datos de compra de la tienda. Contamos con datos para diferentes clientes. Ahí está en su salario y si compran o no. partir de estos datos, construiremos un modelo de clasificación de aprendizaje automático, que predice si un nuevo cliente con cierta edad y salario compraría o no. Entonces en esto está en sueldo o variables independientes. Construiremos un modelo de clasificación de aprendizaje automático usando KnN, que eliminará los datos de partes distorsionadas. Entendamos al vecino k-más cercano o al algoritmo de aprendizaje automático K-nN a través de un ejemplo muy sencillo. Imagina que tenemos gatos y perros mostrados en este diagrama. En el eje x tenemos peso y en el eje y tenemos altura. Todos los verdes son gatos porque obviamente tendrían menos peso y laicite y todos los azules son perros. Y si conocemos la altura y el peso de un animal nuevo, digamos este nuevo en el centro. ¿ Podemos predecir si es un gato o un perro? Algoritmo Knn? Además de eso, base en las características de los vecinos más cercanos. Poco k valor es de cinco. Nos fijamos en los cinco vecinos más cercanos pueden, en base a eso, decidimos en qué clase el animal podría ser abrumado dos. Por ejemplo, en este caso, hay tres verdes y dos azules. Eso significa que hay tres gatos y perros que tienen características similares a las del nuevo animal. Por lo que este AnyVal es más probable que sea un gato porque la mayoría de los animales pertenecen a la clase de gatos en el vecindario más cercano. Por lo que se trata de k técnica vecina más cercana donde el resultado se pronostica en base a las características mostradas por los vecinos más cercanos. Y el kava Louis típicamente cinco. Apliquemos esta técnica en los datos de compra de la tienda. Tenemos los datos en la carpeta del proyecto. Podemos arañas hasta para seleccionar tu carpeta de proyecto aquí. Y luego podemos ir a los archivos y ver todo el código fuente y los archivos. Por lo que estos son los datos de compra almacenados que tenemos usando los cuales construirán un modelo de clasificación de aprendizaje automático. Vamos a crear un nuevo archivo Python. Will nematodos ML Pipeline. Importaremos las bibliotecas estándar. Estamos asumiendo que está familiarizado con NumPy y y pandas, lo cual es un requisito previo para este curso. En spider, tan pronto como escribes obtienes todos los errores o advertencias. Dice que no estamos usando pandas Numpy, está bien. Estaremos escribiendo el código para el mismo en breve. Ahora vamos a cargar los datos de compra de la tienda a un DataFrame de Pandas. Nosotros lo vivimos datos de capacitación, dataframe, que almacenarán los datos de compra de la tienda. Tenga en cuenta que no estará limpiando con todos los datos. Tendremos algunos registros para entrenamiento y para pruebas, que veremos a continuación. Pero los pandas de datos de capacitación DataFrame almacenarían todos los datos del archivo CSV. Puede ejecutar todo el archivo seleccionando el ciclo, o bien puede ejecutar la selección. Ejecutemos la selección. Se puede ir al explorador variable, click en datos de limpieza y podemos ver que es salario las compras se han cargado al dataframe de datos de capacitación. Consigamos algo de información estadística, datos de limpieza de embarcaciones. Podemos ver diversa información estadística sobre los datos. ¿ Cuántos registros? Tenemos, 40 registros. Podemos ver la media, desviación estándar y algunas otras estadísticas sobre los datos almacenarán las variables independientes en un IRA. Tomará rose hasta la última columna y los almacenó en una variable dependiente X, que es una matriz NumPy. Hagamos eso. Por lo que esto debería poblar a los agentes asalariados. Siguiente. Vamos a la variable explorer y checkout. Podemos ver que el sueldo del agente ahora se han poblado en matriz NumPy va a poblar la columna de compra, que es la predicción hacia y en la matriz Numpy de distancia. Por lo que esto debería poblar la última columna y almacenarla de manera también. Esta es nuestra y, que es la variable dependiente o la que estamos tratando de predecir. Tenemos ayudas en salario y matriz x NumPy. Y tenemos y, que es el dato de compra. Por no comprado. Uno es donde las fiestas. Por lo que eso se almacena en una matriz Numpy. Ahora tenemos las variables independientes y las variables dependientes en dos matrices Numpy separadas. A continuación, el uso de scikit-learn separará los datos en conjunto de entrenamiento y conjunto de pruebas. Y vamos a enorme relación 80-20, 80% de los datos para entrenamiento y 20% para pruebas. Scikit-learn es una biblioteca muy popular para el aprendizaje automático usando Python. Scikit-learn viene preinstalado con araña Anaconda. Si estoy usando un entorno de Python diferente, podría tener que instalar scikit-learn usando pip install skLearn style es el comando para instalar cualquier biblioteca de Python. Anaconda spider viene con scikit-learn, numpy, pandas, y muchas otras bibliotecas que se requieren para la competencia científica y el aprendizaje automático. Estamos usando scikit-learn, train, test split class para dividir el conjunto de datos en dos partes. Ahora una vez que hagamos esto, dejamos el set de entrenamiento y el set de prueba. El conjunto de capacitación tendrá 32 registros. Dijimos que el 80% de datos se utilizarán para la capacitación. Por lo que hemos sumado 40 registros de los cuales 32 se utilizarán para la limpieza. Entonces esto es extremo. Y tren de peso 32 registros para negociación. Y x-test tiene registros de calor. De igual manera peso esto tendrá ocho registros. Estos son los datos para probar el modelo. A continuación, presentaremos habilidad que datos. Entonces eso es todo, el salario está en el mismo puente y el modelo de aprendizaje automático no podría verse influenciado por el salario, que está en un rango más alto. Vamos a ejecutar esto. Ahora podemos ver los datos de escala. escalador estándar distribuye los datos de una manera para que la media sea 0 y la desviación estándar sea una. Ahora tanto las A's como el salario o en el mismo puente. A continuación, construiremos un modelo de clasificación utilizando la técnica K vecino más cercano. Tendrá cinco vecinos. Perdemos las métricas de Minkowski. Para construir este clasificador. Las métricas de Minkowski funcionan en base a la distancia euclidiana entre dos puntos. La distancia euclidiana no es más que la distancia más corta entre dos puntos. Es así como decide qué vecinos son los más cercanos. A continuación se ajustarán los datos de entrenamiento al clasificador para limpiarlo. Entonces aquí es donde se está drenando el modelo. Este es el objeto clasificador el cual se capacita con ciertos datos de limpieza, que es, es salario es la variable de entrada, head compra la variable de salida. El clasificador es nuestro modelo. Comprobará rápidamente la precisión del clasificador tratando de predecir. Para los datos de prueba. Clasificador tiene un método de predicción que toma una entrada de matrices Numpy y devuelve como salida en otro número. Entonces esta es nuestra x y este es el peso. Y veamos cuál es la predicción. Wavelet seis set para un récord. El modelo predijo con precisión. Para todos los registros. También podemos comprobar la probabilidad de predicción para todos los datos de prueba. Aquí podemos ver que dondequiera que tengamos más de 0.5 de probabilidad, el modelo está prediciendo que el cliente adeudado por el cliente no compraría. La movilidad es útil cuando le encantaba ordenar los datos de la predicción y los clientes tenían más probabilidades de comprar. El historial. El tercero es más probable que compre porque las probabilidades 0.8 o 80% verificarán la precisión del modelo usando la Matriz de Confusión. La Matriz de Confusión es una técnica estadística para predecirlo cortesía de un modelo de clasificación. El modo en que funciona es bastante sencillo. Si el valor real es uno y el modelo predijo un proyecto PRINCE2. Perdemos 10, es falso negativo. De igual manera, 00 es verdadero negativo y 01 es falso positivo. También se puede representar en este formato. Por lo que una vez que conocemos los cuatro tipos, podemos determinar fácilmente la precisión. Por lo que no pudieron ver es verdadero positivo más verdadero negativo forma dividida. Los cuatro tipos de predicciones. No importa qué técnica de clasificación esté utilizando, puede utilizar KnN o cualquier otra Matriz de Confusión para calcular la precisión del modelo. Aprender cíclico y otras bibliotecas de aprendizaje automático. Las clases incorporadas a la matriz de confusión de bits Jen permiten a Julian datos pronosticados. Vamos a crear las métricas de confusión pasarán el valor real del conjunto de pruebas, es decir, la prueba de peso y los valores pronosticados, es decir, el pan blanco. Y obtener las métricas de confusión de la clase de matriz de confusión de tierras cíclicas. Ir al explorador de variables araña. Y podemos ver la matriz de confusión por aquí. Tenemos tres verdaderos negativos. Para verdaderos positivos. Sólo un falso negativo y falso positivo. Entonces este modelo es muy bueno lo, porque tenemos sólo un falso positivo o negativo de ocho registros. Calculemos la precisión del modelo. Y vamos a imprimir el quiescente 0.875. Por lo que nuestro modelo es de 87.5% ocurrió. Por lo que este modelo puede predecir si un cliente con un sueldo de agente en particular, adiós o no con 87% de precisión. También puedes obtener el informe de clasificación intacto para entender más sobre la revocación de precisión y la puntuación F1. Por lo que hemos tomado esto hacia los datos de compra y hemos creado un clasificador que puede predecir si alguien lo haría por R nada. Ese modelo o clasificador se puede utilizar para predecir si un cliente con un salario de agentes en particular sería BYOD nada. Entonces vamos a tratar de predecir si un cliente con H portero Sal día a día 1000 buen biochar. Tenga en cuenta que este modelo toma una matriz NumPy y devuelve un compare Europa para crear una matriz Numpy a partir de los agentes sueldo, característica habilidad que datos, y luego alimentarlo al clasificador. Debido a que el clasificador está entrenado en datos de habilidad característica debería haber sido camisa a los datos que está ajustando también es función escalada. Misma técnica, que es escalador estándar En nuestro caso. Y la predicción es 0, el cliente o no por alguien con 40 años. Y celular D2, D3 presupuesto no compraría es. Pero este modelo, podemos comprobar la probabilidad de la predicción para los mismos datos. Clasificado como parámetros predictores utilizando los cuales se puede obtener la probabilidad. Por lo que la probabilidad es de 0.2 o 20%. Es por eso que el modelo establecido al cliente no compraría. Tratemos de predecir para un cliente que tiene 42 años y sueldo 50 mil. Esta vez el modelo configuró al cliente o comprador. Echemos un vistazo a la probabilidad. Es 0.880%. Por lo que hay 80% de posibilidades de que el cliente compre un modelo de aprendizaje automático, codicioso. Es un modelo de clasificación. Se puede predecir si un cliente con un determinado agente celular D lo haría por R nada. Entonces este es el clasificador que tenemos, que es el modelo, y estamos ajustando datos a este modelo para obtener salida. A continuación se verán diversas técnicas de despliegue de modelos. Cómo podemos guardar este modelo e implementar este modelo en otros entornos, incluyendo algunos de los entornos de proveedores de nube. 8. Guardar el modelo y el escalador: Hemos construido un modelo de clasificación KnN, que puede tomar es en salario como parámetros de entrada y predecir si un cliente en particular con ese sueldo agentes sería por R nada. Entendamos ahora cómo guardar el modelo que hemos creado. Para recapitular el proceso de tendido modelo, leemos 40 registros del conjunto de datos e identificamos 32, es decir, 80%. Para la capacitación. Éstos están representados aquí. Y luego usamos escalador estándar para escalar los valores para que la media se convierta en 0 y la desviación estándar se convierta en una para ambos agentes sueldo. Para muchos modelos se requiere matar. De lo contrario el modelo podría verse influenciado por valores que se encuentran en el salario de rango más alto en nuestro caso. Y puedes usar escalador estándar o cualquier otro mecanismo de escalado. Una vez escalados los datos, alimentamos eso al modelo en un formato de matriz NumPy bidimensional. Y obtenemos una salida que también es una matriz numpy con una columna. Internamente, el modelo aplica la técnica KnN. Se mira la salida para cada registro e intenta optimizar la fórmula para que el liquidus general subiera. Hay varias formas en que podemos guardar el modelo. Para algunos podemos extraer la fórmula. Y en algunos casos tendremos que guardar el formato binario de modelado para poder restaurarlo y luego usar ese modelo para predecir la salida para nuevo conjunto de datos. Eso lo veremos en acción en breve. Si alguien quiere predecir con The Model, dos cosas. No es necesario el modelo clasificador. Y también necesitarían el escalar estándar si usan alguna otra técnica para caracterizar habilidad los datos, que el modelo podría no dar un resultado correcto porque hemos utilizado un asesino de estándares en particular. También lo exportaríamos junto con el modelo. Con el modelo clasificador y el escalador estándar, haga la predicción en cualquier entorno Python. Veamos cómo podemos guardar y exportar estos objetos a otros entornos. Python es una técnica llamada decapado, mediante la cual se pueden almacenar objetos Python en formato serializado o de secuencia de byte. En otro entorno de Python, se pueden serializar estos objetos y utilizarlos en su código. Entonces vamos a entender cómo podemos encurtir el modelo y escalador estándar se construyeron en la unidad de laboratorio anterior, importamos el archivo de pasivos picking, modelo KnN. predicen están dispuestos clasificador limitado punto pepinillo. Si no queremos decir qué técnica utilizamos para crear este modelo, simplemente podemos nombrarlo como clasificado o más rápido. Y usando el método de puntos en escabeche, podemos almacenar el objeto clasificador que creamos anteriormente en impresión a este archivo clasificado o pepinillo. De igual manera, podemos despejar el archivo de pepinillos para este asesino. Almacenará el escalador estándar En un archivo de pepinillo CDART. Aquí, wB significa que el archivo está abierto para escritura y en modo binario. Ejecutemos este código. Y podemos ir al Explorador de archivos. Y sí ve que clasificado o pepinillo y kilobit ACWP creado. También puedes verificar lo mismo en el Explorador. Por lo que estos dos son archivos binarios o serializados para nuestro clasificador y objetos escalares estándar. En este laboratorio, hemos visto cómo guardar el escalar estándar borderland en formato binario usando Python pick celebriity. A continuación veremos cómo usar los archivos en escabeche en otro entorno Python. 9. Restaurar el modelo desde el archivo de Pickle y usarlo de forma local: Hasta ahora hemos visto cómo crear un modelo y almacenarlo en el formato en escabeche. También hemos almacenado los objetos escalares estándar en formato binario usando la responsabilidad del picker. A continuación, veremos cómo utilizar los relés de DC y utilizar estos objetos de pepinillo en otro entorno de Python. Podría ser en las premisas o podría estar en la nube. Primero intentará usar los archivos de pepinillo al entorno local. Vamos a crear un nuevo archivo Python. Lo llamaremos uso model.predicción. Primero necesitamos importar las bibliotecas. También necesitamos importar NumPy. A continuación vamos a DC relés y almacenar el clasificador en un objeto local en el nuevo programa usaremos el método de punto en escabeche Lord para cargar el clasificador ese vehículo usando formato binario de lectura. De igual manera leerá el escalar a un nuevo objeto. St.Petersburg se cargará a objetos escalares locales. A continuación, usaremos el clasificador local y el escalar local para predecir si un cliente con 40 años y de repente 20 mil adiós o no. Antes de ejecutarlo deja despejar todas las variables antiguas. Se puede hacer clic aquí y eliminar variables antiguas. También puedes borrar la consola haciendo clic con el botón derecho y haciendo la consola clara aquí. Ahora ejecutemos este programa. Ahora podemos ver esa nueva predicción y que es 0, que está coincidiendo con la predicción anterior. Tomemos la nueva probabilidad. Esto es nuevamente 0.2 para el cliente con 40 años y de repente 20 mil y retrasa el objeto clasificador y el objeto escalar local. Entonces hemos tratado de predecir si un cliente o comprador no utiliza los objetos relacionados de esta D en un nuevo programa Python. Por lo que este programa no sabe nada sobre cómo se construyó el modelo o comercializarse. Recogió el escalar de modelado de los archivos de pepinillo y usarlos para predecir. También podemos tratar de predecir por cada 42 y sueldo 50 mil. Antes obtuvimos 80% de probabilidad. Deberíamos ver la misma salida aquí, 0.8, y la predicción es una. Compra de clientes. Entonces ya has visto cómo usan los archivos Pickle en otro Programa Python, que no sabe nada sobre cómo se construyó el modelo y cómo se capacitó el modelo. Probamos esto en un entorno local. A continuación, lo probaremos en un entorno de nube. 10. Exportar el modelo al entorno de Google Colab: A continuación llevaremos los archivos en escabeche al entorno de collab de Google y trataremos de predecir su. Google collab es como un entorno de Júpiter con alguna personalización visual. Y tiene muchas bibliotecas preconstruidas para el aprendizaje automático y el aprendizaje profundo. Simplemente puedes iniciar sesión usando tu jimmy lady o Google lady y luego crear un nuevo cuaderno y comenzar a codificar. Vamos a crear un nuevo cuaderno Ya he iniciado sesión. Dará nombre a este archivo. Podemos ir al ajuste de herramientas y cambiar el tema a oscuro o adaptativo. Vamos a enviarlo a la oscuridad. Colombia es como un entorno portátil de Júpiter. Simplemente puedes escribir código NDA, pulsa Shift Enter. Verás la salida. O puede hacer clic en el icono Ejecutar aquí y ejecutar el programa. Y puedes hacer clic con el botón derecho Eliminar pecado o simplemente puedes hacer clic aquí y eliminar venta. En Kuulab encontrará la mayoría de las bibliotecas de aprendizaje automático y deep learning preinstaladas. Si algo no está instalado, puedes hacer pip instalar aquí e instalarlo. Wallabies como entorno Linux. Puedes hacer signo de exclamación Ellis y ver todos los archivos que están presentes aquí. Actualmente, no hay nada que sea una carpeta de datos de muestra dentro de tu momento colombino. Y todos los archivos se guardan en la Google Drive. Transferirá esto para recoger tus archivos al momento colombiano. Iremos a nuestro repositorio de GitHub. Y ya hemos subido los archivos de pepinillo a este repositorio en GitHub, despliegue de modelos ML cualificado futurista. Seleccione el clasificado o típico. gran medida se puede descargar y copiar la dirección del enlace, ir al colombiano Robert y hacer un Linux W get. Y la ruta se asegura de que la ruta del archivo sea fila. Obtén el archivo, haz ls para ver si el archivo ha sido copiado o no. A continuación, obtengamos el escalador estándar. Haga clic en un pepinillo CDO, ¿verdad? T puede descargar, copiar dirección de enlace, no hacer un W GET y obtener el archivo de pepinillo escalador estándar. Ahora podemos ver tanto los archivos en escabeche están disponibles en el momento colombiano. Hemos subido la moral al momento colombiano. Aquí en este cuaderno. No sabemos cómo se construyeron los modelos están entrenados, pero podemos usar estos modelos para hacer predicción similar a la que has hecho antes. Crear un objeto clasificador. llamaremos colapso clasificador. Crear un objeto escalar. Y usaremos ese clasificador y erudito para predecir. Simplemente escriba el nombre de la variable y pulse Enter. Ya veremos la salida. Entonces la predicción es 0. Es lo mismo que lo que obtuvimos antes para un cliente con 40 años y de repente 20 mil obtendrán probabilidad de ir también. Se puede imprimir la misma celda también. Se imprime el último terreno. Por lo que estamos viendo 20% de probabilidad de que alguien con 40 años y sólido 20 mil compre el producto haga lo mismo para los 42 años y san-serif 50 mil. La predicción es una. La probabilidad es de 0.6 porque no pusimos el borde derecho. Vamos a correr de nuevo. Esta vez estamos consiguiendo 80. Es así como podemos entrenar modelos en un solo entorno y llevarlos a un entorno completamente nuevo y ejecutarlos muertos. Se le está dando el modelo a otro equipo o a un tercero. No sabían cómo construiste entrar en tu modelo todo el ruido. Es un clasificador, toma valor en cierto formato. Y Gibbs duda. 11. Comprender la web de Flask web: A continuación entenderemos cómo exponer el modelo de aprendizaje automático con reposo API reinicia por representante Transporte Estatal. El descanso es una forma popular de datos extensos en el mundo real. Se puede construir una aplicación usando Java, Scala, o cualquier otra tecnología, y se puede exponer con una interfaz de descanso al mundo exterior. Y de hecho, el cliente quiere usar su aplicación o acceder a los datos, pueden hacerlo usando datos de muñeca se extiende típicamente en formato XML o JSON sobre protocolo HTTP. Flask es un marco popular para construir Rest API para una aplicación Python. Echemos un vistazo primero a una aplicación API de descanso frasco helloworld. Después nos sumergimos en exponer nuestro modelo de aprendizaje automático a la API del resto. En spider creado nuevo archivo Python. Lo llamaremos frasco helloworld. Para construir un matraz Christy EPA importar Frasco y el objeto de solicitud asociado de la biblioteca de matraz. Puedes ir a la documentación de Flask para aprender más sobre cómo crear una aplicación de Flask. Por ahora, solo sigue esta sintaxis y con unas pocas líneas de código, puedes construirla como TPA. Declararemos un modelo de clase Endpoint. Y quién recibirá solicitud de post en esta aplicación. Usando post, puedes enviar algunos datos a la API resto y recibir una respuesta. Si usas Git, solo puedes recibir una respuesta. Tengamos una función hola mundo. En este ejemplo, enviaremos los datos en formato JSON y los recibiremos en formato JSON. Aquí, cualesquiera que sean los datos que estemos recibiendo la solicitud en formato JSON, lo estamos almacenando en solicitud datos de subrayado pasarán el nombre del modelo en la solicitud el cual recuperará y se mostrará al usuario. Cualquiera podría posar el nombre del modelo invocando este último punto de modelado muestra una cadena simple que está solicitando para una interpolación de cadena con Python. Estamos exhibiendo ese modelo Nim. Ahora agreguemos un método principal. Especificará el número de puerto para que cuando se inicie la aplicación, ejecute ese puerto en particular. Lanzemos la aplicación en el entorno local. Si alguien quiere usarlo, lo invocará con este modelo de clase que eres. Ahora a correr. Se dirigirá al símbolo del sistema e iniciará el programa. Echemos un vistazo a la premier del símbolo del sistema. Ahora empecemos. Aunque. Programa Helloworld, darpa ahora se inicia. Hemos creado una API de descanso simple que se está ejecutando en el puerto 8 mil. Veamos ahora cómo enviar datos a esta app y recibir una respuesta. Crearemos un nuevo archivo Python. Lo llamaremos restaurante a scope plant dot. Ya que estarás enviando los datos en formato JSON, vamos a importar JSON First. También necesitamos importar la biblioteca de solicitud. Solicitud es la biblioteca HTTP. Y podrías simplemente rondar sobre él y leer más sobre esto. Utilizando solicitudes. Se puede enviar solicitud HTTP. Ahora vamos a tener una variable para la URL. En el nombre del servidor. Podemos agregar localhost, o podemos poner la dirección IP que se mostraba en la consola, 1270018 mil, que está apuntando al host local, tendrá datos de solicitud muy simples en formato JSON con una clave y un valor. Y estamos pasando KnN es la extremidad modal. Ahora enviaremos una solicitud de post, posiblemente URN ingrese datos en formato JSON. Y del objeto de respuesta, podemos extraer el texto e imprimirlo. Ahora vamos a ejecutarlo y ver la potencia de salida. Ahora podemos ver la salida que estás solicitando para un modelo KNN, cual viene de gracia TPA. 12. Crea una API REST para el modelo de clasificación: A continuación crearemos una lista EPA para el modelo de machine learning para que cualquiera pueda invocar el riesgo EPA y hacer predicción. Vamos a crear un nuevo archivo Python. Lo llamaremos clasificador servicio descanso punto pi. Copiemos el código de la aplicación HelloWorld Python. Y vamos a importar pepinillo, importar numpy dominará los archivos de pepinillo. Usaremos los clasificadores locales para predecir los datos. Para cualquier seto. Y salario recuperará el sueldo del agente de la solicitud representará primero h, después el salario. Ahora estamos pasando gays en variables de borde salarial al clasificador para predecir. Y cualquiera que sea la predicción que tengamos, la devolveremos. El pronóstico es y pasar la variable de predicción en diferentes momentos. Ahora ejecutemos esta aplicación. Diremos clasificador Python, mago rr. Por ahora está funcionando en puerto 8 mil. Despejemos la clase Machine Learning. Lo llamaremos cliente de descanso de fusión. Copiemos el código desde aquí. Y en lugar de tener KnN mortal, ahora, dos parámetros que apalancamos, que es un valor numérico, digamos 40. Y nos encanta el salario, 20 mil. Estamos pasando dos variables ahora. Y con estas dos variables, vamos a llamar al método de predicción clasificador para obtener la predicción donde va a haber 0 o uno. Y en base a esa predicción, volver a aunque cliente ahora, vamos a ejecutarlo. Lo ejecutaremos en un puerto diferente. Despejemos la consola y estamos ahí para imprimir declaración por sueldo de agente para que podamos saber qué es la locura o ser pasado. Vamos a correr y ver si todo está bien. Se compiló bien. Ahora lo ejecutemos desde el símbolo del sistema. Está funcionando en puerto 8 mil hasta ahora. Y iremos al cliente de correo y lo llamaremos con edad para los 20 mil Sangre. El pronóstico es 0. Si lo llamamos con edad 42 y salario, 50 mil registrados, la predicción es una. En lugar de dos predicciones finales, también podemos determinar la probabilidad o riesgo TPA. Podemos ver que la predicción es de 0.8. Y si lo cambiamos a 4020 mil, deberíamos conseguir 0.2. Hemos visto cómo crear una API de descanso utilizando cuáles son los clientes pueden acceder al modelo de aprendizaje automático y obtener la predicción. Y estos clientes ahí podrían estar ejecutándose en Python, Java, o cualquier otro idioma. Pueden enviar datos a través de HTTP y recibir una respuesta a lo que es el PIB. Entonces cuando hagas una llamada de descanso no sólo sobre cómo se escribe la aplicación. Es así como podemos exponer tu modelo de aprendizaje automático de Python a otras aplicaciones que se escriben usando Python. 13. Regreso lineal: Entonces, entendamos la regresión lineal a través de un simple ejemplo. A diferencia de la clasificación donde predecimos la clase de la salida. Aquí predecimos valores continuos. Por ejemplo, si este gráfico muestra cuál es el precio del automóvil para un cierto número de cilindros, entonces dado un número de cilindros, ¿podemos predecir el precio del automóvil? Este tipo de predicción se llama Regulación. Ahora dados estos puntos de datos, ¿cómo determinamos el precio del automóvil de un automóvil nuevo para un cierto número de cilindros? Usando la regresión lineal, podemos resolver fácilmente este problema. regresión lineal no es más que tratar de encontrar la línea que mejor se ajuste a estos puntos. ¿ Y cómo determinamos esta línea? Se calcula en base a una fórmula llamada Y equivale a un plus bx, donde a es la intercepción y b es el coeficiente de la línea. Ahora para ello necesita nuevo punto, si conocemos el valor x, entonces podemos determinar fácilmente el valor y mediante el uso de esta fórmula. Scikit-learn y otras bibliotecas de aprendizaje automático, te brindan una clase usando la cual puedes alimentar diferentes puntos de datos y obtener esta agresión o el predictor. ¿ Cómo determina el modelo la línea mejor ajustada? ¿ Y cómo sabemos la exactitud de la predicción? De modo que eso se hace mediante un concepto simple llamado r-cuadrado, que también se conoce como coeficiente de determinación. Lo que esto significa es lo buena que es la línea en comparación con la línea que está representada por el valor medio de todos los puntos. Por ejemplo, si este es el valor medio de todos los puntos de datos, también podemos predecir el uso de este valor medio. Pero si estamos llegando con una nueva regresión lineal de ancho de línea, necesitamos ver qué tan bueno es ese carril en comparación con esta línea. Ahora calcular el concepto de valor R-cuadrado es simple. Se calcula cuál es el error para cada uno de los puntos. Eso significa ¿a qué distancia está la línea fuera del valor real? ¿Para algún punto? Si este es el valor real, el puntiagudo con la línea roja vertical intercepta el predictor es el valor pronosticado. El distancia en rojo representa la pérdida o el error en la predicción. Calcula la pérdida para cada punto. Haz un cuadrado de eso, y sumalo, obtienes la suma de residuos que se muestra aquí en el numerador. De igual manera, calculas qué distancia está la línea media del valor real que se representa aquí en verde. Entonces eso es suma de cuadrados arriba totales bajar el error menor es el valor de suma de cuadrado de residuos. Por lo que el numerador tenderá a 0. Cuando el modelo se vuelve más preciso. Eso significa que el valor R cuadrado estaría más cerca de uno para un modelado de mayor precisión. Por lo que más alto el cuadrado de la parte de la ventana mejor es la precisión. Y R-cuadrado nunca podrá Maxwell bucle uno. R-cuadrado también se conoce como coeficiente de determinación. Puede o no recordar la fórmula exacta de R-cuadrado. Pero para cualquier modelo, encontrarás un método para obtener el valor R-cuadrado. Hollywood para comprobar es si está cerca de uno o no. Si el valor es cercano a uno, entonces sabes que tu modelo es muy preciso. Apliquemos este concepto y resolvamos un caso de uso. Después veremos cómo extraer fórmulas y luego usar la fórmula para predecir la salida para un nuevo conjunto de valores. Tenemos un nuevo conjunto de datos llamado house reza dot csv. Por lo que se trata de dos campos, distancia y precio. Por lo que la distancia representa cuál es la distancia de la casa del centro de la ciudad y, y representa cuál es el precio de la casa. Entonces como puedes ver, son mayores la distancia más baja es el precio. Ahora, ¿cómo calculamos cómo los aerosoles de una casa nueva, que se encuentra a una distancia particular del centro de la ciudad. Necesitamos construir un modelo de aprendizaje automático utilizando la técnica de regresión lineal, cual aprendes de estos datos y crear un modelo utilizando el cual podamos predecir jugadas house para un nuevo conjunto de datos. Importar las bibliotecas estándar. Esta vez también importaremos matplotlib para que podamos trazar el precio de la casa y la distancia. A continuación, carguemos el conjunto de datos en un DataFrame de Pandas. Entonces como se puede ver, el anuncio cargado a los pandas DataFrame. Vamos a describirlo para obtener algo de información estadística. Podemos ver que hay 40 registros y la media, desviación estándar y otros valores. Separemos las variables independientes y dependientes. X tendrá la distancia al centro de la ciudad y por qué dejaste el precio de la casa. En este punto. También podemos trazar el precio de la casa y la distancia para ver cómo se ve en un gráfico. Podemos ver que hay una relación lineal. A medida que aumenta la distancia, los precios de las casas bajan. Y eso es de manera lineal. Ahora usando regresión lineal tendrá que encontrar una línea que mejor represente estos puntos. Y el uso de eso predecirá la salida para nuevos puntos de datos. Lo comentaremos por ahora. Vamos a correr de nuevo. Ahora usando scikit-learn train test split creará los datos de entrenamiento y los datos de prueba usando 32 registros para entrenamiento y ocho registros para pruebas. Scikit-learn proporciona en clase de regresión lineal utilizando cual podemos crear un objeto de regresión que será nuestro modelo. Por lo que esta la agresión es la línea o el modelo que se ha entrenado sobre los datos de entrenamiento. A partir de la regresión, podemos calcular fácilmente el valor R-cuadrado. Se cuenta con un método de puntuación que nos da el R-cuadrado. Imprimirá el valor R cuadrado es 0.807. Desde el regresor, podemos determinar fácilmente el coeficiente de interceptación para nuestra intercepción es 610710. Consigamos ahora el coeficiente. Coeficiente es menos 72635 porque nuestros precios de las casas bajando a medida que aumenta la distancia. Entonces ahí es donde estamos un solo coeficiente negativo. Ahora, cualquiera que quiera usar nuestro modelo puede tomar esta intercepción y coeficiente y obtener el precio de la casa. No necesitamos enviarles la clase regresiora en formato binario ni exportar ese modelo. Todo lo que necesitamos para compartir es la fórmula. Por lo que nuestra fórmula se convierte en Y igual intercepción más coeficiente multiplicado por x. Así que es la secuencia 610710 menos 72635 multiplicada por la distancia primero predecirá usando el método predictor, alimentará los datos de entrenamiento al regresión y obtener la predicción. Entonces este es el precio predicho de la casa. Comparemos con el lugar del carcelero. Podemos ver que para algunos casos está muy cerca. En algunos casos está poco alejado del precio real. Estos son los precios reales, estos son los valores pronosticados. También podemos trazar el valor predicho y el valor real. Se creó una gráfica dispersa para los valores reales por período de valor predicho trazado de línea L. Por lo que esta línea representa nuestro grado o nuestro predictor. Ahora para cualquier nuevo punto, podemos determinar fácilmente el precio de la casa dada la distancia a los ciudadanos. Ahora predecimos el precio de la casa para una casa que está 2.5 millas del centro de la ciudad. El valor se acerca alrededor de 1449100 a 0. También podemos obtener la misma salida usando la fórmula y iguala intercept plus coeficiente multiplicado por el valor X. Entonces conseguimos cuatro a 91 a 0. Ahora para compartir este modelo con cualquiera, podemos compartir la fórmula. También podemos crear archivos de pepinillo y crear API de descanso, pero esta es una de las opciones que está disponible para exportar modelos de regresión lineal.