Aprendizado de máquina com Python e Scikit-learn para iniciantes absolutos | Engineering Tech | Skillshare
Menu
Pesquisar

Velocidade de reprodução


  • 0.5x
  • 1x (Normal)
  • 1.25x
  • 1.5x
  • 2x

Aprendizado de máquina com Python e Scikit-learn para iniciantes absolutos

teacher avatar Engineering Tech, Big Data, Cloud and AI Solution Architec

Assista a este curso e milhares de outros

Tenha acesso ilimitado a todos os cursos
Oferecidos por líderes do setor e profissionais do mercado
Os temas incluem ilustração, design, fotografia e muito mais

Assista a este curso e milhares de outros

Tenha acesso ilimitado a todos os cursos
Oferecidos por líderes do setor e profissionais do mercado
Os temas incluem ilustração, design, fotografia e muito mais

Aulas neste curso

    • 1.

      Apresentação

      1:02

    • 2.

      O que é aprendizado de máquina?

      1:19

    • 3.

      Processo de aprendizado de máquina

      2:03

    • 4.

      Tipos de aprendizado de máquina

      3:17

    • 5.

      Como criar um ambiente de desenvolvimento Anaconda Spyder

      2:39

    • 6.

      Curso de crash de Python NumPy Pandas Matplotlib

      14:21

    • 7.

      Como criar um modelo de classificação usando algoritmo KNN

      15:07

    • 8.

      Como salvar o modelo e o escalador

      4:08

    • 9.

      Como restaurar o modelo do arquivo Pickle e usá-lo localmente

      3:04

    • 10.

      Como exportar o modelo para o ambiente do Google Colab

      4:20

    • 11.

      Como entender o framework web Flask

      4:08

    • 12.

      Como criar uma API REST para o modelo de classificação

      5:05

    • 13.

      Regressão linear

      9:02

  • --
  • Nível iniciante
  • Nível intermediário
  • Nível avançado
  • Todos os níveis

Gerado pela comunidade

O nível é determinado pela opinião da maioria dos estudantes que avaliaram este curso. Mostramos a recomendação do professor até que sejam coletadas as respostas de pelo menos 5 estudantes.

87

Estudantes

1

Projeto

Sobre este curso

Este curso cobre como criar modelos de Machine Learning do zero usando bibliotecas Python e Scikit-learn Estrutura do curso é capturada abaixo

  • Processo de aprendizado de máquina
  • Noções básicas de Python, NumPy, Pandas
  • Modelos de classificação usando Scikit-learn
  • Como criar modelos de classificação usando framework web Python Flask
  • Modelos de regressão usando Scikit-learn

Como pré-requisito os alunos devem ter habilidades básicas de programação e conhecimento de matemática no nível médio antes de começar com este curso. Nenhum conhecimento prévio do Machine Learning é necessário.

Conheça seu professor

Teacher Profile Image

Engineering Tech

Big Data, Cloud and AI Solution Architec

Professor

Hello, I'm Engineering.

Visualizar o perfil completo

Level: Beginner

Nota do curso

As expectativas foram atingidas?
    Superou!
  • 0%
  • Sim
  • 0%
  • Um pouco
  • 0%
  • Não
  • 0%

Por que fazer parte da Skillshare?

Faça cursos premiados Skillshare Original

Cada curso possui aulas curtas e projetos práticos

Sua assinatura apoia os professores da Skillshare

Aprenda em qualquer lugar

Faça cursos em qualquer lugar com o aplicativo da Skillshare. Assista no avião, no metrô ou em qualquer lugar que funcione melhor para você, por streaming ou download.

Transcrições

1. Introdução: Bem-vindo a este curso de aprendizado de máquina usando Python e scikit-learn projetado para iniciantes absolutos. Começará com as pontuações da classe em Python e várias bibliotecas. Então vamos mergulhar na construção de modelos de aprendizado de máquina usando scikit-learn. Você também vai entender como criar um papel arriscado, seu modelo de aprendizado de máquina usando estrutura Flask. Este é um curso completamente Hudson. Como uma unidade de pré-requisito, ter alguma formação de programação e conhecimento matemático do ensino médio. Para começar com este curso, nenhum conhecimento prévio de aprendizado de máquina é necessário. Estará explicando todos os conceitos passo a passo e ensinando como construir um modelo de aprendizado de máquina a partir do zero. 2. O que é aprendizado de máquinas?: Vamos entender o aprendizado de máquina. No aprendizado de máquina, lemos padrões de dados usando um algoritmo de aprendizado de máquina e, em seguida, criamos um modelo. Em seguida, usamos esse modelo para prever a saída para novos dados. Por exemplo, se um modelo for treinado para prever o comportamento do cliente, você poderá inserir um novo perfil de cliente e prever se o cliente escreveu BYOD não com base em sua idade, salário e outros parâmetros. Se um modelo é treinado para classificar uma imagem, seja um gato ou cão. O novo image_id alimentado para prever se é um gato ou cão. Uma análise de sentimento Modern pode ler texto e prever se o sentimento é positivo ou negativo. Então, o que é exatamente um modelo? Então modelo pode ser uma classe ou objeto ou pode ser uma fórmula matemática. E como você implanta e usa o modelo? O modelo pode ser armazenado no sistema de arquivos em formato binário. Ele pode ser armazenado em uma coluna de banco de dados, em blog ou outros formatos. Como você pode pegar o modelo e criar uma API de descanso e torná-lo acessível a aplicativos ou que protocolo HTTP. Ou você pode simplesmente pegar a coordenada modal, o widget em outro programa. 3. Processo de aprendizagem de máquinas: Vamos examinar mais de perto o processo de aprendizado de máquina e entender quando nosso modelo está pronto para implantação. No aprendizado de máquina, o algoritmo examina os dados, deriva o padrão e cria um modelo. Vamos começar a partir dos dados. Normalmente, recebemos dados amplos e, em seguida, fazemos o pré-processamento de dados. pré-processamento de dados envolve estriados, padronização de dados de limpeza de dados do lago, correção de problemas com valores nulos, registros ausentes, valores desconhecidos e várias outras coisas. Durante o pré-processamento de dados, também convertemos valores categóricos, dois valores numéricos. Porque os modelos de aprendizado de máquina podem funcionar com números. Esta etapa pode ser executada dentro do limite de aprendizado de máquina, ou pode ser realizada por outra equipe. Por exemplo, uma equipe especializada em big data Spark, que é uma tecnologia muito popular para pré-processamento de dados. Para muitos modelos, também fazemos dimensionamento de recursos. Isso está trazendo todos os recursos para a mesma escala para que o modelo não fique tendencioso ou influenciado pela característica particular. Uma vez que isso é feito ou os dados estão prontos para o algoritmo de aprendizado de máquina. Dependendo do problema que estamos tentando resolver, podemos repetir esse processo várias vezes para obter os dados perfeitos. Para o nosso algoritmo de aprendizado de máquina. Nós alimentamos os dados para um algoritmo, um modelo. Mas esse é o modelo final? Uma vez que obtemos um modelo, testamos a precisão. Refinamos o modelo para obter maior precisão. Se voltarmos para a etapa de pré-processamento de dados e gerar os dados novamente e alimentá-lo para o algoritmo novamente e para obter o modelo com a precisão desejada. Além da precisão, também verificamos se os dados estão sobreajustados e adequados. E uma vez que estamos satisfeitos com o modelo, implantamos um determinado Watson na produção. Então esse é o modelo final e que é usado por diferentes aplicações. 4. Tipos de aprendizado de máquina: Vamos entender diferentes tipos de algoritmos de aprendizado de máquina. Falamos sobre o perfil do cliente, aprender com o comportamento do cliente com base em determinado perfil e aplicar esse aprendizado. Vejamos isso em detalhes. Então, quando dizemos perfil do cliente, pode ser países salariais da AID, sexo. Com base nisso, digamos que sabemos se um cliente foi comprado no passado ou não. Começa com a compra, euro começa, mas não é comprado. Se alimentarmos essa informação para um algoritmo de aprendizado de máquina, você pode olhar para esses dados de compras anteriores. Ele vai olhar para esses diferentes recursos em seu comportamento em termos de compra ou não, em seguida, criar um modelo. Aqui a saída é sempre um ou 01 significa compra, 0 significa não compra. Então esse tipo de aprendizado de máquina é chamado de classificação. Quando estamos prevendo certo número de classes a partir dos dados de entrada. Vejamos outro exemplo de classificação. Quando alimentamos uma imagem para um modelo e o modelo reconhece que é um gato ou um cão. Isso também é classificação. Se criarmos um algoritmo de aprendizado de máquina com imagens diferentes que pertenciam a três classes. É um gato, cachorro e vaca. E se criarmos um modelo, isso também é classificação porque nossa previsão é sempre limitado conjunto de valores. Há outro tipo de aprendizado de máquina chamado regressão, onde em vez de prever uma classe, prevemos certos valores que poderiam ser um valor contínuo em termos de preço da habitação. Você pode ter informações sobre área, número de quartos e distância até o ponto de ônibus ou centro da cidade. Com base nisso, se você tiver que criar um modelo que preveja o preço da casa, esse tipo de aprendizado de máquina é chamado de regressão, onde você prevê um valor contínuo em vez de prever a qual classe a saída pertence. Classificação e regressão são são chamados de aprendizado de máquina supervisionado porque Algoritmo pousa a partir dos dados. Ele pousa a partir de conjunto de características e o comportamento. Informações de montagem sobre o preço da casa para um conjunto de recursos. Ou você está ajustando informações sobre se o cliente é comprado ou não. O algoritmo está aprendendo com isso. E, em seguida, ele está prevendo saída para novo conjunto de variáveis. Este é o aprendizado de máquina supervisionado, onde você diz ao algoritmo o que procurar em um determinado conjunto de dados. Há outro tipo de aprendizado de máquina chamado aprendizado de máquina não supervisionado, onde você alimenta determinados dados para um algoritmo, mas você não diz o que procurar. Por exemplo, você pode alimentar um salário, país, sexo e quanto a pessoa está girando. E peça ao algoritmo para agrupá-los de uma forma que você possa tomar certas decisões com base nisso. Normalmente nuclear clusters usando aprendizado de máquina não supervisionado, você poderia criar clusters diferentes, como os jovens gastadores são de alta renda, altos gastadores. E com base nisso, você pode decidir qual grupo de clientes segmentar em sua campanha de marketing. Isso é aprendizado de máquina não supervisionado. No aprendizado de máquina supervisionado, dividimos os dados em dados de treinamento e dados de teste. Normalmente, 70 a 80% de dados são mantidos para treinar o modelo, e 20 a 30% restantes são usados para testar o modelo. 5. Como criar um ambiente de desenvolvimento Anaconda Spyder: Perdemos aranha Anaconda para desenvolvimento de aprendizado de máquina. Procurar por baixar Anaconda e ir para o seu site. Clique no preço. Role para baixo, selecione a edição individual que é gratuita. Clique em Saiba mais. Clique em Baixar e escolha a versão certa para o seu sistema operacional. Uma vez baixado, clique no instalador. Exceto que a condição de Thomson significa apenas um diretório bem selecionado. Certifique-se de que não há espaços no diretório. Eu recomendaria selecionar ambas as caixas de seleção porque você pode fazer Python NOVO variáveis de ambiente dalda. Clique em instalar. A instalação leva cerca de 20 a 30 minutos. Uma vez concluído, clique em Avançar. Não é necessário selecionar esta opção para clicar em Concluir. Começou para gravar, nossa aranha almoçou. Spider criará primeiro um diretório de trabalho onde armazenaremos todos os arquivos. Diretório no mecanismo do usuário. Este será o meu diretório de trabalho. Vá para o canto superior direito e selecione lá diretamente. E isso, isso estaria funcionando diretamente. Agora vamos criar um novo botão. Vamos escrever “Helloworld”. Arquivo é Python ou inferior selecionado e executá-lo. Você pode dobrá-lo usando reciclado. E podemos ver o console de pontos do Helloworld. 6. Curso de travamento de Pandas em Python NumPy: Vamos cobrir Python, Numpy, Pandas e matplotlib. Neste laboratório. Você já está familiarizado com essas responsabilidades Python. Então você pode pular esta palestra e passar para a próxima. Vamos criar um novo arquivo usando spider e começar a codificação. No Python, você pode declarar variáveis sem dar tipos de dados. E ele colocou agora preencher um valor de string que podemos, Python não vai reclamar. Pode aranha explorador variável, você pode ver todas as variáveis e seu valor. Digamos que três, seja igual a cinco e, em seguida, divida em um mais b. Selecione este 31. Assim, podemos ver que a saída está sendo impresso em Python. Você pode executar todos os tipos de operações aritméticas. Python é um tipo de dados chamado lista. E você declarou isso entre parênteses rectos. E, em seguida, você especifica uma lista de elementos. E você pode então pegar elementos especificando o número do índice. E o número do índice começa com 0. Vamos imprimir isto. Então. Faça, faça qualquer índice um, e assim por diante. Para pegar o último elemento, você especifica minus1. Você também pode especificar três neste caso, mas minus1 também lhe daria o último elemento. Dessa forma, quando a lista é muito longa, você pode facilmente pegar o último elemento especificando minus1. E então se você fizer menos dois, ele lhe dará o segundo último elemento, que é 30. Então é assim que podemos declarar uma lista e pegou elementos diferentes. E a lista pode ter comunistas diferentes tipos de dados. Em Python, você pode escrever um loop dando dois pontos de condição e pressione enter. Em Python, aspas simples e aspas duplas estão bem. espaço e recuo em Python. Então, se escrevermos assim, ela vai terminar quando Sundance. Agora, se eu escrever algo aqui que está fora, se olhar fora do loop está sendo impresso, debate mudar a condição. Imprimirá os dois. Há muitas maneiras de escrever um loop for em Python. Então eu posso dizer para i no intervalo dez. Então isso deve imprimir o valor de i está começando de 0 a nove. Então estes são os dez valores. Você também pode olhar através desta lista. Meu alistado, você pode dizer para i na minha lista sublinhado, empate, it, imprimiu todos os elementos da lista. E vamos fazer outra operação na lista, que é escolher todos os valores da primeira lista, multiplicando-os por três, estava criando a nova lista. Em Python, você declara função com a palavra-chave def. Calcule alguns, digamos um, B. E podemos fazer essa soma. E agora podemos chamar isso passando dois valores e então vamos obter a soma. Você também pode retornar vários valores. Assim, podemos ver que ambas as variáveis estão sendo preenchidas. Então desejo que você pode retornar vários valores de uma função Python para criar um arquivo em Python, usar com abrir e, em seguida, escrever algum conteúdo. Você pode ver meu arquivo no explorador de arquivos. Tem conteúdo de amostra. Note que o modo é W aqui. Isso é o que classificação. Você pode adicionar mais conteúdo com um modo de campanha de aplicativo. Vamos executar isso e verificar o arquivo. Você pode ver mais conteúdo obtendo arte. Mas você também pode trabalhar com o modo W. Agora você deve ver que o novo conteúdo, coisas pesadas devem ser substituídas por novo conteúdo. Então, estes são, podemos criar um arquivo em Python. Vamos agora entender NumPy. Numpy é uma responsabilidade popular Python para computação científica. Primeiro precisamos importar numpy, vai importar numpy como np. E agora podemos fazer toda a operação NumPy usando NB. Muitas das populares bibliotecas de aprendizado de máquina, scikit-learn, elas são projetadas para funcionar com base em matrizes Numpy. Você pode criar uma lista. Vamos declarar uma lista. E podemos criar uma matriz unidimensional a partir da lista. Vamos tirar esse valor, amostra número um DRA. Então este é um objeto de matriz numpy, irá agora criar uma matriz numPy bidimensional. Tem quatro linhas e três colunas. Deve criar uma rede bidimensional árbitro. Você pode facilmente remodelá-los par é. Então este é um para a linha três colunas array. Podemos remodelá-lo para duas linhas e seis colunas. Note que quando você remodelar, o Arabismo original é reformulado, você pode armazená-lo de uma nova maneira. Tem duas linhas e seis colunas. Você pode remodelar desde que o número total de elementos corresponda. Você não pode ter dois arquivos porque ele tem dois elementos. Se remodelarmos com, digamos um menos1, criaria uma linha e o número máximo de colunas. Da mesma forma, você tem que remodelar para uma coluna e o número máximo de bruto possível. Você pode fazer isso especificando menos 1 e um. Você não precisa contar quantas linhas ou colunas existem. Teremos isso como nova edição três. Então é assim que podemos remodelar NumPy R às vezes está fazendo processamento de aprendizado de máquina. Você pode ter que extrair linhas e extrair colunas e fazer algumas operações para esta remodelação seria muito útil. Você pode pegar uma parte da matriz Numpy. Então isso significa me dar primeiro traçar até a terceira linha, mas não intuir a terceira linha. Segunda coluna até quarta coluna, mas não incluindo a quarta coluna. Vamos ver o que conseguimos. Assim, a matriz original não é alterada. Vivemos para preenchê-lo para uma nova matriz e ver o exemplo de notícias de saída. Temos rosado no índice 12 e coluna no índice dois, porque não há coluna no índice três. Pandas é uma biblioteca Python popular para análise de dados. Importar pandas dizendo importar pandas como PD, isso é convincente. E pandas matrizes unidimensionais conhecidas como cidades. Então isso é muito claro que as cidades são unidimensionais. Sua vantagem com parênteses, você pode dar seus elementos e nome. Por exemplo, posso dizer 10203040, mas posso dar-lhes um rótulo. Vamos verificar isso. Você pode ver que o índice ABCD, você pode pegar um limite especificando o número, índice número nossa perspectiva. Se você fizer a Série de Amostra 2, você recebe 30. Você também pode pegá-lo dizendo cidades amostradas para ver. Isso também dará o mesmo valor. Você declara um DataFrame, que é uma matriz bidimensional usando a função de dataFrame ponto pd. E você pode passar uma lista bidimensional e você receberá um DataFrame. Podemos ver os pandas DataFrame. E com Pandas, você também pode dar linhas e colunas e rótulo. Devemos agora ter linha um, fileira quatro, coluna dois, coluna três. E você pode pegar elementos especificando o nome da linha, o nome da coluna ou especificando o número do índice para cada linha e coluna. Então coluna três anos, 36912, que é isso. E você pode pegar várias colunas especificando ambas as colunas. Para pegar linhas, você está pré-especificar um local Lucy e dar Roden m, você vai obter a linha para pegar uma parte do DataFrame. Você pode especificar uma linha de barco e nomes de coluna e obter essa pessoa. Então estamos recebendo a coluna dois, coluna três, linha dois, linha três do quadro de dados de amostra dois. Você também pode especificar o local do índice em vez de liberais para obter uma parte de um DataFrame. Este é rho 0 todo o caminho até a linha dois nada incluindo linha dois, coluna um, até a coluna três, não incluindo a coluna três. Se você não especificar nada, você obtém todas as linhas e todas as colunas. E se você estiver até a última coluna, você diz preto menos1. Então você tem 14710 para 581. Essa é a coluna um, a coluna dois, e todas as linhas. E nós dissemos para pegar todas as colunas até a última coluna. Então é assim que podemos pegar todas as colunas e todas as linhas, mas excluindo a última coluna. E um subconjunto de um DataFrame é um dataframe se for dois diamantes cheiro. Se você estiver pegando uma linha ou uma coluna, pode ser uma série. Em Python, você pode usar fita para verificar o papel de qualquer variável. Você pode facilmente convertê-lo em Pandas invocando valores de ponto quando ele passivos de aprendizado de máquina são projetados para o nosso Putnam PRA. Assim como a conversão usando valores escuros. Esta é agora uma matriz NumPy. Você vê dois colchetes de abertura e fechamento. Então é uma matriz numPy bidimensional. Você pode armazenar isso em uma nova matriz NumPy. Esta é agora uma matriz numpy. Pegamos uma parte do DataFrame e converteu-o para um dados NumPy com valores escuros. Isso converteria a última coluna para um dados NumPy. Vejamos um exemplo de operações de filtro em DataFrames. Então estamos dizendo aqui, me dê essas amostras onde os valores da coluna um são maiores do que para. Onde quer que seja maior do que 48 dá-lhe verdade. Caso contrário, ele lhe deu falso. Exemplo de DataFrame. Você aplica essa condição no DataFrame intermediário. Com Pandas, você pode facilmente ler arquivos CSV são realmente get-up arquivo. E como é o read_csv, vamos ler um arquivo sample.csv do nosso repositório. Nós diríamos armazenar dados ponto CSV. Pandas carregaria o arquivo CSV em um DataFrame. E se verificarmos o nosso DF Now, lá, essa perseguição foi carregada em um DataFrame. Podemos verificar o arquivo também. Então estes são enormes em parte faz você pode facilmente carregar todas as linhas e colunas para um DataFrame. Com df.describe, você pode obter elemento estatístico de vídeo sobre o DataFrame. Como quantas linhas, qual é a média e o desvio padrão? Você pode obter informações adicionais com informações de ponto dF. Que tipo de dados e quais são as colunas? DF.loc cabeça lhe daria as cinco primeiras linhas. Você pode tirar amostra de um DataFrame fazendo cabeça. E você também pode especificar quantas linhas você não estava na cabeça. Então esta premissa de se levantar três colunas. Podemos pegar as duas primeiras colunas e converter o Vietnã. Agora vamos para o explorador de variáveis e verificar x. Então, são as duas primeiras colunas porque excluímos a última coluna e foi convertido para um árbitro. Para converter a última coluna, basta pegar a última coluna. Você não precisa especificar o intervalo. E a última coluna será convertida em árbitro. É uma área unidimensional. Finalmente, vamos olhar para a biblioteca matplotlib. Usando matplotlib, você pode visualizar os dados desenhando diferentes sangues. Aranha é guia aplaude onde as parcelas serão criadas. Você importa matplotlib assim. Agora vamos declarar duas listas. E vamos plotar x e y. temos inline-block por padrão, obtemos um gráfico de linha. Quando nós plotar para obter um gráfico de dispersão, você diz plt.plot dispersão. E você terá um gráfico de dispersão. Você pode dar rótulos ao seu sangue e também um gráfico de amostra de título, x e eixo y. Vamos criar um gráfico para nossos dados que lemos do arquivo CSV. Vamos criar um novo enredo. E X6 é alavancar o eixo y terá salário, e vamos pegar colunas e passá-lo para a função de enredo para obter o bloco. Então você pode ver gráfico para os nossos dados que irão ajudar a partir do arquivo CSV. Este é um exemplo de um histograma. Então isso é sobre Numpy, Pandas, Matplotlib e alguns Python básicos. Isso não é tudo o que está lá fora nesses passivos. No entanto, esse tanto conhecimento é suficiente para você começar com a programação de aprendizado de máquina usando Python. 7. Como criar um modelo de classificação usando o algoritmo KN: Temos os dados de compra da loja. Temos dados para clientes diferentes. Há em seu salário e se eles compram ou não. Com base nesses dados, criaremos um modelo de classificação de aprendizado de máquina, que preverá se um novo cliente com uma certa idade e salário compraria ou não. Então, neste é no salário ou variáveis independentes. Construiremos um modelo de classificação de aprendizado de máquina usando o KNN, que se livrará com dados de distorção de partes. Vamos entender o algoritmo de aprendizado de máquina k-nn vizinho mais próximo ou K-nn através de um exemplo muito simples. Imagine que temos gatos e cães mostrados neste diagrama. No eixo x temos peso e no eixo y temos altura. Todos os verdes são gatos porque obviamente eles teriam menos peso e laicite e todos os azuis são cães. E se soubermos a altura e o peso de um novo animal, digamos este novo no centro. Podemos prever se é um gato ou um cão? Algoritmo Knn? Além disso, com base nas características dos vizinhos mais próximos. Pequeno valor k é cinco. Nós olhamos para os cinco vizinhos mais próximos podem, com base nisso, nós decidimos qual classe o animal poderia ser agrupado dois. Por exemplo, neste caso, existem três verdes e dois azuis. Isso significa que há três gatos e cães que têm características semelhantes às do novo animal. Então este AnyVal é mais provável de ser um gato porque a maioria dos animais pertence à classe de gatos no bairro mais próximo. Então esta é k técnica vizinho mais próxima onde o resultado é previsto com base nas características mostradas pelos vizinhos mais próximos. E o kava Louis tipicamente cinco. Vamos aplicar essa técnica nos dados de compra da loja. Temos os dados na pasta do projeto. Nós podemos spidery até selecionar sua pasta de projeto aqui. E então podemos ir para arquivos e ver todo o código-fonte e arquivos. Então, estes são os dados de compra armazenados que temos usando que irá construir um modelo de classificação de aprendizado de máquina. Vamos criar um novo arquivo Python. Will nematodes ML Pipeline. Vamos importar as bibliotecas padrão. Estamos assumindo que você está familiarizado com NumPy e pandas, que é um pré-requisito para este curso. Em aranha, assim que você digitar você recebe todos os erros ou avisos. Dizendo que não estamos usando pandas Numpy, tudo bem. Estaremos escrevendo o código para o mesmo em breve. Agora vamos carregar os dados de compra da loja para um DataFrame Pandas. Vivemos dados de treinamento, dataframe, que armazenará os dados de compra da loja. Observe que não será a limpeza com todos os dados. Teremos alguns registros de treinamento e testes, que veremos a seguir. Mas os pandas de dados de treinamento DataFrame armazenariam todos os dados do arquivo CSV. Você pode executar o arquivo inteiro selecionando o ciclo, ou você pode executar a seleção. Vamos fazer a seleção. Você pode ir para explorador variável, clique em dados de limpeza e podemos ver que é compras de salário foram carregados para o dataframe de dados de treinamento. Vamos pegar informações estatísticas, dados de limpeza do barco. Podemos ver várias informações estatísticas sobre os dados. Quantos discos? Temos 40 discos. Podemos ver a média, desvio padrão e algumas outras estatísticas sobre os dados irão armazenar as variáveis independentes em um IRA. Levará subiu até a última coluna e armazenou-os em uma variável dependente X, que é uma matriz NumPy. Vamos fazer isso. Então isso deve preencher agentes assalariados. Próximo. Vamos para explorador de variáveis e checkout. Podemos ver que o salário agente ter agora preenchido na matriz NumPy irá preencher a coluna de compra, que é a previsão para e na matriz Numpy distância. Então isso deve preencher a última coluna e armazená-la de maneira também. Este é o nosso y, que é a variável dependente ou a que estamos tentando prever. Temos ajudas no salário e x matriz NumPy. E nós temos y, que são os dados de compra. Para não comprados. Uma é onde as festas. Então isso é armazenado em uma matriz Numpy. Agora temos as variáveis independentes e variáveis dependentes em duas matrizes Numpy separadas. Em seguida, usando scikit-learn irá separar os dados em conjunto de treinamento e conjunto de teste. E teremos uma enorme proporção de 80-20, 80% dos dados para treinamento e 20% para testes. Scikit-learn é uma biblioteca muito popular para aprendizado de máquina usando Python. Scikit-learn vem pré-instalado com aranha Anaconda. Se eu estiver usando um ambiente Python diferente, você pode ter que instalar scikit-learn usando pip install skLearn style é o comando para instalar qualquer biblioteca Python. Anaconda aranha vem com scikit-learn, numpy, pandas e muitas outras bibliotecas que são necessárias para competição científica e aprendizado de máquina. Estamos usando Scikit-learn, train, test split class para dividir o conjunto de dados em duas partes. Agora, uma vez que fazemos isso, deixamos o treinamento definido e o teste definido. O conjunto de treinamento terá 32 registros. Dissemos que 80% de dados serão usados para treinamento. Então, totalizamos 40 registros dos quais 32 serão usados para limpeza. Então isso é extremo. E o comboio de pesos 32 recordes para a negociação. E X-Test tem registros de calor. Da mesma forma peso, isso terá oito registros. Estes são os dados para testar o modelo. Em seguida, apresentaremos a habilidade desses dados. Então é isso, o salário estão na mesma ponte e o modelo de aprendizado de máquina não poderia ser influenciado pelo salário, que está em uma faixa mais alta. Vamos executar isso. Agora podemos ver os dados de escala. escalador padrão distribui os dados de uma forma que a média é 0 e o desvio padrão é um. Agora ambos os A e o salário ou na mesma ponte. Em seguida, vamos construir um modelo de classificação usando a técnica de vizinho K mais próxima. Terão cinco vizinhos. Perdemos as métricas de Minkowski. Para construir este classificador. As métricas de Minkowski funcionam com base na distância euclidiana entre dois pontos. A distância euclidiana não é nada além da distância mais curta entre dois pontos. É assim que decide quais vizinhos são os mais próximos. Em seguida, irá ajustar os dados de treinamento para o classificador para limpá-lo. Então é aqui que o modelo está sendo drenado. Este é o objeto classificador que é treinado com determinados dados de limpeza, que é, é salário é a variável de entrada, cabeça compra a variável de saída. O classificador é o nosso modelo. Verificará rapidamente a precisão do classificador, tentando prever. Para os dados de teste. Classificador tem um método de previsão que leva uma entrada de matrizes numpy e retorna como saída em outro número. Então este é o nosso x e este é o peso. E vamos ver qual é a previsão. Wavelet seis para um recorde. O modelo previu com precisão. Para todos os registros. Também podemos verificar a probabilidade de previsão para todos os dados de teste. Aqui podemos ver que onde quer que tenhamos mais de 0,5 probabilidade, o modelo está prevendo que o cliente devido pelo cliente não iria comprar. A mobilidade é útil quando ele adorava classificar dados a partir da previsão e os clientes eram mais propensos a comprar. A história. O terceiro é mais provável de comprar porque as probabilidades 0,8 ou 80% verificam a precisão do modelo usando a Confusion Matrix. Confusion Matrix é uma técnica estatística para prever isso cortesia de um modelo de classificação. A forma como funciona é bem simples. Se o valor real for um e o modelo previu um projeto PRINCE2. Se perdermos 10, é falso negativo. Da mesma forma, 00 é verdadeiro negativo e 01 é falso positivo. Também pode ser representado neste formato. Assim, uma vez que conhecemos todos os quatro tipos, podemos facilmente determinar a precisão. Então eles não podiam ver é verdadeiro positivo mais verdadeiro negativo caminho dividido. Todos os quatro tipos de previsões. Não importa qual técnica de classificação você está usando, o KNn ou qualquer outra Matriz de Confusão pode ser usado para calcular a precisão do modelo. Aprendizagem cíclica e outras bibliotecas de aprendizado de máquina. As classes embutidas para matriz de confusão bit Jen permitir Julian dados previu. Vamos criar as métricas de confusão passará o valor real do conjunto de teste, que é teste de peso e os valores previstos, que é pão branco. E obtenha as métricas de confusão da classe de matriz de confusão de terra cíclica. Vá para o explorador de variáveis aranha. E podemos ver a matriz de confusão aqui. Temos três verdadeiros negativos. Para verdadeiros positivos. Apenas um falso negativo e falso positivo. Então este modelo é muito bom, porque temos apenas um falso positivo ou negativo de oito registros. Vamos calcular a precisão do modelo. E vamos imprimir o 0,875 quiescente. Então nosso modelo é 87,5% ocorreu. Assim, este modelo pode prever se um cliente com um determinado salário agente, adeus ou não com 87% de precisão. Você também pode obter o relatório de classificação intacto para entender mais sobre recall de precisão e pontuação de F1. Então nós levamos isso para dados de compra e criamos um classificador que pode prever se alguém faria por R nada. Esse modelo ou classificador pode ser usado para prever se um cliente com um determinado agente salário seria BYOD nada. Então, vamos tentar prever se um cliente com H porter Sal dia a dia 1000 bom biochar. Observe que este modelo leva uma matriz NumPy e retorna uma Europa comparar para criar uma matriz Numpy a partir de agentes salário, habilidade característica que os dados, e, em seguida, alimentá-lo para o classificador. Como o classificador é treinado em dados de habilidade de recurso deve ter sido camisa para dados que você está ajustando também é dimensionado recurso. Mesma técnica, que é scaler padrão No nosso caso. E a previsão é 0, o cliente ou não por alguém com 40 anos. E célula D2, orçamento D3 não compraria é. Mas este modelo, podemos verificar a probabilidade da previsão para os mesmos dados. Classificado como parâmetros preditores usando o qual você pode obter a probabilidade. Então a probabilidade é de 0,2 ou 20%. É por isso que o modelo definido para o cliente não compraria. Vamos tentar prever para um cliente que tem 42 anos e salário 50 mil. Desta vez, o modelo define o cliente ou comprador. Vamos verificar a probabilidade. É 0,880%. Portanto, há 80% de chances de o cliente comprar um modelo de aprendizado de máquina, ganancioso. É um modelo de classificação. Ele pode prever se um cliente com um determinado agente célula D seria por R nada. Então este é o classificador que temos, que é o modelo, e estamos ajustando dados para este modelo para obter saída. Em seguida, verá várias técnicas de implantação do modelo. Como podemos salvar esse modelo e implantar esse modelo em outros ambientes, incluindo alguns dos ambientes do provedor de nuvem. 8. Como salvar o modelo e escalar: Nós construímos um modelo de classificação KNn, que pode tomar é em salário como parâmetros de entrada e prever se um cliente particular com esse salário agentes seria por R nada. Vamos agora entender como salvar o modelo que criamos. Para recapitular o processo de tendência do modelo, lemos 40 registros do conjunto de dados e identificamos 32, ou seja, 80%. Para treinar. Estes estão representados aqui. E, em seguida, usamos scaler padrão para dimensionar os valores de modo que a média se torna 0 e desvio padrão torna-se um para ambos os agentes salário. Para muitos modelos, é necessário matar. Caso contrário, o modelo pode ser influenciado por valores que estão na faixa de salário mais alta no nosso caso. E você pode usar o scaler padrão ou qualquer outro mecanismo de dimensionamento. Uma vez que os dados são dimensionados, nós alimentamos isso para o modelo em um formato de matriz NumPy bidimensional. E obtemos uma saída que também é uma matriz numpy com uma coluna. Internamente, o modelo aplica a técnica kNn. Ele olha para a saída de cada registro e tenta otimizar a fórmula para que o líquido geral você iria subir. Existem várias maneiras de salvar o modelo. Para alguns, podemos extrair a fórmula. E em alguns casos teremos que salvar o formato binário de modelagem para que possamos restaurá-lo e, em seguida, usar esse modelo para prever a saída para um novo conjunto de dados. Veremos isso em ação em breve. Se alguém quiser prever com o Modelo, duas coisas. Não precisa do modelo do classificador. E eles também precisariam do escalar padrão se usassem alguma outra técnica para caracterizar habilidade os dados, que o modelo pode não dar um resultado correto porque temos usado um matador de padrões particular. Nós também iria exportá-lo junto com o modelo. Com o modelo de classificador e o scaler padrão, faça a previsão em qualquer ambiente Python. Vamos ver como podemos salvar e exportar esses objetos para outros ambientes. Python é uma técnica chamada decapagem, usando o qual você pode armazenar objetos Python em formato de fluxo serializado ou byte. Em outro ambiente Python, você pode ser serializado esses objetos e usá-los em seu código. Então vamos entender como podemos pickle o modelo e scaler padrão foram construídos na unidade de laboratório anterior, importamos o arquivo de passivos de seleção, KNN model.predict estão dispostos limitados pickle ponto classificador. Se não quisermos dizer qual técnica usamos para criar este modelo, podemos simplesmente nomeá-lo como classificado ou mais rápido. E usando o método ponto-ponto em conserva, podemos armazenar o objeto classificador que criamos anteriormente na impressão para este arquivo classificado ou pickle. Da mesma forma, podemos limpar o arquivo de picles para este assassino. Armazenará o scaler padrão em um arquivo CDART pickle. Aqui, wB significa que o arquivo é aberto para escrita e no modo binário. Vamos executar este código. E podemos ir para o Explorador de Arquivos. E vê que classificada ou pickle e ACWP kilobit criado. Você também pode verificar o mesmo no Explorer. Então esses dois são arquivos binários ou serializados para nosso classificador e objetos escalares padrão. Neste laboratório, vimos como salvar o escalar padrão borderland em formato binário usando Python pick celebridade. Em seguida, vamos ver como usar os arquivos em conserva em outro ambiente Python. 9. Restaurando o modelo do arquivo picle e usando o local: Até agora, vimos como criar um modelo e armazená-lo no formato em conserva. Nós também armazenamos os objetos escalares padrão em formato binário usando responsabilidade seletor. Em seguida, vamos ver como DC relés e usar esses objetos pickle em outro ambiente Python. Pode estar no local ou na nuvem. Primeiro tentará usar os arquivos pickle para o ambiente local. Vamos criar um novo arquivo Python. Vamos chamá-lo de “use model.predict”. Primeiro precisamos importar as bibliotecas. Também precisamos importar NumPy. Em seguida, vamos DC relés e armazenar o classificador em um objeto local no novo programa usará o método decapado Senhor ponto para carregar o classificador que veículo usando leitura formato binário. Da mesma forma irá ler o escalar para um novo objeto. St.Petersburg será carregado para objetos escalares locais. Em seguida, usaremos o classificador local e o escalar local para prever se um cliente com 40 anos e de repente 20 mil adeus ou não. Antes de executar ele permite limpar todas as variáveis antigas. Você pode clicar aqui e remover variáveis antigas. Você também pode limpar o console clicando com o botão direito do mouse e limpando o console aqui. Agora vamos executar este programa. Agora podemos ver essa nova previsão e qual é 0, que está combinando com a previsão anterior. Vamos pegar a nova probabilidade. Isso é novamente 0,2 para o cliente com 40 anos e de repente 20 mil e atrasa o objeto classificador e o objeto escalar local. Então nós tentamos prever se um cliente ou comprador não está usando objetos relacionados deste D em um novo programa Python. Então este programa não sabe nada sobre como o modelo foi construído ou negociado. Ele pegou o escalar de modelagem dos arquivos picles e usou-os para prever. Podemos também tentar prever para cada 42 e salário 50 mil. Mais cedo, temos 80% de probabilidade. Devemos ver a mesma saída aqui, 0,8, e a previsão é uma. Compre pelo cliente. Então você já viu como usar arquivos Pickle em outro programa Python, que não sabe nada sobre como o modelo foi construído e como o modelo foi treinado. Tentamos isso em um ambiente local. Em seguida, vamos tentar em um ambiente de nuvem. 10. Exportando o modelo para o ambiente Google Colab: Em seguida, vamos levar os arquivos em conserva para o ambiente de colaboração do Google e tentar prever seus arquivos. Collab do Google é como um ambiente de Júpiter com alguma personalização visual. E tem muitas bibliotecas pré-construídas para aprendizado de máquina e aprendizado profundo. Você pode apenas fazer login usando seu jimmy lady ou Google lady e, em seguida, criar um novo caderno e começar a codificação. Vamos criar um novo caderno no qual já fiz login. Dará um nome a este arquivo. Podemos ir para a configuração da ferramenta e mudar o tema para escuro ou adaptável. Vamos mandá-lo para o escuro. A Colômbia é como um ambiente de notebook Júpiter. Você pode simplesmente digitar o código NDA, pressionar Shift Enter. Você verá a saída. Ou você pode clicar no ícone Executar aqui e executar o programa. E você pode clicar com o botão direito do mouse em Excluir pecado ou você pode simplesmente clicar aqui e excluir venda. No Kuulab encontrará a maioria das bibliotecas de aprendizado de máquina e aprendizagem profunda pré-instaladas. Se algo não estiver instalado, você pode fazer pip install aqui e instalá-lo. Wallabies como ambiente Linux. Você pode fazer ponto de exclamação Ellis e ver todos os arquivos que estão presentes aqui. Atualmente, não há nada que seja uma pasta de dados de exemplo dentro de seu momento colombiano. E todos os arquivos são salvos no Google Drive. Transferirá isso para escolher seus arquivos para o momento colombiano. Vamos para o nosso repositório do GitHub. E nós já carregamos os arquivos pickle para este repositório no GitHub, implementação de modelo ML habilidoso futurista. Selecione o classificado ou típico. Muito pode baixar e copiar o endereço do link, ir para o Robert colombiano e fazer um Linux W get. E o caminho garante que o caminho do arquivo é linha. Obter o arquivo, fazer ls para ver se o arquivo foi copiado ou não. Em seguida, vamos obter o scaler padrão. Clique em um pickle CDO, certo? T pode baixar, copiar o endereço do link, não fazer um W GET e obter o arquivo pickle scaler padrão. Agora podemos ver que ambos os arquivos em conserva estão disponíveis no momento colombiano. Nós carregamos a moral para o momento colombiano. Aqui neste caderno. Não sabemos como os modelos foram construídos são treinados, mas podemos usar esses modelos para fazer previsões semelhantes à que você fez anteriormente. Crie um objeto classificador. Vamos chamá-lo de colapso do classificador. Crie um objeto escalar. E usaremos esse classificador e estudioso para prever. Basta digitar o nome da variável e pressionar Enter. Vamos ver a saída. Então a previsão é 0. É o mesmo que o que temos mais cedo para um cliente com idade 40 e de repente 20 mil vai ter probabilidade ir também. Você pode imprimi-lo na mesma célula também. A última terra é impressa. Então, estamos vendo 20% de probabilidade de alguém com 40 anos e 20 mil anos comprar o produto fazer o mesmo para 42 anos e san-serif 50 mil. A previsão é uma. A probabilidade é de 0,6 porque não colocamos a borda direita. Vamos executá-lo de novo. Desta vez vamos conseguir 80. É assim que podemos treinar modelos em um ambiente e levá-los a um ambiente completamente novo e executá-los mortos. Você está dando o modelo para outra equipe ou terceiros. Eles não sabiam como você construiu entrar em seu modelo todo o barulho. É um classificador, leva valor em determinado formato. E Gibbs duvida. 11. Entendendo o webframework no Flask: Em seguida, vamos entender como expor o modelo de aprendizado de máquina com reinicializações de API de repouso por transporte de estado representativo. O descanso é uma forma popular de dados extensos no mundo real. Você pode construir um aplicativo usando Java, Scala, ou qualquer outra tecnologia, e você pode expô-lo com uma interface de descanso para o mundo exterior. E, de fato, cliente quer usar o seu aplicativo ou acessar os dados, eles podem fazê-lo usando dados de pulso é tipicamente estende-se em formato XML ou JSON sobre protocolo HTTP. Flask é uma estrutura popular para construir Rest API para uma aplicação Python. Vamos primeiro olhar para uma aplicação API helloworld balão descanso. Em seguida, vamos mergulhar em expor nosso modelo de aprendizado de máquina para a API restante. No spider criado novo arquivo Python. Vamos chamá-lo de “Helloworld”. Para construir um frasco Christy EPA importe Frasco e o objeto de solicitação associado da biblioteca de balões. Você pode ir para a documentação do Flask para saber mais sobre como criar um aplicativo Flask. Por enquanto, basta seguir essa sintaxe e com poucas linhas de código, você pode construí-la como TPA. Vamos declarar um modelo de classe Endpoint. E quem receberá o pedido de postagem neste aplicativo. Usando post, você pode enviar alguns dados para a API restante e receber uma resposta. Se você usar o Git, você só pode receber uma resposta. Vamos ter uma função “Olá Mundo”. Neste exemplo, vamos enviar os dados no formato JSON e recebê-lo no formato JSON. Aqui, quaisquer dados que estamos recebendo a solicitação no formato JSON, estamos armazenando-o em dados sublinhado solicitação passará o nome do modelo na solicitação que irá recuperar e exibido para o usuário. Qualquer um poderia posar o nome do modelo invocando este último ponto de modelagem exibe string simples que você está solicitando para um com interpolação string Python. Estamos exibindo aquele modelo Nim. Agora vamos adicionar um método principal. especificará o número da porta para que, quando o aplicativo for iniciado, Eleespecificará o número da porta para que, quando o aplicativo for iniciado,ele executará essa porta específica. Vamos iniciar o aplicativo no ambiente local. Se alguém quiser usá-lo, irá invocá-lo com este modelo de classe que você é. Agora vamos correr. Ele irá para o prompt de comando e iniciará o programa. Vamos olhar para o prompt de comando premier. Agora vamos começar. Embora. Programa Helloworld, darpa está agora iniciado. Criamos uma API de descanso simples que está sendo executado na porta 8 mil. Vamos agora ver como enviar dados para este aplicativo e receber uma resposta. Vamos criar um novo arquivo Python. Vamos chamá-lo de restaurante um ponto de planta de escopo. Como você estará enviando os dados no formato JSON, vamos importar JSON First. Também precisamos importar a biblioteca de solicitações. Solicitação é a biblioteca HTTP. E você poderia apenas pairar sobre ele e ler mais sobre isso. Usando solicitações. Você pode enviar solicitação HTTP. Agora vamos ter uma variável para o URL. No nome do servidor. Podemos adicionar localhost, ou podemos colocar o endereço IP que foi exibido no console, 1270018 mil, que está apontando para o host local, terá dados de solicitação muito simples no formato JSON com uma chave e um valor. E estamos passando KNn é o membro modal. Agora vamos enviar um pedido de post, possivelmente URN inserir dados no formato JSON. E a partir do objeto de resposta, podemos extrair o texto e imprimi-lo. Agora vamos executá-lo e ver a potência de saída. Agora podemos ver a saída que você está solicitando para um modelo KNN, que está vindo de graça TPA. 12. Como criar uma API RESTO para o modelo de classificação: Em seguida, criaremos uma lista EPA para o modelo de aprendizado de máquina para que qualquer pessoa possa invocar o risco EPA e fazer previsão. Vamos criar um novo arquivo Python. Vamos chamá-lo de classificador descanso serviço dot pi. Vamos copiar o código do aplicativo HelloWorld Python. E vamos importar picles, importar Numpy vai cuidar dos arquivos de picles. Usaremos os classificadores locais para prever os dados. Para qualquer sebe. E salário vai recuperar o salário agente do pedido irá primeiro representar h, em seguida, o salário. Estamos agora passando gays em variáveis de borda salarial para o classificador para prever. E seja qual for a previsão que temos, vamos devolvê-la. A previsão é e passar a variável de previsão em tempo diferente. Agora vamos executar este aplicativo. Vamos dizer classificador Python, assistente rr. altura já está a funcionar na porta 8 mil. Vamos limpar a aula de Machine Learning. Vamos chamá-lo de cliente de descanso. Vamos copiar o código daqui. E em vez de ter KNn mortal, agora, dois parâmetros que alavancamos, que é um valor numérico, digamos 40. E nós amamos salário, 20 mil. Estamos passando duas variáveis agora. E com essas duas variáveis, vamos chamar o método de previsão classificador para obter a previsão onde haverá 0 ou um. E com base nessa previsão, volta ao cliente agora, vamos executá-lo. Vamos executá-lo em um porto diferente. Vamos limpar o console e estão lá para imprimir declaração para salário agente para que possamos saber o que é insanidade ou sendo passado. Vamos ver se está tudo bem. Compilou bem. Vamos agora executá-lo a partir do prompt de comando. Está a funcionar no porto 8 mil até agora. E nós vamos ao cliente do correio e chamá-lo com idade para o Sangre 20 mil. A previsão é 0. Se o chamarmos com 42 anos e salário, 50 mil registrados, a previsão é uma. Em vez de duas previsões finais, também podemos determinar a probabilidade ou risco TPA. Podemos ver que a previsão é 0,8. E se mudarmos para 4020 mil, devemos obter 0,2. Vimos como criar uma API de descanso usando quais são os clientes podem acessar o modelo de aprendizado de máquina e obter a previsão. E esses clientes podem estar sendo executados em Python, Java ou qualquer outra linguagem. Eles podem enviar dados via HTTP e receber uma resposta ao que é PIB. Então, quando você faz uma chamada de descanso não só sobre como o aplicativo é escrito. É assim que podemos expor seu modelo de aprendizado de máquina Python para outras aplicações que são escritas usando Python. 13. Regressão linear: Então vamos entender a regressão linear através de um exemplo simples. Ao contrário da classificação onde prevemos a classe da saída. Aqui nós prevemos valores contínuos. Por exemplo, se este gráfico mostra qual é o preço do carro para um determinado número de cilindros, em seguida, dado um número de cilindros, podemos prever o preço do carro? Este tipo de previsão é chamado de Regulamento. Agora, dado estes pontos de dados, como determinar o preço do carro de um carro novo para um certo número de cilindros? Usando regressão linear, podemos facilmente resolver esse problema. Regressão linear não é nada além de tentar encontrar a linha que melhor se encaixa nesses pontos. E como determinamos essa linha? É calculado com base em uma fórmula chamada Y é igual a mais bx, onde a é o intercepto e b é o coeficiente da linha. Agora para ele precisa de novo ponto, se sabemos o valor x, então podemos facilmente determinar o valor y usando esta fórmula. Scikit-learn e outras bibliotecas de aprendizado de máquina, eles fornecem uma classe usando a qual você pode alimentar diferentes pontos de dados e obter essa agressão ou o preditor. Como o modelo determina a linha mais adequada? E como sabemos a precisão da previsão? Então isso é feito por um conceito simples chamado r-quadrado, que também é conhecido como coeficiente de determinação. O que isso significa é quão boa é a linha em comparação com a linha que é representada pelo valor médio de todos os pontos. Por exemplo, se esse for o valor médio de todos os pontos de dados, também podemos prever usando esse valor médio. Mas se estamos chegando com uma nova regressão linear de largura de linha, precisamos ver o quão boa é essa faixa em comparação com esta linha. Agora calcular o conceito de valor R-quadrado é simples. Você calcula qual é o erro para cada um dos pontos. Isso significa que a linha está longe do valor real? Por algum ponto? Se este for o valor real, o apontado com a linha vermelha vertical intercepta a preditora é o valor previsto. A distância em vermelho representa a perda ou o erro na previsão. Você calcula a perda para cada ponto. Faça um quadrado disso, e adicione-o, você obtém a soma de resíduos que é mostrado no numerador aqui. Da mesma forma, você calcula a distância da linha média do valor real que é representado em verde aqui. Então isso é soma dos quadrados acima totais menor o erro menor é o valor da soma do quadrado de resíduos. Assim, o numerador tenderá a 0. Quando o modelo se torna mais preciso. Isso significa que o valor quadrado R seria mais próximo de um para uma modelagem de maior precisão. Então, maior a parte da janela quadrado melhor é a precisão. E R-quadrado nunca pode Maxwell loop um. R-quadrado também é conhecido como coeficiente de determinação. Você pode ou não lembrar a fórmula exata de R-quadrado. Mas para qualquer modelo, você encontrará um método para obter o valor R-quadrado. Hollywood para verificar é se é perto de um ou não. Se o valor estiver próximo de um, então você sabe que seu modelo é muito preciso. Vamos aplicar esse conceito e resolver um caso de uso. Em seguida, vamos ver como extrair fórmulas e, em seguida, usar a fórmula para prever a saída para novo conjunto de valores. Temos um novo conjunto de dados chamado house prays dot csv. Portanto, são dois campos, distância e preço. Então distância representa o que é a distância da casa do centro da cidade e, e representa o que é o preço da casa. Então, como você pode ver, são maiores a distância menor é o preço. Agora, como calculamos como pulverizações de uma nova casa, que está a uma distância particular do centro da cidade. Precisamos construir um modelo de aprendizado de máquina usando a técnica de regressão linear, que você aprende com esses dados e criar um modelo usando o qual podemos prever jogadas domésticas para um novo conjunto de dados. Vamos importar as bibliotecas padrão. Desta vez, também importaremos matplotlib para que possamos traçar o preço da casa e a distância. Em seguida, vamos carregar o conjunto de dados para um DataFrame Pandas. Então, como você pode ver, o anúncio carregado para o pandas DataFrame. Vamos descrevê-lo para obter alguma informação estatística. Podemos ver que existem 40 registros e a média, desvio padrão e outros valores. Vamos separar as variáveis independentes e dependentes. X terá a distância para o centro da cidade e por que você deixou o preço da casa. Neste ponto. Também podemos traçar o preço da casa e a distância para ver como ele fica em um gráfico. Podemos ver que há uma relação linear. À medida que a distância aumenta, os preços das casas vão para baixo. E isso é de uma forma linear. Agora, usando regressão linear terá que encontrar uma linha que melhor representa esses pontos. E usar isso irá prever a saída para novos pontos de dados. Vamos comentar por enquanto. Vamos executá-lo novamente. Agora usando scikit-learn trem test split irá criar os dados de treinamento e dados de teste usando 32 registros para treinamento e oito registros para testes. Scikit-learn fornece em classe de regressão linear usando o qual podemos criar um objeto de regressão que será o nosso modelo. Então esta agressão é a linha ou o modelo que foi treinado nos dados de treinamento. A partir da regressão, podemos facilmente calcular o valor R-quadrado. Há um método de pontuação que nos dá o R-quadrado. Irá imprimir o valor quadrado R é 0,807. A partir do regressor, podemos facilmente determinar o coeficiente de interceptação para a nossa interceptação é 610710. Vamos agora pegar o coeficiente. Coeficiente é menos 72635 porque nossos preços de casas vão para baixo à medida que a distância aumenta. Então é aí que somos um único coeficiente negativo. Agora, qualquer um que queira usar nosso modelo pode pegar essa interceptação e coeficiente e obter o preço da casa. Nós não precisamos enviar-lhes a classe regressor em formato binário ou exportar esse modelo. Tudo o que precisamos compartilhar é a fórmula. Assim, nossa fórmula torna-se Y igual interceptação mais coeficiente multiplicado por x. então é a sequência 610710 menos 72635 multiplicada pela distância irá primeiro prever usando o método preditor, irá alimentar os dados de treinamento para o regressão e obter a previsão. Então este é o preço previsto da casa. Vamos comparar com o lugar da prisão. Podemos ver que, para alguns casos, é muito próximo. Em alguns casos, é um pouco fora do preço real. Estes são os preços reais, estes são os valores previstos. Também podemos traçar o valor previsto e o valor real. Criado um gráfico disperso para os valores reais por gráfico de linha L de período de valor previsto. Então esta linha representa nosso grau ou nosso preditor. Agora, para qualquer novo ponto, podemos facilmente determinar o preço da casa dada a distância para os cidadãos. Vamos agora prever o preço da casa para uma casa que está 2,5 milhas de distância do centro da cidade. O valor está chegando em torno de 1449100 para 0. Também podemos obter a mesma saída usando a fórmula y equivale a interceptar mais coeficiente multiplicado pelo valor X. Então temos quatro a 91 a 0. Agora, para compartilhar este modelo com qualquer um, podemos compartilhar a fórmula. Também podemos criar arquivos pickle e criar APIs de descanso, mas esta é uma das opções que está disponível para exportar modelos de regressão linear.