Ciência de dados em Python | Vishal Rajput | Skillshare

Velocidade de reprodução


1.0x


  • 0.5x
  • 0.75x
  • 1x (Normal)
  • 1.25x
  • 1.5x
  • 1.75x
  • 2x

Assista a este curso e milhares de outros

Tenha acesso ilimitado a todos os cursos
Oferecidos por líderes do setor e profissionais do mercado
Os temas incluem ilustração, design, fotografia e muito mais

Assista a este curso e milhares de outros

Tenha acesso ilimitado a todos os cursos
Oferecidos por líderes do setor e profissionais do mercado
Os temas incluem ilustração, design, fotografia e muito mais

Aulas neste curso

    • 1.

      Introdução ao curso de ciência de dados

      3:05

    • 2.

      Como explorar conjuntos de dados do Kaggle

      5:39

    • 3.

      Pré-processamento de dados usando Pandas

      29:39

    • 4.

      Arrays inflexíveis

      47:17

    • 5.

      Funções inflexíveis em Python

      18:24

    • 6.

      Estatísticas para ciência de dados

      24:07

  • --
  • Nível iniciante
  • Nível intermediário
  • Nível avançado
  • Todos os níveis

Gerado pela comunidade

O nível é determinado pela opinião da maioria dos estudantes que avaliaram este curso. Mostramos a recomendação do professor até que sejam coletadas as respostas de pelo menos 5 estudantes.

34

Estudantes

--

Projeto

Sobre este curso

Ciência de dados é um dos campos mais emergentes em TI. Aprenda ciência de dados implementando conceitos em programação Python e se tornar um cientista de dados.

O que você aprenderá?

  • O que é Ciência de Dados?
  • Técnicas de pré-processamento de dados
  • Agregação de dados
  • Amostra de dados
  • Python

Conheça seu professor

Teacher Profile Image

Vishal Rajput

Programming Instructor from India

Professor

I am a software developer with 4 years of experience in making products and working for startups.

I am a passionate teacher and educator at ThinkX Academy. I have experience in making good content for students to help them learn programming and get jobs in IT sector or build your own products.

Enroll in my classes to get in love with programming!!

Happy Coding :)

Visualizar o perfil completo

Level: Intermediate

Nota do curso

As expectativas foram atingidas?
    Superou!
  • 0%
  • Sim
  • 0%
  • Um pouco
  • 0%
  • Não
  • 0%

Por que fazer parte da Skillshare?

Faça cursos premiados Skillshare Original

Cada curso possui aulas curtas e projetos práticos

Sua assinatura apoia os professores da Skillshare

Aprenda em qualquer lugar

Faça cursos em qualquer lugar com o aplicativo da Skillshare. Assista no avião, no metrô ou em qualquer lugar que funcione melhor para você, por streaming ou download.

Transcrições

1. Introdução ao curso de ciência de dados: Olá a todos, bem-vindos às pontuações da Data Science. Neste curso, abordaremos todos os aspectos práticos da ciência de dados. Na verdade, isso é baseado em projetos também ao vivo em B, na verdade lances em um projeto e usamos os conceitos em ciência de dados e o aplicamos a esse projeto. Após o término deste curso, você poderá entender todos os conceitos importantes da ciência de dados, que incluem análise de dados, pré-processamento de dados e técnicas de visualização. Então basicamente x plus certo? Ou isso significa O que exatamente é ciência de dados? E eu lhe darei uma visão geral do que exatamente você vai abordar neste curso. Primeiro de tudo, você pode ver que a ciência de dados é sobre extrair conhecimento e insights de dados barulhentos e não estruturados usando alguns itens e alguns processos. Basicamente, existem muitas empresas e há muitas indústrias que realmente usam diferentes tipos de dados. Eles têm milhões de registros. Para estruturá-los à mão, você extrai o conhecimento para o benefício de seus negócios. Eles exigem algumas técnicas de visualização de dados, técnicas de pré-processamento de dados também, porque a ciência é os pés crescentes e emergentes e muitas oportunidades para cientistas de dados. E todo esse período está aumentando a norma na indústria. Durante este curso, vou tentar o meu melhor para lhe dar uma prática oculta sobre como realmente implementar todos os conceitos que são construídos na ciência de dados. Vamos começar o médico respondeu meu discurso de sal, o importador de fosfato para escalar é a luta e Browning. Além disso, começaríamos com a programação Python. Concordo com alguns conceitos básicos de 500 vídeos neste curso, você poderá entender esses Oreos de especiarias. E depois disso, você poderá começar a usar a ciência de dados em seis. Tudo bem, então o próximo requisito é dedicação, já que a análise de dados é muito antiga e McDonald's porque eles compraram que você tem boa quantidade de férias. Para entender o que é o conjunto de dados, entender quais são as técnicas que você terá que encontrar um conjunto de dados. Todo bem que eu disse vai ser diferente do outro e tem que haver maneiras diferentes e técnicas diferentes. Serão processados esses dados, analisarão os dados que exigem muita dedicação. E essa é a razão pela qual esse é um campo emergente. Agora vamos ver quais são as ferramentas que usaremos por muito tempo a validade, como suponho, não estaríamos usando programação piloto e algumas lutas ambulantes e bibliotecas. Podemos usar o Jupyter Notebook, que na verdade é o seu tipo de IDE em um megabase oito, o outro à direita, o antigo convidá-los a analisar diferentes conjuntos de dados. O calcanhar escalonou para fazer depois de baixar os conjuntos de dados importantes e dar uma olhada no que exatamente podemos fazê-lo. Em seguida, tem algumas bibliotecas importantes como a biblioteca de pandas, o scikit-learn, que é muito moderno, reprocessa os dados, trazendo também uma experiência que você pode ver. Sua cavidade FEV1 e Microsoft aqui é usada para visualização de dados que temos algumas bibliotecas de aconselhamento como TensorFlow, Python usando aprendizado profundo. Também fazendo alguns embelezamentos como classificação florestal aleatória, árvores de decisão e alguns modelos de aprendizado de máquina. E também, você faz isso nesses conjuntos de dados, em grande parte abordando e coisas muito práticas que estão dispostas a vir neste curso. Então, vejo você nos próximos horários do tutorial. A lógica. 2. Explorando os dados.: Este é o primeiro vídeo deste curso. Essas pontuações de ciência de dados e v vão realizar muitas coisas, como pré-processamento de dados, visualização e muitas coisas, como amostragem de dados, agregação, redução de dimensionalidade, todas essas coisas que você vai fazer. Mas antes de começar com qualquer um dos conceitos, quero primeiro familiarizá-lo com o site da Kaggle, que é kaggle.com. Então, vou lhe dar todas as vantagens de usar o cálculo e por cada ciência de dados entusiasta usa escápula. Primeiro de tudo, você precisa ir ao website.com. E aqui Kaggle é basicamente um site que fornece muitos conjuntos de dados e muitas coisas que são realmente úteis para todos os alunos que querem aprender e todos os alunos que também queria competir, certo? Então as competições também estão lá. Então, antes de tudo, você pode ver neste var aqui, aqui temos o conjunto de dados. Então, se eu clicar aqui, você pode ver isso nos mostra uma lista de alguns conjuntos de dados de treinamento que você pode ver os dados falados, dados de ações do Google. E há muitos conjuntos de dados populares que você pode ver aqui, como Boston Housing, NSL, KDD, classificação de preços móveis. Então, basicamente, em todo o curso, vamos realmente realizar muitas coisas, como pré-processamento de dados. Para isso, vamos pegar conjuntos de dados diferentes e diferentes do Kaggle. A razão para fazer isso, de fazer isso é porque quando você tem diferentes tipos de conjuntos de dados que você tem, você enfrentará diferentes tipos de desafios. E isso realmente ajuda você a valorizar ou habilidades de ciência de dados quando você está realmente estudando ciência de dados. Por exemplo, digamos que você tenha um conjunto de dados e queira ver como há alguns, digamos que um ASR disponível em nosso conjunto de dados e há alguns itens duplicados nesse conjunto de dados. Todos há outros desafios também. Então, para isso, se você escolher conjuntos de dados diferentes e diferentes, você terá uma boa exposição sobre diferentes tipos de desafios que você pode enfrentar em sua carreira de ciência de dados também. Então, vamos pegar vários conjuntos de dados e eu escolherei vários conjuntos de dados e eu escolherei esse conjunto de dados para resolver ou apenas mostrar que você deve certos conceitos. E aqui você pode ver que temos esses conjuntos de dados. Também tem alguns cursos e asma. Existem outras coisas, como competições também. Basicamente, Kaggle é como um GitHub é para desenvolvedores, então o Kaggle é para ciência de dados. Então, temos algumas competições aqui. E estes também são baseados em preços. Então você pode realmente obter algum dinheiro se você participar deles e você, quando essas competições, você pode ver que esses são alguns dos cálculos aqui. Agora temos cursos, alguma parte fria agora interessante aqui no cálculo que você vai usar a programação Python para basicamente escrever e fazer todos os dados, reprocessar, analisar coisas. Então, para isso, você nem precisa criar um ambiente Python inteiro. Você pode clicar em Criar aqui. E aqui você pode simplesmente ir e clicar diretamente no novo livro de carregamento e você pode criar seu próprio caderno, certo? Então, essa é uma coisa interessante. Você pode fazer isso diretamente neste notebook, que é o ambiente Python, também lhe dará acesso à biblioteca do Panda, scikit-learn, para que você não precise instalá-los manualmente em seu próximo top. Aqui você pode ver que temos alguns conjuntos de dados. Uma parte interessante que vou mostrar aqui é que esse conjunto de dados que levará algum tempo para carregar aqui. Aqui temos alguns rankings de usuários progressão e tudo isso. Então, vamos dar uma olhada em alguns conjuntos de dados aqui. Ok, então aqui temos a Boston Housing. Então, eu só vou clicar neste. E aqui você pode ver que isso abrirá em um minuto. Vi tem diferentes tipos de conjuntos de dados e não realmente esses conjuntos de dados. As pessoas, a comunidade de carga , publicam muitos de seus próprios cadernos e suas formas de analisar dados no Kaggle. O que você pode fazer é poder, você pode ver que existem cadernos e você pode aprender com eles. É realmente uma coisa muito boa. Assim como você está vendo o código de alguém no GitHub e está aprendendo com ele aqui. Acho que preciso atualizá-lo. Está aberto agora. Então, aqui você pode ver que ele mostra os dados. Você pode ver que os dados estão no formato CSV de ponto e esse é todo o conjunto de dados. Mas a parte interessante aqui é a pontuação, uma guia aqui. Então, se você ficar frio, você poderá ver que há muitas pessoas fora dessa comunidade de andaimes para quem ela puxa todas para visualizar ou pré-processar esses dados, certo? Então, clique em seguida neste , que está aqui. Você pode ver que ele mostra que este é o caderno e essas são as bibliotecas que este notebook usou. Vamos usá-los em todo esse curso. Estou apenas dando a você uma essência de como exatamente você pode usar o Goggle de como exatamente você pode usar o Goggle porque é uma ferramenta muito importante para todos os cientistas de dados. Então você pode ver que temos ponderadores Mark Floyd, seaborne para visualização de dados e ficção científica. E aqui você pode ver que essa pessoa escreveu seu próprio código aqui e para visualizar o conjunto de dados e entender e, e para traçar o conjunto de dados. Você pode ver tudo aqui e encomendas também aqui. Você pode ver que também é bom. Portanto, é uma plataforma muito boa para aprender ciência de dados. Basicamente, vamos, vou ensinar todas essas funções e todas essas complexas, graças a vocês. Então você não precisa se preocupar com isso. É só que estou te dando uma ideia do que exatamente você pode esperar deste site da Kaggle. Então, basicamente, isso é tudo para este tutorial. No próximo tutorial, começaremos pegando um conjunto de dados e importando-o usando a biblioteca Pandas em Python. Então isso é tudo para este tutorial. Obrigado por assistir. 3. Primeiros passos com Pandas: Neste vídeo, vamos discutir algumas das funções muito importantes da biblioteca Pandas. E discutiremos quais são exatamente as coisas que podemos fazer e usar usando, usando a biblioteca Python e Pandas para análise importante de dados e compreensão e extração de forma de conhecimento de um determinado conjunto de dados. Então, este será um tutorial muito importante. E este, vamos cobrir algumas das funções muito básicas. E à medida que passaremos para este curso, exploraremos algumas tarefas mais importantes do que algumas tarefas complexas que podem ser feitas facilmente usando a biblioteca Pandas. As primeiras coisas para nós precisamos acionar o Jupyter Notebook. Então aqui eu o Jupyter Notebook Open e aqui precisamos criar um novo Notebook Python usando a árvore Python. Eu já criei um que é pelo nome pi bond como central. E o que precisamos fazer é que só precisamos abrir este aqui. Então agora aqui podemos escrever o programa Python e podemos executar todas as tarefas de ciência de dados que queremos fazer aqui, certo? Então, a próxima coisa é baixar o conjunto de dados. Aqui você pode baixar qualquer conjunto de dados de sua escolha. Eu baixei o conjunto de dados Preços da Habitação de Boston e ele está disponível no google.com. E também darei todo o link para isso. Na descrição deste vídeo. Você pode baixá-lo de lá. E aqui eu tenho uma pasta nomeada como dados de habitação. E você pode ver que temos um ponto de habitação CSV aqui. Se eu quiser, primeiro terei que ver como esse conjunto de dados se parece. Então, para isso, vou abri-lo aqui. Então, a primeira coisa que podemos ver aqui, existem algumas colunas neste conjunto de dados e há muitas linhas neste conjunto de dados. O que queremos fazer é garantir que este CSV de ponto de habitação que criamos, vamos criar um DataFrame que realmente usará todo esse conjunto de dados e ele irá importá-lo aqui em Caderno Jupyter. E o que quer que façamos nesse DataFrame, isso não afetará nossos dados originais. Então, mesmo que algo dê errado aqui na programação Python, se fizermos algo errado aqui, isso não afetará os dados originais. Então, as primeiras coisas primeiro, vamos importar a biblioteca de pandas. Então, vamos usar o comando import pandas. E desde então podemos atribuí-lo como Elias ou um nome aqui, que é BD, certo? Então, sempre que quisermos usar a biblioteca de mineiros, podemos usar o atalho SPD. A primeira coisa é que precisamos criar um DataFrame. Vamos chamar isso de ds. E esse DataFrame realmente manterá o conjunto de dados do nosso ponto de alojamento csv. Então, vamos ver como podemos importar o conjunto de dados aqui. Então, usaremos pd dot read underscore csv função, que é uma função incorporada da biblioteca Pandas. E aqui podemos especificar o caminho para os dados da habitação, que estão nesses dados de habitação de Boulder. E o nome do arquivo está alojando ponto csv. Então aqui você pode ver que eu importei todo o conjunto de dados aqui. E este DataFrame, que é variável DF aqui ele vai manter todo o conjunto de dados aqui, que são as linhas e as colunas do alojamento dorsi. Agora, a primeira passagem que vamos ver é encontrar a primeira, digamos, cinco linhas desse conjunto de dados. Esta é a primeira parte que queremos fazer. Para isso, podemos usar uma função muito útil, que é a função head. Cabeça significa as regras iniciais. Então aqui posso especificar qualquer número aqui. Então, digamos que queremos especificar cinco. Agora, se eu pressionar Control Enter. Agora você pode ver aqui , ele me mostrará as primeiras cinco linhas deste DataFrame, que é Bf. Agora lembre-se de que eu já disse que se fizermos alterações nesse conjunto de dados, digamos que eu altere qualquer valor desse DataFrame, que é df. Isso não afetará os dados e o ponto de alojamento csv. Então, mesmo que quiséssemos fazer alguma alteração, temos uma linha separada para aquilo que podemos fazer isso. Mas aqui, a essência média é que podemos fazer qualquer coisa aqui, como tarefas de pré-processamento de dados e tudo mais, e isso não afetará os dados originais. Então, é assim que podemos ver como podemos extrair as primeiras 54 linhas usando a variável head. Agora vamos passar para a próxima função muito importante, que é a função de cauda. Digamos que agora queremos descobrir o primeiro, digamos que as últimas cinco linhas desses dados. Ok, então estamos basicamente fazendo isso porque é muito importante que, quando recebemos um conjunto de dados, nós o analisamos muito bem. Nós, usaremos essas funções com muita frequência dentro de nossos programas de ciência de dados, o que quer que escreva aqui, porque digamos que eu queira executar alguma tarefa de pré-processamento de dados e agora eu quero ver quais são as mudanças no conjunto de dados. Portanto, não preciso carregar todo o conjunto de dados aqui. Posso carregar as primeiras quatro ou cinco leis e posso ter uma ideia de como isso mudou o conjunto de dados. Portanto, é muito importante. Agora, vamos descobrir quais são as últimas cinco linhas desse conjunto de dados. Você pode ver quando eu pressionarei Enter, Control Enter, você verá que há último por linhas. E aqui você pode ver esse estágio em que existem 488 regras e dentro desse conjunto de dados. Função tão importante aqui. Agora vamos passar para algumas outras funções também. A primeira função importante é a função de forma. E não é realmente uma função, é uma propriedade. Então, se eu pressionar Control Enter, você poderá ver a forma do ponto df. Isso me dá esse resultado aqui. Este resultado afirma que existem 489 leis, existem quatro colunas. Esta é uma propriedade muito importante porque na maioria das vezes não vamos abrir todo o conjunto de dados. Podemos simplesmente acionar essa propriedade de forma e podemos saber qual é o número de linhas e colunas dentro do nosso conjunto de dados. Agora, vamos passar para uma função muito importante, que é a função descrita. Eu vou Controlar Enter aqui. Agora, quando usamos a função de descrever em qualquer detalhe, é uma função muito importante e uma ferramenta muito importante para cientistas de dados que realmente usam isso para entender o conjunto de dados. Você pode ver aqui essas são as quatro regras desse conjunto de dados. As primeiras quatro colunas, que é ímpar m, é a proporção de pilha B3 e me fez certo. Então, aqui podemos ver que quando usamos a função describe, ela nos mostra contagem média. Std significa desvio padrão com um constante. Esses termos significam e desvio padrão em um vídeo separado porque são muito importantes na ciência de dados. Então temos homens 2550% e no máximo. Agora, o que nos dá, ele realmente descreve todo o conjunto de dados e nos dá uma ideia do que será a média de toda a coluna aqui. Então você pode ver que átomo, átomo é uma coluna inteira e a média dessa coluna é 6,2 para o desvio padrão é 0,6 para alguma coisa, e o elemento mínimo é 3,56 alguma coisa. Esses são os valores que são muito cruciais na visualização de dados também. Então, quando queremos visualizar nossos dados, também precisamos ver quais são os desvios padrão, os meios e todas essas coisas, certo? Então, esta é novamente uma função muito importante, que é a função descrever. E vamos passar para algumas outras funções cruciais. A primeira função que vamos fazer é a função drop, que está no DFS got drop. Aqui. Vamos especificar uma coluna. Então, digamos que eu queira soltar o átomo da coluna. Então, vou especificar o item aqui. Agora, o que vou fazer é especificar o eixo. Então o eixo um significa coluna. Se o acesso for igual a 0, isso significará que ele está em estado baixo. Então aqui eu especifiquei o eixo igual a um porque eu queria especificar que o item é realmente de coluna se fosse um não, se phi 0 aqui. Agora aqui, se eu quiser remover esse conjunto de dados, certo? Então, se eu pressionar Control Enter agora você pode ver que esse conjunto de dados agora tem apenas três colunas, se m é removido. Tudo bem, então aqui você pode ver que temos esse RMD movido para cá a partir do conjunto de dados. Agora, uma coisa importante que você notará aqui é que, se eu der uma olhada no df.head, se eu me lembrar dessa função e se eu pressionar Control Enter, você poderá ver que o item ainda está lá neste DataFrame. Agora, isso significa que ele está realmente removendo-o temporariamente e não permanentemente deste DataFrame. Então, isso significa que teremos que fazer algo para que ele seja realmente removido deste DataFrame. Agora, existem duas maneiras de fazer isso. Na verdade, podemos reatribuir DFS, df é igual a df dot drop. Então, agora, se eu chamarei a função df.head. Agora você pode ver que ele removeu a coluna RM daqui. Esta é uma maneira, mas tenho uma maneira mais conveniente aqui. Em vez de fazer isso vf igual a isso, podemos usar outro parâmetro aqui que está em vigor. É igual a verdadeiro. Então vamos executar isso. Na verdade, ele removerá os dados, ganhará essas colunas de átomo do conjunto de dados. E no local é igual a verdadeiro significa que ele o removerá no lugar do DataFrame. Então, agora, se eu pressionar Control Enter, você pode ver claramente aqui que o item é realmente movido, certo? Então é, o uso desse parâmetro no local é certo? Agora vamos passar para algumas outras funções importantes também. A próxima coisa importante é que também podemos usar é df três. Vou pressionar Control Enter. Você pode ver que isso me dará as três primeiras linhas, certo? Então, em vez de usar a cabeça, também podemos usar essa declaração que é df, depois colchetes, e temos dois pontos aqui e depois três. Este é um. Outra maneira de fazer não se você não quiser escrever a função head, você também pode usar isso. É mais rápido na natureza. Então, agora vamos passar para algumas outras funções, como excluir as primeiras colunas, certo? Então, vamos executar essa tarefa. Agora, digamos que você queira remover essas duas ou três primeiras colunas de um conjunto de dados. Então, como você vai fazer isso? Vamos dar uma olhada nisso. Agora temos a função DFT e, obviamente, vamos usar a função drop aqui. Medicare os parâmetros vão mudar. A primeira coisa é que vou escrever colunas. E especificarei essas colunas de parâmetros. Então, terei que especificar todas as colunas em que quero acreditar. A maneira de fazer é usar colunas é igual a df.columns. Aqui posso especificar o número de colunas. Então, se eu quiser acreditar nas duas primeiras colunas, terei que usar dois pontos. E você pode ver aqui eu vou ter que escrever para ele. Agora. O próximo parâmetro é eixo. Lembre-se de sempre especificar o eixo porque ele especifica se temos linhas ou colunas. Quatro colunas, temos o eixo um. Para linhas, temos o eixo 0. E, obviamente, o último é o parâmetro in-loco x. Eu vou direto por aqui. Agora, se eu vou tentar escrever df.head. Agora você pode ver que ele removeu as duas primeiras colunas do nosso DataFrame. primeiro fazer é realmente representado usando esses dois pontos e dois. E aqui temos df.columns. Então, especificamos as colunas usando essa função df.columns. Agora vamos ver como podemos excluir as últimas n colunas. Excluir e última coluna. Então, digamos que você tenha uma tarefa na qual deseja excluir as duas ou três últimas colunas do conjunto de dados. Mais uma vez, usaremos a função drop. Portanto, essas são basicamente, você pode ver as variações da função drop e elas são muito cruciais porque você usará essas coisas importantes diariamente quando estiver analisando o conjunto de dados. Então, se quisermos as últimas N últimas colunas, na verdade para nós, teremos que especificar que queremos soltar as colunas. Para isso. Vou usar novamente df.columns. Bem aqui. Vou especificar, digamos menos um contra especificar o eixo, que será um. Porque a exclusão de colunas e no local é igual a true. Agora, aqui o que vou fazer é dar uma olhada no conjunto de dados em si. Tudo bem, então você pode ver aqui, quando eu especificar menos um, ele excluirá uma coluna do final. Então você pode ver a última coluna que foi feita foi, agora é excluída dela, certo? Então, se eu escrever dois aqui e executá-lo novamente, você pode ver um menos dois com a coluna é removido. Na verdade, ele está removendo uma coluna nessa posição de índice. Então, teremos que especificar dois pontos aqui. Porque se não especificarmos a coluna, ela não excluirá as últimas n colunas, certo? Ele excluirá apenas a coluna e o índice menos dois que está aqui. Agora, se eu acertar isso agora, você pode ver que ele está realmente tentando excluir algumas das colunas aqui, certo? Assim, você pode ver que as duas primeiras colunas foram excluídas. Aqui. Posso fazer mais uma coisa. Vamos dar uma olhada no que acontecerá se eu escrever aqui e dois pontos, certo? Agora você pode ver que, se eu escrever dois e for, pontos estão no final, as duas últimas colunas foram excluídas. Assim, você pode experimentar essas variações diferentes e diferentes para dar uma olhada no que exatamente podemos fazer dentro do conjunto de dados porque é muito importante. Dois pontos significa que estamos excluindo as primeiras n colunas. E se ler eu faço dois pontos, ele excluirá as últimas n colunas do nosso conjunto de dados. No DataFrame, não no conjunto porque o conjunto de dados está intacto, certo? Então, agora vamos passar para outras coisas também, o que é vamos tentar excluir linhas do nosso quadro de dados. Temos o quadro de dados aqui. Este é o nosso DataFrame. E digamos que queremos acreditar primeiras n linhas desse novo quadro de dados. Agora vamos ver como podemos fazer isso. Agora. Mais uma vez, usaremos a função drop. A função é, na verdade, uma função muito importante para exclusão. Então df dot dot drop. Agora lembre-se de que aqui queremos, não queremos excluir a coluna, então não vamos usar colunas iguais a duas. Vamos usar a função df.head. Digamos que queremos excluir as três primeiras linhas do nosso conjunto de dados, então eu fornecerei isso. Agora, o próximo parâmetro importante é o eixo. Agora o acesso é baixo, os solos são realmente 0 e o último parâmetro está no lugar, o que é verdadeiro. Vamos dar uma olhada nisso. Tudo bem, então agora você pode ver que é específico. Ele mostra aqui que temos uma edição aqui, que é que você pode ver nem encontrar no acesso. Então, o que teremos que fazer aqui, df.head dot index, teremos que especificar o índice aqui. Então só ele acreditará nas três primeiras linhas, certo? Então df.head três significa as três primeiras linhas deste DataFrame. índice de pontos dará a ele o índice, o valor e, na verdade, soltará as falsas três funções. Então você pode ver que em nosso DataFrame, estou mostrando as primeiras fotos. Portanto, as primeiras fotos não estão a partir de 0123, está a partir de 3456 aqui. Se eu especificar cinco aqui você pode ver o conjunto de dados mudará, certo? Então, as primeiras cinco linhas, as linhas serão excluídas dessa forma. Agora vamos ver como podemos excluir as últimas n linhas. Eu posso fazer isso aqui apenas usando o método da cauda. Então d de cinco nos dará as últimas cinco linhas do DataFrame. E o índice de pontos realmente nos dará disfunção o índice da quinta e última quinta coluna e vai deixá-los cair. Então agora, se eu vou escrever aqui em vez de cabeça, se eu vou escrever rabo. Agora você pode ver que nosso conjunto inicialmente tinha 488 linhas, e agora está mostrando que a última é 4083, que significa que ele removeu cinco linhas do nosso quadro de dados. Portanto, é assim que podemos excluir primeiro e linhas e as últimas dez regras usando a função df.head dot index. Df dot, função de índice de pontos. Certo? Então agora vou entrar nisso porque agora vamos passar para algumas outras funções importantes também. Agora vamos ver como podemos realmente resolver as colunas. Isso é uma coisa muito importante. A classificação de colunas com base em, digamos, nomes ou seus valores numéricos em ordem crescente ou decrescente é muito importante. E você vai fazer isso com muita frequência nos conjuntos de dados. Para isso, temos uma função simples que é a função de valores de classificação. Vamos escrever valores de classificação de pontos df. Agora, o que faremos é que eles terão que especificar a coluna usando, por, digamos que queremos classificar o volume RM, certo? E você pode ver que esta é a coluna do item. E aqui temos 5.796, depois 5.859. Depois de classificar isso, ele vai mudar na ordem crescente, certo? Então, por item. Agora, a próxima coisa que precisamos especificar é apenas o método in-place, o que será verdade, certo? Agora vou apenas exibir df.loc. E aqui vou especificar fatia aqui. Agora você pode ver que isso realmente tem, vamos tentar na cabeça aqui. Agora você pode ver que essa variável de item agora está classificada. Portanto, esse é o principal uso da função de valores de classificação. Na verdade, ele classificará todos os valores e todos os valores dessas colunas RM. Então você pode ver que agora é 3.5613.863 e dessa maneira. Então, é assim que a função de valores de classificação funciona. Agora, digamos que queremos soltar alguns valores duplicados dentro do nosso DataFrame. Então, digamos que temos um DataFrame onde existem alguns valores duplicados dentro de uma coluna. Então, vamos ver como podemos fazer isso. Vou comentar isso, e também entrarei neste. Agora vamos passar para como soltar duplicatas. Queríamos descartar os itens duplicados do DataFrame que temos. Novamente, uma função muito simples, que é a função de duplicações de sublinhado BF obteve queda. Escreveremos no lugar igual a verdadeiro. Então, o que ele fará é remover todas as duplicatas de um DataFrame. Agora, como neste conjunto de dados não temos duplicatas, não podemos ver isso em ação. Mas o que você pode fazer é, eu lhe darei uma tarefa muito simples. Você pode realmente abrir o arquivo CSV de ponto de alojamento e criar alguns valores duplicados dentro dele e, em seguida, usar essa função d de duplicações de ponto e ponto. E você pode então ver e visualizar como ele descartou esses valores duplicados no lugar igual a true significa que ele está realmente disposto a fazer alterações no DataFrame original. Tudo bem, então essas foram algumas das funções importantes, excluir, algumas triagens e muitas coisas que elas são agora a tarefa muito importante, que muitas das quais são muito importantes como conhecido como fatiamento. O corte envolve duas funções muito importantes aqui, que é a função LOC e existe a função Lucy. Então, LLC basicamente significa localização. Existem dois métodos, LOC e Lucy dos Pandas DataFrame, que na verdade nos ajuda a cortar as colunas e linhas. Porque às vezes, quando você está analisando um conjunto de dados, você não deseja analisar todo o conjunto de dados. O que você quer analisar? Parte básica e simples desse conjunto de dados. Então você quer cortar isso para poder visualizar isso e fazer muitas coisas com isso. Tudo bem, então vamos ver como podemos usar a função LLC e I LOC. A primeira coisa é que usaremos a função df.loc. E aqui vamos especificar 04. Agora vou especificar os nomes das colunas aqui, que é RM. E digamos que especificaremos mais uma coluna. É LSAT. O que ele fará é que ele realmente cortará todo o conjunto de dados. 0 significa as primeiras quatro linhas e as colunas que eu quero duas fatias, RAM e como sag, certo? Se eu apenas escrever a função de forma de ponto df, se eu pressionar OK. Então aqui você pode ver que não é tão triste quanto isso aqui, então isso foi um erro. Agora você pode ver aqui isso me mostra que temos esse df. Vou pressionar Control Enter. Você pode ver que esse é, na verdade o conjunto de dados de fatia de todo o conjunto de dados. Ele escolheu apenas essas duas colunas, que é nossa pilha MNL. E o intervalo das linhas é de 0 a quatro. Então eu posso realmente mudá-lo para, digamos de dois para seis. E se eu apertar Enter, você pode ver que 23456, certo? Portanto, as leis são de duas a seis e as colunas são marcas RM e S. Portanto, é um bloqueio muito importante. Na verdade, não é uma função, é um localizador. Então, LLC basicamente significa que localizado em localizará esses dois índices usando esses dois índices e foi cortá-lo para baixo. Então, o que podemos fazer é atribuir dfs como ds igual a este. Se eu tentar exibir df.head, isso me mostrará isso. Podemos realmente cortá-lo e podemos reatribuí-lo ao DataFrame, se quisermos. E aqui temos essa função LOC é função muito importante e estaremos usando essa função se quisermos analisar apenas uma pequena parte do conjunto de dados. Agora temos outro localizador que é o ILC. Lucy é basicamente o mesmo que LLC, mas foi a principal diferença, que é que ela não leva valores extremos. Ele usará apenas os valores numéricos para localizar ou usar os índices, certo? Então, em vez de elementos na pilha, teremos que especificar os valores numéricos. Então aqui, se eu tentar executar um comando muito simples aqui, você pode ver qual é o ILC. De 0 a quatro. Ele vai cortar as primeiras quatro linhas do conjunto de dados. Portanto, aqui não podemos especificar os nomes das colunas em si. Na verdade, podemos fazer o corte deste raio aqui, se eu quiser, simplesmente, são duas vírgulas quatro. E se eu acertar Enter, ok, então temos, não temos quatro colunas aqui. Vamos escrever três. Agora em seguida, pressione Enter aqui. Então agora você pode ver isso significa dois pontos para perder as duas primeiras linhas. E dois pontos três significam as três primeiras colunas. Se eu escrever três dois pontos, significa que temos as últimas três colunas. Você pode, você pode ver que a partir daqui também, usamos sua cauda, que é neste lugar. Você pode ver que estamos usando dois pontos para especificar as primeiras n colunas em pontos para especificar as últimas colunas finais. A mesma coisa que o fornecimento e aderir à função ILC porque a seção de coluna, não podemos especificar isso. Então é por isso que estamos fazendo isso aqui. Então, se eu pressionar Control Enter agora você pode ver que ele só especificará as últimas três colunas. E você pode ver que isso é na verdade em meados dos anos 70, que é a última coluna em si. Então, se eu vou fazer dele um. Agora, no visual me, as últimas três colunas aqui, você pode fazer muitas coisas. Você pode brincar com essa coisa. O que acontecerá se eu especificar aqui, um, digamos 32. Aqui você pode ver que três e não funcionará porque não é bom. Não é um intervalo aqui. Então, terei que especificar, digamos 310. Todas as linhas de três a dez são especificadas aqui. Então, nós tínhamos realmente cortando as leis de três a dez. Aqui. Um a dois significa que ele realmente selecionará as colunas da posição um para a posição dois. Se eu fizer três. Você pode ver que ele selecionará todas as colunas de um a três. Então você pode brincar com esses valores. Você pode especificar alguns valores negativos aqui e dar uma olhada no que acontece no DataFrame e como o corte está acontecendo. E isso ajudará você muito na realização de análises de dados. Também. No próximo tutorial, vamos começar com a tarefa de pré-processamento de dados. E basicamente agora você tem uma boa ideia de como usar a biblioteca de pandas. Certifique-se de experimentar todas essas funções sozinho e dê uma olhada em como a saída está mudando usando a função df dot head ou a função df dot. Você poderá ver as alterações no conjunto de dados. Então isso é tudo para este tutorial. Obrigado por assistir. 4. Arrays de nojos.: Neste vídeo, vamos começar com uma biblioteca muito importante, que é a biblioteca numpy. Então, a primeira coisa que vou fazer aqui é que vou importar numpy como np. Np é basicamente apelido. No tutorial anterior dessas pontuações de ciência de dados, já abordamos uma biblioteca muito importante, que é a biblioteca de pandas. E vimos como podemos fazer vários pacientes usando isso. Agora, vamos executar essas tarefas de pré-processamento de dados nos próximos vídeos. E para isso, vamos usar essas duas bibliotecas importantes, que é a biblioteca NumPy e pandas. Basicamente, se você quiser ver toda a documentação do não-ser, você pode simplesmente ir na organização numpy dot, que é o site oficial da biblioteca NumPy. Você encontrará todas as funções que esta biblioteca é um barco. Agora, já que estamos nos concentrando nas metas da ciência de dados e nas tarefas de pré-processamento de dados. Coletei algumas das funções muito importantes da biblioteca NumPy. E basicamente eu os selecionei de vários projetos que fiz. Então, aqui vamos cobrir todos eles e a maioria deles é muito útil e vamos usá-los nos próximos vídeos. Então, basicamente, existem dois usos básicos da biblioteca NumPy. O primeiro é o número de Alice. E o segundo é a análise numérica ou operações numéricas que queremos realizar. Então NumPy significa Python numérico. Então aqui vamos estar, temos essas duas partes aqui. Mas neste vídeo só vamos cobrir os arrays Numpy. E no próximo vídeo, veremos como podemos realizar operações matemáticas como logaritmo, média de desvio padrão, tudo isso. No próximo vídeo. Vamos começar com a íris NumPy. Então, basicamente, para nós, precisamos entender por que precisamos do NumPy. Então, basicamente, vamos criar uma lista simples. Vou simplesmente criar uma lista aqui, que é a. Ela terá três elementos nela. Ou digamos que esses são os quatro elementos. Então, se já pudermos criar um menor que, digamos que eu imprima isso, imprima o tipo dessa lista aqui. Se eu pressionar Control Enter, você poderá ver que isso pertence à lista de classes usando matrizes. Por que estamos usando Eris? Vamos discutir isso primeiro. Agora, a coisa está na lista. Na verdade, ele não é armazenado em locais de memória contínua. Portanto, esses quatro elementos não são armazenados em uma alocação de memória contínua. Essa é a principal razão pela qual não teremos acesso mais rápido a esses elementos da lista porque eles não são armazenados continuamente dentro da memória. É por isso que precisamos de um por adultos. Como na ciência de dados deseja realizar operações mais rapidamente, queremos acessar esses elementos mais rapidamente. Então, vamos usar matrizes NumPy. E a segunda coisa é que podemos usar algumas das operações matemáticas nesses artistas, como multiplicações matriciais. E podemos até criar matrizes multidimensionais usando o NumPy. Tudo bem, então vamos começar com a primeira transposição, que na verdade é criar uma matriz NumPy. Nenhum array NumPy é, na verdade, MDRD. E MDRD significa matriz n-dimensional. Assim, podemos criar uma matriz n-dimensional usando eles bytes, que é a localização basicamente contínua dos objetos. É o objeto n dimensional. Então vou dizer aqui e objetos dimensionais, certo? Então, vamos ver como podemos criar uma matriz. Então, vou criar um anúncio aqui com o nome ARR. Uma maneira de fazer é usar np dot. E aqui você só precisa especificar os elementos do estudo. Então, se eu especificar uma vírgula, duas vírgulas três, isso será um array NumPy, certo? Então, vamos tentar marcar o tipo disso. Então, saberemos o que isso realmente é aqui. Você pode ver isso mostra aqui que pertence à classe. Portanto, ARR é uma variável e a função de empate nos dará o tipo dessa variável. Então você pode ver que ele define que esta é uma matriz NumPy. Portanto, é uma adição dimensional m por n. Agora vamos ver como podemos descobrir. A dimensão desta configuração, podemos usar a função dim, a função endócrina , que nos mostrará o número de dimensões da Sadie. Sadie tem apenas uma dimensão, que você pode ver aqui, 123. Agora vamos criar outra dimensão aqui usando um coma separado. E vamos especificar outra lista de elementos como 567, certo? Então agora você pode ver que ele diz que o tipo de dados não entendeu. Então, a razão pela qual isso está acontecendo é eles precisam ser incluídos em um único. Que precisamos escrever mais um colchete quadrado aqui, assim, e precisamos fechá-lo aqui. Agora vamos pressionar Control Enter. Agora você pode ver que é uma área bidimensional. Então, se quisermos especificar uma matriz bidimensional, teremos que especificá-la assim. Então, a primeira dimensão terá esses três elementos. A segunda dimensão terá esses elementos. Se eu quiser criar mais dimensões, vou incluí-las nesse site de colchetes. Mesmo que eu queira aumentar a dimensão desses dois elementos, essas duas listas, o que posso fazer é simplesmente adicionar mais colchetes aqui, certo? Então, se eu adicionar três colchetes, curiosamente, você pode ver que ele aumentou a dimensão da matriz. Então, quanto mais o número desses colchetes, o modo é o número de dimensões. Então você pode ver agora que eu mencionei é sete, embora tenhamos apenas esses dois elementos, certo? Então, se eu tentar imprimir esse somador aqui, você pode ver que é assim que ele vai aparecer. Dessa forma, podemos criar esse anúncio é o número n de dimensões. E agora aqui vou apenas torná-lo bidimensional. Ok, então agora temos essa matriz bidimensional. Agora vamos ver como podemos criar áreas tridimensionais e cinco dimensionais. Vamos criar outra área que esteja em um du igual a matriz NumPy. Aqui, digamos que queremos criar 123 tridimensional. É assim que vamos especificar tridimensional. Aqui vou escrever uma vírgula dois, vírgula três. Vamos criar outra lista que é quatro vírgulas cinco, vírgula seis. E o último é sete vírgulas 89. Então, agora vamos tentar imprimir isso. Vamos tentar abrir o número de dimensões deste Addie. Você pode ver aqui que temos três dimensões e é assim que temos a outra. Dessa forma, podemos criar qualquer objeto n dimensional. Basicamente, você pode ver que podemos ter a capacidade de criar anúncios que são n dimensionais. Então, isso nos ajudará muito no pré-processamento de dados também. E basicamente, quando vamos combiná-lo com algumas multiplicações de matriz e algumas operações cruciais, como logs e desvios padrão, obteremos uma tarefa de pré-processamento muito boa e algumas coisas muito importantes, certo? Então esse foi um passo completo e agora vamos ver quais operações podemos realmente realizar nesses átomos. Agora sabemos como criar uma matriz, como criar uma Hillary danificada. Agora vamos ver como podemos realmente fazer a indexação dessas áreas. Então, basicamente, vou escrever indexação. Digamos que tenhamos esse ARR adicionado. E aqui eu escrevo um coma um. Vamos ver qual é a saída aqui. Você pode ver essa vírgula um. Esses são os dois elementos que estavam fornecendo. Indexação basicamente significa o que, como vou acessar um elemento específico dentro desse todo dado nele? Então você pode ver que este é o nosso sótão. Se eu estiver escrevendo uma vírgula 11 nos dirá a dimensão em que estamos. Então você pode ver que temos duas dimensões aqui, e começa a partir de 01. Portanto, esta é a dimensão zerosa e esta é a dimensão falsa. Então, na verdade, um está indexando isso. Agora estamos encontrando o elemento dentro dessa lista. Podemos dizer essa dimensão. O próximo que está aqui, especifica o elemento nessa lista. Então, aqui estamos realmente encontrando 25671 significa que estamos realmente apontando ou indexando para o primeiro elemento. Então cinco está na verdade no 0, na posição seis está na única posição. Se eu escrever três aqui, vamos ver. Vamos receber um erro porque há, eles não só os elementos 012 aqui, certo? Então, vamos fazer, vamos ter sete aqui. Você pode ver, agora vamos ver o que acontecerá se eu escrever 0 vírgula dois. Agora você pode ver 0 significa que estamos realmente olhando para isso. Adicionando aqui, que é o 0 na posição, então estamos alcançando o segundo elemento nele, que na verdade é três. Então, estamos recebendo três na saída. Tudo bem, então é assim que você pode executar a indexação. O primeiro elemento nos dará a dimensão em que estamos. E o segundo elemento aqui nesta indexação nos dará a posição correta do elemento. Vamos passar para outra operação que vamos realizar. Muitas vezes nessas áreas, que é conhecida como fatiamento. Já vimos fatiar em pandas também. E vimos como podemos fazer o corte e os quadros de dados. Agora vamos ver como podemos fazer isso em áreas, certo? Vamos considerar o mesmo Adi, que é ARR. E aqui vou escrever este comando Hill, que é um e dois pontos e depois três. Vamos ver a saída disso. Agora você pode ver que 13 me dá 567. Por que estamos recebendo isso. Você pode ver que estamos realmente fazendo o corte desse Adi. Isso já tem essas duas dimensões, como podemos ver aqui. A primeira dimensão tem 123 e a segunda dimensão tem 567. Estamos cortando o ADA de 133 significa, porém, todos os elementos que temos de uma posição líquida. Então você pode ver que temos zeros aqui, então temos a primeira posição aqui e, em seguida, todo o corte que ocorre da primeira posição até a segunda posição porque três não está incluído aqui. Então, vou escrever aqui que três não são inclusivos. Então, ele vai cortar o dado na primeira posição. Segunda posição porque três não é inclusivo, certo? Vamos ver como podemos fazer isso na segunda área que é adicionada. Ok, então nos dois lábios adicionados escreva o mesmo comando para ver a saída. Agora você pode ver aqui que não temos nada dentro deste Adi. Vamos ver por que isso está acontecendo, porque na primeira posição não temos nenhum item. Este é o buraco é a 0ª posição, então vamos tentar 0 aqui. E agora você pode ver rapidamente isso aqui, se tentarmos cortá-lo de 0, temos 0 vírgula um, vírgula dois. Nessas três posições, temos todos esses elementos. Então esta está na 0ª posição, esta está adicionando a posição falsa, e esta está na segunda posição. Então você pode ver que isso é o resultado do corte que fizemos. Agora você precisa brincar com diferentes tipos de artérias e você precisa brincar com esses valores diferentes para dar uma olhada no que acontece no resultado, para realmente obter um melhor compreensão de como as coisas estão funcionando. Porque você não pode aprender todos esses termos. Você não pode memorizar todas essas coisas. Você terá que continuar praticando com diferentes matrizes dimensionais. Cortando com valores diferentes. Aqui, em vez de 0 a três, vamos remover 0 e vamos ver o que acontecerá aqui. Você pode ver que não há mudança aqui. A razão é quando escrevemos del três, basicamente significa que o primeiro 012 desimpedido, certo? Tudo bem, então é assim que podemos fazer o corte dentro de casa dado. Agora vamos ver como podemos fazer o corte de etapas. Aqui. O que vou fazer é imprimir isso. Agora estamos estudando sobre fatias, que é outro conceito muito importante. Então aqui temos, recebemos a Sadie e vamos fazer o corte aqui, os passos cortando. Vamos ver o que exatamente isso é. Então, vou trazer a adição aqui. Vou escrever um coma. Vamos tentar 10 a um a dois. E vamos ver o que exatamente obtemos o resultado aqui. Então, em vez de slides e você pode ver que temos isso como resultado. Então, basicamente, o que exatamente é esse corte? Em vez de fatiar, dizemos que queremos cortar o Eddie dado, mas vamos seguir esses passos. Então, primeiro vamos especificar, estamos especificando esses três valores. Então foi, na verdade, vai cortar de 0 a um. E então foi cortado de um a dois, certo? Então, na verdade, será fatiar está acontecendo em uma taxa gradual. Então, em vez de cortar a partir de toda a matriz, podemos realmente fazer algumas pequenas partes da matriz usando fatias de etapas. Há mais maneiras de fazer isso. Podemos até tentar todos esses métodos. Então, basicamente, vou criar outro átomo aqui, que chamarei como adicionado três. E nisso, vou usar um biótico. E isso vai ter os elementos, digamos. Riqueza vírgula três, vírgula 456, vírgula sete. E vamos criar mais um que é 11 vírgulas duas vírgulas três. O último será apenas três vírgula quatro, certo? Então, temos esses elementos aqui. Isso, você terá que ter muito cuidado quando estiver criando uma matriz NumPy porque ele terá que se certificar de que o número de dimensões realmente o que você deseja, certo? Então aqui temos a falha, a dimensão, e aqui temos a segunda lista de elementos. Agora digamos que eu queira incluir esses dois em uma única dimensão. Eu posso fazer isso usando, na verdade, incluindo-os nesses colchetes únicos. Então, agora, se eu quiser incluí-los em outra dimensão, posso fazer isso usando outra, criando outro colchete, certo? Então, sempre que você quiser criar uma dimensão, você terá que se certificar criar um registro quadrado para ela. Agora, o que você vai fazer é tentar. Use a função final, que realmente nos dirá a dimensão dessa matriz. E certifique-se de usar essas funções finais para que você possa saber se está obtendo as dimensões necessárias. E o ADA também é a área necessária que você deseja, certo? Então você pode ver o número de dimensões ou duas aqui, que está aqui, o resultado está aqui. Agora, o que eu só quero fazer isso, aqui temos duas dimensões. Na dimensão positiva, tenho essas duas posições, e na segunda dimensão tenho esses dois átomos aqui. Quero fazer o corte. Isso adicionou três. E eu quero fazer, digamos que eu escreva uma vírgula quatro. Vamos apertar Enter aqui e vamos ver o que acontecerá. Então agora você pode ver que não está nos mostrando nada. Então, vamos fazer isso como 0. Este será um. O que estamos fazendo aqui é na primeira parte, estou especificando que estamos na 0ª posição, o que significa a dimensão zerosa. Na dimensão 0, estamos realmente cortando de um até que ele inclua, Vamos deslizá-lo como 0 a dois. Portanto, incluirá todos os elementos de 01 estão incluídos e a dimensão que estamos vendo é 0. Então, se eu fizer isso um, vamos ver qual será o resultado. Você pode ver isso mostra o resultado que temos 123 e três quartos, o que é que você pode ver neste dano em que está apontando para a primeira posição, certo? Portanto, se você quiser cortar em uma dimensão específica, você pode especificar a dimensão aqui. Então aqui vou escrever um comentário que a primeira posição especifica a dimensão e o índice da segunda posição de fatiamento. Dessa maneira. Você será capaz de entender isso mais rapidamente. Que esse primeiro parâmetro pertence à dimensão que estamos vendo, que queremos realizar um corte. E aqui estamos escrevendo, como queremos fazer o corte, certo? Queremos cortar 012. Mas aqui, se quisermos fazer o corte de passos, também podemos fazer isso. Na verdade, podemos especificar que quero elementos de 0 a um, depois de um a três, que é a matriz numpy. Se ele tiver esse número de elementos, ele poderá cortá-los. Então é assim que podemos fazer o corte dentro de uma matriz. Você pode se divertir criando diferentes áreas com diferentes números de dimensões e diferentes números de elementos. E você será capaz de entender como esse corte de etapas está funcionando e como esse tipo de indexação está andando. Certo? Agora vamos passar para outro conceito, ou seja, digamos que queremos testar algumas funções do NumPy. Digamos que queremos calcular a média e outras coisas também. Então, nesse caso, digamos que eu quero criar uma série de números contínuos e naturais. Digamos que eu queira criar uma matriz n números naturais. Nesse caso, não precisamos criar uma matriz escrevendo os números manualmente. O que podemos fazer é simplesmente, digamos que eu queira criar uma matriz. O que é nRT. E eu quero incluir os primeiros 20 números naturais para que eu possa apenas escrever e ponto V, certo? E digamos que eu queira criar um número natural que começa a partir de uma certeza de alerta. Certo? Então, o que acontecerá é esta biblioteca NumPy criará e adicionará, que vai de um a 20. Se eu simplesmente imprimir isso e adicioná-lo aqui, você poderá ver isso no occipital, certo? Então aqui diz que o módulo numpy não tem, ok, então deve ser único. Agora você pode ver que temos esses elementos que começam de um a 19. Então você pode ver que 20 não está incluído, certo? Portanto, o último não está incluído. Então, se eu escrever 20, ele começará a partir de n e vai até 19. Agora, por que estamos fazendo isso? Porque se quisermos um conjunto de números naturais para brincar, podemos realmente usar essa função e garantir que seja apenas um único cabelo, certo? Não é W. Ok, então vamos ver o que mais, como você pode concordar com mais valores. Digamos que queremos criar números flutuantes de uma posição dois, digamos de um número para o outro. Então, a maneira de fazer é criar outra área que é adicionada aqui. Digamos que queremos criar decidido. Usaremos novamente a função de arranjo. Aqui. Vamos especificar o intervalo de onde queremos os números flutuantes, certo? Digamos que eu queira números flutuantes de um a n, que é dez aqui. E agora terei que especificar o tipo de dados aqui usando o tipo. E aqui vou especificar o float. Certo. Agora, isso realmente criará e simbiótico com números flutuantes de um a dez. Então você pode ver que esses não são números flutuantes. Portanto, ele tem 1.2.03 ponto. E da mesma forma, certo? Então esta é outra coisa interessante. Lembre-se de que todas essas funções virão na tarefa de pré-processamento de dados. Portanto, certifique-se de que você realmente os pratique sozinhos. Tudo isso é muito importante e já os usamos em alguns projetos. Portanto, certifique-se de que você também pratique isso. Vamos passar para um conceito muito importante, que é mudar a forma. Alterando a forma da matriz. Digamos que tenhamos uma matriz com uma determinada dimensão. Digamos que um é três por três dimensões tridimensionais iluminadas duas por duas dimensões. E agora queremos mudar a forma da matriz. Queremos alterar a dimensão da matriz. Então, vamos ver como podemos fazer isso. A primeira coisa é ver como podemos verificar a forma do anódico. Então, para isso, vou tocá-lo anódico um igual a um ponto numpy ID. Aqui vou especificar apenas uma vírgula dois, vírgula três. E vou imprimir a forma de ponto Hill, certo? A forma não é uma função, é uma propriedade. Então, se eu pressionar Enter, isso nos mostrará que a forma é três vírgulas e nada está aqui porque não especificamos as colunas. Existem apenas três elementos aqui, então ele está especificando isso. Vamos criar mais um. Em vez de criar uma matriz como essa elevação, aperte e números naturais usando a função organize np.arange. Vamos criar seis elementos. Então, para isso, vou especificar seis. E aqui temos, digamos que eu use a função de remodelação. Agora vamos dizer que eu quero remodelar esse array. Digamos que tenhamos este aqui e aqui eu escrevo isso uma forma escura. Sabemos que ele mostrará três Homer, algo bom para saber. Quero remodelá-lo para poder usar a função de remodelação, certo? Então, vamos reatribuí-lo, reformular pontos. E como há três elementos aqui, podemos criar mais alguns elementos para que possamos realmente mudar a forma dele. Então, vamos adicionar mais alguns elementos. Vou adicionar 456789. Também. Criamos esses elementos aqui. E o que eu quero é, eu quero, estes são, na verdade, os nove elementos e está tendo uma dimensão nove vírgula um. Então, se eu pressionar Enter ou Control Enter, isso me mostrará que a forma desta era é nove vírgulas um. Então, o que eu quero é que eu quero converter essa única dimensão nela. Quero remodelar em matriz três por três, certo? Então, a maneira de fazer é especificar as posições aqui. Então, se eu quisesse uma forma de três por três, percebi três vírgulas três. Agora, o que fará é mudar rapidamente a forma deste todo dado, que está aqui, em uma matriz tridimensional por três dimensões. Então aqui, se eu pressionar Control Enter, você pode ver rapidamente que agora a mudança, a forma foi alterada para três por três, certo? Então, vamos dar uma olhada na forma do adicionado antes de usar a função de remodelação. Então, se eu escrever uma forma de ponto adicionada, você pode ver que inicialmente eram nove vírgulas 0 e agora são três vírgulas três. Então, mudamos a forma ou a dimensão decidida por três por três. Então, o que acontecerá agora é que os lábios tentam trazer isso aqui. Agora você pode ver em vez de um único, agora é 123. Então temos quatro lutadores e temos 789. Então, uma matriz tridimensional que temos aqui. E ele o dividiu em assim, certo? Então, o que acontecerá se eu escrever três vírgulas dois aqui? Vamos ver se ele será capaz de fazer isso. Agora você verá rapidamente aqui avaliador diz que não podemos remodelar a área de tamanho nove para isso. que significa que sempre que você quiser fazer uma remodelação, você terá que se certificar de que o produto desses dois, que é o qual vamos escrever nesta função de forma é igual ao número de elementos dentro da configuração. O que mais? Você não será capaz de fazer isso. Tudo bem, vamos incluir apenas seis elementos aqui. E agora sabemos que o produto de três vírgulas dois é seis. Então, se eu pressionar Control Enter, agora você pode ver que ele criou uma matriz com dois elementos aqui e há dois, e esta é uma matriz dois por três. Temos duas colunas e três linhas. Aqui temos três vírgulas dois. E agora vamos mudá-lo para duas vírgulas três. Agora você verá rapidamente aqui no estranho que os elementos são três, mas temos apenas duas dimensões aqui. Então é assim que podemos fazer a remodelação desses elementos de uma determinada matriz NumPy, certo? Portanto, é uma coisa muito importante que você usará esse vídeo com frequência quando estivermos realizando a análise, embora as tarefas de pré-processamento de dados também mudem para outra função importante que eu continuo vendo. Muitos projetos em Data Science, que está substituindo os elementos por um. Digamos que eu queira substituir todos os elementos do monádico pelo valor um. Então, vamos ver como posso, como posso fazer isso. Primeiro de tudo, criarei uma nova matriz. E em vez de escrever os elementos manualmente, vou simplesmente usar essa função de arranjo. Aqui vou criar uma matriz com, digamos que temos quatro elementos nele. Agora, o que vou fazer é substituir. Vou tentar apenas mostrar o valor dessa área. Você pode ver que essa matriz tem 0123. Agora o que vou fazer é usar uma função muito importante que é sublinhado np dot, função Like. Aqui vou fornecê-lo com a nova RA. Vou pressionar Control Enter. Agora você pode ver que ele substituiu todos eles por um. Portanto, é importante, é útil em muitos casos quando queremos realizar alguma categorização de dados, queremos, podemos fazer isso usando isso, certo? Por isso, é importante que seja um modo que é o lago zeros. Então, se eu relacionar zeros aqui, ele converterá todos eles em zeros. Você pode ver aqui, essas são duas funções muito importantes, que eu vi e usei pessoalmente em alguns projetos. Portanto, certifique-se de praticá-los também. E posso ver que tem zeros e uma escala. Agora, vamos passar para a próxima parte, que é como podemos concatenar duas artérias aqui. Vou escrever aqui concatenando. Tudo bem, então, para isso, vou precisar me dirigir. Então, vamos criar outro. Quando criamos uma graduação para aqui. Então, vamos criar alguns dos elementos dessa matriz, que serão organizados pontos numpy. E aqui, digamos que queremos elementos de tutores seis. Aqui, criarei outro array que será em outros diferentes. Isso vai das sete. Temos esses dois átomos e, em seguida, queremos concatená-los em uma única matriz. Para fazer isso, é muito fácil. Podemos apenas usar, digamos que vamos criar outra área que é a maioria de A1 e A2. Agora, para fazer isso, temos uma função muito simples, que é a função de concatenar np dot. Aqui só precisamos especificar esses dois arrays. Agora lembre-se que esta é a função e queremos especificar A1 e A2. A maneira de fazer não é assim. Algumas pessoas fazem assim, como A1, A2. Você não pode fazer isso assim. Você terá que especificar isso como um par de colchetes circulares sem fim como este. Então agora podemos ver que temos um colchete que é toda a função concatenar. Este segundo suporte especifica A1 e A2 como um jogador. Agora, se eu vou tentar trazer isso muito adicionado, você pode ver isso mostra que os intervalos de nomes, ok, então aqui deve ser np.arange, não em coma pico. Agora você pode ver que ele entrando em contato com você para essas duas setas em uma única matriz. Você pode ser usado, você usará muito essa função, que é combinar dois ou mais arrays. É assim que podemos fazer a parte da concatenação. Vamos passar para a parte contrária disso, que é como podemos dividir o anúncio é como, digamos que eu queira dividir esse módulo. E para fazer isso, o que vou fazer é que eu farei. Primeiro, vamos criar outra ideia. Vou chamá-lo de papai impassível. Aqui vou usar uma função muito simples aqui, que é usada para fazer a parte de divisão, que é np dot split nela. Adicionando a função split sublinhado. Aqui eu só quero especificar a mortalidade. Então teremos que especificar, digamos três. Tudo bem, então eu queria dividi-lo na terceira posição. Agora, vou tentar imprimir esse papai impassível. Papai tinha todos esses elementos, 2345678. Então, aqui nós vemos isso. O mesmo nome, mesclado, não é o caso final, então não foi muito, era mais sublinhado ARR. Então, ele dividirá isso nos dados da imagem da terceira posição. Então podemos ver aqui, temos 23457891011. E agora você pode ver que três significa que é, dividi-lo em três partes iguais. A primeira parte é a três para a segunda parte é 7891011, certo? Então, vamos mudá-lo para fazer e vamos ver o que acontecerá. Agora você pode ver que ele cai cria uma matriz com cinco elementos e a próxima era com quatro elementos. Desta forma, podemos dividir as RAs em várias áreas, certo? Agora vamos passar para outra parte importante que é realizar a pesquisa dentro de um dado nela. Usando esta biblioteca NumPy. Queremos procurar alguns elementos. Então, primeiro, vamos dar um exemplo. Vamos chamá-lo como nisso. Vou apenas para o primeiro exemplo daqui. Este aqui. Em seguida, crie e adicione um com alguns números aleatórios. Estou usando números aleatórios aqui. E digamos que eu queria procurar por 87 dentro deste adicionado, que é o nó que está em 0123. Está na terceira posição e queremos procurá-lo. Então, a maneira de fazer é muito simples. Primeiro criarei um elemento x, que realmente obtém a localização dos 87º elementos. Portanto, temos uma função estranha que é usada para executar a parte de busca. Então np dot onde a função obterá dois parâmetros. Apenas um parâmetro funcionará. E é igual a dois é igual a dois. Preciso especificar o elemento que é 87. Então agora o que ele vai fazer é procurar por 87 dentro deste dado em um que é E aqui, certo? Então, se eu tentar imprimir x, você pode ver aqui que ele mostra a pesquisa. E agora diz em uma terceira posição e o tipo de dados do elemento é inteiro 64. Você pode ver aqui que estava realmente na terceira posição. Então esta é a primeira, desculpe, a 0ª posição. E primeira, segunda, terceira posição. Então, nos deu a posição. E você pode ver que, já que estamos usando Eris, pesquisar é o adotivo neste caso. Agora, vamos passar para outra parte importante que é a classificação. Uma matriz dada. A classificação também é importante. Em seguida, classifique este ERD apenas. Você pode ver que este anúncio não foi classificado. Vamos tentar classificar isso. Vou escrever o Brent. E função de classificação de pontos P. E dentro desse controlador de classificação especifique E aqui. Você pode ver que esses são os dados classificados em ordem crescente, certo? Então você pode ver inicialmente que não foi classificado. E agora isso em um é classificado. Então, funções muito simples e simples, essas funções utilitárias realmente ajudarão você muito na tarefa de pré-processamento de dados. Praticá-los é muito importante. E quando você fizer mais e mais produtos, você se familiarizará com todos esses. E você terá um bom controle de todas essas funções aqui, certo? Certo, então vamos passar para outro. E este é triangular superior. Agora essa função é, eu já vi isso em muitos projetos. Como criar triângulos VR. E é um conceito muito importante. Portanto, concentre-se nessa parte aqui porque é realmente importante entender por que é importante criar triângulos de relações públicas. Então, digamos que eu crie uma matriz aqui. Vou chamá-lo como adicionando um. Vamos chamá-lo de 0. Aqui vou usar np dot. Vamos tomar e como exemplo. Vamos usar e, que está aqui. Para criar triângulos de relações públicas. Que eu vou, vou apenas imprimir b ponto u, que é forma curta de triangular superior ou tri, significa triângulo, você quer dizer acima. Então np dot triangular U significa que ele criará um triângulo superior da matriz dada. Para isso, vamos criar uma matriz tridimensional. Criarei rapidamente uma matriz tridimensional. Tudo o que já criamos uma matriz tridimensional acima aqui. Quando estávamos fazendo a parte de remodelação, criamos esta também. Vamos criar novamente. Aqui. Vou usar o ponto B laranja, e incluirei elementos de branco um até nove. E vou remodelar rapidamente a matriz três por três. E vamos dar uma olhada nisso, em um 0. O primeiro Nexi, esteja correto ou não, diz que deve ser um chamado Martin. Temos isso que você pode ver que este é o addie. Temos 123456789. Então, uma matriz de três por três, você pode considerá-la como uma matriz de três por três. Então queremos criar um triangular superior. O que podemos fazer é dar uma olhada em como a RA mudará quando aplicaremos o triângulo superior aqui. Triângulo bipando. Então, vou imprimir a função np dot u. Aqui. Eu vou especificamente, vou especificar dois parâmetros aqui. O primeiro parâmetro será a matriz onde queremos o triângulo superior e o segundo elemento é 0. Vou te dizer o que exatamente esse segundo elemento pode ser. Realmente mude esse valor. Na verdade, pode ser 0 menos 11. Veremos os valores como isso está mudando quando estamos aplicando o segundo parâmetro como 0, depois menos um e depois um. Então, vamos pressionar Control Enter para ver a saída aqui. Você pode ver quando eu especifiquei 0, ele criou um triângulo superior. Então, inicialmente, isso era o RID. E agora, depois de criar um triângulo, você pode ver todos os elementos além. Você pode ver que estes são os elementos diagonais, 159 milímetros. E agora você pode ver que está realmente formando esse triângulo. 123569 está realmente formando um triângulo aqui, que você pode ver aqui. E esses elementos se tornaram 0, certo? Então, uma vez que eles se tornem 0, temos um triângulo superior aqui. Agora vamos alterar esse valor de 0 para um. Vamos ver qual será a mudança aqui, certo? Então agora você pode ver aqui, se escrevermos um, ele incluirá os elementos diagonais também. Então, ele criará um triângulo superior. Você pode ver que dois três sextos estão envolvidos nesse triângulo. Esses elementos se tornaram 0. Se eu mudar isso para menos um, e eu vou pressionar Control Enter. Agora você pode ver que V0 comprou um triângulo superior, mas apenas o último elemento é 0, certo? Então, todos os elementos acima disso nada 0. Então, desta forma, podemos criar um bot triângulos e você verá o significado de criá-los. Triângulos dentro de quando começaremos com as tarefas de pré-processamento de dados. Você verá muitas dessas disfunções de função secas que você usou em muitos projetos também. Agora você tem uma boa ideia de como exatamente essa função mudará o adicionado. Agora, o que vou fazer é agora avançar para a última função, que é alterar o tipo de dados da adição dos elementos da matriz. Tudo bem, então, para isso, vou criar outro adicionando 23. E aqui usarei np.edu. Vamos criar elementos que valores flutuantes automáticos , que é 2.11.2. E vamos dar um molar, que é, vamos ver, um de três pontos. Agora, todos nós temos esse array NumPy. O que vou fazer é imprimir o tipo deste site. Então, antes de tudo, criarei uma nova matriz. Aqui. Usarei a IRR como função Obrigado. Vou escrever aqui. Então, agora o que acontecerá é que ele criará uma nova matriz, mas que tem todos os valores disso adicionados a três. Ele vai convertê-lo em realmente sua parte. Então, vamos dar uma olhada em como exatamente nosso novo Adam se parecerá. Assim, o novo Audi terá todos esses elementos, mas apenas a parte inteira desses elementos. Então aqui você pode ver a alteração do tipo de dados, e agora ele tem 123 e ignorou essas partes decimais. Dessa forma, você pode alterá-los por dentro. Se você quiser alterar o tipo de dados dos elementos, você pode realmente fazer isso e você enfrentará muito essa dificuldade quando estiver pré-processando dados. Às vezes você não precisa de valores flutuantes. Então você os converte por uma questão de facilidade, você os converte em partes inteiras também, certo? Portanto, há mais algumas coisas, como se você quiser imprimir o tipo de dados dessa matriz, basta usar a propriedade dtype. E aqui mostrará que é um inteiro 32. E digamos que você queira alterar o tipo de dados para string. Então aqui, se eu especificar que isso é realmente uma string, vamos criar uma matriz de strings aqui, que é 13. Assim. Agora, aqui o que posso fazer é especificar o tipo de dados disso. Então isso está tendo um tipo de dados de string. Agora, vamos ver se podemos realmente convertê-lo e fazer e realmente sua parte. Se eu pressionar Control Enter, você poderá ver que ele foi convertido com sucesso em parte inteira. Digamos que agora eu queira especificar que isso não é realmente uma string. Digamos que ele tenha quatro bytes inteiro. Eu, quatro significa quatro bytes inteiro se eu pressionar Control Enter. Agora você pode ver que ele tem este 123 e um inteiro Trinta e dois. Aqui terei que fazer algumas mudanças. Em vez de novo nisso. Vou especificar ARR, fazer três aqui. Agora posso ver que é 123. Aqui. Quero especificar o tipo disso adicionado a três. Portanto, o dtype é realmente inteiro 32. Novamente, é assim que você pode realmente alterar o tipo de dados dos elementos de string para inteiro ou inteiro para flutuar. Então, basicamente, isso é tudo para este tutorial. Veremos você no próximo tutorial. Obrigado por assistir. 5. Funções em Python: Nesses CDs, neste curso, já abordamos matrizes NumPy. Por isso, cobrimos algumas das funções muito importantes que podemos executar em não compradores. E neste vídeo vamos cobrir todas as operações matemáticas NumPy que são suportadas e podemos realizá-las em biotas Dina. Portanto, essas são algumas das funções básicas e algumas das muito importantes que você usará ao longo de sua carreira em ciência de dados. Então, vamos começar com isso agora. Primeiro de tudo, vou importar numpy como np liquidamente aqui. E aqui vou criar uma matriz que será np.array. Aqui vamos criar três elementos aqui, que é 123456789. Aqui você pode ver que eu criei uma matriz. Vamos verificar rapidamente se o definimos corretamente imprimindo isso. Então aqui você pode ver que eu criei essa matriz que tem esses nove elementos nele, certo? Agora, o que vou fazer é realizar algumas das operações matemáticas nessa matriz aqui. Por exemplo, ponto-produto, desvio padrão, média e todas as funções estatísticas também. Vamos começar com alguns dos básicos. Então, o primeiro aqui é dois. Calcule o momento máximo, que é um bit muito importante é que realmente dará o elemento máximo em toda essa matriz. Vou imprimir, usar a função np dot max, que realmente nos dará o elemento máximo dessa matriz. Você pode ver que, se eu pressionar Control Enter, você pode ver que nove é o elemento máximo em toda essa matriz. Agora, o que vou fazer aqui é Vamos supor que queremos descobrir qual é o elemento máximo neste eixo, que é a lei aqui. O que posso fazer é, na verdade especificar o eixo aqui também alega que o Acesso é igual a 0 se eu pressionar Control Enter. Agora você pode ver que o eixo 0789 é o elemento máximo. Então, também podemos fazer isso. Então, se eu escrever um aqui e eu gostar de controlar Enter, você pode ver que será 369. Assim, ao alterar o acesso, você pode realmente retornar o elemento máximo de acordo com o acesso que são linhas e colunas. A próxima parte, que é semelhante, é calcular o elemento mínimo. E para isso também temos a mesma Técnica que é usar a função principal np dot. E aqui eu posso especificar a matriz. E você pode ver que o mínimo, o elemento mínimo dessa matriz é um, e é isso que ela está imprimindo aqui. Da mesma forma, também podemos fornecer aqui o eixo em 01 também. Agora vamos passar para algumas outras funções, no entanto. Essas são, na verdade, as funções estatísticas. Então, basicamente neste curso, ainda não toquei nesses tópicos de estatística, seja, qual é o significado do desvio padrão, média de variância. Esses são alguns dos tópicos cruciais que precisam ser abordados na ciência de dados. Então, o que estou fazendo aqui é neste tutorial, vou mostrar como usá-los. E no próximo vídeo vou ensinar todos os conceitos importantes dessas estatísticas, como variância, média, desvio padrão. E dessa forma, você será capaz de entender melhor como essas funções são úteis na ciência de dados. Então, vamos começar com o básico, que é calcular a média do Eddie dado. Então, digamos que recebamos essa matriz aqui, que é essa, eu quero calcular a média. A média é basicamente média. Então, o que posso fazer é que eu quero imprimir o meio disso. Então, para isso, vou usar a função np dot mean e vou ter que fornecê-la com a matriz. E você pode ver aqui que ele retorna cinco como a média porque na verdade é a média de todos os elementos. Vamos discutir mais do que essas coisas, que são os conceitos de estatística em detalhes no próximo tutorial. Então, vamos passar para outro conceito de estatística que é variância. Variância. Vamos cobrir todos eles nesta única célula aqui. Variância e desvio padrão. Essas são as duas coisas que são muito importantes e são amplamente usadas na ciência de dados, porque elas são realmente muito úteis para executar alguns dos métodos importantes de pré-processamento de dados. Além disso, aqui podemos imprimir a média. E se quisermos pintar a variância, posso apenas fornecê-la com esta. Então você pode ver que a variância dessa matriz dada é 6,66. Da mesma forma, se eu quiser o desvio padrão, posso fazer isso usando np dot SDD, que é o desvio padrão. E vou aplicá-lo com a matriz aqui. Você pode ver se eu apertei Control Enter, isso me dará o desvio padrão. Estudaremos esses três conceitos importantes, e há mais um conceito importante que é uma distribuição normal. Também estudaremos isso. Vamos passar para alguns dos tópicos da álgebra linear. Que estes são alguns conceitos matemáticos, que é o ponto-produto e a multiplicação e adição de matrizes. Então, vamos realizar essa saúde. O primeiro método que vamos executar é calcular a transposição de uma matriz. Então, basicamente, este curso requer que você tenha conhecimento básico de matemática, que são matrizes e determinantes. Então, vamos ver como podemos calcular a transposição de uma matriz. Para isso, é muito simples. Eu posso apenas escrever a maiúscula de ponto da matriz T. Se eu pressionar Control Enter. Agora você pode ver que esta é a transposição de uma matriz. Então, essencialmente, você pode ver que as funções se tornaram colunas aqui. Então 123 era na verdade uma linha na matriz aqui. Então queremos calcular as bestas e nos tornar a lei. Você pode ver agora que a coluna é 123. É assim que podemos calcular a transposição de uma matriz. Vamos passar para como calcular o determinante de uma matriz. Estes são todos os conceitos de conceitos básicos de álgebra linear. E esta é a única matemática necessária na Data Science, que é estatística, probabilidade e álgebra linear. Mesmo que você conheça o básico desses conceitos, você está pronto para ir. Vamos ver como podemos calcular o determinante dessa matriz. Para isso, vamos usar a biblioteca NumPy com essa função aqui. Então np dot LIN LG função, que na verdade é uma propriedade em ordem função. E então usaremos o DEP para calcular o determinante dessa matriz. Você pode ver que o determinante dessa matriz é essa colina, np dot LIBNAME dot db. Tudo bem, então vamos passar para como calcular a classificação de uma matriz. Basicamente, o rank é calculado como n menos um, onde n representa o fim, basicamente representa o número de dimensões. Tudo bem, acrescentando, você pode ver que essa área era emissão teta. Então, se eu quisesse calcular a classificação, o que posso simplesmente fazer é ter que usar álgebra linear np dot. Dot LAN LG significa álgebra linear aqui. E já que estamos usando as funções de álgebra linear e aqui sou como a classificação de sublinhado da matriz. Aqui. Vou fornecê-lo com a matriz ou o sótão. Aqui você pode ver que, embora seja o posto dessa matriz, certo? Então é assim que você pode calcular a classificação dessas matrizes. Então, queremos passar para algumas outras funções importantes também. Então, vamos dar uma olhada em como calcular os autovalores e autovetores. Autovalores e autovetores também são importantes. Aqui, você usará essas funções com mais frequência na tarefa de pré-processamento de dados. Vamos ver como podemos calcular os autovalores. Basicamente, vamos supor que temos uma matriz quadrada a. Se eu multiplicar, se eu fizer um produto de ponto com v será igual a k, que são os autovetores. E novamente, ponto produto com v, que são os autovalores. Então, basicamente, o propósito dos autovetores é realmente aumentar a forma da matriz quadrada e não a direção. Então aqui eu posso até escrever isso, então você vai aplicá-lo. Transformação linear. autovetores mudam, mudam a forma da direção da matriz NANDA. Ok, então vamos ver como podemos calcular esses dois valores. Então, novamente, porém, vamos calcular os autovalores e vetores dessa matriz que estamos usando em todo esse programa. A primeira coisa é, se você quiser calcular os autovalores, primeiro definirá variáveis aqui. Vamos definir duas variáveis que são autovalores e autovetores. Temos uma função que retornará ambos, que é np dot de álgebra linear ponto eigenvector EEG, e aplicá-lo com o mutex. O que essa função retorna os autovalores e autovetores e o que ela será armazenada aqui, certo? Então, vamos tentar ver esses valores imprimindo esses valores aqui, que são autovalores. E aqui vou imprimir os autovetores. Se eu pressionar Control Enter, você pode ver que esses são os autovalores. Este buraco que você pode ver é um autovetor. Vamos passar para mais funções. Vamos ver como podemos. Calcule o produto de pontos. produto Dot também é muito importante. Vamos ver como podemos fazer isso. Primeiro de tudo, terei que criar duas matrizes aqui. Vamos criar uma matriz muito simples, 123. E criarei mais uma matriz, que é a matriz dois. E isso terá valores para V6. Agora eu quero calcular o produto ponto. Então, se eu quisesse calcular o produto ponto, eu vou. Primeiro de tudo, isso vai ser np dot array. Isso também será não periódico. Tudo bem, então agora se eu quisesse imprimir isso, terei que usar a função np dot dot. Então, terá uma função escura aqui. E eu só preciso fornecer essas duas matrizes no argumento que é matriz um, matriz Q. Você pode ver aqui que ele obtém o produto ponto tem 3232 é o produto ponto dessas duas matrizes. Lembre-se, quando estamos calculando o produto dotnet dot, primeiro você terá que entender os conceitos de álgebra linear de como calcular o produto ponto e como realmente garantir que as linhas colunas desses dois estão combinando ou não, certo? Então, poderemos calcular o produto ponto. Vamos seguir em frente como adicionar dois arrays, que é a adição desses vetores. Certo? Então, vamos pegar essas duas matrizes uma, apenas matriz dois. Então, se eu escrever uma matriz de impressão usando a função add e queremos adicionar a matriz um, matriz dois. Você pode ver que, se eu tentei adicioná-los, seus valores são os valores correspondentes que são adicionados e são armazenados em outro vetor. É por 79, então um mais quatro é cinco, então é o F7, então temos nove. Da mesma forma, se você quiser fazer a subtração, você terá que executar a mesma etapa. Você terá que imprimir a função do produto NumPy np dot. Novamente, fornecedores com esses dois valores, que é a matriz um. Matriz dois. Novamente, veja que se eu os subtrair, um menos quatro me dá menos três a menos pi me dará menos três. E da mesma forma menos V aqui. É assim que podemos calcular a subtração. E vamos ver como podemos fazer a multiplicação. Isso é multiplicação, não o produto ponto. Então, vou escrever aqui que este não é o produto ponto. Isso é multiplicação de matriz. Você verá aqui qual é a diferença entre eles. Então, para isso, vou usar o que podemos multiplicar duas matrizes simplesmente usando um status como esse e ele multiplicará essas duas. Então quatro multiplicados por um são quatro, depois dez, depois 181018 anos. A resposta aqui. Portanto, esta é, na verdade, a multiplicação de duas matrizes que é diferente do produto pontual contra você. Esse produto pontual era, na verdade, 32. Agora vamos passar para algumas outras funções também. Aqui vou começar com como calcular o inverso de uma matriz. Para calcular o inverso de uma matriz, teremos que usar novamente a função de álgebra linear. E eu termino que a função está lá. Só vou ter que fornecê-lo com a matriz. Se eu pressionar Control Enter, você pode ver que ele se move simplesmente calcule o inverso dessa matriz. Portanto, este é o uso da função INV inversa aqui, que é, que pertence à propriedade álgebra linear. Agora vamos ver como gerar valores aleatórios, o que é novamente um conceito muito importante, como podemos gerar valores aleatórios usando NumPy. Então, para isso, vou criar um programa muito simples que realmente descobrirá cinco valores aleatórios. Aqui vou escrever um comentário aqui. Deixe-me calcular os cinco nonos em valores entre um a dez. Se eu quisesse calcular cinco valores aleatórios entre um a dez, vamos ver como podemos fazer isso. Usarei a função aleatória np dot. E, E, e aqui terei que fornecer três variáveis. Eles vão de 0 a 11, e eu quero cinco valores. Então, será assim. Você pode ver aqui que ele calculará os cinco valores aleatórios de um a 10110 a seis por esses valores, e 011 serão excluídos disso. Então é assim que você pode calcular esse valor conhecido. Então, uma coisa interessante aqui é que se você pressionar Control Enter novamente, ele mudará esses valores aleatórios e continuará mudando isso. Então, para tornar isso constante, como se você não quiser que os valores aleatórios mudem sempre, você pode usar uma coisa muito importante que é conhecida como semente. Para isso, você pode usar a função np dot random.seed. Aqui. Você pode fornecê-lo com um que você não deseja alterar o tamanho. Então, se eu apertar Control Enter, acho que continuarei pressionando Control Enter. Esse valor não mudará. Isso se tornará constante por causa desse teto que fizemos aqui. Agora vamos passar para outra coisa importante. Digamos que queremos gerar alguns valores aleatórios a partir da distribuição normal. A distribuição normal é outro conceito importante de ciência de dados porque pertence ao status, às estatísticas e à probabilidade. Então, discutiremos isso também no próximo tutorial que abordarei esses conceitos sobre estatísticas. O x mais c, como podemos obter os valores da distribuição normal. Para isso, podemos realmente usar a função normal de ponto aleatório np dot. E então simplesmente preciso dar um valor a ele. Então, vamos dar a ele um valor 1, o que será realmente mau. Então, precisamos dar três parâmetros. O primeiro será a média, o segundo será o desvio padrão. E o terceiro são os números que você deseja gerar. 1 é a média, então temos 10 e desvio padrão. E o número que eu queria fazer isso, então vou pressionar Control Enter. Ele retirará automaticamente esses dez números a partir da distribuição normal da média da média dada e do desvio padrão. Então, basicamente, essas são todas as funções importantes desta biblioteca NumPy. Vamos descobrir mais deles no ácido. Vamos seguir em frente neste curso. Então, basicamente, não é isso que esse fatorial cancela assistir. 6. Estatísticas para ciência de dados!: Agora vamos passar para o primeiro tópico que vamos estudar, o que é um meio. Temos média, desvio padrão, distribuição de lavagem e variância. Vamos abordar esses tópicos muito importantes e estes são humanos enfrentá-los em dados. Muito obrigado. Vamos começar com a média e vamos tentar entender qual é o significado do ser. Aqui, desenhei um gráfico de um exemplo. Então, vamos considerar um exemplo muito simples. Vamos considerar que existe uma empresa de smartphones, e essa empresa está realmente vendendo os smartphones. E a partir de dados ruins, peguei sete dias das vendas. Aqui você pode ver que nos dados, eu tenho esses sete itens nele. 151030 vinte e cinco, vinte e cinco, vinte e cinco. Neste gráfico, você pode ver neste eixo eu tenho o número do dia, que é 1234567. Para quem semana temos esse número de telefones vendidos. Você pode ver no primeiro dia, 15, eu vou que os telefones foram vendidos pelo segundo dia e o número de telefones foram vendidos. E, da mesma forma, no terceiro dia, número 30 foi vendido. E é assim que eu plotei esses pontos de vista, esses pontos azuis que representam os dados. Agora vamos ver como calcular a média. A média é, na verdade, a média desses valores. Podemos calcular a média apenas iniciando-a e dividindo-a por ID e número de pontos de dados que temos, que é sete no nosso caso. Aqui você pode ver que no cálculo você obtém 150 por sete, que é 18,57. Você pode ver uma linha vermelha aqui que está passando por esse gráfico. Aqui você pode ver que isso está absolutamente apresentando uma média, que é 18,57, e você pode ver que está entre 1520. Agora, vamos tentar entender o que é mau. O significado da média é muito simples e nos dá a média da média diária dos últimos sete dias. Isso significa que, na verdade, é 18,57. Vamos assumir isso como um valor absoluto de 18. Na verdade, significa que 18 telefones foram vendidos todos os dias nos últimos sete dias em média. Agora esta é uma informação muito crucial porque às vezes a empresa não está interessada no que está acontecendo, quantos ossos são vendidos em um único dia, o que eles queriam, eles queriam calcule a média, a média. Aqui você pode ver que a média é 18. Então podemos dizer que 18 telefones foram vendidos todos os dias em média em apenas uma semana. Mas se você der uma olhada aqui, há uma informação interessante que está faltando neste gráfico. Esse meio é realmente enganoso. A razão pela qual isso é enganoso é que vamos assumir um ponto de dados que está longe dessa linha, que está longe dessa média. O que significa que, se eu calcular a média agora, a média se tornará maior. Esse valor da carne aumentará e se aumentar, intelectual foi um valor que, vamos supor que o valor aumente para 30. Então, isso mostrará que totalmente telefones praticamente todos os dias, o que não é verdade. Um ponto de dados, na verdade, interpretará mal a média. Como a média é mal interpretada, ela nos dará uma informação falsa e enganosa à empresa de que todos os dias 18 quarenta foram vendidos, o que não era verdade porque na verdade era média. Então, era verdade que você não colocou virtual. Se você puder ver que, se tivermos esses pontos de dados que são realmente anomalias nos dados, ele pode realmente interpretar mal e é enganoso. Para evitar esse fato enganoso, podemos realmente melhorar essas informações. Podemos torná-lo muito mais do que dilutivo. Estou adicionando o desvio padrão a ele. Vamos tentar entender em termos muito simples desejados, o que é realmente o desvio padrão? Portanto, o desvio padrão é, na verdade , a distância e a distância são apenas o desvio. É uma distância de quanto os pontos estão longe da média. Você pode ver que nos átomos verdes, você pode ver que esta é a distância, esse ponto é de. A média. O desvio padrão realmente nos diz o quanto todos esses pontos de dados estão longe da média. A razão pela qual estamos fazendo isso é entender o quanto esses pontos de dados estão mais próximos da média. Se eu estou dizendo que há 18 telefones vendidos todos os dias nos últimos sete dias. E o desvio padrão também é menor. Neste desvio padrão é menor, significa que as distâncias são menores. Isso significa que os pontos de dados estão mais próximos da média. Essa será uma boa informação. Mas se o desvio padrão for alto, isso significa que esses pontos estão realmente longe da média. Se eles estão longe da média, isso significa que eles estão se desviando da média. E isso pode dizer à empresa que, na verdade, a média era tão preta. Os pontos realmente teriam grande desvio é uma informação interessante para adicionar a este. Vamos entender como calcular o desvio padrão. É muito simples. Só precisamos calcular essas distâncias verdes. Você pode ver que se eu quisesse obter essa distância verde, só preciso subtrair esse valor de cinco com a média. Se eu subtrair 18 de cinco, vou pegar esta região. O que vou fazer é calcular para todos eles. E então, como embora não seja negativo, não queremos, não estamos interessados em valores negativos porque o desvio padrão é, não estamos interessados em valores negativos porque o desvio padrão é na verdade, uma magnitude do quanto esses pontos de dados estão longe da média. Tomamos os quadrados dessas distâncias. Como queremos que o desvio padrão represente o desvio de todos os pontos que vamos resumi-los e vamos exibi-lo assim. E o numerador. Mais uma vez, veja 130 por sete, eu tirei daqui, que é a média. Não use o Indian Point 57 porque os cálculos se tornarão muito do cabelo dela. Se você usar 130 por sete, basta subtraí-lo de 15. Você pode ir à distância e vamos quadrar todas essas distâncias assim. E então vamos adicioná-los. E, finalmente, vamos dividi-lo pelo número de pontos de dados que temos. Temos sete pontos de dados no cálculo. Se você calcular todo esse valor, você receberá um valor de 69,357, que está aqui. Como fizemos o quadrado desses números, teremos que notificar isso. Então, para isso, vamos usar a raiz quadrada. Então, depois de obter a raiz quadrada, recebo esse valor, que é 8,32, e esse é, na verdade, o desvio padrão. 8.32 é o desvio padrão deste gráfico. Vamos tentar entender o que são essas informações e como elas melhorarão as informações. Então, 8.32, o que apresentamos? Isso significa que, que é 1818 telefones foram vendidos todos os dias em média nos últimos sete dias. Mas houve um desvio de oito pontos. Vou escrever aqui mais oito pontos. Na verdade, isso foi 8,32. Terei que escrever que houve um desvio de 8,32, ou podemos dizer que houve um desvio de oito ossos. Agora, como esse desvio pode ser mais oito e menos oito ou mais, então terei que escrevê-lo mais menos oito. Certo? Agora, isso não é uma informação muito boa. Agora, a partir dessas informações, uma pessoa saberá que sim, 18 telefones foram vendidos em média e o desvio padrão era oito, certo? Então, não houve um aumento e queda das vendas em um único dia, certo? Portanto, se o desvio padrão for menor do que este é o bom porque significa que esses valores estão realmente mais próximos dessa linha, que é a linha vermelha, que é a média. E se eles estiverem mais próximos, significa que o valor que vamos obter aqui está realmente próximo da média. E a informação será muito melhor porque 18 pontos podem ser vendidos e haverá, menos dxy uma ou duas células, o que não importará muito. Então é assim que calculamos o desvio padrão. E esse é o significado do desvio padrão porque ele completa essa informação e acrescenta a essas informações que haverá um incremento ou decréscimo desse valor dentro dessa média, 18 volts serão vendidos todos os dias em média, mas pode haver um aumento ou graus de oito pontos no máximo. Agora vamos passar para o segundo. O terceiro, que é a variância. Agora aqui migramos a raiz quadrada desse valor aqui. Se você não tiver, esse valor é conhecido como variância. Então aqui você pode ver que isso é Lydians. Então, 69,387 são milhões. Agora, o que significa variância? Essa variância também é a soma das distâncias de todos esses pontos de dados da média. Então, o que acontecerá se a variância for menor? Então, vamos entender o que acontecerá se a variação for lição. Queremos também entender qual é o significado desse valor? O que acontecerá se a variância for alta? Se a variância for menor? Se for menor, significa que as distâncias desse ponto da média são realmente menores. Porque menor significa que esses pontos estão muito próximos da média. Eles estão mais próximos da média. Aqui posso escrever que com as leituras é reduzida. Isso significa que os pontos estão perto de mim. Isso é distância. Se for menor, significa que eles estão muito próximos da média. O que acontecerá se a variância for alta? Se a variância for alta, é basicamente porque essas distâncias eram muito altas. Essas diferenças eram muito altas. Então, se essas distâncias são muito altas, isso significa que os pontos estão muito longe dessa média. Temos a média aqui e os pontos estão espalhados. Sua startup, isso significa que está longe de ser. Agora vamos ver como podemos usar essas duas coisas importantes sobre a variação para realmente aplicá-la em ciência de dados ou aprendizado de máquina. No aprendizado de máquina, existe um conceito conhecido como clustering. E agrupar o que fazemos é tentar formar grupos dentro de um dado. O que vou fazer aqui é desenhar um gráfico muito simples aqui. Vamos considerar que temos esses pontos aqui que estão marcados em preto. E então temos essas mentes. Micelle pode ter sido devida, certo? Portanto, temos todo esse conjunto de dados, mas temos Margaret em dois grupos ou clusters diferentes. Agora, o que posso fazer é que a variação será reduzida. Isso significa que os valores estão mais próximos. A variância é alta, então significa que os valores estão longe da média. Agora, para formar clusters ou grupos dentro de nossos dados, existem duas condições. A primeira condição é que dentro de um grupo, se você considerar esse grupo, dentro do grupo, os elementos de dados devem estar mais próximos um do outro. Eles devem estar mais próximos um do outro. E como podemos garantir que eles estejam mais próximos uns dos outros calculando a variância de que estão mais próximos. Da mesma forma aqui, se você vir isso, se quisermos criar esse loop, teremos que garantir que esses elementos estejam muito próximos um do outro. Esta foi a primeira condição de que os elementos, os elementos de um grupo dentro de um grupo deveriam estar mais próximos. Essa foi a primeira condição. Sabemos que podemos usar o alias para isso. Há uma segunda condição também. A segunda condição diz que se você quiser formar grupos, primeiro era realmente garantir que os elementos de um grupo estejam próximos um do outro. segundo foi garantir que os valores desse grupo e desse grupo estejam longe um do outro. Tudo bem, então esses valores devem estar longe um do outro. E faz sentido porque queríamos ter certeza de que os grupos estão mais próximos. Eles não sabiam dentro de um grupo que o ponto de dados deveria estar mais próximo. Por isso, eles estão formando um cluster. Mas também queremos ter certeza de que eles estão longe um do outro, então só poderemos distinguir entre esses dois grupos. Podemos usar esse conceito de variância para garantir esse agrupamento dentro de um conjunto de dados. E isso é muito importante e só será entendido se você souber como a variância, se você aumentar a variância, ela estará longe da média e os pontos estão longe um do outro. Isso é uma coisa. Agora deixe-me passar para o último e muito importante conceito que é conhecido como a distribuição normal e gaussiana. Então, para isso primeiro, removerei esse gráfico aqui. Tudo bem, então vamos tentar entender o que é distribuição gaussiana normal. Antes de entender isso, precisamos entender qual é o significado da distribuição. Um exemplo muito simples de distribuição é digamos que eu tenha dez chocolates e existem recursos. E o que posso fazer é distribuir esses US $10 para eles. E isso é realmente conhecido como distribuição. Este é o significado de distribuição em inglês simples , o mesmo que aqui. Também na distribuição, o que tentamos fazer é distribuir o x, que são as entradas. Faça algum rearranjo. Chamamos como y para as saídas. No intervalo. Digamos que tenhamos um intervalo de 0 a um. Eu tenho esses pontos de dados e estou distribuindo esses pontos de dados dentro desses intervalos plotando-os, certo? Então, para isso, preciso de uma função f de x, que realmente levará isso inverso. E isso garantirá que essas entradas estejam entre essas duas, que é essa, que é essa faixa. Este é apenas um exemplo para explicar o que é distribuição. Então, se quisermos distribuir os elementos, usaremos diferentes tipos de distribuições. Se a saída, que é o intervalo, se for provabilidade for conhecida como distribuição de probabilidade. Agora vamos entender o que é distribuição gaussiana. distribuição gaussiana também é conhecida como distribuição normal. E teremos que realmente entendê-lo usando um gráfico. Este gráfico tem em, que vou desenhar é na verdade uma representação dessa função aqui que eu tenho lá. Você pode ver que este f de x um dividido por tudo, sob a raiz de dois pi e elevado para o poder menos metade, x menos média e desvio padrão todo quadrado. Portanto, essa é uma função da qual representa a distribuição de cautela. E aqui você pode ver esse símbolo que é rho. Isso representa o desvio padrão. Esse valor, que é mu, representa a média. Aqui temos o desvio padrão e aqui temos a média. Então, se tivermos média e desvio padrão, podemos usar a distribuição gaussiana. Este x aqui, representa os pontos de dados que temos. Então, se eu fornecer os pontos de dados aqui para o x, ele vai me dar e ele realmente distribuirá a entrada em um determinado intervalo. Seja qual for o valor que esta função f x me dará, vou traçá-la. E mãos do quadril, na verdade está em um intervalo que chamamos de saídas, certo? Então, agora vamos entender quais são as etapas para realmente criar o gráfico da distribuição normal, que é o gráfico dessa função. O primeiro passo é realmente marcar um valor que está no centro desse eixo. E esse valor será a média. Então, 18,57 é a média. Por simplicidade, estou à tarde apenas afirmando o valor absoluto. Esta é, na verdade, a média aqui. Vou usar Mu para representar isso certo? Agora, o segundo passo é adicionar, é criar mais marcadores aqui adicionando e subtraindo o desvio padrão. Então, como posso fazer isso? O desvio padrão é 8,32. E novamente, vou pegar o valor absoluto de oito. Se eu adicioná-lo a isso. Aqui, vou receber quando D6. Se eu subtrair oito disso, recebo um valor de dez. Este é, na verdade o desvio padrão que é representado por rho. E rho é igual a oito. No nosso caso, estou tomando o valor absoluto. Este é o primeiro passo. Isso é realmente conhecido como o primeiro. Um desvio padrão. Agora, o terceiro passo é calcular o total e o segundo desvio padrão. E também é simples. Só precisamos adicionar o desvio padrão a esse número. 26 mais oito é realmente igual a 34. Aqui temos um NAD e terei que fazer o mesmo aqui. Terei que subtrair o valor de oito desses dez e, em seguida, o valor será devido. Então por diante, podemos fazer isso assim neste gráfico. Este foi o primeiro desvio padrão. Você pode ver que este aqui foi o primeiro desvio padrão. Este é o segundo. Da mesma forma, podemos criar muito mais desvios padrão aqui apenas adicionando o desvio padrão à média. Então surge a pergunta: o que estamos tentando fazer com esse gráfico? Qual é o motivo desse gráfico e o que vamos usá-lo na ciência de dados. Agora, vamos voltar ao nosso exemplo. Em nosso exemplo, afirmamos que o número de vendas em média era 18 e houve um incremento ou decréscimo de oito telefones celulares. Aqui. Se eu tentar desenhar isso, se você puder ver aqui, temos média e desvio padrão. O que queremos fazer é analisar que, se o desvio padrão aumentar, se o desvio padrão aumentar, quanto isso afetará os pontos. Se eu incrementar o desvio padrão, qual será o impacto nesses pontos de dados? Eles vão se aproximar da média ou vão ficar longe da média. O que fazemos é realmente traçar isso. Tomamos a média e pegamos o desvio padrão e esses pontos fornecemos a essa função. E observa-se que, se você fornecer essa função, você obterá um gráfico como esse. A etapa quatro é realmente desenhar o gráfico para isso. Este é o eixo y. Este eixo y representa um valor baixo e alto. Então, aqui vemos uma situação menos provável. E aqui vemos uma situação muito provável. Então, basicamente, significa que se o valor dessa função fx for altura, se for maior, significa que o ponto é altamente provável que esteja mais próximo da média. Então, o ponto principal é que queremos ter certeza, queremos entender a partir desse gráfico como os pontos de dados estão se desviando da média. Eles estão se aproximando da média ou estão indo longe da média, pois este gráfico ajudará. Agora vamos desenhar esse gráfico. Então, 18 é a média. Então, vou desenhar uma linha pontilhada aqui. Agora, se você tentar desenhar esse gráfico, esse é o primeiro desvio. Então, vou desenhar outra linha pontilhada aqui assim. Então esse foi nosso primeiro desvio padrão e essa é a média. Agora vamos tentar desenhar os efeitos de coorte, que estão aqui. Observa-se que um golfe em forma de sino é observado. É assim. Quando toca o primeiro desvio padrão, ele começa a aumentar. Sua neve sobe assim. E quando atinge a média, começa a cair assim. E então fica enegrecido assim. Isso aqui é conhecido como uma curva em forma de sino, e esse é o objetivo de f de x, que é essa função. Vamos ver quais são os fatos importantes sobre essas coisas. Observa-se que quando você fornecerá essas entradas, a média e o desvio padrão, quando obtemos essa curva, é absorvido que 34% de todos os pontos de dados estarão neste região, que estou marcando aqui. 34% vão mentir ela e 34% da linha nesta outra metade. No total, 68% de todos os pontos de dados estarão dentro desse primeiro desvio padrão. O que isso significa? Isso significa que se eu pegar esse valor de dez, significa que se o número de vendas fosse entre dez e 26, 68% pontos estão realmente lá, que estão mais próximos da média. Agora, vamos tentar entender o que acontecerá se eu pegar um valor aqui, vamos assumir um valor aqui que está na média. O valor está na média. Vamos dar uma olhada nessa fórmula. Se for 91, a média, tem um valor igual à média, que é 18,57. Esse valor aqui é 18,57 menos 18,57. Isso realmente se tornará 0. E como há menos metade multiplicada por 0, será 0. E então nós aumentamos para o poder 0 aqui. Esse valor inteiro será igual a 0. E aumentado para a potência 0 é igual a um. O que obtemos é apenas fx igual a um por abaixo da raiz de dois pi, então o valor do ponto de dados é realmente igual à média. O valor de um por dois pi, eu já o calculei. Na verdade, é igual a 0,4, o que é uma restrição aqui. Eu posso realmente escrever aqui a função f de x é igual a 0,4 dividida pelo desvio padrão. Você pode ver como o desvio padrão. E você pode ver, embora os efeitos de função, eles são inversamente proporcionais entre si. Como eles são inversamente proporcionais entre si. O valor do desvio padrão aumentará. O valor do desvio padrão aumenta o valor da ética que vamos graus. Você pode ver a partir da curva à medida que o desvio padrão está aumentando, o gráfico está diminuindo. Este é um ponto importante aqui que, se o desvio padrão, que basicamente faz sentido porque o desvio padrão é na verdade, a distância do ponto da média. Você aumentará essa distância, então ficará menos provável que o ponto esteja mais próximo da média. Então essa é minha disfunção é ter um valor menor. Agora vamos supor aqui, vamos tentar entender mais um gráfico, o que é outra coisa aqui, que é muito interessante. Então, vamos supor que, em vez disso temos um desvio padrão de dois. Então, em vez de oito, tenho um desvio padrão de dois. Vamos supor que o valor saiu para ser dois. Neste caso. Se for dois, sabemos que é menor do que este caso. Isso significa que os pontos estão muito mais próximos da média. Então, vamos tentar traçar isso neste gráfico e Lexi, se nossa lógica dos pontos estando mais perto da média está se mantendo verdadeira no gráfico ou não. Sabemos que, em etapas de desenho, o gráfico é simples. Teremos que adicionar o desvio padrão à média. Então, aqui, 18 mais dois se tornarão 2018 menos dois se tornarão 16. Agora, se eu quiser desenhar, o gráfico vai assim e o gráfico ficará plano. Mas quando atinge o desvio padrão completo, começa a aumentar assim. Mas agora a questão é: será mais baixo ou vai mais alto? Este código, ele vai ficar mais baixo? E depois para baixo? Ou ele vai mais alto? E então não sabe? A resposta a essa pergunta é a lógica em si. Existem duas lógicas que explicam isso. O primeiro é que 68% dos pontos observa-se que ele vai ocupar aqui. Então, obviamente, se você encolher isso, você terá que aumentar a curva para acomodar esses valores de 68%. Essa é a primeira lógica que você pode inferir. Qual a lógica de senso comum mais importante aqui é que, se você diminuir o desvio padrão, você tem graus o desvio padrão. Isso significa que os pontos estão mais próximos da média. Se eles já estiverem mais próximos da média, então eles vão ficar mais altos. É altamente provável. Destaca-se que os pontos estão mais próximos da média. Esse valor se tornará assim e diminuirá novamente, o primeiro desvio padrão e, novamente, ficará plano. Isso é tudo sobre esses tópicos importantes e você usará esses conceitos importantes no aprendizado de máquina. Você usará variância e aprendizado de máquina para que os grupos estejam espalhados. Você usará sua regularização de doces também estudou o problema do overfitting. Basicamente, isso é tudo para este vídeo. Obrigado por assistir.