Transcrições
1. Introdução ao curso de ciência de dados: Olá a todos, bem-vindos às pontuações
da Data Science. Neste curso, abordaremos todos os
aspectos práticos da ciência de dados. Na verdade, isso é
baseado em projetos também ao vivo em B, na verdade lances em
um projeto e usamos os conceitos em ciência de dados e o aplicamos a esse projeto. Após o término deste curso, você poderá
entender todos os
conceitos importantes da ciência de dados, que incluem análise de dados, pré-processamento de
dados e técnicas de
visualização. Então basicamente x plus certo? Ou isso significa O que
exatamente é ciência de dados? E eu lhe darei
uma visão geral do que exatamente você vai
abordar neste curso. Primeiro de tudo, você pode ver que a ciência de dados é sobre
extrair conhecimento e insights de dados barulhentos
e não estruturados usando alguns itens
e alguns processos. Basicamente, existem
muitas empresas e há muitas indústrias que realmente usam diferentes tipos de dados. Eles têm milhões de registros. Para estruturá-los à mão, você extrai o conhecimento para o benefício de seus negócios. Eles exigem algumas técnicas de
visualização de
dados, técnicas de pré-processamento
de dados também, porque a ciência é os pés
crescentes
e emergentes e muitas oportunidades
para cientistas de dados. E todo esse período está aumentando
a norma na indústria. Durante este curso,
vou tentar o meu melhor para lhe dar uma prática oculta sobre como realmente implementar todos os conceitos que são
construídos na ciência
de dados. Vamos começar o médico
respondeu meu discurso de sal, o importador de fosfato para escalar é a
luta e Browning. Além disso, começaríamos com
a programação Python. Concordo com alguns conceitos básicos de
500 vídeos neste curso, você poderá
entender esses Oreos de especiarias. E depois disso, você
poderá
começar a usar a ciência de
dados em seis. Tudo bem, então o próximo
requisito é dedicação, já que a análise de dados
é muito antiga e McDonald's porque
eles compraram que você tem boa
quantidade de férias. Para entender
o que é o conjunto de dados, entender quais
são as técnicas que você terá que
encontrar um conjunto de dados. Todo bem que eu disse vai ser diferente do outro e tem que
haver maneiras diferentes
e técnicas diferentes. Serão processados esses dados, analisarão os dados que
exigem muita dedicação. E essa é a razão pela qual esse é um campo emergente. Agora vamos ver quais são
as ferramentas que
usaremos por muito tempo a
validade, como suponho, não
estaríamos usando programação
piloto e algumas lutas ambulantes
e bibliotecas. Podemos usar o Jupyter Notebook, que na verdade é o seu
tipo de IDE em um megabase oito, o outro à direita,
o antigo
convidá-los a analisar
diferentes conjuntos de dados. O calcanhar escalonou para
fazer depois de baixar os conjuntos de dados importantes e dar uma olhada no que
exatamente podemos fazê-lo. Em seguida, tem algumas bibliotecas
importantes como a biblioteca de pandas, o
scikit-learn, que é muito moderno,
reprocessa os dados, trazendo
também uma experiência
que você pode ver. Sua
cavidade FEV1 e Microsoft aqui é usada para visualização de
dados
que temos algumas bibliotecas de
aconselhamento
como TensorFlow, Python usando aprendizado profundo. Também fazendo alguns embelezamentos como
classificação florestal aleatória, árvores de
decisão e alguns modelos
de aprendizado de máquina. E também, você faz
isso nesses conjuntos de dados, em grande parte abordando e coisas
muito práticas que estão dispostas a
vir neste curso. Então, vejo você nos próximos horários do
tutorial. A lógica.
2. Explorando os dados.: Este é o primeiro
vídeo deste curso. Essas pontuações de ciência de dados
e v vão
realizar muitas coisas,
como pré-processamento de
dados, visualização e muitas coisas,
como amostragem de dados, agregação, redução de
dimensionalidade, todas essas coisas que
você vai fazer. Mas antes de começar com
qualquer um dos conceitos, quero primeiro familiarizá-lo com o site da Kaggle,
que é kaggle.com. Então, vou lhe dar
todas as vantagens de usar o cálculo e por
cada ciência de dados entusiasta usa escápula. Primeiro de tudo, você precisa
ir ao website.com. E aqui Kaggle é
basicamente um site que fornece muitos conjuntos
de dados e muitas coisas que são realmente úteis para todos os alunos que querem aprender e todos os alunos que também
queria competir, certo? Então as competições também estão lá. Então, antes de tudo, você pode
ver neste var aqui, aqui temos o conjunto de dados. Então, se eu clicar aqui, você
pode ver isso nos mostra uma lista de alguns conjuntos de dados de treinamento que você pode ver
os dados falados, dados de ações do Google. E há muitos conjuntos de dados
populares que você pode ver aqui, como Boston Housing, NSL, KDD, classificação de
preços móveis. Então, basicamente, em todo
o curso, vamos realmente realizar muitas coisas, como pré-processamento de
dados. Para isso, vamos
pegar conjuntos de dados diferentes e
diferentes do Kaggle. A razão para fazer isso, de fazer isso é porque quando você tem diferentes tipos
de conjuntos de dados que você tem, você enfrentará diferentes
tipos de desafios. E isso realmente
ajuda você a valorizar ou habilidades de ciência de dados quando você está realmente
estudando ciência de dados. Por exemplo, digamos que
você tenha um conjunto de dados e queira ver
como há alguns,
digamos que um ASR disponível em nosso conjunto de dados e há alguns itens duplicados
nesse conjunto de dados. Todos há outros
desafios também. Então, para isso, se você escolher conjuntos de dados
diferentes e diferentes, você terá
uma boa exposição sobre
diferentes tipos de desafios que você pode enfrentar em sua carreira de
ciência de dados também. Então, vamos pegar
vários conjuntos de dados e
eu escolherei vários conjuntos de dados e
eu escolherei esse conjunto de dados para resolver ou apenas mostrar
que você deve certos conceitos. E aqui você pode ver
que temos esses conjuntos de dados. Também tem alguns
cursos e asma. Existem outras coisas,
como competições também. Basicamente, Kaggle é
como um GitHub é para desenvolvedores, então o Kaggle é para ciência de dados. Então, temos algumas
competições aqui. E estes também são baseados em preços. Então você pode realmente obter algum dinheiro se você
participar deles e você, quando essas competições, você pode ver que esses são alguns
dos cálculos aqui. Agora temos cursos, alguma parte fria agora
interessante aqui no cálculo que
você vai
usar a programação Python
para basicamente escrever e fazer todos os dados, reprocessar, analisar coisas. Então, para isso, você
nem precisa criar um ambiente
Python inteiro. Você pode clicar
em Criar aqui. E aqui você pode simplesmente ir e clicar
diretamente no novo livro de carregamento e você pode criar seu próprio caderno, certo? Então, essa é uma coisa
interessante. Você pode fazer
isso diretamente neste notebook, que é o ambiente Python, também lhe dará acesso
à biblioteca do Panda, scikit-learn, para
que você não precise instalá-los
manualmente
em seu próximo top. Aqui você pode ver que
temos alguns conjuntos de dados. Uma parte interessante que
vou mostrar aqui é que esse conjunto de dados que
levará algum tempo para carregar aqui. Aqui temos alguns
rankings de usuários progressão e tudo isso. Então, vamos dar uma
olhada em alguns conjuntos de dados aqui. Ok, então aqui temos
a Boston Housing. Então, eu só vou
clicar neste. E aqui você pode ver que
isso abrirá em um minuto. Vi tem diferentes tipos de
conjuntos de dados e não realmente
esses conjuntos de dados. As pessoas, a comunidade de carga
, publicam muitos de
seus próprios cadernos e suas formas de
analisar dados no Kaggle. O que você pode fazer é poder, você pode ver que existem cadernos e você pode aprender com eles. É realmente uma coisa muito boa. Assim como você está vendo o código de
alguém no GitHub e está
aprendendo com ele aqui. Acho que preciso atualizá-lo. Está aberto agora. Então, aqui você pode ver
que ele mostra os dados. Você pode ver que os dados estão
no formato CSV de ponto e
esse é todo o conjunto de dados. Mas a parte interessante aqui
é a pontuação, uma guia aqui. Então, se você ficar frio, você poderá ver
que há muitas
pessoas fora dessa comunidade de andaimes para quem ela puxa todas para visualizar ou pré-processar
esses dados, certo? Então, clique em seguida neste
, que está aqui. Você pode ver que ele mostra
que este é o caderno e essas são as bibliotecas
que este notebook usou. Vamos usá-los
em todo esse curso. Estou apenas dando a você uma essência
de como exatamente você
pode usar o Goggle de como exatamente você
pode usar o Goggle porque é uma ferramenta
muito importante para todos os cientistas de dados. Então você pode ver que temos
ponderadores Mark Floyd, seaborne para
visualização de dados e ficção científica. E aqui você pode ver que essa pessoa
escreveu seu próprio código aqui e para visualizar o
conjunto de dados e entender e,
e para traçar o conjunto de dados. Você pode ver tudo
aqui e encomendas também aqui. Você pode ver que também é bom. Portanto, é uma plataforma muito boa
para aprender ciência de dados. Basicamente, vamos,
vou ensinar todas essas funções e todas essas complexas,
graças a vocês. Então você não precisa
se preocupar com isso. É só que estou
te dando uma ideia do que exatamente você pode esperar deste site
da Kaggle. Então, basicamente, isso é
tudo para este tutorial. No próximo tutorial,
começaremos pegando um conjunto de dados e importando-o usando a biblioteca Pandas em Python. Então isso é tudo para este
tutorial. Obrigado por assistir.
3. Primeiros passos com Pandas: Neste vídeo,
vamos discutir algumas
das funções muito importantes
da biblioteca Pandas. E discutiremos
quais são exatamente as coisas que
podemos fazer e usar usando,
usando a biblioteca Python e
Pandas para análise importante de dados e compreensão e
extração de forma de conhecimento de um determinado conjunto de dados. Então, este será um tutorial
muito importante. E este,
vamos cobrir algumas das funções muito
básicas. E à medida que
passaremos para este curso, exploraremos algumas tarefas
mais importantes do que algumas tarefas complexas que podem ser feitas facilmente
usando a biblioteca Pandas. As primeiras coisas para nós precisamos acionar o Jupyter Notebook. Então aqui eu o Jupyter
Notebook Open e aqui precisamos criar um novo Notebook Python
usando a árvore Python. Eu já criei
um que é
pelo nome pi bond como central. E o que precisamos fazer é que só precisamos
abrir este aqui. Então agora aqui podemos escrever o programa Python
e podemos executar todas as tarefas de ciência de dados que queremos fazer aqui, certo? Então, a próxima coisa é
baixar o conjunto de dados. Aqui você pode baixar qualquer
conjunto de dados de sua escolha. Eu baixei o conjunto de dados Preços
da Habitação de Boston e ele está disponível
no google.com. E também darei todo
o link para isso. Na descrição
deste vídeo. Você pode baixá-lo de lá. E aqui eu tenho uma pasta
nomeada como dados de habitação. E você pode ver que temos
um ponto de habitação CSV aqui. Se eu quiser, primeiro
terei que ver como
esse conjunto de dados se parece. Então, para isso, vou
abri-lo aqui. Então, a primeira coisa que podemos ver aqui, existem algumas colunas
neste conjunto de dados e há muitas linhas
neste conjunto de dados. O que queremos fazer
é garantir que este CSV de
ponto de habitação que
criamos, vamos
criar um DataFrame que realmente usará todo
esse conjunto de dados e ele irá importá-lo aqui em
Caderno Jupyter. E o que quer que
façamos nesse DataFrame, isso não afetará
nossos dados originais. Então, mesmo que algo dê errado aqui na programação
Python, se fizermos algo errado aqui, isso não
afetará os dados originais. Então, as primeiras coisas primeiro, vamos importar a biblioteca de pandas. Então, vamos usar o
comando import pandas. E desde então podemos
atribuí-lo como Elias ou um nome aqui, que é BD, certo? Então, sempre que quisermos
usar a biblioteca de mineiros, podemos usar o atalho SPD. A primeira coisa é que precisamos
criar um DataFrame. Vamos chamar isso de ds. E esse DataFrame realmente
manterá o conjunto de dados do
nosso ponto de alojamento csv. Então, vamos ver como podemos
importar o conjunto de dados aqui. Então, usaremos pd dot read
underscore csv função, que é uma função incorporada
da biblioteca Pandas. E aqui podemos especificar o
caminho para os dados da habitação, que estão nesses dados de habitação de
Boulder. E o nome do arquivo
está alojando ponto csv. Então aqui você pode ver que eu
importei todo o conjunto de dados aqui. E este DataFrame, que
é variável DF aqui ele vai manter
todo o conjunto de dados aqui, que são as linhas e as
colunas do alojamento dorsi. Agora, a primeira passagem que
vamos ver é encontrar
a primeira, digamos, cinco linhas desse conjunto
de dados. Esta é a primeira parte
que queremos fazer. Para isso, podemos usar uma função
muito útil, que é a função head. Cabeça significa as regras iniciais. Então aqui posso especificar
qualquer número aqui. Então, digamos que
queremos especificar cinco. Agora, se eu pressionar Control Enter. Agora você pode ver aqui
, ele me mostrará as primeiras cinco linhas deste
DataFrame, que é Bf. Agora lembre-se de que eu
já disse que se fizermos alterações
nesse conjunto de dados, digamos que eu altere qualquer valor desse
DataFrame, que é df. Isso não afetará
os dados e o ponto de
alojamento csv. Então, mesmo que quiséssemos
fazer alguma alteração, temos uma linha separada para
aquilo que podemos fazer isso. Mas aqui, a
essência média é que podemos fazer qualquer coisa aqui, como tarefas de pré-processamento de
dados e tudo mais, e isso não
afetará os dados originais. Então, é assim que
podemos ver como podemos extrair as primeiras 54 linhas
usando a variável head. Agora vamos passar para a próxima função
muito importante,
que é a função de cauda. Digamos que agora queremos
descobrir o primeiro, digamos que as últimas cinco
linhas desses dados. Ok, então estamos basicamente
fazendo isso porque é muito importante que, quando
recebemos um conjunto de dados, nós o analisamos muito bem. Nós, usaremos essas
funções com muita frequência dentro de nossos programas de
ciência de dados, o que quer que escreva aqui, porque digamos que eu queira
executar alguma tarefa de
pré-processamento de dados e agora eu quero ver quais são as mudanças
no conjunto de dados. Portanto, não preciso carregar todo
o conjunto de dados aqui. Posso carregar as primeiras quatro
ou cinco leis e posso ter uma ideia de como isso
mudou o conjunto de dados. Portanto, é muito importante. Agora, vamos descobrir quais são
as últimas cinco linhas
desse conjunto de dados. Você pode ver quando
eu pressionarei Enter, Control Enter, você verá
que há último por linhas. E aqui você pode ver esse
estágio em que existem 488 regras e dentro
desse conjunto de dados. Função tão importante aqui. Agora vamos passar para algumas
outras funções também. A primeira função importante
é a função de forma. E não é realmente uma
função, é uma propriedade. Então, se eu pressionar Control Enter, você poderá ver a forma do ponto df. Isso me dá esse resultado aqui. Este resultado afirma que
existem 489 leis, existem quatro colunas. Esta é uma
propriedade muito importante porque na maioria das vezes não vamos
abrir todo o conjunto de dados. Podemos simplesmente acionar essa propriedade de
forma e podemos saber qual é o número de linhas e colunas
dentro do nosso conjunto de dados. Agora, vamos passar para uma função
muito importante, que é a função descrita. Eu vou Controlar Enter aqui. Agora, quando usamos a
função de descrever em qualquer detalhe, é uma função muito importante e uma ferramenta muito importante para cientistas de
dados que realmente usam isso para entender
o conjunto de dados. Você pode ver aqui essas são as quatro regras desse conjunto de dados. As primeiras quatro colunas, que é ímpar m, é a
proporção de pilha B3 e me fez certo. Então, aqui podemos ver que quando usamos a função
describe, ela nos mostra contagem média. Std significa
desvio padrão com um constante. Esses termos significam e desvio
padrão em um vídeo separado
porque são muito importantes na ciência de dados. Então temos homens
2550% e no máximo. Agora, o que
nos dá, ele realmente descreve todo o
conjunto de dados e
nos dá uma ideia do que
será a média de toda a coluna aqui. Então você pode ver que átomo, átomo é uma coluna inteira e
a média dessa coluna é 6,2 para o desvio padrão
é 0,6 para alguma coisa, e o elemento mínimo
é 3,56 alguma coisa. Esses são os valores
que são muito cruciais na
visualização de dados também. Então, quando queremos
visualizar nossos dados, também
precisamos ver quais são os
desvios padrão, os meios e todas
essas coisas, certo? Então, esta é novamente uma função muito
importante, que é a função descrever. E vamos passar para algumas
outras funções cruciais. A primeira função
que vamos fazer é a função drop, que está no DFS got drop. Aqui. Vamos
especificar uma coluna. Então, digamos que eu queira
soltar o átomo da coluna. Então, vou
especificar o item aqui. Agora, o que
vou fazer é especificar o eixo. Então o eixo um significa coluna. Se o acesso for igual a 0, isso significará que
ele está em estado baixo. Então aqui eu especifiquei o eixo igual a um
porque eu queria especificar que o item é realmente
de coluna se fosse um não, se phi 0 aqui. Agora aqui, se eu quiser
remover esse conjunto de dados, certo? Então, se eu pressionar Control
Enter agora você pode ver que esse conjunto de dados agora
tem apenas três colunas, se m é removido. Tudo bem, então aqui
você pode ver que temos esse RMD movido para cá a
partir do conjunto de dados. Agora, uma coisa importante que
você notará aqui é que, se eu der
uma olhada no df.head, se eu me lembrar dessa função
e se eu pressionar Control Enter, você poderá ver que o item ainda está
lá neste DataFrame. Agora, isso significa que ele
está realmente removendo-o temporariamente e não
permanentemente deste DataFrame. Então, isso significa que
teremos que fazer algo para
que ele seja realmente
removido deste DataFrame. Agora, existem duas
maneiras de fazer isso. Na verdade, podemos reatribuir DFS, df é igual a df dot drop. Então, agora, se eu chamarei
a função df.head. Agora você pode ver que ele
removeu a coluna RM daqui. Esta é uma maneira, mas tenho
uma maneira mais conveniente aqui. Em vez de fazer isso
vf igual a isso, podemos usar outro parâmetro
aqui que está em vigor. É igual a verdadeiro. Então vamos executar isso. Na verdade, ele
removerá os dados, ganhará essas colunas
de átomo do conjunto de dados. E no local é igual a
verdadeiro significa que ele o
removerá no lugar
do DataFrame. Então, agora, se eu
pressionar Control Enter, você pode ver claramente aqui que o item é realmente
movido, certo? Então é, o uso desse parâmetro
no local
é certo? Agora vamos passar para algumas outras
funções importantes também. A próxima
coisa importante é que
também podemos usar é df três. Vou pressionar Control Enter. Você pode ver que isso me
dará as
três primeiras linhas, certo? Então, em vez de usar a cabeça, também
podemos usar essa
declaração que é df, depois colchetes,
e temos dois pontos aqui e depois três. Este é um. Outra maneira de fazer não se você não quiser
escrever a função head, você também pode usar isso. É mais rápido na natureza. Então, agora vamos passar para algumas
outras funções, como
excluir as primeiras colunas, certo? Então, vamos executar essa tarefa. Agora, digamos que
você queira remover essas duas ou três primeiras
colunas de um conjunto de dados. Então, como você vai fazer isso? Vamos dar uma olhada nisso. Agora temos a função DFT
e, obviamente, vamos
usar a função drop aqui. Medicare os parâmetros
vão mudar. A primeira coisa é que
vou escrever colunas. E especificarei essas colunas de
parâmetros. Então, terei que especificar todas as colunas em que
quero acreditar. A maneira de fazer é usar
colunas é igual a df.columns. Aqui posso especificar o
número de colunas. Então, se eu quiser acreditar nas duas
primeiras colunas, terei que usar dois pontos. E você pode ver aqui eu
vou ter que escrever para ele. Agora. O próximo parâmetro é eixo. Lembre-se de sempre
especificar o eixo porque ele especifica se
temos linhas ou colunas. Quatro colunas,
temos o eixo um. Para linhas, temos o eixo 0. E, obviamente, o
último é o
parâmetro in-loco x. Eu vou
direto por aqui. Agora, se eu vou
tentar escrever df.head. Agora você pode ver
que ele removeu as duas primeiras colunas
do nosso DataFrame. primeiro fazer é realmente representado usando
esses dois pontos e dois. E aqui temos df.columns. Então, especificamos as colunas usando essa função df.columns. Agora vamos ver como podemos
excluir as últimas n colunas. Excluir e última coluna. Então, digamos que você tenha uma tarefa na
qual deseja excluir as duas ou três últimas
colunas do conjunto de dados. Mais uma vez, usaremos
a função drop. Portanto, essas são basicamente, você pode ver as variações
da função drop e
elas são muito cruciais porque você usará
essas coisas importantes diariamente quando estiver
analisando o conjunto de dados. Então, se quisermos as últimas
N últimas colunas, na verdade para nós,
teremos que especificar que queremos soltar as
colunas. Para isso. Vou usar novamente
df.columns. Bem aqui. Vou especificar, digamos menos um contra especificar o
eixo, que será um. Porque a exclusão de colunas
e no local é igual a true. Agora, aqui o que vou fazer é dar uma
olhada no conjunto de dados em si. Tudo bem, então você pode ver aqui, quando eu especificar menos um, ele excluirá uma
coluna do final. Então você pode ver a última
coluna que foi feita foi, agora
é excluída dela, certo? Então, se eu escrever dois
aqui e executá-lo novamente, você pode ver um menos dois
com a coluna é removido. Na verdade, ele está removendo uma
coluna nessa posição de índice. Então, teremos que
especificar dois pontos aqui. Porque se não
especificarmos a coluna, ela não excluirá
as últimas n colunas, certo? Ele excluirá apenas
a coluna e o índice menos dois
que está aqui. Agora, se eu acertar isso agora,
você pode ver que ele está realmente tentando excluir algumas das colunas aqui, certo? Assim, você pode ver que as
duas primeiras colunas foram excluídas. Aqui. Posso fazer mais uma coisa. Vamos dar uma olhada no que
acontecerá se eu escrever aqui e dois pontos, certo? Agora você pode ver que, se
eu escrever dois e for, pontos estão no final, as duas últimas colunas
foram excluídas. Assim, você pode experimentar
essas variações
diferentes e diferentes para dar
uma olhada no que exatamente
podemos fazer dentro
do conjunto de dados
porque é muito importante. Dois pontos significa que estamos
excluindo as primeiras n colunas. E se ler eu faço dois pontos, ele excluirá as últimas n colunas do nosso conjunto de dados. No DataFrame,
não no conjunto porque o conjunto de dados
está intacto, certo? Então, agora vamos passar para outras
coisas também, o que é vamos tentar excluir
linhas do nosso quadro de dados. Temos o quadro de dados aqui. Este é o nosso DataFrame. E digamos que queremos acreditar primeiras n linhas
desse novo quadro de dados. Agora vamos ver como
podemos fazer isso. Agora. Mais uma vez, usaremos
a função drop. A função é, na verdade, uma função muito importante para exclusão. Então df dot dot drop. Agora lembre-se de que
aqui
queremos, não queremos
excluir a coluna, então não vamos
usar colunas iguais a duas. Vamos usar
a função df.head. Digamos que queremos excluir as três primeiras linhas
do nosso conjunto de dados, então eu fornecerei isso. Agora, o próximo
parâmetro importante é o eixo. Agora o acesso é baixo, os solos são realmente 0 e o último parâmetro está no
lugar, o que é verdadeiro. Vamos dar uma olhada nisso. Tudo bem, então agora você pode
ver que é específico. Ele mostra aqui que
temos uma edição aqui, que é que você pode ver
nem encontrar no acesso. Então, o que teremos que fazer aqui, df.head dot index, teremos que especificar
o índice aqui. Então só ele acreditará
nas três primeiras linhas, certo? Então df.head três significa as três primeiras linhas
deste DataFrame. índice de pontos
dará a ele o índice, o valor e,
na verdade, soltará as
falsas três funções. Então você pode ver que
em nosso DataFrame, estou mostrando
as primeiras fotos. Portanto, as primeiras fotos
não estão a partir de 0123, está a partir de
3456 aqui. Se eu especificar cinco aqui você pode ver o conjunto de dados
mudará, certo? Então, as primeiras cinco
linhas, as linhas serão
excluídas dessa forma. Agora vamos ver como podemos
excluir as últimas n linhas. Eu posso fazer isso aqui
apenas usando o método da cauda. Então d de cinco nos dará as últimas cinco linhas
do DataFrame. E o índice de pontos realmente nos
dará disfunção o índice da quinta e
última quinta coluna e vai deixá-los cair. Então agora, se eu vou escrever
aqui em vez de cabeça, se eu vou escrever rabo. Agora você pode ver que nosso conjunto inicialmente tinha 488 linhas, e agora está mostrando
que a última é 4083, que significa que ele removeu cinco linhas do nosso quadro de dados. Portanto, é assim que podemos excluir primeiro e linhas e
as últimas dez regras usando a função df.head
dot index. Df dot, função de índice de pontos. Certo? Então agora vou
entrar nisso porque
agora vamos passar para algumas outras
funções importantes também. Agora vamos ver como podemos
realmente resolver as colunas. Isso é uma coisa muito importante. A classificação de colunas
com base em, digamos, nomes ou seus
valores numéricos em ordem crescente ou decrescente
é muito importante. E você vai
fazer isso
com muita frequência nos conjuntos de dados. Para isso, temos uma função simples que é
a função de valores de classificação. Vamos escrever valores de classificação de pontos
df. Agora, o que faremos
é que eles terão que
especificar a coluna usando, por, digamos que queremos
classificar o volume RM, certo? E você pode ver que
esta é a coluna do item. E aqui temos
5.796, depois 5.859. Depois de classificar
isso, ele vai
mudar na ordem crescente, certo? Então, por item. Agora, a próxima coisa que
precisamos especificar é apenas o método in-place, o que será verdade, certo? Agora vou apenas
exibir df.loc. E aqui vou especificar
fatia aqui. Agora você pode ver que
isso realmente tem, vamos tentar na cabeça aqui. Agora você pode ver que essa variável de
item agora está classificada. Portanto, esse é o principal uso
da função de valores de classificação. Na verdade, ele
classificará todos os valores e todos os valores
dessas colunas RM. Então você pode ver que agora é 3.5613.863 e dessa maneira. Então, é assim que a função de
valores de classificação funciona. Agora, digamos que queremos soltar alguns valores duplicados
dentro do nosso DataFrame. Então, digamos que temos um
DataFrame onde existem alguns valores duplicados
dentro de uma coluna. Então, vamos ver como podemos fazer isso. Vou comentar isso, e também
entrarei neste. Agora vamos passar para
como soltar duplicatas. Queríamos descartar os itens
duplicados
do DataFrame que temos. Novamente, uma função muito simples, que é a função de duplicações de
sublinhado BF obteve queda. Escreveremos no
lugar igual a verdadeiro. Então, o que ele fará é remover todas as duplicatas
de um DataFrame. Agora, como neste conjunto de dados
não temos duplicatas, não
podemos ver isso em ação. Mas o que você pode fazer é, eu lhe darei uma tarefa
muito simples. Você pode realmente abrir
o arquivo CSV de ponto de alojamento e criar alguns
valores duplicados dentro dele
e, em seguida, usar essa função d
de duplicações de ponto e ponto. E você pode então ver e
visualizar como ele descartou esses valores duplicados no
lugar igual a true significa que ele está realmente
disposto a fazer alterações no DataFrame
original. Tudo bem, então essas foram algumas
das funções importantes, excluir, algumas triagens e
muitas coisas que elas são agora a tarefa muito
importante, que muitas das quais são muito importantes como
conhecido como fatiamento. O corte envolve duas funções muito
importantes aqui, que é a função LOC
e existe a função Lucy. Então, LLC basicamente significa localização. Existem dois métodos, LOC e Lucy dos
Pandas DataFrame, que na verdade nos ajuda a
cortar as colunas e linhas. Porque às vezes, quando você
está analisando um conjunto de dados, você não deseja analisar todo
o conjunto de dados. O que você quer analisar? Parte básica e simples
desse conjunto de dados. Então você quer cortar
isso para poder visualizar isso e fazer
muitas coisas com isso. Tudo bem, então vamos
ver como podemos usar a função LLC e I LOC. A primeira coisa é que
usaremos a função df.loc. E aqui vamos especificar 04. Agora vou especificar
os nomes das colunas
aqui, que é RM. E digamos que especificaremos mais
uma coluna. É LSAT. O que ele fará é que ele
realmente cortará todo o conjunto de dados. 0 significa as primeiras quatro linhas
e as colunas que
eu quero duas fatias, RAM e como sag, certo? Se eu apenas escrever a função de forma de ponto
df, se eu pressionar OK. Então aqui você pode ver que
não é tão triste quanto isso aqui, então isso foi um erro. Agora você pode ver aqui isso
me mostra que temos esse df. Vou pressionar Control Enter. Você pode ver que
esse é, na verdade o conjunto de dados de fatia
de todo o conjunto de dados. Ele escolheu apenas essas
duas colunas, que é nossa pilha MNL. E o intervalo das
linhas é de 0 a quatro. Então eu posso realmente mudá-lo para, digamos de dois para seis. E se eu apertar Enter, você pode ver que 23456, certo? Portanto, as leis são de duas a seis e as colunas
são marcas RM e S. Portanto, é um bloqueio muito importante. Na verdade, não é uma função, é um localizador. Então, LLC basicamente
significa que localizado em
localizará esses dois índices usando esses dois índices e foi cortá-lo para baixo. Então, o que podemos fazer
é atribuir dfs como ds igual a este. Se eu tentar
exibir df.head, isso me mostrará isso. Podemos realmente
cortá-lo e podemos reatribuí-lo ao
DataFrame, se quisermos. E aqui temos essa função LOC é função
muito importante
e estaremos usando essa função
se quisermos
analisar apenas uma pequena
parte do conjunto de dados. Agora temos outro
localizador que é o ILC. Lucy é basicamente o mesmo que LLC, mas foi a principal diferença, que é que ela
não leva valores extremos. Ele usará apenas os valores numéricos para localizar ou usar
os índices, certo? Então, em vez de elementos na pilha, teremos que especificar
os valores numéricos. Então aqui, se eu tentar executar um comando
muito simples aqui, você pode ver qual é o ILC. De 0 a quatro. Ele vai cortar as primeiras
quatro linhas do conjunto de dados. Portanto, aqui não podemos especificar
os nomes das colunas em si. Na verdade, podemos fazer o
corte deste raio aqui, se eu quiser, simplesmente, são duas vírgulas quatro. E se eu acertar Enter, ok, então temos, não
temos quatro colunas aqui. Vamos escrever três. Agora em seguida, pressione Enter aqui. Então agora você pode ver isso significa dois pontos para perder
as duas primeiras linhas. E dois pontos três
significam as três primeiras colunas. Se eu escrever três dois pontos, significa
que temos
as últimas três colunas. Você pode, você pode ver
que a partir daqui também, usamos sua cauda, que é neste lugar. Você pode ver que estamos usando dois
pontos para especificar as primeiras n colunas em pontos para especificar as últimas colunas
finais. A mesma coisa que o
fornecimento e aderir à função ILC porque
a seção de coluna, não
podemos especificar isso. Então é por isso que estamos
fazendo isso aqui. Então, se eu pressionar Control Enter
agora você pode ver que ele só especificará
as últimas três colunas. E você pode ver que isso
é na verdade em meados dos anos 70, que é a última coluna em si. Então, se eu vou fazer dele um. Agora, no visual me, as últimas três
colunas aqui, você pode fazer muitas coisas. Você pode brincar
com essa coisa. O que acontecerá se
eu especificar aqui, um, digamos 32. Aqui você pode ver que
três e não funcionará porque não é bom. Não é um intervalo aqui. Então, terei que
especificar, digamos 310. Todas as linhas de três
a dez são especificadas aqui. Então, nós tínhamos realmente cortando
as leis de três a dez. Aqui. Um a dois significa que ele realmente
selecionará
as colunas da posição
um para a posição dois. Se eu fizer três. Você pode ver que ele selecionará todas as colunas
de um a três. Então você pode brincar
com esses valores. Você pode especificar alguns valores
negativos aqui e dar uma olhada no que acontece no DataFrame e como o corte
está acontecendo. E isso ajudará você muito
na realização de análises de dados. Também. No próximo tutorial, vamos começar com a tarefa de pré-processamento de
dados. E basicamente agora você tem uma boa ideia de como
usar a biblioteca de pandas. Certifique-se
de experimentar todas essas funções
sozinho e dê uma
olhada em como a saída está mudando usando a função df dot head
ou a função df dot. Você poderá ver as
alterações no conjunto de dados. Então isso é tudo para este
tutorial. Obrigado por assistir.
4. Arrays de nojos.: Neste vídeo,
vamos começar com uma biblioteca muito importante, que é a biblioteca numpy. Então, a primeira coisa que
vou fazer aqui é que vou
importar numpy como np. Np é basicamente apelido. No tutorial anterior dessas
pontuações de ciência de dados, já
abordamos uma biblioteca
muito importante, que é a biblioteca de pandas. E vimos como podemos fazer
vários pacientes usando isso. Agora, vamos executar
essas tarefas de pré-processamento de dados nos próximos vídeos. E para isso, vamos
usar essas duas bibliotecas
importantes, que é a biblioteca NumPy
e pandas. Basicamente, se você quiser ver toda
a documentação
do não-ser, você pode simplesmente ir
na organização numpy dot, que é o site oficial
da biblioteca NumPy. Você encontrará todas as funções que esta biblioteca é um barco. Agora, já que estamos nos concentrando nas metas
da ciência de dados e nas tarefas de pré-processamento de
dados. Coletei algumas
das funções muito importantes
da biblioteca NumPy. E basicamente eu os selecionei de vários projetos
que fiz. Então, aqui vamos cobrir todos eles e a maioria deles é muito útil e vamos
usá-los nos
próximos vídeos. Então, basicamente, existem dois usos
básicos da biblioteca NumPy. O primeiro é
o número de Alice. E o segundo é a análise
numérica ou operações numéricas
que queremos realizar. Então NumPy significa Python
numérico. Então aqui vamos estar, temos essas duas partes aqui. Mas neste vídeo só
vamos cobrir os arrays Numpy. E no próximo vídeo, veremos como podemos realizar operações
matemáticas
como logaritmo, média de desvio
padrão, tudo isso. No próximo vídeo. Vamos começar com a íris NumPy. Então, basicamente, para
nós, precisamos entender
por que precisamos do NumPy. Então, basicamente, vamos
criar uma lista simples. Vou simplesmente criar
uma lista aqui, que é a. Ela terá três
elementos nela. Ou digamos que esses são
os quatro elementos. Então, se já pudermos
criar um menor que, digamos que eu imprima isso, imprima o tipo
dessa lista aqui. Se eu pressionar Control Enter, você poderá ver que isso pertence
à lista de classes usando matrizes. Por que estamos usando Eris? Vamos discutir isso primeiro. Agora, a coisa está na lista. Na verdade, ele não é armazenado em locais de memória
contínua. Portanto, esses quatro elementos não são armazenados em uma alocação de
memória contínua. Essa é a principal
razão pela qual não
teremos acesso mais rápido
a esses elementos
da lista porque eles não são armazenados continuamente
dentro da memória. É por isso que
precisamos de um por adultos. Como na ciência de
dados deseja realizar
operações mais rapidamente, queremos acessar
esses elementos mais rapidamente. Então, vamos
usar matrizes NumPy. E a segunda coisa é
que podemos usar algumas
das operações matemáticas
nesses artistas, como multiplicações
matriciais. E podemos até criar matrizes
multidimensionais usando o NumPy. Tudo bem, então vamos começar
com a primeira transposição, que na verdade é
criar uma matriz NumPy. Nenhum array NumPy é, na verdade, MDRD. E MDRD significa matriz
n-dimensional. Assim, podemos criar uma
matriz n-dimensional usando eles bytes, que é a localização basicamente
contínua dos objetos. É o objeto n dimensional. Então vou dizer aqui e objetos dimensionais, certo? Então, vamos ver como
podemos criar uma matriz. Então, vou criar um anúncio
aqui com o nome ARR. Uma maneira de fazer é usar
np dot. E aqui você só precisa especificar os elementos
do estudo. Então, se eu especificar uma vírgula, duas vírgulas três, isso será um array
NumPy, certo? Então, vamos tentar marcar
o tipo disso. Então, saberemos o que isso
realmente é aqui. Você pode ver isso mostra aqui
que pertence à classe. Portanto, ARR é uma variável
e a função de empate nos
dará o
tipo dessa variável. Então você pode ver que ele define
que esta é uma matriz NumPy. Portanto, é uma adição
dimensional m por n. Agora vamos ver como
podemos descobrir. A dimensão desta configuração, podemos usar a função dim,
a função endócrina
, que nos
mostrará o número de
dimensões da Sadie. Sadie tem apenas uma dimensão, que você pode ver aqui, 123. Agora vamos criar
outra dimensão aqui usando um coma separado. E vamos especificar
outra lista de elementos como 567, certo? Então agora você pode ver que ele diz que o tipo de dados
não entendeu. Então, a razão pela qual
isso está acontecendo é eles precisam ser incluídos
em um único. Que precisamos escrever
mais um colchete quadrado aqui, assim, e precisamos
fechá-lo aqui. Agora vamos pressionar Control Enter. Agora você pode ver que é
uma área bidimensional. Então, se quisermos especificar uma matriz
bidimensional, teremos que
especificá-la assim. Então, a primeira dimensão
terá esses três elementos. A segunda dimensão
terá esses elementos. Se eu quiser criar
mais dimensões, vou incluí-las
nesse site de colchetes. Mesmo que eu queira aumentar a dimensão
desses dois elementos, essas duas listas, o que
posso fazer é simplesmente adicionar mais
colchetes aqui, certo? Então, se eu adicionar três
colchetes, curiosamente, você
pode ver que ele aumentou a
dimensão da matriz. Então, quanto mais o número
desses colchetes, o modo é o
número de dimensões. Então você pode ver agora que
eu mencionei é sete, embora tenhamos apenas
esses dois elementos, certo? Então, se eu tentar imprimir
esse somador aqui, você pode ver que é
assim que ele vai aparecer. Dessa forma, podemos criar esse anúncio é o
número n de dimensões. E agora aqui vou
apenas torná-lo bidimensional. Ok, então agora temos essa matriz
bidimensional. Agora vamos ver como podemos criar áreas tridimensionais e
cinco dimensionais. Vamos criar outra
área que esteja em um du igual a matriz NumPy. Aqui, digamos que queremos
criar 123 tridimensional. É assim que vamos
especificar tridimensional. Aqui vou escrever uma
vírgula dois, vírgula três. Vamos criar
outra lista que é quatro vírgulas cinco, vírgula seis. E o último
é sete vírgulas 89. Então, agora vamos
tentar imprimir isso. Vamos tentar abrir o número
de dimensões deste Addie. Você pode ver aqui que temos três dimensões e
é assim que temos a outra. Dessa forma, podemos criar
qualquer objeto n dimensional. Basicamente, você pode ver que
podemos ter a capacidade de
criar anúncios que
são n dimensionais. Então, isso nos ajudará muito no pré-processamento de
dados também. E basicamente, quando
vamos
combiná-lo com algumas
multiplicações de matriz e algumas operações cruciais, como logs e
desvios padrão, obteremos uma tarefa de pré-processamento muito
boa e algumas
coisas muito importantes, certo? Então esse foi um
passo completo e agora vamos ver quais operações podemos realmente
realizar nesses átomos. Agora sabemos como
criar uma matriz, como criar uma Hillary
danificada. Agora vamos ver como podemos realmente fazer a indexação
dessas áreas. Então, basicamente, vou
escrever indexação. Digamos que tenhamos
esse ARR adicionado. E aqui eu escrevo um coma um. Vamos ver qual é
a saída aqui. Você pode ver essa vírgula um. Esses são os dois elementos
que estavam fornecendo. Indexação basicamente significa o que, como vou acessar um elemento específico dentro
desse todo dado nele? Então você pode ver que
este é o nosso sótão. Se eu estiver escrevendo uma vírgula 11 nos dirá a
dimensão em que estamos. Então você pode ver que
temos duas dimensões aqui, e começa a partir de 01. Portanto, esta é a dimensão zerosa e esta é a dimensão falsa. Então, na verdade, um está
indexando isso. Agora estamos encontrando o
elemento dentro dessa lista. Podemos dizer essa dimensão. O próximo que está aqui, especifica o elemento
nessa lista. Então, aqui estamos realmente encontrando 25671 significa que
estamos realmente apontando ou
indexando para o primeiro elemento. Então cinco está na verdade no 0, na posição seis está
na única posição. Se eu escrever três
aqui, vamos ver. Vamos receber um erro
porque há, eles não só os elementos
012 aqui, certo? Então, vamos fazer, vamos
ter sete aqui. Você pode ver, agora
vamos ver o que
acontecerá se eu escrever 0 vírgula dois. Agora você pode ver 0 significa que estamos realmente
olhando para isso. Adicionando aqui, que é
o 0 na posição, então estamos alcançando o
segundo elemento nele, que na verdade é três. Então, estamos recebendo
três na saída. Tudo bem, então é assim
que você pode executar a indexação. O primeiro elemento
nos dará a dimensão em que estamos. E o segundo elemento
aqui nesta indexação nos
dará a
posição correta do elemento. Vamos passar para
outra operação que vamos realizar. Muitas vezes nessas áreas, que é conhecida como fatiamento. Já vimos
fatiar em pandas também. E vimos como podemos fazer o
corte e os quadros de dados. Agora vamos ver como podemos
fazer isso em áreas, certo? Vamos considerar o
mesmo Adi, que é ARR. E aqui vou
escrever este comando Hill, que é um e
dois pontos e depois três. Vamos ver a saída disso. Agora você pode ver que
13 me dá 567. Por que estamos recebendo isso. Você pode ver que estamos
realmente fazendo o corte desse Adi. Isso já tem
essas duas dimensões, como podemos ver aqui. A primeira dimensão tem 123 e a segunda
dimensão tem 567. Estamos cortando o ADA
de 133 significa, porém, todos os elementos que
temos de uma posição líquida. Então você pode ver
que temos zeros aqui, então temos a primeira
posição aqui
e, em seguida, todo o corte
que ocorre
da primeira posição até a segunda posição porque
três não está incluído aqui. Então, vou escrever aqui
que três não são inclusivos. Então, ele vai
cortar o dado na primeira posição. Segunda posição porque três não
é inclusivo, certo? Vamos ver como podemos fazer isso na segunda área
que é adicionada. Ok, então nos dois lábios adicionados escreva o mesmo comando
para ver a saída. Agora você pode ver aqui que
não temos nada dentro deste Adi. Vamos ver por que
isso está acontecendo, porque na primeira posição não
temos nenhum item. Este é o buraco é
a 0ª posição, então vamos tentar 0 aqui. E agora você pode ver
rapidamente isso aqui, se tentarmos cortá-lo de 0,
temos 0 vírgula um, vírgula dois. Nessas três posições, temos todos esses elementos. Então esta está na 0ª posição, esta está adicionando
a posição falsa, e esta está
na segunda posição. Então você pode ver que isso é
o resultado do corte
que fizemos. Agora você precisa
brincar com diferentes tipos
de artérias e você
precisa brincar com esses valores diferentes para dar uma olhada no que acontece
no resultado, para realmente obter um
melhor compreensão de como as coisas estão funcionando. Porque você não pode aprender
todos esses termos. Você não pode memorizar
todas essas coisas. Você terá que continuar praticando com diferentes matrizes
dimensionais. Cortando com valores
diferentes. Aqui, em vez de 0 a três, vamos remover 0 e vamos
ver o que acontecerá aqui. Você pode ver que não
há mudança aqui. A razão é quando
escrevemos del três, basicamente significa que o
primeiro 012 desimpedido, certo? Tudo bem, então
é assim que podemos fazer o corte dentro
de casa dado. Agora vamos ver como
podemos fazer o corte de etapas. Aqui. O que vou fazer é
imprimir isso. Agora estamos estudando
sobre fatias, que é outro conceito muito
importante. Então aqui temos, recebemos a Sadie
e vamos fazer o corte aqui,
os passos cortando. Vamos ver o que exatamente isso é. Então, vou
trazer a adição aqui. Vou escrever um coma. Vamos tentar 10 a um a dois. E vamos ver o que exatamente
obtemos o resultado aqui. Então, em vez de slides
e você pode ver que
temos isso como resultado. Então, basicamente, o que
exatamente é esse corte? Em vez de fatiar,
dizemos que
queremos cortar o Eddie dado, mas vamos
seguir esses passos. Então, primeiro
vamos especificar, estamos especificando
esses três valores. Então foi, na verdade, vai
cortar de 0 a um. E então foi cortado
de um a dois, certo? Então, na verdade, será fatiar está acontecendo
em uma taxa gradual. Então, em vez de cortar a
partir de toda a matriz, podemos realmente fazer algumas pequenas partes da
matriz usando fatias de etapas. Há mais maneiras de fazer isso. Podemos até tentar todos
esses métodos. Então, basicamente, vou
criar outro átomo aqui, que chamarei
como adicionado três. E nisso, vou
usar um biótico. E isso vai ter
os elementos, digamos. Riqueza vírgula três,
vírgula 456, vírgula sete. E vamos criar mais
um que é 11 vírgulas duas vírgulas três. O último será apenas três
vírgula quatro, certo? Então, temos esses elementos aqui. Isso, você terá que ter
muito cuidado quando estiver
criando uma matriz NumPy porque ele terá que
se certificar de que o número de dimensões realmente o
que você deseja, certo? Então aqui temos a
falha, a dimensão, e aqui temos a
segunda lista de elementos. Agora digamos que eu queira incluir esses dois em
uma única dimensão. Eu posso fazer isso usando, na verdade, incluindo-os nesses colchetes únicos. Então, agora, se eu quiser incluí-los
em outra dimensão, posso fazer isso usando outra, criando outro
colchete, certo? Então, sempre que você
quiser criar uma dimensão, você terá que se certificar criar um registro quadrado para ela. Agora, o que você vai
fazer é tentar. Use a função final, que realmente nos dirá
a dimensão dessa matriz. E certifique-se de usar essas funções
finais para que você possa saber se está obtendo
as dimensões necessárias. E o ADA também é a área necessária
que você deseja, certo? Então você pode ver o número
de dimensões ou duas aqui, que está aqui, o
resultado está aqui. Agora, o que eu só quero fazer isso, aqui temos duas dimensões. Na dimensão positiva, tenho essas duas posições, e na segunda
dimensão tenho esses dois átomos aqui. Quero fazer o corte. Isso adicionou três. E eu quero fazer, digamos que eu escreva
uma vírgula quatro. Vamos apertar Enter aqui e
vamos ver o que acontecerá. Então agora você pode ver que
não está nos mostrando nada. Então, vamos fazer isso como 0. Este será um. O que estamos fazendo aqui
é na primeira parte, estou especificando que
estamos na 0ª posição, o que significa a dimensão
zerosa. Na dimensão 0, estamos realmente cortando de
um até que ele inclua, Vamos deslizá-lo como 0 a dois. Portanto, incluirá
todos os elementos de 01 estão incluídos e a dimensão
que estamos vendo é 0. Então, se eu fizer isso um, vamos ver qual
será o resultado. Você pode ver isso mostra
o resultado que
temos 123 e três quartos, o que é que você pode ver
neste dano em que está apontando para a
primeira posição, certo? Portanto, se você quiser cortar em
uma dimensão específica, você pode especificar a
dimensão aqui. Então aqui vou escrever
um comentário que a primeira posição especifica a dimensão e o índice da segunda
posição de fatiamento. Dessa maneira. Você será capaz de
entender isso mais rapidamente. Que esse primeiro
parâmetro pertence
à dimensão que
estamos vendo, que queremos
realizar um corte. E aqui estamos escrevendo, como queremos fazer
o corte, certo? Queremos cortar 012. Mas aqui, se quisermos
fazer o corte de passos, também
podemos fazer isso. Na verdade, podemos
especificar que quero elementos de 0 a um, depois de um a três, que é a matriz numpy. Se ele tiver esse
número de elementos, ele poderá
cortá-los. Então é assim que podemos fazer o
corte dentro de uma matriz. Você pode se divertir
criando diferentes áreas com diferentes números de dimensões e diferentes
números de elementos. E você será
capaz de entender como esse corte de etapas está funcionando e como esse tipo de
indexação está andando. Certo? Agora vamos passar para
outro conceito, ou seja,
digamos que queremos
testar algumas funções do NumPy. Digamos que queremos calcular a média e
outras coisas também. Então, nesse caso,
digamos que eu quero criar uma série de números contínuos
e naturais. Digamos que eu queira criar
uma matriz n números naturais. Nesse caso,
não precisamos criar uma matriz escrevendo
os números manualmente. O que podemos fazer é simplesmente,
digamos que eu queira
criar uma matriz. O que é nRT. E eu quero incluir os primeiros
20 números naturais para que eu possa apenas escrever
e ponto V, certo? E digamos que eu queira criar
um número natural que começa
a partir de uma certeza de
alerta. Certo? Então, o que acontecerá é esta biblioteca NumPy
criará e adicionará, que vai de um a 20. Se eu simplesmente imprimir
isso e adicioná-lo aqui, você poderá ver
isso no occipital, certo? Então aqui diz que o módulo
numpy não tem, ok, então deve ser único. Agora você pode ver que temos esses elementos que
começam de um a 19. Então você pode ver que 20 não
está incluído, certo? Portanto, o último não está incluído. Então, se eu escrever 20, ele começará a partir de n
e vai até 19. Agora, por que estamos fazendo isso? Porque se quisermos um conjunto de números naturais
para brincar, podemos realmente usar
essa função e garantir que seja apenas
um único cabelo, certo? Não é W. Ok, então vamos ver o que mais, como você pode concordar
com mais valores. Digamos que queremos criar números
flutuantes de
uma posição dois, digamos de um
número para o outro. Então, a maneira de fazer é criar outra área
que é adicionada aqui. Digamos que queremos
criar decidido. Usaremos novamente a função de
arranjo. Aqui. Vamos especificar
o intervalo de onde queremos
os números flutuantes, certo? Digamos que eu queira
números flutuantes de um a n, que é dez aqui. E agora terei que especificar o tipo de dados aqui
usando o tipo. E aqui vou especificar o float. Certo. Agora, isso
realmente criará e simbiótico com
números flutuantes de um a dez. Então você pode ver que esses não
são números flutuantes. Portanto, ele tem 1.2.03 ponto. E da mesma forma, certo? Então esta é outra coisa
interessante. Lembre-se de que todas
essas funções virão na tarefa de
pré-processamento de dados. Portanto, certifique-se de que você realmente
os pratique sozinhos. Tudo isso é muito importante e já
os usamos em alguns projetos. Portanto, certifique-se de que você
também pratique isso. Vamos passar para um conceito muito
importante, que é mudar a forma. Alterando a forma da matriz. Digamos que tenhamos uma matriz
com uma determinada dimensão. Digamos que um é três por três dimensões tridimensionais
iluminadas duas por duas dimensões. E agora queremos mudar
a forma da matriz. Queremos alterar a
dimensão da matriz. Então, vamos ver como podemos fazer isso. A primeira coisa é ver como podemos verificar
a forma do anódico. Então, para isso, vou
tocá-lo anódico um igual a um ponto numpy ID. Aqui vou especificar apenas
uma vírgula dois, vírgula três. E vou imprimir a forma de ponto
Hill, certo? A forma não é uma função, é uma propriedade. Então, se eu pressionar Enter, isso nos mostrará
que a forma é três vírgulas e nada está aqui porque não
especificamos as colunas. Existem apenas três
elementos aqui, então ele está especificando isso. Vamos criar mais um. Em vez de criar uma
matriz como essa elevação, aperte e números naturais
usando a
função organize np.arange. Vamos criar seis elementos. Então, para isso,
vou especificar seis. E aqui temos, digamos que eu use a função de
remodelação. Agora vamos dizer que eu
quero remodelar esse array. Digamos que tenhamos
este aqui e aqui eu escrevo isso uma forma escura. Sabemos que ele
mostrará três Homer, algo bom para saber. Quero
remodelá-lo para poder usar a função de remodelação, certo? Então, vamos
reatribuí-lo, reformular pontos. E como há
três elementos aqui, podemos criar
mais alguns elementos para
que possamos realmente
mudar a forma dele. Então, vamos adicionar mais alguns elementos. Vou adicionar 456789. Também. Criamos
esses elementos aqui. E o que eu quero é, eu quero,
estes são, na verdade,
os nove elementos e está tendo uma
dimensão nove vírgula um. Então, se eu pressionar Enter
ou Control Enter, isso me mostrará
que a forma
desta era é nove vírgulas um. Então, o que eu quero é que eu quero
converter essa única
dimensão nela. Quero remodelar em matriz três
por três, certo? Então, a maneira de fazer é
especificar as posições aqui. Então, se eu quisesse uma forma
de três por três, percebi três vírgulas três. Agora, o que fará
é
mudar rapidamente a forma
deste todo dado, que está aqui, em uma matriz tridimensional
por três dimensões. Então aqui, se eu
pressionar Control Enter, você pode ver rapidamente
que agora a mudança, a forma foi alterada
para três por três, certo? Então, vamos dar uma olhada
na forma do adicionado antes de
usar a função de remodelação. Então, se eu escrever uma forma de ponto
adicionada, você pode ver que
inicialmente eram nove vírgulas 0 e agora
são três vírgulas três. Então, mudamos
a forma ou a dimensão decidida
por três por três. Então, o que acontecerá agora é que
os lábios tentam trazer isso aqui. Agora você pode ver em vez
de um único, agora
é 123. Então temos quatro
lutadores e temos 789. Então, uma
matriz tridimensional que temos aqui. E ele o dividiu
em assim, certo? Então, o que acontecerá se eu
escrever três vírgulas dois aqui? Vamos ver se ele
será capaz de fazer isso. Agora você verá rapidamente aqui avaliador diz que
não podemos remodelar a área
de tamanho nove para isso. que significa que sempre que
você quiser fazer uma remodelação, você terá
que se certificar de que o produto desses dois, que é o qual
vamos escrever
nesta função de forma é igual ao número de elementos
dentro da configuração. O que mais? Você não
será capaz de fazer isso. Tudo bem, vamos incluir
apenas seis elementos aqui. E agora sabemos que o produto de três vírgulas dois é seis. Então, se eu pressionar Control Enter, agora você pode ver que ele
criou uma matriz com dois elementos
aqui e há dois, e esta é uma matriz
dois por três. Temos duas colunas
e três linhas. Aqui temos três vírgulas dois. E agora vamos
mudá-lo para duas vírgulas três. Agora você
verá rapidamente aqui no estranho que os
elementos são três, mas temos apenas duas
dimensões aqui. Então é assim que podemos
fazer a remodelação
desses elementos de uma determinada matriz
NumPy, certo? Portanto, é uma
coisa muito importante que você
usará esse vídeo com
frequência quando estivermos realizando a análise, embora as tarefas de pré-processamento de
dados também mudem para outra função
importante que eu continuo vendo. Muitos projetos
em Data Science, que está substituindo os
elementos por um. Digamos que eu queira
substituir todos os elementos do monádico pelo valor um. Então, vamos ver como posso,
como posso fazer isso. Primeiro de tudo,
criarei uma nova matriz. E em vez de escrever
os elementos manualmente, vou simplesmente usar essa função de
arranjo. Aqui vou criar
uma matriz com, digamos que temos
quatro elementos nele. Agora, o que vou fazer
é substituir. Vou tentar apenas mostrar
o valor dessa área. Você pode ver que
essa matriz tem 0123. Agora o que vou
fazer é usar uma
função muito importante que é sublinhado
np dot, função
Like. Aqui vou
fornecê-lo com a nova RA. Vou pressionar Control Enter. Agora você pode ver que ele
substituiu todos eles por um. Portanto, é
importante, é útil em muitos
casos quando queremos
realizar alguma
categorização de dados, queremos, podemos fazer isso
usando isso, certo? Por isso, é importante que seja
um modo que é o lago zeros. Então, se eu relacionar zeros aqui, ele converterá todos
eles em zeros. Você pode ver aqui, essas são
duas funções muito importantes, que eu vi e usei pessoalmente
em alguns projetos. Portanto, certifique-se de
praticá-los também. E posso ver que tem
zeros e uma escala. Agora, vamos passar
para a próxima parte, que é como podemos concatenar
duas artérias aqui. Vou escrever
aqui concatenando. Tudo bem, então, para isso, vou precisar me dirigir. Então, vamos criar outro. Quando criamos uma
graduação para aqui. Então, vamos criar alguns dos
elementos dessa matriz, que serão organizados
pontos numpy. E aqui, digamos que queremos
elementos de tutores seis. Aqui, criarei outro array que
será em outros diferentes. Isso vai das sete. Temos esses dois
átomos e, em seguida,
queremos concatená-los
em uma única matriz. Para fazer isso, é muito fácil. Podemos apenas usar, digamos que
vamos
criar outra área que é
a maioria de A1 e A2. Agora, para fazer isso, temos
uma função muito simples, que é a função de
concatenar np dot. Aqui só precisamos
especificar esses dois arrays. Agora lembre-se
que esta é a função e queremos
especificar A1 e A2. A maneira de fazer não é assim. Algumas pessoas fazem
assim, como A1, A2. Você não pode fazer isso assim. Você terá que especificar isso como um par de
colchetes circulares sem fim como este. Então agora podemos ver que temos um colchete que é toda
a função concatenar. Este segundo suporte especifica
A1 e A2 como um jogador. Agora, se eu vou tentar
trazer isso muito adicionado, você pode ver isso mostra
que os intervalos de nomes, ok, então aqui deve ser np.arange, não em coma pico. Agora você pode ver que ele entrando em contato com você para essas duas
setas em uma única matriz. Você pode ser usado, você usará muito essa
função, que é combinar
dois ou mais arrays. É assim que podemos fazer
a parte da concatenação. Vamos passar para a parte
contrária disso, que é como podemos
dividir o anúncio é como, digamos que eu queira
dividir esse módulo. E para fazer isso, o que vou fazer é que eu farei. Primeiro, vamos criar outra ideia. Vou chamá-lo de papai impassível. Aqui vou usar uma função muito
simples aqui, que é usada para fazer
a parte de divisão, que é np dot split nela. Adicionando a função
split sublinhado. Aqui eu só quero
especificar a mortalidade. Então teremos que
especificar, digamos três. Tudo bem, então eu queria
dividi-lo na terceira posição. Agora, vou tentar
imprimir esse papai impassível. Papai tinha todos esses
elementos, 2345678. Então, aqui nós vemos isso. O mesmo nome, mesclado, não
é o caso final, então não foi muito, era mais sublinhado ARR. Então, ele dividirá isso nos dados da
imagem da
terceira posição. Então podemos ver aqui,
temos 23457891011. E agora você pode ver
que três significa que é, dividi-lo em três partes iguais. A primeira parte é a
três para a segunda parte é 7891011, certo? Então, vamos mudá-lo para fazer e
vamos ver o que acontecerá. Agora você pode ver que ele
cai cria uma matriz com cinco elementos e a
próxima era com quatro elementos. Desta forma, podemos dividir
as RAs em várias áreas, certo? Agora vamos passar para outra
parte importante que é
realizar a pesquisa
dentro de um dado nela. Usando esta biblioteca NumPy. Queremos
procurar alguns elementos. Então, primeiro, vamos dar um exemplo. Vamos chamá-lo como nisso. Vou apenas para o primeiro
exemplo daqui. Este aqui. Em seguida, crie e adicione
um com alguns números aleatórios. Estou usando números
aleatórios aqui. E digamos que eu queria procurar por 87 dentro deste adicionado, que é o nó
que está em 0123. Está na terceira posição
e queremos procurá-lo. Então, a maneira de fazer é muito simples. Primeiro criarei
um elemento x, que realmente obtém a
localização dos 87º elementos. Portanto, temos uma função estranha que é usada para executar
a parte de busca. Então np dot onde a função
obterá dois parâmetros. Apenas um parâmetro funcionará. E é igual a dois é igual a dois. Preciso especificar o
elemento que é 87. Então agora o que ele vai fazer
é procurar por 87 dentro deste dado em
um que é E aqui, certo? Então, se eu tentar imprimir x, você pode ver aqui que ele
mostra a pesquisa. E agora diz em uma terceira posição e o tipo de dados do
elemento é inteiro 64. Você pode ver aqui que estava
realmente na terceira posição. Então esta é a primeira, desculpe, a 0ª posição. E primeira, segunda,
terceira posição. Então, nos deu a posição. E você pode ver que,
já que estamos usando Eris, pesquisar é o
adotivo neste caso. Agora, vamos passar para outra parte importante
que é a classificação. Uma matriz dada. A classificação também
é importante. Em seguida, classifique este ERD apenas. Você pode ver que este
anúncio não foi classificado. Vamos tentar classificar isso. Vou escrever o Brent. E função de classificação de pontos P. E dentro desse
controlador de classificação especifique E aqui. Você pode ver que esses são os dados classificados em ordem
crescente, certo? Então você pode ver inicialmente
que não foi classificado. E agora isso em um é classificado. Então, funções muito
simples e simples, essas funções utilitárias realmente
ajudarão você muito na tarefa de
pré-processamento de dados. Praticá-los é
muito importante. E quando você fizer
mais e mais produtos, você se familiarizará
com todos esses. E você terá um bom controle de todas essas funções
aqui, certo? Certo, então vamos passar para
outro. E este é triangular
superior. Agora essa função é, eu já vi isso em
muitos projetos. Como criar triângulos VR. E é um conceito muito
importante. Portanto, concentre-se nessa parte aqui
porque é realmente importante entender por que
é importante criar triângulos
de relações públicas. Então, digamos que eu crie
uma matriz aqui. Vou chamá-lo como adicionando um. Vamos chamá-lo de 0. Aqui vou usar np dot. Vamos tomar e como exemplo. Vamos usar
e, que está aqui. Para criar triângulos de relações públicas. Que eu vou, vou
apenas imprimir b ponto u, que é forma curta de triangular
superior ou tri, significa triângulo, você quer dizer acima. Então np dot triangular U significa que ele criará um triângulo superior
da matriz dada. Para isso, vamos criar uma matriz
tridimensional. Criarei rapidamente uma matriz
tridimensional. Tudo o que já criamos uma
matriz tridimensional acima aqui. Quando estávamos fazendo
a parte de remodelação, criamos esta também. Vamos criar novamente. Aqui. Vou usar o ponto B laranja, e incluirei elementos
de branco um até nove. E vou
remodelar rapidamente a matriz três por três. E vamos dar uma
olhada nisso, em um 0. O primeiro Nexi,
esteja correto ou não, diz
que deve ser
um chamado Martin. Temos isso que você pode ver
que este é o addie. Temos 123456789. Então, uma matriz de três por três, você pode considerá-la como uma matriz de
três por três. Então queremos criar
um triangular superior. O que podemos fazer é
dar uma olhada em como a RA mudará quando
aplicaremos o
triângulo superior aqui. Triângulo bipando. Então, vou imprimir a função np
dot u. Aqui. Eu vou especificamente, vou especificar
dois parâmetros aqui. O primeiro parâmetro será
a matriz onde
queremos o triângulo superior e
o segundo elemento é 0. Vou te dizer o que exatamente
esse segundo elemento pode ser. Realmente mude esse valor. Na verdade, pode ser 0 menos 11. Veremos os valores como isso está mudando quando estamos aplicando o segundo
parâmetro como 0, depois menos um e depois um. Então, vamos pressionar Control Enter
para ver a saída aqui. Você pode ver quando eu especifiquei 0, ele criou um triângulo superior. Então, inicialmente, isso era o RID. E agora, depois de
criar um triângulo, você pode ver todos os
elementos além. Você pode ver que estes são
os elementos diagonais, 159 milímetros. E agora você pode ver que está
realmente formando esse triângulo. 123569 está realmente formando um triângulo aqui, que
você pode ver aqui. E esses elementos se
tornaram 0, certo? Então, uma vez que eles se tornem 0, temos um triângulo superior aqui. Agora vamos alterar esse
valor de 0 para um. Vamos ver qual será
a mudança aqui, certo? Então agora você pode ver
aqui, se escrevermos um, ele incluirá os elementos
diagonais também. Então, ele criará
um triângulo superior. Você pode ver que
dois três sextos estão envolvidos nesse triângulo. Esses elementos se tornaram 0. Se eu mudar isso para menos um, e eu vou pressionar Control Enter. Agora você pode ver que V0
comprou um triângulo superior, mas apenas o último
elemento é 0, certo? Então, todos os elementos
acima disso nada 0. Então, desta forma, podemos
criar um bot triângulos e você verá o significado
de criá-los. Triângulos dentro de quando
começaremos com as tarefas de
pré-processamento de dados. Você verá muitas
dessas
disfunções de função secas que você usou
em muitos projetos também. Agora você tem uma boa ideia de como exatamente essa função
mudará o adicionado. Agora, o que vou
fazer é agora avançar para
a última função, que é alterar o tipo
de dados da adição dos
elementos da matriz. Tudo bem, então, para isso, vou criar outro adicionando 23. E aqui usarei np.edu. Vamos criar elementos que valores
flutuantes automáticos ,
que é 2.11.2. E vamos dar um molar, que é, vamos ver, um de
três pontos. Agora, todos nós temos
esse array NumPy. O que vou fazer
é
imprimir o tipo deste site. Então, antes de tudo,
criarei uma nova matriz. Aqui. Usarei
a IRR como função Obrigado. Vou escrever aqui. Então, agora o que acontecerá é que
ele criará uma nova matriz, mas que tem todos os valores
disso adicionados a três. Ele vai convertê-lo
em realmente sua parte. Então, vamos dar uma olhada em como exatamente nosso novo Adam se
parecerá. Assim, o novo Audi terá
todos esses elementos, mas apenas a
parte inteira desses elementos. Então aqui você pode ver a
alteração do tipo de dados, e agora ele tem 123 e ignorou
essas partes decimais. Dessa forma, você pode
alterá-los por dentro. Se você quiser alterar o
tipo de dados dos elementos, você pode realmente fazer
isso e você enfrentará muito
essa dificuldade quando
estiver pré-processando dados. Às vezes você não
precisa de valores flutuantes. Então você os converte por
uma questão de facilidade, você os converte em partes
inteiras também, certo? Portanto, há mais algumas coisas, como se você quiser imprimir
o tipo de dados dessa matriz, basta usar
a propriedade dtype. E aqui mostrará
que é um inteiro 32. E digamos que você queira
alterar o tipo de dados para string. Então aqui, se eu especificar que
isso é realmente uma string, vamos criar uma matriz
de strings aqui, que é 13. Assim. Agora, aqui o que posso fazer é especificar o tipo de dados disso. Então isso está tendo um tipo de
dados de string. Agora, vamos ver se
podemos realmente convertê-lo e fazer e
realmente sua parte. Se eu pressionar Control Enter, você poderá ver que ele foi convertido
com sucesso em parte inteira. Digamos que agora eu queira especificar que isso não é
realmente uma string. Digamos que ele tenha
quatro bytes inteiro. Eu, quatro significa quatro bytes inteiro se eu
pressionar Control Enter. Agora você pode ver que ele tem este 123 e um inteiro Trinta e dois. Aqui terei que
fazer algumas mudanças. Em vez de novo nisso. Vou especificar ARR,
fazer três aqui. Agora posso ver que é 123. Aqui. Quero especificar o
tipo disso adicionado a três. Portanto, o dtype é
realmente inteiro 32. Novamente, é assim que você pode realmente alterar o
tipo de dados dos elementos de string para inteiro
ou inteiro para flutuar. Então, basicamente, isso é
tudo para este tutorial. Veremos você
no próximo tutorial. Obrigado por assistir.
5. Funções em Python: Nesses CDs, neste curso, já
abordamos matrizes NumPy. Por isso, cobrimos algumas
das funções muito importantes que
podemos executar em não compradores. E neste vídeo
vamos cobrir todas as
operações matemáticas NumPy que são suportadas e podemos
realizá-las em biotas Dina. Portanto, essas são algumas
das
funções básicas e algumas
das muito importantes que você
usará ao longo de sua carreira em ciência de
dados. Então, vamos começar com isso agora. Primeiro de tudo, vou importar
numpy como np liquidamente aqui. E aqui vou
criar uma matriz que será np.array. Aqui vamos
criar três elementos
aqui, que é 123456789. Aqui você pode ver que
eu criei uma matriz. Vamos verificar rapidamente
se o
definimos corretamente
imprimindo isso. Então aqui você pode ver que eu criei essa matriz que tem esses
nove elementos nele, certo? Agora, o que vou fazer é
realizar algumas
das operações matemáticas
nessa matriz aqui. Por exemplo, ponto-produto, desvio
padrão, média e todas as funções
estatísticas também. Vamos começar com alguns
dos básicos. Então, o primeiro aqui é dois. Calcule o momento máximo, que é um
bit muito importante é que realmente
dará o elemento máximo
em toda essa matriz. Vou imprimir, usar a função np dot max, que realmente nos dará o elemento máximo
dessa matriz. Você pode ver que, se
eu pressionar Control Enter, você pode ver que nove é o elemento máximo
em toda essa matriz. Agora, o que vou fazer aqui é Vamos supor que
queremos descobrir qual é o elemento máximo
neste eixo, que é a lei aqui. O que posso fazer é, na verdade especificar o eixo aqui também alega que o Acesso é igual a
0 se eu pressionar Control Enter. Agora você pode ver que o eixo 0789 é o elemento máximo. Então, também podemos fazer isso. Então, se eu escrever um aqui
e eu gostar de controlar Enter, você pode ver que será 369. Assim, ao alterar o acesso, você pode realmente retornar o elemento máximo de
acordo com o acesso que são
linhas e colunas. A próxima parte, que
é semelhante, é calcular
o elemento mínimo. E para isso também temos a mesma Técnica que é
usar a função principal np dot. E aqui eu posso
especificar a matriz. E você pode ver
que o mínimo, o elemento mínimo
dessa matriz é um, e é isso que ela
está imprimindo aqui. Da mesma forma, também podemos fornecer
aqui o eixo em 01 também. Agora vamos passar para algumas
outras funções, no entanto. Essas são, na verdade, as funções
estatísticas. Então, basicamente neste curso, ainda não toquei
nesses tópicos de estatística, seja,
qual é o significado do desvio
padrão, média de
variância. Esses são alguns dos tópicos
cruciais que precisam ser abordados
na ciência de dados. Então, o que estou fazendo aqui
é neste tutorial, vou mostrar como usá-los. E no próximo
vídeo vou
ensinar todos os conceitos importantes dessas estatísticas, como variância, média, desvio
padrão. E dessa forma, você será
capaz de entender melhor como essas funções são
úteis na ciência de dados. Então, vamos começar com
o básico, que é calcular a
média do Eddie dado. Então, digamos que
recebamos essa matriz aqui, que é essa, eu quero calcular a média. A média é basicamente média. Então, o que posso fazer é que eu
quero imprimir o meio disso. Então, para isso,
vou usar a função np dot mean e
vou ter que
fornecê-la com a matriz. E você pode ver aqui
que ele retorna cinco como a média porque
na verdade é a média de
todos os elementos. Vamos discutir
mais do que essas coisas, que são os conceitos
de estatística em detalhes no próximo tutorial. Então, vamos passar para
outro conceito de estatística
que é variância. Variância. Vamos cobrir todos eles
nesta única célula aqui. Variância e desvio padrão. Essas são as duas coisas que são muito importantes e são amplamente usadas
na ciência de dados, porque
elas são realmente muito úteis para executar alguns
dos métodos importantes
de pré-processamento de dados. Além disso, aqui podemos
imprimir a média. E se quisermos
pintar a variância, posso apenas
fornecê-la com esta. Então você pode ver que
a variância
dessa matriz dada é 6,66. Da mesma forma, se eu quiser
o desvio padrão, posso fazer isso
usando np dot SDD, que é o desvio padrão. E vou aplicá-lo
com a matriz aqui. Você pode ver se eu
apertei Control Enter, isso me dará o desvio
padrão. Estudaremos esses três conceitos
importantes, e há mais um conceito
importante que é uma distribuição normal. Também estudaremos isso. Vamos passar para alguns dos tópicos
da álgebra linear. Que estes são alguns conceitos
matemáticos, que é o ponto-produto e a multiplicação e
adição de matrizes. Então, vamos realizar essa saúde. O primeiro método que
vamos executar é
calcular a transposição de uma matriz. Então, basicamente, este
curso requer que você tenha
conhecimento básico de matemática, que são matrizes
e determinantes. Então, vamos ver como podemos calcular a transposição
de uma matriz. Para isso, é muito simples. Eu posso apenas escrever a maiúscula de ponto da
matriz T. Se eu pressionar Control Enter. Agora você pode ver que esta é
a transposição de uma matriz. Então, essencialmente, você pode ver que as funções
se tornaram colunas aqui. Então 123 era na verdade uma
linha na matriz aqui. Então queremos calcular as
bestas
e nos tornar a lei. Você pode ver agora
que a coluna é 123. É assim que podemos calcular
a transposição de uma matriz. Vamos passar para como
calcular o determinante
de uma matriz. Estes são todos os conceitos de conceitos
básicos de álgebra
linear. E esta é a única matemática necessária
na Data Science, que é estatística,
probabilidade e álgebra linear. Mesmo que você conheça o básico
desses conceitos, você
está pronto para ir. Vamos ver como podemos calcular o determinante dessa matriz. Para isso, vamos usar a biblioteca
NumPy com
essa função aqui. Então np dot LIN LG função, que na verdade é uma
propriedade em ordem função. E então usaremos o
DEP para calcular o determinante dessa matriz. Você pode ver que
o determinante
dessa matriz é essa colina, np dot LIBNAME dot db. Tudo bem, então vamos passar para como calcular
a classificação de uma matriz. Basicamente, o rank é
calculado como n menos um, onde n representa o fim, basicamente representa o
número de dimensões. Tudo bem, acrescentando, você pode ver que essa
área era emissão teta. Então, se eu quisesse
calcular a classificação, o que posso simplesmente fazer é
ter que usar álgebra linear np
dot. Dot LAN LG significa álgebra
linear aqui. E já que estamos usando as
funções de álgebra linear e aqui sou como a classificação de
sublinhado da matriz. Aqui. Vou fornecê-lo com
a matriz ou o sótão. Aqui você pode ver que, embora seja o posto dessa matriz, certo? Então é assim que você pode calcular
a classificação dessas matrizes. Então, queremos
passar para algumas outras funções
importantes também. Então, vamos dar uma
olhada em como calcular os autovalores
e autovetores. Autovalores e autovetores também
são importantes. Aqui, você usará essas funções com mais frequência
na tarefa de pré-processamento de dados. Vamos ver como podemos
calcular os autovalores. Basicamente, vamos supor que
temos uma matriz quadrada a. Se eu multiplicar, se eu
fizer um produto de ponto com v será igual a k, que são os autovetores. E novamente, ponto produto com v, que são os autovalores. Então, basicamente, o propósito dos
autovetores é realmente
aumentar a forma
da matriz quadrada e
não a direção. Então aqui eu posso até escrever isso, então você vai aplicá-lo. Transformação linear. autovetores mudam, mudam a forma da direção da
matriz NANDA. Ok, então vamos ver como podemos
calcular esses dois valores. Então, novamente, porém, vamos
calcular os autovalores
e vetores dessa matriz que estamos
usando em todo esse programa. A primeira coisa é, se você
quiser calcular os autovalores, primeiro
definirá
variáveis aqui. Vamos definir duas variáveis
que são autovalores e autovetores. Temos uma função que
retornará ambos,
que é np dot de álgebra linear ponto eigenvector EEG, e aplicá-lo com o mutex. O que essa função
retorna os autovalores e autovetores e o que ela
será armazenada aqui, certo? Então, vamos tentar ver
esses valores
imprimindo esses valores aqui,
que são autovalores. E aqui vou imprimir
os autovetores. Se eu pressionar Control Enter, você pode ver
que esses são os autovalores. Este buraco que você pode ver
é um autovetor. Vamos passar para mais funções. Vamos ver como podemos. Calcule o produto de pontos. produto Dot também é
muito importante. Vamos ver como podemos fazer isso. Primeiro de tudo, terei que
criar duas matrizes aqui. Vamos criar uma matriz muito
simples, 123. E criarei mais
uma matriz, que é a matriz dois. E isso terá
valores para V6. Agora eu quero calcular
o produto ponto. Então, se eu quisesse calcular
o produto ponto, eu vou. Primeiro de tudo, isso
vai ser np dot array. Isso também será
não periódico. Tudo bem, então agora se eu
quisesse imprimir isso, terei que usar a função
np dot dot. Então, terá uma função
escura aqui. E eu só preciso fornecer essas duas matrizes
no argumento que é
matriz um, matriz Q. Você pode ver aqui que ele obtém
o produto ponto tem 3232 é o produto ponto
dessas duas matrizes. Lembre-se, quando estamos calculando
o produto dotnet dot, primeiro
você
terá que entender os conceitos
de álgebra linear de como calcular
o produto ponto e como realmente
garantir que as linhas colunas desses dois estão
combinando ou não, certo? Então, poderemos
calcular o produto ponto. Vamos seguir em frente como
adicionar dois arrays, que é a adição
desses vetores. Certo? Então, vamos pegar essas duas matrizes uma, apenas
matriz dois. Então, se eu escrever
uma matriz de impressão usando a função add e queremos adicionar a
matriz um, matriz dois. Você pode ver que, se
eu tentei adicioná-los, seus valores são os valores
correspondentes que são adicionados e são
armazenados em outro vetor. É por 79, então um
mais quatro é cinco, então é o F7,
então temos nove. Da mesma forma, se você quiser
fazer a subtração, você terá que
executar a mesma etapa. Você terá que imprimir a função do produto
NumPy np dot. Novamente, fornecedores com esses dois valores,
que é a matriz um. Matriz dois. Novamente, veja que se
eu os subtrair, um menos quatro me dá menos três a menos pi me
dará menos três. E da mesma forma menos V aqui. É assim que podemos
calcular a subtração. E vamos ver como podemos
fazer a multiplicação. Isso é multiplicação,
não o produto ponto. Então, vou escrever aqui que este não é
o produto ponto. Isso é multiplicação de matriz. Você verá aqui qual é
a diferença entre eles. Então, para isso, vou
usar o que podemos multiplicar duas matrizes
simplesmente usando um status como esse e
ele multiplicará essas duas. Então quatro multiplicados
por um são quatro, depois dez, depois 181018 anos. A resposta aqui. Portanto, esta é,
na verdade, a multiplicação de duas matrizes que é diferente do
produto pontual contra você. Esse produto pontual
era, na verdade, 32. Agora vamos passar
para algumas outras funções também. Aqui vou começar com como calcular o
inverso de uma matriz. Para calcular
o inverso de uma matriz, teremos que usar
novamente a função de álgebra linear. E eu termino que a função está lá. Só vou ter que
fornecê-lo com a matriz. Se eu pressionar Control Enter,
você pode ver que ele se move simplesmente calcule o
inverso dessa matriz. Portanto, este é o uso da função INV
inversa aqui, que é, que pertence
à propriedade álgebra linear. Agora vamos ver como
gerar valores aleatórios, o que é novamente um conceito muito
importante, como podemos gerar
valores aleatórios usando NumPy. Então, para isso, vou criar um programa muito simples que realmente
descobrirá cinco valores aleatórios. Aqui vou
escrever um comentário aqui. Deixe-me calcular
os cinco
nonos em valores entre um a dez. Se eu quisesse calcular cinco valores aleatórios
entre um a dez, vamos ver como podemos fazer isso. Usarei a função
aleatória np dot. E, E, e aqui terei que
fornecer três variáveis. Eles vão de 0 a 11, e eu quero cinco valores. Então, será assim. Você pode ver aqui
que ele calculará os cinco
valores aleatórios de um a 10110 a seis por esses valores, e 011 serão excluídos disso. Então é assim que você pode calcular
esse valor conhecido. Então, uma coisa interessante aqui é que se você
pressionar Control Enter novamente, ele mudará
esses valores aleatórios e continuará mudando isso. Então, para tornar isso
constante, como se você
não quiser que os valores
aleatórios mudem sempre, você pode usar uma coisa muito
importante que é conhecida como semente. Para isso, você pode usar a função np
dot random.seed. Aqui. Você pode fornecê-lo
com um que você não deseja alterar o tamanho. Então, se eu apertar Control Enter, acho que continuarei
pressionando Control Enter. Esse valor não mudará. Isso se tornará constante por causa desse teto
que fizemos aqui. Agora vamos passar para
outra coisa importante. Digamos que queremos gerar alguns valores aleatórios
a partir da distribuição normal. A distribuição normal é
outro conceito importante de ciência de dados porque pertence ao status, às
estatísticas e à probabilidade. Então, discutiremos isso também
no próximo tutorial
que abordarei esses conceitos sobre estatísticas. O x mais c, como podemos obter os valores da distribuição
normal. Para isso, podemos realmente usar a função normal de
ponto aleatório np dot. E então simplesmente
preciso dar um valor a ele. Então, vamos dar a ele um valor 1, o que será realmente mau. Então, precisamos
dar três parâmetros. O primeiro será a média, o segundo será o desvio
padrão. E o terceiro são os números que você
deseja gerar. 1 é a média, então temos 10 e desvio
padrão. E o número que
eu queria fazer isso, então vou pressionar Control Enter. Ele
retirará automaticamente esses dez números
a partir da distribuição normal
da média da média dada
e do desvio padrão. Então, basicamente, essas são todas as funções importantes
desta biblioteca NumPy. Vamos descobrir mais
deles no ácido. Vamos seguir em frente neste curso. Então, basicamente, não é
isso que esse fatorial cancela assistir.
6. Estatísticas para ciência de dados!: Agora vamos passar para o primeiro tópico que vamos estudar, o que é um meio. Temos média, desvio
padrão, distribuição
de lavagem
e variância. Vamos abordar esses tópicos
muito importantes e estes são humanos
enfrentá-los em dados. Muito obrigado. Vamos começar com a
média e vamos tentar entender qual é o
significado do ser. Aqui, desenhei um
gráfico de um exemplo. Então, vamos considerar um exemplo
muito simples. Vamos considerar que
existe uma empresa de smartphones, e essa empresa está realmente
vendendo os smartphones. E a partir de dados ruins, peguei sete
dias das vendas. Aqui você pode ver
que nos dados, eu tenho esses sete itens nele. 151030 vinte e cinco,
vinte e cinco, vinte e cinco. Neste gráfico, você pode
ver neste eixo eu tenho o número do dia,
que é 1234567. Para quem semana temos esse
número de telefones vendidos. Você pode ver
no primeiro dia, 15, eu vou que os telefones foram vendidos pelo segundo dia e
o número
de telefones foram vendidos. E, da mesma forma, no terceiro dia, número
30 foi vendido. E é assim que eu
plotei esses pontos de vista,
esses pontos azuis que
representam os dados. Agora vamos ver como
calcular a média. A média é, na verdade, a
média desses valores. Podemos calcular a média apenas
iniciando-a e
dividindo-a por ID e número de pontos de
dados que temos, que é sete no nosso caso. Aqui você pode ver que
no cálculo você obtém 150 por sete, que é 18,57. Você pode ver uma linha vermelha aqui que está
passando por esse gráfico. Aqui você pode ver que isso está
absolutamente apresentando uma média, que é 18,57, e você pode ver que
está entre 1520. Agora, vamos tentar
entender o que é mau. O significado da média é
muito simples e nos dá a média da média diária
dos últimos sete dias. Isso significa que, na verdade, é 18,57. Vamos assumir isso como um valor
absoluto de 18. Na verdade, significa que
18 telefones foram vendidos todos os dias nos últimos
sete dias em média. Agora esta é uma
informação muito crucial porque às vezes a empresa não está interessada no que está acontecendo, quantos ossos são
vendidos em um único dia, o que eles queriam, eles queriam calcule a média, a média. Aqui você pode ver
que a média é 18. Então podemos dizer que
18 telefones foram vendidos todos os dias em
média em apenas uma semana. Mas se você der uma
olhada aqui, há uma
informação interessante que está faltando neste gráfico. Esse meio é
realmente enganoso. A razão pela qual isso é
enganoso é que vamos assumir um ponto de dados que
está longe dessa linha, que está
longe dessa média. O que significa que, se eu calcular a média agora, a
média se tornará maior. Esse valor da carne aumentará
e se aumentar, intelectual foi um valor que, vamos supor que o
valor aumente para 30. Então, isso mostrará que totalmente
telefones praticamente todos os dias, o que não é verdade. Um ponto de dados, na verdade,
interpretará mal a média. Como a média é
mal interpretada, ela nos dará uma informação falsa
e enganosa à empresa de que todos os
dias 18 quarenta foram vendidos, o que não era verdade porque
na verdade era média. Então, era verdade que você
não colocou virtual. Se você puder ver que, se tivermos esses pontos de dados que são realmente anomalias nos dados, ele pode realmente interpretar mal
e é enganoso. Para evitar esse fato enganoso, podemos realmente melhorar
essas informações. Podemos torná-lo muito
mais do que dilutivo. Estou adicionando o
desvio padrão a ele. Vamos tentar entender em termos
muito simples desejados, o que é realmente o desvio
padrão? Portanto, o desvio padrão
é,
na verdade , a distância e a distância são
apenas o desvio. É uma distância de quanto os pontos estão
longe da média. Você pode ver que nos
átomos verdes, você pode ver que esta
é a distância, esse ponto é de. A média. O
desvio padrão realmente nos diz o quanto todos
esses pontos de dados estão
longe da média. A razão pela qual estamos fazendo
isso é entender o quanto esses pontos de dados
estão mais próximos da média. Se eu estou dizendo que
há 18 telefones vendidos todos os dias
nos últimos sete dias. E o
desvio padrão também é menor. Neste
desvio padrão é menor, significa
que as distâncias são menores. Isso significa que os pontos de dados
estão mais próximos da média. Essa será uma boa informação. Mas se o
desvio padrão for alto, isso significa que esses pontos estão realmente longe da média. Se eles estão longe da média, isso significa que eles estão se
desviando da média. E isso pode dizer à empresa que, na verdade,
a média era tão preta. Os pontos realmente teriam grande desvio é uma informação interessante
para adicionar a este. Vamos entender como calcular
o desvio padrão. É muito simples.
Só precisamos calcular essas distâncias verdes. Você pode ver que se eu
quisesse obter essa distância verde, só
preciso subtrair esse
valor de cinco com a média. Se eu subtrair 18 de cinco, vou pegar esta região. O que vou fazer é
calcular para todos eles. E então, como embora não
seja negativo, não
queremos, não
estamos interessados
em valores negativos
porque o desvio padrão é, não
estamos interessados
em valores negativos porque o desvio padrão é na verdade, uma magnitude do quanto esses pontos de dados
estão longe da média. Tomamos os quadrados
dessas distâncias. Como queremos que o desvio
padrão represente o desvio de todos os pontos que
vamos
resumi-los e vamos exibi-lo
assim. E o numerador. Mais uma vez, veja 130 por sete, eu tirei daqui,
que é a média. Não use o Indian
Point 57 porque os cálculos
se tornarão muito do cabelo dela. Se você usar 130 por sete, basta
subtraí-lo de 15. Você pode ir à distância
e vamos quadrar todas essas
distâncias assim. E então vamos
adicioná-los. E, finalmente,
vamos dividi-lo
pelo número de
pontos de dados que temos. Temos sete
pontos de dados no cálculo. Se você calcular todo
esse valor, você receberá um valor de
69,357, que está aqui. Como fizemos o
quadrado desses números, teremos que notificar isso. Então, para isso, vamos
usar a raiz quadrada. Então, depois de obter a
raiz quadrada, recebo esse valor, que é 8,32, e esse é, na verdade, o desvio
padrão. 8.32 é o
desvio padrão deste gráfico. Vamos tentar entender o que são
essas informações e como elas melhorarão
as informações. Então, 8.32, o que apresentamos? Isso significa que, que é 1818 telefones foram vendidos todos os dias
em média nos últimos sete dias. Mas houve um desvio
de oito pontos. Vou escrever aqui
mais oito pontos. Na verdade, isso foi 8,32. Terei que escrever que
houve um desvio de 8,32, ou podemos dizer que houve
um desvio de oito ossos. Agora, como esse desvio pode ser mais oito e
menos oito ou mais,
então terei que
escrevê-lo mais menos oito. Certo? Agora, isso não é
uma informação muito boa. Agora, a partir dessas informações, uma pessoa saberá que sim, 18 telefones foram vendidos em média e o
desvio padrão era oito, certo? Então, não houve um aumento e
queda das vendas em um
único dia, certo? Portanto, se o desvio padrão
for menor do que este é o bom porque significa que esses valores estão realmente
mais próximos dessa linha, que é a linha vermelha,
que é a média. E se eles estiverem mais próximos, significa
que o valor que vamos obter aqui está realmente próximo
da média. E a informação
será muito melhor porque 18 pontos podem ser
vendidos e haverá, menos dxy uma ou duas células, o que não importará muito. Então é assim que calculamos
o desvio padrão. E esse é o significado do desvio
padrão
porque ele completa essa informação e acrescenta a essas informações
que haverá um incremento ou decréscimo
desse valor dentro
dessa média, 18 volts serão vendidos
todos os dias em média, mas pode haver um
aumento ou graus de oito pontos no máximo. Agora vamos passar para
o segundo. O terceiro, que
é a variância. Agora aqui migramos a raiz quadrada
desse valor aqui. Se você não tiver, esse
valor é conhecido como variância. Então aqui você pode ver que
isso é Lydians. Então, 69,387 são milhões. Agora, o que significa variância? Essa variância também é a
soma das distâncias de todos esses pontos de
dados da média. Então, o que acontecerá se
a variância for menor? Então, vamos entender
o que acontecerá se a variação for lição. Queremos também
entender qual é o significado desse valor? O que acontecerá se
a variância for alta? Se a variância for menor? Se for menor, significa
que as distâncias
desse ponto da
média são realmente menores. Porque menor significa que esses pontos estão muito
próximos da média. Eles estão mais próximos da média. Aqui posso escrever que com
as leituras é reduzida. Isso significa que os
pontos estão perto de mim. Isso é distância.
Se for menor, significa
que eles estão
muito próximos da média. O que acontecerá se
a variância for alta? Se a variância for alta, é basicamente porque essas distâncias
eram muito altas. Essas diferenças
eram muito altas. Então, se essas distâncias
são muito altas, isso significa que os pontos estão muito
longe dessa média. Temos a média aqui e
os pontos estão espalhados. Sua startup, isso significa
que está longe de ser. Agora vamos ver como podemos usar
essas duas coisas importantes sobre a variação para realmente aplicá-la em ciência de dados
ou aprendizado de máquina. No aprendizado de máquina, existe um conceito conhecido como clustering. E agrupar o que fazemos é tentar formar grupos
dentro de um dado. O que vou fazer aqui
é desenhar um gráfico muito simples aqui. Vamos considerar que temos esses pontos aqui que
estão marcados em preto. E então temos essas mentes. Micelle pode ter
sido devida, certo? Portanto, temos todo esse conjunto de dados, mas temos Margaret em dois
grupos ou clusters diferentes. Agora, o que posso fazer é que a
variação será reduzida. Isso significa que os
valores estão mais próximos. A variância é alta, então significa que os valores
estão longe da média. Agora, para formar clusters
ou grupos dentro de nossos dados, existem duas condições. A primeira condição é
que dentro de um grupo, se você considerar esse
grupo, dentro do grupo, os elementos de dados devem
estar mais próximos um do outro. Eles devem estar mais próximos
um do outro. E como podemos garantir que eles estejam mais próximos uns dos outros
calculando a variância de
que estão mais próximos. Da mesma forma aqui, se você vir isso, se quisermos criar esse loop, teremos que garantir que esses elementos estejam muito
próximos um do outro. Esta foi a primeira condição de
que os elementos,
os elementos de um grupo dentro de
um grupo deveriam estar mais próximos. Essa foi a primeira condição. Sabemos que podemos usar
o alias para isso. Há uma segunda
condição também. A segunda condição diz que se você quiser formar grupos, primeiro era
realmente garantir que os elementos de um grupo
estejam próximos um do outro. segundo foi garantir
que os valores desse grupo e desse grupo
estejam longe um do outro. Tudo bem, então esses valores
devem estar longe um do outro. E faz sentido
porque queríamos ter certeza de que os
grupos estão mais próximos. Eles não sabiam dentro de um grupo que o ponto de dados
deveria estar mais próximo. Por isso, eles estão
formando um cluster. Mas também queremos ter
certeza de que eles estão
longe um do outro, então só poderemos
distinguir entre
esses dois grupos. Podemos usar esse
conceito de variância para garantir esse agrupamento
dentro de um conjunto de dados. E isso é muito importante
e
só será entendido se você souber
como a variância, se você aumentar a variância, ela estará longe da média e os pontos estão
longe um do outro. Isso é uma coisa. Agora deixe-me passar
para o último e muito importante
conceito que é conhecido como a distribuição normal e
gaussiana. Então, para isso primeiro, removerei esse gráfico aqui. Tudo bem, então vamos
tentar entender o que é distribuição
gaussiana normal. Antes de entender
isso, precisamos
entender qual é o
significado da distribuição. Um exemplo muito simples de
distribuição é
digamos que eu tenha dez chocolates
e existem recursos. E o que posso fazer
é
distribuir esses US $10 para eles. E isso é realmente
conhecido como distribuição. Este é o significado de
distribuição
em inglês simples , o mesmo que aqui. Também na distribuição,
o que tentamos fazer é distribuir o x, que são as entradas. Faça algum rearranjo.
Chamamos como y para as saídas. No intervalo. Digamos que tenhamos
um intervalo de 0 a um. Eu tenho esses pontos de dados
e estou distribuindo esses pontos de dados
dentro desses
intervalos plotando-os, certo? Então, para isso, preciso de
uma função f de x, que realmente
levará isso inverso. E isso garantirá que essas entradas estejam
entre essas duas, que é essa,
que é essa faixa. Este é apenas um exemplo para
explicar o que é distribuição. Então, se quisermos
distribuir os elementos, usaremos diferentes
tipos de distribuições. Se a saída,
que é o intervalo, se for provabilidade for conhecida
como distribuição de probabilidade. Agora vamos entender o que
é distribuição gaussiana. distribuição gaussiana também é conhecida como distribuição normal. E teremos que realmente
entendê-lo usando um gráfico. Este gráfico tem em, que
vou desenhar é na verdade uma representação
dessa função aqui
que eu tenho lá. Você pode ver que este f de
x um dividido por tudo, sob a raiz de dois pi e elevado
para o poder menos metade, x menos média e
desvio padrão todo quadrado. Portanto, essa é uma função da qual representa a distribuição de
cautela. E aqui você pode ver esse
símbolo que é rho. Isso representa o desvio
padrão. Esse valor, que é mu,
representa a média. Aqui temos o desvio
padrão e aqui temos a média. Então, se tivermos média e desvio
padrão, podemos usar a distribuição
gaussiana. Este x aqui, representa
os pontos de dados que temos. Então, se eu fornecer os pontos de
dados aqui para o x, ele vai
me dar e ele
realmente distribuirá a
entrada em um determinado intervalo. Seja qual for o valor
que esta função f x me dará, vou traçá-la. E mãos do quadril, na verdade está em um intervalo
que chamamos de saídas, certo? Então, agora vamos entender
quais são as etapas para realmente criar o gráfico
da distribuição normal, que é o gráfico
dessa função. O primeiro passo é realmente marcar um valor que está
no centro desse eixo. E esse valor será a média. Então, 18,57 é a média. Por simplicidade, estou à tarde apenas afirmando o valor absoluto. Esta é, na verdade, a média aqui. Vou usar Mu para
representar isso certo? Agora, o segundo passo é adicionar, é criar mais marcadores
aqui adicionando e subtraindo o desvio
padrão. Então, como posso fazer isso? O desvio padrão é 8,32. E novamente, vou pegar
o valor absoluto de oito. Se eu adicioná-lo a isso. Aqui, vou receber quando D6. Se eu subtrair oito disso, recebo um valor de dez. Este é, na verdade o desvio padrão que
é representado por rho. E rho é igual a oito. No nosso caso, estou tomando
o valor absoluto. Este é o primeiro passo. Isso é realmente
conhecido como o primeiro. Um desvio padrão.
Agora, o terceiro passo é calcular o total e o segundo desvio
padrão. E também é simples. Só precisamos adicionar o desvio padrão
a esse número. 26 mais oito é
realmente igual a 34. Aqui temos um NAD e
terei que fazer o mesmo aqui. Terei que subtrair o
valor de oito desses dez
e, em seguida, o valor será devido. Então por diante, podemos fazer
isso assim neste gráfico. Este foi o primeiro desvio
padrão. Você pode ver que este aqui foi o primeiro desvio
padrão. Este é o segundo. Da mesma forma, podemos criar muito mais desvios padrão aqui apenas adicionando o desvio
padrão à média. Então surge a pergunta: o que estamos tentando fazer
com esse gráfico? Qual é o motivo
desse gráfico e o que vamos
usá-lo na ciência de dados. Agora, vamos voltar
ao nosso exemplo. Em nosso exemplo, afirmamos que o número de
vendas em média era 18 e houve um incremento ou decréscimo
de oito telefones celulares. Aqui. Se eu tentar desenhar isso, se você puder ver aqui, temos média e desvio
padrão. O que queremos fazer é analisar que, se o desvio
padrão aumentar, se o
desvio padrão aumentar,
quanto isso
afetará os pontos. Se eu incrementar o desvio
padrão, qual será o impacto
nesses pontos de dados? Eles vão se aproximar da média ou vão
ficar longe da média. O que fazemos é
realmente traçar isso. Tomamos a média e pegamos
o desvio padrão e esses pontos fornecemos
a essa função. E observa-se que, se
você fornecer essa função, você obterá
um gráfico como esse. A etapa quatro é realmente
desenhar o gráfico para isso. Este é o eixo y. Este eixo y representa
um valor baixo e alto. Então, aqui vemos uma situação menos
provável. E aqui vemos uma situação
muito provável. Então, basicamente, significa
que se o valor
dessa função fx for altura, se for maior,
significa que o ponto é altamente provável que esteja
mais próximo da média. Então, o ponto principal é que
queremos ter certeza, queremos entender a
partir desse gráfico como os pontos de dados estão
se desviando da média. Eles estão se aproximando
da média ou estão indo longe da média, pois
este gráfico ajudará. Agora vamos desenhar esse gráfico. Então, 18 é a média. Então, vou
desenhar uma linha pontilhada aqui. Agora, se você tentar
desenhar esse gráfico, esse é o primeiro desvio. Então, vou desenhar outra linha
pontilhada aqui assim. Então esse foi nosso primeiro
desvio padrão e essa é a média. Agora vamos tentar desenhar
os efeitos de coorte,
que estão aqui. Observa-se que um golfe
em forma de sino é observado. É assim. Quando toca o primeiro desvio
padrão, ele começa a aumentar. Sua neve sobe assim. E quando atinge a média, começa a cair assim. E então fica
enegrecido assim. Isso aqui é conhecido como
uma curva em forma de sino, e esse é o objetivo de f de x, que é essa função. Vamos ver quais são os
fatos importantes sobre essas coisas. Observa-se que quando você
fornecerá essas entradas, a média e o desvio
padrão, quando obtemos essa curva, é absorvido que 34% de todos os pontos de dados estarão
neste região, que
estou marcando aqui. 34% vão mentir ela e 34%
da linha nesta outra metade. No total, 68% de todos os pontos de dados
estarão dentro desse primeiro desvio
padrão. O que isso significa? Isso significa que se eu
pegar esse valor de dez, significa
que se o número de vendas fosse entre dez e 26, 68% pontos estão realmente lá, que estão mais próximos da média. Agora, vamos tentar
entender o que
acontecerá se eu pegar um valor aqui, vamos assumir um valor aqui
que está na média. O valor está na média. Vamos dar uma
olhada nessa fórmula. Se for 91, a média, tem um valor igual
à média, que é 18,57. Esse valor aqui é
18,57 menos 18,57. Isso realmente se tornará 0. E como há menos metade multiplicada por 0, será 0. E então nós aumentamos
para o poder 0 aqui. Esse valor inteiro
será igual a 0. E aumentado para a potência
0 é igual a um. O que obtemos é apenas
fx igual a um por abaixo da raiz de dois pi, então o valor
do ponto de dados é realmente
igual à média. O valor de um por dois pi, eu já o calculei. Na verdade, é igual a 0,4, o que é uma restrição aqui. Eu posso realmente escrever
aqui a função f de x é igual a 0,4 dividida
pelo desvio padrão. Você pode ver como o desvio
padrão. E você pode ver, embora os efeitos de
função, eles são inversamente
proporcionais entre si. Como eles são inversamente
proporcionais entre si. O valor do
desvio padrão aumentará. O valor do desvio padrão aumenta o valor da
ética que vamos graus. Você pode ver a partir da curva
à medida que o desvio padrão
está aumentando, o gráfico está diminuindo. Este é um ponto importante aqui que, se o desvio padrão, que basicamente faz sentido
porque o desvio padrão é na verdade,
a distância do ponto da média. Você aumentará essa distância, então ficará menos provável que o ponto
esteja mais próximo da média. Então essa é minha disfunção
é ter um valor menor. Agora vamos supor aqui, vamos tentar entender mais
um gráfico, o que é outra coisa aqui, que é muito interessante. Então, vamos supor que, em vez disso temos um
desvio padrão de dois. Então, em vez de oito, tenho um
desvio padrão de dois. Vamos supor que o
valor saiu para ser dois. Neste caso. Se for dois, sabemos que é
menor do que este caso. Isso significa que os pontos estão
muito mais próximos da média. Então, vamos tentar traçar isso
neste gráfico e Lexi, se nossa lógica
dos pontos estando mais perto da média está se mantendo
verdadeira no gráfico ou não. Sabemos que, em etapas de
desenho, o gráfico é simples. Teremos que adicionar o desvio
padrão à média. Então, aqui, 18 mais dois se tornarão 2018 menos dois se tornarão 16. Agora, se eu quiser desenhar, o gráfico vai assim e
o gráfico ficará plano. Mas quando atinge o desvio padrão
completo, começa a aumentar assim. Mas agora a questão é: será mais baixo ou vai mais alto? Este código, ele vai ficar mais baixo? E depois para baixo? Ou ele vai mais alto? E então não sabe? A resposta a essa pergunta
é a lógica em si. Existem duas lógicas
que explicam isso. O primeiro é que 68%
dos pontos observa-se que ele vai ocupar aqui. Então, obviamente,
se você encolher isso, você terá que
aumentar a curva para acomodar esses valores de 68%. Essa é a primeira lógica
que você pode inferir. Qual a lógica de senso
comum mais importante aqui é que, se você diminuir
o desvio padrão, você tem graus o desvio
padrão. Isso significa que os pontos
estão mais próximos da média. Se eles já estiverem
mais próximos da média, então eles vão
ficar mais altos. É altamente provável. Destaca-se que os
pontos estão mais próximos da média. Esse valor se tornará
assim e diminuirá novamente, o primeiro desvio padrão
e, novamente, ficará plano. Isso é tudo sobre esses tópicos
importantes e você usará esses
conceitos importantes no aprendizado de máquina. Você usará variância e aprendizado de máquina para que os
grupos estejam espalhados. Você usará sua regularização de
doces também estudou o
problema do overfitting. Basicamente, isso é tudo para este vídeo. Obrigado por assistir.