Ciência de dados aplicada — 1: visão geral | Kumaran Ponnambalam | Skillshare

Velocidade de reprodução


  • 0.5x
  • 1x (Normal)
  • 1.25x
  • 1.5x
  • 2x

Ciência de dados aplicada — 1: visão geral

teacher avatar Kumaran Ponnambalam, Dedicated to Data Science Education

Assista a este curso e milhares de outros

Tenha acesso ilimitado a todos os cursos
Oferecidos por líderes do setor e profissionais do mercado
Os temas incluem ilustração, design, fotografia e muito mais

Assista a este curso e milhares de outros

Tenha acesso ilimitado a todos os cursos
Oferecidos por líderes do setor e profissionais do mercado
Os temas incluem ilustração, design, fotografia e muito mais

Aulas neste curso

9 aulas (1 h 44 min)
    • 1. Sobre a série de ciência de dados aplicada

      8:12
    • 2. O que é a ciência de dados — um

      11:51
    • 3. O que é a ciência de dados - dois

      10:44
    • 4. O que é a ciência de dados - três

      12:55
    • 5. O que é a ciência de dados - quatro

      9:31
    • 6. Casos de uso de dados

      7:47
    • 7. Ciclo de vida de dados de vida para a Ciência - configuração

      11:46
    • 8. Ciclo de vida de dados de vida para ciência de

      11:57
    • 9. Ciclo de vida de dados de vida - análise e produção

      19:16
  • --
  • Nível iniciante
  • Nível intermediário
  • Nível avançado
  • Todos os níveis

Gerado pela comunidade

O nível é determinado pela opinião da maioria dos estudantes que avaliaram este curso. Mostramos a recomendação do professor até que sejam coletadas as respostas de pelo menos 5 estudantes.

1.099

Estudantes

--

Projetos

Sobre este curso

Este curso é parte da "Série de ciência de dados aplicada" na Skillshare apresentada pela V2 Maestros. Se você quiser passar por todo o currículo em

Este curso se concentra na visão da ciência de dados. Ele explica como a Data Science funciona a dados nos elementos de dados por meio de relacionamentos e previsões. Em seguida, ele apresenta as etapas de um projeto de Data Science

Conheça seu professor

Teacher Profile Image

Kumaran Ponnambalam

Dedicated to Data Science Education

Professor

V2 Maestros is dedicated to teaching data science and Big Data at affordable costs to the world. Our instructors have real world experience practicing data science and delivering business results. Data Science is a hot and happening field in the IT industry. Unfortunately, the resources available for learning this skill are hard to find and expensive. We hope to ease this problem by providing quality education at affordable rates, there by building data science talent across the world.

Visualizar o perfil completo

Nota do curso

As expectativas foram atingidas?
    Superou!
  • 0%
  • Sim
  • 0%
  • Um pouco
  • 0%
  • Não
  • 0%
Arquivo de avaliações

Em outubro de 2018, atualizamos nosso sistema de avaliações para melhorar a forma como coletamos feedback. Abaixo estão as avaliações escritas antes dessa atualização.

Por que fazer parte da Skillshare?

Faça cursos premiados Skillshare Original

Cada curso possui cursos curtas e projetos práticos

Sua assinatura apoia os professores da Skillshare

Aprenda em qualquer lugar

Faça cursos em qualquer lugar com o aplicativo da Skillshare. Assista no avião, no metrô ou em qualquer lugar que funcione melhor para você, por streaming ou download.

Transcrições

1. Sobre a série de ciência de dados aplicada: Hey, bem-vindo ao curso são reproduzidos sinais de dados com o nosso Este é o seu instrutor, Cameron Parnham pertencem de vídeo Vamos passar por Mastro e entender o que este curso é tudo sobre. O objetivo do curso é treinar os alunos para se tornarem profissionais de dados de pleno direito. Então, estamos nos concentrando em fazer pessoas praticantes que podem executar em dados de eventos desde o projeto desde o início, adquirindo dados até transformá-los, carregando em um final mais tarde nosso destino e, em seguida, realizando análises de órgãos sobre eles em finalmente alcançar alguns resultados de negócios a partir desta análise, o que você, fazendo este curso é você entender o conceito e conceitos de sinais de dados, você entende as várias etapas do no ciclo de vida fora de uma ciência de dados você desenvolve proficiência para usar o nosso uso ANDI estão em todas as etapas fora da ANALITICO desde análise de dados exploratória até diretriz por hora. É preciso modelar o dedo do pé. Finalmente fazendo previsão usando algoritmos de aprendizado de máquina aprendeu as várias ferramentas de engenharia de dados e técnicas sobre a aquisição de dados e limpeza de dados na transformação de dados. Conhecimento adquirido sobre as técnicas de aprendizado de máquina amigo sobre também aprender como você pode usá-los e também o mais importante, então você pode usá-los se tornar um praticante de ciência de dados de pleno direito e que é pode contribuir imediatamente para dados da vida real. Projetos científicos não mencionar que você quer levar esse conhecimento para sua entrevista para que você possa obter uma posição na ciência de dados. Terry era essa prática que queríamos tocar nessa coisa específica fora da teoria versus prática, dados, sinais, princípios, ferramentas e técnicas. Imagem de diferentes sinais e disciplinas de engenharia. Não, eles vêm de ciência da computação, engenharia da computação, informação, informação, probabilidade de terry e bastões de início, inteligência artificial e assim um sobre o estudo teórico de sinais de dados que se concentra nestes fundação científica e raciocínio fora dos vários Jardins de Aprendizagem Mission. Ele se concentra em tentar entender como esta missão aprender o trabalho de Salgado em um sentido profundo em ser capaz de desenvolver seus próprios algoritmos em. Desenvolva sua própria implementação desses algoritmos para prever um problema bola real. Apenas um habita muito fora em nossas equações e formal em privações e raciocínio. Considerando que o pacto está no até tarde em parte dos dados, a ciência se concentra em um jogo as ferramentas, princípios e técnicas, a fim de resolver problemas de negócios obter o foco em tentar usar técnicas e ferramentas existentes e bibliotecas em como você pode tomar estes e um jogá-los para realmente problemas de trabalho e sair com negócios merece. Este se concentra em ter uma compreensão adequada dos conceitos um conhecimento de quais são as ferramentas e bibliotecas disponíveis sobre como você pode usar essas ferramentas e bibliotecas para resolver problemas do mundo real. Portanto, este curso é focado na prática fora de sinais posteriores, e é por isso que é chamado de Inclinação da Ciência de Dados Aplicada dos cursos. Esta ciência de dados é um assunto trans disciplinar, e é um assunto complexo. Não se concentra principalmente em três áreas técnicas. Portanto, há matemática e estatísticas que é aprendizagem de missão. E há programação neste curso é orientada para. Você sabe, programação é orientada para profissionais de software existentes. Ele está fortemente focado na programação e na construção de soluções. Ele tem limitado e pediu exposição à explosão necessária. A matemática e as estatísticas sobre ele abordam a visão geral Os conceitos de aprendizado de máquina fornecem a você compreensão articulada sobre como esses aprendizado de máquina protegiam os livros. Mas o foco está em usar a ferramenta existente para desenvolver soluções do mundo real. Na verdade, 90 95% outro trabalho que mais tarde tempo ciência. Basta fazer no mundo real é a prática da ciência de dados. Não realmente, Terry, de maior ciência e este curso se esforça para manter as coisas simples e muito fácil de entender . Então nós definitivamente tornamos isso muito simples. Ficamos longe de um pouco do conceito complexo. Nós ou eles tentaram o tom do dedo do pé para baixo Estes conceitos complexos são apenas ficar longe deles de modo que torna fácil para a compreensão para pessoas de todos os níveis fora do conhecimento no campo da ciência de dados. Então é uma espécie de grande curso de enfermeira. Se posso dizer que a estrutura central que é passa pelos conceitos de maior sentido para começar, qual é exatamente a sua atribuição? Como funciona a ciência de dados? Ele analisa o ciclo de vida dos santos de dados com seus vários estágios de ciclo de vida. Em seguida, ele entra em alguns conceitos básicos de varas iniciadas que são necessárias para fazer sinais de dados. Em seguida, ele vai para a nossa programação. É questionar um monte de exemplos de como você usaria nossa programação para várias etapas no projeto de ciência de dados. Os vários estágios em dados enviados engenharia de dados lesionados, esforço parcial. O que outras coisas que você normalmente faz lá que é a engenharia de uma das melhores práticas na ondulação de dados, ele abrange essas áreas. Finalmente, há a parte de modelagem e análise preditiva onde nós construímos para a missão Aprendizagem ou Deus Adams. Nós também olhamos para Endo e casos de uso para esses algoritmos de aprendizado de máquina, e há alguns tópicos avançados também que abordamos. Finalmente, há um pacote de recursos que vem como parte deste curso, e esses resultados pacote basicamente contém todos os conjuntos de dados. Os dados arquivados o exemplo do tribunal revestimento sobre esse tipo de coisas que nós realmente ensinar como uma parte deste curso que é abordado nos exemplos todos eles são dados no pacote de recursos. Então eu não sei o pacote de recursos que tem todos os dados que você precisa e todos os exemplos principais que você precisa para você experimentar as mesmas coisas você mesmo. Diretrizes para os alunos, o jejum este dedo entender seus dados. Saints é um assunto complexo. Precisa de esforços significativos para compreendê-lo. Portanto, certifique-se de que, se você está ficando preso, faça a revisão e aliviá-lo os vídeos e exercícios faz. Ele chamou a ajuda de outros livros sobre recomendações de terras e fóruns de apoio. Se suas consultas 1000 preocupações faz, e isso é uma mensagem privada, nosso fazer postou esta pergunta pergunta, e vamos ser realmente felizes. Toe respondeu isso o mais rápido possível. Estamos constantemente procurando melhorar nossos cursos, então qualquer tipo de feedback que você tem é bem-vindo. Por favor, forneça feedback através de mensagens privadas são dois e-mails no final do curso . Se você gosta do curso, não dar deixar um comentário. Comentários são úteis para outros novos alunos em potencial para fazer este curso e esperar Maxim discos de outros cursos futuros do We Do Mastro, queremos tornar isso fácil para o relacionamento de nossos alunos com o outro. Nós fazemos cursos de mestrado são cursos são focados em ciência de dados, realmente um tópicos basicamente, tecnologias, processos, ferramentas e técnicas de santos de dados em. Queremos que nossos cursos sejam auto-suficientes, tanto quanto possível, hein? Então o que isso significa é que, se você é um estudante de mestrado existente nós fazemos, você vai fazer ver alguns conteúdos e exemplos repetidos em todos os cursos. Queremos fazer uma visão para si mesmos. Então, em vez de dizer isso, há algum ponto no curso? Certo, garota, olhe para o despótico como outros cursos. Registre-se para o outro curso e saiba mais sobre isso. Prefiro nos concentrar neste curso em si. Manter duas coisas no mesmo curso. A não ser que esse outro conceito seja um grande concerto. Que eles mesmos, de curso separado. Nós queremos a Índia eles como uma parte deste curso em si. Assim, você pode ver algum conteúdo que é repetido em todos os cursos. Finalmente, esperamos que este curso o ajude a avançar na sua carreira. Então, boa sorte. Aprendizagem feliz em Não manter contato. Obrigado. 2. O que é a ciência de dados — um: Olá. Aqui é seu instrutor, Cameron nesta seção. Vamos ver o que são sinais de dados. Ciência de Dados é algo que temos ouvido falar muito. Mas em que consiste exatamente a ciência de dados? O que? Do que se trata realmente? Então, vamos ver duas coisas na sessão. A primeira coisa é sobre dados de águas, e o segundo 1 é querer é aprender. Então vamos ver algumas definições fora da água. As coisas constituem uma ciência de dados. Então, algumas das coisas que você verá nesta sessão são talvez coisas que você possa dizer que são coisas óbvias inerentes. Eu acho que você já esteve acostumado, mas é bom dedo do pé. Dê uma segunda olhada nas definições de cada um deles porque eles significam muito em um sinais de dados . Eles, de fato, formam a base da ciência de dados. Então vamos passar por todas essas definições aqui. A primeira coisa que vamos começar sobre o que é Data Saints, David Signs é a habilidade de extrair conhecimento de dados. Temos algo chamado dados. E então há algo assim tão bruto e então você olha para os dados e você extrai conhecimento , conhecimento poderia ser pensado sobre essa informação dentro de seu sinal. Existem diferentes termos sendo usados para o conhecimento da pessoa surda, mas basicamente pode algo que você extrair de dados que é útil. E então você usa esse conhecimento para prever o desconhecido. Então você aprende algo sobre o passado com dados, e então usa essa informação para prever o que vai acontecer no futuro. E isso é o que os sinais de dados são tudo sobre. David Sames. Uma das meninas é melhorar os resultados de negócios com o poder dos dados, você pode fazer previsão, mas qual é o uso fora? O uso disso é que você deseja usar os sinais de dados para melhorar os resultados de negócios, e você estará melhorando os resultados de negócios usando dados. E é disso que se trata a ciência de dados. Não há. Os funcionários são tecnologias. Teorias são desenhadas a partir de várias áreas amplas áreas que não estão restritas a um único domínio. Então você tem matemática em suas estatísticas, dados de tecnologia da informação. Se as tecnologias inteligentes linguagens de programação, nós realmente usar uma série de diferentes técnicas e teorias e áreas. Quando se trata de ciência de dados E o que é um cientista de dados? Outro cientista é um praticante fora do praticante de sinais de dados. Quando é que sai um praticante? Sua Desde que estamos falando de alguém que usa as teorias e teorias e todas as tecnologias e as habilidades de sinais de dados para produzir um melhores resultados de negócios Andon atribuído isso tipicamente tem ah, ou deve ter experiência em um conhecimento de engenharia de dados ticks estatísticas sobre DA qualquer outro no domínio de negócios. Também em dados tipicamente assinados. Isso investiga problemas complexos de negócios e usa dados para fornecer soluções. Então a coisa mais importante aqui é usado ODA para fornecer soluções ou dados é o driver para um cientista de dados. Então vamos entrar em algumas das definições de dados. Do que exatamente estamos falando aqui? Quando dizemos dados, quais são as várias coisas que você faz aprender sobre quando você está falando sobre dados. Então vamos passar por um conjunto de definições aqui novamente. Eles podem ser óbvios para você, mas vai dizer, dê uma segunda olhada em todos eles. A primeira coisa que vamos falar é o que é chamado de NDP. Uma entidade é uma coisa que existe que iria pesquisar e prever na ciência de dados. Então uma entidade é uma coisa, um objeto, algo que existe no mundo real sobre o qual vamos trabalhar. Então você tem um problema de ciência de dados no problema de envio de dados. Você tem um conjunto de entidades que você caraças em. Você faz alguma pesquisa sobre eles. Você obtém dados sobre essas entidades e, em seguida, trabalha nelas para fazer previsões. As entidades sempre têm um contato comercial. Há um contexto de negócios, que é o problema de negócios que você está tentando resolver em que o indeedy existe. Então, exemplo de uma entidade como um cliente, um cliente fora de uma empresa é uma entidade. Cliente é uma entidade a mais popular entrou A. Eu veria sobre quem fazemos um monte de pesquisa e fazer previsões. Uma pessoa em um hospital é outra entidade. Agora você vê que o cliente de uma empresa e o paciente do hospital podem realmente estar apontando para a mesma pessoa, mas eles têm diferentes contatos comerciais. Contatos comerciais diferentes significam a mesma pessoa. Nós nos preocupamos com informações diferentes sobre a pessoa que a pessoa pode estar fazendo coisas diferentes como um cliente, ao contrário do que ele estaria fazendo como um paciente. Entidades também podem ser coisas não vivas . Como, por exemplo, um carro. Então o cartão é no tipo que não estão fora de coisas não vivas em que você também coletar informações e você prever coisas acontecendo para o próximo item. São características que são características. Cada entidade tem um conjunto de características, modo que estas são propriedades oferecidas entidade que é informação sobre a identidade nós. Nós os chamamos de informação estática, porque eles estão limitados à entidade como nome, número de telefone, idade. Essas são todas as características, muitas vezes entidade em propriedades também novamente têm um contexto de negócios em fazer diferentes contatos comerciais . Você quadra sobre características diferentes para a mesma entidade ou o lugar da pessoa em particular nesse contexto de negócios específico. Por exemplo, se as características do cliente você se incomodaria com a nossa faixa etária de educação de gênero para um paciente, seu corpo duplo novamente sobre AIDS, então a característica chamada idade se repete. Mas agora você tem um conjunto diferente de características, especialmente para ser um paciente como pressão arterial, peso, história familiar. Então, novamente, há um contexto de negócios da exigência de negócios, que impulsiona quais características você incomoda a bordo de uma entidade novamente. Carros. Quando você olha para carros, você fala sobre fazer ano modelo do tipo de motor de motor como quatro cilindros ou seis cilindros sobre o número de vento do carro. Então, estes são exemplos de características. Você também pode chamá-los de peça apropriada dos EUA. Por exemplo, propriedades que pensei que um de vocês se importava é o que é meio ambiente? Ambiente aponta para o ecossistema em que a entidade ex são funções. Entidade não existe no vácuo. Existe um ambiente no qual existe uma entidade. Então, nesse ambiente ou em outras entidades, outras entidades do mesmo tipo outras entidades de um tipo diferente, como um paciente e estar existe no hospital, juntamente com outras entidades fora do mesmo DeBlanc com outros pacientes. Isso também pode ser outros tipos de entidades, como médicos e enfermeiros, entidades que não são seres vivos, como ambulâncias, um registro de entidade. Um sistema que é usado para monitorar pacientes pode ser uma entidade. Então, sob estes, todas essas entidades existem em um ambiente tão ambiente. As imunidades sombra em múltiplas entidades existem no mesmo ambiente, ambiente afeta um no comportamento de hoje, modo que isso é a coisa mais importante. A mesma entidade pode se comportar de forma diferente em ambientes diferentes são mesmo para o mesmo ambiente em condições diferentes, experiência no ambiente. A mesma entidade pode estar aqui também. Exemplos amigáveis de alho unção para um cliente, o país, a cidade, o mundo perto. O cliente reside em persa novamente que talvez a cidade o clima com hospital onde o paciente está atualmente em um carro. É. Mas o cartão está sendo usado principalmente para a condução da cidade na estrada que se torna o ambiente que os carros climáticos desempenham de forma diferente sob diferentes condições climáticas como coração. Se não havia condições de neve, carros têm comportamento diferente. Então todo esse caso é o que você vê é que o ambiente afeta como o indeedy se comporta agora vem e até mesmo o que é desigual, desigual. Há uma atividade comercial significativa na qual a entidade participa. Entidades não se sentam simplesmente lá. Ele faz alguma coisa. Se alguém faz algo para a identidade, isso é o que você chama de uma atividade comercial mesmo e até mesmo acontecer novamente exceto ambiente. Você, uma entidade como um persa, vai para o hospital e para o hospital. A entidade é tratada para se não há set off s que são administrados do paciente dado em. Então você tem alguns resultados saindo desses testes. Todos estes são uniformes. Exemplo fora desigual. Pode ser o cliente navegando em um site cliente fazendo uma loja, visitar um cliente recebendo uma chamada de vendas de alguma empresa para vender algo. Todos estes são uniformes nas meninas fora de porções. É como os médicos. Foi um exame de sangue para um carro? O inteligente faz isso de acordo com vai o teste de comparação. Como se você ir a qualquer um desses sites relacionados com carros, você vê que eles gostam de testes de comparação. Todos eles são uniformes em que uma entidade participa comportamento. Então até faz algo lá na entidade participa. Mas o que significa comportamento? O que a entidade faz no dado? Mesmo que seja o comportamento das entidades. Então até uma entidade faz algo na água. Melhor nisso, dado que mesmo é o que ele chamou de comportamento da entidade terminou. Ele pode ter um comportamento diferente em diferentes ambientes e situações diferentes em , por exemplo, no caso, fora de um cliente, um telefonema em uma água chamada telefônica onde o cliente palestras é o comportamento dos clientes. A sala de cliques para uma visita ao site como o que vincula os visitantes do site personalizado particular clicando quando ele está navegando no site que tem outro tipo de comportamento? Não, a resposta. O cliente tem que dizer a sua oferta. Eu estava vendo anos. Não, disse o cliente feliz. Todos eles são diferentes comportamentos fora dos pacientes clientes não cr iluminado e enfermeira cãibras as poções reclamando de algo. Os pacientes, você sabe, adormecendo, mostrando qualquer tipo de depressão, qualquer tipo de sintomas. Todos eles são comportamentos do paciente e carros gostam de boa aceleração, as distâncias de parada, todos eles representam como uma forma de comportamento fora das entidades. Não, essas são todas aquelas coisas que você vê no mundo real, como as entidades uniformizam e comportamento em Agora vem a introdução dos dados 3. O que é a ciência de dados - dois: introdução dos dados dos pés. Não, há algo chamado resultado. Então, o que é um resultado? O resultado muitas vezes atividade considerada significativa pelo negócio. Então você tem eventos no mesmo nível. Existem entidades e é se comportar de forma diferente em diferentes uniformes. Mas todos esses uniformes tipicamente têm alguma forma off resultado que é importante com o negócio no resultado é um resultado muitas vezes atividade o resultado de uma atividade de negócios, por exemplo, assim em resultados pode ser valor. Os resultados são valores, certo? Então os valores do resultado podem ser barras como sim, não, que alguém em particular fez um teste. Eles passaram o nosso fracasso. É um ouro. Berlim é basicamente sim ou não em fita de dados. O antigo pode ser como um valor contínuo como um valor numérico. Alguém fez um exame de pressão arterial para a pressão arterial. Valor é um valor contínuo. Pode variar em qualquer lugar, você sabe, $100 abaixo. Isso é valor contínuo ou pode ser alguma forma de uma classificação. Aulas. Basicamente, alguém fez uma crítica fora. Uma revisão de um filme Onda relacionando que você deu pode ser uma classe como excelente, muito bom grupo feira. Mas isso é um tipo de classificações são do tipo que, como os resultados podem ser de qualquer uma dessas fitas diferentes. Exemplos de resultados nas meninas do cliente onde o cliente faz uma venda é um ouro no valor da venda. Quanto eles compraram como um valor contínuo continua, significa que o valor ou que você é um presente é basicamente qualquer lugar de 0 a 100 ou 2000. É um paciente de valor contínuo, as meninas do paciente. O resultado pode ser a leitura da pressão arterial, que é um resultado contínuo no tubo de diabetes. Depressão nos identificou na classe como dieta A diabetes são tipo B morrer, mas estes é uma classe. No caso dos carros, os níveis de poluição atmosférica são uma classificação. O nível de pequenos glóbulos como ABC. Há uma classificação parando os negócios. Isso acontece porque você faz um teste para um carro, o que é um par neles. Nesse caso, você está medindo as distâncias de parada quando você bloqueia os freios e a distância que levaria para parar parar parar. Esse é um resultado contínuo. O passado inteligente, os nossos fracassos há um valentão e um resultado. O tipo de carro. Digamos que um canto esportivo de sedan familiar que é uma espécie de classificação, Então estes são resultados diferentes que acontecem como resultado de alguns. Mesmo assim, os resultados estão desligados. Mas o importante na ciência de dados, porque normalmente atribui o que você está tentando prever como resultados no futuro. Já viu mais sobre isso? Mais tarde? Agora vem o que é chamado de observação. Então, o que é uma observação? Uma observação é uma medida. É com o meu presidente muitas vezes. Mesmo assim, você mede algo sobre um mesmo considerado significativo pelo negócio. Então você basicamente mede e até mesmo mede coisas importantes e desiguais que são importantes para o negócio de que estamos falando. Ele captura informações sobre as entidades e bola. Assim, dado que mesmo minhas entidades não múltiplas envolveram as características das entidades, o BA curioso das entidades, a informação sobre o ambiente em que o mesmo acontece sobre os resultados. Então, na observação há informações sobre todas essas coisas que acontecem e desiguais. Você basicamente ir e coletar todas essas informações e gravado de alguma forma em observação é tipicamente chamado de sistema off record. Então você onde quer que vá, você vê que as pessoas estão gravando informações nos outros dias para gravá-las em diários, alguns diários de bordo e coisas assim. Não, tudo é automatizado, informatizado. Há scanners que estão escaneando essas informações automaticamente. Alguém está entrando no computador, que são para assassinatos. É chamado o sistema off Record no exemplo de observações são, no caso de clientes, há um cartão de telefone Rikard. Também se chama CDSS no departamento telefônico. Na transação como uma transação de compra, alguém vai para a loja em fantasmas por algo que ele vai para o ponto off balcão de venda na transação é gravado lá. Nossa, hum, oferta de e-mail. Um e-mail chega até você, oferecendo algum produto a algum valor. Não é excitante. Você compra algo, então todos eles são observações. Se você olhar para um paciente, Dr. Bissett se repete no resultado do teste, uma captura de dados de um dispositivo de monitoramento. Todas estas são observações, diferentes tipos de observações. E finalmente, vamos dar uma olhada no carro. No caso de um carro, um Ricard selvagem é uma observação. O carro vai para pesquisas e o fim. Suas descobertas do mecânico estão registradas no registro de serviço. Um inteligente como resultado, é uma observação. Então, todas essas diversões foram capturadas de alguma forma, gravador e armazenamento. Então finalmente chegamos aos dados o que faz um conjunto de dados? Adela disse, como uma coleção fora de observação. Assim, cada observação, registros e até mesmo sobre o centro das entidades, uma coleção de observações para uma empresa se torna um conjunto de dados. Oito. A observação em um conjunto de dados é tipicamente um recorde esta semana. Chamá-lo menor registro lógico que olhar para registro físico pode ser dado. A observação pode ser registada em várias formas. Várias interfaces de usuário que podem ser como relacionamentos detalhados mestre. Tudo isso é bom, mas aqui estamos falando de um registro lógico que representa uma observação. Normalmente, você teria observações tendo uma hera como uma idéia de transação, idéia teste número de série, algo assim. Então, um dia eu disse que a coleção de observações soltas cada registro tem um conjunto de atributos que apontam características, resultados de comportamento. Então, se você olhar para a planilha do Excel, você verá que normalmente cada regra representaria como um registro em uma observação. A planilha do Excel em si é, um dado dito. Em cada porta foi uma observação em cada coluna é basicamente atributo que aponta para qualquer uma das características das entidades. Os comportamentos são todos vem endereço que pode ser estruturado leitor Expedia, registros policiais, planilhas Pode ser desestruturado. Além disso, os feeds do Twitter são um exemplo de dados não estruturados em artigos de jornal. Eles não são chamados para ser como semi estruturados como e-mail. Então, um cientista de dados, você normalmente lida com diferentes tipos de dados, como dados de estrutura. Dados não estruturados são dados de estrutura alguém e criador SanDisk eleger e trabalhar em dados disse que é o pão e manteiga para um cientista de dados é dados e mais dados sobre dados coletados como conjuntos de dados coletados, armazenados, trabalhado em previsões são feitas com base nos conjuntos de dados. Então, eles disseram, é o núcleo fora da ciência de dados. Ah, o que são dados estruturados? O exemplo que você vê no lado direito é um exemplo de dados de estrutura que onde os atributos são rotulados e claramente visíveis. Você vê que cada atributo em particular vocês rotular separadamente, como quando pronto quando o nome moeda eu d observando número. Tudo é Lobel. É claramente visível se ele está sendo usado nos EUA . . Se ele foi armazenado no banco de dados. Há o que você chama de dados de estrutura sendo rotulados e armazenados separadamente. Foi facilmente pesquisável em, adicionalmente, adicionalmente, credível porque eles tinham rotulado separadamente mesmo em novo fazer armazenamento em um banco de dados, seu aluno, colunas diferentes. Portanto, é um direito vital e SQL instrução toe consulta Estes dados. Pode ser, claro, sua história facilmente nas tabelas do Terrível, talvez, talvez, como tabelas de banco de dados ou planilhas do Excel, é fácil armazenar dados de estrutura em geral. Os dados não estruturados, por outro lado, não são rotulados. Então vai ser como Tex contínuo como você vê no lado direito é um país de texto sobre um mestre três por carro. Portanto, este é o estoque contínuo em que os atributos não são distantemente rótulo, mas seu presente dentro dos dados. Então as coisas que são destacadas, um ardente que você vê, são atributos diferentes como compacto é o tipo de sacos de carro hodge, um tipo de carro. Uma transmissão de seis velocidades é a transição do tribunal, então todos eles estão presentes dentro dos dados, mas não distintamente rotular. Então é assim que você nos chama. Os dados não estruturados continuam paus. Não há nada longe, mas na sua filha está escondida estão embutidos dentro do próximo. E silenciar, claro, é claro,não vai ser fácil quando está adquirindo. Estamos falando mais de não inspeção visual, mas estamos falando de escrever programas de computador para extrair informações. Estes não vão ser fáceis. Agora vem a terceira fazenda com apenas dados semiestruturados. O que você vê aqui, um exemplo aqui é um e-mail. Então, o que está no e-mail é parte dos dados é estruturado e parte dos dados está na estrutura. Então, nos e-mails, você vê que alguns meus tributos são claramente rotulados. Como, você sabe, o de endereço 200 cc assunto seu melhor em Lobel e disponível como um colunas separadas são pedaços separados de informação, enquanto outros talvez ele não fez dentro do uso endear mensagens de texto também. Então você é estruturado e estruturado um que misturado no caso de um dados semiestruturados . Alguns exemplos de alguns dados de instrutor também podem ser como exemplo. Os documentos são dados semiestruturados. Algumas informações estão disponíveis no atributo algumas informações na parte síria de documentos externos . Isso é tudo exemplos fora de alguém estruturar dados tão em resumo. O que? O que é que vimos? Com relação aos dados temos visto uma entidade características, ambiente, ambiente, até mesmo resultados de comportamento em observações e, finalmente, conjunto de dados. Então esta é a chave, uh, fundações sobre quais dados e há e apenas construir sobre. Portanto, é bom para você conhecer e entender cada um deles. Então isso completa esta parte fora da seção. Continuaremos em mais A. Nada da apresentação. Obrigado. 4. O que é a ciência de dados - três: Olá. Este é o seu instrutor Cameron aqui, continuando em sinais de dados de águas. Vamos falar sobre o que está aprendendo na linguagem da ciência de dados. O que é aprender sobre o qual é descobrir conhecimento a partir de dados? A primeira coisa que queremos notar como o que é uma relação de relacionamento novamente forma uma das bases da ciência de dados quando falamos sobre relacionamentos com conversa sobre relações entre atributos. Então, depois de Buttes em um dado disse exibir relações, isto é, você tem uma não-observação. Você tem um conjunto de observações em um conjunto de dados sobre atributos que você vê nessas observações exibem o que são chamados relacionamentos, relacionamentos, modelar o mundo real e não têm explicação lógica. Quando dizemos modelo, as relações do mundo real são basicamente algo que está acontecendo no mundo real. Não é algo fora do azul que você veria algo no conjunto de dados. Os dados diziam. Independentemente dos dados que você tem, a relação que mostra é algo que existe no mundo real. Por exemplo, idade e níveis de pressão arterial. A relação entre eles é que, à medida que o idoso sobe, a propensão para a pressão arterial mais alta continua subindo. Quanto maior a sua idade. Quanto mais altos podem ser os níveis de pressão arterial. Há sempre uma explicação lógica associada a isso. A razão no campo médico,dizem eles, dizem eles, é que se você tem mais peso, obviamente você permite mais gordura você Larmore entupiu artérias, que levaria a uma pressão arterial mais alta. Então, há algo que está acontecendo no mundo real, e há uma explicação lógica para isso. Uma explicação é uma parte muito importante da ciência de dados. Quando você vê seu relacionamento, você deve ser capaz de explicar por que isso está acontecendo, porque é quando podemos dizer se o relacionamento é incidental ou aconteceu por acaso que acontece. Existe algo assim. Para os atributos A e B, a relação pode ser como quando um ocorre ser também ocorre. Você tem dois atributos e ser assim sempre que uma abelha atual também concorda, Digamos, sempre que uma venda acontece, algo mais também acontece como quando uma vela de um celular acontece. Uma vela de uma capa de celular também aconteceu. Então as coisas que aconteceram juntas quando um porque B não ocorre não gostam da relação negativa . Quando você e ser seu tipo de exclusividade mútua mutuamente exclusiva é novamente uma espécie de relacionamento. O 3º 1 tem sido muito sobe, ser também sobe. Então isso é sob esse tipo de relacionamento e onde um aumento ser diminui. Então isso é como outra relação negativa. Então, quando você tem dois atributos os valores desses atributos, os valores que são vistos nesses atributos mostram qualquer fora desse tipo de relação. Nem todas as entidades exibirão relacionamento que será sempre algumas entidades onde você verá alguns relacionamentos alguém que é, não exibem qualquer relacionamento em tudo. Outro Golden Learning é procurar entidades que juntos exibem alguma forma de relacionamento em relacionamentos podem envolver vários atributos para gostar. Quando um está presente e ser aumenta ver vai diminuir de modo que várias atividades juntas podem exibir alguma forma de relacionamento. Então isso é uma espécie de visão geral. Relacionamentos fora da água são agora. Vamos ver quais são alguns dos exemplos fora para relacionamentos como qualquer um. Pegue um cliente como envelhecido sobe, capacidade de gasto sobe, então há um relacionamento. Ele envelhecerá na receita do cliente, então na idade sobe, capacidade de gasto sobe. Há uma explicação lógica de que à medida que a idade aumenta, possivelmente a pessoa está ganhando mais dinheiro para que a capacidade de gasto também seja alta. Agora, quando falamos de relacionamentos e ciência de dados, estes não são relacionamentos muito concretos. Você sabe, não é literalmente como um rapaz de fazenda que eles acontecem o tempo todo. Agora esse tipo de coisas, como 100% tipo de relacionamento é bom. Mas o que vemos aqui é geral, em geral, tipo de relacionamentos, como quando envelhecem por causa da capacidade de gasto. O Koza. Nem todos os clientes, nem todos os clientes de moldes vão enviar mais, mas a maioria deles, é disso que falamos como um relacionamento. O outro é o nosso pão. Os clientes compram mais largura de banda da Internet Existe uma relação entre a localização do cliente nos patches de largura de banda, mas um cliente novamente, possivelmente porque ele está fazendo mais navegação e você olha para o paciente novamente. Há muitos relacionamentos que você pode ver. Como todos os persas têm mais prevalência de diabetes. Existe a relação entre idade e nível de doença em todo o caminho. Os pacientes geralmente apresentam níveis de colesterol mais altos. Ou seja, a relação entre peso e cabeça. Na verdade, há razões científicas pelas quais essas coisas acontecem. Você levaria um carro. A relação entre o número de cilindros e a quilometragem que dá mais faz Linda, a menos que a quilometragem. Porque há mais queimaduras acontecendo quando há mais cilindros. Carros esportivos têm taxas de seguro mais altas agora. Este não é um relacionamento acelerado, mas você vai ver isso como um relacionamento de negócios como cartão de esportes. Sempre que os carros fora de um tipo de despeito um carro esportivo, é taxas de seguro são tipicamente mais altas. Portanto, há uma loção para entre o tipo de carro sobre as taxas de seguro, um pouco coisas sobre relacionamentos. Uma das coisas que você quer se preocupar é a relação Benussi entre dois atributos. A relação é consistente? São as relações incidentais também pode ser dito como padrões, padrões que você vê em padrões de dados de comportamento. Às vezes, o padrão de comportamento pode ser consistente porque acontece o tempo todo. Você pode repetidamente, quando isso acontece o tempo todo, você pode realmente prever esse comportamento no futuro. Mas como pode haver padrões incidentais, incidente esse relacionamento. Além disso, quando é por acaso, aconteceu por acaso. Isso pode não ser uma explicação lógica para um incidente de que o comportamento é um padrão de incidente . Portanto, sempre que você vê um relacionamento, é muito importante para você ter certeza de que o relacionamento é consistente. Era é incidental. Relacionamentos consistentes são o que você precisa para a ciência de dados. Relacionamentos também são chamados de correlações, ou seja, o termo técnico que você verá estão sendo usados. Correlação entre dois são entidades são dois atributos é quando com o que você vê como quando um sobe e ser sobe, Ele sobe. E Biscoe não Austin. Esse é o corpo chamado correlações de correlação. É esse o termo matemático que você fala quando fala de relacionamento? É e finalmente você poderia ser as pessoas falam sobre sinais e ruído quando se trata de ciência de dados sinais são nada além de padrões consistentes são consistentes. Relacionamentos que você vê em dados Narcisse. Padrões incidentais são relacionamentos incidentes. Você dia em dados. Então, se você tem ouvido sobre esses termos, sinal e barulho lá, nada sobre relacionamentos, relacionamentos que são significativos foram seus relacionamentos que aconteceram por acaso, que não são previsíveis, que são apenas incidentais. Então essa é a diferença. Mas sendo sinais e bom agora vem, o que significa aprender Nós levamos falar sobre aprendizagem de missão e este aprendizado e aquele aprendizado e todas as formas de aprendizagem. Então, o que exatamente está aprendendo? Aprendizagem implica aprender sobre relacionamentos. Essa é a coisa mais importante que você quer saber sobre dados que santos fazem. Seus santos têm aprendizado de missão. Aprender aqui significa que você está apenas tentando aprender sobre as relações entre esses atributos. É disso que se trata aprender. Envolve tomar um domínio como um negócio de dominó hospital perna permanecem. Não se preocupe em entender as entidades e os atributos que podem representar o domínio coletando dados sobre todos eles na compreensão das relações. Sendo esses atributos, essa compreensão das relações entre esses atributos é o que é aprender. Então os modelos são o resultado da aprendizagem. Então, o que você faz depois de aprender sobre algo é construir um modelo sobre isso agora? Este aprendizado quando você está falando aqui aprender acontece o tempo todo dentro do cérebro humano estava consistentemente coletando dados dentro de um ser humano cérebro humano, consistentemente continuamente aprendendo sobre as coisas e continuamente construindo modelos. Usamos estes modelos todo o avião sem sequer o nosso conhecimento. Subconscientemente, estamos continuamente aprendendo sobre as coisas sobre o que estamos falando aqui em termos de ciência de dados é apenas aprender este tipo fora transformado em um processo adequado sobre o aprendizado acontece fora do cérebro humano em missões. Isso é o que, como uma pequena diferença entre aprender que acontece dentro do cérebro humano, e aprender que acontece com missões é como um processo mais a esperar. Há mais dados fora dele, e há mais de um de fazê-lo. Então, o que é um moderno? Um modelo é uma representação simplificada e aproximada de um fenômeno do mundo real. Portanto, há um fenômeno muito bom. Estava acontecendo. E quando você faz um modelo você está tentando primeiro construir uma moral simplificada. Você não está tentando colocar muitas coisas no modelo. Você apenas tentando tomar as coisas mais importantes sobre o fenômeno do mundo real em então, construindo uma representação simplesmente luta na apresentação re aproximada fora do fenômeno do mundo real . Você pode realmente ir em conta modelos tão complexos como ele queria uma pessoa segurando, mas geralmente pin pessoas construir modelos. Eles queriam ser simplificados, por isso traz à tona todos os fatores importantes que você quer incomodar e ignora tudo que você não quer se preocupar. Então é um simples fato aproximado a apresentação de um fenômeno do mundo real. Ele captura os atributos chave, os atributos chave das entidades em suas relações em Vamos Digamos, um exemplo de um Modelo poderia ser um modelo matemático. Um modelo matemático é algo que representa as relações como uma equação. Então você pode escrever uma equação que presente relação entre os atributos como, por exemplo, você pode vir para cima. Mas este é um baile que recebi de algum lugar do mundo. Você é uma fazenda. Adoro como consegues fazer a mente. Pressão sanguínea. Isto é uma equação. Então, um registro de pressão negra de 56 mais a idade de uma pessoa no 560,8 mais o peso da opressão em 2,14 mais o nível de Israel de opressão em 2.9 Então o que você vê aqui é que você está tentando calcular a pressão arterial a partir de um atributo da pressão arterial três outros atributos H peso e LDL. Agora, esta é uma competição aproximada da pressão arterial. Nunca vai lhe dar o valor exato de uma altura, mas poderia ser. Pode ser aproximadamente próximo do valor do mundo real, então aqui está uma fórmula que apresenta um modelo matemático de como a pressão arterial pode ser relacionada com o dedo do pé. Três outros atributos. Peso, idade e níveis de Ellie. Isso poderia ser outro modelo, que é clicar em um modelo de árvore de decisão. É como um modelo lógico onde você faz uma série de perguntas sobre a série de perguntas que você faz. Você inclui perguntas sobre vários atributos e, base nisso, surge com um resultado como você quer ser, você quer ver. Você quer prever algo como comprar uma cidade de música e para esse pensamento que você pode chegar a um modelo de decisão como este se envelhecer os clientes. Legenda 25 sobre Gênero dos Clientes enviada por Beyonce Uma cidade chamada Sim, Então você costumava atribuir gênero e idade em com base neles, você está tentando prever com o resultado, que é com o cliente calendário por de Beyonce CDR. Não Este é outro tipo de mortais. Do Acura. Seus modelos dependem da força das relações entre os atributos. Às vezes, a relação entre os atributos são muito fortes, tal forma que você pode prever, como com 100% de garantia de que Ok, se eu ver isso. Tenho certeza de que esse será o resultado. Às vezes a precisão não é muito. Então, nesse caso, você pode querer combinar vários atributos NC se você pode aumentar o nível de precisão. Às vezes não há nenhuma relação, não é? Então pode ser em qualquer forma ou qualquer tipo de escala variável que você possa chegar lá. Mas modelo geral é um simplificado aproximado a apresentação de algo que está acontecendo no mundo real. 5. O que é a ciência de dados - quatro: Uma vez que você tem um modelo, o que você pode fazer é previsão, um modelo possa ser usado para prever atributos desconhecidos. Exemplo simples. Este ano já vimos que existe uma fórmula. Pressão arterial igual a 56 mais agente 2,8 mais espera, 2,14 mais cedo, Linda apontou um +09 Então você tem aqui uma fórmula que se relaciona com atributos de pressão arterial, idade grande e LDL sabe o que isso significa é que se você sabe três fora deste para atributos, você pode prever o pé um, modo que é o que nos chamamos. Predição. Então, quando você sabão um computador, você pode dizer computação é que você pode dizer prever quando ele é uma computação, você está garantindo 100% de precisão que você sabe, esta é a fórmula quando você está pintando sua maioria aproximando. Então você tem quatro atributos três ou quatro atributos aqui. Se eu conheço qualquer um deles, eu posso realmente pegar este dedo de fórmula. Calcule o que for depois, mas eu quero Oh, se nós conhecermos três deles, eu posso prever o 4º 1 Isto é o que você chama de previsão. A previsão a partir de uma equação dupla de modelo pode ser considerada um algoritmo de previsão simples. Coisa simples na dilatação. Os saltos podem ser muito mais complexos, levando a modelos mais complexos e algoritmo de previsão. Então o que você vê em que as equações são muito simplesmente encontrar modelo de nós ou algo realmente simples como um problema fica mais complexo, cada um um um pouco mais tarde, mais complexo, aprendendo modelos mais complexos em mais complexos Algoritmo de predição. Então é sobre isso que temos aprendido tudo isso. Aprendizagem é tudo sobre dados, conjuntos, relacionamentos, modelagem e previsão. Então vamos falar sobre o que eu prevejo o nosso sobre o resultado. Então, quando você está sempre que estamos falando sobre nossos dados 100 eu sinto que você fala sobre preditores e resultados. Então, o que são eles? Os resultados são atributos que você deseja prever. Então, quaisquer atributos que você queira prever, eles são chamados de resultados, como na fórmula do ano anterior. Queremos prever a pressão arterial. Chama-se o resultado. Senadores são atributos que você deseja usar para prever o resultado, então você tem um conjunto de atributos. O que você quer prever? O resultado? Tudo o resto que você usa para prever o resultado, nossos preditores carro para que você possa ter 10 atributos em seus dados, disse que um deles pode ser o seu resultado, e três outros podem ser a sua prática. Nem todos os atributos têm relação com o resultado. Atribuir apenas aqueles que têm um bom relacionamento com o resultado. As variáveis obviamente se tornarão preditoras de modo que preditores e resultados e, obviamente preditores e resultados mostrarão alguma forma de relacionamento, porque isso é tudo que você pode prever resultados a partir deles preditores. Então, aprender é tudo sobre a construção de modelos que podem ser usados para prever resultados, que é a saída usando os preditores, que é a criança. Aqui estão alguns exemplos que vamos voltar para os mesmos três exemplos. No caso de um cliente, os preditores são idade, renda, faixa e localização em. O resultado pode ser O cliente vai comprar sua proteção ou não um paciente? As impressoras podem ser idade, pressão arterial e peso no órgão pode ser. É o paciente que morre? Mas eles não poderiam no exemplo de um carro pode ser como os preditores, talvez usar coisas como cilindro, número de cilindros e aceleração em. Você pode querer prever onde o carro vai estar. Um carro esportivo é um carro de família. Então, esses são o que você nos chama de preditores e resultados. Uma das coisas mais importantes que você quer saber é que os humanos eram submissões. Os seres humanos entendem as relações e prevêem o tempo todo que acontece no cérebro humano sem sequer uma semana, estamos conscientes, abortados. Continuamos coletando dados, mantemos, continuamos entendendo relacionamentos. Continuamos construindo modelos em nossas cabeças. Nós continuamos prevendo o tempo todo, sempre que você produz, você prevê. Ok, eu acho que isso vai acontecer. Significa que você está usando um modelo que você construiu dentro de sua cabeça para prever algo que você diz. Acho que pode acontecer. É modelo de uma semana. Digamos que estou 100% certo de que isso vai acontecer. É um ser moderno muito forte, mas humano só pode lidar com a quantidade de dados noturnos, certo? Mas, por exemplo, vou manter os lojistas. Você já os viu. Eles sabem sobre o seu melhor cliente dos clientes de longa data. Eles sabem o que seus clientes gostam e o que os clientes querem. Andi, sempre que um cliente entra, geralmente se dirige a ele. Meu nome e o imediatamente saber o que esses clientes querem. Mesmo com o cliente pedindo isso, eles vão ficar grandes, morreram. Hum, e seriam eles. Mas o ser humano só pode lidar com preencher a quantidade de dados para que eles possam saber sobre as preferências de 100 clientes. Não a uns 10 milhões deles. O que acontece então? É quando máquinas são computadores que entram em jogo, certo? Queremos armazenar tudo isso geral em informações de clientes em computadores. Andi Deixe que os computadores aprendam sobre as preferências em ajudá-lo. As missões vêm para entrar em jogo quando o número de entidades sobre o tédio de dados é grande são enormes e seus rendimentos missão aprendizagem quando você 100 ou trabalhar com o dedo do pé do seu computador , coletar todos os dados, fazer tudo a aprendizagem, construir todos os modelos. Ondo. A previsão. É aí que se trata, torna-se aprendizagem de missão. É aí que ele se torna aprendizado de missão, análise preditiva e sinais de dados. Então, o que faz santos de dados, entidades , relacionamentos, modelagem e previsão. Então, o que são centavos de dados? É tudo sobre escolher um problema em um domínio especificado. Compreender o domínio do problema, as entidades e os atributos e o comportamento e os uniformes coletando conjuntos de dados que representam as entidades vamos coletar todos os dados que você precisa e, em seguida, você descobre relacionamento a partir do O Reiter. Isso é o que você chama de aprender quando computadores fazem isso. Chama-se Mission Dunning. Permissão. Aprender não é algo, embora o mundo não seja nada. É tudo a bordo de missões. Aprender sobre certas coisas estão descobrindo relacionamentos a partir da leitura oito como e, em seguida, construir modelos. A relação com o presidente. O mortal pode ser como um modelo matemático. Pode ser um modelo de árvore de decisão. Pode haver outros tipos de modelos complexos para, e o que fazemos em realmente construir modelos é usar dados passados quando você sabe sobre os protestos . Você conhece o carro, os resultados. Então você conhece os valores das crateras. Você conhece os valores dos resultados. Andam usando esses valores, estabeleça relacionamentos a partir dos relacionamentos que você constrói modelos. E uma vez que você construir um moderno, você pode então começar a prever Você pode começar a prever para os dados atuais ou futuros quando você conhece os protótipos. Mas você não sabe os resultados, então use o passado para aprender os modelos de construção, e então você prevê os futuros quando você não sabe sobre os resultados. Aqui está um exemplo do que o comprador do site faria no caso de sinais maiores. Isso não é um exemplo, o problema seria prever que o comprador vai comprar o seu smartphone sobre o que eles vão fazer sobre isso. Você tem todos os retratos do passado de todos os compradores, certo? Você coleta características do comprador como idade, um nível de renda de gênero. Você coleta informações sazonais quando eles fazem compras, como o tipo de coisas que eles compram durante o inverno era um verão. Foi no Dia das Bruxas? O que é uma onda de quarta-feira? Você coleta todos esses 11 dados que estão lá. Então você constrói modelos. Você constrói modelos que falam sobre relacionamentos, sobre o que sobe ou o que vem tom. Quando o cliente compra, o cliente não compra. Então você basicamente tentou deixar os outros atributos que você conhece para o resultado. Então você olha para todos os valores fora dos outros atributos quando os clientes estão comprando, O que isso valores dos atributos quando os clientes não estão comprando? Então você vê que uma dama o valor fora em uma idade tributo é maior que 25. O cliente compra o valor das idades que levam menos de 25 anos. O cliente não morde. Aí vem uma relação. Vamos tentar usar essa relação para construir um modelo e então você tenta prever, que é sempre que você vê um cliente com idade maior que 25 anos. Sim, esse cara vai comprar isso. Então você faz previsões. Então, quando um comprador nuclear de navegação previu, o comprador vai comprar, você usa o modelo e prever em tempo real. Mas o cliente vai comprar um produto ou não. Ok, o que eu vou fazer com a produção agora que você sabe que os clientes sabem que vão comprar não vão comprar é que você pode fazer algumas ações como você quer oferecer Childhelp nestes dias, sempre que você vai a qualquer site, Você vê que um pequeno pop-up aparece e diz: “ Você quer falar com seu agente vivo? Então agentes vivos são caros. Eles são seres humanos. Você paga muito dinheiro a eles, então você só quer oferecer ao vivo, idade e ajuda. Então os compradores que você acha que vão comprar seu produto para que você possa tomar uma decisão inteligente sobre qual comprador você deseja. Quero sair de um agente vivo. Com base nessa previsão, este é um exemplo de como os sinais de dados funcionariam para você. Obrigado 6. Casos de uso de dados: Então, olá. Aqui é o seu instrutor Cameron. E nós vamos olhar para alguns dos casos de uso da ciência de dados. Eles não vêem como o mundo está se beneficiando da ciência posterior. O uso da ciência de dados está crescendo exponencialmente. Todos os dias têm crescido exponencialmente nos últimos anos. Eu estava me espalhando por vários domínios e, como sinais de negócios, são finanças e vida impessoal. Também em um recente avanço no poder de computação. Em termos de hardware, em termos, fora de software, muito fora abre ou até agora está vindo para o mundo como o todo são ecossistema de drogas em algoritmos preditivos. A combinação de tudo isso tornou muito econômico para você aplicar ciência de dados em uso comercial nos dias de hoje. Ok, vamos ver alguns dos exemplos de uso da ciência de dados. A primeira carta começa com finanças para finanças. Todos a bordo ganhando dinheiro economizando dinheiro. Então, redução de fraude. redução de fraudes de cartão de crédito é uma aplicação muito importante dos nossos dados. A ciência está sendo usada. Então, o que acontece na fraude de cartão de crédito é que a fraude de cartão de crédito exibem em matiz certos padrões em que eles acontecem sempre que você olha para transações que estão relacionadas à fraude de cartão de crédito . Eles exibem algum padrão, algum tipo fora de uma relação entre as várias entidades e seus atributos. E são esses padrões que são basicamente capturados no histórico mais tarde. Eles são usados para construir modelos fora férteis e transações. Assim, os dados históricos têm boas transações e transações de fraude, e lá, em seguida, usado para construir modelos de como uma transação fraudulenta vai se parecer. Então, sempre que uma nova seção de crime ocorre, essa transação é imediatamente elevada. Usando computadores, usando o modelo para descobrir o que ele nos chamou de fraude. Uma escola judicial de fraude basicamente lhe diz se a transação em particular é uma fraude, transação fraudulenta ou não. É uma escola, talvez a partir de 1 200 em diante, sempre que há causas pontuadas, especialmente limiar. É imediatamente sinalizado como um adereço. Possível transação fraudulenta É. Em seguida, algumas ações são tomadas como as chamadas estão sendo feitas para o proprietário do cartão de crédito como toe perguntando. Se não é fazer todas essas transações. Às vezes, o cartão de crédito é imediatamente bloqueado de outras transações até que eles façam a verificação. Portanto, há algumas ações tomadas como esta Até agora, a direção é uma aplicação muito importante para a ciência posterior no mundo financeiro. A segunda aplicação que você veria é sobre varejo, Então você verá que sempre que você vai a um site e fazer suas compras e colocar alguns itens em seu carrinho de compras imediatamente, você verá algumas recomendações chegando. Como no caso de uma Maison, você veria imediatamente uma recomendação como itens frequentemente reunidos. Como eles fazem essas recomendações é novamente? Itens exibem padrões sobre como sua aberração trouxe juntos, como telefones celulares e acessórios livros, alguns itens que são frequentemente comprados juntos. Eles exibem esses padrões de afinidade. Então, com base em que o projeto de lei, o que são chamados de afinidades curso entre os itens. Então, entre qualquer tentativa para cinco que é uma pontuação de afinidade atribuída. Quanto mais alto, definido é chamado, mais frequentemente esses itens foram reunidos. Então, o que acontece a seguir? Sempre que um fora aqueles que eu tentei comprar por um novo comprador imediatamente, itens com pontuações de alta afinidade para o pedido de item como eles são imediatamente recomendados. Então você usou o curso de vídeos para recomendar mais itens para o Sharper, com a idéia de que, se os compradores de energia compraram o dedo do pé juntos. Possivelmente é assim que a próxima loja. Mas também vai fazer e que o valor para fazer mais cross-selling e absolutamente centro de contato . Portanto, temos centros de contato, que têm sido tradicionalmente usados para atendimento ao cliente. O uso de contatos e não tem crescido hoje para domar ou vendas muito fora, mais vendas e suporte high-end, e eles também começaram a usar sinais de dados para melhorar seu desempenho. E como fizeram ou fizeram isso é isso Eles começaram a marcar cores. Quanto a menos agentes, então interações passadas são usadas para marcar cores estourar em seu valor em termos de quanto o valor do negócio era, ah, tipo guerra de cor. Eles são a quantidade de negócios que eles já fizeram com o com a empresa que eles estão usando. Isso se chamava “As cores”. Eles também desculpar traz curso para agentes com base na capacidade de vender órgãos altamente vendidos . Foi um agente de baixa venda ou agentes que são a capacidade de lidar com um tipo específico de problema , como agentes que podem lidar com problemas no produto específico são tipo específico de vamos e problema de rede foi é um problema de telefone que coisas como Então o que fez então é que eles estão tentando fazer as cores certas com o agente certo. Baseado neste curso na idéia é, uma vez que você pode estar certo, nos ligue com os agentes certos. Ele vai otimizar seus resultados de negócios e, em seguida, chamar gravações com tão carro. Você vê que sempre que você está falando com um contact center, eles sempre vão dizer que sua chamada pode ser gravada para fins de qualidade e o que eles fazem com essas gravações de chamadas é que eles vão jogar algoritmos de aprendizado de máquina nesses gravações para entender a qualidade da chamada no resultado e usá-las para aprimoramentos futuros . E, finalmente, olhamos para os cuidados de saúde agora prevendo que os operadores de doenças foram um amigo. O que aconteceu é que você pode prever surtos de doenças olhando para o que as pessoas estão pesquisando no Google e o que eles estão tweetando e twitter. Assim, o conjunto de dados deste coletor de domínios públicos, como pesquisadores do Google e feeds do Twitter e coisas assim nesses dados estão sempre vinculadas com as informações de localização. Então, sempre que você está pesquisando algo sobre, você sabe onde você está colocando algo. A localização de Mario fazendo isso é sempre coletada, e, em seguida, essa informação é coletada. Como o que você está colocando sobre nossa água que você está pesquisando no Google aerobarco junto com o dedo local, venha com Pat. E assim são as pessoas fazendo este tipo fora de consultas sobre uma doença específica de uma localidade específica . Esse item queria que quanto mais no momento em que você começa a ver alguns padrões fora do pé, as pessoas estão tweetando mais sobre um local específico da doença. Essa é a possibilidade de haver um surto que está a acontecer aí. Esse tipo de informação está sendo usada agora para começar a prever que são objetos. O que é bom em fazer previsões sobre surtos de doenças é que o governo pode criar de forma mais proativa. Você vê que isso está começando o dedo do pé ou quebrando uma localidade específica. O governo pode começar imediatamente a reunir seus recursos para começar a enviar alguns cuidados preventivos. Ou muitos enviam mais médicos. Coisas assim não pode organizar, como um par de dias de antecedência em evitar mais ou cinta que está acontecendo na mesma área. Então, não designar está ajudando a prevenir nosso, pelo menos, gerenciar esses surtos de doenças. Então estas são algumas das aplicações interessantes em cientistas de dados é como uma aplicação muito poucos popular. Isso é, de fato, muita coisa que está acontecendo lá em duh. Espero que consigam fazer mais leitura, indústria e todas elas. Ah, e em um futuro próximo, obrigado. 7. Ciclo de vida de dados de vida para a Ciência - configuração: Olá. Este é o seu instrutor comum aqui. Estou nesta seção. Vamos ver o que é um ciclo de vida de projetos de Sinais de Dados. Então vamos falar sobre projetos de ciência de dados quais são suas atividades, como elas são sequenciadas. Então vamos começar com algumas notas introdutórias. esforços de ciência de dados são tipicamente projetos ex Urano. Então, quando qualquer uma das muitas empresas são negócios quer fazer qualquer coisa além de sinais de dados, eles normalmente criam projetos como as pessoas querem construir software. Eles criam projetos de software em para o projeto. Eles estabelecem um objetivo, um pouco de ouro e depois vão executá-los. Semelhante a isso, eles tinham outros sinais. Os esforços também são executados como projetos. Então, uma coisa a observar aqui é que o projeto de ciência de dados deve ser considerado como projetos de pesquisa . Eles não são como construir projetos operados, eles não são. Eles não têm coisas realmente certa pedra que você pode simplesmente ir e executar e ficar longe dele. Estes são projectos de investigação. Há muito fora de pensar envolvido. Havia um monte fora retrabalho bordo e até que você alcançar o objetivo para que eles devem ser considerados como projetos de pesquisa, não como construir software e operar tipo de projetos. Os projetos estão começando inundar como qualquer outro projeto que eles fazem sobre os projetos. Tem rostos e atividades na transição acontece entre rostos e atividades, e enviou projetos envolvem um monte de ida e volta entre os rostos. Então é a estrela da manhã, como realmente um modelo de cachoeira. É mais como um modelo iterativo se você quiser associar isso a algo relacionado ao desenvolvimento de software. Então, nesta seção, vamos falar sobre o que dados santos, rostos de projetos e atividades são. Qual é a importância de cada uma dessas atividades sobre como sua transição tipo de uma para outra, e também algumas das melhores práticas? Vamos falar sobre eles? Então, aqui está uma visão geral do leitor. Projetos científicos e atividades que você verá, existem, como categorias ou estágios completos, amplos no leitor. Desde o projeto que é o conjunto de fase em, há a engenharia de dados enfrentar a face de análise na fase de produção na fase central , você apenas preparar a equipe com o que eles têm que fazer. A lesão de dados por anos é tudo sobre a obtenção de dados e treinamento de dados sobre como trabalhar com dados do bom caminho. Barra de forma. Você pode fazer o terceiro estágio, que é o estágio analítico. Então Alex é tudo sobre explorar os dados e obter alguma informação significativa ou o Fed . Então, é tudo sobre aprender e prever em Uma vez que você faz a cara de análise e vem com algum tipo de recomendações, você pode então ir para o estágio de produção onde eu realmente construir alguns produtos de dados que, em seguida, fazer tudo o que você apenas fez de uma forma automatizada e de uma forma repetível em continua produzindo resultados que você deseja. Eu só vou para a primeira face de atividade, que é o conjunto de fase. A primeira coisa que você quer ir em qualquer projeto de inocência é o que você chama de definição de metas para o Projeto Inocência. Todos os dias, o projeto de essência terá e deve ter um ouro. Se alguém quiser. Que projeto dúzias, que é como, Ok, vamos olhar para os dados e ver o que você pode obter com isso. Esse projeto está condenado ao fracasso. O Projeto de Ciência de Dados deve ter um ouro específico que eu faço para a equipe ir atrás. Assim, o esforço da equipe será focado em alcançar esse objetivo, e as atividades também serão baseadas no que você quer alcançar tão espaço. Mas há que projetos sem metas são motoristas, nossos carros sem motorista. Então, se alguém causar que venha e diga isso, vamos fazer o que tem sido desde trágico. Basta olhar para os dados e ver o que podemos descobrir. Esse projeto não vai a lugar nenhum. Então essa tem sido a experiência de muitas, muitas pessoas que tentam fazer. Eles não projetam alguns exemplos de ouro definindo nossa perna. Não há previsão de quais clientes irão gerar nos próximos três meses. Esse é um grupo objetivo que trata que estamos recebendo sobre nossa empresa e, em seguida, agrupá-los com base no sentimento fora dos tweets são identificar pacientes que têm a possibilidade de ter um ataque cardíaco nos próximos três meses. Então você vai prever os clientes, Joan, você vai prever o sentimento dos tweets? Vai prever pacientes que vão ter ataques cardíacos? As meninas podem ser qualquer coisa assim, mas o mais importante é ter um objetivo bem definido antes de começar o seu projeto. A segunda coisa muito importante na qual você deseja se concentrar é entender o domínio do problema . Ao contrário de projetos de software, mesmo em projetos de software, eu diria que entender o domínio de negócios é um zoológico. Uma coisa boa no caso sobre o projeto de ciência de dados, é necessário que todos os membros da equipe para ter alguma compreensão básica sobre o que o problema de negócios restante é tudo sobre. Então, quando dizemos que precisamos, estávamos falando sobre um problema chegando. Estamos falando sobre o básico de negócios como se você estivesse na sensação financeira do Sierra ou do campo médico, entenda alguns conceitos básicos sobre o negócio, sabe? O que é esse negócio? Como é que esse negócio ganha dinheiro? Um dos processos de negócios envolvidos em quais são o fluxo de trabalho em algumas das principais métricas de desempenho nos negócios? E isso é muito mesmo em uma equipe de ciência de dados maiores. Há sempre alguém chamado de nós não se importa de exportação. Eu não me importo. Exportação é muito crítica A minha experiência é uma parte crítica de uma equipe de ciência de dados, então grandes equipes tipicamente podem ter um especialista em domínio que pode não ser um cara técnico não é um sentar estático como cara, não um cara de programação, é apenas alguém que conhece o negócio. Mantenha-o na equipa para te ajudar a compreender o problema. Submissões de domínio? Não, isto é uma coisa importante. Missões apenas números nobres e cordas. Eles só fazem lixo no lixo. Eles precisam de humanos para associar qualquer significado a esses números e força. A missão Não missões não entendem negócios. Os seres humanos entendem os negócios na ciência de dados. É importante para você entender e validar qualquer coisa que lá vai vir acima com e que só pode ser feito por humanos e para os seres humanos para fazer isso, eles precisam de compreensão do problema. Conhecimento do domínio ajuda as equipes a entender as entidades envolvidas o relacionamento, os padrões, qualquer tipo de descoberta de conhecimento que você precisa para validá-los. E a violação só pode ser feita se você souber que o problema não se importa é sobre um adulto. Nesta compreensão do problema, domínio ajuda você a validar todas as suposições. Mais importante ainda, você identifica o erro Então os dados têm alguns assuntos. Como você sabe? E se, por exemplo, você está olhando para um dia Dan, e digamos que a idade da pessoa aparece 600 anos. No momento em que você olha para ele, você sabe que estendido não é o número errado porque não há ninguém que tem 600 anos de idade. Mas você só pode fazer isso porque você sabe, a idade do domínio é um termo muito comumente usado. Todos entendem do que se trata. O que? Que tal algo como o nível de colesterol? Como você sabe o que é um nível de colesterol válido? O que não é um questionável válido? Se alguém tem um ilegal fora 1000 é possível? É um número normal para o número alto não é um número convidado? Você só pode dizer se você conhece o domínio, e é por isso que especialista em domínio é necessário para você depois de entender o domínio. A próxima fase é compreender os dados associados aos dados. Já vimos o suficiente sobre os dados e algumas das outras seções. Então, aqui, volta a ele, os processos de negócios em fluxos de livros geram dados. Muitos dados, alguns capturados, outros não capturados. Mas onde quer que os dados sejam capturados, há várias coisas como os dados do aplicativo 100 que você faz em vários aplicativos de entrada que são relatórios Existem visualizações. Há dados automatizados vindo de Desde nossos feeds de dados, há cliques da Web que você obtém em um navegador. Cada clique é também um dos pés de dados que o nosso ponto de venda transação que foram gravados e há redes sociais nossos feeds de dados. Além disso, todos esses são dados de negócios que estão sendo gerados através de várias fontes. Eles foram armazenados em vários sistemas. Alguns estão na rede cooperativa. Summer on se desenvolve. Há dados em todos os lugares que você pode querer usar. Os dados, é claro, podem ser estruturados, não estruturados ou semiestruturados. Isto novamente, nós vimos isso antes em dados têm origens diferentes. Existem tipos de violoncelos diferentes E eles podem ter um monte de relacionamentos lógicos, relacionamentos, é claro, é claro, ou a chave para qualquer tipo de compreensão de gerenciamento de lanchonete, dados Compreender quais dados você tem é um coisa muito importante para um cientistas de dados. O que é isso que você quer? Entende sobre os dados? Você não entenderá a fonte dos dados. Como o rótulo é o dado é ele está na máquina gerada ou ele é inserido pelos humanos ? Seres humanos Isso é uma possibilidade de alguém? - Homem? Carregar a entrada de dados é colocar em desenhar dados e ficar longe dele porque nosso quão bom os dados que você vai usar para sua análise é o que está indo para a mina, quão boas suas previsões vão ser. Assim, os dados tem que ser válido seu para se certificar de que esses dados não é homem operado por alguém. Por alguns outros motivos, você precisa entender que tipo de etapas de processamento e transformação são executadas nos dados. Amore supostamente tem alguns dados que foram descartados por alguém durante a passagem porque eles pensaram que não é importante como alguns dados duplicados fazendo seu ser para o processamento. Você está perdendo alguns dados porque está fazendo algum resumo ou não? Todas essas coisas que você precisa entender sobre a antiga Lolita como os líderes em relação a outros bancos de dados empresariais de estudantes nublam Neuf esses feeds como os dados são sincronizados entre essas diferentes fontes de dados. Você sabe, quando alguém e como dados no lugar um dia também pode estar indo no lugar ser então o que? Eles estão realmente sincronizados entre si. Qual é a relação que existe dentro dos dados. Eu sei. Vamos ver que tipo de coisas? Como a relação de chave estrangeira entre os dados, o i d aqui deve coincidir com o I d lá e coisas assim. Ordenar fora criação quando é ordenar, você sabe, usar como o primeiro ordenar algo como, Ok, no agente primeiro vai e digite algo no sistema pode. Então ele vai, e as crianças estão de acordo com o sistema ser. Então ele faz algo insistente. Steve, é aqui que a compreensão do seu processo de negócios ajuda você a entender como os dados estão sendo criados em que ordem estão sendo criados. Também na compreensão dos dados ajuda a equipe a identificar possíveis fontes fora de seus padrões preditivos . E onde você está recebendo esses padrões do Rio sempre violar sempre que você vê uma parte sobre se há ou não válido. Portanto, é importante para você entender como o dia sai e como ele foi criado. Entenda seus próprios padrões. Às vezes, os padrões podem ser criados por causa do edifício. Também foi criado. Então coisas que são realmente complexas neste ponto para explicar. Mas uma compreensão dos dados em geral é uma coisa boa a ter para um cientista de dados 8. Ciclo de vida de dados de vida para ciência de: A próxima fase sobre a qual vamos falar é a face duradoura de dados onde você configura configuração e a engenharia de dados feitos sempre. É todo o trabalho sujo que você tem que fazer para obter os dados de vários hoje para a forma que queríamos ser. Então há lá fora por todo o lado. Terapia não controlada. Tens de juntar esses dados. Recomponha-se, reúna todos os dados, bata neles, coloque-os todos em um único destino lógico e agradável, onde você pode fazer qualquer análise posterior. A primeira etapa na engenharia de dados é a aquisição de dados. Então, onde seu trabalho é adquirir filha de diferentes fontes de dados que eles podem ser base de dados corporativos, como talvez sentar em um banco de dados de artigos em meus bancos de dados de sequela, agora pode ter que ser feito através de pilares nublados. Há muitas obrigações na nuvem. Eles dão a você um P. A está na nuvem como a equipe de vendas, por exemplo, você tem que ir e obter dados através do AP. Olhos lidos. Eu posso estar vindo a um scanner alimenta-se de sensores como scanners de código de barras. Ele pode estar vindo através de mídias sociais, você pode ter um download. Mídias sociais como Twitter e Facebook. Todos eles são fontes de dados. Cada um deles apresenta um tipo diferente de caso de uso em um tipo diferente de desafio para você . Às vezes, os ajustes de dados também podem estar chegando em tempo real. Pode estar vindo em massa. Pode estar vindo, introvertido. Um dado também. Então tudo isso cria problemas diferentes para você. Uma das coisas mais importantes sobre a aquisição de dados é a sanidade. Verifique a verificação, certificando-se de que você tem todos os dados que você precisa. E não há dados perdidos na camada de transporte. Eso, o curtume. A verificação de testes é uma parte importante da aquisição de dados. É um passo muito pesado e demorado para definir por que é pesado. Um demorado para configurar em não dizer toe adquirido para configurar é porque quando você tem todas essas fontes de dados, o que vem, mas isso é coisas como segurança. Há pessoas que possuem esses bancos de dados. Há políticas de segurança envolvidas. Há políticas de partilha envolvidas. Então você vai passar um monte de tempo estabelecendo conexões com as missões envolvidas nos seres humanos que controlam as missões sobre isso pode ser realmente tempo primeiro frustrante. Porque eu acho que os cientistas de dados, se você é realmente perto, certo, maior que nós gostamos do céu. Se você já é o Departamento de Indiciados na porta. Também é do departamento 90. Possivelmente Você não tem um monte de problemas, mas você não está no departamento de energia, você ou talvez um concerto e você está em um departamento diferente em seus dados está sentado lá e base de dados corporativos. Está sentado na nuvem. Em seguida, torna-se ainda mais complicado conversa para todas as pessoas em Wall explicou a eles por que os dados que você precisa, o que você precisa dos dados e que guerra ex-editores e obtê-los para compartilhar os dados sobre passar por todos os porcaria organizacional vai ser muito tempo e esforço envolvidos . Então este é um muito pesado, frustrante Este é o dia em que eles trabalharam para fazer a limpeza de dados. Uma vez que você obtém os dados, você teve que limpá-los. Por que você tem o limpador? Porque os dados têm diferentes graus de limpeza e integridade. Nem todos os dados que você vai obter são dados de estrutura limpos e completos de aplicativos corporativos como, você sabe, sentar no banco de dados são realmente limpos e completos, então você não tem muito sobre isso . Este já limpo, já completo já no primeiro. Você quer que eles sejam? Sem problemas, mas dados que você está obtendo da Internet a partir de mídias sociais da Transcrição de Voz , todos eles podem precisar de limpeza significativa. Você sabe, há sujo incompleto em todos os tipos de múltiplos formatos em Digamos, se você olhar para qualquer um dos feeds do Twitter, você sabe, eles não são frases completas, eles não são frases completas, que muitas abreviaturas e Parkins de coisas Junkin sentado lá, todos precisam ser limpos, examinados e dados perdidos. Esse é outro ponto importante. E quanto aos dados perdidos? Você pode estar faltando atributos com certeza. Collins são uma espécie de valores talvez ausentes para certos atributos. Como vai lidar com eles? Vai dar-lhes um valor? Porque se você colocar algo como um principal lá, por exemplo, seu algoritmo de aprendizagem de missão não entende nenhum vai pensar que detentos sob esse valor se você colocar zero como um valor para algum número. O teu jardim ia aguentar. Ok, zero é algum valor. Como é que te diz? Mission Learning algoritmo zero significa e não disponível Outro onde diz que tem algum valor. Não é uma coisa fácil de se fazer. Muitas vezes você tem que colocar um substituto e antes que eles morram lá e eles fizeram afetar seus algoritmos de aprendizagem missão. Portanto, a falta de tratamento de dados é uma decisão muito importante a tomar aqui. Exemplo de limpeza são como se você estivesse normalizando formatos de data ali mesmo. Às vezes percebem um imã dd dd mm Óleo sobre mm realmente sabe todos os tipos de ex-. Você quer uma facilidade normal e padroniza-los até 14 meses antes de poder começar a usá-los padronizando em casas decimais. Às vezes, os dados estão chegando em 1.23 Às vezes, ele é usado indo para usar o formato exponencial para um número. E tudo o que precisa ser estratégia é mais uma vez sob o clássico. Um é o sobrenome. Primeiro nome era o primeiro sobrenome. Como um nome representado nos dados. Então você está ficando sabendo quais fazendeiros eles são. Todos eles precisam ser padronizados. Há uma parte do processo de limpeza. Mais importante ainda, se você está recebendo como feeds de texto de algum lugar, você tem que fazer um monte de limpeza para o texto que é uma desminagem inteira em si. O que você faz com a limpeza de texto? Isso é tudo o que o trabalho precisa ser feito antes que você possa começar a usar os dados para qualquer outra análise. Os dados de transformação de dados após uma limpeza podem ter que ser grampos no dedo do pé. Um antigo diferente tem uma forma diferente antes de começar a usá-lo. Portanto, a razão para a transformação de dados é extraído informações dos dados enquanto descarta bagagem desnecessária. O que faz bagagem desnecessária é contra a mente pela garota com o que você está pesquisando os dados. Então, se você não precisa de alguns dados, não precisamos de alguns níveis de detalhes. Você pode resumi-los e descobrir toda a bagagem desnecessária que é o processamento e resumo de Moore típico auxiliado . Você tenta verão atividades lógicas associadas. Níveis de transformações ajudam a reduzir o dia. Há sinais em muitos labirintos para a ideia de processamento usado. Por que você quer Oh, então alguma transformação é que você quer com esses dados em uma forma que você quer saber pode entender melhor, como você pode recolher um número fora do curso em um registros lógicos que representam o tudo o que aconteceu a partir de exemplos que você pode querer ver aqui é que o visitante vem a um site e ele clica em um número fora das páginas do site. Você pode pensar que alguém é todos eles em um único disco. Mas se esse é todo o nível de que você precisa, você pode querer fazer algumas traduções linguísticas entre vários idiomas. Se há um sensor médico que está vindo, digamos que há um sensor que está captando sua pressão arterial a cada segundo e enviando você e leitura da pressão arterial. Talvez queira resumi-lo por intervalo. Você pode tomar um intervalo de 30 minutos e, em seguida, resumos e dizer neste intervalo de 30 minutos, qual é o máximo de negociação? Qual é a classificação mínima? Qual é a média de ler coisas assim e resumi-lo. Além disso, posso depender de alguém seu caso de uso, que tipo de transformação você quer fazer e resumi-lo. Neste caso, resumos Após a transformação vem dados e Dishman. Embellishment é sobre adicionar alguns atributos adicionais mais tarde que melhora a qualidade da informação. Você quer adicionar mais algumas informações aos seus dados que podem tornar sua análise muito melhor. Então, que tipo de informação você pode adicionar? Ah, por exemplo, você pode obter informações, as informações demográficas de um banco de dados de clientes para um registro de transação de ponto de venda . Então, o registro de transação do ponto de venda terá o nome do cliente, o número do cartão de crédito e os produtos que ele trouxe. Agora você pode obter os clientes informações demográficas de 1/3 partido que eu ser como um desses clientes ajuda, você sabe, estado civil, educação, educação, níveis de renda. E você pode anexar isso a esses dados. Uma vez que você disse que para os dados do que o que ele pode fazer é fazer alguma análise sobre quais produtos as pessoas compram como as pessoas. Digamos que leite, que compra leite outras pessoas que são homens ou mulheres são as pessoas com mais de 20 justo abaixo 25. Você pode fazer todo esse tipo de análise assim que puder. Dados intermináveis para a nossa tradição. Informação. Coisas como você não pode agrupamentos lógicos de pacientes pelo histórico médico passado, como você pode anexar o histórico médico passado de um paciente à sua visita atual. Então você pode olhar e ver, você sabe como as pessoas lutam com histórico médico passado. Diferentes tipos de história médica, executar, são, estão andando fora das coisas que você faz para eles. Portanto, incentivar os dados é um passo muito importante. Adicionar mais dados, dados mais significativos dá a você melhores insights sobre quais dados você tem lá. E uma vez que você terminar com todos eles, você está indo para o pé. Persistir seus dados, mas você salva seus dados em alguma necessidade. Um processo de moda sensato. Os dados são armazenados em uma sincronização de dados confiável e recuperável. Então você quer processar toda a sua filha e colocá-los em um bom relabeled dados recuperáveis . Sincronize em todas as informações do fígado capturadas em um único registro de olhar, tanto quanto possível. Você tem dados provenientes de várias fontes diferentes. A melhor coisa para você fazer é se você pode obter todos os organistas como registro lógico como um único registro longo que contém todas as informações que você precisa. Você não deveria estar fazendo muitas coisas fora de chave estrangeira. Você prefere querer normalizá-los e colocá-los todos no mesmo disco e colocá-los todos juntos. Portanto, mais questionamentos e análises são muito fáceis para você. Um exemplo, seria como uma pequena transação de almas. Você pode pegar os dados do ponto de venda. São as informações demográficas do cliente para ele sobre as características do item para ele, como você tem o item que é comprado, você pode dizer tipo de item. É diário em um trabalho, atualizado Faz coisas assim e você também pode adicionar, como vendas associar informações de desempenho a ele para que você possa ser então uma nova análise um desempenho de Sales Associates com base no produto que está sendo vendido baseado na demografia dos clientes e coisas assim. Então você pode querer colocar todos eles juntos em um único disco reto e armazená-los. Esse é o passo que chamou a persistência de dados e, finalmente, estão escalando o desempenho da consulta são fatores muito importantes. Claro que sim. Há bom no reboque. O domínio da arquitetura de dados onde os Data Architects estão. O trabalho é para os arquitetos. Trabalho é projetar seus dados, cantar de tal forma que ele pode conter todos os dados que você tem e tem uma escala razoável . Seu desempenho tem boa qualidade e tudo isso para ajudá-lo na próxima etapa, que é os dados passos analíticos, é claro, você pode armazená-los como arquivos simples, bancos de dados SQL tradicionais. E então, é claro, hoje você tem todas as tecnologias de big data como Hadoop on Hard Open seus bancos de dados, como base de hedge que você deseja armazenar seus dados. Então isso completa a segunda face de um projeto de ciência de dados. 9. Ciclo de vida de dados de vida - análise e produção: Olá. Este é o seu instrutor Cameron aqui está continuando no ciclo de vida da ciência de dados. Essa fase de pensamento é uma narcóticos onde você está tentando aprender com os dados e fazer suas previsões. O primeiro passo na análise é o que é chamado de explorar três análise de dados R E d A. Em forma de tiro. Uma forma curta muito famosa em ciência de dados. O que você vai fazer quando o E.A. E.A. estiver? Você deseja entender os padrões de atributos individuais que você toma uma idade como atributos . Você não vai entender coisas como o intervalo de valores mínimos, valores máximos, a distribuição de frequência, eu, coisas assim. A próxima coisa que você queria um era entender a relação entre os atributos como o que faz a relação entre idade e você está comprando relação padrão entre renda na da gênero, coisas assim. Como uma mudança em uma afeta a outra? Em outras palavras, você está se transformando em relacionamentos nessa cara que está tentando fazer. Alguns gráficos estão tentando fazer alguma análise e entender mais sobre o que você vê nos dados. Então você faz. O raciocínio é explicável? Quaisquer relações acima em padrões que você está vendo nos dados, há uma explicação para por que ele é para que ele não. Se você não encontrar uma explicação do que possivelmente, há uma possibilidade. Muitas vezes melhor. Ou talvez seja um novo padrão. Isso é algo que você quer discutir e depois descobrir que você é. Olhe para os nossos jogadores e, em seguida, decidir o que você quer ir com eles que você quer, se incluí-los ou excluir, hum, são depende de osso. O Outlier Valley West. E é um caso de uso a base de caso de uso. Você decide sobre o que você quer fazer sem jogadores. Possíveis erros no processamento que você só pode encontrar, mas explorou e escuta. Esse é um bom uso fora do processo. Vamos dar um exemplo novamente em espera fora do paciente. Acabamos de discutir alguns escravos. No momento em que você vê oito off como 600 você imediatamente sabe que há algo errado com isso. Existe um possível erro. Foi também o que você chama jogadores supor que há um par de pacientes que são um 70 75 anos de idade. Todo mundo é como 40 lição para 40 anos de idade que talvez você queira decidir e eliminar esses dois discos sem jogadores. Esse é um possível processamento do nosso cliente. Você quer ir em você? Claro que você quer entender a relação entre o paciente Espere e no nível de diabetes , o nível de colesterol na história familiar e coisas assim. E, finalmente, você viola suas descobertas com os especialistas do domínio quando diz, ei, isso é o que estou vendo nos dados. Será que gel com o que você já sabe sobre algo novo, você quer falar com eles e entender como as coisas são. O próximo passo é a análise inferencial. O que você faz na análise inferencial é procurar sinais. Sabe, você procura padrões, procura consistência nas costas e procura correlações. Você procura raciocínio. Isto é uma espécie de sobreposição com explorar um tratado abaixo. A menos que seja, isso é mais profundo e mais focado e mais metódico que você faz aqui em francês em análise, então você verifica e vê se os padrões são consistentes e reproduzíveis. O que você quer dizer com consistente é que você vê a mesma parte mês após mês após mês? Você vê que isso é um À medida que a taxa aumenta, você vê que os níveis de colesterol aumentam isso acontece para seus pacientes? Todo mês, todo mês, você recebe um novo conjunto de pacientes e você continua vendo o mesmo padrão. Você vê o mesmo padrão? Vamos ver cidades de países em diferentes raças, tudo isso como parte da análise inferencial. E então você faz algum teste estatístico para ver que as descobertas que você vê com os dados dizem que você tem. Isso pode ser extrapolado para a população da Índia como você tem dados de San Francisco pode o mesmo, e isso é ser com resultados, ser o mesmo se você extrapolar para que eles e seus nós fora do mundo inteiro são eles Vai ser diferente? É tudo o que você faz como parte de uma análise de violação de novo. E vamos dar um exemplo de paciente. Espere, foi a diabetes. Você faz tudo isso em francês Em análise como se você pudesse pegar dados rápidos de um estado que Califórnia faz a análise e então ver como a Califórnia se compara com Nova York nos padrões de ver R Calif. São o então você olha para fora raças. Olhe para Asiáticos Americanos para Asiáticos Americanos na Califórnia mostraram o mesmo padrão de localização Americanos em Nova York. Nossa doação americana mostrou o mesmo padrão que afro-americanos. Pior são as outras pessoas. Então você faz todo esse tipo de segmentação e então você faz todos esses perfis durante a análise inferencial em você sair e valorizar todas as suas descobertas durante este processo ? Uma vez que você sabe, análise inferencial os próximos estágios modelagem. Este é o lugar onde toda a sua missão de aprendizagem todos os guardas vem pontapé em jogo é você está jogando imersão precoce aprendendo todos os jardins para construir modelos sobre o que você faz na construção de modelos é o seu tipicamente tentou construir vários modelos usando diferentes algoritmos em conjuntos de dados diferentes. Estas são todas as técnicas que estão lá e aprendizagem de missão. Existem algumas técnicas sobre como você pode segmentar seus conjuntos de dados e a substância múltipla e, em seguida, usá-los para construir modelos e modelos de teste. Então, como diferentes algoritmos podem ser usados nisso é todo o domínio fora do aprendizado de missão é tudo sobre. Se você fizer um curso de aprendizagem missionária, foi apenas uma linha que explodiu por todo o curso. Você, é claro, tem que testar seus modelos eram um louco novamente. Seus métodos de como você faz isso em aprendizado de máquina. Finalmente, eu sou. Se eu seus modelos de melhor desempenho quando dizemos melhor desempenho, falamos sobre precisão. Falamos sobre o tempo de resposta e os recursos utilizados, então você tem que fazer novamente algumas compensações. No entanto, quanto ao que é o seu modelo de melhor desempenho, vamos dizer um modelo contra você. 80% de precisão leva um minuto de corrida. Esse é outro modelo que lhe dá 85% de precisão, mas leva uma hora torrent. Então, qual deles é mais importante para você? Os mais pendurados para os 85 ou 80? Estranho. Tudo bem para você ter uma precisão de 80% mas ter um tempo de resposta razoável? Então ouvimos falar sobre isso. Veja todas essas três coisas, como a precisão, o tempo de resposta e os recursos usados. O poder de computação que é necessário. Um edifício modelos Andi. Então, para dizer, o que vai ser o seu melhor modelo de modo que o modelo que você constrói no final poderia ser tão simples quanto uma árvore de decisão ou equação. Pode ser solicitado complexos. A rede neural para depende do problema e dos dados em questão. Então, mas no final do processo, você tem um modelo que você seleciona com base nos diferentes algoritmos e nos diferentes testes que você conhece affray, 1.000.000.000 modelos. Então você vai fazer todas as suas produções usando novos dados novamente que adverso tem você pode testar a previsão, testar seus modelos novamente, uma parte dos cursos de aprendizagem de missão que você verá. Você tem que continuar validando a precisão do seu modelo. Então você apenas se juntar a construir um modelo testado uma vez e ficar longe dele. Mas você vai tentar. Befriend modelos são, por vezes, mesmo combinação de diferentes modelos e, em seguida, ver qual deles lhe dá a melhor precisão possível. Você vai tentar que meu povo seja pneus e variações neste processo de julgamento . Maris novamente o melhor momento que você pode usar o seu Há muito disso é por isso que eu chamo de projeto de pesquisa. No início, você vai fazer um monte de bandeja de anos de pesquisa de diferentes coisas e ver qual deles funciona melhor para o seu projeto específico, um tempo de resposta, pesquisa de recursos, todos os mecânica, especialmente quando você tem que fazer previsões em tempo real como uma pesquisa na Web. Sharper acaba de entrar em seu site e está navegando através de seu site fazendo cliques, e você quer uma previsão em tempo real. Mas os compradores vão comprar não. Essas decisões foram tomadas como em tempo real, você sabe, em um segundo com o mínimo de resultados possível. Então você é uma escolha seus algoritmos. Com base nisso, você quer continuar medindo melhorias. Então, como você continuar trabalhando ou diferentes combinações fora da produção de guardiões de governos tradicionais têm duas partes. Uma é a parte de construção do modelo, e a segunda é a parte de previsão. Então você tem que olhar para ambos e ver se há melhor em ambos. Às vezes, alguma produção de droga leva mais e o modelo de construção, mas eles podem ser muito rápido fazendo as peças de produção fora de coisas diferentes lá. Então, novamente, você tem que continuar medindo todos os seus algoritmos como eles funcionam, e então eles continuam comparando-os e então ver qual deles é o melhor que você quer escolher . Você pode até ter simulações. A assimilação pode ser tão simples quanto simulações matemáticas, ou você pode construir um software que pode similar determinados casos de uso. Assimilação é usado para validar se a água suprimir seu jardim estava dizendo que nesta dada situação este poderia ser o resultado. Então unidade é semelhante lá que pode, mesma forma, esse ambiente. Ele pode ser semelhante ao que o NDP está fazendo em seu ambiente e, em seguida, ver se o resultado que você está prevendo é o que você vai obter. Então simulações são uma peça complexa de software. Às vezes as pessoas não as constroem para validar as previsões. Depois de fazer todos esses modelos de construção na produção, o último passo que você faz neste caso veio com um conjunto de recomendações. O que você faz aqui? É que no final deste projeto, uma recomendação precisa ser fornecida aos proprietários do projeto Ok, sobre o que você fez, quais são os algoritmos a serem usados e onde estão os benefícios esperados? Então todos eles, se você colocar juntos em uma agradável apresentação e apresentar seu dedo do pé os proprietários de produtos e aqui vem para pegar outro projeto científico feito não tem recomendações para torná-lo os dados que não exibem qualquer padrões explicáveis. Nós temos falado sobre a essência de tudo ser sobre aprender com relacionamentos. Se os dados que você tem não exibem qualquer padrão, qualquer padrão entre o resultado em qualquer outra variável. Se o resultado não é previsível a partir dos dados que você tem, não há nada que você possa prever Desai. Simples assim. Isso não significa que os dados desde o projeto é um fracasso. Você pode ter um produto com calafrios. Vamos olhar para o nosso banco de dados de clientes e ver se podemos prever a rotatividade de clientes no final do projeto. Nós para que você possa vir acima e dizer, Com base nos dados que temos, não podemos prever o cliente Chung que isso não significa que o projeto Essence é um fracasso . O projeto de neurociência só funcionará se os dados tiverem encargos, por isso não é padrão fora dos dados. Cientistas, se seus dados não têm culpa, são quaisquer padrões, claro, é o pai de dados Cientista é os dados tem padrões e o cientista de dados não consegue encontrá-los . Mas os dados não têm nenhum padrão. Não é culpa dos cientistas de dados, então esta é outra coisa importante a notar. Às vezes são descobertos padrões inesperados que levaram a outros benefícios, então você pode estar olhando para o Dodi com um objetivo especial em mente. Como se estivesses a olhar para a rotatividade do cliente de crédito. Mas você pode ver isso. Ok, eu vejo alguns padrões bonitos. Esses padrões podem ser usados para prever outra coisa. Como você pode estar usando esses dados para prever transtornos, por exemplo. Então, um projeto de ciência de dados pode fazer com que este site tire um benefício paralelo. Então você pode dizer, OK, eu vejo este belo padrão aqui. Talvez tenhamos que cavar mais fundo. Então você vai criar outro dia, dezenas de projetos para isso, e depois continuar por aquelas partes fora da porta. Um projeto de ciência também surgiria com esses locais de benefícios. Na verdade, muitos deles podem surgir durante o processo uma vez que você começa a olhar para os dados. E, claro, você finalmente faz uma apresentação sobre as recomendações. Disse às partes interessadas a última das coisas que você quer não fez. Aqui estão as iterações que são exigem, mesmo que os passos são menos do que aqui eles devem ser feitos em sequência. Você vai continuar indo e voltando entre esses passos em que talvez estourar no intermediário ou no final, análise e feedback Então, depois de fazer toda a sua análise, você gritou com o especialista em domínio. Você gritou com as outras partes interessadas do projeto. Eles podem voltar com alguns comentários que podem forçá-lo a voltar e, em seguida, refazer a explosão de análise em uma nova luz que foi compartilhada nos dados que você tem. Assim, as pessoas podem ter objetivos diferentes, diferentes prospectores que podem dar novos gatilhos para voltar e olhar para os dados que são um comentário. Índia assina o produto em que sua resposta às descobertas nos dados em seguida, ele pode levá-lo em várias partes de análise. Se você tiver, então vem a face final que é a face de produção ou a face de gelo de produção. Implementamos processos contínuos que vocês dois advogados são todo o trabalho que fizeram nas caras anteriores. Ondo começar a fazer algo em um ano base contínua. Então aqui vem o que é chamado de construir produtos de data up. Então, qual é a data? Um produto eo produto é um aplicativo que funciona com dados, obtém algo fora de dados e usá-lo para alcançar algum objetivo. É simples como esse produto ordem Mais tarde. Então uma vez que uma modelagem de dados e previsão. Eu guardava a si mesmo, firmeu-se. Você sabe, exatamente o que você tem que fazer, então é melhor você conseguir um produto. Então, o que é o melhor produto é basicamente produzir, você sabe, tornando o tribunal o quarto não mais e não girando de 80. Você não pode nada. Você faz 1/4. Esta qualidade de produção vai toda a verificação de erros no lugar com toda a gestão e monitoramento no lugar que pode fazer isso vai fazer todas as etapas que temos falado. Todas as etapas de injeção de dados. Então você está nos dando automatizar recebendo feeds de dados de todas as suas fontes de dados e, em seguida, você tem que automatizar esses aplicativos para executar regularmente. Olhe para os dados que estão chegando e ele começa a limpeza dos dados, transformando os dados, persistindo os dados. Então todo o seu código de análise vai funcionar. Andre começará a analisar os dados regularmente e começará a construir modelos. Então, todos eles são produtos filha em uma palavra, eles têm que estar rodando continuamente e continuar produzindo, continuar recebendo dados e produzindo esses modelos. E, claro, a parte de produção depois de marcas em tempo real, sabe, bash para qualquer maneira que tem que ser executado. E isso novamente é outro produto de dados que os pais usam regularmente. Quanto mais modelo o modelo que foi construído para fazer previsão quando e onde for necessário. Então construir lá há proteção do ar, a parte final que é mais como isso é muito mais como software originando este projeto de software motor. Na verdade, se você quiser dizer porque você sabe exatamente o departamento em que eles estão já os converte em um produto de software, você seria apenas um precisa ter rigor de software de qualidade tanto no desenvolvimento quanto no teste sobre ele pode estar implantando modelos corporativos e de nuvem depende da fronteira produto mais tarde deve fazer. Claro, a coisa mais importante aqui também é que você precisa obter feeds de dados operacionalizados. Os dados são transmitidos de todas as fontes de radar. Não, eles têm que continuar. Quando digo contínuo, é instantâneo. Você continua pegando como eles acontecem. Às vezes você está recebendo isso diariamente. Faça isso, Adams. Às vezes você sabe, uma vez que um V 15 minutos e viagem 30 minutos defesa imprimível depende do seu caso de uso, mas ele tem que ser operacionalizado para que lá que continua vindo regularmente. Você não tem que trabalhar com alguém todos os dias para obter os dados. É tudo automatizado aqui. E, claro, nós conversamos. Como nós médico fronteira, há produtos executar toda a transformação limpeza sob relatórios cada relatório é uma coisa chave que você quer estar fazendo aqui e, finalmente, retirar todos os dados podem ser necessários. Sabe, medida que você começa a cometer o Gator, isso vai ser um monte de dados, especialmente quando você transformar o direito para o formulário que você quer todos os dados brutos. Sabe, você pode querer mantê-los por 10 dias, 15 dias e depois jogá-los fora. Então isso completa todas as etapas que você tem que fazer em um típico nosso projeto de ciência de dados. Mas há sempre algo chamado, ah melhoria contínua. Depois de implantar um produto de dados, eles são sempre alterações no ambiente de negócios que podem afetar todo o seu aprendizado em produção. Então isso é algo para sonhar. Lembre-se de tudo o que você criou como um produto de dados. Sem algoritmos, os algoritmos para modelos que eles fizeram que sua precisão pode ir para baixo porque fora mudanças no ambiente de negócios e também o material de aprendizagem e produção tem que ser o valor que periodicamente em intervalos aproximados para se certificar de que eles estão continuando a mostrar seus níveis de carreiras que orginalmente sobre Minto tem em revalidação precisa acontecer quando seu gene processo de negócios , Você sabe que há uma mudança algo no processo de projeto de negócios que onde o entidades se comportam está mudando o mundo, o meio ambiente. E Richard vai nos fazer mudar. Então, obviamente, você tem um muito, muito feito tudo o que está fazendo aqui. Então, isso pode ter que estar sob o projeto filho que foi Maker feito em seu projeto são um projeto de melhoria que tem que vir até periodicamente para validar. O que você tem feito está tudo bem. Uma agenda de forças melhor modelo deve estar em curso. Não, isso é importante. Nós simplesmente não podemos querer e parar por aí nós fazemos para ser contínuos. Então, em alguém pelo que vimos até agora, projetos de ciência de dados seguem um ciclo de vida. Projetos de ciência de dados são pesquisar seus projetos. Há muita experimentação e às vezes não entendo. Então isso é alguma coisa. É por isso que continuamos ligando. É um sinal de projeto de pesquisa nos resultados do pai deles, não o guarda vem. Duda é mais importante do que os próprios algoritmos. Várias iterações podem ser necessárias antes de resultados razoáveis serem alcançados. Isso é outra coisa que você quer lembrar. Portanto, não há um estágio muito sério em um projeto de ciência de dados onde pensa que é feito ou deve ser feito. Então ajude. Isso tem sido útil para você. Obrigado por ouvir, mas