Transcrições
1. Introdução: Olá, sou Chris Hermione, sou de Berlim, Alemanha, trabalho para a Microsoft no momento. Eu sou um desenvolvedor web há 20 anos, e agora estou entrando em todo
o espaço de aprendizado de máquina de IA para ver como os computadores podem nos ajudar ainda mais. Inteligência artificial e aprendizado de máquina são, para mim, a próxima evolução da computação tão revolucionária quanto a primeira fábrica foi para o mercado de trabalho. Nesta aula, você aprenderá sobre aprendizado de máquina e IA, mas não do ponto de vista da ciência de dados, mas do ponto de vista da interface. Vou ajudá-lo a entender onde obter informações, onde encontrar ferramentas para usar e como usar essas ferramentas para construir suas próprias interfaces para torná-las mais humanas. Então, você não precisa ser uma pessoa técnica para fazer este curso, você só precisa ser uma pessoa interessada e alguém que queira aprender mais sobre inteligência artificial. aprendizado de máquina pode fazer coisas incríveis para as pessoas, e eu acho que há uma grande oportunidade para construir interfaces que são compreensíveis pelos seres humanos e que reduzem a barreira para a entrada em seus sistemas. Onde alguém no passado só podia usar seus sites quando usa um teclado ou um mouse, hoje em dia, as pessoas podem fazê-lo por voz ou podem fazê-lo apenas olhando para uma câmera e fazendo login dessa maneira. Essa é uma excitante idéia quase ficção científica que podemos usar hoje em dia, mas ainda não há pessoas suficientes. Espero que isso inspire você a fazer perguntas, fazer perguntas para mim, fazer perguntas para outras pessoas, e também questionar as manchetes que você verá sobre aprendizado de
máquina e inteligência artificial e os sistemas que você usa. Eu quero que você use aprendizado de máquina e inteligência
artificial para tornar as interfaces humanas e torná-las disponíveis para pessoas que necessariamente não estão muito entusiasmadas com a tecnologia. Então, quando você construir algo legal com o que você aprende aqui, por favor, conte-nos sobre isso. Bem, estou animado para dar essa aula e vamos começar.
2. O que é aprendizagem de máquina: O aprendizado de máquina é uma maneira de dizer a um computador para fazer as coisas repetitivamente uma e outra vez, até encontrar diferenças, até encontrar padrões e até que ele realmente veja o que os dados são sobre. O aprendizado de máquina não é aprender magicamente. Algo uma e outra vez. Você tem que fazer ao computador uma pergunta muito detalhada e muito precisa para obter boas respostas. Não podemos ter informações mágicas saindo de computadores porque computadores não podem pensar. Eles apenas podem simular como os processos de pensamento funcionam. Há duas escolas de pensamento, há mais algumas, mas duas grandes. Um deles é como o Exterminador, onde as pessoas têm medo de inteligência artificial, onde as pessoas têm medo de que eles vão tirar nossos empregos, onde eles têm medo de que eles estão
nos espionando e eles estão Na verdade nos matando no final, que são apenas filmes, se você pensar sobre isso. O outro lado é o Star Trek do Steve Jets,
onde temos um computador onipresente com o qual conversamos, que é super emocionante para nós, que é nosso amigo, que está precisando. Ela é um ótimo exemplo como um filme para que as pessoas se
apaixonem por uma Inteligência Artificial porque é como atender a eles, é o parceiro perfeito para conversar e é a máquina perfeita para fazer as coisas para você. Não estamos em nenhum desses espaços. Claro que há pessoas terríveis usando Machine Learning para coisas más e há pessoas que estão tornando muito mais fácil para tarefas tipo - para usar computadores e para usar seu telefone celular. Basta levar a última geração de telefones celulares agora fazendo fotos automatizadas para você, certificando-se de que sua selfie fica ótima, certificando-se de que o fundo está em sincronia e em foco sem você fazer nada. Muito disso é Machine Learning e Deep Learning, mas nós não falamos mais com as pessoas sobre isso, nós apenas os usamos sociologicamente e também do ponto de vista da psicologia, nós estamos em um lugar muito interessante lá. Temos pessoas que têm medo ou pessoas que preferem computadores a pessoas. Acho que precisamos voltar um
pouco ao meio e entender que todas essas coisas são ferramentas para nós,
para que os humanos sejam mais criativos. Então, se a escola de pensamento Exterminador está
preocupada com empregos sendo tirados por computadores, a escola de pensamento Star Trek deve ficar feliz que alguns empregos estão sendo tirados por computadores e robôs, porque eles são não são saudáveis para os humanos e eles não fazem nenhum sentido para os humanos fazerem. Há uma grande oportunidade agora com automação e computadores fazendo coisas para nós que podemos nos livrar de coisas que nunca pensamos que poderíamos. Como meus pais, por exemplo, eram da classe trabalhadora. Trabalhavam sempre em fábricas, trabalhavam em minas de carvão. Eles tiveram que trabalhar para viver porque não havia nenhum robô que pudesse aceitar os trabalhos. Os trabalhos insalubres, repetitivos e chatos que eles tinham, que poderiam fazer isso por eles. Assim, com esses empregos indo embora e eles vão embora porque
será muito mais econômico para robôs e máquinas fazer isso, nós temos a liberdade como um tipo humano para nos tornarmos mais criativos e para aprender sobre os próximos novos empregos que Nem sequer sei ainda. O trabalho não tem de ser algo onde
vivemos e fazemos porque temos de arranjar dinheiro para isso. trabalho pode ser algo que ainda não esteve lá. Poderíamos nos libertar dos grilhões da produção entendendo que os computadores podem fazer essas coisas. Só precisamos entender que de algum lugar, precisamos distribuir riqueza e distribuir
inteligência e distribuir melhor a educação. Espero que este seja um começo em que você fique animado para aprender mais sobre isso e você não tenha mais medo do aprendizado de máquina e da Inteligência Artificial. Há algumas coisas como posso ajudar os humanos. A primeira coisa é a automação, essa é a grande agora. Há prevenção de erros, que um computador pode nos dizer que isso é realmente errado, por que você está fazendo isso de novo? Há redução de dados e abafando o ruído quando você tem um monte de dados e você só quer encontrar uma coisa que é diferente entre todos os outros. Computadores são ótimos em encontrar essas diferenças. Há previsão baseada em dados históricos. Quantas vezes você usou seu computador e o que ele pode fazer melhor para você? Um ótimo exemplo para isso seria o teclado que você está usando em seu smartphone. Ele percebeu o que você escreveu e dar-lhe palavras automatizadas já digitando as duas primeiras letras porque ele sabe que estas são as palavras que você está usando o tempo todo. Isso é arar através de enormes quantidades de dados, como se a informação é muita informação de sensores, dados de
imagem, uma gravação de áudio é muita informação e nós, como humanos, não pensamos nisso como isso. Mas encontrar emoção em um reconhecimento de áudio, por exemplo, é uma tarefa muito difícil. Assim, os computadores são bons em explorar essa quantidade de dados e dar apenas os resultados de volta, em vez de você ter que olhar para todos esses dados você mesmo. A última parte é, claro, criar mais interfaces humanas. Permitindo-nos falar com um computador como faríamos com uma pessoa humana e obter informações adequadas para consumo humano e não apenas uma lista de impostos ou uma lista de resultados. Nesta primeira seção, quero que você tire essa Inteligência Artificial não é mágica. Não há nada acontecendo que os computadores possam pensar, computadores podem ser criativos e preencher lacunas que eles não conhecem. Você é responsável pelo que você diz à máquina e você é responsável pelo que você ganha com ela. Máquinas Inteligentes só podem ser tão inteligentes quanto as perguntas que lhes fazemos. Você pode se beneficiar de um monte de informações
registradas e padrões sendo encontrados por outras pessoas já, mas você tem que se certificar de que o pensamento do
computador é apenas uma ilusão de pensamento. Não é outro ser humano e não substituirá os seres humanos. Nós temos a chance de ser tão criativos como sempre quisemos ser se nós apenas entendemos para obter a tarefa repetitiva chato computadores para fazer.
3. Como ensinamos máquinas: Bem-vindo a esta seção do curso onde vamos olhar para
a magia que acontece como os computadores sabem aparecer pensando. De onde vem a informação, o que está acontecendo lá. Eu não vou falar sobre todos os detalhes, é claro, mas espero que você entenda que há algo lá que não é tão fascinante e que não é tão óbvio na primeira corrida quando você pensa sobre isso. Então, quando se trata de filmes e quando se trata de interfaces e estrelas de cinema, sempre este momento mágico onde a informação sai do nada. O melhor exemplo é o trope de qualquer filme quando você tem o zoom e o aprimoramento de qualquer episódio como CSI onde é como, oh apenas esta pequena filmagem granulada e como, melhorar isso, melhorar isso, e há sempre grande informações naqueles onde você encontra como, você zoom em um parafuso de uma placa de licença e então você vê o reflexo de um assassino no fundo lá. Infelizmente, o mundo não funciona assim. Se as informações estiverem lá e você tiver dados corrompidos ou dados de
má qualidade, não há muito que você possa fazer para realmente encontrar essas informações. No entanto, ao longo dos últimos anos, mais e mais coisas surgiram que se pareciam assim. Há um grande papel de inteligência artificial que mostra como você pode ficar no rosto, por exemplo, de uma matriz de 8 por 8 pixels e apenas continuar refinando até descobrir qual provavelmente era aquele rosto. Câmeras que reconhecem pessoas em estações de trem e coisas
se tornaram melhores e melhores ao transformar imagens granuladas em outra coisa. Não estamos lá no mundo CSI onde podemos fazer isso, mas o que está acontecendo aqui é que temos tantos dados ao longo dos anos sendo registrados,
analisados, e com aprendizado de máquina e tato de
logaritmos de aprendizado profundo que agora podemos comparar melhor do que isso. Um dos grandes exemplos que eu quero mostrar é uma coisa que Google lançou há alguns meses chamado AutoDraw, e o que ele pode fazer e você pode ver aqui é que você pode começar a desenhar algo, e se você é artisticamente desafiado como eu sou ele faz coisas mágicas para você. Por isso, neste caso, estou a tentar pintar um par de óculos. Então, eu dificilmente estou recebendo uma especificação rodada aqui e dificilmente faço a linha certa fechando. Mas se você ver lá em cima, agora
eu posso clicar sobre isso e eu tenho um par perfeito de óculos e eu posso até ter formas diferentes. Então, ele reconheceu a partir dos contornos que eu desenhei, que provavelmente eu quero fazer alguns óculos e não uma bicicleta onde eu teria uma alça em cima dele que tipo de poderia olhar o mesmo ea maioria das vezes quando eu tentou pintar os óculos, parece uma bicicleta então eu estou muito feliz que essa coisa existe. O interessante é que a informação que
temos sobre essas coisas não vem magicamente. Claro, um computador pode encontrar o arredondamento entre duas linhas e faz isso mais reta, como quando você usa seus contornos no Illustrator ou o que quer que você use, ele faz essas coisas para você. Mas descobrir que eu queria fazer um par de óculos é baseado em algo muito mais interessante. Alguns anos atrás, Google lançou um jogo chamado Quick,
Draw, onde ele pediu às pessoas para desenhar algo e dizer o que é. Então, diz como desenhar uma linha e menos de 20 segundos. Então, agora você desenha uma linha e ele diz. Oh, eu sei, é linha. Então, o computador realmente diz que é uma linha. Desenhe um trem em menos de 20 segundos e é aqui que eu estou fora porque isso não vai acontecer para mim. Mas milhões de pessoas usam esse jogo e
se divertiram jogando esse jogo e competindo com seus amigos e este é o conjunto de dados que foi para começar o jogo de desenho automático mais tarde em uma ferramenta Autodraw mais tarde. Então, toda vez que você carrega uma foto para o Facebook, toda vez que você carrega uma foto para o Twitter, toda vez que você desiste de um comentário sobre algo, a máquina começa a reconhecer isso e começa a filtrar e quando 10 pessoas dizem as mesmas coisas, então o mais provável é que está parecendo um trem. Nós carregamos informações por anos e anos de graça porque
queríamos usar os sistemas de graça e, em segundo plano, as máquinas gravam isso há muito tempo. Então, a última coisa em que essa informação sai, que é muito interessante,
é um sistema do Google chamado reCAPTCHA. Ultimamente, reCAPTCHAS são como, se aqui estão cinco fotos ou 20 fotos de algo, diga-nos onde algo está. Isto costumava ser texto distorcido e foi
quando o Google tinha o Google Livros e algumas das digitalizações não funcionavam. Então, ele usou esses sistemas para seres humanos para limpar esses conjuntos de dados gratuitamente, tendo mais segurança em seus formulários comuns. Hoje em dia, você vai ver muito mais que são nomes de ruas ou sinais de rua, e, claro, sinais de
rua e carros, o
que, claro, significa ou aponta para que este conjunto de dados será usado para carros autônomos para aprender mais sobre a sua envolvente. Então, como humanos, estamos sendo monitorados e estamos sendo gravados o tempo todo, mas não necessariamente tem que ser uma coisa maligna ou insidiosa. É bastante interessante quando se torna um jogo onde as pessoas desenham algo e, em seguida, mais tarde, outras pessoas como eu que não
podem desenhar podem se beneficiar dele ou pode ser que você quer
ter certeza de que nenhum bot está tentando fazer login no seu e um ser humano, e esse humano ensina um computador mais tarde a reconhecer sinais de rua em torno dele, que o carro não esbarrar em outros carros ou pedestres. É assim que os computadores sabem como preencher lacunas, é
assim que os computadores sabem. É tudo um jogo de dados e de dados massivos e isso é apenas a computação em nuvem, é aí
que as máquinas sob demanda entram. Você pode fazer muitas dessas coisas em seu próprio computador, mas na maioria das vezes faz mais sentido alugar um computador por alguns segundos que é muito mais poderoso do que o seu para fazer esse tipo de mineração de dados, e a mineração de dados é para Todo mundo lá fora. Está acontecendo. Então, vamos nos certificar de que fazemos isso para preencher lacunas na informação. Há uma grande oportunidade para fazer upload de uma imagem ruim e encontrar 50 que são quase iguais e fazer os contornos para você. Estamos em um mundo onde o zoom e o realce não está longe porque temos tantos dados para comparar.
4. Aprendizagem de máquina para ajudar os humanos: Então, agora, vamos dar uma olhada em alguns exemplos de como aprendizado
de máquina ajuda a construir interfaces muito humanas. Então, o que eu quero que você entenda é que o aprendizado de máquina pode ajudar os humanos a se tornarem muito mais fáceis ou se tornarem muito melhores em entender o que o mundo ao seu redor é, comparando o que temos com muitas e
muitas outras informações e tornando-as É melhor assim. Então, um dos exemplos que você provavelmente tem visto por um tempo é o Google Translate. Muitas pessoas usaram o Chrome como seu navegador principal porque ele foi o primeiro navegador a traduzir
automaticamente um site para você quando ele não estava no idioma que você tinha. A aplicação Google Translate no seu telemóvel vai ainda mais longe através da análise de imagens. Então, você pode ir a um sinal de rua em cirílico, por exemplo, e segurar seu telefone, e ele dá para você em inglês, traduzindo, qual é o nome da rua, no caso de você só ter direções que estavam em inglês. No passado, os serviços de tradução apenas traduzidos do inglês para o alemão, por exemplo, e faziam-no palavra por palavra. Mas quanto mais pessoas usam esses sistemas, mais entendemos que uma palavra
a seguir outra faz uma frase muito mais natural, e dessa forma as traduções também se tornaram melhores. Google analisou livros, Microsoft analisou livros e analisou livros também para entender o que expressões idiomáticas podem ser? Que metáforas podem ser? Como os humanos falam uns com os outros? Então, ter uma tradução hoje em dia de um serviço para outro está quase lá que você pode lê-la e entender, o que está acontecendo? Então, a tradução foi provavelmente a primeira coisa em que o aprendizado de máquina foi usado na web, nós nem percebemos, mas era tão útil ter que se tornou uma coisa muito normal. Hoje em dia, as pessoas nem sabem quanta energia e esforço entraram em que seus tweets podem estar em um idioma e você entende, o que está acontecendo lá. Outro exemplo interessante, eu sempre gosto é o Google Maps. Mas há coisas muito inteligentes lá,
você poderia ir, por exemplo, apenas para pesquisar no Google Maps e dizer como, “Quão longe eu estou da capital da França? Ele vai analisar isso e analisar que a capital da França é na verdade Paris, França, e então ele me mostra a distância daqui para Nova York, e também me mostra que há um vôo de oito horas, e na verdade me oferece quais vôos para reservar. Então, no passado algo assim, eu
teria que digitar em Paris, França. Então eu tenho que dizer, digite Nova York também. Então eu tenho que ir a outro site e dizer: “Que voos podem estar disponíveis?” Analisando os padrões de como usamos esses sistemas, cada clique, cada movimento do mouse, cada interação, as máquinas tornaram-se muito mais inteligentes e nos dando as coisas que realmente queríamos. Eu nunca teria tido a idéia de digitar o quão longe eu estou da capital da França. Mas uma criança aprendendo sobre geografia, por exemplo, faria isso. Eles não o fariam necessariamente como eu fiz agora em um navegador, eles iriam para sua casa no Google, ou para sua Alexa, ou qualquer outra maquinaria que eles estão como quão longe é a capital da França e a máquina diria, “ Paris é a capital da França. É tão, em tantos quilômetros de distância. Aqui estão os voos, caso queiras ir.” Este é o lugar onde eu quero que o computador vá. Quero que aprendamos que,
na verdade, como a próxima resposta, em vez da única resposta que viemos dela. Ainda estamos em um espaço ou pessoas como eu, que usam computadores por tanto tempo, fomos condicionados a pensar nos computadores como interfaces
idiotas que precisam ter a pergunta certa. Mas esta é uma pergunta perfeitamente humana para fazer à máquina, e você recupera algo assim. Se você quiser ver algo incrível, você poderia passar um pouco de tempo olhando para ver IA. Ver AI é um aplicativo no iOS da Microsoft que eu construí com um amigo meu, que é cego. Ele é um usuário cego, e ele é... bem, ele é um humano cego, e ele também é um programa cego que é fascinante de se ver. Mas ele queria realmente não ter que perguntar às pessoas o que está acontecendo nos menus. Então, ele queria ter um aplicativo onde você pudesse tirar uma foto do menu em um restaurante e dizer: “Mostre-me as manchetes ou leia as manchetes.” Ou ele queria ter um óculos especiais no caminho que você tira uma foto, e ele diz a ele: “Você está olhando para um cão, você está olhando para o gato, você está olhando para a Torre Eiffel, você está olhando para o topo da Tower Bridge.” Todos esses tipos de coisas que sabemos porque as
comparamos com milhões de fotos que as pessoas
já tiraram e as marcaram como Tower Bridge ou é a forma de um cão, então isso é provavelmente um cão. Então, esse tipo de ferramenta permite que ele se torne muito mais independente e não precise de mais ninguém ao seu redor. Então, você pode tentar todos esses vídeos lá e você pode baixar e jogar com ele sozinho. Isso é baseado nessas APIs que vamos
cobrir mais tarde, bem como para você jogar. Espero que esses exemplos tenham inspirado você a construir interfaces humanas que realmente tornam as coisas mais fáceis para os humanos sem que eles tenham que fazer nada extra, sem ter que entender como eles funcionam, mas apenas como uma grande coisa em segundo plano, Você não tem nenhum texto alternativo nenhuma imagem, eu posso criar isso para você. Não é um problema em tudo. Máquinas estão lá para nos ajudar quando humanos quando falhamos em fazer as coisas. Então, essas interfaces mostram que podemos pensar antes do que seus usuários finais querem fazer em seguida, em vez de dizer-lhes para fazê-lo passo a passo. Quanto mais fácil for usar uma interface, mais pessoas
a usarão. Quanto mais usuários felizes você tiver, mais renda você terá, e mais bem sucedidos serão seus produtos. Nós temos todas essas coisas aqui e isso mostrou como isso pode ser feito sem estar no seu caminho, mas só lá quando você precisa. É assim que eu quero que você pense sobre Inteligência Artificial no aprendizado de máquina.
5. Ferramentas para aprendizagem de máquina: Olá. Nesta parte da série de vídeos, eu queria apresentar aos jogadores que oferecem APIs
para você começar com aprendizado de máquina e inteligência artificial. Os grandes jogadores, que são muitos jogadores naquele mercado agora. É uma grande coisa, muito investimento está acontecendo, mas as que vêm fazendo isso há anos e anos são as maiores empresas de TI e todas elas têm ofertas diferentes com as quais você pode jogar. Por exemplo, este aqui é o Google Cloud API, você pode ver aqui você pode experimentá-lo gratuitamente e há guias e recursos, e todas essas coisas são mais ou menos iguais. Se você se inscrever para eles, você experimentá-los, há muita documentação boa sobre como começar, e alguns deles já tentaram antes de comprar interfaces onde você pode jogar com as informações e você vê que tipo de dados você espera para trazer, e que tipo de dados você espera sair. Então, este é o Google Cloud, que é um jogador
muito, muito grande neste caso disponível em todo o mundo, e em vários idiomas, e uma das grandes empresas que estão jogando com isso. Haverá no Google [inaudível], sempre
há muitas conversas sobre o Google Cloud, como usá-las também. A Amazon é, é claro, o próximo grande aprendizado de máquina com a AWS. A AWS é uma plataforma de nuvem da
Amazon, Amazon Web Services que permite que você faça todo tipo de coisas para aprendizado de máquina e inteligência artificial lá também. Muitas das coisas na AWS também estão conectadas com outros serviços na Amazon. Então, se, por exemplo, você quiser interagir com um Alexa e usar o benefício de ter esse processamento de linguagem natural lá, você pode escrever uma habilidade para Alexa em vez de escrever seu próprio serviço e usar os serviços sob o capô que Potencia Alexa. Então, você pode usar esse também. IBM Watson é outro dos grandes players no aprendizado
de máquina e tem sido muito bom em seu marketing. Lembre-se, por exemplo, que ele jogou em Jeopardy e foi vencedor de todas essas coisas lá anos e anos atrás. IBM Watson, a plataforma em si é muito sobre cuidados de saúde e sobre a previsão de que tipo de doenças as pessoas poderiam ter, mas é claro, eles têm um conjunto normal de IA e conjunto de aprendizado de
máquina que você pode usar em suas plataformas também. É uma oferta B2B na maioria dos casos, mas há a infraestrutura Bluemix onde você pode configurar servidores menores, ou usá-lo localmente também, e chamar uma API e obter os dados de volta. Os Serviços Cognitivos da Microsoft são o que eu falaria nos próximos vídeos, principalmente porque eu sei sobre isso e trabalho para eles, então esse é o benefício. Eu tenho usado os outros também, eu não estou dizendo que você precisa usar um ou outro. Certifique-se de ler a documentação, certifique-se de ler as demonstrações e ver qual delas faz mais sentido para você fazer. Por exemplo, se você quiser ter um server farm na Alemanha, provavelmente a oferta da Microsoft é melhor do que ter uma espécie de farm somente na Califórnia ou Nova York. Então, pense sobre onde você pode gastar seu dinheiro o melhor e também não gastar tanto dinheiro quanto você precisa porque ele pode ficar muito caro muito rapidamente se você tem um monte de conjuntos de dados e eles têm que ter computação muito complexa. Então, certifique-se de que você tem dinheiro suficiente ao lado e ainda seria muito mais barato do que fazer tudo em sua própria máquina,
ou em seu próprio computador, porque isso significa que você tem que mudar essa coisa o tempo todo e a cada metade, você realmente tem que atualizá-lo para uma nova necessidade computacional que temos. Basta certificar-se quando você se inscrever para um deles que você também será capaz de pagar depois de um tempo, e também que eles oferecem para o futuro. Então, jogar com os grandes jogadores pode ser uma aposta mais segura do que jogar com uma inicialização legal que oferece tudo de graça agora, mas desaparecerá em alguns meses, e seus dados desaparecerão com eles. Então, o aprendizado de máquina do Google Cloud, o aprendizado de máquina na AWS para Amazon, o
IBM Watson com a infraestrutura Bluemix e os Serviços Cognitivos da Microsoft são as coisas que eu tenho usado e
vou falar sobre Serviços Cognitivos em detalhes para mostrar o que você pode fazer com eles e como eles seriam benéficos para suas interfaces nos próximos vídeos.
6. Usos visuais: Bem-vinda de volta. Neste vídeo, vou mostrar a vocês como fazemos com que os computadores vejam as coisas ou como parece que podemos fazer com que os computadores vejam as coisas, porque tudo o que fazemos é comparar informações
visuais e ver o que os computadores podem encontrar nelas. Visuais tornaram-se uma coisa maior. As pessoas não escrevem mais. Não é divertido escrever no seu telefone. O reconhecimento de voz também está funcionando, mas você não pode simplesmente sair em público e falar com o seu telefone porque parece estranho. Então, muitas pessoas apenas se comunicam com imagens. Tiramos selfies, tiramos fotos de coisas, enviamos emojis um ao outro. Muitas vezes, estamos esquecendo este caso, que nem todos podem vê-los, que alguém pode ser deficiente visual, ou pode estar em uma conexão terrível. Neste momento, estou aqui com o meu cartão SIM do Reino Unido e tudo está na conexão de borda. Então, as pessoas me enviaram apenas fotos em um bate-papo. Eu não sei o que está acontecendo. Então, eu quero que o computador me diga o que há
pelo menos nessa imagem antes de eu dar meus dados
doces e pagar muito dinheiro para baixar essa imagem que eu posso realmente não querer. Então, ao longo dos anos, temos coletado imagens na internet de onde quer que seja. São trilhões de imagens no Bing e no Google, e em outros resultados de pesquisa ou motores de busca. Tudo foi indexado. Tudo foi categorizado. Tudo foi comparado com os outros. Dessa forma, podemos realmente dar uma boa suposição do que uma certa imagem vai ser. Mostrei a vocês coisas anteriores como IA de visão, APIs e demonstrações que permitem que pessoas cegas vejam o que está acontecendo ao seu redor. Agora, vamos entrar em detalhes sobre essas APIs, o que elas fazem e o que você pode fazer com elas, como você pode capacitar seus usuários finais a fazer algo útil com as informações que eles têm. Eu vou estar cobrindo principalmente os comentários de serviços da Microsoft porque isso é algo sobre o qual eu posso responder suas perguntas mais tarde também, e eu tenho muitos colegas trabalhando nesses departamentos. Mesmo localmente aqui, no caso de você não querer esperar por suas respostas por um longo tempo, porque eu estou em diferentes fusos horários o tempo todo. O que temos aqui são as APIs de serviços cognitivos da Microsoft. Esta é uma oferta de API que permite enviar dados para um endpoint e recuperá-los. Então, a fim de usar essas coisas, você pode usar as demos aqui no site, apenas para experimentá-las. Mas, quando você quiser experimentá-los com seus próprios sistemas mais tarde, você pode fazer com que um desenvolvedor escreva um script, um script automatizado para colocar, por exemplo, imagens em uma pasta e obter as informações de volta, ou você pode enviar um para um URL, um endpoint, assim como você diria google.com ou microsoft.com. Você acabou de dizer o ponto final da API, aqui está a minha imagem, e então você obtém um conjunto de dados com as informações que você queria ter. Quando começamos isso, tentamos torná-lo um pouco mais viral, torná-lo interessante para as pessoas verem o que essas coisas podem fazer. Então, uma das grandes demos foi a demo How-Old que se tornou uma sensação viral e irritou muitas pessoas também, incluindo eu. Porque eu aprendi que assim que você tem uma barba, ele reconhece que você é um pouco mais velho, e eu sou velho, mas não tão velho na maioria dos casos. Mas, você pode ir para how-old.net, por exemplo, e clicar nesta foto aqui, e dizer usá-lo ou fazer upload de sua própria foto. Ele reconhece o sexo e a idade, ou a idade percebida, ou o sexo percebido da pessoa nessa imagem. Mais uma vez, se você não gostou, você pode reclamar sobre isso com este link e ver o que está acontecendo. Também escrevemos uma longa postagem no blog explicando como funciona o how-old.net, quais APIs ele usa e o código está disponível no GitHub para experimentá-lo você mesmo. Então, se você clicar em para ver o código-fonte aqui, você pode realmente obter a informação e você pode obter o código para jogar com ele mesmo. Então, usando as APIs e serviços, eu vou falar com vocês sobre, você pode construir uma interface como essa muito simplesmente se você sabe como construir uma interface web e você sabe como enviar dados para um endpoint e obter dados de volta usando o que você quiser usar, reagir, angular, todos os sistemas lá fora. Você pode criar algo assim para seus usuários finais de uma maneira agradável. O que realmente importa é, quando você pensa sobre isso, é o reconhecimento facial porque é onde o mais futuro de um monte de coisas está acontecendo. Entrar em seu site olhando para uma câmera seria uma coisa legal de ter, e estranhamente, não é tão difícil de fazer. Reconhecer que uma pessoa está em uma foto e também em outra, é outra coisa interessante para oferecer aos seus usuários finais. Então, essas são APIs que consideramos, até certo ponto, perigosas porque você quer ter certeza de que está fazendo tudo certo. Mas, quando eles trabalham, então eles são realmente bonitos. Porque eu amo, por exemplo, ir ao Facebook e descobrir quando as pessoas tiraram fotos minhas em conferências que eu não sei. Achei algumas fotos interessantes dessa forma. Então, você quer ter certeza quando você usa essas APIs que seus usuários finais estão cientes, é
isso que vai acontecer, e você também quer ter certeza de que você explica às pessoas que algumas dessas coisas são um trabalho de adivinhação. Então, quando você diz, por exemplo, a demonstração como antiga deu às pessoas imagens
mais antigas ou mais jovens e estavam felizes ou estavam infelizes com isso, imagens
mais antigas ou mais jovens e estavam felizes ou estavam infelizes com isso,
mas você só quer dar um palpite, e dizer que isso é o que é. Isso é o que o aprendizado de máquina se resume a muitas vezes. O aprendizado de máquina oferece resultados educados que são trabalho de adivinhação. Eles não estão 100 por cento lá. Computadores cometem erros. Eles não cometem erros, mas nós cometemos erros fazendo as perguntas erradas ou dando-lhes os dados errados. Então, você quer ter certeza se ele se torna pessoal e tão pessoal como um reconhecimento facial, você quer ter uma interface que faça as pessoas se sentirem bem-vindas e não assustadas. Dito isto, se você quiser usar a API facial, há várias coisas que ele pode fazer. Pode fazer uma verificação facial. Então, ele encontra uma pessoa em uma foto, e então encontra a mesma pessoa na outra foto, e diz para você que os dois rostos pertencem
à mesma pessoa e um nível de confiança de 0,73, neste caso. Então, neste caso, se você pegar duas pessoas diferentes, ele vai dizer que são duas pessoas diferentes nessas duas imagens e não é a mesma pessoa. Então, isso pode ser um primeiro passo de fazer um sistema de login que poderia ser um primeiro passo para garantir que as pessoas são o certo. Claro, você não quer necessariamente o que o Facebook tem feito no início e eles tiveram que desfazer também, marcar
automaticamente todos porque as pessoas podem não querer ser reconhecidas em alguma foto dependendo de onde estavam. Imagine como Clark Kent estar nesta estação de trem e as pessoas dizem que é o Super-Homem, isso não é algo que você queira ter automaticamente. Ele devia poder dizer que não está. Uma vez que você tenha a detecção de rostos, há uma quantidade incrível de informações que colocamos nesta API, em parte também porque com as demonstrações legais que construímos no passado. Então, todas as fotos reconhecidas, como a senhora aqui, têm uma identificação facial. Ele tem o retângulo, que é como onde está o rosto nesta imagem e qual é a outra parte da imagem? Tem atributos, como se fosse sobre o cabelo, se é uma pessoa careca, se o cabelo é invisível por alguém usando um chapéu,
por exemplo, a cor do cabelo com nível de conferência diferente. Então, neste caso, é um marrom com um,
uma loira com 0,69, e assim por diante. Eu não vou ler isso agora porque há muitas informações, e a API vai obter mais informações ao longo do tempo. Mas, você já pode ver que há muitas informações lá, e há muitas coisas legais que você pode fazer com o aplicativo. Então, eu quero que você pense sobre o que você poderia fazer se uma foto enviada tem todas essas coisas. A API de emoções também é muito interessante. Ele reconhece os rostos das pessoas e suas emoções. Então, as emoções são raiva, desprezo, nojo, medo, felicidade, neutro, tristeza e surpresa. Dessa forma, você pode realmente descobrir quando algo deu errado com sua imagem ou você pode categorizá-los automaticamente em diferentes bancos de dados. Você também pode, quando você faz isso em uma versão ao vivo, você pode ver, por exemplo, seus testes de usuário quando você costumava dizer algo e eles significam algo diferente, pode
haver discrepância entre os dois. Então, esta é uma ótima maneira de fazer o uso automatizado de testes e obter um ponto de informação extra se as pessoas estiverem realmente empolgadas em ver o que você mostra a elas em seu site, ou se eles apenas disseram a você porque eles realmente quer fazer apaziguar a entrevista, ou assim dizer. Então, isso é reconhecimento facial e reconhecimento de emoções. Então, essas são duas coisas que são muito, muito humanas em sua interface. Então, use-os com moderação, mas você pode usá-los para coisas bastante incríveis se você quiser jogar com eles.
7. Falando a linguagem dos humanos: Nesta parte da série de vídeos, vamos falar sobre linguagem. Eu não vou entrar em muitos detalhes. Vou mostrar-lhe apenas algumas APIs para usar neste caso porque é um tópico muito, muito profundo e um tópico muito, muito antigo. Há muitas pessoas inteligentes lá fora fazendo isso, e eu não quero insultá-las com metade do conhecimento. Eu só sei o que quero, e sei o que você pode usar nisso. Então, eu quero ter certeza de que eu mostrarei
a vocês algumas das oportunidades que temos neste caso. Quando começamos a usar máquinas que realmente são entrada de áudio, quando as pessoas começaram a falar com seus computadores, ou as pessoas começaram a digitar frases inteiras e temos que tornar as máquinas mais inteligentes. Tivemos que mergulhar na linguagem humana real, na linguística, na fonética, nas metáforas, e nos tornamos muito mais humanos novamente e precisávamos nos tornar muito mais humanos do que antes. Então, dessa forma, muitas pessoas começaram a trabalhar em TI que não deveriam estar em TI de uma forma religiosa como o que achamos que o programa só pode estar em TI. Google, por exemplo, contrata poetas, ou contrata cantores, ou contrata tradutores e linguistas para fazer os computadores entendam a intrínseca da linguagem, porque a linguagem é uma das coisas mais complexas que temos, e computadores não têm nada que possam realmente fazer com isso. Com uma imagem pelo menos você pode analisar os pixels, você pode encontrar formas, você pode encontrar os contornos. Com o texto, você tem que adivinhar e computadores são ruins em adivinhar, mas os humanos são bons em analisar as coisas. É por isso que temos centenas de anos de conhecimento em linguística que agora estamos tentando ajudar as APIs a entender e ajudá-lo com esse tipo de coisas que você deseja fazer. O que você quer construir com essas APIs ou interfaces que permitem que as pessoas cometam erros porque as pessoas cometem erros, apenas desleixado. Quando digitamos coisas em um celular, ou dizemos algo em um microfone e
não é tão compreensível quanto queremos, erros acontecem. Então, as coisas de análise de linguagem devem estar ficando muito melhores dessa maneira. Tradução do Bing e tradução do Google, muitos serviços de tradução tornaram-se muito melhores quando esta abordagem linguística chegou a ele. Traduzimos palavra por palavra, talvez frase por frase, mas ainda não faz muito sentido. Eram coisas que realmente eram compreensíveis, mas eles não estavam dando o significado que queríamos que eles dessem. Então, agora nós realmente comparar por parágrafo bem e pelo último cabeçalho que vem antes dele e assim por diante e assim por diante. Assim, dessa forma, obtemos mais contexto e a tradução automatizada torna-se muito melhor dessa forma também. Então, se você quiser jogar com algumas dessas APIs, aqui estão algumas das coisas que estão disponíveis para você. Então, a primeira coisa é uma API de análise de texto. Então, o que você faz com isso, você extrai informações de seu texto. Então, você copia um texto e ele lhe dará novamente um texto de análise, e ele lhe dá um objeto JSON com os dados em si, então você envia um texto para ele. Por exemplo, aqui eu tenho uma experiência maravilhosa, os quartos foram maravilhosos, ea equipe foi útil, e descobriu que o idioma é Inglês com um nível de confiança de 100 por cento. As frases-chave são, que há uma experiência maravilhosa, que a equipe e os quartos estavam lá, e esta é uma informação importante se você pensar sobre isso para um comentário. Você não quer ler milhares de comentários. Você só quer saber qual comentário falou sobre os quartos, qual comentário falou sobre as pessoas, que comentário falou sobre a comida, e isso é o que esta API é sobre. Se você tomar o exemplo negativo aqui, Eu tive um momento terrível no hotel, a equipe foi rude ea comida foi horrível. Ele descobre a comida, tempo
terrível, equipe do hotel, sentimento é horrível, então ele descobre que a comida ea equipe foram horríveis. Então, essas são as duas coisas que você deseja que sua interface se preocupe mais tarde. Todas essas informações estão novamente disponíveis como um objeto JSON. Este é o lugar onde os dados vêm, então você não receberá as informações como elas são exibidas nesta demonstração aqui também. Ele também cria espanhol ou espanhol negativo. Então, em essência, acho que são 12 idiomas diferentes. Google também tem um pouco de linguagem, tantas, muitas ofertas estão lá em diferentes APIs. A próxima coisa a falar é a compreensão da linguagem, e é aqui que fica muito, muito complicado e muito interessante. Isso seria uma sessão para uma série de vídeo antiga aqui e há alguns lá fora para olhar para ele. Há uma compreensão de linguagem de código de serviço,
serviço LUIS que lhe diz ou ensina a dizer o que você quer aprender com um texto. Então, em vez de ter um texto que automaticamente diz
que isso é sobre os quartos e isso é sobre a equipe e sobre a comida, isso é sobre a construção de sistemas que levam em comandos de linguagem, e então descobrir onde os comandos são. Então, neste caso, a demonstração que você veria nesta página é um controle remoto de luz, onde você pode digitar coisas e ele entenderá. Então, se eu disser agora ligar as luzes e
enviá-lo, ele iria ligar a luz na demonstração, e ele iria dar-lhe os resultados da consulta para isso. Mude todas as luzes para verde, desligou a luz da mesa, e assim por diante e assim por diante. Então, este é um exemplo de como você pode fazer algo como um controle Alexa ou controle
do Google Home em suas próprias interfaces
usando esse tipo de texto como uma entrada de texto neste caso. Assim, por exemplo, para um robô em um cliente de bate-papo ou auto para uma caixa de pesquisa. Então, este permite que você treine seu próprio modelo e certifique-se de que seu próprio esperando certos comandos em vez de apenas analisar texto aleatoriamente. Então, esta é uma interface muito interessante, e para mim, é na verdade o futuro da interação. Pensar nesse reconhecimento de voz ou reconhecimento de
texto permite que você controle as coisas
em vez de clicar em botões e clicar em ter o botão ou clicar no link correto pode ser muito mais fácil para os usuários finais fazerem. Então, isso é algo para mergulhar profundamente se você quiser estar interessado nisso, e é uma ótima oportunidade para a pessoa não-técnica e a pessoa técnica trabalharem juntos para construir uma interface legal para seus controles ou para a necessidade que você tem em sua empresa. Agora, você aprendeu como seus serviços podem entender o significado no texto e como você pode definir controles para as pessoas dizerem. Controlar frases, ligar as luzes, desligar as luzes, e assim por diante e assim por diante. Claro, como um texto, isso é meio interessante, mas onde você realmente quer ter isso é um reconhecimento de fala, e essas são as APIs que vamos abordar a seguir, transformando texto em fala e fala em texto .
8. Áudio e vídeo: Neste vídeo da série, vamos falar sobre provavelmente a coisa de ficção científica mais legal do céu que você pode fazer com IA e aprendizado de máquina e que é reconhecimento de fala. Em todos os filmes de ficção científica, cedo ou mais tarde tínhamos algo em que alguém dizia: “Ok, computador me permite fazer isso, me
diga essas coisas.” A parte interessante aqui é que estamos chegando muito perto do problema onde algo se torna humano demais para não ser assustador ou não humano o suficiente para não ser irritante. Então, fazer uma interface que reconhece a fala e uma interface que devolve a fala que não soa estranho, é uma coisa que temos uma tarefa difícil fazer agora. Todas as empresas que têm seu tipo de assistência
pessoal estão fazendo uma grande pesquisa agora, qual seria a linguagem certa e qual seria a voz certa para usar para esses sistemas? Então, há um monte de coisas que você pode fazer errado, mas há um monte de coisas que você pode fazer certo porque se um reconhecimento de voz funciona direito, é uma coisa maravilhosa, e muitas vezes as pessoas não entendem mais Você tem que usá-los, melhor eles ficam. Uma API de reconhecimento de fala ou uma interface de reconhecimento de fala é uma coisa maravilhosa para permitir que as pessoas comunicação mãos livres, você
possa fazê-lo no carro ou você pode fazê-lo em casa. Mas é um pouco limitado a algo que você pode fazer em passos curtos. Você quer ter certeza de que as pessoas não têm que dizer como armazenar histórias para sua interface, você quer ter certeza de que o reconhecimento acontece o mais cedo possível. Então, quando se trata de APIs para jogar agora, eu vou mostrar alguns, e espero, as demos vão funcionar para que eu possa mostrar como isso é feito. O que você também precisa entender para torná-los perfeitos no futuro, pode ser uma coisa certa para oferecer aos usuários finais gratuitos para treiná-los para sua voz também. Isso poderia ser feito com algumas frases agora. Isso não é como ler páginas e páginas para gostar, Dragon Natural Speaking como costumava ser no passado, mas agora está realmente fazendo mais sentido. Se pensares bem, vamos voltar. Nos anos 50, as pessoas têm ditado cartas para suas secretárias e eles têm anotado em abreviação e, em seguida, digitando. Agora, o computador é basicamente nosso secretário que pode fazer todas essas coisas, mas nós temos que falar com ele algumas vezes
para realmente ter certeza de que ele entende nosso sotaque, e você pode limpar sotaques muito bem com algumas dessas APIs personalizadas que estamos oferecendo a você. Então, a primeira coisa que eu vou falar com vocês sobre ser API de fala, que é reconhecimento de fala. Então, podemos tentar isso aqui agora mesmo. Então, eu apertei o botão de começar a gravar e ele diz, “Inglês EUA. Eu também poderia fazer isso com alemão, então eu permiti o acesso ao meu microfone e você pode tocar com isso no futuro também. Ele diz, sul o futuro também, e sul o futuro também e assim por diante e assim por diante. Você pode ver que as palavras estão acontecendo na tela enquanto eu estou falando com ele, e ele está fazendo um bom trabalho. Isto não é treinado. Isso é apenas fora da caixa o que ele faria. Então, se você quer um reconhecimento ainda melhor, você tem que começar a usá-lo. Então, eu paro de gravar agora eu mudo para alemão, e vamos ver se isso prova isso também. Eu permito, [inaudível] Como você pode ver, ele reconheceu que em alemão, você provavelmente não pode lê-lo, mas eu poderia usar a API de tradução agora mesmo para transformá-lo em Inglês se eu quisesse e, em seguida, usar o ao contrário, a API de texto em fala para falar com outra pessoa. Há APIs abertas e conjuntos de dados abertos que você também pode usar para fazer esse tipo de reconhecimento usando um sistema como Microsoft, Google ou Amazon, nós já treinamos em diferentes idiomas. Quando eu lhe disse anteriormente que este é agora um texto em alemão que você não entenderia, há também uma API interessante que é uma API de fala tradutor. Então, neste caso você fala nele em um idioma e ele automaticamente converte para outro idioma e, em seguida, gera uma voz sintetizada que lê na outra língua. Usamos isso na Suécia com a polícia para permitir que refugiados da Síria falem com policiais com sucesso e também faz parte do Skype agora. Então, essas são as barreiras que eu amo que reconhecimento pode fazer com máquinas quando a usamos da maneira certa. Às vezes reconhecer quem está falando é muito mais importante do que realmente o que está sendo dito. Você deseja usar, por exemplo, um sistema de registro que usa o reconhecimento de voz como um segundo fator em uma autenticação de dois fatores juntamente com um token ou com uma senha. Isto já existe há muito tempo. Muitos filmes de Hollywood tinham reconhecimento de
fala nos anos 40 e filmes de James Bond nos anos 60, mas agora podemos fazer isso dentro do navegador agora. Eu não posso fazer isso aqui agora mesmo com meu microfone tem um problema, mas você pode treiná-lo sozinho passando por essas frases diferentes. Pede-lhe três vezes para dizer a mesma frase e, em seguida, reconhece a diferença do seu sotaque. Os problemas da pronúncia, como você breve, onde você faz pausas, e estes são todos pequenos indicadores para reconhecer qual falante está falando quando. Uma vez treinado nesses sistemas e você tem modelos pré-treinados, você pode reconhecer diferentes alto-falantes em dados de áudio que você tem também. Então, na demo aqui em baixo, nós temos diferentes presidentes americanos e ele pode realmente clicar no áudio, e então ele começa a tocá-lo e ele reconhece que era Barack Obama falando neste caso. Isso é algo muito importante ou interessante para se fazer com o reconhecimento de fala. Então, essas são todas as APIs que temos que jogar agora, e eu quero que você considere mais do que você pode fazer com esses sistemas. Se for absolutamente necessário fazer o seu próprio, ou se fizer mais sentido aceder a um serviço de terceiros, Alexa Cortana e a Siri também estão disponíveis como APIs,
por isso, em vez de treinar o seu próprio serviço, pode simplesmente utilizar esses sistemas e se beneficiar de todo o treinamento e todo o planejamento que essas empresas têm feito para você também. Pense no reconhecimento de voz como a próxima interface que as pessoas desejarão usar e terão que usar. Pense em algo que é muito pessoal no entanto, e algo que não escala porque se você tem um escritório com 300 pessoas falando ao mesmo tempo, isso não vai ser uma boa interface também não importa como a ficção científica se sente. Então estas são algumas das APIs para jogar quando se trata de reconhecimento de voz, mas o problema é que sua voz é muito única e às vezes os sistemas que reconhecem vozes muito californianas, muito treinadas, não são a coisa certa para você. Então, quando se trata de APIs e APIs de IA, uma APIs de aprendizado de máquina, você quer entrar em personalização mais cedo ou mais tarde e é sobre isso que vamos falar a seguir.
9. Como personalizar sua aprendizagem de máquina: Neste vídeo dos seriados, vamos falar sobre personalização e isso significa como as coisas que você esperaria da personalização. Aprendizagem de Máquina e Inteligência Artificial parecem bastante mágicos quando funciona. Não faz nenhum bom trabalho se não funcionar porque é realmente frustrante. Muitas vezes há muitas piadas sobre pessoas com sotaque
escocês não serem reconhecidas pelo reconhecimento de voz e esse tipo de coisas. Queremos ter certeza de que isso não aconteça para você ou realmente para seus usuários finais também. Então, eu gosto, por exemplo ditar ao meu computador e eu ensinei meus computadores a reconhecer minha voz, então eu não tenho que editar muito do texto mais tarde também. Você deve fazer esse tipo de coisas com todos os seus serviços, bem como porque dessa forma você os torna exclusivos para si mesmo e até certo ponto também mais seguros porque outras pessoas não serão capazes de usar os sistemas da maneira que você faz no mesmo maneira. A personalização é uma parte muito importante para tornar a solução útil para seus usuários finais em um nível muito pessoal. Assim como você começou a falar com sua Siri e
ficou melhor depois de um tempo ou você começou a digitar no seu teclado Android e depois de alguns meses ele reconheceu as palavras que você continua usando e deu-lhe preenchimento automático para aqueles, seus usuários finais merecem ter esse tipo de qualidade também. Assim, quanto mais dados você pode obter e quanto mais personalizados os resultados podem voltar, mais interfaces de qualidade você irá construir. Você também tem que ter certeza de que é divertido
fazer essas coisas e não parece uma tarefa. Então, se três frases são suficientes para obter uma primeira qualidade de 60 por cento de reconhecimento, faça três frases. Não deixe que as pessoas digam: “Ok, guerra e paz, e por favor leia antes que você possa usar nosso sistema.” A personalização é para o usuário final e não contra ele. A coisa a fazer aqui é ter os sistemas que estão no lugar e ver quando você descobrir que há um erro neles. Digamos, por exemplo, que você tem um conjunto de dados
de imagem que tem imagens de abelhas e os serviços de reconhecimento
da Microsoft, da Amazon, do Google, da IBM estão bem em reconhecer abelhas, mas você é um especialista em abelhas. Você realmente sabe como todas as abelhas, o que todas as abelhas são diferentes. Você quer ensinar ao computador a mesma coisa. Você pode fazer isso sozinho escrevendo uma própria rede neural ou sua própria rede de aprendizagem profunda e passar alguns meses aprendendo isso na universidade antes de realmente fazê-lo. Ou você pode usar algumas das APIs que permitem que você personalize essas coisas. A maioria dos serviços permite aqueles, para pagamento extra e têm sistemas personalizados. Alguns deles também permitem que você deixe seus dados apenas serem seus e apenas hospedados em sua máquina para que eles não voltem para o conjunto de dados principal. Mas se você permitir que eles voltem para o conjunto de dados, é claro, isso é muito mais barato e muito mais livre porque as empresas conseguem fazer um modelo melhor de seus dados do que de
todos os outros como de repente eles podem oferecer a outros apicultores, bem como saber como reconhecer diferentes abelhas. Quando se trata de compreensão da linguagem, contexto é incrivelmente importante. Você pode ter uma API normal de fala para texto que apenas lhe dá uma transcrição do que você disse, mas às vezes você quer se
certificar de que diferentes partes são reconhecidas, como palavras de controle, ou você quer ter certeza que o texto é entendido em um determinado contexto. Para isso, você pode usar o entendimento de linguagem, LUIS API que tem sido em torno de algum tempo e tem sido usado com sucesso por pessoas para todos os tipos de contexto. Por exemplo, tivemos como demonstração que entrevistamos crianças sobre seus livros favoritos e o conteúdo não fazia sentido algum. Mas uma vez que dissemos ao sistema que estes são
os livros infantis de que as crianças têm falado ou que o contexto era livros infantis, de
repente o reconhecimento subiu de 40% para 80% também. Outras coisas que as pessoas têm feito com é reconhecer, por exemplo, o ruído de fundo. Então, nós tínhamos um aeroporto na Holanda Eu acho que onde as pessoas tinham um reconhecimento de voz que não funcionava em tudo. Então, o que fizemos foi gravar cerca de 16 horas deruído de
fundo naquele aeroporto que aconteceu durante um dia normal,
ensinamos ruído de
fundo naquele aeroporto que aconteceu durante um dia normal, ao sistema que isso também é parte do áudio e dessa forma o reconhecimento
subiu novamente algumas percentagens para tornar as pessoas conscientes de que isso está funcionando. Então, todas as coisas que o computador precisava saber, nós tivemos que treinar o computador primeiro e isso é o mesmo com sotaque, isso é o mesmo com coisas que estamos ouvindo, e controlar algoritmos ou frases de controle que você deseja ter. Há também um serviço de fala personalizado
que também permite que você dê vocabulário diferente e ruído de fundo. Este é outro que usamos com aquele aeroporto, por exemplo, ou ele realmente entende coisas diferentes, diferentes palavras especiais que você tem usado. Assim, o serviço de fala personalizado permite que você treine um sistema com um determinado vocabulário e um certo formato de ruído de fundo e um determinado problema de sotaque de idioma que você se torna melhor em reconhecer o texto dessa maneira. Então, este é o serviço de fala personalizado. Quando se trata de personalizar esses serviços, é muito importante entender que eles são realmente caros porque o poder computacional está acontecendo de uma forma nova, enquanto os modelos pré-treinados de reconhecimento de celebridades ou reconhecendo a Torre Eiffel e esses tipos de coisas e imagens que já foram feitas por você. Mas é uma ótima maneira de obter seus resultados perfeitos em um determinado assunto e campo especializado em uma qualidade muito melhor do que usando apenas a conectividade normal ou os sistemas de conexão normais que você tem em AI e ML sistemas fora da caixa.
10. Ética da aprendizagem de máquina: Neste vídeo da série, quero falar sobre o poder e as responsabilidades que
temos quando se trata de Machine Learning e Inteligência Artificial. Muito do que fazemos aqui é uma coisa muito pessoal e estamos gravando pessoas, estamos analisando o que elas estão fazendo, e estamos nos certificando de que o que volta seja benéfico em algum grau. Então, a ética da IA é um grande problema, eu não vou resolvê-lo no vídeo e eu não vou dizer a vocês o que fazer, porque não é assim que a ética funciona, e todas as grandes corporações que estão trabalhando em Machine Learning e Inteligência Artificial tem IA para bons departamentos e pessoas muito inteligentes em ambientes psicológicos e éticos, falando o que podemos fazer com isso e como podemos fazer errado. Então, muito disso, o que queremos pensar aqui ou no que vocês, pessoas criativas, querem pensar, é como você pode expressar essas coisas. Como podemos construir interfaces que permitem que as pessoas colham as recompensas do Machine Learning, mas forneçam seus dados voluntariamente e de uma forma que não pareça que estão sendo vigiados ou gravados sem saber disso. É uma coisa muito problemática e, para mim, o próximo passo na interação do usuário, como nos certificamos de que as pessoas sabem que estão dando seus dados para um serviço, mas eles também sabem para onde os dados vão, e eles estão realmente sentindo confiante de que você é a pessoa certa para obter essa informação? Estamos no meio de uma grande briga de mídia sobre isso com empresas gravando suas coisas, o que eles fazem com ele, então você não quer ser a próxima empresa a entrar nessa briga e ter esse problema. Machine Learning e o Deep Learning estão lá para encontrar informações para responder às perguntas certas dos usuários. Se suas perguntas já são tendenciosas, ou os dados são tendenciosos, isso irá agravar o problema. Seu sistema também será tendencioso. Então, você tem que ter certeza quando você constrói algo que a equipe construindo-o, e os dados que estão entrando são tão diversos quanto possível. Isso é uma coisa geral para tornar qualquer produto melhor. Seus usuários finais não são você. Eles não são as pessoas no escritório que têm
essa conexão rápida usam que apenas uma marca de computador, e na verdade sabem do que é o sistema. Se um sistema é suposto ser inteligente, então o sistema também precisa saber sobre outliers. Ele precisa não só ter o caminho feliz de onde você quer que as informações para ir, mas você também tem que estar ensinando a manipulação de erros e os problemas de erro que na verdade ele deve estar ciente. É assim que você evita coisas como reconhecimento facial, não trabalhando em pessoas de cor. É assim que você tem que evitar problemas
como os asiáticos sendo vistos como alguém que tinha os olhos fechados. Estas são coisas que aconteceram com grandes corporações. Eles eram muito, muito óbvios e muito, muito perigosos para eles também e um pesadelo de relações públicas. Você não quer entrar nesse espaço
certificando-se de que seus sistemas não fazem suposições. Então, ao não assumir que seus usuários finais são como você,
você realmente constrói sistemas que permitirão Inteligência Artificial não tendenciosa. Nunca será 100% porque os seres humanos são tendenciosos e nós estamos lá, mas espero que uma análise, uma análise profunda de nossos dados nos mostre nossos preconceitos também, e seja uma manipulação de erros que não devemos fazer mais. Uma das principais coisas a entender sobre Machine Learning e Inteligência Artificial é como, que os resultados são tão bons quanto as perguntas que você reúne e os conjuntos de dados que você coloca em. Então, as perguntas em que você treina seus modelos devem ser concisas e simples. Não espere que o computador seja criativo, não espere que o computador seja capaz de entender metáforas e fazer saltos e pensar como os humanos fazem. Computadores não são bons nisso. Então, mantendo suas perguntas o mais simples possível, você tem que se certificar de que também seus conjuntos de dados voltando, será inclusivo para outros usuários também. Então, é bom ter um reconhecimento de fala, por exemplo, mas alguém com uma gagueira, ou alguém que não pode falar, não será capaz de usá-lo. Então, pense em quando usar esses sistemas legais e
entrar no modo de ficção científica e ficar animado com isso, que os humanos têm necessidades diferentes e os humanos também têm habilidades diferentes. Então, algo tão incrível como um reconhecimento de voz para uma pessoa cega é impossível para uma pessoa surda-muda, e o contrário. Então, podemos usar isso como melhorias, mas não a única maneira de acessar esse tipo de informação. Então, quando se trata de obter o consentimento de seus usuários finais, você quer ter certeza de que você realmente está em um caminho legal e você realmente quer estar em um caminho ético também. Portanto, pedir aos seus usuários ou dizer aos seus usuários antecipadamente que você pode obter uma experiência melhor se você nos permitir gravar esses dados, é uma maneira de fazer isso. Sim, é um passo diferente na interface, é um botão extra para pressionar, mas faz sentido para os usuários finais e para mim, como alguém que se preocupa muito com privacidade e segurança, me faria confiar mais em você se eu conseguir o direito de dizer não, ou se o que eu quero fazer com aprendizado de máquina é um aprimoramento, e é sempre um aprimoramento porque Machine Learning é sempre um trabalho de adivinhação. As máquinas não fazem as coisas direito. Eles apenas adivinham que isso é o que os humanos iriam querer fazer. No final, há sempre um humano que deve ser capaz de dizer algo, que é errado, ou dizer algo que é certo. Então, você treiná-lo, você testá-lo com humanos reais, e sempre tem uma maneira de seus usuários finais dizer não, ou dizer que está errado, ou denunciá-lo a alguém e ser muito inflexível sobre responder essas coisas realmente muito rapidamente, porque estas podem ser coisas que você não quer mostrar quando você faz interface, e quando as pessoas relatam isso, então provavelmente houve um problema real com isso. Então, certifique-se de que se você construir interfaces humanas, você colocar um monte de pensamento humano nisso também.
11. Aprendizagem de máquina e criatividade: Sempre que algo é automatizado, as pessoas ficam preocupadas com isso. Eles se perguntam se sua arte, ou se seu ofício, ou o que eles fazem, será obsoleto em breve. Sim, Machine Learning e Inteligência Artificial tornarão muitos empregos obsoletos. Vai tornar um monte de coisas obsoletas que tomamos garantidas agora é uma renda normal para um ser humano. Carros autônomos é um desses. Caminhões autônomos, todas as coisas que basicamente são perigosas para os humanos fazerem, porque nos cansamos, ficamos entediados quando fazemos as mesmas coisas uma e outra vez, quando não está nos sobrecarregando mentalmente. Então a questão é como, o que vai acontecer com essas pessoas? Eu tenho uma visão muito positiva sobre isso. Eu acho que com a automatização das coisas, deve ser tudo possível para essas pessoas encontrar a nova criatividade que eles não tinham antes. Mas o que precisamos de ter a certeza é que essas pessoas podem dar-se ao luxo de serem criativas e não apenas estarem desempregadas e ficarem infelizes com isso. É aqui que a revolução da Inteligência
Artificial terá que fazer parte da política, e teremos que fazer parte da cultura social que temos também. Nós simplesmente não podemos tê-lo como uma coisa que apenas pessoas ricas com os smartphones mais novos podem usar, é parte da vida de todos já, então temos que democratizar até certo ponto e todos os sistemas que temos lá fora. Agora, quando se trata de criatividade, é sempre
aqui que as pessoas contra a Inteligência Artificial sempre dizem : “É aí que os limites dos computadores estão.” Eles estão totalmente certos, e eu estou totalmente bem com isso. Eu estou totalmente bem para um computador não ser criativo porque eu não quero que eles sejam criativos. A criatividade pode ser perigosa, a criatividade pode ser bonita, mas também pode ser difícil. Então, eu não quero que os computadores sejam todo esse controle. Por exemplo, quanto imposto eu tenho que pagar, ou se a eletricidade em minha casa deve ser tão alta, ou se o nível de oxigênio em minha casa deve ser dissolvido no futuro quando vamos viver no espaço. Então, sempre que as pessoas querem mostrar seus sistemas criativos, ou os sistemas de IA, quão fortes
eles são, eles mostram quão longe os computadores chegaram perto dos humanos. Isso é o que quando Deep Blue estava vencendo Kasparov no xadrez ou em algum outro mestre de xadrez era. Quando os sistemas de computação do Google jogou objetivo melhor do que uma pessoa humana. Quando começamos a ter como a música gerada
por computador analisando toda a música dos Beatles e descobrindo quais são as coisas que as pessoas mais gostavam. De repente, mostramos essas coisas que sempre parecem um pouco criativas, mas algumas são poucas estranhas também. Claro, vai haver criatividade lá, mas eu acho que AI e ML estão lá para automatizar as coisas. Então, as coisas com as quais estamos entediados, que não queremos fazer devem ser feitas por elas. Ainda não há criatividade nos computadores. Não temos nenhuma máquina que pense. E uma vez que temos uma máquina que pensa, que pode ser muito perigoso para os seres humanos, porque um computador está tentando nos proteger, e seu principal trabalho é proteger-nos provavelmente vai ficar muito irritado com gente porque estamos fazendo coisas estúpidas o tempo todo para nos colocarmos em perigo. Então, a criatividade que você encontra agora, ou que você sente é sua melhor arma contra ser automatizado e contra ter Machine Learning, Inteligência
Artificial como seu inimigo. Estou ansioso para que o meu trabalho não seja necessário. Estou ansioso para que a maior parte da minha codificação seja otimizada por uma máquina e algoritmo pegando os algoritmos. Isso é totalmente bom também. Eu realmente estava animado quando a computação começou, que eu tenho que falar com um computador de uma certa forma. Mas eu estou tão animado hoje em dia que eu posso falar com meu computador, que eu posso olhar para uma câmera para desbloquear meu computador, e eu posso ser um humano, e que eu quero fazer coisas humanas, e que eu tenho tempo para fazer coisas humanas porque os computadores são suficientemente inteligentes. Então, quando se trata de criatividade de computadores, muito disso é como boas vitrines para mostrar o poder dos sistemas de IA. Não é necessariamente criatividade real. O que deveríamos estar mais preocupados é realmente com os usuários finais, os consumidores de nossa produção criativa exigindo coisas criativas reais. Se você considerar a música pop nos últimos anos ou até mesmo as bandas masculinas dos anos 90, isso era música algorítmica. Isso era previsível e definido em um certo tempo. Eu vi contrato de boy bands que eles tiveram que realmente dissolver depois de alguns anos porque o modelo de marketing em torno daquela banda estava pronto. Isso é algo que temos feito com a criatividade e com a mídia nos últimos anos. Então, agora é hora de nós criativos, ou vocês criativos, lutarem e se certificarem de que não podem ser automatizados fazendo algo tão criativo que um computador está confuso.
12. Considerações finais: Agradeço-vos muito por seguirem este curso, e espero que vos tenha inspirado a brincar com algumas coisas que antes pensavam que estavam fora do vosso alcance ou alcance. Foi definitivamente além do meu alcance e ainda é, e eu tenho um monte de amigos que são muito melhores nisso que estão felizes em responder suas perguntas que você pode ter também. Estou ansioso para ver o que você pode fazer com a inspiração que você tem aqui. Se você não estava inspirado, por favor me diga o que eu posso fazer melhor da próxima vez também. Então, eu agradeço muito e certifique-se de que seus computadores funcionarão para você e não para seus computadores.