Transcrições
1. Apresentação: Seu Buzzy e eu entendemos. IA pode parecer complicada e você quer aprendê-la o mais
rápido possível. Com uma agenda atrasada
e um emprego em tempo integral, você não tem tempo para
fazer um curso de 50 horas. Você só quer habilidades
práticas de IA para aumentar a eficiência em gráficos, textos, e-mails, códigos e muito mais. Se é você, então
este curso é perfeito. Imagine impressionar a todos
com o conhecimento de IA, certo, quando é importante. Você apareceu como um verdadeiro profissional. Neste curso, você obtém
uma compreensão clara de IA, LLMs
e modelos de difusão, como usar
LLMs como o Chachi BT, com engenharia rápida,
explorando modelos de multimodalidade
e de alto desempenho, técnicas de solicitação para modelos de difusão como
Dai AdoObviaFly, para difusão estável de midchourney de IA, LLMs
e modelos de difusão, como usar
LLMs como o Chachi BT,
com engenharia rápida,
explorando modelos de multimodalidade
e de alto desempenho, técnicas de solicitação para modelos de difusão como
Dai AdoObviaFly,
difusão estável de midchourney, fluxo e muito mais. Informações sobre vídeos,
vozes e até mesmo
criação musical com inteligência artificial são abordadas. E, a propósito, se você se
perguntar quem eu sou meu nome é Arnie, e eu dou aulas de
IA antes
mesmo de o ChIPT existir Portanto, estou
há relativamente tempo no jogo. Também tenho um pequeno canal
alemão no YouTube, e é isso que eu faço.
2. O que é IA?: Podemos mergulhar mais fundo
no mundo da IA, precisamos definir
o que a IA realmente é. Portanto, IA é simplesmente um termo
em ciência da computação. O objetivo é criar máquinas com inteligência semelhante à humana. Por exemplo,
reconhecimento de padrões, tomada de decisão com base em dados
e também execução de tarefas. E não pense em Terminator. São tarefas simples. Também pode ser escrever algum
texto como o Chachi Pit faz. Qual é o objetivo final? O objetivo final é a AGI, ou
seja, inteligência geral artificial E isso significa simplesmente aprender,
compreender, resolver problemas e criar um processo criativo tão
bem quanto ou melhor do que os humanos. Portanto, a inteligência artificial
geral é mais inteligente do que a maioria dos humanos, e essa é uma meta
e ninguém sabe exatamente quando ela
será alcançada E o objetivo final, e ninguém sabe se isso
acontece, é o ASI. Superinteligência artificial. Essa IA seria mais inteligente
do que todos os humanos juntos. E como eu disse, não pense
em Terminator agora. O que a IA não é? A IA não sabe tudo, não
é autoconfiante, não
tem emoção, e
o objetivo atual é simplesmente atingir uma meta definida. Você diz à IA: Ei, escreva um texto ou faça
uma foto para mim e a
IA fará isso. Isso é por enquanto, mas também
temos robótica e assim por diante, mas esse não é o
tópico principal deste curso Vamos dar alguns
exemplos aqui, e eu também posso escrever isso. Então, alguns exemplos são o assistente de voz, e a maioria de vocês conhece o assistente de
voz. Portanto, o CiRia é o Google
Assistant, mas também voz
GPD, e eles simplesmente entendem e respondem
aos comandos de voz A voz GPT ou a
API WISPA são muito legais. Também abordaremos isso
mais tarde no curso. Então temos
sistemas de recomendação, e isso é antigo. Basta pensar no Netflix ou no
Spotify ou até mesmo no YouTube. Você vê o vídeo e,
com base no seu comportamento, os algoritmos
encontram vídeos semelhantes. E também temos a direção
autônoma. Então, carros autônomos usam IA para entender onde estão e depois dirigem
nessa direção. E isso é simplesmente uma IA real. Como o FSD da
Tesla, por exemplo, é uma IA real, eles
não estão programados para
dirigir nessa estrada Eles olham para a estrada e
depois ajustam seu comportamento. E, claro, temos
LLMs e modelos de difusão. Modelos de linguagem
e de difusão tão amplos. Modelos de linguagem grandes criam texto e
modelos de difusão criam imagens Isso aqui é o núcleo. E como é o núcleo, começamos com LLMs. Então, no próximo vídeo, eu vou ver você e vamos dar uma olhada mais de perto no que são LLMs
3. O que são LLMs como ChatGPT, Claude, Gemini, etc: Das pessoas que conhecem o HachBD. JaCPT é um LLM, e aqui você pode fazer
muitas coisas e nós
mergulharemos profundamente no Mas deixe-me dizer,
temos muito mais LLMs. Basicamente, se você
acessar este site, a arena do chatbot, verá que temos muitos
LLMs diferentes Eles vêm da Opie, então o HaChipt vem Então temos Gêmeos.
Isso vem do Google. Nós temos Grock. Isso vem
do XI, então ELN Mask. Temos nuvem, a nuvem
vem do trópico. Eu só quero dizer que
temos muitos LLMs diferentes E neste vídeo,
quero mostrar como
um LLM funciona porque
você precisa entender os conceitos de tokens e assim por
diante para
usá-los corretamente, porque tokens e a estrutura
de um LLM são importantes para que você possa usá-los
corretamente o mais rápido possível Basicamente, são
apenas dois arquivos. E fazemos apenas um
exemplo simples com o Lama 2. Para todos que já sabem exatamente o que
é um LLM e como ele funciona, claro, você pode
pular a Basicamente, um LLM
consiste em apenas dois arquivos. Temos um arquivo, e esse arquivo é basicamente
o arquivo de parâmetros, e eu simplesmente o crio aqui como P. Isso significa parâmetro. E temos um segundo arquivo, e o segundo arquivo serve apenas
para executar esses parâmetros. Eu apenas chamo isso de arquivo de execução. Esse arquivo de execução é, na maioria
das vezes, escrito em C. C é uma
linguagem de programação ou em PyTon Então, ambos podem
eventualmente funcionar. Então, o que temos aqui é o arquivo de parâmetros
e o arquivo de execução. E o arquivo executado na
maioria das vezes tem apenas 500 linhas de código. Então, usamos 500 linhas de
código para executar esse arquivo. E esse arquivo é onde a mágica acontece porque esse
arquivo é gigantesco Faça um exemplo com um
LAM de código aberto, e o LAM é chamado ama two Então ama é, obviamente, o LLM da meta, e eles têm modelos diferentes E esse Lama também, onde
fazemos esse exemplo, esse é o modelo 70 B. Então isso significa simplesmente que
temos 70 bilhões de parâmetros. Então você sabe que este é um arquivo relativamente grande
que temos aqui. Então, esse arquivo de parâmetros tem
70 bilhões de parâmetros, e como obtemos todos
esses parâmetros? Precisamos treinar esse arquivo e o treinamos
em muitos textos. Usamos 10 terabytes de texto
para treinar esse arquivo. Então, usamos dez textos Theraby. Este é um texto de
toda a Internet. Então, podem ser artigos
da Wikipedia, sites e muito, muito mais. E esse arquivo, podemos simplesmente
comprimi-lo,
e esse arquivo tem apenas
140 gigabytes Então esse arquivo tem
apenas 140 gigabytes e nós o treinamos em
10 terabytes Você sabe, podemos
comprimi-lo, muito. Neste arquivo de parâmetros,
você pode simplesmente pensar nesse arquivo
como um arquivo zip. Ele simplesmente
comprime todos esses dados. Para compactar esses dados, precisamos de muita potência da GPU Portanto, precisamos de muita potência de GPU para
compactar esses dados E é também por isso que o NVDA foi uma ação
tão boa nos
últimos anos Se você observar, por exemplo, ações da NVIDIA, verá que temos uma corrida gigantesca, e isso ocorre basicamente
porque todo mundo precisa Então você vê que temos
uma corrida gigantesca, mas não se trata de
ações no momento Então, basicamente,
usamos muita GPU. Eu faço isso muito simples. Também tenho explicações mais
detalhadas, mas acho que não precisamos
disso neste curso Então, simplesmente comprimimos dez textos Trabte em
um arquivo de 140 gigabytes
e, em seguida, temos o segundo arquivo e, em seguida, temos O segundo arquivo é o arquivo Executar. São apenas algumas linhas de código. E se tivermos um código aberto, de uma
manhã, como o
Lama 2 ou mesmo Lama 3 ou qualquer outro
código aberto que você quiser, podemos baixar esse arquivo e executá-los
localmente em nosso PC. E isso nos traz a
máxima segurança de dados porque nada passa pela
Internet. Com esses dois arquivos, eles são um pouco
mágicos porque aqui funciona a
arquitetura do transformador em segundo plano Você pode simplesmente
pensar na rede neural. Não precisamos mergulhar tão fundo. Mas, basicamente, a
rede neural vê as palavras e prevê qual será a próxima
palavra mais provável Então, funciona basicamente assim. Treinamos em todos os textos
e, portanto, o LLM simplesmente aprende
como o texto é Se perguntarmos, por exemplo, o que devo comer hoje, o LLM simplesmente predirá quais palavras um ser humano provavelmente
ouvirá No momento, isso
é chamado simplesmente de pré-treinamento. Com
o pré-treinamento, simplesmente
alucinamos
coisas desse arquivo Mas depois vem a segunda coisa. A segunda coisa
é o ajuste fino e, com o ajuste fino, damos ao LLM muitos
exemplos de como os humanos
querem ter sua resposta Nós alimentaríamos, por
exemplo, uma pergunta. O que eu deveria comer hoje, e então forneceríamos uma
resposta que os humanos gostam. Por exemplo, você pode
comer bife hoje. Se alimentarmos isso
repetidamente, o LLM aprende como os humanos
querem suas respostas Isso é chamado de ajuste divino, e esta é a segunda
parte para executar LLMs Então, a última parte é o chamado aprendizado por
reforço, e podemos detalhar isso de forma
muito simples Após o pré-treinamento
e o ajuste divino, simplesmente
faremos esse aprendizado por
reforço Isso basicamente significa
que fazemos uma pergunta, obtemos uma resposta
e depois dizemos ao LLM se isso é bom ou não Isso é basicamente o aprendizado por
reforço. Portanto, temos três
fases de treinamento. No pré-treinamento,
simplesmente usamos muita GPU para compactar muito texto
em um arquivo menor
chamado ZIP, e podemos alucinar Para melhorar essas
alucinações, fazemos o Por isso, alimentamos
muitas perguntas com respostas estruturadas de uma
forma que os humanos gostam. E nessa fase, o D LLM aprende como os humanos querem suas respostas. E por fim, no aprendizado por
reforço, simplesmente
damos uma olhada: Ei,
faz sentido ou não, sim, com o
polegar para cima, se não para baixo, e o LLM simplesmente aprenderá
mais sobre como Agora, a próxima coisa
que é muito, muito importante é
que você já a aprendeu. Nessa
arquitetura de transformador, existem redes neurais,
e as redes neurais
funcionam Basicamente, eles
trabalham com números. E para fazer
sentido para a rede neural, é
claro, precisamos
ter números. Então, a primeira coisa
é, é claro, se colocarmos uma pergunta
em um LLM, o LLM criará números
a partir dessas questões, os chamados tokens Esses tokens são números
e, com esses números, a rede neural pode
fazer seus cálculos. Qual palavra virá mais
provavelmente como a próxima palavra? Quero mostrar de forma simples como esses docons são estruturados Se usarmos esse
tokenizador, podemos vê-lo. Podemos simplesmente digitar O que
posso comer hoje, por exemplo, e agora você vê
que temos cinco fichas, 20 caracteres, e as fichas
são estruturadas dessa forma. Se pressionarmos aqui os IDs de token, isso é basicamente
o que são os LLMCs O LMC são números
e, com esses números, a rede neural pode fazer seus cálculos e nos
dar uma boa resposta Se eu pressionar aqui, por exemplo, em limpar, mais
uma vez, depois
continuar mostrando exemplo, você verá um exemplo maior. E aqui você também vê que nem toda
palavra é um símbolo. Isso é dividido de forma um
pouco diferente. Aqui você vê que invisível
são, por exemplo, dois tokens, e aqui esse
ponto também é um token separado. Portanto, temos muitos tokens
diferentes, e se pressionarmos o token
neles, veja, isso é basicamente
o que o LLM vê e o LLM faz seus cálculos com
os Mas por que eu mostro
isso porque isso é importante porque
temos um limite de tokens. Cada LLM
sempre tem um limite de quantos tokens ele pode
entender no momento Se continuarmos com este artigo
aqui, o que são tokens? Omei nos diz que um token tem aproximadamente quatro
caracteres em inglês Isso significa que 1.500 palavras
são aproximadamente 2048 tokens. E isso é importante porque cada LAM tem um limite de token
diferente Você pode ver isso aqui embaixo. Neste momento, GPD para Turbo e
também o GPD para Omni,
e muitos outros modelos, eles têm um limite de estoque de aproximadamente
128.000 Também temos modelos que têm limite de
2 milhões de endocenos. Também temos um modelo menor de código
aberto que tem um limite de apenas 4.000
docenestocenos,
e o importante é que você
entenda que, assim que o limite de
dtcen for atingido, o LLM não entenderá mais as
coisas de
dtcen for atingido, o LLM não entenderá que você conversou anteriormente com
o
LLM o Eu só quero te mostrar
um exemplo no chat GPD. Eu simplesmente digo ao LLM que
escrevo uma história sobre uma raposa e agora nossos primeiros
tokens são gerados E assim que estivermos
perto do limite de tokens, assim que eu
falar, por exemplo, sobre outras coisas, agora, vamos supor
que eu queira ter histórias
diferentes
aqui neste chat. Por exemplo, conte-me
uma história sobre um sapo. No momento, é claro, novos
tokens são gerados. E assim que
atingirmos nosso limite de tokens, o LLM não saberá mais
nossa pergunta anterior e também não saberá a resposta,
porque o LLM sempre conhece apenas
os últimos Nesse caso do JCEPT, a janela de contexto
é relativamente grande, então ela conhece 128.000 tokens São cerca de 100.000
palavras, aproximadamente, como eu disse. E depois disso, não conseguirá mais o que
falamos anteriormente. Então, por
favor, lembre-se sempre de que os
últimos tokens contam, e tudo
o que acabou
não estará mais no
conhecimento do LLM Você pode chamá-lo assim. Obviamente, temos muitas técnicas para aumentar
esse conhecimento,
por exemplo, tecnologia direta e assim por diante, falaremos sobre isso mais tarde. Mas, por enquanto, você
precisa entender que todo LLM tem
um limite de token Eventualmente, isso desaparecerá. Eventualmente, o
limite de tokens será tão grande que não
precisaremos mais pensar nisso, mas agora, neste momento, temos esses limites e
precisamos saber disso. Basicamente, se você
já se perguntou por que o LLM não sabe mais do que
você falou anteriormente, é simplesmente porque o limite de
docen foi atingido Neste vídeo, você
aprendeu como funciona um LLM. Basicamente, temos
apenas dois arquivos. Temos um
arquivo de parâmetros e um arquivo de execução. O arquivo de execução é apenas um código
para executar o arquivo de parâmetros, e o arquivo de parâmetros consiste
simplesmente em muitos textos
da Internet, mas é compactado em um pequeno arquivo semelhante
a um arquivo CIP Precisamos de muita GPU para fazer isso. Esse foi o pré-treinamento. Após o pré-treinamento,
vem o ajuste divino. Aqui, fornecemos as perguntas e
respostas do
LLM para que o LLM possa aprender
como queremos nossas E depois do ajuste divino, a etapa final é o aprendizado por
reforço Simplesmente fazemos perguntas, obtemos respostas e avaliamos as respostas se elas
são boas ou não. E com essa última fase, o LLM ficará
melhor nessas tarefas Você também viu que, em segundo plano, funciona
a arquitetura do
transformador São redes neurais e redes neurais que fazem
cálculos com números É por isso que precisamos
dividir nossas palavras em símbolos. Com esses tokens, podemos
fazer os cálculos e calcular qual palavra vem provavelmente como a próxima
palavra que queremos ter. Você precisa entender
esses tokens porque cada LLM tem o
chamado limite de tokens Assim que o
limite de tokens for atingido, o LLM não saberá mais quais
coisas
você praticava anteriormente Ele sempre analisa
os últimos tokens
e, claro, os
limites dos tokens dependem do modelo. Às vezes, são 4.000 tokens, mas podem subir
até 2 milhões E uma última coisa, é claro, é muito importante
quais
perguntas fazemos ao LLM, porque com
boas perguntas, obtemos boas respostas Isso é chamado de engenharia
rápida, mas mais sobre isso, é
claro, mais tarde. Vejo você no próximo vídeo, sei que fizemos isso
um pouco rápido, mas acho que esse
detalhe técnico é que todo mundo deveria simplesmente entender
isso. Então, fizemos isso rápido. Não fizemos isso em detalhes
completos, mas isso é mais do que suficiente
para trabalhar com esse modelo. Você precisa desses detalhes
técnicos para entender
que
não tem perguntas ilimitadas aqui antes que o JGBT esqueça as coisas, e também precisa
entendê-las porque a engenharia
rápida é muito importante para obter bons resultados, e você só obtém bons resultados
se fornecer boas É chamado de engenharia rápida. Quero falar sobre engenharia
rápida na próxima seção.
4. As interfaces dos LLMs: Este vídeo quer
mostrar alguns
dos LLMs mais importantes e, claro, também sua interface Agora, você já viu que
temos muitos LLMs diferentes e podemos encontrar inúmeros LLMs nessas arenas
de chatbots Os mais importantes são, pelo
menos, como eu vejo o JetPT da Opmei, o Clade da antropic, Gemini do Google e, eventualmente,
também os modelos de código aberto, e podemos usá-los no
Grock ou também com o Oma Agora, queremos começar com o HPT porque acho que esse é,
pelo menos agora, o melhor Sim, algumas pessoas adoram o coágulo porque o Clot também é
muito bom em codificação Então, basicamente, sim,
eles também podem codificar. Quero mostrar a interface em
detalhes
do JCPT, porque se
você entende o JCPT , também
entende todas as Aqui está a barra onde você pode digitar
suas perguntas. E essas perguntas
chamamos de instruções. E, claro,
engenharia rápida é a arte de escrever
as perguntas certas. Se você quiser fazer upload de coisas no HatHipt, você tem
isso aqui Você pode anexar arquivos. Você pode fazer upload de fotos ou PDFs e outras
coisas e analisá-las Isso aqui é a
pesquisa, o botão da web. Se você pressioná-los, o
HatchipT pesquisará na web. Vamos testar isso
por uma vez. Se pressionarmos a pesquisa, podemos digitar o preço do
Bitcoin hoje. Então, aqui você pode basicamente
ver que
recuperamos o texto e também recebemos alguns links nos quais
podemos clicar, se quisermos. Então, essas são as fontes, e se você pressionar nelas, podemos ver que o HpD pesquisou na web Usamos moedas Market
Cap e assim por diante. Agora, se você usar um novo
bate-papo no canto esquerdo, ele estará vazio novamente e seus
bate-papos antigos estarão aqui A próxima coisa que você
pode fazer é, obviamente, pressionar
o HatPD e
usar modelos diferentes Temos o GPD normal do
Omni, ótimo para a maioria das tarefas. Coloque o GPS em quatro com tela. Se você pressionar sobre eles, o
canvas também é muito bom, porque
digamos que você queira
gerar algum código. Me dê o
código de mordida de uma cobra. Chet GPD
abrirá essa tela
e, nessa tela, podemos
editar um pouco esse código Isso é muito bom. Então, aqui no lado direito,
você pode clicar. Você pode revisar o código ou portá-lo para
outras linguagens como JavaScript ou outra
coisa. Você também pode corrigir bugs. Você pode adicionar registros e
adicionar comentários, se quiser. Para todo mundo que codifica, espero que você entenda o que quero dizer. Se gerarmos
texto normal com essa tela, também
é bom porque
também podemos editar nosso texto
nessa tela. Podemos sugerir edições, podemos ajustar o tamanho, para
que possamos torná-lo,
por exemplo, mais curto,
se você quiser, e se o enviarmos, ele será
reescrito, mas E aí você vê, temos basicamente o mesmo texto
, mas muito mais curto. Então, podemos ajustar
o nível de leitura. Então, por exemplo, para a
pós-graduação ou para o jardim de infância. O próximo passo é que
podemos adicionar o polimento final. Se pressionarmos isso, o JetPT fará isso de forma totalmente
automática Ele simplesmente o reescreverá e
reestruturará um pouco. Talvez haja algo errado
ou um pouco curto demais e você veja que obtém resultados
melhores E a última coisa, é claro, também
podemos adicionar
imagens, se quisermos. E aí temos
lindas imagens pequenas. Além dessa tela, também
temos 01 prévia. A pré-visualização aberta é o
modelo que pensa. Se dermos ao JCPT uma tarefa difícil, JCPD será capaz de pensar um pouco antes Esse é um bom título do YouTube? Eu gosto disso em Marte?
Pense em palavras-chave, taxa de
cliques e muito mais. E o JCPT começará a pensar. Então você vê que o HHIPT está pensando. Ele gera para si mesmo algum token. Aqui você pode ver o processo de
pensamento
e, em seguida, ele pode obter respostas
melhores, porque o JCIPT sempre
oferece a si mesmo novos
símbolos para pensar, e aí está nossa saída Além da prévia do 01, temos também o 01 Mini. Isso faz basicamente a mesma
coisa, mas é mais rápido. E se você pressionar em
mais modelos, agora, temos GPD para O Mini
e GPD para o modelo Legacy Se você quiser apenas
ter bate-papos temporários, você também pode incluí-los. Se você entrar nesse ponto de interrogação, verá que pode denunciar conteúdo
ilegal e usar atalhos Você tem termos e
políticas, notas de lançamento, guia de
ajuda e você, e esse critério é
simplesmente o seu nome. No canto esquerdo,
eles ***** você. Portanto, se você pressioná-los, poderá atualizar seu plano. Eu pago agora
20 dólares por mês, mas você também pode começar de graça Se você usar o plano de negócios, precisará pagar
25 dólares por mês Basicamente, você obtém
a mesma coisa. Mas o mais
importante é que seus dados sejam automaticamente
excluídos do treinamento. Então, isso é um pouco mais seguro. No lado esquerdo,
você também pode fechar a barra lateral e
trazê-la de volta à vida. Você pode pressionar em pesquisar bate-papos. E aqui você pode
pesquisar os bate-papos que você já
teve com o Chat GPD E se você
pressioná-los aqui,
novo bate-papo, como se você tivesse um NuCat Então você tem essas
coisas aqui. Eles são chamados de GPDs e eu quero mostrar
mais sobre CPDs mais tarde Mas se você pressionar Explorar GPD, basicamente o que você pode
fazer é pesquisar GPDs específicos que
outras pessoas criaram Se você quiser, por
exemplo, programar, clique em
Programação e encontre GPDs
específicos
personalizados para Este é um GPD para PyTon e
se você pressionar Sarchat, você pode simplesmente conversar
com esse GPD,
e isso é, como eu disse, especificamente Essa é basicamente a interface do
JahIpt. Se entrarmos na nuvem, você basicamente verá que a interface é
relativamente semelhante. Aqui você pode digitar
o que deseja fazer. Você também pode atualizar o Cloud. Essa interface é um
pouco mais simples, mas basicamente faz
a mesma coisa que o JahIpt, mas mais simples,
como eu disse Meu código de cobra e também o coágulo me
darão o código da cobra, e também o coágulo adicionará
algo Isso aqui é Gemini. momento, Gemini está
em alemão aqui para mim, Gemini também é um LLM normal e também pode fazer basicamente a mesma coisa que
Chachi Aqui está o
Grock e no Grock você pode basicamente usar LLMs de código
aberto E a interface
é minimalista. Você pode digitar suas coisas
aqui ou também pode
conversar com essas coisas. A propósito, você também pode instalar esse ChipT no seu PC e tê-lo como um aplicativo, e também pode instalá-lo no seu smartphone e conversar com o HatchiPT Aqui está
o aplicativo Hatchipit,
e se falarmos com o aplicativo hatchipit, ele responderá Ei, Chat Chi Pit, conte-me
uma pequena história sobre uma raposa. Era uma vez,
em uma floresta exuberante, vivia
uma
raposa inteligente chamada Conhecida por sua inteligência rápida, Fiona adorava explorar e aprender sobre
tudo ao seu redor Um dia, ela
tropeçou em uma
armadilha armada por caçadores Esse é basicamente o modo de voz
avançado. Acho que
agora é um recurso pago. Portanto, se você pagar pelo ChatBD e simplesmente instalar o
aplicativo em seu PC local, poderá usar esse modo de voz
avançado E a última coisa que eu
quero te mostrar é Olama. Se você baixar o Oma, ele será executado
localmente no seu PC. Não se preocupe se você
não quiser fazer isso. Eu só quero
te mostrar como funciona. Você simplesmente pressiona
Baixar aqui, depois pode acessar os modelos e pesquisar os
modelos que deseja. E a próxima coisa
que você precisa fazer é entrar no seu terminal, e isso
funcionará localmente. No seu terminal, você pode pesquisar os modelos
que deseja usar. Por exemplo, Lama 3.2, você pode simplesmente pressionar
O Lama run Lama 3.2. Se você copiá-los e
jogá-los no seu terminal, poderá baixar esses
modelos do Lama ou executá-los. Se eles já estiverem
instalados, você poderá executá-los. Então eu tenho isso instalado, e agora você também pode fazer
essas coisas aqui. Conte-me uma história sobre o rock, e então Lama me contará
uma história sobre o rock. Isso aqui é especialmente
interessante para privacidade de dados, mas é claro que não há
uma boa interface no OLAM Você pode vincular isso a, por exemplo, qualquer LLM, mas isso é muito grande
para este curso porque precisamos
aprender essas coisas rapidamente Então, basicamente, se você quiser executar as coisas localmente, você
pode totalmente fazer isso. Mas, na maioria das vezes,
se você está começando, basta usar o HachiPT na interface
padrão Então, neste vídeo, você viu todas as interfaces
que são importantes. Se você quiser executar LLMs
o mais rápido possível. No próximo vídeo, quero
mostrar o que os LLMs podem fazer.
5. O que LLMs podem fazer?: Este vídeo oferece uma visão geral rápida do
que os LLMs podem fazer, e não importa
em que LLM você Basicamente, a maioria dos
modelos de fronteira pode fazer a mesma coisa, e os
modelos de código aberto surgirão com o tempo Cada LLM pode
aumentar o texto ou o código e diminuir o texto
ou o código Assim, você pode resumir o
texto ou expandi-lo. Vamos apenas dar um exemplo. Você pode digitar algumas palavras e obter muitas palavras. Me dê um texto de marketing para o
meu site, AI com Arnie. Não, eu realmente não tenho
esse texto de marketing. No momento, eu uso o modelo de visualização do
OO só porque ele estava ativo. Agora, o CHGPT pensa um pouco sobre o texto de marketing
que deve escrever
e, em seguida, receberei minha resposta Então, aqui você vê que
transformamos um pouco de texto em muito texto. Espero que você entenda o que quero dizer. Em seguida, podemos resumir o texto. Aqui está um artigo
no Medium sobre LLMs. Basicamente, você pode simplesmente
copiar um pouco de texto. Você pode colocá-lo no JTCPD
e dizer resumir em marcadores. Então, basicamente, você
pode resumir o texto. E aí
está. Agora temos alguns pontos principais sobre esse
texto. A mesma coisa com o código. Você pode gerar código. Podemos fazer basicamente
algo assim. Podemos criar muitos
códigos muito rápido. Me dê o código
da página da web em HDML que tem três botões Só consigo ativar dois
botões ao mesmo tempo. Isso deve ilustrar que não
é possível estar falido, inteligente e ocupado
ao mesmo tempo Agora, ele gerará
algum código HDML. Agora há o código. Vamos ver se funciona.
Eu copio o código. Eu faço um novo arquivo de texto. Eu jogo o código no arquivo de
texto e o salvo. Agora eu o salvo como HDML HDML Sim. E eu abro a página da web
quebrada, inteligente, ocupada. Não funciona porque,
tipo, pense por si mesmo, sim, você pode ser inteligente e ocupado, mas não está falido porque trabalha
nas coisas certas. Se você está falido,
você não pode ser inteligente e ocupado, porque se você
fosse inteligente e ocupado, você não estaria falido, mas você pode, é claro, estar
falido. E ocupado, mas não inteligente. Se você está falido e inteligente, não está ocupado porque
não
faz nada porque simplesmente não funciona dessa maneira. E, claro, se você tem
muito código, por exemplo, em uma página da web, você também pode
tentar diminuir o código. Então, sim, você também pode
resumir o código se ele funcionar. Você também pode gerar
algumas tabelas, se quiser. Então essa, por exemplo, é uma tabela sobre as
macros de uma banana Portanto, o texto pode ser,
é claro, também tabelas. E agora vem a parte divertida porque os LLMs também podem usar ferramentas, como uma calculadora, um intérprete
Biton ou um Um modelo de difusão
faz fotos. Eu quero te mostrar. O que é
três vezes 98 vezes 98? Se enviarmos isso, você
verá que estamos analisando. Então, basicamente, usamos ferramentas. Acho que o JahIPT simplesmente
escreverá mais
scripts PTN para fazer Se você pressionar a análise de visualização, verá que o ChaChipt usa interpretador
Python para nos
dar o resultado Faça uma foto sobre a banana
e o HCBT usará um modelo de difusão como o Dali
para criar E aí está a banana. Claro,
também podemos analisar coisas. Deixe-me mostrar o que
está no conjunto de dados. Isso é basicamente,
deixe-me mostrar um conjunto de dados com algumas coisas de mídia
social Isso é basicamente
o uso das pessoas,
então, onde elas estão,
estão no Snapchat,
****, dock, pin
arresting e assim por diante E você vê que esta é uma mesa
muito, muito grande, e
podemos analisar essas coisas. Aqui ele me dá uma mesa. Desculpe-me,
agora, está em alemão, mas queremos conversar
em inglês agora E isso é basicamente também a próxima coisa que eu
queria mostrar a vocês, porque, é
claro, os LLMs
também podem traduzir coisas. Então, aqui estão as coisas em alemão. Você pode simplesmente dizer ao HathPT, traduza isso em inglês E você
também pode fazer isso, vice-versa. O conjunto de dados contém 1.000 linhas com as seguintes colunas ID do usuário, aplicativo,
minutos diários gastos, postagens por dia, curtidas por
dia, seguidores por dia. E aqui você tem tudo. Então você vê Pinterest, Facebook,
Insta, **** Doc Minutos diários gastos,
postagem por dia, curtidas por dia, seguidores por dia. Faça um gráfico com isso porque podemos usar
ferramentas, você sabe. O JGBT usará um gráfico BTN para
criar um bom gráfico para nós. E aqui está, Facebook,
Installink, Pinterest e assim por diante E, claro, se
você pressioná-los, podemos mudar para um gráfico
interativo. Também podemos usar, por exemplo, cores
diferentes se
você gosta de outras cores. E então, se você gostar,
primeiro, você pode torná-lo maior. Mas se você gostar, como eu disse, você também pode
baixá-lo por este botão. E o HGPT também entende
o contexto desse bate-papo. Faça um porco que
ilustre o conjunto de dados. JCPT simplesmente entenderá que se trata de mídia social e, provavelmente, teremos algumas pessoas que usam um telefone
ou algo parecido Pelo menos é assim que
eu adivinharia. E aí está. Esta
é uma página de mídia social. E, claro, com alguns dados,
porque esse é um conjunto de dados. A propósito, isso é
chamado de chamada de função. Não temos tempo suficiente para mergulhar tão fundo
nessas coisas. Pense nisso de
forma que toda vez que o ChEBT ou um LLM não
forem inteligentes o suficiente, eles usarão
ferramentas diferentes para fazer isso Andrew Karpathy também gosta de nos
dizer que o LLM é nosso novo sistema operacional, como um computador que pode
usar ferramentas diferentes E sobre o uso da ferramenta, não
esqueça também que
eles podem usar a Internet. Eles também podem usar a Internet para pesquisar informações ao vivo. Eu já mostrei
isso para vocês no último vídeo. E também é importante que, antes de
falarmos sobre o treinamento
de nossos LLMs, é claro, eles
também são multimodelos Isso significa que eles podem
ouvir, falar e ver. Sobre ouvir e falar, você já viu isso.
No último vídeo. Eu só quero te mostrar
que eles também podem ver. Se você estiver no ChaChipt, você pode fazer upload Por exemplo,
esta é uma foto da Hugging Face sobre aprendizado por
reforço
e, sim, isso O que está no grande? Explique como se eu tivesse cinco anos. E, a propósito, sim,
a qualidade é péssima. Vamos ver se o
JahIPT consegue obtê-lo. Sim, entendeu. Comece
com o modelo de linguagem. Imagine que o computador
é como uma criança que já conhece algumas palavras
e frases e assim por diante. Em seguida, dê-lhe uma recompensa, faça-o praticar essas etapas
combinadas de aprendizado Isso é
aprendizado por reforço com Hugging Face. Esta é basicamente essa foto aqui do Hugging Essa é agora
a boa qualidade. No HHIBT, eu enviei
propositalmente a qualidade ruim, mas mesmo com a qualidade ruim, o ChaChiPD pode vê-la e
explicá-la como cinco Portanto, os LLMs também podem
ver, falar e ouvir. Você também pode treinar
diferentes LLMs. Podemos treinar diferentes
LLMs com instruções. Essa é a chamada engenharia
rápida. Também podemos usar
tecnologia direta ou ajuste fino. Quero me aprofundar na engenharia rápida
no próximo vídeo, porque
a
engenharia rápida é muito importante. Neste vídeo, você
aprendeu que os LLMs podem fazer muitas coisas Primeiro, eles podem gerar texto. Em segundo lugar, eles podem resumir o texto. Em terceiro lugar, eles podem criar código ,
também torná-lo menor, e podem usar muitas ferramentas
diferentes
para analisar dados, criar imagens, usar uma calculadora e fazer muitas coisas legais. Pense por si mesmo o que
é mais importante para você. Você pode realizar
tarefas inteiras com um LLM. Pense nisso dessa forma. Você pode escrever uma história sobre uma empresa que faz o
bem, por exemplo. Então você pode fazer
alguns cálculos, como eles farão no futuro. Então você pode fazer algumas
tabelas, como elas estão. E, por fim, você pode fazer uma
foto de um investidor feliz. Esta é uma apresentação completa. Então, JGBT e LLMs podem realmente ajudá-lo muito
6. Engenharia rápida: Vamos falar sobre engenharia
rápida. Este guia vem
diretamente do Opie. Então, a empresa por trás do JCPD. E sim, os modelos JATCPT ou
Op MI, eles também estão incluídos no copiloto
da Microsoft momento, isso está em
alemão, mas é claro que podemos usar o copilot também
na versão em inglês
e, sim, também podemos
usá-lo com fundo branco Este é simplesmente o
tema que eu uso. Posteriormente, vamos usá-lo com
o fundo branco. Vamos voltar
à engenharia rápida. A engenharia rápida é importante porque, se você não
fornecer boas entradas, não obterá boas saídas E eu quero mostrar a vocês
a engenharia
rápida do Microsoft copilot, mas isso funciona
completamente da mesma forma Claro, também no Jet CCPD e em
todos os modelos existentes, porque esses
conceitos são sempre os mesmos Este recurso, você mesmo pode ler
isso, se quiser, mas queremos fazer isso o mais rápido
possível. Não temos tempo para cada técnica de
engenharia rápida, por isso a tornamos rápida. Isso aqui, esse é o exemplo de um aviso muito,
muito ruim. Me dê um artigo
sobre smartphones. Por que esse aviso é ruim? Esse prompt é ruim porque não
fornecemos nenhum contexto. Então, se enviarmos isso
e usarmos, por exemplo, balance aqui, provavelmente
obteremos uma resposta, mas a resposta não é específica porque não fornecemos entradas
específicas E pronto, aí
está nossa produção. Então, aqui está um artigo
do Guardian. E temos simplesmente um artigo. Temos um link no qual
podemos clicar. Agora, esse é um prompt incorreto e precisamos
esperar uma saída ruim. Por que essa saída é ruim? Eu não diria necessariamente que essa é realmente
uma saída ruim. É apenas a saída do
que perguntamos. Pedimos um artigo
e temos um artigo
que não é específico. Talvez você tenha algo em mente que queira
postar no seu blog. Mas você não pode fazer isso
com este artigo. Essa saída é simplesmente ruim porque não
fornecemos nenhum contexto. Agora, vou te dizer
agora que é muito, muito fácil contextualizar. E para contextualizar, você só precisa entender
um princípio fundamental. Esse princípio fundamental é chamado de associação
semântica. O que significa
associação semântica? Vamos supor
que eu diga uma palavra ou duas palavras
ou dez palavras. Vamos supor
que eu diga a você, por exemplo, deus grego. Com essas duas palavras, você tem imediatamente 100
outras palavras em seu cérebro. 100 outras imagens talvez
também em seu cérebro. Você tem diferentes
deuses gregos em sua cabeça. Talvez você também tenha imagens
diferentes de deuses gregos em sua cabeça. Talvez você também tenha
a velha Roma em sua cabeça. Você tem coisas como um
bom corpo na cabeça. Você tem
coisas diferentes na sua cabeça. E esse é basicamente todo
o conceito de engenharia rápida. Precisamos dar contexto. Precisamos usar a associação
semântica porque todos esses
grandes modelos de linguagem, então os copilotos que usam o HHIPT,
todos eles, todos eles, Então, se dissermos a esses LLMs
apenas uma ou duas palavras, eles terão todas as outras
palavras em segundo plano Eles têm isso em
seu conhecimento. Se dissermos, por exemplo,
smartphone, eles têm
muitas palavras diferentes que são semelhantes aos smartphones.
Por que eles têm isso? Porque eles são treinados
em texto, como você sabe. Eles simplesmente
pesquisam o texto em que encontram a palavra
smartphone muitas vezes. Se dermos a eles um
pouco mais de palavras, tudo isso
ficará mais preciso. Podemos dar a eles, por exemplo, palavras como Apple ou Android ou artigo de
blog se você quiser criar um artigo de blog e
muito, muito mais. O conceito-chave
é que, com algumas palavras, você dará muito contexto aos LLMs porque eles
são associativos Vamos dar apenas um exemplo. Nós pressionamos um novo tópico e
começamos do zero. Usamos uma saída balanceada e eu digo ao copiloto
algo assim Esse seria um aviso
que faz muito sentido. Começamos com
algo assim. Você é um especialista em
smartphones. Por que fazemos isso? Isso aqui, isso é
chamado de solicitação de função. Então, damos o modelo de
linguagem grande. Nesse caso, co-piloto
ou HeChipt tem uma função. Então, ele é um especialista em
smartphones. E então damos um
pouco mais de contexto. Você sabe, o Google Pixel
eight pro em detalhes. Por que isso é importante? Porque se dissermos a ele
que ele é especialista em smartphones e conhece o
Google BXeleDP em detalhes, ele pesquisará artigos em
que tudo isso está incluído Assim, obtemos resultados muito,
muito bons para smartphones e o LLM
pesquisará artigos sobre
o Google E então dizemos ao LLM
exatamente o que precisamos. Precisamos de um artigo de 600 palavras sobre por que o pixel eight pro é bom. Queremos ter um artigo
positivo. Isso também é fundamental. Aqui, essa é a associação semântica da
qual falei Claro, tudo isso está relacionado à associação
semântica,
mas especialmente isso Eu apenas incluo três
palavras Gemini nano, LLM e no dispositivo Essas são simplesmente palavras gratuitas
e, se usarmos essas palavras livres, o LLM pesquisará
artigos em que tudo isso esteja incluído, porque,
para mim, isso é importante Esse é um dos principais recursos que torna, pelo menos em minha mente, o Google Pixel Eight P. Tão bom porque
temos o Gemini nano, um modelo de linguagem grande, um modelo de linguagem pequeno, grande
que roda no dispositivo Também podemos incluir coisas
como ausência de latência, se quisermos. Portanto, não se preocupe se
você não o receber agora, pois
receberemos um artigo. Então, se você é um especialista
em coisas assim, você pode simplesmente dizer ao LLM que o
LLM também é um Nós simplesmente dizemos que ele é um
especialista em smartphones. Ele conhece o Google
Pixel oito P, e então damos a ele
algumas palavras que
precisamos ou queremos
incluir em nosso artigo, e o LLM pesquisará
as coisas certas para nós Então, enviamos isso, e tenho certeza de que obtemos uma
saída muito melhor. Obviamente, você também pode
incluir coisas como escrever o artigo para uma 10 anos, se quiser
simplificar
muito, porque, é claro, a associação semântica também
pode fazer isso Então, procuraremos
artigos que sejam muito, muito fáceis de entender. Mas agora eu não
quero fazer isso. Eu simplesmente enviei isso e
receberemos um bom artigo. Talvez possamos incluir isso
também em um site. E aqui temos nosso artigo
e espero que você veja que a saída é completamente
diferente da anterior. Como especialista em smartphones, posso dizer que
o Google BixeleightP é um excelente
dispositivo que oferece uma variedade de recursos e capacidades que o
destacam Aqui estão alguns motivos e assim por diante, então o design e a qualidade de construção,
a câmera, o software, o Gemini nano e
o Portanto, o BixeleightP é alimentado pelo Google Dancers Claro, você
também pode ser mais específico. Como, por exemplo, criar este artigo para o
meu site ou torná-lo um
tópico do Twitter ou algo parecido. Crie o artigo para
um tópico do Twitter. Os leitores são estudantes de
tecnologia, então inclua detalhes. E obteremos
todos os detalhes e o formato será adequado
para um tópico do Twitter. Então, agora você vê,
temos muitos detalhes. Então, falamos sobre o software. Falamos sobre
quantos megapixels e sensores nossa câmera tem
e muito, muito mais E também podemos simplificar as coisas. Digamos que você queira ter
este artigo para crianças de 12 anos Faça o artigo
para uma criança de 12 anos. Provavelmente excluiremos as palavras que são um pouco
duras para nossos rapazes mais novos. Você vê isso imediatamente. Uma das melhores coisas sobre o Google é a
câmera e assim por diante. Não usamos todas essas palavras duras e
obtemos resultados mais fáceis. E isso é basicamente tudo o
que você precisa entender se quiser começar imediatamente
a escrever seus prompts. Você precisa fazer solicitações
estruturadas. Isso aqui, por exemplo, é um prompt de estrutura porque
começamos com uma função. Isso também é chamado de
roll prompting. No próximo vídeo,
darei alguns exemplos mais rápidos. Começamos com a função,
então você é um especialista em X Y e Z e
talvez conheça alguns detalhes Em seguida, usamos nosso prompt de estrutura para dizer ao LLM exatamente o que
precisamos Queremos ter um artigo aproximadamente 600 palavras sobre a
sonda de oito pixels e precisamos saber
por que ele é bom E então acionamos a associação
semântica apenas com algumas palavras Então você não precisa
usar essas palavras. É importante que você
inclua algumas dessas palavras. Então, esse vídeo era sobre engenharia
rápida. Eu só quero
dizer que os LLMs são relativamente
simples de entender porque eles só podem
fazer duas coisas se dividirmos nos princípios fundamentais Eles podem aumentar o texto e
diminuir o texto, e precisamos usar boas instruções
para obter bons resultados Precisamos acionar a associação
semântica. Podemos fazer isso com instruções
estruturadas. Podemos dar, por exemplo, a função de dizer
ao LLM exatamente o que queremos
ter, e precisamos ter
certeza de usar algumas palavras semelhantes
às coisas que gostamos Obviamente, temos
diferentes conceitos de inspiração para Cillian. Temos a cadeia de pensamento, a árvore do pensamento
e muito, muito mais. Tenho outros cursos que
abordam isso em detalhes. Mas neste curso,
eu quero que você possa usá-lo da forma mais rápida e
eficiente possível. No próximo vídeo,
mostrarei mais
um ou dois truques que são importantes para uma engenharia
rápida
e, em seguida, você estará pronto para
dançar o mais rápido possível. Lembre-se de fornecer
contexto para obter um bom resultado.
7. Dicas de engenharia mais rápidas: Neste vídeo, quero dar mais
algumas dicas e truques como criar solicitações eficientes
para CIPD ou, neste exemplo, é
claro, para Então, vamos ver quais truques eu tenho para você trabalhar rápido. Obviamente, você já
viu a solicitação de papel. Então, basta dar uma função ao LLM. Você é especialista em XYZ. Nós abordamos isso
no último vídeo. Mas isso aqui
é completamente novo. A solicitação do tiro. Na solicitação de foto, você simplesmente dá exemplos Agora, o que isso significa? Você pode dizer, por exemplo, você é um especialista em redação, e aqui está uma cópia que eu gosto, e então você simplesmente cola
uma cópia e diz
ao LLM que faça uma
cópia similar para X, Y e Z. E essas duas coisas aqui
são muito, muito legais Respire fundo e
pense passo a passo. Por que essas duas coisas
funcionam? Eu quero explicar. Respire fundo e
pense passo a passo. Você também pode juntar
isso. Isso funciona simplesmente porque
o LLM também pensará passo a passo Isso não é apenas melhor para
você, mas também para o LLM. Vamos dar
um exemplo rápido. Vamos supor que você
queira instalar o BtN, por exemplo, mas não
saiba nada sobre o PyTon Se você simplesmente digitar
como instalar o BTN, a probabilidade é
relativamente grande de obter uma saída que comece em um ponto que você
não entende Talvez eles comecem
com uma etapa que você ainda não entende. Isso não é apenas
problemático para você, mas talvez também para o
grande modelo de linguagem Se o LLM não for treinado
no texto perfeito, sempre
faz sentido dizer
ao LLM que pense
passo a passo, porque o LLM começará com coisas como, por exemplo, vamos abrir
o navegador Chrome Então esse é o primeiro passo. Se você pedir ao LLM
que pense passo a
passo, ou talvez também respire fundo, o LLM simplesmente
começará na primeira etapa, e a primeira etapa
provavelmente abrirá um navegador da web Depois disso, você precisa digitar no Google, por
exemplo, Python E se você ver tudo isso, obterá, em primeiro lugar, um resultado melhor, e o LLM sempre pode associar mais coisas porque
o LLM também tem novas palavras O LLM começa a
digitar coisas como Google Chrome, como pesquisar
por PyTon e assim por diante E, nesse caso, o LLM tem mais coisas em
sua própria janela de contexto Isso é muito,
muito prático. Então, essa é uma dica que eu
realmente não consigo enfatizar o suficiente. Respire fundo
e pense passo a passo. E, a propósito, eu
não invento isso. Existem estudos que
mostram que essas duas palavras, essas duas frases
melhoram a saída, e aí vem uma engraçada. Algo assim também
funciona muito, muito bem. Eu te dou 20
dólares, por exemplo. Então, damos ao Chachi PT, damos ao copiloto, damos
ao LLM uma pequena dica. Damos a ele algum dinheiro ou
pelo menos oferecemos algum dinheiro. Além disso, esta frase
aqui mostra que o LLM cria melhores resultados se dissermos que
simplesmente damos algum dinheiro Agora, não me pergunte
exatamente por que isso funciona. Eu só sei que funciona, e sei que
existem estudos que também dizem
que isso funciona. Então, você precisa
simplesmente entender
adicionando frases como
respirar fundo, pensar passo a passo e eu te dou 20 dólares Você obterá uma melhor
saída do copiloto. Então anote isso. Isso é importante para mim. E o papel que
você já entendeu. Para a sugestão da foto, quero dar um
exemplo agora Pegamos seu novo tópico e vamos supor que eu realmente queira ter uma
cópia de alguma coisa. Podemos começar com
algo assim. Você é um especialista em redação. Eu gosto dessa cópia. Então, simplesmente começamos
com nossa função. Nós damos a ele o papel
de especialista em redação. Eu gosto dessa cópia. E agora incluímos uma
cópia que gostamos e fazemos dessa maneira. Então,
essas coisas
aqui que eu incluo são simplesmente a cópia ou pelo
menos uma parte da cópia
do meu curso de IA. Então, simplesmente temos uma
cópia da qual eu gosto
muito, porque eu mesmo
escrevi essa cópia, e então podemos contar ao LLM
muitas coisas diferentes Eu faço isso um pouco mais curto só para mostrar do que se
trata. Agora, eu também
te mostro um pequeno truque. Resposta, somente com OK. Você pode fazer isso sempre
para economizar alguns tokens. Então, podemos enviar isso e
receberemos uma aprovação de volta. E depois da aprovação, podemos simplesmente contar mais coisas
ao LLM Então, veja, temos a aprovação de volta, e agora eu posso dizer ao LLM o que
queremos agora O LLM tem a cópia ou
pelo menos uma parte da cópia. Lembre-se de que os LLMs são associativos, então eles entendem como
a cópia é estruturada Recebemos nossa permissão para
economizar alguns tokens e agora dizemos ao LLM o que
queremos ter agora Dê-me uma cópia semelhante, mas para um curso chamado
Microsoft Co Pilot. Isso é importante
porque eu uso
muito isso apenas para ter mais
ideias para minhas cópias. Isso é muito,
muito prático. Então, primeiro, você mesmo
escreveu uma cópia ou encontrou uma cópia
na Internet ou qualquer outra coisa. Você dá isso como exemplo e diz ao LLM que
responda apenas com ok Receba sua aprovação de volta e agora você pode solicitar a próxima tarefa. Por exemplo,
me dê uma cópia semelhante, mas para o curso chamado
Microsoft copilot E aqui temos uma cópia similar. Então, bem-vindo ao curso de introdução ao Microsoft Copilot, sua jornada no mundo do preenchimento de código baseado em
IA Se rolarmos para cima, isso começa de
forma semelhante à minha cópia original. Bem-vindo a toda a IA. Fusão
Sabi e desenvolvimento de aplicativos do GPD em meados de um torneio. Você viaja para o mundo
da inteligência artificial. Esta master class é perfeita
para qualquer pessoa e assim por diante. E isso também é
verdade aqui. Este curso é
perfeito para qualquer pessoa. Então você vê que usamos
um estilo similar, mas não exatamente as mesmas palavras. Agora, isso é muito,
muito legal, e essa é a
característica mais forte da solicitação de tiro Vamos voltar a essa coisinha
legal aqui. Então você já viu como
a solicitação de foto funciona. Simplesmente damos exemplos
e obteremos uma saída
semelhante, mas
não a mesma saída. Se você usar a solicitação de foto, não precisará
respirar fundo Você não precisa usar
as coisas passo a passo. E você também não precisa dizer que dá dinheiro
porque tem um bom exemplo e
o LLM pode ser
associativo o suficiente para
entender o que você precisa É mais provável que isso seja verdade
se você não usar exemplos. Se você usa instruções de
papéis normais
, faria muito sentido incluir
respirar fundo, pensar passo a passo ou eu te dou 20 dólares
no final do O conceito-chave é sempre
fornecer contexto. No momento, não tenho certeza de como
escrever isso em inglês, talvez seja um pouco melhor. E você sempre
precisa entender que os tokens não
são ilimitados. Por causa disso,
você já viu
neste pequeno exemplo que usamos algo
como Ok,
então responda apenas com o. Isso é apenas para
economizar alguns tokens. Portanto, você não
quer exemplos infinitos e coisas infinitas que
não fazem muito sentido. Você sempre precisa entender que esses LLMs são
associativos e você obterá respostas precisas ou respostas
curtas se
responder apenas com ok E então você pode fazer
sua próxima pergunta, e é basicamente isso. Então, neste vídeo, você
aprendeu muitos truques legais. Você deve incluir, vamos
pensar passo a passo. Vamos respirar fundo e você também pode
oferecer algum dinheiro. Você obterá melhores resultados
se fizer assim. Se você tiver a chance de dar exemplos de coisas de que gosta, você deve totalmente fazer isso, e isso é chamado
apenas de solicitação de foto O conceito-chave é sempre
acionar a
associação semântica Portanto, você precisa contextualizar, mas ter em mente que seus tokens não
são ilimitados
e, por esse motivo, você
também tem o truque pedir uma
resposta rápida do copiloto Porque lembre-se de que o limite de
tokens sempre conta contra o que você investe
, mas também o que o LLM divulga Tudo isso contará para seu
limite de tokens
e, mais cedo ou mais tarde, seu limite de tokens
será atingido e o LLM não entenderá mais do que você
está falando Muitas dicas e
truques em uma capa, mas eu realmente recomendo que você experimente tudo isso.
8. Como personalizar LLMs com comandos de sistema e RAG (geração aumentada de renovação): Fale sobre o treinamento de LLMs.
Temos duas opções. Podemos treiná-los com instruções ou com tecnologia
direta Primeiro, quero mostrar
o que é tecnologia direta. Em seguida, começamos com as instruções
e, em seguida, usaremos a tecnologia
direta Você já sabe que
temos o chat GPT, simplesmente o
chamamos de GPT E que o GPT pode
responder perguntas. Às vezes, não é inteligente o suficiente, então o GPT pode continuar
usando ferramentas diferentes Você já sabe disso. Por
exemplo, a Internet. Eu posso entrar na Internet
e pesquisar coisas diferentes. Mas digamos que
você queira treinar um GPT com seus próprios dados Digamos apenas em dados
de sua própria empresa ou em seu próprio
texto de marketing ou qualquer outra coisa. Agora você tem duas opções. Você pode fazer
isso com prompts ou com
um banco de dados vetoriais Não explicaremos
um banco de dados vetoriais porque você
aprenderá a usar essas coisas rapidamente. Basicamente, o que você pode fazer é carregar muito
contexto em um arquivo
e, em seguida, o HatchPD navegará em seu arquivo e terá
todo esse conhecimento Quero mostrar
um ou dois truques primeiro nas instruções e
depois em um banco de dados vetoriais A coisa mais fácil se você quiser
personalizar o jachPD é
o prompt do sistema Se você pressionar essa
coisa aqui, poderá usar o GBD personalizado e aqui você terá
o prompt do sistema E você pode simplesmente
preencher isso. O que você gostaria que o JCPT soubesse sobre você para fornecer respostas
melhores E se você
pressioná-los, op Mey ajuda você. Onde você está baseado? O que você faz para trabalhar?
Quais são seus hobbies quais assuntos você pode falar por horas e quais são
alguns dos seus objetivos? Então, basta digitar isso e JCPT fornecerá outras
saídas, saídas melhores Vamos apenas dar um exemplo. Eu moro na Itália
, mas falo alemão. Sou educador de IA. Meus interesses são
LLMs e difusão. Gosto de falar sobre IA. Meu objetivo é fazer
um bom curso. E então a próxima coisa
é ainda mais importante. Como você gostaria que o
HHipT respondesse? Se você pressionar, quão formal ou casual deve ser o HeChipt Quão longas ou curtas
devem ser as respostas? Como você quer ser tratado? O HGPD deve ter opiniões sobre
tópicos ou permanecer neutro? Você permanece neutro.
Pode me chamar de Arnie Suas respostas são curtas e,
se possível, resumidas. Agora pressionamos com segurança e agora nosso modelo é treinado
em nossos dados específicos. O modelo simplesmente reage
de forma um pouco diferente. Então, vamos fazer um teste rápido. HPD, você pode me dar algumas
informações sobre a eleição? Também usamos a pesquisa na web? Porque tivemos a eleição
neste momento em que estou
gravando este curso. Estamos pesquisando e
o ChaChipt me
diz que
5 de novembro foi a eleição Então, veja, é muito, muito curto e conciso e
temos alguns links Agora ChaChipt
não me chama de Arnie. Agora, por que isso?
Eu vou te mostrar. Se entrarmos em um novo
bate-papo e fizermos isso sem a pesquisa e
fizermos outra coisa, vamos dar um
exemplo diferente, porque isso não
funciona muito bem
se usarmos a pesquisa na web. Ei, GBD, eu quero
comercializar um curso. Me dê alguns exemplos de
como fazer isso. Eu acho que o Jet GBD me
diz agora: Ei, Arnie, você pode tentar isso,
depois alguns
tópicos como boost nas mídias
sociais e assim por diante Ei, Arnie, tudo
bem. Vamos mergulhar em um
marketing poderoso e assim por diante. Use prévias envolventes de
mídias sociais, realize um webinar gratuito, aproveite o marketing por e-mail,
crie um ímã de leads, colabore com
influenciadores Então você vê que é curto, conciso, e o Jet
GBD chama M Esse é basicamente
o prompt do sistema
e, com o prompt do sistema, você pode personalizar o HHIPD Obviamente, você também pode
usar a solicitação de foto, mas eu já contei
como a solicitação de foto Basta dar um exemplo. Agora, quero mostrar como
a tecnologia RC funciona porque essa é a ferramenta
mais poderosa se você quiser treinar um LLM Agora, no HachiPD neste momento, acho que esse é um recurso do Bit Você pode pressionar o Explorer GPD e pesquisar o GPD.
Você já sabe disso. Mas você também pode pressionar
Creator GPD ou acessar meu GPD se já
tiver Eu só quero te mostrar um GPD. Por exemplo, esse prompt de
difusão GPD,
ele é especificamente treinado para
escrever prompts para modelos Modelos de difusão fazem fotos. Se eu pressionar aqui em CAT, receberei uma solicitação para um
CAT e a solicitação será especificamente adaptada
para o meio da viagem e também incluirá
lentes de câmera e assim por diante. Então, aqui você vê, este
é um aviso perfeito, e com esse aviso perfeito, eu posso usá-lo para fazer boas fotos em
um modelo de difusão Agora eu quero mostrar a
vocês como isso funciona, como podemos treinar essas coisas. Se voltarmos
novamente ao Explorer GPD,
meu GPD, acessamos
essas instruções de difusão
e pressionamos Editar GPD. Você vê que podemos dar
um nome, a descrição e, em
seguida, as instruções, de
como o GPD deve se comportar E, por fim, também podemos fazer upload documentos
onde damos exemplos Vamos fazer isso
agora do zero. Nós damos um exemplo.
Digamos que somos uma empresa e, nessa empresa, queremos ter um GPD que faça a integração para
nós. Então crie. Não vamos em Criar,
mas em configurar. Chamamos isso de integração. A bordo de novos membros, quero
fazer isso de forma muito simples. Você é o CEO da
empresa AI With Arnie. Seu objetivo é integrar pessoas. Se eles tiverem dúvidas, você pesquisa seu conhecimento
e fornece informações. Então, isso é basicamente um prompt de sistema
muito simples que podemos dar aqui. Agora podemos dar, por exemplo, o início de uma
conversa
na Zona, se quisermos Todas as pessoas que
tentam trabalhar na minha empresa simplesmente me fazem
essas duas perguntas. Onde fica o banheiro
e quando é o almoço? Então, essas são algumas perguntas
iniciais, como, vá lá, você pode pensar
sobre isso sozinho, o que deseja incluir. Depois, o conhecimento, agora
podemos fazer upload de arquivos. E agora criamos um arquivo simples. Isso pode ser um PDF. Isso pode ser um
arquivo de texto ou algo assim. Nós simplesmente fazemos isso com um arquivo de texto simples que
estou criando agora, e aqui eu escrevo algumas informações, mas isso também pode ser um grande PDF com 50 páginas ou algo assim E essas são as informações que
as pessoas precisam saber. O banheiro não está aqui. Não precisamos
estar em nossa empresa. Almoçamos quando o trabalho termina. Trabalhamos sete dias por semana. Não temos feriados. Se você quiser mais informações, clique aqui, e aqui basicamente
também podemos fornecer um link, se quisermos. Eu só faço isso com minha comunidade escolar
gratuita, mas isso é em alemão. Então, vamos dar um exemplo. Nós incluímos isso aqui. Agora salvamos isso,
voltamos ao Jet GPD e carregamos
nosso conhecimento Então, faça o upload dos arquivos. Isso
é basicamente o arquivo. Agora também podemos usar outras ferramentas. Não precisamos da
pesquisa na web e não precisamos do Dali como gerador de imagens
para esse GPD Mas vamos
supor que
você queira incluir a análise de dados. Mas também acho que isso
não é realmente necessário. O que você também pode fazer se for um programador é
criar novas ações, mas acho que esse não é realmente o objetivo desse pequeno curso
rápido Se você pressionar e
criar novas ações, poderá basicamente inserir peichm e incluir
o URL diferente Basicamente, você também pode chamar
diferentes APIs e inicializar. Mas, como eu disse, esse
não é o ponto agora. Pressionamos Criar, fornecemos um link a
qualquer pessoa
e pressionamos com segurança. Este é o link que
podemos compartilhar com as pessoas que trabalham
em nossa empresa, e nós pressionamos para ver GBD. E então podemos simplesmente perguntar,
então, onde fica o banheiro? E se eu perguntar, o que o
GPD dirá
provavelmente que a empresa
não tem banheiro Então, basicamente, você
pode ver isso aqui. Parece que nossa empresa não possui banheiros projetados Eu comecei, o
banheiro não está aqui. Não precisamos fazer
xixi na nossa empresa. E se você quiser mais informações, você pode clicar neste link
e, basicamente, você está aqui. Então, a próxima
pergunta,
digamos , quando teremos férias? Trabalhamos sete dias por semana e sempre temos o
link para nossa empresa. Agora, digamos que você não queira mais ter esse link. Você também pode fazer
isso aqui. Você sempre pode
personalizar o GPT. Explore o GPT, meu GPT, depois aqui no Editar GPT, e aqui no Configure, você só fornece o link se as pessoas perguntarem sobre mais
informações Veja o GPD quando temos férias, não
temos feriados em nossa empresa e trabalhamos
sete dias por semana É basicamente assim
que você pode treinar um LLM. Você pode usar
os prompts do sistema e digitar como o ChtGBD deve Em seguida, você pode usar as instruções
normais
na interface com
a solicitação de captura Você já sabe disso. E, por fim, você também pode usar tecnologia
direta e
treinar seu próprio GPD E esse GPD, você também
pode compartilhá-lo com outras pessoas para que você
possa enviar o link para elas Essa é a chamada tecnologia
direta. Aqui funciona um banco de dados vetoriais. Não precisamos nos
aprofundar nisso, mas fique claro. Você pode dar instruções
e fazer upload de arquivos, para que o GPD do chat possa
navegar por esses arquivos e ter informações específicas sobre
você ou sua E sim, trabalhar na minha
empresa não é divertido.
9. Perplexidade e abraço: Se quiser explorar mais
ferramentas nas quais você pode usar LLMs, você pode dar uma
olhada mais de perto no chat do Hugging O Hugging Chat é
muito fácil de usar. Aqui você pode pressionar qual LLM
de código aberto você deseja usar. Por exemplo, o Lama 3.1, o modelo 70 B, um modelo Quin, alguns modelos da MNVdia ou alguns modelos Basta clicar no modelo
que você deseja usar. Você pode digitar um
prompt do sistema, se quiser, e pressionar Novo CAT. E aqui você também tem ferramentas. Então, sim, eles também podem usar ferramentas
diferentes, como o HGBD. Eles podem usar um
modelo de difusão para gerar imagens. Você pode incluir editores de imagem. Eles podem obter RL. Você
tem um documento, barras, uma calculadora
e uma pesquisa na web. Então, isso é basicamente
como um HIPT de código aberto
para sempre gratuito E então temos perplexidade. A perplexidade é semelhante à pesquisa
HHIBT. Você pode brincar um pouco com
isso. Eu não uso mais essa
ferramenta porque HHIBT também é relativamente bom
agora com essa ferramenta de pesquisa, mas você pode tentar
perplexidade Você também pode começar de graça. Você não precisa
criar uma conta. Comece de graça,
veja do que você gosta e talvez continue
com alguma coisa.
10. Os desenvolvedores podem usar LLMs por meio da API OpenAI: Você é um desenvolvedor, também
pode incluir o HCBT em seus próprios aplicativos Você pode usá-lo no
OpmiPlayground. Talvez isso também seja
interessante para você se você quiser usar os modelos HHIBT
mais novos, mas não quiser
pagar 20 dólares Neste playground, você
pode simplesmente pagar à medida que avança, você paga por ficha. E quero mostrar
quanto você precisa pagar, funciona e
como você
pode fazer chamadas ABI para o HGBT A primeira coisa é que você
acesse essa plataforma. Então, a plataforma domi.com corta o
PlayGround e aqui você pode
jogar com todos os seus modelos No chat, você pode jogar
com os modelos do chat. Você pode usar os mais novos. Então, GPD quatro mini, GPD 40 e assim por diante, você pode selecionar
o que quiser Você também pode importar funções. Então, sim, você também pode fazer chamadas de
funções
se for um programador Eu só quero fazer isso
rápido. Por favor, me desculpe. Em seguida, formato de resposta, agora é texto,
mas você também pode usar
JASnfmat e
assim mas você também pode usar
JASnfmat e Aqui temos temperatura
e comprimento máximo. Você pode simplesmente ler
isso por si mesmo. Basicamente, se você
diminuir a temperatura, JGIPD será mais preciso, mas pode ser um
pouco repetitivo, especialmente para
tarefas matemáticas, isso é E o comprimento do contexto
é simplesmente a saída. Então, quanto tempo pode
ser a saída que o ChaChiPD fornece? Essas são as
configurações mais importantes aqui. Então, aqui no
meio, você vê que tem as
instruções do sistema, então essa é basicamente
a promoção do sistema, assim como as instruções personalizadas que mostrei
no último vídeo Então você é um
assistente útil, por exemplo, e aqui você pode digitar
seu texto normalmente. Conte-me uma história sobre
tartarugas no deserto. Você pressiona Executar e, em seguida, o
ChatBT basicamente falará você e você poderá usar sempre os modelos mais novos,
sem limite, e sempre pagará conforme Eu quero te mostrar
quanto isso custa. Se entrarmos nesta seção de
preços, veremos que podemos usar o
GPD 40, por exemplo, e precisamos pagar $2,50 por 1 milhão em tokens de entrada
e $10 em tokens E cada modelo tem seus preços
diferentes. Se você rolar para baixo, por exemplo, também
poderá ligar para
os outros modelos. Você pode usar o modelo
GPD 40 Mini. Isso é muito, muito barato. Você pode usar a pré-visualização do Obo. Isso fica um
pouco mais caro. Você pode usar a API em tempo real. Isso é muito caro. Então, aqui ele pode subir até $200 por 1 milhão de tokens de
saída Isso é simplesmente se o HHIBT
falar com você, ou
seja, no formato de áudio, você também pode
gerar imagens com o Dali se
ligar para os terminais
e pagar $0,04 e pagar Se voltarmos aqui,
quero mostrar
no canto esquerdo que você
tem aqui em tempo real. Assim, você pode pressionar
em tempo real e também conversar
aqui com esses modelos. Me dê uma pequena
piada, eu quero rir. Claro. Aqui está uma
piadinha para você Por que você não pode dar
um balão para Elsa ? Porque
ela vai deixar pra lá. Então é basicamente isso, e aqui precisamos
pagar pela reprodução. Então temos a ajuda. Essa assistência, basicamente, é exatamente a mesma
coisa que esses CPDs, então podemos incluir o Ruck
e todas essas E também podemos criar nossos próprios
aplicativos com eles. Se entrarmos na conversão de texto em fala, você pode digitar o texto e
receberá a fala de volta. Então, ei, eu odeio o GPD, basicamente, eu
quero gerá-lo Hat GBT, eu gosto de você. E aí você pode ouvir isso. Alloway nos diz essas
coisas que digitamos aqui. Ei, isso é LGBT, eu gosto de você. E também temos o modo de
conclusão aqui. Se você quiser usar isso, você precisa pressionar em sua conta. Você precisa
pressionar seu perfil, prosseguir com o faturamento e aqui
inserir seu cartão de crédito Então, basta pressionar as formas de
pagamento e aqui você precisa
incluir seu cartão de crédito. Então você precisa dar
um pouco de equilíbrio ao HatchiPT, e então essa coisa
funcionará para Obviamente, você
também pode definir alguns limites. Se você seguir os limites, poderá
dar alguns limites ao HAChPT. No momento, tenho 500
dólares por mês como limite. Se você pressionar o uso, sempre poderá ver
quanto custa por dia. Então esse foi um dia
em que eu tive que pagar cinco dólares porque eu também
tenho alguns chatbots, e aqui um chatbot falou muito E então, se formos em outubro, esse também é o
uso de outubro, então agora são 28 dólares Esses são chatbots que eu
incluí em alguns sites e as pessoas estão usando esses chatbots e é por isso que eu preciso
pagar um pouco Se você jogar um pouco com
essa coisa, acho que
jogará apenas alguns centavos. Aqui você pode ver que com $0,13 você pode jogar
com esses modelos Você volta aqui
para o seu painel também pode ver que pode
fazer muito mais coisas aqui. Você pode fazer o ajuste fino e aqui você pode ajustar
seu próprio modelo, se quiser. Esse não é realmente o
objetivo deste curso. Mas se você usar chaves de API, também
poderá fazer
chamadas para a API. Então você só precisa
criar uma nova chave secreta. Você dá um nome a ela
e depois pode copiar sua chave de API e chamá-la
em seus próprios aplicativos. Se você é um desenvolvedor, basta acessar a documentação. Você pode seguir para o início rápido e aqui eles explicam
o que você precisa fazer Você precisa criar uma chave de API. Então você pode chamar esses
endpoints, por exemplo, no PyTNPP instale o Opmei,
essa é E aqui você pode
ver, por exemplo, se quiser gerar texto
em seu próprio aplicativo, você pode usar o Ashima dessa forma Se você quiser
gerar uma imagem, você pode usar algo assim. Chamaríamos Dali, por exemplo, e se você quiser criar incorporações
vetoriais, pode chamar É muito fácil com
esse início rápido. Portanto, se você é um desenvolvedor, a API do Opmeei é
muito fácil de usar e você pode chamá-la com
JavaScript com Piton ou com Curl Se você não é um desenvolvedor, essa plataforma provavelmente não é para, mas, de um modo geral,
é relativamente fácil. Gosto, por exemplo, de fluir em termos de fluxo e usar a API OMI
para criar agentes de IA. Mas, como eu disse, isso
não é um mergulho profundo completo. Se você quiser aprender
isso o mais rápido possível, essa plataforma talvez seja
uma opção para você se você não quiser
pagar 20 dólares por
mês pela
interface do HGPTplus, porque aqui você pode trabalhar com os
modelos mais novos e
pagar apenas pelos tokens
que pagar apenas pelos tokens E os tokens são relativamente
baratos de gerar. Assim, você pode jogar um pouco com essa
plataforma e ver se
é para você ou não. E, claro,
todos os outros LLMs também têm suas próprias APIs Portanto, o Google também tem a API
para os modelos Gemini. A Andthropic tem a API
para os modelos de nuvem. E se você quiser trabalhar
com um LLM de código aberto, você pode usar, por
exemplo, a API Grock, ou você também pode criar
seu próprio servidor com,
por exemplo, o ALM
Studio ou Então você tem infinitas opções. Você pode criar seus próprios endpoints se os usar localmente em seu PC ou
usar diferentes chamadas de API Como eu disse, isso é mais como um guia geral
para desenvolvedores, se você quiser desenvolver com essas coisas e, se
não, pule este vídeo
11. Recapitulação de LLMs: Nesta seção, você
aprendeu muito e nós fizemos isso o mais rápido
possível. Começamos com
todas as interfaces desses diferentes LLMs, e você sabe que existem muitas Cha ChipD clot, Gemini, você também pode usar Oma,
você pode usar Você pode usar várias interfaces
diferentes, até mesmo abraçar o bate-papo
e muito, muito mais Todos eles funcionam de
forma relativamente semelhante. Você sempre tem uma
pequena interface de bate-papo agradável. Os LLMs podem basicamente
fazer apenas duas coisas. Eles podem expandir o texto ou
torná-lo menor. Mas isso é grande.
Você pode usar código, você pode usar texto normal. Você pode criar tabelas e os
LLMs também podem chamar ferramentas. E as ferramentas podem ser, por exemplo, um intérprete de bits,
um modelo de difusão ,
a Internet, e você
pode analisar dados, criar gráficos e fazer muitas coisas legais
com essas coisas Talvez no futuro, eles se tornem um sistema operacional completamente novo
e, a propósito, os LLMs
também possam conversar entre si
e, em seguida, os chamemos de agentes E você também aprendeu que os
LLMs são multimodelos. Eles podem basicamente
ver, falar e ouvir. Só obtenha uma boa saída se
você fornecer uma boa entrada. E eu te mostrei o básico
da engenharia rápida. Lembre-se da associação
semântica. Você precisa dar contexto. Você pode fazer isso por meio da
solicitação de arremesso, ou seja, da solicitação de rolagem. Você deve
estruturar seus prompts, e há algumas dicas como, por exemplo, pensar passo a passo Além disso, também temos
a cadeia de pensamento, a árvore do pensamento, a engenharia reversa rápida
e muito, muito mais. Mas acho que para a maioria das
pessoas, isso é um exagero. Isso não é realmente necessário. Se você quiser personalizar o reino, você pode totalmente fazer isso A maneira mais fácil é provavelmente
o prompt do sistema. Você pode simplesmente dar
algumas instruções. Então, temos a tecnologia direta, então podemos simplesmente carregar
dados e, em seguida, que o CPD ou qualquer outro
LLM possa navegar esses dados e simplesmente
reagir de uma maneira específica Obviamente, se você
for um desenvolvedor, poderá fazer tudo isso
também pela API. Você pode desenvolver seus
próprios aplicativos e fazer tudo isso também em
seus próprios aplicativos. Você pode fazer chamadas de funções
em seus próprios aplicativos. Você pode criar agentes
completos com seus próprios aplicativos com
ferramentas como o flow wise. Você pode criar imagens dentro
de seus próprios aplicativos. Você pode usar a visão seus próprios aplicativos,
você pode fazer tudo isso. Você aprendeu o
básico desses LLMs. Eles podem fazer muitas coisas, e eu acho que você deveria começar. Basta usá-los
porque lembre-se de que você só aprende se
mudar seu comportamento. Ganhar significa as mesmas circunstâncias
, mas um comportamento diferente. Talvez você não soubesse como
usar LLMs, agora você sabe disso. Você só aprende se fizer isso. Se você quiser ser
um biscoito inteligente, pode simplesmente compartilhar este curso porque mais pessoas conhecem
sempre mais pessoas do que veem pessoas, para que todos possam aprender juntos. Obrigado por isso,
e nos vemos no próximo vídeo
porque foi isso para Llams, agora começamos a criar imagens com modelos de
difusão
12. O modelo de difusão explicado: A seção é sobre modelos de
difusão, e existem muitos modelos de
difusão por aí. Temos Dali, temos Imagen,
temos difusão estável
. Nós temos a Sra Ra faz vídeos. Temos modelos de midJourney
e difusão que também
podem fazer música e, claro, também áudio Então, basicamente,
o que fazemos é mostrar o
processo de difusão neste vídeo
e, em seguida, nos
aprofundaremos em alguns dos melhores modelos de
difusão Então, primeiro, como os modelos de
difusão funcionam, e fazemos isso de forma muito
fácil e rápida Então, eu encontrei um artigo muito, muito bom para o Medium. Tudo que eu preciso é essa
foto aqui. Vamos supor que temos um computador
grande e treinamos nosso computador em imagens
em imagens como esta. Então, damos ao computador
imagens, por exemplo, dessa praia e a
descrevemos com um texto. Damos a imagem ao computador e dizemos que talvez seja uma praia com
o oceano azul, o céu azul. Há um pouco de verde
nas montanhas e assim por diante. Somos muito, muito específicos. Depois disso, adicionamos um pouco de
ruído à imagem, como você vê aqui, mas ainda descrevemos o que está
na imagem. Então, uma praia, oceano azul, céu
azul e assim por diante. Mais ruído, mesmo texto, mais ruído, mesmo texto, mais ruído, mesmo texto
até que você receba apenas ruído. Nesse processo, o computador aprende como essas
imagens se parecem Nesse processo, ele
simplesmente entende que as palavras que você deu ao computador resultam nessa imagem. Então, podemos reverter isso. Se tivéssemos apenas barulho e disséssemos ao
computador uma praia, céu
azul, oceano azul. Há um pouco de verde
nas montanhas e assim por diante. O computador pode reverter isso e tirar do
barulho essa imagem. Claro, não fazemos isso
com apenas uma foto. Tentamos dar ao computador todas as imagens que podemos encontrar. E existem, é claro,
diferentes modelos de difusão. Por exemplo,
também há o Adobe Firefly. O Adobe Firefly é treinado em
imagens do Adobe Stock. A difusão estável é
de código aberto e gratuita. Todo mundo pode usá-lo. E a difusão estável foi treinada em imagens
da Internet E por causa disso, também podemos criar quase tudo o
que está na Internet. Podemos criar até celebridades. Podemos criar material de
trabalho do NSafeF e assim por diante. A difusão estável não
é restrita. Quase tudo o que
está na Internet, podemos criar com difusão
estável se
dermos as instruções corretas As instruções são as
descrições que
damos ao computador para
fazer nossa foto E, nesse caso,
é muito, muito importante dar boas instruções porque
precisamos de boas fotos Se não formos específicos, podemos criar imagens
parecidas com esta. Se simplesmente contarmos talvez uma praia, obteremos uma praia aleatória. Se dissermos a ele uma praia, oceano
azul, um céu azul e assim por diante, obteremos
exatamente essa imagem. Uma ilustração rápida
desse processo porque algumas pessoas gostam dessa
ilustração, eu a uso muito. Imagine que você se deita no chão e
olha para o céu. Ao seu lado está sua namorada seu namorado ou
quem você quiser E ela diz para você: Você
pode ver essa nuvem? Parece um pouco uma maçã, mas você não entende. Você não vê a maçã. Mas então ela
lhe diz, é claro, basta olhar, aqui está a maçã, e então você começa a
entender que vê a nuvem, e agora seus olhos veem uma maçã porque seu cérebro
está treinado em maçãs. Seu cérebro provavelmente
sabe como é a aparência da maçã, e então você vê a
maçã na nuvem. Mesmo que não haja maçã lá. E se sua namorada não disser que
talvez seja uma maçã verde, talvez você pense em uma maçã vermelha, e é exatamente por isso que
precisamos usar uma boa engenharia
rápida. Porque se não
formos específicos, obteremos fotos aleatórias. Se você quiser ter
uma maçã verde, você precisa dizer
ao computador que você
quer uma maçã verde. Assim como sua
namorada precisa te dizer que a maçã
nas nuvens é verde. Se ela não te contar isso, talvez você pense
em uma maçã vermelha, talvez em uma maçã verde, talvez até em uma
maçã amarela que você não conhece, então você precisa ser específico. Então, neste vídeo, demos uma olhada rápida no modelo de
difusão O modelo de difusão
funciona de forma simples. É treinado em
imagens e em texto. Em seguida, o ruído é adicionado. O computador aprende
nesse processo como essa
imagem se parece E se fornecermos um texto ao
computador depois, ele poderá criar essas
imagens porque selecionará aleatoriamente
os pixels adequados para nossa imagem Espero que isso faça sentido para você.
13. Engenharia rápida para modelos de difusão: começando com DALL E: Neste vídeo, começamos a usar
nosso primeiro modelo de difusão e queremos começar com o Dali
porque o Dali é o
mais fácil O Dali trabalha dentro do
JathPT, então já conhecemos a interface e os
prompts são muito
fáceis de escrever porque
o fáceis de escrever porque Portanto, o LLM ajudará você a
criar solicitações melhores. A primeira coisa
que você pode fazer é, obviamente, simplesmente
entrar no JathPT Você pode trabalhar com o JathPto
multimodelo
normal explorar o GPT e
pesquisar Se você continuar comprando o HatchPT, você pode pressionar Dali e
aqui você pode iniciar E aqui você pode
criar suas fotos. Você pode adicionar aqui coisas para suas instruções e também pode
usar proporções diferentes Vamos usar a tela ampla. E agora eu só quero começar
com um prompt bem simples. Eu só quero digitar CAT. Deixamos a
proporção branca, enviamos
e depois
recuperamos
nossa primeira foto . E aí está. Aqui estão nossas duas primeiras fotos. Agora, se você
pressionar essa imagem, poderá ver exatamente qual
prompt gerou esse Então, se você pressioná-los
aqui, esse é o prompt. Uma imagem
branca lindamente detalhada mostra um gato da chuva sentado perto de
uma janela com
luz solar suave e assim por diante Então, você vê que o prompt
é muito detalhado, e eu quero
mostrar como precisamos escrever prompts para
esse modelo de difusão Lembre-se de que, em Dali,
é muito fácil porque Chachi BT ajuda você a escrever instruções
tão bonitas
e, então, criar boas fotos não é realmente mágica Dali não é o melhor modelo de
difusão, mas é o mais fácil de usar Se você quiser escrever boas
instruções sozinho, dê uma olhada nelas Você precisa incluir
assunto, meio, ambiente, iluminação,
cor, humor e composição O que tudo isso significa. Assim, você pode fazer
fotos de pessoas, animais, personagens, locais, objetos e assim por diante. O meio pode ser uma foto e uma ilustração
ou outra coisa. O ambiente pode estar ao ar livre na lua
ou em outro lugar. Os relâmpagos podem
ser luzes de estúdio, luzes néon ou qualquer outra coisa As cores podem ser vibrantes, coloridas, preto e
branco e assim por diante. O clima para que o gato possa estar, por exemplo, calmo ou pacífico
ou algo parecido. E a composição pode ser, por exemplo, uma visão de corpo inteiro. Portanto, certifique-se de
incluir essas coisas. Você não precisa
incluir essas coisas, mas se não as incluir, as imagens
serão mais aleatórias. Assim, você pode tirar uma foto
ou uma ilustração. Se você não vê isso especificamente,
tudo pode acontecer. Também existem guias de
solicitação maiores. E você pode incluir
coisas como assunto, ações,
opções de ambiente, cor, estilo, humor,
iluminação, perspectiva
ou texturas de pontos de vista, período de
tempo, elementos
culturais, emoções, meio,
roupas, texto e Este é um guia de
inspiração gigantesco. Eu só quero deixar você com isso para que você possa
lê-lo sozinho. Mas se você quiser fazer isso rápido, pense nas coisas porque essas
coisas são mais importantes. Um exemplo que poderia funcionar
é algo assim. Uma ilustração de um gato relaxado em uma cidade
em cores vibrantes, visão de corpo
inteiro na hora dourada
com uma proporção de 16 para nove pec Então, se simplesmente os
copiarmos, podemos jogá-los no Ali. Então, de volta ao Ali, nós o incluímos e, em seguida,
obtemos uma saída específica. E mesmo aqui, o ChatBT
ajudará você a criar
prompts ainda melhores Mas esse é um aviso que funciona em todos os modelos de difusão As técnicas de solicitação
funcionam sempre da mesma forma. E aqui você vê agora que temos uma imagem muito específica. Temos exatamente a foto
que queríamos ter. E se você clicar nele
e acessar o prompt, verá que o JetPD torna
seu prompt ainda melhor Você pode melhorar ainda mais
as instruções incluindo algumas palavras mágicas Por exemplo, granulação de filme
cinematográfico, relâmpagos
ultrarrealistas e
dramáticos Você pode usar fotos e lentes de
câmera diferentes se
quiser o ponto de vista, a foto do drone e assim por diante. Pode usar câmeras com aparência
cinematográfica. Você pode usar
cineastas diferentes. Você pode usar Gêneros. Você pode usar palavras-chave
para movimentos, por exemplo, cena de ação. Você pode usar
fotógrafos diferentes,
por exemplo, fotógrafos esportivos Você pode usar câmeras
com cenas de ação, por exemplo, a canon EOS, uma D X, Mark two Você pode usar todos esses relâmpagos
diferentes, como luzes brilhantes,
quentes, frias,
relâmpagos discretos e assim por diante Você pode usar o ener dourado e usar todas
essas emoções diferentes. Portanto, certifique-se de incluir
o que você deseja ver. Isso é o mais
importante porque todos
esses
modelos de difusão são treinados em imagens com
descrições detalhadas
e, se você fizer uma descrição
detalhada, também receberá o que deseja Se você simplesmente digitar gato, o gato pode ser aleatório. E agora eu quero mostrar a vocês mais
uma vez essas instruções de
difusão Espero que você saiba
como fazemos isso. Isso ajuda na engenharia
rápida. Se digitarmos a estaca aqui, receberemos uma
solicitação detalhada de uma estaca, e você já sabe
como isso funciona. Se eu simplesmente
copiá-los, é claro, posso colocá-los
na interface do Dali e depois recuperarei
uma foto na escola Então, vamos
colocá-los aqui. A taxa de especificação está
agora, uma por uma. Essas são as configurações de devolução, e esse prompt
funcionará muito bem porque
treinamos esse GPT Você já sabe como
treinar esse GPT e agora quero
mostrar os dados de treinamento Mas primeiro, vamos
dar uma olhada na estaca. O palco é muito
bom porque
também incluímos câmeras com lentes de
câmera e assim por diante. Se continuarmos com as instruções de
difusão, eu simplesmente
indico nas instruções que esse GPD precisa
dar boas E então eu carrego este documento, e este documento é
uma estrutura completa como o LLM deve
estruturar esses prompts Meus dados de treinamento são
mais ou menos assim. O prompt estrutura um
meio de assunto com as características relacionadas ao plano de fundo, depois ao plano de fundo, detalhes
do fundo, interações com
cores e raios
e, em seguida, assume ou desenha com traços
específicos de estilo Eu dou algumas descrições, depois alguns exemplos que eu gosto. E, por fim, é claro, incluo todas as pequenas palavras-chave que tornam essas imagens melhores Você pode simplesmente usar meu GPT se
não tiver tempo
para treinar seu próprio GPD, e eu simplesmente
vincularei esse GPT Assim, você pode fazer instruções muito
boas com muita rapidez. Portanto, neste vídeo,
você aprendeu a usar qualquer modelo de difusão É importante
escrever um bom aviso, e um bom aviso deve
ser específico com tema,
meio, ambiente,
iluminação, cor, humor,
composição e, eventualmente,
também a proporção da imagem. E se você não quiser
escrever essas instruções sozinho, você pode usar o ALE, e o HechPT o
ajudará automaticamente E se você quiser escrever instruções
realmente boas
também para todos os
outros modelos de difusão,
você pode simplesmente usar o MGPD
e obter melhores resultados também para todos os
outros modelos de difusão, você pode simplesmente usar o MGPD
e obter E no próximo vídeo, quero
mostrar o básico do Maturne ALE é o mais fácil de usar e o Mahoney pode fazer
muito mais coisas. E eu
recomendo fortemente que você faça sua primeira foto no DLI
agora , porque você
aprende mais fazendo
14. Noções básicas do Midjourney: Neste vídeo, eu quero
falar sobre Mi hourney. Na minha opinião, o Mi Journey é um dos melhores modelos de
difusão, especialmente se você quiser
fazer fotos realistas A primeira coisa que você precisa
fazer é acessar a página da web deles Agora, neste Minish, você pode experimentar isso
totalmente de graça Acho que você pode fazer
cerca de 30 fotos gratuitamente na página deles Você precisa acessar
mimichourny.com
e criar sua conta Você pode simplesmente fazer login
com o Google. Assim que você tiver
criado suas 30 fotos, provavelmente precisará
atualizar seu plano. Acho que custa
nove dólares por mês. Se você estiver no Explore, poderá ver o que outras
pessoas estão fazendo
e, ao ver as fotos,
elas parecem muito boas. Você também pode pesquisar
e pesquisar, por
exemplo, cães, e depois
encontrar algumas fotos sobre cães. A próxima coisa é que você pode pesquisar as melhores do dia a dia e as curtidas, e então você pode simplesmente encontrar por
si mesmo o que gosta. Se você quiser criar algo, você deve passar a criar. Aqui estão as fotos que
você já criou. Provavelmente, você não tem nenhum. E se você quiser
criar novas fotos, você precisa digitar
seu prompt aqui. Então você simplesmente digita
o que deseja ver. Eu só quero executar
com esse prompt aqui. Cabeça de veado de Natal com rosa, laço e ira de Natal Aquarela pastel
sobre fundo branco no estilo e assim por diante A próxima coisa que você
pode fazer é pressionar aqui, e aqui você tem algumas configurações. Então, você pode fazer isso na
proporção que desejar. Digamos que um por um ou 16 por nove, porque podemos ver isso um pouco
melhor em um curso. Então você tem o modo. Você pode usar o modo padrão
ou o modo bruto. O modo bruto é melhor
para coisas realistas. Você pode usar versões diferentes. Normalmente, sempre
usamos os mais novos, por exemplo, 6.1 neste
momento Isso é personalizado; portanto, se você já criou
muitas fotos, pode adaptar seu estilo. Então você tem estilização, e se você não
sabe o que isso significa, basta passar o mouse sobre ela Mid Churney pode adicionar um estilo
específico no meio da viagem
e, se você aumentá-lo,
terá mais estilo A selvageria pode fazer com que você gere resultados
inesperados e
a variedade em sua grade Então você cria quatro imagens, e se você usar
essa variedade, essas imagens vão variar um
pouco na sua grade. Então você tem rápido e Durbo
simplesmente deixa agir, e então criamos
nossa primeira foto Se enviarmos isso,
podemos criar isso. E enquanto isso está criando, quero mostrar a vocês o
assento porque o cenário é sempre o primeiro
ponto de partida de cada foto. Se pressionarmos sobre eles
e digitarmos no assento do painel. Podemos usar um assento aleatório, por exemplo, aqui. E agora teremos duas fotos
diferentes. Esta foto não será completamente
igual a esta foto, mas se eu fizer isso mais uma vez e também usar novamente
o mesmo assento, recriaremos exatamente a
mesma foto novamente Deixe-me mostrar um
breve momento, porque o assento é importante se você quiser
criar consistência de personagens. Então, se você for até aqui, essas são as primeiras
quatro fotos. Neste Natal, os veados são legais. Agora são os quatro segundos, e você vê que eles não são completamente
iguais aos primeiros. Então você vê que estamos um
pouco mais perto. Geralmente, eles são semelhantes
, mas não são os mesmos. Mas agora, se subirmos até aqui, você verá que temos exatamente
as mesmas fotos que aqui. Portanto, esta é a mesma imagem desta imagem porque
usamos a mesma semente. Então, se você quiser ter consistência de
caracteres, pode trabalhar com as sementes e talvez ajustar um pouco
o prompt, e sempre terá estilos
muito semelhantes Portanto, lembre-se de que a
semente é importante. Essa é basicamente a primeira
coisa que você pode fazer. E se você não gostar de
uma dessas fotos, também
poderá editá-las. Se você pressionar essas fotos, verá que tem muitas opções
diferentes
que podem ser feitas aqui. Aqui você pode fazer variações pequenas
ou fortes. Ao pressioná-lo, ele
vai automaticamente. Depois, você pode fazer um upscaling. Você pode fazer um zop dial ou um upscaling criativo e
a resolução Então, vamos clicar em upscale. Então você também pode remixá-lo. E se você não entender,
basta passar o mouse sobre ele. Se você pressionar subdile ou strong, você pode simplesmente ajustar seu prompt e torná-lo
um pouco diferente Mas agora, eu
não quero fazer isso. A próxima coisa é pan, Zoom, e aqui você também
tem mais. Mas antes de te mostrar isso,
quero te mostrar seu luxo. Se eu
fechar isso e voltar a criar, você verá que essas aqui estão
as primeiras variações. Então você vê que temos essa imagem, e agora temos quatro variações
diferentes dessa imagem que são muito, muito semelhantes, mas um
pouco diferentes. Às vezes, um pouco
mais dessas coisas vermelhas, às vezes um pouco menos. Então você vê que essas são
apenas pequenas variações. E aqui, isso
agora é o aumento de escala. Então, fizemos uma foto pequena
em maior resolução. Se você pressionar isso ou
se quiser baixá-lo,
ele simplesmente terá uma resolução
mais alta se você aumentar muito o zoom. Então você vê que a resolução
aqui é muito, muito boa. Comparado com o primeiro, é muito melhor, então você
vê que é mais claro. Então, isso simplesmente torna a
resolução um pouco maior. Depois, temos pan e Zoom. Eu não gosto
mais disso porque agora não temos
mais o editor. E se você pressionar este editor, poderá editar essa imagem. E aqui você pode
fazer o mesmo que com
o Pan e o Zoom. Você pode simplesmente fazer
isso aqui, por exemplo, e depois pressionar
enviar, e agora Mick Cherney fará a pintura externa e pintará
também aqui novos pixels nela Mas você também pode fazer mais. Você também pode editar
com a pintura embutida. Digamos que você
não gosta disso aqui. Você pode simplesmente excluí-lo e , em seguida, tornar seu prompt um
pouco diferente. Então, não queremos
ter o prisioneiro de guerra rosa. Então, pressionamos Enviar, e então obteremos uma
pintura sem o prisioneiro de guerra rosa Vamos continuar criando e então você poderá
ver o que acontece. Então, aqui estão as primeiras
quatro gerações, então você vê que simplesmente
geramos alguns novos pixels. Isso também não foi perfeito, mas sim, vá lá. Pelo menos a imagem ficou maior. A propósito,
acho que gosto desse. Isso não é muito bom. Sim, eles estão bem. E aqui estão os próximos
sem o amigo rosa. Então é assim que você pode
editar suas fotos. Se você continuar organizado, terá muitas pastas
diferentes que você pode criar apenas para torná-las
um pouco mais claras Se você continuar personalizando,
como eu disse, poderá gostar de fotos diferentes e depois adaptar
seu estilo específico. Se você continuar editando, acho que nem todo mundo
tem isso agora. Acho que você
precisa estar muito tempo nesta página da web
para obtê-la. Talvez assim que você veja o
curso, você também tenha isso. Você pode simplesmente
fazer o upload de uma imagem do seu computador e fazer a pintura da mesma forma. Então, basta pressionar isso, e agora eu só quero fazer o upload
desta foto aqui, e digamos que eu quero
ter um chapéu verde. Se eu excluir isso, posso
digitar no prompt o
que eu quero ver, cara com verde , depois enviamos e provavelmente
obteremos a
cabeça verde. Também criaremos
aqui o plano de fundo, pelo
menos como eu o vejo, porque essa imagem não
tinha fundo. Assim, você pode editar suas próprias
fotos muito, muito rápido. E aí vamos
, isso é uma bagunça. Mas talvez o
próximo seja melhor. Sim, isso é muito melhor. Além disso, isso funciona. Sim, vá
lá. Essas coisas são legais. O primeiro é um pouco
confuso, mas o segundo, o terceiro e o quarto estão relativamente bem Assim, você também pode editar
suas próprias fotos
e, aqui,
fazer a pintura externa. Digamos que você queira
ter uma resolução diferente. Você pode simplesmente
pressionar Enviar, editar
e, em seguida, obterá
sua nova foto e recriará os
pixels aqui embaixo E, bum, aí estão
quatro fotos completamente novas. Alguns deles são bons, alguns
deles não são realmente tão bons. E, a propósito, se você não gosta
muito de uma imagem, é claro, você pode simplesmente entrar e
editá-la com a pintura embutida Então, digamos que
isso não foi perfeito, e talvez também não tenha sido
perfeito, você pode editá-lo. Acho que você entende o que quero dizer. A próxima coisa que você pode fazer
assim que criar essa imagem ou
editá-la com as matrizes ou com qualquer outra coisa, é que você
também pode retexturizar Se você pressionar a textura vermelha aqui, agora não é mais a edição,
mas a textura vermelha. Você pode mudar um pouco essa
imagem. Você pode fazer fotos semelhantes. Isso funciona de forma semelhante
à difusão estável. A difusão estável chama
isso de redes de controle. E aqui a matrona também
conta o que acontece. retextura alterará
o conteúdo
da imagem de entrada enquanto
tenta preservar a estrutura
original. Para obter bons resultados, evite
usar instruções
incompatíveis com a
estrutura geral da imagem Então, o que podemos fazer aqui
agora é, por exemplo, digitar cara com cabeça
verde ou apenas
cara com calor, e também digitar cyberpunk Em seguida, basta pressionar
submit re texture
e, em seguida, obteremos algo que se parece de alguma forma semelhante. Então, teremos uma pose semelhante, composições
semelhantes, mas
em um estilo cyberpunk Espero que você possa ver
como isso funciona. Esse é um recurso realmente interessante. Até agora, isso estava possivelmente em difusão estável com
as chamadas redes de controle E agora também podemos fazer
isso no meio da jornada. Portanto, lembre-se de que, com a edição, você pode simplesmente editar
todas as suas fotos
e, com a retextura, você pode retexturá-las Você pode usar coisas chamadas rede
de controle e
difusão estável também no meio da viagem Aqui, você não tem
muito controle, mas esse também é um bom recurso. Isso é basicamente tudo o
que você precisa saber dentro da jornada M se
quiser criar muito rápido. Sim, a ferramenta é muito maior, mas se você quiser
começar o mais rápido possível, isso é tudo o
que você precisa saber. Você pode criar imagens, você pode editar imagens. Você pode usar sementes diferentes para recriar o mesmo estilo
repetidamente. Divirta-se em Mjourney,
como eu disse, o mais rápido possível
15. Ideograma e Adobe Firefly: Neste vídeo, quero dar uma visão geral de dois modelos
de fusão. Temos um ideograma e
temos o Adobe Vrefly. Esses também são dois modelos de divisão completamente
separados. O Adobe Firefly vem, como a Adobe, e também está integrado ao
Photoshop e Acho que a Adobe é especial
dessa maneira porque você
pode criar imagens, e a Adobe só treina com
imagens do Adobe Stock. Portanto, você não precisa se
preocupar com direitos autorais e assim por diante. Isso é especial porque
Money e assim por diante, eles podem criar imagens de
bipes ou também de empresas
e, às vezes, você pode
obter reivindicações de direitos autorais Mas se você usa o Adobe Firefly,
esse não é o caso. E o ideograma é especial porque é muito
bom com texto Então, assim que você acessa
uma dessas páginas da web, isso aqui é um ideograma, eu estou no plano gratuito Então não, eu também não pago por cada
modelo sob o sol. E aqui você tem uma interface
muito limpa. Você tem casa, e aqui você pode digitar o que
você quer ver. A engenharia rápida
sempre funciona da mesma forma. Aqui você tem um
design totalmente realista, três em D
e anime, e pode simplesmente procurar por si mesmo o
que gosta. Se você usa ideograma, eu recomendo fortemente que
você crie imagens,
por exemplo, como Imagens em que o texto é
incluído porque aqui o ideograma é muito bom Vamos fazer um teste. Uma raposa que segura uma
placa com as letras, pegue-me se
puder e então podemos simplesmente
fazer alguns ajustes. Então, o aviso mágico, queremos
ativá-lo ou desativá-lo. Se você deixá-lo
ativado, seu prompt será
aprimorado automaticamente. Depois, a relação de especificações,
a visibilidade, você só pode
privatizar se pagar, depois o modelo e a paleta de
cores, se quiser Mas neste momento, eu só
quero enviar isso. Aí temos nossas quatro fotos. Se eu pressioná-los, sim, isso demorou um pouco agora, porque eles só podem gerar lentidão
se você não tiver um plano. Mas você vê que o texto é muito
bom. Pegue-me se você puder. O texto é perfeito. Como
a raposa é de alguma forma boa. Então vamos
ver o próximo. Onde está? Isso aqui, me
pegue se puder. A raposa é muito boa. Então, eu realmente gosto desse
prompt ou dessa foto. Este também é
relativamente bom, mas esse sinal está flutuando
um pouco, então eu gosto
um pouco mais desse. E este é o último, me
pegue se puder. Além disso, isso é muito bom. Então, basicamente, basta entrar neste programa e jogar um
pouco para si mesmo, especialmente se você
quiser renderizar texto. Isso é realmente ótimo. Aqui
também está algo que eu gosto. Logotipos e assim por diante são
completamente perfeitos. Há uma foto que eu gosto, então brinque com ela um pouco. Se você continuar criando, poderá ver o
que criou Então, basicamente, existem algumas
fotos que eu fiz. E se você usar o Canvas, também
poderá editar suas coisas de
forma semelhante ao Murne Isso é basicamente tudo o
que você precisa saber sobre o Ideogram. O Idogram é
muito, muito fácil A próxima coisa é o Adobe Firefly. O Adobe Firefly funciona de forma semelhante. Aqui você também tem filme
generativo, texto para imagem,
extensão generativa e gera vídeos Os vídeos no
momento não funcionam. Aqui você precisa
entrar na lista de espera. Mas você pode absolutamente criar
e editar com o Firefly. Se você
pressioná-los aqui, você está na página da
Firefly. E se você voltar mais uma vez, verá o
que pode fazer. Você pode transformar texto em imagem, filme
generativo, gerar um
modelo, gerar um vetor Portanto, se você usa o Adobe Illustrator, também
pode gerar vetores, recolorações
generativas Você pode brincar com todas
essas coisas ao redor. A interface é muito fácil. Se você pressionar texto para imagem aqui, você pode simplesmente experimentá-lo. Você também pode usar as fotos que outras pessoas fizeram. Digamos que você
goste deste,
se você pressionar nele, ele será
copiado automaticamente Aqui embaixo, você pode digitar seu prompt e tentar esse prompt, e no lado esquerdo, você
pode usar o que quiser. Então, vamos usar o Firefly three. Eu quero ter o modo rápido, deve ser, por
exemplo, quatro por três. Então, qual é o tipo de conteúdo? É arte ou foto? Por exemplo, arte e depois
composições, você também pode fazer upload das imagens de
referência Se você quiser fazer upload de imagens de
referência, poderá fazer upload, por
exemplo, de estilos de referência. Então, digamos que você queira
ter essa imagem de referência, sim, mas para essa solicitação, ela realmente não é perfeita. Então, isso não
funcionaria muito bem. Então eu
reduzi a força de ar para zero, e então eu quero ter, por
exemplo, uma referência de estilo. Digamos que eu queira
um pouco mais de neon, então incluo a referência de
estilo Então, também podemos incluir
outros efeitos populares. Por exemplo, o efeito
hiper-realista, depois a cor e o tom.
Digamos que é quente. Em seguida, o raio,
as luzes do estúdio, o ângulo da câmera,
digamos, o ângulo branco, e então você pode
pressionar o prompt try E sim, esse prompt
agora é uma bagunça completa, mas espero que você entenda o que quero dizer Essas configurações são
muito fáceis de usar e ainda temos
fotos impressionantes. Sim, vá lá. Eu realmente gosto desse tigre aqui, então você pode absolutamente brincar um pouco com essas coisas. Se você gosta da sua foto,
é claro, você pode fazer o download. E o próximo passo
é, claro, que você também pode
editar suas fotos. Você pode editar
essas imagens aqui se simplesmente
pressionar aqui em editar, ou você também pode editar
suas próprias fotos. Se voltarmos novamente e
pressionarmos o preenchimento generativo, você pode enviar suas
fotos aqui ou editar as imagens que já
estão incluídas Digamos que você
queira editar essa imagem. Se você pressionar nele,
poderá editar como quiser. Você pode inserir,
remover ou expandir. Se você pressionar Expandir, poderá aumentar essas
imagens. Se você simplesmente pressionar gerar, a luz grande simplesmente fará a pintura externa e
incluirá aqui algo Então você precisa ver
o que funciona para você. Digamos que eu quero
ter isso e pressiono manter. Em seguida, quero
remover alguma coisa, por exemplo. Digamos que eu
não quero ter essa coisa engraçada aqui porque não tenho
ideia do que é isso Eu posso simplesmente removê-lo
e, em seguida, ele deve desaparecer. E, bam, aí está. Eu quero ficar com ele porque
acho que isso é bom. O próximo passo é inserir. Vamos inserir
algo aqui. Digamos que eu queira
inserir o tigre, por exemplo. Então, tigre, pressionamos gerar, e então podemos inserir coisas
diferentes aqui. Se você quiser editar, por exemplo, Bebor,
então isso funciona Você pode trocar de roupa. Você pode mudar a cor do cabelo. Você pode mudar
o que quiser. Sim, esse tigre é uma bagunça. Vá lá, vamos ficar com ele. Eu quero te mostrar
mais uma coisa com um humano. Então, digamos que eu queira
adicioná-lo a isso aqui. Quero fazer o encarte e quero que o queijo use, por exemplo, roupas
diferentes Eu posso simplesmente copiar essas
roupas aqui, e então eu posso digitar
o que eu realmente quero ver. Vamos digitar,
por exemplo, Jacket. E aí está, e
acho que de alguma forma
acabou bem. Vamos ficar com o primeiro. Nada disso é
completamente perfeito. Adobe Firefly, essa é uma
ferramenta que eu não uso muito, mas algumas pessoas realmente gostam dela É especialmente poderoso
se você já trabalha com o Adobe Photoshop, porque
aqui está incluído Se você trabalha com o Illustrator
e o Photoshop e assim por diante, você deve trabalhar totalmente
com o Adobe Então, isso era basicamente um ideograma. Use ideograma se quiser
gerar texto
dentro de imagens E o Adobe Firefly, eu
diria pessoalmente, use-o se você já usa o produto
da Adobe, ou
seja, o Illustrator e o Adobe
Photoshop, ou se quiser ter 100% de
certeza de que
nunca violou direitos autorais porque Firefly Então, experimente essas duas ferramentas. E, claro, a
engenharia rápida é sempre a mesma. Nos vemos no próximo vídeo.
16. Modelos de código aberto: Fale sobre modelos de
difusão de código aberto. Principalmente, é
difusão e fluxo estáveis, mas também existem
outros modelos como recraft e Omnigen e Esse tópico é gigantesco e você tem a
maior flexibilidade Você pode baixar
esses modelos e executá-los localmente em sua própria máquina ou também pode
executá-los na nuvem. A maneira mais fácil e rápida
é executá-los na nuvem. Mesmo assim,
quero mostrar
algumas opções gratuitas para que
você também possa executá-las totalmente de graça e não pagar por todos os
recursos disponíveis Portanto, a primeira opção
seria CFY. Agora, ciência, você não
tem muito tempo neste curso, talvez não
seja a melhor opção. A curva de aprendizado é
muito íngreme. Aqui é CFI Eu tenho um curso que
aborda isso em detalhes, mas CFY não é o
que funciona muito rápido A segunda opção é, por
exemplo, o web UI Forge. Isso funciona de forma
relativamente fácil, relativamente rápida, mas também aqui você precisa baixar
muitas coisas. Então, também não é muito bom. Com o Forge, você também pode executar fluxo de difusão
estável
e muito, muito mais O que eu quero
mostrar agora é o foco, porque com o foco, você pode executar a difusão estável, e a difusão estável
é de código aberto, e você pode executá-la Em um notebook CLP ou
você pode instalá-lo localmente. Se você quiser
instalá-lo localmente, basta fazer
isso por meio deste link. Então, isso aqui, e então
você pode executá-lo localmente. Mas o que eu quero mostrar
agora é a maneira mais rápida, e isso é simplesmente
esse notebook CLP Então, abrindo C
, você pode executar esse chamado notebook
simplesmente pressionando play, e então obteremos um
link de rádio com uma interface agradável, e aqui podemos executar o ifusion
estável Eu quero te mostrar
como isso funciona. Então eu quero te
mostrar Leonardo, e então eu quero
te mostrar lax. Nós fazemos isso rápido. Depois de um tempo, você obtém este link, executa em URL pública e pressionamos esse
link aqui. Em seguida, uma fase de graduação se abrirá. E aqui você
tem muitas opções. A primeira coisa é que
você pode pressionar Avançado, e aqui você
tem muitas configurações. Se você quiser começar rápido, basta deixar aqui a
inicial, use a velocidade. Número de imagens,
digamos apenas uma. Aqui, temos o molho
especial e difusão
estável, que
também temos um aviso negativo Você pode digitar o que
não quer ver. Por exemplo, feio e
embaçado ou também cores, digamos vermelho Não queremos ter
vermelho em nosso prompt e depois digitamos
o que queremos ver. Digamos que seja modelo do Instagram. E se pressionarmos gerar, criaremos nossa
primeira foto e teremos um modelo
do Instagram, e não será
uma foto feia Então essa é a qualidade da
imagem e não o
modelo do Instagram que criamos. Não ficará embaçado
e não ficará vermelho, então
provavelmente o vermelho não está E aí está,
como um cabelo castanho normal. Temos uma boa foto
e, de alguma forma, a geração
também está bem. Vá lá. Usamos nosso notebook refrigerado
gratuito Podemos usar isso
para sempre de graça, e eu acho isso legal. Aí temos nossa foto. A qualidade é muito boa. Então, a próxima coisa, você
pode pressionar em estilos. Aqui você pode digitar os
estilos que deseja ver. Por exemplo, um
modelo D lateral. Se você pressionar isso
e digitar CAT, por exemplo, digamos CAT. Você criará um CAT e ele
ficará mais ou menos assim. Também incluí uma versão dois nítida
e focada. Então, também vamos misturar um
pouco de fotoalismos. Se diminuirmos esses pesos aqui e usarmos apenas o modelo
si three D, será um
pouco mais nisso Então, por que parar com isso, por exemplo, e eu crio
mais uma vez apenas com esse modelo is three D e
então ele deve funcionar melhor. Nas próximas fotos,
posso incluir, por exemplo, os outros
estilos mais uma vez. E eu paro com isso agora mesmo. O próximo passo são os modelos. Você também pode usar
modelos e auras diferentes, mas provavelmente, se
quiser usar isso rapidamente, não
precisará se
aprofundar nos modelos e nas Las E as configurações avançadas, provavelmente, você
não precisa delas. Mas o que você eventualmente
precisa é aprimorar. Se você pressionar aprimorar, poderá fazer pequenas variações e também poderá fazer aumentos de escala completamente da
mesma forma que no meio E o que você também pode
fazer é pressionar a imagem de entrada. Aqui você pode fazer upload de imagens e também aqui você
pode fazer aumentos de escala Vamos fazer
mais uma vez um gato realista. Vamos digitar cat aqui. Sim, eu dou um exemplo muito ruim aqui com a engenharia
rápida. Eu só quero fazer um gato, e depois quero te mostrar
o que podemos fazer aqui embaixo. E aí está,
agora temos nosso gato. E se descartarmos isso, podemos fazer variações. Portanto, sutil ou forte
, se você pressionar o botão Zu, também poderá digitar
, por exemplo, feliz e obterá um gato feliz Você simplesmente pode pressionar Criar, e então tudo
mudará um pouquinho, e talvez o gato
tente sorrir. Sim, vamos ver
como isso funciona. Isso funciona um pouco melhor com as pessoas se você incluir isso. Sim, vá lá, talvez pareça
um pouco mais feliz. Funciona melhor se
você fizer isso com humanos e digitar sorriso, por exemplo, ou com cores, com esse gato, você pode mudar as cores um pouquinho. Então, com essas variações,
você pode jogar com elas. Você também pode aumentar a escala, para que você possa
aumentar a resolução em duas semanas, pressione
aqui e depois pressione gerar.
Vamos ver. Sim, vá lá, parece
um pouco mais feliz, pelo
menos na minha opinião. Então, o que você tem
é um prompt de imagem, e isso é especialmente legal porque você pode
pressionar Avançado
e, em seguida, fazer o upload de
suas coisas aqui e usar o prompt de imagem,
Ba kenney, CPDS e troca de rosto Deixe-me explicar
como isso funciona. Se você incluir isso aqui
e usar o prompt de imagem, também
poderá digitar
, por exemplo, do e se pressionar Criar, os primeiros quadros serão completamente os
mesmos quadros que estão aqui, então podemos usar o
estilo dessa imagem. Então, veja por si mesmo que
o estilo é
muito, muito semelhante
ao estilo
da geração anterior,
porque usamos a imagem de entrada com
o prompt da imagem. Portanto, temos um
estilo muito semelhante ao desta foto. Espero que você já possa
ver. E aí está. Temos um estilo muito semelhante, então você vê o fundo verde, relâmpagos
semelhantes,
cores semelhantes e assim por diante A próxima coisa que você pode
fazer é Piracani ou CPDs. Essas duas coisas são
chamadas de redes de controle, semelhantes ao vídeo anterior de
meio de viagem Se digitarmos, por exemplo, Dier agora,
usaremos um Pyraky Usaremos uma
rede de controle que controla a profundidade ou as poses
dessas imagens. Basicamente,
criaremos um terrível que está em uma postagem semelhante
a este gatinho aqui Provavelmente ficará de alguma forma, e será uma postagem muito, muito semelhante a esta aqui. Além disso, a cauda
será completamente semelhante. Além disso, as orelhas
serão muito parecidas, mas devemos pegar um tigre. Veja por si mesmo, temos as mesmas composições, mas veja que criamos
um tigre agora Sim, isso vai
ficar fofo, eu acho. Um pequeno tigre que se senta completamente parecido
com o nosso gatinho, mas as molduras serão
recriadas com um E depois de 50%, as molduras também podem
assumir um pouco mais e também mudar
um pouco. Então, agora, você vê que fica
cada vez mais parecido um tigre e
menos do que nosso gatinho E se você quiser
ter ainda mais gatinhos nele ou até mesmo
uma pose mais parecida, você precisa brincar um
pouco com essas redes de controle Veja, como se a
pose não fosse perfeita. É semelhante, mas não
é perfeito. O que você pode fazer é aumentar um pouco
o peso
e parar de apostar. Se aumentarmos o stop bet, por exemplo, em 0,8, usaremos 80%
das etapas
da geração
para recriar esse gatinho, então ele deve ser
muito mais parecido Você vê isso agora, é
realmente como o gatinho, mas com
cores um pouco diferentes para o tigre E isso continuará
agora até 80% dos quadros, e apenas os últimos quadros ocuparão um
pouco mais. Vamos ver se
isso funciona ou não. Como eu disse, você
precisa jogar com eles. Então eu acho que essa
imagem fica
confusa porque também
adicionamos essa coisa aqui Sim, isso não é perfeito. Precisamos brincar
com essas coisas. Eu tentei mais uma vez, e acho que agora
está um pouco melhor. Temos uma pose muito
parecida agora. Portanto, essas redes de controle
permitem que você use a pose. Isso é especialmente
poderoso se você tiver, por exemplo, humanos em uma pose específica. Se você tem uma bailarina
que faz algo sofisticado, pode recriar com este Bacani algo muito parecido A próxima coisa é a troca facial. Você pode fazer upload, por exemplo, uma foto do seu rosto
e simplesmente trocá-la E você também pode combinar
mais dessas coisas. Você pode usar, por exemplo,
Bakani de uma bailarina, e depois a troca facial
de outro humano
e talvez
outra coisa como Então você pode brincar
um pouco com isso. A próxima coisa é
a pintura embutida. Você já sabe como isso funciona. Você pode simplesmente jogar isso no chão, e digamos que
não queremos ter essa cauda aqui. Podemos simplesmente fazer isso
na pintura. Agora, a pintura em foco com
difusão estável é muito grande Aqui podemos fazer muitas coisas. Mas, de um modo geral, se
você quer apenas trabalhar rápido, trabalhe exatamente como no meio da viagem. Essa é uma ferramenta gigantesca. Não podemos analisar
cada detalhe. A próxima coisa é descrever. Se você usar descrever,
por exemplo, para esse prompt
e pressionar descrever esta imagem no prompt,
receberemos o prompt. Você também pode fazer upload de imagens que você tem no seu computador, por exemplo, e então você
pode ver como seria um prompt aqui. Este é o aviso do modelo de difusão Z. Uma escavadeira laranja
está em Então, vá lá, isso é.
Então temos uma mão. Você já sabe que
podemos fazer aumentos de escala
e assim por diante e os metadados e assim por diante e os metadados Se você incluir essa imagem, por exemplo,
também poderá aplicar metadados, e esses metadados são
especialmente poderosos se você os incluir ou se outras
pessoas os incluírem, você
poderá usar as configurações delas A próxima coisa que quero mostrar
a vocês são os registros. Se você pressionar as configurações, poderá acessar os registros
do histórico. E aqui você pode ver o que
você criou anteriormente. Você pode ver todas as suas
criações e ver qual resolução foi solicitada e quais configurações levaram
você a esse resultado Essa é basicamente a
maneira mais rápida de explicar seu foco. Portanto, o foco é uma ferramenta gigantesca. difusão estável funciona
em segundo plano, você pode usá-la para sempre gratuitamente Se você quiser usar uma
interface web para uma difusão estável, você pode usar o leonardo.ai O Leonardo.ai também é uma das minhas ferramentas favoritas se você
quiser trabalhar em uma interface web. E aqui você tem basicamente
as mesmas coisas que em foco. Também é um
pouco mais fácil de usar, mas não se preocupe com
todas as ferramentas disponíveis no Leonardo AI, você também precisa pagar de forma
relativamente rápida Também aqui você tem,
por exemplo, Canvas. Você tem as
gerações em tempo real, você tem movimento, você tem criação de imagens, você tem upscalers,
você tem tela Você pode treinar seus próprios modelos e tem três gerações de
textura D. Portanto, com muito controle,
no LeonardoEi, eles também
têm alguns pequenos tutoriais sobre como usar Então, dê uma olhada
neles se quiser se
aprofundar e também me avise se devo incluir uma palestra
separada Mas normalmente queremos
fazer isso o mais rápido possível, e acho que você deve
trabalhar com foco se
quiser usar a difusão estável o mais rápido
possível Agora, se você quiser usar o fluxo e os diferentes
outros modelos de difusão, você deve continuar A replicação não é gratuita. Aqui, você precisa fazer
login com o Github. Então, sim, essas ferramentas de código aberto podem ficar um
pouco sobrecarregadas em diversas áreas, mas
assim que você as obtém, elas também funcionam muito Aqui você pode usar os modelos lux, você pode usar o re craft. Você pode usar todos os
modelos sob o sol. Difusão estável 3,5 grande. Existem muitos modelos
muito bons. Se você pressionar esses modelos, eles são realmente fáceis de usar. Você pode simplesmente digitar à
esquerda o que deseja ver
e, no lado direito,
obter sua saída. Então, isso parece muito realista. Algo que funciona muito
bem em fluxo também é texto. Digamos que uma mulher segurando
uma placa com as letras, eu não sou real. E então pressionamos
Executar, mas atenção, isso custa, eu acho, $0,06 Sim, $0,06 por geração e você precisa conectar
seu perfil Geta Aqui você pode ver algumas fotos que foram criadas
com este modelo. Portanto, esse modelo funciona muito
bem e espere por essa saída, pois o texto
também é renderizado de forma incrivelmente Eu não sou real, e essa é uma foto perfeita. Neste vídeo, demos uma olhada
nos modelos de
difusão de código aberto Temos difusão estável. Temos fluxo, temos recraft. Temos muitas coisas
diferentes. Também podemos executá-lo com
várias opções diferentes. Podemos baixá-los e
executá-los localmente com, por exemplo, CFI ou Forge Uma das maneiras mais fáceis de
se concentrar no Google Colab é que você pode pressionar Play em um botão e
usá-lo gratuitamente para sempre. E se você quiser trabalhar
com uma API, use a replicação, e aqui você pode usar
todos os modelos
de difusão existentes que sejam de
código aberto e tenham uma API, mas aqui você precisa
pagar um pouco Então você pode brincar com isso
só por um pouquinho. Eu acho que você
deve se concentrar se
quiser criar rapidamente. Nos
vemos na próxima.
17. Recapitulação da geração de imagens com modelos de difusão: Nesta seção,
aprendemos como podemos usar modelos
normais de divisão padrão para gerar imagens Você aprendeu como
eles funcionam,
treinados por computador em texto e imagem. Nesse processo, o computador aprende como gerar
essa imagem
e, em seguida, você pode recriá-la, e precisa ter boas
instruções para obter boas saídas Você precisa ser específico. Temos muitos modelos de
divisão diferentes: Dali, McTerny,
ID gramaton Viavly, table diffusion,
flux, re craft e muito, flux Mas todos eles funcionam de
forma relativamente semelhante. Você sempre precisa de boas instruções e
aprendeu a escrevê-las, além de poder
editar suas fotos dentro
e fora da pintura Agora, queremos te contar. Aprender é a mesma circunstância
, mas um novo comportamento. Então, basicamente, até
agora você talvez não soubesse como usar
esses modelos de difusão, agora você sabe, então você
deve usá-los totalmente Faça algumas fotos
para seu marketing, para miniaturas do YouTube,
para apresentações, para anúncios, para o que quiser Só então você aprendeu. Ou você se diverte
criando essas fotos. Também quero dizer quais
bons alunos eles aprendem juntos, porque mais pessoas
sempre sabem mais do que pessoas Então, se você pudesse
compartilhar este curso, isso realmente
significaria a palavra para mim. Talvez também signifique a
palavra para a outra pessoa, e se a outra
pessoa obtiver valor, descreverá o
valor para você porque você contou a ela. Então,
obrigado por isso. E vejo você na próxima seção
porque
os modelos de difusão
podem fazer muito mais Eles podem fazer áudio. Eles podem fazer músicas inteiras e fazer vídeos. Então, nos vemos na próxima seção.
18. Vídeos de Ai com Kling AI: Sim, a IA também pode fazer vídeos e temos um zilhão de ferramentas
diferentes Temos laboratórios BCA, temos Runway, temos figurões Temos a máquina dos sonhos
da Lumaabs. Temos o SRA da Open AI. Sim, o SRA não
funciona no momento e temos o Kling AI. Claro, há muito mais, e todas essas ferramentas
funcionam de forma relativamente semelhante. Se você usa PCABs, eles têm algo
especial aqui, então você também pode criar esses vídeos que às vezes você viu se tornando
virais Esses vídeos aqui
onde as coisas estão derretendo. Então, eles se tornaram virais nas
redes sociais de tempos em tempos, e no BCA, você
pode criá-los. De certa forma, você também tem
muita flexibilidade. Você pode simplesmente fazer
login e criar todos esses vídeos,
além
de ver
seus próprios tutoriais O Hot Shot funciona muito fácil. Você simplesmente digita o texto
e recebe o vídeo de volta. Na máquina dos sonhos
da uma Labs, você tem basicamente
a mesma coisa. Sempre iniciamos e terminamos o quadro na
maioria dessas ferramentas. E acho que agora,
neste momento , Kling também é
uma das melhores coisas aqui Você tem imagens de IA, vídeos de IA, editor de
vídeo e assim por diante, e é por isso que eu só
quero mostrar a você ling AI, porque, como eu disse , neste
momento, o King AI oferece resultados muito bons e você pode começar
totalmente de graça. Pelo menos na minha mente, essa é a parte mais legal de tudo A maioria dessas coisas
funciona de graça. A maioria desses geradores de
vídeo de IA funciona de forma relativamente semelhante, então eu só quero
mostrar a você o Kling AI
e, se você realmente quiser, pode jogar com as outras
ferramentas sozinho A primeira coisa que
você precisa fazer é, claro, acessar cling.com Esta é a nossa página da web em chinês, mas eles também têm
sua versão em inglês, e aqui você pode fazer muita coisa. Se você for para casa, é claro, poderá ver a visão geral. Você pode ver as melhores
fotos dos vídeos. Aqui eles têm gerações em que também incluíram som. Estou sonhando? Estou tão cansado. Então, se você tomar
seu tempo, você pode realmente criar gerações legais. São todos curtas-metragens. Você pode simplesmente
vê-los por si mesmo. Eles são deslumbrantes. Então você
vê os melhores criativos. São só fotos. Você pode ver que eles
também fazem fotos muito boas aqui. Isso também é algo
que eu gosto, por exemplo. Assim, você pode criar vídeos, fazer curtas-metragens, se
juntar algumas coisas e
trabalhar muito bem. Você pode criar
imagens e vídeos de IA. Se você pressionar imagens de IA, poderá simplesmente criar imagens. Devo dizer que
não adoro esse recurso dentro do link porque,
para imagens de IA, acho que difusão
estável em tons médios e assim por diante é um pouco
melhor do que Portanto, não perca seu tempo com imagens de
IA dentro do Kling. Mas o que você deve
fazer é clicar em vídeos de
IA, porque
com vídeos de IA, você pode fazer muita coisa. Você pode digitar um prompt. Você pode aumentar ou
diminuir a criatividade. Em seguida, você pode usar o modo
que deseja usar. Se você usa o modo
profissional, precisa fazer o upgrade
para o recurso premium. Você vê simplesmente que a qualidade
fica um pouco melhor. Eu tinha aqui o plano premium, mas agora não o tenho. Então você pode usar cinco ou
dez segundos de geração. Você pode usar diferentes
proporções e o número de gerações Por fim, você também pode
usar os controles da câmera e o aviso negativo,
como na difusão estável Mas o aviso negativo também
é opcional. Então, vamos experimentar isso. Vamos usar apenas um prompt aqui. E, claro, eles têm as
melhores práticas se você
quiser se aprofundar
na engenharia rápida
especificamente para ling. Mas, de um modo geral,
você deve sempre usar as mesmas
técnicas de solicitação que
você já conhece Então, sujeito com os
movimentos, a cena, a descrição da cena,
a linguagem da câmera e a atmosfera do relâmpago E aqui eles fornecem
uma descrição detalhada como você pode escrever esse prompt. Aqui eles dão
alguns exemplos. Este é um prompt clássico, então esse é um prompt que
você melhorou muito, e aqui eles têm um prompt muito,
muito descritivo E aqui embaixo, você vê o que
muda nesses vídeos. Se você pressioná-los,
verá que, de um modo geral, você tem um bom vídeo,
mas é claro o melhor prompt produz resultados
ainda melhores Vamos dar uma olhada neles. Veja, você tem mais
alguns efeitos, e acho que o vídeo
geralmente é um pouco melhor. E se você tiver um prompt realmente
descritivo, verá que fica ainda
mais impressionante O que você pode fazer, é claro, simplesmente copiar esse prompt
e depois colocá-lo em seu aplicativo e ver por si mesmo como essas
coisas estão funcionando. Aqui, eles mostram muitos exemplos
diferentes com
várias instruções diferentes Tipo, não adianta
eu te mostrar
todas as instruções aqui. Você pode simplesmente ver
isso por si mesmo. É muito fácil de usar. Então, se você voltar para o
Kling, você pode, é claro, usar o Kling
1.0 ou o Kling Se usarmos a versão 1.5, teremos, de um modo
geral, uma qualidade um pouco melhor, mas alguns recursos não estão
incluídos, mas estarão. Vamos trabalhar com o Kling 1.5. Inclua um bom aviso, a criatividade média, o modo padrão, 5 segundos, 16 por nove, um vídeo. Não quero incluir nenhum controle de câmera
específico, mas você pode fazer isso
se quiser ter um zoom vertical
horizontal ou algo
assim, vamos lá, vamos usar o Zoom. E eu só quero ter
um pequeno zoom aqui. E então um aviso negativo, vamos usar logotipo, marca d'água,
embaçado, feio, e então
pressionamos gerar e
pagamos pressionamos gerar e
pagamos Ao todo, nós recebemos, eu acho, 100 créditos por dia, e então você pode
criar essas coisas. E enquanto isso estiver criando, você também pode sair da página e fazer coisas
semelhantes enquanto isso Então, vamos fazer isso.
Se você continuar com o Cling 1.5, poderá fazer basicamente
as mesmas coisas aqui. Mas se você estiver no 1.5, alguns recursos não estão lá. Se você rolar até aqui,
os movimentos da câmera serão desativados na versão 1.5, mas tenho certeza de que
voltarão. Se você
aspirar novamente no Cling 1.0, eles serão incluídos
novamente, é claro. Então, se você passar de
imagem para vídeo, isso é texto para vídeo. Se você passar de imagem para vídeo, poderá exibir suas imagens e depois
misturá-las com um prompt. E você também pode usar
esse pincel de movimento. Quero te mostrar esse pincel de
movimento imediatamente. Você também tem aqui criatividade, modo
padrão,
duração e assim por diante, e também os movimentos da câmera, mas agora eles estão desativados e você tem um aviso negativo. Portanto, se você usa, por outro lado, o Cling 1.5
agora neste minuto, não inclui
os movimentos da câmera no momento e também não
tem o pincel de movimento. Então, vamos usar 1.0
e, em seguida, fazer o upload da imagem. Não importa
qual foto você usa. Vamos usar algo
da minha geração. Eu só quero fazer o upload
disso aqui. Então, podemos simplesmente
animar esse cara, e eu quero fazer
isso de forma bem simples Vá lá. Um cara, atracando. Então, é claro, você pode usar movimentos de
desenho com
o pincel de movimento Se você não usá-lo, será apenas
uma criação aleatória. Mas se você usar o
movimento de desenho, por outro lado, pode simplesmente dizer ao modelo de difusão
como ele deve se comportar, e eles também fornecem
algumas instruções Você pode usar, por
exemplo, a área um, usar o Shrek e, em seguida, pressionar algumas coisas específicas
que deseja Você pode marcar
isso por si mesmo, com uma área estática. Ou você também pode
usar, por exemplo, a segmentação automática e pressionar as coisas que
deseja animar Se você quiser excluir
algo, você também pode excluir. Então você pode fazer isso como
quiser. É importante que você apenas marque as coisas que
deseja automatizar,
não automatizar a animação, O que eu quero fazer
agora é, claro, adicionar movimentos e, para isso, não uso estática, mas uso a área um, a segmentação
externa, e simplesmente pressiono
cada coisa que não deveria estar
parada desta Assim que você descobrir
o que deseja animar, digamos
que
eu quero animar agora mesmo esse cara inteiro,
como você pode ver O que podemos fazer é pressionar
a pista, e aqui agora podemos desenhar
o que esse cara deve fazer. Então, digamos que
esse cara deveria ir
nessa direção e talvez um pouco
nessa direção. Então, podemos simplesmente
desenhar aqui algo, e então você vê como
isso está funcionando. Se você pressionar confirmar,
tudo bem. Se você não confirmar, faça-o novamente de forma um
pouco diferente. Então, digamos que você
queira tê-lo dessa maneira. Acho que agora
isso está funcionando, então pressionamos confirmar agora. E então vamos animar
esse cara e esse cara
simplesmente caminhará nessa direção assim que pressionarmos
gerar, é claro Enquanto isso, tivemos nosso outro vídeo com a banda
que está tomando café, lendo um livro que também tem alguns copos para que você veja que
pode criar gerações legais Então esse cara está fazendo e está
se movendo atrás disso. Então, se você descer, incluirá
seu caminho de movimento. Você tem, é claro, também a criatividade e assim por
diante. Pressione gerar. E então você
verá que podemos animar essa imagem com facilidade A propósito, você também tem
um guia do usuário do pincel de movimento. Se você pressionar
, eles mostrarão exatamente como você
pode usar essa ferramenta e também fornecem muitos exemplos que você
pode dar uma olhada. Aqui eles
animaram este navio. Vamos dar uma olhada mais de perto. Este navio, então, foi marcado para onde essas
coisas deveriam se mover. Então, aqui, eles usaram a
ferramenta de pincel para mover o navio
nessa direção e a
água nessa direção. E esse foi o vídeo. Então você vê que funciona
muito, muito bem. A animação é incrível porque o navio se move em uma
direção diferente da água. Obtenha esse efeito legal de que
estaria ventando na água. A água se move
nessa direção, mas ainda assim o navio pode se mover
na outra direção. A mesma coisa vale
aqui para esses cães. Eles simplesmente
marcaram os cães e depois disseram
aos cães em que direção
deveriam olhar. E se você pressionar aqui, tocar, verá que o disco também
ficou perfeito. Vamos fazer com que seja grande. Os cães olham exatamente na direção em
que você os escova. Essa coisa com a
maçã também é ótima. Eles simplesmente
marcaram a maçã, como você pode ver aqui embaixo, e usaram a ferramenta de pincel
para mover a maçã para baixo Você pode ver a saída aqui. Funcionou muito bem. E veja, também
temos a água
que está espirrando Vamos tornar isso grande. Se você olhar de perto, não
é 100% preciso, nem 100% perfeito, mas
é um bom vídeo. Você pode até mesmo fazer comerciais
com esses vídeos. E aqui está
o gato e o gato está pulando sobre essa coisa aqui Vamos dar uma olhada. Aqui você vê que o gato está pulando Isso também acabou
sendo muito bom. Sim, a aterrissagem não
foi perfeita. Ela não está certa, mas isso pode acontecer com um
gato de vez em quando. Além disso, aqui você tem muitos
exemplos que você pode usar. Como se você pudesse fazer animações realmente
impressionantes. Você pode escovar aqui como
quiser. A próxima coisa que
quero mostrar é, claro, que você pode fazer ainda
mais enquanto isso Então, se você passar de imagem para
vídeo, você pode, por exemplo, excluir esse cara aqui, e então você também pode pressionar
no final do quadro no final. Então, vamos fazer algo
muito legal agora. Eu quero fazer o upload desta foto. Esta é uma foto de meio de viagem. Em seguida, pressiono no final do quadro e carrego
a próxima foto. Então você vê essas duas fotos, deixe-me abri-las. Aqui está uma garota,
e eu recriei uma garota com o mesmo assento
que é um pouco mais velha Você já conhece o
jogo e como isso funciona. Então essa é ela um
pouco mais velha, e essa é ela um
pouco mais nova. E agora queremos
transformá-la com um vídeo. Esses vídeos se
tornaram virais de tempos em tempos. E aqui podemos simplesmente
digitar uma mulher envelhecendo, por exemplo, temos o quadro inicial,
temos o quadro final. Então, não podemos usar o pincel de movimento
agora neste momento. Mas temos aqui todas as outras coisas
nas configurações padrão, e então podemos simplesmente
pressionar gerar mais uma vez e recriaremos algo
muito, muito legal Então, aqui você pode fazer
muitas gerações uma
após a outra. Enquanto isso, mostrarei algumas gerações que
fiz anteriormente Então, aqui você vê, esse foi
um aviso muito simples. Acho que o aviso foi que um cachorro
pequeno está deitado em cima de um gato. Aqui você vê uma boina que
dança na selva. Aqui usei, por exemplo, uma foto do Flux e simplesmente fiz o cachorro dela Veja, isso funciona
muito, muito bem. Há muitas
postagens sobre ovos que se tornaram virais e fizeram
algo assim. Aqui eu fiz a mesma coisa, e a segunda geração
acabou sendo ainda melhor. Isso realmente parece uma geração
real. A única coisa que está um pouco confusa aqui é essa mão Na primeira geração, a mão
também está um pouco bagunçada Aqui eu fiz
algo com, tipo, uma paisagem, e depois
vamos para outra foto. Esse é o quadro inicial e final. Então, você vê que basicamente
podemos nos mover aqui. Então este é o nosso panda
que eu gerei. Este panda
agora está simplesmente lendo, e então pegamos nossas
novas gerações, e eu as mostrarei
assim que terminarem, porque isso é feito em
alguns segundos agora Uma das gerações acabou
e, surpreendentemente, é essa, a coisa que começamos mais tarde. E aqui você pode ver como
ela está envelhecendo. Você vê que isso funciona
muito, muito bem. Ela começa jovem
e depois se
transforma nessa versão mais antiga. Esses são esses vídeos que às vezes
se tornaram virais no Twitter, e você pode recriá-los
agora mesmo, se quiser Sim, às vezes
não é perfeito. Mas se você jogar um
pouco com eles, você pode totalmente atirar neles. E isso é basicamente
tudo que
você pode criar. Vou misturar a próxima coisa assim que isso for gerado. Então, basicamente, é assim
que você pode trabalhar com o Kling AI. Você pode simplesmente criar uma conta e começar
gratuitamente, pelo menos agora. Você pode digitar
texto e obter vídeos, e você tem muito controle, e eles também mostram como
você pode escrever suas instruções O próximo passo é, claro, que você também pode transformar
imagens em vídeos. Você pode simplesmente fazer upload de uma imagem e também
transformá-la com esse pincel de movimento. Você pode marcá-lo
e simplesmente dizer à IA para onde
essa coisa deve ir. E o próximo passo
é que você
também pode incluir os quadros inicial
e final. E com o quadro inicial e final, algo como transformações
é muito, muito legal Então, por favor, experimente
essa ferramenta. Estou convencido de que
você achará isso legal.
19. Texto a falar com a ElevenLabs e mais: Essa IA pode fazer vozes. Sim, eu
também gosto disso. Então essa é Aloy. Isso é conversão de texto em voz
do OPMIPlayground, e
você já sabe disso Temos muitas ferramentas que
podem transformar texto em vozes e podemos fazer muito mais. Essa é uma das ferramentas
mais fáceis. Portanto, no OpmeIPlayground, você pode simplesmente digitar
o que deseja ouvir
e, em seguida, o Opmeai simplesmente criará isso Também existem alternativas de
código aberto, por exemplo, o F five TTS, pode instalá-lo localmente
e, se você quiser
testá-lo rapidamente, também pode fazê-lo funcionar
totalmente de graça
nesse espaço de fase abrangente Basta fazer o upload de um áudio
e digitar o texto que
deseja gerar e clonar sua voz Mas acho que uma das ferramentas mais
poderosas são os 11 laboratórios. Porque em 11 laboratórios, você tem muita flexibilidade. Você também pode começar de
graça e tem muitos idiomas.
Deixe-me te mostrar isso. O
gerador de voz de 11 laboratórios pode fornecer fala humana de
alta qualidade em 32 idiomas. Perfeito para audiolivros, dublagens em
vídeo,
comerciais e Então você ouve que as
vozes são
muito, muito boas e você
pode fazer muitas coisas. E é por isso que quero
mostrar o mais rápido
possível o que você pode
fazer dentro do 11 Labs. Acho que se você quiser
começar rápido, 11 laboratórios são o caminho a percorrer, por
exemplo, porque você
pode começar de graça
e, mais tarde,
se quiser criar muitos, precisa pagar. Mas é rápido. A primeira coisa que
você faz é acessar
esta página da web e
pressionar GTA Então você estará no
aplicativo e, claro, precisará se cadastrar. Basta criar uma conta
no Google com o que quiser. A interface é muito fácil. Você tem aqui no
lado direito simples e avançado. Primeiro, começamos com
a interface simples. A primeira coisa que você vê
aqui é que você pode digitar o que deseja digitar e então eu posso usar vozes diferentes. Esta é uma
voz masculina profunda de Arnie. Eu mesmo criei
essa voz. Se eu pressionar gerar fala, acho que gosto dessa ferramenta. Então você vê que podemos
gerar esse discurso, e isso acontece
muito, muito rápido. E se você gostar da saída, você pode baixá-la
pressionando este botão. E então, se você continuar na história, verá as gerações
que criou e também pode simplesmente
baixar as gerações. Sim, eu fiz muitas coisas, então você vê que existem páginas e páginas e páginas de gerações. E você também pode voltar muito, muito rápido e recriar essas
coisas muito rápido Se você voltar a
gerar mais uma vez, provavelmente
não terá nenhuma voz
gerada por você mesmo. Se você rolar um pouco para baixo, verá que tenho
uma grande biblioteca de vozes. Eu clonei vozes
de Elan Mask de mim
para também de mim e
também de Angela E também temos algumas vozes
geradas aqui que eu criei
e, em seguida, temos
as vozes padrão. momento, neste momento, você provavelmente tem apenas
essas vozes padrão. Mas é claro que quero mostrar como
você pode
clonar essas vozes, até mesmo vozes de você mesmo Então essa é uma voz que é,
tipo, de alguma forma, como eu. Acho que gosto dessa ferramenta, então vamos gerar
isso com minha voz. Acho que gosto dessa ferramenta. Sim, veja, até o
inglês é melhor que o meu. Talvez eu deva
me substituir por um I. Tenho certeza que
chegaremos a esse ponto. Esse é o objetivo de tudo isso. O próximo passo é que você também pode pressionar Avançado
e, se for para Avançado, poderá usar aqui modelos
diferentes. Aqui nas configurações, você vê 11 versões
multilíngues, nosso modo mais realista e
emocionalmente rico
em 29 idiomas, ideal para dublagens, audiolivros, pós-produção ou qualquer outra necessidade de criação 11 versões
multilíngues, nosso modo mais realista e
emocionalmente rico
em 29 idiomas,
ideal para dublagens, audiolivros,
pós-produção ou qualquer outra necessidade de criação de conteúdo. Temos inglês,
japonês, chinês, aqui também está alemão
e muitas vozes, então isso funciona muito bem. Além disso, você também pode usar modelos
diferentes se realmente
quiser. Você pode simplesmente mudar
aqui para modelos diferentes. Por exemplo, a versão 2.5 do
Turbo, versão 2 do
Di, a
versão D 1 e assim por diante Essas coisas ficam cada vez piores
e piores. A única coisa que
você pode
fazer eventualmente são as vozes do Turbo Nosso modelo de alta qualidade e
baixa latência, então isso é um pouco mais rápido, mas eu só trabalho com
o modelo normal Então você tem estabilidade, semelhança e exagero de
estilo Você pode brincar com essas coisas,
mas, de um modo geral, as configurações
padrão
funcionam muito bem. Depois, você também pode incluir o amplificador de
fala, se quiser. Se você mexer
demais com eles e simplesmente pressionar, por exemplo, as configurações
padrão, é
claro que você recuperará
suas configurações padrão Devo dizer que normalmente não mexo muito com essas
configurações avançadas aqui porque
as configurações padrão funcionam muito bem Então, no lado esquerdo,
você vê que não só
pode transformar
texto em fala, aliás, aqui, você pode simplesmente colocar o que quiser. Você pode incluir livros
quase inteiros e criar
audiolivros com eles. T também deve funcionar totalmente de graça. Isso é
realmente incrível. Analisaremos os preços posteriormente pois você pode começar gratuitamente. A próxima coisa
que você pode fazer é de voz,
e o trocador de voz
é realmente incrível Aqui você pode carregar a fala
e recuperá-la, mas com uma voz diferente. Você pode usar, por exemplo
, a voz
masculina profunda de Arnie Agora posso
me gravar ou fazer upload um áudio e posso simplesmente
recriar essa voz Então, vamos experimentar isso. Quero gravar
aqui esse áudio. Se eu pressionar aqui, vou começar. Isso será um teste para saber
se as fezes do 11 Labs estão funcionando
em tempo real ou não Espero que você não me decepcione. Em seguida, basta pressionar
gerar fala. Isso será um teste para saber
se essa ferramenta do 11 Labs está funcionando
em tempo real ou não. Espero que você não me decepcione. E você ouve que
até meu sotaque estúpido será duplicado Mas veja, temos
uma voz diferente. Também posso fazer aqui
como outras vozes como Adam, uma
das vozes antigas que
funciona muito, muito bem. Também podemos me fazer
falar como uma mulher e fazer coisas
estúpidas com elas, além de adicionar outros sotaques. A próxima coisa que podemos
fazer é pressionar as vozes. E aqui em vozes,
podemos fazer muita coisa. Você pode fazer tudo pessoalmente, na comunidade e por padrão. Neste momento, você
provavelmente terá apenas
as vozes padrão e sempre poderá ouvir como essas vozes soam
se pressionar play. Confie em si mesmo, então você
conhecerá o governo do
povo pelo povo. O mundo é redondo
e o lugar. Não há maior dano. Então você ouve que
há ótimas vozes. Se você pressionar alguma comunidade, ouvirá as vozes que
a comunidade gosta e as vozes que a comunidade
criou. Por exemplo, isso. Memorizamos a regra de
ouro. Vamos agora nos
comprometer que existir é mudar, mudar é amadurecer. Amadurecer é continuar criando. Você não pode culpar a gravidade
por se apaixonar. Isso é ótimo para você. Então você pode ir pessoalmente. Aqui estão as vozes
que você criou, se você
criou vozes. Se você não tiver
criado vozes, você pode pressionar em adicionar nova voz. E aqui você tem
design de voz, clonagem
instantânea de voz, biblioteca de voz ou clonagem de voz
profissional Se você pressionar em design de voz, poderá simplesmente digitar
o que deseja ver. Digamos que você é
mulher, jovem, sotaque americano e força.
Sim, está tudo bem. E então você tem um exemplo de
como isso soaria. E então você pode pressionar
usar voz ou primeiro gerar para ouvir como
ela está soando Primeiro, pensamos que o
PC era uma calculadora. Então descobrimos
como
transformar números em letras e pensamos que
era uma máquina de escrever Tudo bem, mas digamos que você queira ter um sotaque
diferente. Digamos que seja britânico e você
queira ter um sotaque forte. Primeiro, pensamos que o
PC era uma calculadora. Então descobrimos como
transformar números em letras e pensamos que
era uma máquina de escrever Você vê que pode fazer isso
funcionar da maneira que quiser. Você também pode cantar um homem velho, australiano, com baixo
sotaque, uma última vez Primeiro, pensamos que o
PC era uma calculadora. Então descobrimos
como
transformar números em letras e pensamos que
era uma máquina de escrever E se você gostar,
pressione usar vozes, e isso estará na
sua biblioteca de voz. Se você não gostar deles, pode pressionar novamente aqui e fazer a clonagem instantânea de
voz Se você pressionar isso, você
pode dar a ele um nome como eu, por exemplo, então você faria o
upload de alguns exemplos, e aqui eles dizem
o que você pode enviar. Nenhum item foi enviado ainda. Faça upload de amostras de áudio da voz que você
gostaria de clonar A qualidade da amostra é mais
importante do que a quantidade. Amostras ruidosas podem
gerar resultados ruins. Fornecer mais de 5 minutos de áudio no total traz
pequenas melhorias. Então, o que eu digo à maioria
das pessoas é que usem cerca de quatro a
8 minutos de áudio
muito, muito bom e
de alta qualidade. Você pode distribuir isso
em até 25 amostras. A única coisa importante
é que as amostras não sejam
maiores que dez megabytes Assim, você pode enviar, por exemplo, três faixas, cada
faixa pode ter, por exemplo, dois ou 3 minutos
com boa qualidade de áudio, e então você obtém sua voz. E então você pode simplesmente dar
alguns rótulos, se quiser, adicionar uma pequena descrição
e, é claro, aceitar que não faça nenhuma coisa estúpida
com essas vozes. Então você pressiona essa
voz e pronto. Eu fiz isso com minha voz E e máscara e com muito mais. A próxima coisa que
você pode fazer é, obviamente, a biblioteca de voz. Você já conhece a biblioteca. Então, aqui você simplesmente encontra
coisas de outras pessoas. E a última coisa que
você pode fazer é, claro, pressionar mais uma vez em adicionar novas vozes, clonagem de
voz profissional Para isso, você precisa
pagar um pouco mais e pode simplesmente
falar com 11 laboratórios. Você pode enviar algumas amostras de vozes
e, em seguida, elas criam uma voz que soa muito,
muito nítida A maioria das pessoas faz isso
se quiser clonar
suas próprias vozes e criar audiolivros inteiros com elas. Isso funciona muito bem. Um amigo meu fez isso, e ele consegue mais streams com sua voz clonada do que
com sua voz Então, você pode fazer coisas
legais com eles. Então, é claro, também aqui
você encontra essa biblioteca, e aqui você pode encontrar
muitas coisas. Digamos que você queira
criar coisas para mídias sociais. Você pode usar várias vozes
diferentes. Vídeos com olhos,
YouTube, shorts, os, hedges e, claro, esses também são idiomas
diferentes Você pode fazer
muitas coisas legais aqui. Além disso, você também
tem efeitos sonoros. Assim, você pode criar
efeitos sonoros para o que quiser. Vamos fazer o cachorro latir. Aqui você encontra alguns exemplos. Parece ótimo. Meu cachorro
agora não está aqui. Normalmente, ele está sempre por perto, mas isso soaria quase
como ele. Assim, você pode simplesmente digitar
o que quiser criar, pressionar e, sim, você pode usar esse
material comercialmente. Então, se você for
explorar, encontrará, é
claro, vozes que
outras pessoas criaram. Então você pode encontrar
muitas coisas aqui. Aqui você vê os tópicos semanais. Isso é algo
legal, por exemplo. E você também pode ouvir
o som que quiser ouvir, e eles também têm categorias. Se você pressionar os animais, encontrará muitos animais: miados
de gatos,
pássaros cantando, sapos e assim por diante E você sempre pode
usar apenas o prompt ou também baixar essas
coisas, se quiser. Depois, você também pode usar como lanças ou travessas ou fazer
o que quiser Você pode criar efeitos
sonoros muito bons com
eles e, como eu disse, pode usá-los comercialmente A próxima coisa que
quero mostrar é projeto, porque você pode
criar um projeto inteiro. Para explicar isso
muito, muito rápido, quero mostrar este
vídeo porque esse é um recurso em que você
precisa pagar um pouco mais. Eu tenho o plano básico, mas se você quiser fazer muitas coisas aqui dentro dessa ferramenta, você precisa ter uma assinatura
mais forte. Quero te mostrar a assinatura
no final do vídeo. Apresentando o projeto, seu fluxo de trabalho básico para criar
audiolivros em minutos Se você está
começando do zero, um URL
ou
fazendo upload de arquivos EPUB,
PDF ou TXT, arquivos EPUB,
PDF ou TXT projetos Com o texto pronto, você pode converter tudo áudio com o
clique de um botão. Se você quiser misturar
vozes em seu áudio, agora
você pode facilmente atribuir alto-falantes
específicos a
diferentes fragmentos de texto Capítulo um, o ponto de ônibus. Ei, você sabe quando sai o
próximo ônibus? Perguntou Matteo. Acho que deveria estar aqui agora. Se você precisar corrigir uma seção, projetos permitem que você se
regenere sem problemas Então, basicamente, você pode fazer projetos
inteiros com diferentes alto-falantes
e fazer muito mais. Se você tiver mais interesse, você mesmo pode assistir a este
vídeo. Mas então você precisa, é claro, um plano melhor para isso. Eu quero te mostrar
isso agora porque eu recebo algumas perguntas
de vez em quando. Você tem muitos planos
diferentes. Estou agora neste plano inicial
atual, e isso é barato Eu pago, eu acho, uns
cinco dólares por mês, mas você pode usar mais Então, no plano gratuito, você
pode jogar um pouco. Com o plano de $5 por mês, você pode jogar um pouco mais E então, com o plano do criador, esse é o plano mais popular. Você pode começar com
11 dólares por mês, mas depois vai
subir, eu acho, para 22 Também tenho certeza de que isso
vai mudar um pouco. E você também pode ver
o que você ganha aqui. Então, por esses 11 dólares
por mês no início, você obtém clonagem de
voz profissional Você tem projetos,
tem áudio nativo e tem maior qualidade. E com esse plano profissional, você ganha ainda mais. Então, esses são
basicamente os planos, e você também pode
começar dois meses gratuitamente se usar a assinatura
anual. Então você pode brincar com isso um pouco para
si mesmo, se quiser. Mas a próxima coisa
que quero mostrar a vocês é o estúdio VoiceOver O estúdio VoiceOver
também é muito, muito legal. No momento, está melhor. E também aqui você
precisa atualizar seu plano. E esse cara aqui
explica tudo o que o estúdio de
dublagem pode fazer Basicamente, também aqui, você
pode criar projetos inteiros,
fazer upload de vídeos e fazer dublagens de forma nativa
com 11 Isso também funciona muito bem. Eu testei
isso algumas vezes. Você pode gerar efeitos
sonoros e de voz em um único editor. Você pode importar vídeo diretamente, colocar suas faixas de áudio
em camadas e editá-las com precisão. Então, isso é basicamente
edição de vídeo com áudio que vem nativamente de 11
laboratórios. Isso funciona muito bem. Então você tem o estúdio
de escuta. Aqui, eles também têm
alguns recursos, então eu não quero gastar
muito tempo com eles. Eu também gerei
algumas coisas aqui. Se você simplesmente pressionar
Create NU Dup, você pode simplesmente dar um nome ao
seu projeto Em seguida, você fornece o idioma de
origem e o idioma para o
qual deseja traduzi-la, e então você pode enviar
sua faixa do YouTube TikTok ou de outras coisas
que você também pode fazer manualmente, e então você pode
criar essas Isso custará
3.000 créditos. Neste momento, tenho 55.000 créditos restantes
para este mês, então eu seria capaz de
fazer isso muitas vezes Isso também é algo
que eu
realmente gosto e adoro porque você pode traduzir seus
vídeos muito rápido. E, claro, eles podem te contar um pouco mais
detalhadamente, se você quiser. Porque acho que não adianta eu te mostrar
cada passo, os mesmos passos que eles te mostram. Basicamente, crie uma nova etapa, envie suas coisas e
você estará pronto para arrasar. Você pode recriar suas
coisas em outros idiomas. E o mais
legal aqui, sim, é que você pode fazer isso também
nesses planos básicos, para poder traduzir
vídeos com facilidade Então você tem áudio nativo. Além disso, o áudio nativo
é muito legal. E também aqui você
precisa de um plano mais forte. Basicamente, o que você pode fazer é simplesmente
usar um trecho de código,
copiar o trecho de código
em sua página da web
e, em seguida, você terá em
sua página essa barra,
e essa barra lerá toda a sua página da web e essa barra lerá Eu, por mim,
não tenho uma página da web, mas se eu tivesse uma página da web, acho que incluiria isso Se eu publicasse
artigos o tempo todo, você pode usar essas
coisas e, em seguida as pessoas que acessam
sua página da web podem simplesmente pressionar esse botão
e 11 laboratórios
lerão o artigo em
voz alta na frente delas lógica o levará de A a B. A
imaginação
basicamente considerará que eles têm essa barra, e essa barra lerá
todo o seu site para eles. Até mesmo o New York Times
incluiu essa e muitas
outras páginas da web. Se você ler um artigo
do New York Times,
verá isso aqui. Ouça este artigo. Você pode simplesmente pressionar isso
e, em seguida, basicamente 11 laboratórios
lerão este artigo
em voz alta. Não tenho certeza se posso jogar isso aqui porque é como se fosse
o New York Times. E a última coisa
aqui embaixo é o isolador de voz. Se você pressionar o isolador de
voz, poderá simplesmente arrastar e
soltar um arquivo de áudio que não
tenha boa qualidade e
poderá torná-lo muito melhor O vídeo de demonstração mostra
perfeitamente como isso funciona. E esses arquivos de áudio
podem ter até 500 megabytes. Ação da mãe. É necessário remover o
ruído de fundo do seu vídeo. Use nosso novo modelo de isolador de voz para obter sempre um
áudio cristalino Então você vê que isso funciona perfeitamente. Se você tem vozes ruidosas, se tem muitas coisas de
fundo acontecendo, você pode fazer o upload de suas gerações
de áudio, e isso ficará muito melhor E essas coisas podem ser muito
grandes com 500 megabytes, e você obterá saídas
cristalinas aqui Aqui, você sempre vê o
quanto você pode criar. No total, tenho 60.000
créditos por mês. No momento, eu tenho
55.000 créditos restantes. Então você tem algumas
notificações. Se há algo
especial acontecendo. Então, a próxima coisa que
você pode fazer é, claro, pressionar seu nome, e você tem muitas
outras coisas aqui. Você tem seu perfil
e, se pressionar nele como se
visse algumas informações, poderá pressionar as teclas de API Se você é um desenvolvedor, pode gerar chaves de API e criar aplicativos
com 11 laboratórios. Em seguida, a assinatura, aqui você pode gerenciar
sua assinatura. Os pagamentos, se você
for um afiliado
e se não for um afiliado, você pode continuar se tornando um afiliado você pode Aqui você pode obter até 22% em comissões, e
devo dizer que
sim, sou afiliado
deste programa porque eu mesmo o uso
e adoro E acho que ganhei cerca de 100 dólares com eles porque publiquei um
ou dois vídeos sobre isso Em seguida, a análise de uso, se você quiser se aprofundar eles têm uma documentação completa. Se você é um desenvolvedor, pode simplesmente ver por si mesmo. Então, a documentação, depois o bloqueio de alterações,
a central de ajuda, o programa de afiliados, então
um pouco mais sobre esse programa e o classificador de fala
AI E, por fim, é claro,
os termos de privacidade. Sim, você pode
usar isso comercialmente, mas talvez não consiga
criar vozes de pessoas
diferentes sem o acordo de
usar suas vozes E, por fim, é claro,
você pode sair. Se você quer
se tornar um afiliado, porque eu vejo isso o
tempo todo, as pessoas me perguntam isso Você só precisa entrar em contato com
a equipe de afiliados , pressionar aqui, digitar
suas informações e receber um link
que pode ser promovido Você receberá esse link. Acho que fiz isso
na pilha de parceiros, então esse seria meu link Talvez eu o inclua
na última palestra. E se você quiser fazer uma
assinatura no 11 Labs, também
pode incluir este link, e então você pode me apoiar. E você
também pode, é claro, fazer a mesma coisa. Você pode simplesmente criar um link
tão plano. Você pode colocá-lo em vídeos
nas redes sociais ou em qualquer lugar, e talvez você possa ganhar até a mesma quantia que
paga por esse aluno, e é basicamente de graça. Então, neste vídeo, você
aprendeu como o 11 Labs funciona. modo geral, é
uma, pelo menos na minha opinião
, uma das melhores ferramentas de
IA se você quiser gerar
fala a partir de texto. E você deveria
totalmente experimentar isso.
20. Transcrevendo com sussurro: Vamos falar sobre o sussurro. Whisper é a ferramenta gratuita de código
aberto da Openi e você pode
até mesmo executá-la localmente Você pode transformar a fala em texto. Você pode fazer transcrições. Se você rolar para baixo, verá como a tecnologia está funcionando.
Você pode se aprofundar, se quiser. E aqui você obtém toda
a configuração. Então, se você quiser
instalar isso localmente, aqui você obtém esta configuração completa. Você precisa instalar o bip
Open May whisper. Então você precisa
instalar isso aqui. Depois, as atualizações e assim por diante. E então você pode
basicamente usá-lo. Agora, se você não
quiser fazer isso, você tem muitas outras opções. A opção mais fácil
é provavelmente inochio. E se você simplesmente baixar essa coisa e
descompactá-la em seu PC, obterá uma interface
parecida com esta E aqui você também pode
digitar, por exemplo, sussurrar e, se pressionar,
basta fazer o download Pinóquio torna isso
muito, muito fácil
e, se as coisas não estiverem instaladas, basta pressionar instalar
e, em seguida, essas coisas
funcionarão de forma totalmente automática, que você não precise
se preocupar com Essa coisa
funcionará automaticamente. Se você usar a plataforma
do OpmeAI, é claro, poderá usar o Wisper também no PyTon para fazer E também é
muito fácil de usar. Você pode simplesmente usar
isso aqui
e faremos chamadas de API. Para sussurrar, você pode
usá-lo localmente gratuitamente ou integrá-lo em
seus próprios projetos com o PyTN E o WiSPA também é muito
barato em relação à API. Se voltarmos para baixo
mais uma vez neste artigo, você verá que o WiSPA
custa 0,006/minuto Ah, sim, isso é muito barato. Se você fizer o upload em alguns minutos, é quase gratuito. Enquanto isso, o Wisper
também foi instalado localmente, e aqui você obtém sua interface web
gradio Aqui no Open WebUI, você pode simplesmente usar o Wisper e
é muito, muito fácil Você pode usar o que quiser. Você pode pressioná-los. Normalmente, a versão
grande dois funciona bem. Em seguida, você ativa a detecção
automática ou também pode usar o
idioma desejado. Você pode digitar em inglês
ou o que quer que seja. E então você pode simplesmente arrastar
e soltar aqui seu arquivo. Eu só quero dar um exemplo com algo desse curso. Então eu carrego meu arquivo e pressiono
gerar arquivo de legenda Aqui inicializamos o modelo e,
em seguida, obteremos essa saída E isso também é
basicamente um vídeo. Então você vê que este é
um vídeo MP 44 Afx, e isso também deve funcionar Se você usa o MP três, é claro, ele vai mais rápido. E
aí está. Você vê isso Faça
agora 3 minutos. Claro, isso estava
rodando localmente, e isso é um vídeo, e o vídeo também é
relativamente longo. Agora posso simplesmente
pressioná-los e
baixar meu arquivo. E agora eu abri
aqui meu arquivo de texto, e aqui você vê que eu
tenho meu arquivo de texto, e eu também tenho os timestamps Então, o que estou dizendo
em qual data e hora. Isso é completamente incrível e você pode trabalhar com eles. Então, neste vídeo, você
mostrou como usar o sussurro. Você pode transcrever o que quiser em pouco tempo. E isso é muito,
muito barato. E se você quiser executar isso localmente de forma totalmente
gratuita, você também pode fazer isso. É realmente muito fácil.
21. Como gerar música de IA com Udio: O próximo passo é, claro,
que podemos até mesmo fazer música. Como você pode criar texto, você pode criar efeitos sonoros. Você também pode fazer música. Espero que você entenda que esses modelos de
difusão são grandes. Uma das melhores ferramentas do
momento é o Udio,
e o Udio também
lançou a versão 1.5 Se você simplesmente pressioná-los, também
poderá ver como isso funciona, e aqui posso simplesmente mostrar uma ou duas gerações
que eu criei. Se você simplesmente pressionar
play aqui, mosquitos se agitam. Grande. Você ouviu dizer que essa
coisa está funcionando. Você também pode sempre ouvir as coisas que
são escolhidas. Então eles acham que essa música
aqui é legal. Vamos jogar este por
um breve momento. Conjunto de parceria. Você está do
leste para o oeste, do norte para o sul. Então você vê que isso soa
muito, muito bom, pelo menos agora. Essa coisa funciona muito bem. Obviamente, você também pode atualizar seu plano se pressioná-lo, mas também pode começar gratuitamente, mas estará limitado. E se você quiser usar mais, é
claro,
precisa pagar um pouco. E você pode economizar um
pouco se pagar anualmente. Exatamente as mesmas coisas de sempre. Mas você pode começar
totalmente de graça, e é muito fácil de usar
se você simplesmente pressionar Criar. Aqui você obtém uma interface. Essa interface sempre
muda um pouquinho, e você sempre terá
novas opções e assim por diante. Basicamente, você pode digitar
o que deseja ver. Você pode receber sugestões. Você pode prolongar até 130 segundos com
uma única geração. Você pode adicionar suas próprias letras. Você pode fazer muitas coisas aqui. Agora eu quero
te mostrar a maneira mais fácil de criar uma música com eles. Podemos simplesmente digitar
o que queremos
e, claro,
precisamos fazer login. Então, basta fazer login com o Google
com descartar ou com o Twitter. Vou continuar com o Google. Eu já fiz algumas
músicas nessa ferramenta. E agora simplesmente
digitamos o que queremos,
por exemplo, uma música
sobre um coelho E então também podemos fazer
muitas coisas diferentes. Podemos usar o modo manual. Se você começar, basta
usar as configurações padrão. Também não sou especialista em música. Então, se você usar o modo manual, é
claro, você pode
fazer muitas coisas. Você pode fazer tags diferentes. Então, se fosse
rock, eletrônico, pop, xadrez ou algo assim, acho que eletrônica seria legal
com nossa música de coelho Então a letra, você
quer ter uma letra personalizada? Portanto, se você pressionar
algumas letras personalizadas, poderá digitá-las ou
elas serão automáticas. Obviamente, se você incluir
esse material manual, sempre
poderá digitar
o que quiser. Então, o instrumental, como
deveria ser o instrumental? Você quer incluir
algo ou não? E então o gerado automaticamente, se você quiser fazer
tudo automaticamente. Por enquanto, excluo
isso aqui, e simplesmente usamos aqui,
por exemplo, eletrônico
e Electro como nosso texto E simplesmente pressionamos Criar, esperamos um ou 2 minutos e
pegamos nossa música. A música tem 1 minuto de duração
e, depois disso,
também podemos remixá-la Vamos esperar até termos nossa música. E aí está. Temos nossas duas músicas. Demorou cerca de 7 minutos
para criá-los, e vamos ver como eles estão. Somos a casa da meia-noite.
Vamos. Vamos. Vá. luz da lua brilha. Primeira etapa. Aqui está de volta. Veja
o coelho fluir Salte o salto, Acrobat. Veja o coelho fluir,
depois as miçangas. Olá com esses pés de coelho. Gire, pule, gire, pule
com esses pés de coelho. Isso é incrível, então você pode jogar o dia
todo com essa ferramenta. Agora podemos fazer as três coisas a
seguir. Nós podemos remixá-los. Podemos estendê-los ou
publicá-los. Se você pressionar mixar, poderá fazer aqui
muitas coisas diferentes. Obviamente, você pode alterar
o texto, por exemplo, alterar o instrumental, alterar o material
gerado
e, claro, também as variantes Você pode torná-lo mais
diferente ou menos diferente. Você pode remixar como quiser. Se você acha que é legal, mas quer tê-lo por mais tempo, basta pressionar estender. Se você pressionar para publicar, poderá compartilhá-lo com
todos nesta plataforma. Se você pressionar esses pontos livres, poderá remixar, estender,
como você sabe Você pode ver a faixa e adicioná-la a uma playlist. Você pode compartilhá-la, baixar, excluir ou denunciar a música
se algo não estiver bem. Acho que pressiono estender
porque gosto muito disso, mas você não precisa
ouvir a música inteira. Acho que a melhor
coisa que você pode fazer é brincar um
pouco com essa ferramenta. O áudio é,
no momento, pelo menos na minha opinião
, a melhor ferramenta O áudio traz músicas que realmente
podemos ouvir. Podemos criar e
ouvir música em alguns minutos. Isso nunca, nunca foi possível. Pense no que
você precisa fazer para criar uma música com essa
qualidade sem A. Você precisa aprender a
tocar instrumentos. Você precisa aprender a cantar ou precisa encontrar
as pessoas certas. Você tem que ir a um estúdio. Você tem que gravá-lo, você tem que editá-lo.
Isso é enorme. Agora podemos fazer nossa própria música com alguns cliques e a música, pelo
menos na minha opinião, é quase tão boa quanto a
música de profissionais Lembre-se de
que essa é
a pior versão com a qual você jogará. O áudio também ficará cada
vez melhor e talvez
apareça uma nova
ferramenta que seja tão boa quanto os melhores artistas do
planeta. A IA é simplesmente incrível. Basta brincar com o banquinho e me dizer se
você vai adorar Eu sei que você vai.
22. Recapitulação e obrigado!: Parabéns. Você fez isso. E antes de tudo, obrigado. Você aprendeu IA
o mais rápido possível. Começamos com o básico. Então, o que sou eu e o que são LLMs, como eles são treinados
e como funcionam? Isso era um pouco teórico, mas você precisa entender
isso porque precisa entender que,
para obter boas saídas, você precisa de boas entradas e precisa
entender os tokens para Começamos quais LLMs
existem e como podemos
usá-los. Nós temos muitos. Temos
Lams de código fechado, como HachPD,
clot, Gemini Mas, basicamente, esses
são os três grandes, e então temos ams de código
aberto. E os LL ams de código aberto, podemos usá-los
no Olama no LM Studio ou também
no Hugging Então você aprendeu
o que são esses LLMs. Você pode tornar o texto pequeno
maior ou o texto grande menor. E com tudo isso, você pode fazer muita coisa porque também
pode criar código. Você pode criar texto para marketing. Você pode escrever livros antigos. Você pode escrever e-mails e fazer muito mais. Em seguida, conversamos sobre engenharia
rápida. Temos a solicitação de funções,
a solicitação curta, as instruções estruturadas
e algumas dicas, como
pensar passo a passo O mais importante
é a associação semântica, então você precisa dar contexto Você também pode personalizar
seu LLM com o prompt do sistema ou
com tecnologia direta E, claro, você pode usar
todos esses LLMs por meio de uma API e integrá-los em seus próprios projetos
se for um desenvolvedor Claro, há muito mais. Existem inúmeras
ferramentas de IA, como perplexity, algo que funciona
bem para alguns,
e se você quiser jogar também,
o bate-papo de abraços é legal e se você quiser jogar também,
o bate-papo de abraços Em seguida, conversamos sobre
modelos de divisão. Começamos com a geração de
imagens. Difusion são modelos
treinados em texto e imagens e podem recriar
imagens se você digitar Também aqui você precisa ser específico para obter saídas
específicas Portanto, a engenharia rápida
é importante e funciona da mesma forma em todos os modelos de
difusão Pense no que importa. Você viu todas as coisas mais
importantes
sobre o Mid-Journey, o Dogram, AdobvaFly e até mesmo os modelos de código
aberto, como difusão
estável em foco ou
fluxo, e reformulação em replicação o
AdobvaFly e até mesmo os modelos de código
aberto, como difusão
estável em foco ou
fluxo, e reformulação em replicação. Então você aprendeu
que os modelos de fusão podem fazer mais porque você também
pode criar áudio,
vídeo e vozes. Algumas das ferramentas mais
populares para vídeos são ling,
runway e Beca Se você deseja gerar texto, 11 laboratórios ou cinco DDS e
a API OMI é ótima, se você quiser criar músicas, acho que o dio agora
é a melhor ferramenta Além disso, funciona mais cedo e eventualmente, também 11
laboratórios no futuro. Além disso, você também pode usar o código aberto
WisPR
para transcrições Basta instalar o Binochio
e você poderá fazer transcrições de forma muito Então, basicamente, você
aprendeu muito, e eu quero lhe dizer
mais uma vez o que é aprender. Aprender é a mesma circunstância,
mas um comportamento diferente. Talvez você não soubesse que a
IA pode fazer tantas coisas. Agora, você sabe disso, então
você deve totalmente fazer isso. Isso é o mais
importante. Use ferramentas de IA somente depois
de aprender. E eu quero te dizer o que
realmente bons alunos fazem. Eles aprendem juntos
porque mais pessoas sempre sabem mais do que pessoas. Então, se você pudesse
compartilhar este curso, isso realmente
significaria muito para mim. Talvez também signifique a
palavra para a outra pessoa, e se a outra pessoa extrair
valor desse curso, ela descreverá o valor para você porque você contou a ela. Obrigado por isso, e
nos vemos, é claro, mais
uma vez neste curso
ou em outro curso. E uma última vez, obrigado
do fundo do meu coração porque você me deu seu bem mais
valioso, seu tempo. Todo mundo nesta terra tem um tempo limitado e você decidiu passar
seu tempo comigo. Então, obrigado por
isso, e você
aprendeu a IA o mais rápido possível.