Curso de iniciantes de texto a curso: Crie narrações de voz realistas com vozes de texto a voz e inteligência artificial | Martin Aranovitch | Skillshare
Menu
Pesquisar

Velocidade de reprodução


  • 0.5x
  • 1x (Normal)
  • 1.25x
  • 1.5x
  • 2x

Curso de iniciantes de texto a curso: Crie narrações de voz realistas com vozes de texto a voz e inteligência artificial

teacher avatar Martin Aranovitch, Digital Business Training & Education

Assista a este curso e milhares de outros

Tenha acesso ilimitado a todos os cursos
Oferecidos por líderes do setor e profissionais do mercado
Os temas incluem ilustração, design, fotografia e muito mais

Assista a este curso e milhares de outros

Tenha acesso ilimitado a todos os cursos
Oferecidos por líderes do setor e profissionais do mercado
Os temas incluem ilustração, design, fotografia e muito mais

Aulas neste curso

    • 1.

      Demonstração de cursos de texto a fala

      4:16

    • 2.

      01 - Visão geral de texto em voz

      4:59

    • 3.

      02 - Benefícios de texto a fala

      10:41

    • 4.

      03 - Introdução de texto a fala

      15:55

    • 5.

      04 - Processo de marcação de texto a fala

      8:02

    • 6.

      05 - Ferramentas de texto a voz

      16:28

    • 7.

      06 - Tutoriais de marcação de texto a fala

      3:14

    • 8.

      07 - Etiqueta de fala de texto a fala

      1:59

    • 9.

      08 - Etiqueta de quebra de texto em voz

      8:02

    • 10.

      09 - Tag de parágrafos de texto a fala

      8:37

    • 11.

      10 - Etiqueta de Sayas de texto a fala

      35:41

    • 12.

      11 - Etiqueta de ênfase de texto a fala

      3:56

    • 13.

      12 - Etiquetas de Prosódia de Texto a Fala

      12:34

    • 14.

      13 - Etiqueta de MaxDuration de Texto em Voz

      7:27

    • 15.

      14 - Etiquetas de pronúncia de texto a fala

      12:27

    • 16.

      15 - Texto em voz alta Adicionar áudios

      13:16

    • 17.

      16 - VoiceFX de texto a fala

      20:49

    • 18.

      17 - Etiqueta de linguagem de texto a fala

      10:06

    • 19.

      18 - Texto em fala: juntando tudo juntos

      17:31

    • 20.

      19 - Dicas de texto em voz

      22:58

    • 21.

      20 - Recursos de texto a fala

      1:16

  • --
  • Nível iniciante
  • Nível intermediário
  • Nível avançado
  • Todos os níveis

Gerado pela comunidade

O nível é determinado pela opinião da maioria dos estudantes que avaliaram este curso. Mostramos a recomendação do professor até que sejam coletadas as respostas de pelo menos 5 estudantes.

410

Estudantes

--

Sobre este curso

Este curso inovador é apresentado e narrado inteiramente por instrutores de voz de IA. Neste curso de vídeo passo a passo, você vai aprender a usar as tecnologias de voz de texto a fala e mais recentes de IA para criar narrações de voz de som profissionais e realistas de arquivos de texto para uma ampla gama de usos comerciais e aplicativos de negócios.

O curso foi projetado especificamente para usuários não técnicos. Não são necessárias habilidades de programação ou programação.

Neste curso de vídeo abrangente de 4 horas e 20 partes, você vai aprender:

  • Um breve histórico e uma introdução básica aos usos e benefícios de usar texto para discurso.
  • Onde encontrar ferramentas gratuitas ou baratas para criar narrações de voz profissionais a partir de arquivos de texto.
  • Como usar tags de marcação de texto a fala para criar narrações de voz realistas semelhantes a humanos.

O curso inclui tutoriais de vídeo detalhados e práticos usando exemplos envolventes e divertidos de aplicativos de texto a fala e materiais de curso para download.

Após a conclusão do curso, você terá todas as habilidades, conhecimentos e competências necessárias para criar narrações de voz profissionais e arquivos de áudio de texto a fala para uma variedade de usos comerciais, incluindo:

  • Vídeos de educação, vendas e treinamento
  • Apresentações narradas e documentação
  • Cursos de e-Learning
  • Audiolivros e produtos digitais baseados em áudio
  • Podcasts
  • Páginas da Web faladas
  • Publicidade on-line/Social Media / Rádio
  • Anúncios gravados
  • Outros formatos de conteúdo e mídia

Conheça seu professor

Teacher Profile Image

Martin Aranovitch

Digital Business Training & Education

Professor

I have over 14 years of experience teaching businesses and non-technical users how to grow and manage an effective digital presence using smart and cost-effective technologies. My step-by-step video courses provide practical easy-to-follow information that will save you time and money and help you avoid time-consuming and expensive learning curves.

Visualizar o perfil completo

Level: Beginner

Nota do curso

As expectativas foram atingidas?
    Superou!
  • 0%
  • Sim
  • 0%
  • Um pouco
  • 0%
  • Não
  • 0%

Por que fazer parte da Skillshare?

Faça cursos premiados Skillshare Original

Cada curso possui aulas curtas e projetos práticos

Sua assinatura apoia os professores da Skillshare

Aprenda em qualquer lugar

Faça cursos em qualquer lugar com o aplicativo da Skillshare. Assista no avião, no metrô ou em qualquer lugar que funcione melhor para você, por streaming ou download.

Transcrições

1. Demonstração de curso de texto a fala: Olá. Meu nome é Kate, e eu sou uma narradora de voz baseada em inteligência artificial. Neste pequeno vídeo, quero mostrar algumas das coisas que você aprenderá a fazer em nosso curso de texto em fala para iniciantes usando ferramentas baratas de conversão de texto em fala e narradores de voz sintéticos como eu. Então, sente-se, ouça, e aproveite. Olá. Este é um anúncio gravado. O trem da linha azul que chega na plataforma número um partirá às 8:06 e parará nas seguintes estações dos EUA: Dead Horse, Alasca Nothing, Arizona Nowhere, Colorado Greasy Corner, Arkansas Fluffy Landing, Florida Hell For Certain, Kentucky Buttzville, New Jersey, você diz “ou “ e eu digo “nem “nem nem “nem “ nem“ nem nem Nem Nem vamos cancelar a coisa toda. Queridos ouvintes, esta é a minha primeira tentativa de fazer comédia de stand up. Por favor, seja gentil. Planeio divertir-te com umas piadas fabulosas esta noite. Você está pronto? Ok, aqui vamos nós. Eu estive em todos os lugares, homem , eu estive em todos os lugares, homem cruzou os desertos homem nu Eu respirei o homem do ar da montanha de viagens Eu tinha a minha parte homem Eu estive em todos os lugares que eu estive em Louisville Nashville, Knoxville, Ombabika Schefferville, Jacksonville, Waterville, Costa Rica, Pittsfield, Springfield, Bakersfield, Shreveport, Hackensack, Cadillac, Fond du Lac, Davenport, Idaho, Jellico, Argentina... Fox em meias por Dr Seuss Fox, Socks, Box, Knox Knox in Box, Fox em meias Knox em fox em meias na caixa Meias no Knox e Knox na caixa Fox em meias na caixa em Knox Chicks com tijolos As miúdas com blocos vêm As miúdas com tijolos e blocos e relógios vêm Olhe, senhor, olhe, senhor. Sr. Knox, senhor... Fazer novos amigos... Mas manter o velho é prateado... O outro é ouro. Fazer novos amigos (um círculo é redondo), Mas manter o velho (ele não tem fim) Um é prata (isso é quanto tempo) O outro é ouro (Eu serei seu amigo) Um círculo é redondo (fazer novos amigos) Ele não tem fim ( mas manter o velho) Isso é quanto tempo (um é prata) Eu vou ser seu amigo (o outro é ouro) Olá e bem-vindo a outro episódio do podcast meditação AI onde só dizemos o que os outros estão pensando... Antes de começarmos... Respire fundo... e relaxe. Você olharia para todas essas coisas... Eles têm chaves allen gerbil alimentadores assentos sanitários, aquecedores elétricos compactadores de lixo suco extrator de suco, hastes de chuveiro e medidores de água walkie talkies fios de cobre óculos de segurança pneus radiais BB pellets maletes de borracha ventiladores e desumidificadores imagem cabides cortadores de papel ferros waffle persianas de janela removedores de pintura janela louvres fita adesiva e calhas de plástico torneiras de cozinha dobráveis mesas tempo descascando cabos jumper ganchos e argamassa e spackle, nebulizadores de energia, colheres e conchas, pesticidas para fumigação alto desempenho lubrificação de metal coberturas à prova de águaisolamento polivalente prova de água ... Parabéns! Hoje é o teu dia vais para grandes lugares estás fora e fora. Tens cérebro na cabeça tens pés nos sapatos podes guiar-te na direcção que escolheres, estás por tua conta e sabes o que sabes e és o tipo que decides onde ir. Vá. 2. 01 - Visão geral de texto a falar: Olá e bem-vindo ao “Como criar arquivos de áudio de texto em fala” um curso prático passo a passo para iniciantes. Meu nome é Kate, e eu sou uma narradora de voz baseada em inteligência artificial. Serei seu instrutor principal ao longo das aulas, junto com outros narradores de fala sintética como George, Mia e Navin, cujas vozes serão apresentadas em muitos de nossos tutoriais, demonstrações e exemplos. George, Mia, Navin, por favor apresentem-se. Olá! Eu sou George, e estou ansioso para ajudá-lo a aprender a criar arquivos de áudio realistas usando tecnologias de texto em fala, como aquela que me criou. E eu sou a Mia lá de baixo. Como você pode ver, eu sou um narrador de voz de IA australiano e eu vou estar assistindo você nas aulas, junto com meu amigo Navin. Navin, você está aí? Você quer dizer um rápido oi para os ouvintes? Obrigado, Mia e bem-vindos queridos ouvintes, Eu sou Navin e eu também sou um narrador de voz criado usando a mesma tecnologia de inteligência artificial que você estará aprendendo a usar neste curso emocionante. Como você pode ver, criar arquivos de áudio de texto em fala não é apenas muito divertido. mas também tem muitos aplicativos práticos, especialmente para empresas que querem economizar tempo e dinheiro com suas campanhas de marketing digital e promoções. Algumas das coisas que você pode fazer usando text-to-speech incluem criar narrações de áudio e voz para vídeos de vendas, vídeos explicativos, cartas de vendas de vídeo, cartas de vendas de vídeo, vídeos de treinamento, anúncios em vídeo para mídias sociais, apresentações, anúncios, podcasts, audiolivros, páginas faladas para usuários com deficiência visual e tantos outros usos e aplicativos. Kate, não se esqueça de dizer aos nossos ouvintes que podemos facilmente converter arquivos de texto e narrações de voz em muitos idiomas diferentes. Obrigado, George. Eu vou. Depois de aprender a criar um arquivo de texto em fala, você pode converter de forma rápida e fácil seus arquivos de texto e narrações de áudio em dezenas de idiomas diferentes. Kate, conte aos ouvintes algumas das outras coisas excitantes que lhes ensinaremos neste curso. Claro... “Como criar arquivos de áudio de texto em fala” “Um curso prático passo a passo para iniciantes” foi projetado para ensiná-lo a usar text-to-speech e as mais recentes tecnologias de voz AI para criar arquivos de texto que podem ser facilmente convertidos em narrações de voz como áudio. Este curso foi criado especificamente para usuários não técnicos, então você não precisa aprender a codificar ou programar software para aplicar as lições e obter resultados. O curso abordará uma breve história de síntese de fala, uma introdução básica à linguagem de marcação SSML e tutoriais passo a passo práticos sobre como criar arquivos de texto em fala. Você aprenderá onde encontrar tecnologias e ferramentas baratas e gratuitas que você pode usar para criar narrações de voz profissionais a partir de arquivos de texto, e nós mostraremos como usar essas ferramentas. Você também aprenderá a usar tags básicas de marcação text-to-speech para inserir coisas como pausas, ênfase e várias outras inflexões em seu texto medida que o orientamos passo a passo através do processo de criação de arquivos de texto que podem ser facilmente convertido em narrações de voz e arquivos de áudio para uma ampla gama de aplicativos como vídeos, instruções , apresentações, anúncios gravados e muitos outros usos. uso de texto em fala em aplicativos web e de software oferece muitos benefícios para empresas, empresas e organizações, especialmente quando se trata de coisas como economizar tempo e dinheiro, comunicar sua marca e mensagem através de vários plataformas de marketing digital e social, ajudando as empresas a alcançar um público global mais amplo para seus produtos e serviços. Nos próximos anos, veremos uma explosão de aplicativos de texto em fala e uma demanda crescente em todo o mundo por pessoas com habilidades básicas de texto em fala, como saber marcar e editar texto para conversão em áudio. Então... se você está procurando uma oportunidade para chegar à frente da curva e ganhar dinheiro com essa tendência global emergente, ou pensando em começar um negócio para lucrar com uma crescente demanda por serviços de texto em fala , agora é o melhor momento para aprender as habilidades básicas que este curso irá ensinar-lhe. Então essa é uma visão geral do que este curso irá cobrir. Mais uma vez, bem-vindo e vamos começar. 3. 02 - Benefícios de texto a falar: Olá. Este é um anúncio gravado. trem da Linha Azul que chega na plataforma número um partirá na 806 e parará as seguintes estações dos EUA Cavalo morto. Nada do Alasca. Arizona Lugar Nenhum. Colorado Risi Corner Órfãos All Landing Lord Help para servir tempo. Butterball New Jersey Burger Town, Carolina do Norte. Não Homestead, Ohio. Trabalho no Texas e Disco, Wisconsin. O trem Linha Vermelha Escrevendo no meu telefone Número dois partirá em 1913 e parando as seguintes estações australianas. Chicken Victoria, você sabe. Não, eles estão errados. Errado New South Wales Cool na Austrália Ocidental. Manama Tom Victoria Buggy Queensland Sim, Don Darling história. Bem, a Nova Gales do Sul. Queensland e em nenhum outro lugar da Tasmânia. Por favor, fique atrás da linha amarela e espere que o trem chegue a uma parada completa antes de embarcar. Olá e bem-vindo de volta antes de saltarmos para as aulas do curso. Quero falar sobre por que saber como usar texto em fala como uma habilidade valiosa e cobrir os principais benefícios de usar texto em fala para empresas e organizações, criadores de conteúdo e editores de conteúdo e diferentes tipos de usuários finais. Texto em fala é a chave para o novo boom da tecnologia digital. É um setor de crescimento enorme. O mercado do texto em fala foi avaliado em US $1,3 bilhões em 2016 e espera-se que atinja 3,3 bilhões até 2022. principais áreas de mercado incluem elétrons de consumo, ICS , educação, cuidados de saúde, transportes, finanças de varejo, empresas e outras áreas. Esse crescimento trará muitas oportunidades novas e emocionantes para muitos tipos diferentes de usos e diferentes tipos de usuários. Texto em fala Cria uma Internet mais acessível para todos os que 15 a 20% da população mundial tem alguma forma de dificuldade de aprendizagem baseada na língua. 14% dos adultos nos EUA são analfabetos e muitos têm apenas habilidades básicas de leitura. Além disso, 244 milhões de pessoas nascem estrangeiras em todo o mundo. Texto em fala ajuda a tornar a Web mais inclusiva, transformando-a em um lugar onde os usuários podem acessar, consumir e digerir informações em formato de áudio. O texto em fala também pode ajudar a tornar a vida mais fácil e tornar o trabalho mais eficiente e produtivo. texto em fala pode ser usado para melhorar e fornecer informações em sites governamentais, corporativos e de negócios, aplicativos móveis do Blog Geral, livros e cursos de aprendizagem, materiais de treinamento Documentação de negócios RH em políticas legais, transporte e anúncios públicos, sistemas e automação projetados para melhorar a experiência do cliente e comunicação. Vendas e marketing de mídia, robótica, dispositivos incorporados , aplicativos de autoatendimento, a Internet de coisas e maneiras que ainda nem pensamos. O texto em discurso também se tornará mais necessário na era digital, à medida que os governos e as empresas buscam maneiras de aumentar o engajamento dos cidadãos on-line e fortalecer a responsabilidade social corporativa , garantindo que as informações estejam disponíveis tanto por escrito quanto por formato de texto para benefícios de fala, empresas e organizações. Em muitos aspectos, melhora a qualidade da jornada do cliente, permitindo que as empresas e organizações melhorem a experiência do cliente e respondam a diferentes necessidades, desejos e desejos do cliente em termos de como eles interagem com o conteúdo. O texto em fala minimiza a carga de trabalho humana e reduz os custos operacionais. TTS transmitir usado para fornecer aos funcionários e pós-vendas treinamento de clientes. Educar a equipe sobre RH e políticas legais. Serviços personalizados de manuseio de clientes etcetera Texto em fala melhora a marca das novas tecnologias T ts permitem que as empresas criem e usem uma voz sintética reconhecível para representar sua marca em diferentes áreas do negócio e toque do cliente pontos. O texto em fala pode aumentar sua presença na Web. Quase 800 milhões de pessoas em todo o mundo têm problemas de alfabetização e 300 milhões de pessoas têm deficiências visuais. O conteúdo da Web avançado por voz não interfere com a usabilidade para usuários sem deficiências. Também auxilia todas as populações, como usuários mais velhos e falantes estrangeiros ou não nativos. O texto em fala pode ajudar as empresas a alcançar novos mercados globalmente. T ts Vozes estão disponíveis em dezenas de idiomas e olhos de consenso. Discurso de traduções escritas. O texto em fala também ajuda as empresas a economizar tempo e dinheiro. O conteúdo on-line pode ser transformado de forma rápida e fácil em fala sem contratar talentos de voz humanos e linguagem. Tradutores e texto em fala permitem uma implementação mais fácil com a Internet das coisas dando aos dispositivos conectados uma maneira mais fácil de se comunicar com os consumidores. texto em fala também beneficia os criadores de conteúdo e os editores de conteúdo, os criadores de conteúdo e os editores podem economizar tempo e dinheiro fazendo com que os narradores de voz do TTS enunciem seus cursos. Narrador de ar. Podcasts ou audiolivros como uma solução econômica e economizadora de tempo em comparação com a contratação de talentos de voz e permite que você crie cursos e produtos de áudio mais rapidamente com menos tempo e menos custo. Se você precisa de talento de voz humana. Texto em fala permite criar rascunhos e scripts de áudio finalizados para narradores profissionais . O texto em fala também permite que você crie conteúdo melhor se você estiver planejando criar um podcast de audiolivro. O produto de aprendizagem para o curso de treinamento ouvir um rascunho de áudio ajuda a melhorar conteúdo, estrutura e o layout, corrigir erros ortográficos ou gramaticais e gerar novas ideias. Texto em fala também ajuda você a escrever conteúdo mais eficaz. Ouvir o conteúdo do lançador de vendas ser lido em voz alta ajuda você a se concentrar melhor em sua mensagem. Melhore suas habilidades de escrita e escrita de cópia corretamente. Vendas mais eficazes e scripts de vídeo de treinamento e apresentações, conteúdo da Web, anúncios de rádio e muitas outras formas de conteúdo. Por fim, texto em fala Ajuda os criadores e editores de conteúdo a criar e entregar conteúdo a um público global , facilitando a criação de conteúdo de áudio multilíngue e produtos de áudio a partir de traduções de idiomas. texto em fala também oferece muitos benefícios para públicos diferentes e usuários. O texto em fala ajuda todos os alunos, incluindo alunos com dificuldades de aprendizagem. Usado texto em fala para criar conteúdo de áudio para leitores com dificuldades. Estudantes com dislexia e estudantes com estudos de baixa alfabetização mostram que o texto em fala melhora a compreensão de leitura, ortografia, detecção de erros e compreensão de significados de palavras usuários com deficiência visual e de leitura podem se beneficiam muito por ter conteúdo que pode ser lido em voz alta e conteúdo de aprendizagem que é tornado mais acessível. Usuários de línguas estrangeiras também podem se beneficiar de texto em fala, pois o conteúdo traduzido transformado em fala facilita a compreensão e a retenção para uma porcentagem maior da população online , cuja língua nativa é diferente da o idioma de um determinado site ou aplicativo móvel . Usuários mais antigos também podem se beneficiar muito do texto em fala. À medida que uma população idosa crescente está a tornar-se mais dependente da tecnologia de acesso à informação e aos serviços entre 2015 e 2030, o número de pessoas com 60 anos ou mais aumentará 56%, passando de 901 milhões para 1,4 mil milhões. Só nos EUA, 59% dos idosos usavam a Internet. conteúdo móvel habilitado por voz diária torna a Internet mais acessível e cria uma experiência de usuário mais fácil, especialmente para usuários móveis que acessam conteúdo principalmente em dispositivos móveis. Ler conteúdo em uma tela pequena pode ser difícil e inconveniente. É muito mais fácil ter o conteúdo lido em voz alta, especialmente para usuários em movimento. Outro grupo de usuários que podem se beneficiar com texto para fala nossos usuários com diferentes estilos de aprendizagem. As pessoas têm diferentes modalidades de aprendizagem. Tornar o conteúdo digital na Internet acessível em vários formatos cria uma experiência de usuário mais fácil em resumo de texto em fala oferece muitos benefícios para empresas e organizações, criadores de conteúdo e editores de conteúdo e diferentes tipos de usuários finais. À medida que o texto em fala se torna mais amplamente utilizado em todos os aspectos da vida, ele também trará muitas oportunidades novas e emocionantes. T. A tecnologiaT. T s é barata e fácil de usar. Torna a web acessível a todos os usuários ajuda a criar melhor conteúdo, economiza mais tempo e dinheiro e muito mais benefícios. Isso nos leva ao final deste módulo. Consulte a documentação que acompanha nesta seção para obter mais informações e obrigado por ouvir. 4. 03 - Introdução de texto a falar: a forma como a série 9000 é o computador mais confiável já feito. Use tudo infalível e incapaz disso. Abra as portas do compartimento da cápsula. Sinto muito, Dave. Receio que não possa fazer isso. Esse é o problema. Acho que sabe qual é o problema, Justus. Bem à parte. - Olá e bem-vindo a como criar arquivos de áudio de texto para fala. Um curso prático passo a passo para iniciantes. Nesta aula, exploramos o fundo da síntese de fala com um breve histórico de tecnologias de texto para fala , motores populares de texto para fala e termos básicos de texto para fala usados na criação de vozes artificiais . Permitir que os seres humanos interajam com computadores e conversem com máquinas tem sido um sonho de longa data de visionários científicos, escritores de ficção científica e, mais recentemente, animadores de cinema e software virtual e jogos desenvolvedores. humanidade, no entanto, sonhou em criar discurso artificial por muitos séculos. A ideia de que o outono a thons poderia conversar com humanos pode ser rastreada. Um Sfar Bacca 1000. D. Onde, acordo com a lenda, Papa Sylvester, o segundo tomo roubado de conhecimento secreto, uma cabeça falante que poderia responder a qualquer pergunta de sim ou não, foi perguntado muito antes do invenção do processamento de sinais eletrônicos, as pessoas tentaram construir máquinas que imitam a fala humana. As primeiras tentativas de criar a fala humana artificialmente ou, como agora chamamos de síntese de fala, incluem a construção de modelos mecânicos do trato vocal humano para produzir sons vocais. Fole operava máquinas de fala mecânicas acústicas e dispositivos eletrônicos de fala, como sintetizadores de voz operados por teclado ou odores populares e máquinas que convertem padrões acústicos de fala em som. Em meados dos anos setenta, um dos primeiros sistemas de síntese de fala, consistindo de um hardware de computador autônomo em um software especializado foi desenvolvido que podia ler e até cantar em italiano. Nos anos 19, a Bell Labs desenvolveu um dos primeiros sistemas independentes de linguagem multi-lingual, fazendo uso extensivo de métodos de processamento de linguagem natural. Ao mesmo tempo, a Digital Equipment Corporation desenvolveu uma tecnologia de fala, sintetizador e texto em fala chamada Deck Talk. Ouça uma amostra de fala gerada pela palestra do deck, usando as vozes de Perfect Paul e Up a Gear Select. Neste momento, estás a ouvir a minha voz perfeita do Paul. No entanto, eu também tenho outras predefinições. Isto, por exemplo, no meu aqui em cima. Então, o que mais sentado como você pode ver, primeiros sintetizadores de fala Elektronik soavam robóticos e muitas vezes eram pouco inteligíveis. Sorte para um narradores I como eu. Síntese de fala ou o processo de criação de fala humana artificialmente percorreu um longo caminho desde aqueles primeiros dias em que dispositivos de fala mecânicos tentaram emular o trato vocal humano e simuladores de fala eletrônicos e sintetizadores de fala criados voz como sons usando circuitos elétricos. A verdadeira revolução na tecnologia da fala surgiu quando os computadores digitais começaram a permitir a simulação de circuitos eletrônicos. A conversão de sinais analógicos em forma digital e a criação de sinais analógicos a partir de informações digitais para produzir som na forma de fala. Os avanços na tecnologia informática e a introdução de computadores de secretária acabaram por trazer a síntese de voz e o reconhecimento de voz acessíveis ao alcance do usuário médio de computadores. Muitos sistemas operacionais de computador incluíram sintetizadores de fala desde o início dos anos 19 , que essas tecnologias se tornaram mais baratas e acessíveis. Isso nos leva a onde estamos agora. A qualidade da fala sintetizada está melhorando constantemente, e está ficando cada vez mais difícil distinguir entre fala gerada artificialmente e fala humana, especialmente quando novas tecnologias de IA e aprendizado de máquina de texto em voz e software de voz aplicações, a Internet das coisas, produtos Elektronik e a indústria de jogos continuam empurrando a tecnologia de voz para novos limites . Já ouviu falar desta nova tecnologia? Está falando desse novo algoritmo para copiar vozes? Sim, é desenvolvido por uma startup sabor completo. Isto é enorme. Pode nos fazer dizer qualquer coisa agora. Realmente? Qualquer coisa. A boa notícia é que eles vão oferecer a tecnologia tending. Isto é enorme. Como essa tecnologia funciona? Ei, pessoal, eu acho que eles costumavam aprender e redes neurais artificiais. Hillary está certa, e posso te dizer que a equipe deles tem taxas que eu gostaria muito dele. Tenho certeza que farão um bom trabalho. Então, vozes artificiais se tornarão indistinguíveis de vozes humanas reais. Talvez algum dia consigam. Sistemas de síntese de fala e máquinas falantes de ar não mais uma novidade divertida projetada para provocar uma risada barata. Mamas texto para sistemas de fala capazes de gerar IA. Vozes como a minha estão agora a ser integradas em todas as áreas da vida humana, incluindo aprendizagem , ensino, vendas de produtos e serviços, entrega de notícias, informação e entretenimento, ler receitas enquanto você cozinha e até mesmo executar tarefas e atividades em sua casa e em seu escritório. Agora que analisamos a história da síntese de fala, vamos dar uma olhada em algumas tecnologias e sistemas TTS atuais que estão sendo usados para criar fala humana artificial. Como este curso é destinado a usuários não técnicos, esses próximos slides apresentam apenas uma visão geral das tecnologias de texto em fala para ajudar a colocar as coisas em contexto. No final deste curso, você encontrará uma lista abrangente de referências, sites e recursos adicionais é onde você pode aprender mais sobre áreas técnicas relacionadas ao texto em fala ou tecnologias TTS. Um computador de fala. Um sintetizador de fala pode ser implementado em produtos de software ou hardware. Os sistemas de texto em fala convertem texto de linguagem normal em fala. Enquanto outros sistemas renderizam representações linguísticas simbólicas como transcrições fonéticas em fala, as qualidades mais importantes de um sistema de síntese de fala são nous natural e inteligibilidade. Natural Miss descreve o quão perto a voz gerada sintética soa como discurso humano enquanto inteligibilidade como facilmente pode ser entendido. O sintetizador de fala ideal visa gerar formas de onda de fala sintética. Esse som é natural e inteligível quanto possível. É importante ter em mente que todas as tecnologias de fala têm pontos fortes e fracos. Por exemplo, uma das principais tecnologias utilizadas para gerar discursos chamados de síntese de fala nativa inventada com síntese nativa. Um banco de dados muito grande de fragmentos de fala curta chamadas unidades são gravados a partir de um único alto-falante e recombine para formar enunciados completos. Em outras palavras, este método cadeia segmentos de fala gravada juntos. Embora isso produza um discurso sintetizado de som natural, é difícil modificar a voz. Por exemplo, você não pode alternar para um alto-falante diferente ou alterar a ênfase ou a emoção de seu discurso sem gravar um banco de dados totalmente novo. Deixe-me tocar para Você um arquivo de áudio gerado a partir de texto usando síntese de fala nativa inventada. The Blue Lagoon () é um filme estadunidense de 1980 dirigido por Randall Kleiser, outro tipo de tecnologia usada para gerar discursos chamados de síntese de fala paramétrica, Síntese Paramétrica visa criar um modelo de máquina da voz humana usando as propriedades acústicas do trato vocal humano, e gera dados de áudio analisando os valores de vários parâmetros de fala e, em seguida, alimentando-os através de algoritmos de processamento de sinal conhecidos como odores voke. Nós abordamos esse modelo anteriormente quando discutimos a história da síntese da fala. Aqui está um arquivo de áudio gerado a partir de texto usando síntese de fala paramétrica. The Blue Lagoon () é um filme estadunidense de 1980, dirigido por Randall Kleiser. Como você pode ouvir, essas vozes sinteticamente geradas não são ruins. Embora existam outros modelos geradores de voz usados para sintetizar a onda de fala Net como a tecnologia de voz de som mais natural atualmente disponível. E como um dos principais modelos que usaremos ao longo deste curso enquanto aprendemos a construir scripts para narrações de voz. O modelo Wave Net como a mesma tecnologia usada para criar fala para aplicativos como Google Assistant, Google Search e Google Translate Wave Net tecnologia fornece mais do que apenas uma série de voz sintética é que representa um novo maneira de criar fala sintética. Wave Net gera fala que soa mais natural do que outros sistemas de texto para fala. É sintetiza a fala com mais humano como ênfase e inflexão em sílabas, nomes de telefone e palavras. Estudos mostram que a maioria das pessoas prefere voz gerada por rede de onda, áudio em vez de outras tecnologias de texto para fala. Ao contrário da maioria dos outros sistemas de texto para fala, um modelo de rede de onda cria formas de onda de áudio brutas a partir do zero, usando uma rede neural que foi treinada usando um grande volume de amostras de fala. Aqui está um exemplo de áudio gerado usando a síntese de fala net wave. The Blue Lagoon () é um filme estadunidense de 1980, dirigido por Randall Kleiser. Deixe-me tocar todas as três amostras de audiófilos novamente para que você possa ouvir as diferenças entre criar uma síntese nativa Paramétrica e rede de ondas. The Blue Lagoon () é um filme estadunidense de 1980, dirigido por Randall Kleiser. The Blue Lagoon () é um filme estadunidense de 1980, dirigido por Randall Kleiser. The Blue Lagoon () é um filme estadunidense de 1980, dirigido por Randall Kleiser. Minha voz foi gerada a partir de um arquivo de texto usando onda Net síntese Wave. Net, no entanto, não apenas sintetizou vozes, além de produzir um discurso mais natural. Usando formas de onda brutas significa que a rede de onda pode modelar qualquer tipo de áudio, incluindo música. Por exemplo, aqui está uma amostra de música criada a partir de entrada aleatória de dados musicais em um algoritmo de wavelet. Isso não soa como música para seus ouvidos? Como você pode ouvir, Wave Net abre muitas possibilidades para sistemas de texto para fala. Vamos dar uma breve olhada Agora em alguns dos mecanismos de texto para fala mais populares. mecanismos de texto em fala permitem que os usuários de aplicativos como ferramentas de e-mail , leitores da Web, audiolivros e outros programas de software convertam texto escrito em som. Diferentes motores TTS fornecem acesso a diferentes vozes, idiomas e dialeto. Por exemplo, Microsoft tem um motor T. Ts chamado Speak, que é um recurso integrado de programas como Word, Outlook e Power Point. Você pode falar para ter texto digitado em seus documentos do Word, e e-mails e apresentações de slides lidos em voz alta. Ouça uma amostra de uma voz do mecanismo de fala da Microsoft lendo uma frase digitada em um documento do Word . Minha coroa está no meu coração, não na minha cabeça, não enfeitada com diamantes e pedras indianas. Nem, para ser visto. Minha coroa é chamada de conteúdo uma coroa. É que raramente os reis gozavam. Esta citação é da peça Rei Henrique Sexto de William Shakespeare. Olá, sou a Kendra da Amazon Polly. Observe que há uma diferença entre dizer conteúdo e conteúdo. Aqui está como eu diria a citação de Shakespeare. Minha coroa está no meu coração, não na minha cabeça, não enfeitada com diamantes e pedras indianas. Nem para ser visto, minha coroa é chamada de conteúdo uma coroa. É que raramente os reis gostam. Esta citação é da peça King Henry, o sexto, de William Shakespeare. A segunda amostra de áudio que você acabou de ouvir foi criada com o Amazon Polly, que é um serviço de texto em fala que usa tecnologias avançadas de aprendizagem profunda para sintetizar fala em dezenas de vozes realistas em vários idiomas. Amazon Polly usa a mesma tecnologia de inteligência artificial usada para alimentar a assistente de voz digital da Amazon Alexa. Vamos ouvir mais do Amazon Polly em lições posteriores o último mecanismo TTS que eu quero abordar nesta lição como o mecanismo de texto em fala do Google Cloud, que converte texto em voz humana. Usando mais de 100 vozes em mais de 20 idiomas e variantes, mecanismo TTS do Google usa síntese de voz de rede onda e redes neurais poderosas para fornecer o áudio de alta fidelidade usado em aplicativos como Google Assistant, Google Traduzir e Google Reader. A última área que quero abordar nesta lição são alguns dos textos básicos para termos de fala referiremos ao longo deste curso. Você deve estar familiarizado agora, com termos como TTs ou texto em fala, síntese de fala e diferentes modelos para gerar fala artificial ou sintética como criar rede nativa de onda paramétrica em termos como redes neurais, aprendizado de máquina e vozes AI. Em outras lições, você aprenderá sobre s SML, que usaremos para marcar arquivos de texto para conversões audiófilos Prasit E, que permite que você altere atributos de sua fala, como o volume, tom e taxa de seu nomes de texto e telefone e pronúncias fonéticas que permitem que palavras semelhantes com diferentes significados sejam pronunciadas corretamente em seus arquivos de áudio. Isso nos leva ao fim desta lição. Espero que tenham gostado desta lição tanto quanto gostei de apresentá-la a vocês e obrigado por terem escutado. 5. 04 - Processo de marcação de texto a fala: Olá e bem-vindo de volta Nesta lição, você aprenderá como preparar texto para arquivos de áudio. Os tópicos abordados nesta lição incluem o que é SML uma visão geral das tags de marcação SML s e os principais formatos de arquivo de áudio que usaremos no processo de texto para fala Antes de entrarmos nesta lição, vamos nos divertir um pouco. Eu vou jogar um vídeo para vocês e eu quero ver se você pode dizer se o áudio neste vídeo foi gravado por um ser realmente humano ou uma voz de IA. Narrador Oh, os lugares que você vai por Dr. Seuss. Parabéns. Hoje é o seu dia. Você está indo para grandes lugares. Você está fora de certa forma. Tens cérebro na cabeça, tens pés nos sapatos. Você pode guiar-se em qualquer direção que você escolher. Você está por sua conta. E você sabe o que sabe, e você é o cara que vai decidir para onde ir. Certo, isso foi só um treino. Vamos ver se você pode dizer se este próximo áudio foi gravado por um ser realmente humano ou uma voz de IA. Narrador Oh, os lugares que você vai por Dr. Seuss. Parabéns. Hoje é o seu dia em que você vai para grandes lugares. Você está fora e fora. Você tem cérebro na cabeça. Você tem pés em seus sapatos. Você pode guiar-se em qualquer direção que você escolher. Você está por sua conta. E você sabe o que sabe e você é o cara que decidirá para onde ir. Nada mal, hein? Esta voz levou apenas 20 anos a ser humano para aperfeiçoar. Certo, último teste. Isso é narração de voz, Riel ou um I? Oh, os lugares que você vai por Dr. Seuss. Parabéns. Hoje é o seu dia. Você está indo para grandes lugares. Você está muitas vezes fora. Tens cérebro na cabeça, tens pés nos sapatos. Você pode guiar-se em qualquer direção. Você escolhe o seu por conta própria e você sabe o que você sabe e você é o cara que vai decidir para onde ir. O último arquivo de áudio que você ouviu foi gravado usando uma voz artificial sintética com texto marcado para tentar fazer a narração soar o mais próximo possível de uma leitura natural. Ouça novamente a introdução desta leitura com a voz rial e a voz sintética narrando o título ao mesmo tempo. Oh, os lugares que você vai passar por Dr. Seuss Como você pode ouvir, ainda não estamos lá, mas estamos chegando cada vez mais perto. Não só a tecnologia para gerar voz realista está melhorando, mas a maneira como podemos expressar vozes usando tags de marcação também está melhorando. Por enquanto, vamos começar dando uma olhada no idioma usado para marcar texto em arquivos de fala. S M L significa linguagem de marcação de síntese de fala e consiste em tags escritas que dizem texto para motores de fala como codificar texto para criar nuances e adicionar expressão a uma voz sintética. S M L Como parte de uma linguagem chamada XML, XML significa linguagem de marcação extensível e permite que os desenvolvedores descrevam e organizem informações de maneiras que humanos e computadores podem facilmente entender. Embora muitas empresas desenvolvam novos aplicativos de texto em fala para suas plataformas, nem todos os mecanismos de texto para fala, concertos, as mesmas tags SML ou fazem uso de todas as tags SS ML que estão atualmente disponíveis. Algumas plataformas também desenvolvem tags SML personalizadas para uso em seus próprios aplicativos, que podem não funcionar em outros mecanismos de texto para fala. Por exemplo, medida que esta lição está sendo gravada, à medida que esta lição está sendo gravada,o mecanismo de texto em voz do Google não suporta o uso de tags SML s que permitem adicionar variações fonéticas, palavras dos dedos ao respirar à fala ou usar interjeições em frases . Mas Amazon Polly sabe. Vamos explorar algumas dessas diferenças e quais ferramentas usar para diferentes motores TTS posteriormente em nossos tutoriais. Então, o que você pode fazer com as tags SML s? A adição de tags SML aos arquivos de texto permite que você faça coisas como quebras de anúncios e pausas em suas narrações. Adicione ênfase às suas palavras e frases. Soletre palavras e números de telefone dizem números de forma diferente, dependendo se você está falando sobre datas, horas, unidades, frações ou explicando a diferença entre ser o número dois e chegar em segundo lugar, adicionar parágrafos e frases às suas narrações. Censura palavras em sua narração. Como as palavras controlam Prasit e atributos em suas narrações para afinar elementos como o tom, volume e tempo das palavras faladas. Adicione variações fonéticas. Duas palavras. Substitua abreviaturas para falar seu formato expandido como Organização Mundial da Saúde em vez de W.H.O.R. W.H.O.R W.H.O.R W.H.O.R que incorpora outros arquivos de áudio em sua voz. Narrações como adicionar sons ou inserir instruções avançadas, como reproduzir vários arquivos de mídia simultaneamente ou sequencialmente. os principais formatos de arquivo de áudio que usaremos para converter nosso texto em narrações de áudio neste curso são onda e MP três arquivos usando tanto onda ou MP três formatos vai funcionar muito bem para gravar narrações de voz. Os arquivos Wave fornecem melhor qualidade de som para gravar ou distribuir música, pois o formato de onda pode cobrir toda a freqüência que o ouvido humano é capaz de ouvir. Um arquivo MP três é compactado e tem perda de qualidade, enquanto um arquivo wave é sem perdas e UN compactado. MP três nunca soará melhor do que onda, pois é um formato com perdas. arquivos MP três, entanto, são menores em tamanho do que os arquivos wave e, portanto, eles são muito mais fáceis de distribuir. Embora arquivos wave ar normalmente muito maior em tamanho do que MP três, armazenamento atualmente não é mais um problema tão grande. Então, mais uma vez, usar qualquer um desses formatos funcionará muito bem para narrações de voz. Por favor, note que não estaremos cobrindo aspectos técnicos do áudio digital como taxas de amostragem , profundidades de bits, etc em nossas aulas, como estes ar não é necessário converter texto em arquivos de áudio para a maioria dos comerciais , exploraremos, no entanto, no entanto, algumas ferramentas que você pode usar para converter arquivos de áudio em diferentes formatos e algumas das configurações que essas ferramentas fornecem para melhorar a qualidade do som de suas gravações de áudio. Isso nos leva ao fim desta lição. Mais uma vez. Obrigado por me ouvirem, e verei vocês na próxima lição. 6. 05 - Ferramentas de texto a falar: Olá e bem-vindo de volta. Nesta lição, olhamos um texto para ferramentas de fala. Os tópicos abordados nesta lição incluem o processo de texto em fala e as ferramentas usadas para converter texto em arquivos de áudio. Ferramentas de economia de tempo para adicionar telefone aponta para o seu arquivo SS ML. Convertendo arquivos de áudio em diferentes formatos, traduzindo conteúdo em diferentes idiomas, capturando áudio e muito mais. Também analisaremos as ferramentas de texto em voz gratuitas e pagas para criar arquivos de áudio que podem ser acessados a partir de laptops, computadores desktop dispositivos móveis e nuvem, e ferramentas e recursos adicionais são recomendados usando para economizar tempo e dinheiro. Vamos começar detalhando o processo de texto em fala para converter seu script baseado em texto em um arquivo de áudio. Esse processo começa com o conteúdo baseado em texto. Este conteúdo pode ser na forma de uma narração, roteiro, artigo, cópia de vendas, instruções de treinamento, um livro, etc. Após o conteúdo ter sido escrito, a próxima etapa é selecionar o mecanismo de texto em fala como mencionado em uma lição anterior, você precisa escolher o mecanismo de texto em fala antes de marcar o texto. Porque diferentes plataformas de texto para voz podem não suportar ou permitir que você use uma bagunça. Marcas de marcação SML. Por exemplo. Se o seu conteúdo usa palavras que exigem uma pronúncia fonética diferente, então você provavelmente vai querer marcar seu texto para o Amazon Polly em vez do Google até que o mecanismo de texto em fala do Google permite que tags fonéticas sejam usadas no S M l. Para manter as coisas realmente simples, os únicos motores t ts que usaremos ao longo deste curso são o Google text to speech e Amazon Polly. Portanto, tudo o que você precisa fazer para concluir esta etapa é escolher qual mecanismo você usará para processar seu conteúdo escrito. Depois de selecionar seu motor T ts. O próximo passo é, em seguida, marcar o arquivo de texto com tags S SML que o mecanismo irá suportar. Esta etapa é abordada em detalhes nos tutoriais de marcação. Em nossa próxima lição, depois de marcar seu arquivo de texto com s tags SML, o próximo passo é executar seu conteúdo através de sua ferramenta t ts. Vamos olhar um T. Ts ferramentas em apenas alguns instantes. Essencialmente, a ferramenta deve permitir que você selecione seu idioma ou dialeto. Escolha uma voz masculina ou feminina, importe seu arquivo de texto SS ml e converta seu texto em um arquivo de áudio. Depois de criar sua narração de áudio, você deve então ser capaz de baixar ou exportar seu audiófilo, que você pode então usar para qualquer aplicativo que você gosta, como uma narração de vídeo, página da Web, podcast, audiolivro, etc. Vamos dar uma olhada agora em algum momento salvando texto em ferramentas de fala. A primeira ferramenta que você precisa para criar um arquivo de texto em fala como um editor de texto sem formatação. Se você usar o Windows, o editor de texto do bloco de notas gratuito integrado, como uma ferramenta perfeita para o trabalho. Se o seu computador for executado no IOS, uma ferramenta de editor de texto padrão, como o editor de texto, também é ótima . É importante lembrar que todas as suas marcações devem ser feitas em um arquivo de texto simples. Usar palavras e marcações somente não usam aplicativos de processamento de texto com texto formatado , pois isso não é compatível com os mecanismos TI ts e levará a erros. Outro ponto importante a ter em mente é que se você adicionar símbolos fonéticos ao seu arquivo de texto , você precisará salvar seu arquivo de texto usando UTF oito codificação. Vou mostrar-lhe como fazer isso em um tutorial posterior. A próxima ferramenta que recomendamos usar é uma ferramenta como o MacMillan Online Dictionary, pois fornece pronúncia de palavras e ortografia fonética que você pode copiar e colar em seu arquivo de texto. Deixe-me mostrar-lhe um exemplo. Ele pode Pekan outra grande ferramenta on-line que você pode usar para nomes de telefone e ortografia fonética, é o I. P. Um tipo de ferramenta. Esta ferramenta permite criar uma ortografia fonética de palavras usando um teclado online em alfabeto, que você pode copiar e colar em seu arquivo de texto. Aqui está um breve vídeo de demonstração mostrando como esta ferramenta funciona. A próxima ferramenta útil é o Google. Traduzir com Google Tradutor. Você pode colar texto em seu idioma, traduzido para outro idioma que não copiar e colar a tradução em seu arquivo de texto para fala. Aqui está um breve vídeo demo Carson Ananda Lindgren Um castelo sinuoso Nicotero é tão muito consistente. A CIA. Kathy referiu ao Conselho Positivo. Ela me deu o nome de Koshien Cell. Qualquer Selkoe os fundos sacudem. Por que cada surpreendentemente, algumas fotos tirar a recessão. Eu sou um sapato de fígado. Esperança Outra grande ferramenta é uma ferramenta de conversão de formato de arquivo. Existem muitas ferramentas de conversão disponíveis para escolher. Um que eu particularmente gosto é on-line traço converter ponto com, que permite converter facilmente todos os tipos de arquivos e diferentes tipos de formatos de graça, incluindo a conversão MP três arquivos de áudio em arquivos de onda e vice-versa. Aqui está um breve vídeo desta interface de ferramentas. Vamos passar para as ferramentas de conversão de texto em fala . Começaremos com ferramentas gratuitas que permitem converter texto em narrações de áudio. Tanto o Google quanto a Amazon fornecem simuladores de texto para fala onde os desenvolvedores contestam scripts e baixam narrações de áudio, mas acessá-los como um pouco complicado e exigem a configuração de contas com a plataforma. As notas anexadas a esta lição fornecem mais instruções e tutoriais sobre como acessar esses simuladores T TS. Há uma série de ferramentas de texto em voz livre que você pode acessar online que permitem criar arquivos de áudio a partir do texto inserido. Nós fornecemos uma lista de ferramentas online gratuitas de texto para fala nas notas que acompanham esta lição. A maioria das ferramentas online gratuitas que testamos ao colocar este curso juntos parecem ser bastante limitadas e não aceitaram tags de marcação SML. Esperemos que, no futuro, essas ferramentas vão melhorar aqui é um vídeo de demonstração de uma ferramenta TTS on-line gratuita que testamos ao colocar este curso juntos. Como esticar seu copo E casa treinar seu copo é sobre consistência, pacientes e reforço positivo. O objetivo é incutir bons hábitos e construir um amor feito com o seu corte. Normalmente, leva 4 a 6 meses para um filhote de cachorro para ser totalmente treinado em casa, mas alguns filhotes podem levar até você ano. Além de ferramentas que você pode acessar através de seu desktop, computador ou laptop, há também uma série de APS móvel de texto para fala que você pode acessar através de seu telefone. A maioria dos telefones IOS e Android agora vem com funcionalidade de texto em fala integrada. Tudo o que você precisa fazer é ativado em seu telefone. Você pode procurar APS de texto em fala no seu telefone apenas indo para sua loja de APP e digitando texto em fala. Também fornecemos links para tutoriais como este sobre como ativar o texto em fala do seu telefone nas notas que acompanham esta lição. O texto em fala permite que você ou seu filho tenham o imposto digital lido em voz alta. Aqui está o que parece. Lembre-se de colocar sua lição de casa em sua mochila Se você planeja criar narrações de áudio profissionais usando vozes AI, recomendamos usar ferramentas pagas de texto em voz, pois você terá acesso a um melhor suporte e atualizações regulares. Vamos passar por algumas ferramentas que recomendamos usar para converter seus arquivos de texto em narrações de áudio. Existem duas ferramentas baseadas em nuvem de texto para fala que usamos dependendo da plataforma TTS você precisa para o seu projeto para narrações de voz do Google Wave Net, usamos uma ferramenta chamada Wave Net vocalize er para vozes Amazon Polly. Usamos uma ferramenta chamada script vocalize ER. Ambas as ferramentas foram usadas para criar as narrações de voz para todo o curso, e ambas são desenvolvidas pela mesma empresa. Ambos wave net vocalize ER e script vocalize er permitem que você carregue um arquivo de texto marcado com S SML, converter texto em áudio, traduzir o texto em diferentes idiomas e baixar gravações audiófilas de alta qualidade para uma gama de usos comerciais. Wave net vocalize er saídas de arquivos de áudio como formato de onda e script vocalizar er saídas áudio como MP três para mais informações e links para onde você pode acessar ambas as ferramentas, consulte as notas que acompanham para esta lição. Nós agora cobrimos as principais ferramentas que você precisará para criar arquivos de texto para fala. Os próximos slides fornecem algumas ferramentas adicionais, e o recurso é que você pode querer considerar o uso, dependendo de suas necessidades e do que você planeja usar. Texto em fala para uma ótima ferramenta para usar se você planeja escrever seu próprio conteúdo para narrações de áudio como Graham cedo Graham escaneia seu texto e ajuda a corrigir erros ortográficos. Melhore sua gramática em sua comunicação, e isso pode ajudar você a criar e entregar uma mensagem mais poderosa e eficaz. Como ainda não podemos pensar por nós mesmos, narradores de voz como eu lerão o que você digita. Então, se houver erros ortográficos nas palavras, vamos lê-los conforme apresentado no seu texto. Jim, pode vir aqui, por favor? Oi, Jim. Olá. Eu sou Harvey. Uma academia de informática é uma droga, então Wow. Oh, isso é tão rude. Eu sinto muito. Não consigo controlá-los. Sim, você pode. Você sabe, pegar Pam por isso. A Pam. Pam, você está muito gostosa hoje. Passa-me, Harvey. Este é o amigo do Michael. Ótima. Eu estou tão excitado. Eu te amo por muito tempo, Tim. Oh, isso é nojento. O Suzlon. Tim! Maldito seja. Há muito tempo, rapaz, há muito tempo. Bem, você deve trazer o Tim longo em um dia. Eu adoraria Mim. Sim, sim. Você arruinou uma piada engraçada. Você sai do meu cinco fora. Ok. Por Hardy, outro par de ferramentas que você pode querer considerar investir em, Especialmente se você pretende iniciar um negócio oferecendo serviços de texto para voz ou criar vídeos com áudio AI. Narrações são ferramentas como agarrá-lo e não pode Ásia. Essas ferramentas não só permitem gravar e editar vídeos de tela com narrações de áudio, mas você também pode usar essas ferramentas para extrair áudios de vídeos postados em outros sites e exportar apenas a trilha sonora de áudio desses vídeos gravados. Se você planeja oferecer serviços de texto em voz e vídeo profissionalmente ou apenas deseja criar narrações de vídeo e áudio para o seu próprio marketing de negócios e promoções, nós fornecemos uma lista de ferramentas de criação de vídeo nas notas que acompanham. Aqui, por exemplo, é um vídeo explicativo rápido criado usando uma ferramenta de software de animação de vídeo chamada Twombly que meu amigo George narrou. Olá, sou o George. Sou uma voz gerada artificialmente. Narrador Alguém como eu pode economizar tempo e dinheiro empresas em áreas como marketing de vídeo, que todos sabem é uma das maneiras mais poderosas e eficazes para promover produtos e serviços on-line. Alcance novos públicos globalmente. Estabelecer a sua marca, educar e informar ou clientes potenciais sobre o seu negócio e treinar os clientes da equipe e sobe alguns grandes usos para uma voz I. narrações incluem vídeos de vendas, explicam seus vídeos, vídeos de treinamento, anúncios em vídeo, apresentações em vídeo, podcasts, livros falados, páginas da Web para visualmente usuários prejudicados e tantos outros usos. Uma vez que você sabe como converter texto em fala, você pode criar vídeos com narrações de áudio como esta de forma rápida e fácil usando ferramentas muito baratas. Obrigado por assistir a este vídeo e ter um dia maravilhoso. Então, em resumo, as ferramentas que abordamos nesta lição ajudarão você a economizar tempo e dinheiro, criando arquivos de texto em voz, o texto livre, conversão fonética e ferramentas de tradução que eu mostrei a você irá ajudá-lo economize tempo criando seus arquivos de texto. Eu recomendo escolher ferramentas como wave net vocalize ER e script vocalize ER para converter seus arquivos de texto em áudio de alta qualidade está usando o texto do Google para fala em vozes Amazon Polly. E se você planeja usar suas habilidades de texto para fala em um ambiente comercial, seja fornecendo serviços profissionais ar usando estes para melhorar o seu próprio negócio, em seguida, considere investir em ferramentas de vídeo e áudio para criar vídeos ou gravar um extrato áudio de outras fontes. Isso nos leva ao fim desta lição. Mais uma vez. Obrigado por me ouvirem, e verei vocês na próxima lição. 7. 06 - Tutoriais de marcação de texto a fala: Olá e bem-vindo de volta. Esta seção do curso inclui uma série de tutoriais que mostrarão como marcar seus arquivos de texto em voz. Esta lição fornece uma visão geral dos tutoriais que incluímos. Um vídeo separado. Para uma referência mais fácil, vou mostrar-lhe qual é SML. As tags de marcação podem ser usadas com o Google T TS ou Amazon Polly, e também fornecemos folhas de fraude S S M l. Nos tutoriais fornecidos nesta seção, você aprenderá como marcar seus arquivos de texto em fala para fazer coisas como Ed pausa e quebra dois parágrafos e frases em diferentes níveis de ênfase. Duas palavras controlam como tipos especiais de palavras são faladas, como números de telefone, datas, hora, unidades de medida, frações e números cardinais e orginais. Você também aprenderá a censurar palavras. Controle o processo de elementos de fala como volume de pitch e taxa de fala. Use pronúncia fonética com certas palavras, pronuncie acrônimos e abreviaturas e incorpore arquivos de áudio em seus scripts. Nós também cobrimos s s tags de marcação SML adicionais que permitem adicionar respiração duas palavras falam palavras suavemente ou sussurrado controlar a madeira de vozes selecionadas adicionar compressão de alcance dinâmico e muito mais. Para manter as coisas simples, vamos nos concentrar apenas na marcação de arquivos de texto em fala para o Google Text to Speech e mecanismos Amazon Polly, como mencionado em uma lição anterior. Diferentes mecanismos de texto para fala podem não suportar ou permitir que você use uma bagunça. Marcas de marcação SML. Então, à medida que passamos pelos tutoriais, informaremos qual plataforma suporta as tags que estão sendo usadas nos exemplos. Cada tutorial seguirá um formato semelhante. A tag será listada no cabeçalho do slide, seguida de um exemplo de como usar a tag de marcação SS ML e como o texto sintetiza em fala após ser processado com um exemplo de áudio. Os símbolos no canto superior direito do slide indicarão se a tag de marcação exibida funciona no mecanismo TTs do Google Amazon, Polly ou ambos incluídos nas notas que acompanham. Para este módulo de treinamento, você encontrará folhas de truques para o Amazon Polly e o mecanismo de texto para fala do Google. Isso nos leva ao fim desta lição. Preencha os tutoriais da tag de marcação SS ml nesta seção antes de prosseguir para o próximo módulo de treinamento. Obrigado por ouvir e por assistir a este vídeo 8. 07 - Tag de fala de texto a fala: Olá e bem-vindo de volta. Neste tutorial, você aprenderá como usar a tag de marcação SML de fala em seus arquivos de texto para fala. A tag speak é o elemento raiz de todos os s SML. texto de texto deve ser colocado dentro de um par de tags de fala para ser convertido em fala em uma tag de fala de abertura para o início do texto em uma tag de fala de fechamento até o final do arquivo de texto. Aqui está um exemplo de como usar a tag de fala em seu arquivo de texto. Observe que todo o conteúdo que você deseja converter em fala está incluído na abertura e fechamento. Falar tags. Deixe-me tocar um exemplo de áudio de como este texto vai soar depois de ser processado por um mecanismo de texto em fala que pode ler s palavras SML são singularmente a força mais poderosa disponível para a humanidade. Podemos optar por usar esta força construtivamente com palavras de encorajamento ou destrutivamente usando palavras de desespero. As palavras têm energia e poder com a capacidade de ajudar, curar, dificultar o dedo do pé ferido, prejudicar humilhar e muito humilde. Isso nos leva ao final deste tutorial. Consulte as notas que acompanham esta seção para obter mais informações 9. 08 - Tag de quebra de texto a fala: Olá e bem-vindo de volta. Neste tutorial, você aprenderá como adicionar pausas, palavras do dedo do pé, frases e parágrafos em seu texto para arquivos de fala. Usando a tag break, vamos olhar para usar a tag break, e é tempo opcional e atributos de força antes de explorar a tag break com mais detalhes. Vamos refrescar nossa memória com a definição de Prasit e Prasit. Ele se refere a áreas da linguagem como o ritmo da sintonia, estresse e a entonação da fala, e como essas características contribuem para o significado. Prasad IQ, portanto, refere-se a aspectos de Prasit E, que vamos cobrir em outro tutorial a tag break como um elemento vazio, que significa que ele não produz nenhum som. Ele controla pausar ou outros limites de QI prasad entre palavras. Observe que o uso de tags break é completamente opcional. Se este elemento não estiver presente entre palavras, a quebra será determinada automaticamente com base em como o mecanismo de texto para fala processa o contexto linguístico. Em outras palavras, mesmo que você não tenha tags de quebra, um motor T.s irá naturalmente em uma pausa. Depois de encontrar certos recursos gramaticais, como pontuação em seu texto, como pontos e vírgulas, uma tag break , permite que você ajuste o espaçamento de pausas e quebras entre palavras, frases e parágrafos. Se você tiver uma tag break após uma frase de palavra ou parágrafo, uma quebra será inserida com uma força Prasad IQ maior do que se nenhum elemento de quebra for fornecido. Em outras palavras, o mecanismo de texto em fala determinará o contexto linguístico do texto e aumentará a pausa natural se detectar uma marca de quebra no conteúdo. Assim, enquanto uma frase sem tags de quebra terá pausas naturais, adicionadas, adicionadas , marcações de quebra podem estender essas pausas e criar uma sensação mais realista à sua narração. Como veremos em apenas um momento. Vamos ouvir um exemplo de um arquivo de texto convertido em fala sem usar marcas de quebra . As palavras têm energia e poder com a capacidade de ajudar, curar, impedir, ferir o dedo do pé, prejudicar, humilhar e muito humilde. Agora vamos ouvir o mesmo arquivo de texto convertido em fala com tags break. Palavras adicionadas têm energia e poder com a capacidade de ajudar, curar, dificultar, ferir, prejudicar, prejudicar, humilhar e humilhar demais. Conseguiu ouvir a diferença? Vamos reproduzir os dois arquivos de áudio novamente um depois. As outras palavras têm energia e poder com a capacidade de ajudar a curar, para dificultar, dedo do pé ferido, mal a humilhar e palavras muito humildes têm energia e poder com a capacidade de ajudar, curar, dificultar, machucar, dedo do pé, prejudicar, humilhar e muito humilde. Como mencionado anteriormente, a tag break também permite que você use atributos opcionais como tempo e força. uso de uma tag break com os atributos de tempo permite que você encontre ajuste suas narrações definindo o comprimento de sua pausa ou pausa usando segundos ou milissegundos. Por exemplo, três segundos ou 200 milissegundos. Ouça um arquivo de texto de exemplo convertido em fala com tags de quebra baseadas em tempo adicionadas. Vamos pausar a frase por 200 milissegundos do que 500 milissegundos, depois um segundo, depois três segundos, e finalmente, vamos pausar por quatro horas. Estou achando que você tem a idéia agora de como pausas e pausas funcionam em suas inovações de texto em fala. Se você usar o Amazon Polly para converter seus arquivos de texto em fala, observe que a duração máxima que você pode especificar na tag break como 10 segundos ou 10.000 milissegundos. Aqui está um exemplo de um arquivo de texto marcado usando a tag break com diferentes atributos de tempo . Ouça a narração de fala sintetizada deste texto. As palavras são singularmente a força mais poderosa disponível para a humanidade. Podemos optar por usar esta força construtivamente com palavras de encorajamento ou destrutivamente usando palavras de desespero. As palavras têm energia e poder com a capacidade de ajudar, curar, dificultar, ferir, ferir , prejudicar, humilhar e humilhar demais. Usando uma tag break com a força Atributos também permite que você encontre Ajuste suas narrações definindo o comprimento de suas pausas ou pausas usando valores relativos, como uma semana média extra forte e forte, uma semana extra extra. Além disso, você pode usar o valor none para impedir uma quebra de IQ prasad ou pausa que seu processador de texto para fala produziria e inseriria em sua narração. Observe que se usar o Amazon Polly para converter seu texto em intensidade de fala, os valores de atributo são equivalentes a pausar após uma frase vírgula ou parágrafo especificando nenhum cria nenhuma pausa. Não use nenhum para remover. Uma pausa que ocorre normalmente, como pausas inseridas após um período que especifica a semana extra, tem a mesma força que nenhuma. Isso não tem pausa especificando semana define uma pausa da mesma duração que a pausa depois que um meio vírgula tem a mesma força que conjuntos fortes fracos, uma pausa da mesma duração que a pausa criada após uma frase e especificando extra conjuntos fortes, uma pausa da mesma duração que a pausa criada após um parágrafo. Além disso, se você não usar atributos com a etiqueta de freio ao processar texto em fala com o Amazon Polly, os resultados dependem muito do texto. Se não houver outra pontuação ao lado da etiqueta de freio, ela cria uma força de ruptura de valor médio, que equivale a uma pausa de comprimento vírgula. Se a tag estiver ao lado de uma vírgula, ela atualiza a tag para uma tag de quebra forte, que é o equivalente a uma pausa de comprimento de frase. Se a tag estiver ao lado de um ponto, ela atualizará a tag para uma tag de quebra extra forte ou o equivalente a uma pausa de comprimento de parágrafo . Aqui está um exemplo de um arquivo de texto marcado usando a tag break com diferentes atributos de força . Ouça a narração de fala sintetizada deste texto. Vamos criar pausas nesta frase usando tags break com a opção de força. Vamos começar com uma quebra extra forte. Em seguida, uma quebra forte seguida de uma pausa média uma pausa de semana uma pausa de semana extra e, finalmente uma pausa entre as vogais A e eu oh, você e nenhuma quebra em tudo entre vogais A e i o u. Como você pode ver, a tag break permite você especifica durações de pausa exatas entre palavras, frases e parágrafos e pode ser usado para melhorar o aspecto realista de suas narrações de voz . Isso nos leva ao final deste tutorial. Espero que tenha achado esta lição útil. Consulte as notas que acompanham esta seção para obter mais informações e obrigado por ouvir. 10. 09 - Tag de parágrafo de texto a fala: Olá e bem-vindo de volta. Neste tutorial, você aprenderá como adicionar pausas entre frases e parágrafos usando tags de marcação de parágrafo e frase. Em um tutorial anterior, explicamos como usar tags de quebra para adicionar pausas, palavras de dedo do pé, frases e parágrafos que você pode ver nesta tabela. Isso é, hum, quebrar Elementos executar a mesma função que usar uma frase ou tag parágrafo. Assim, além de usar tags de quebra, você pode adicionar uma pausa entre parágrafos em seu texto usando a tag P. Isso é equivalente a especificar uma pausa usando uma tag break extra forte. A tag P fornece uma pausa mais longa. Os falantes nativos geralmente colocam em vírgulas ou no final de uma frase. Para usar tags P, você deve colocar o parágrafo adicionando uma tag de abertura no início do parágrafo e uma tag de fechamento no final, como mostrado no exemplo abaixo. Este é o primeiro parágrafo. Deve haver uma pausa após este texto ser falado. Este é o segundo parágrafo. Aqui está um exemplo de um arquivo de texto convertido em fala usando tags de quebra de parágrafo. As palavras são singularmente a força mais poderosa disponível para a humanidade. Podemos optar por usar esta força construtivamente com palavras de encorajamento ou destrutivamente usando palavras de desespero. As palavras têm energia e poder com a capacidade de ajudar a curar, para impedir, dedo do pé ferido dano para humilhar e muito humilde. Observe que as tags P podem incluir texto a ser renderizado nos elementos SS ML mostrados nesta lista. Você também pode adicionar pausas entre frases em seu texto usando a tag S. Isso é equivalente a terminar uma frase com um ponto ou especificar uma pausa. Usando uma tag break forte s tags ar útil para adicionar pausas para versus e linhas de poesia . Como você verá em apenas um momento para usar s tags, você deve colocar a frase com tags de abertura e fechamento, como mostrado no exemplo abaixo. Mary tinha um cordeiro cujo velo era branco como a neve. E em todos os lugares que Maria ia o cordeiro foi há pouco tempo. Assim como as tags P, s tags podem incluir texto a ser renderizado nos elementos SS ML mostrados nesta lista. Para concluir este tutorial, eu quero jogar para você uma história infantil bem conhecida que foi marcado usando quebra parágrafo e tags de frase. Fox em meias por Dr Seuss Fox Socks Box Knox em Bucks Fox em meias. Bata na Fox em meias, meias de caixa de entrada em golpes e bate em Bucks Fox em meias na caixa em Knox. Pintos com tijolos vêm pintos com blocos vêm pintos com tijolos e blocos e relógios. Venha olhar. Olhe, Sr. Knox, vamos fazer truques com tijolos e blocos, senhor, vamos fazer truques com garotas e relógios. Primeiro, vou fazer uma pilha de tijolos rápida. Então eu vou fazer uma pilha rápida de blocos de truques. Você pode fazer um truque rápido pilha de pintinho. Você pode fazer uma pilha de relógio truque rápido, e aqui está um novo truque. Mr. Knocks Meias em pintos e pintos em Fox em relógios em tijolos e blocos, Tijolos e blocos em batidas na caixa. Agora chegamos a carrapatos e conversas. Tente dizer isso, Sr. Knox, senhor. Relógios em relógios de raposa no estoque de bloqueio seis. Bastão de bric doente. 66 garotas conversam, por favor, senhor. Não gosto deste truque, senhor. Minha língua não é rápida ou flick, senhor. Eu entendo Embora paus e relógios misturados com as garotas e fala auto, eu não posso fazer isso. Sr. Fox, sinto muito, Sr. Lock. Senhor. Aqui está um jogo fácil de jogar. Aqui está uma coisa fácil de dizer. Meias novas para meias Quem é uma droga? Sue meias. Quem? SOS. Meias de quem? Meias Suso Sue. Quem vê quem. Então, quem é meias novas? Senhor? Você vê, Suso processa meias novas. Isso não é fácil, Sr. Fox, senhor. Quem vem? Corvo vem devagar. Joe Crow vem. Quem? Sos Corvos Roupas Sue SOS corvos Roupas lento Joe Crow SOS Cuja roupa costura roupas Suso meias de raposa em meias Agora lento Joe Crow SOS bate caixa de entrada Agora Sue SOS Rose em lento Joe Crows Roupas Fox SOS mangueira no lento Joe Crows sabe mangueira vai rosa cresce sabe Mangueira vai, corvos Rose. Nojento. Sr. Fox, odeio este jogo, senhor. Sr. Fox, odeio este jogo, Este jogo deixa a minha língua bem chata, senhor. Sr. Knox, senhor. Que pena, senhor. Encontraremos algo novo para fazer. Agora aqui está um monte de gosma azul nova agora. Novo goo azul goo gooey, gooey azul goo, goo novo, Louie! Louie! Louie cresceu para mastigar. É o que aquele ganso está fazendo. Escolhe ir ter com o senhor? Se sim, você disse que ela costumava mastigar, senhor, com o ganso. Muito triste, cara. Senhor. Sr. Fox. Senhor. Eu não vou fazer isso. Eu não posso dizer isso. Não vou mastigá-lo muito bem, senhor. Passo por aqui. Encontraremos outro jogo para jogá-lo. Então vem. Traz Ben Broom. Ben Traves sido vassoura vigas de Ben Ben. Broom Been Ben, o quarto do Ben. Bim está de pé. Canetas Benj. vassoura dobrada do Ben quebra em pausas de vassoura gastas. banda do Ben. banda da Kim. Grandes bandas, bandas porco, Human Ben levar vans com vassouras, Ben estande franja e VIMs banda lança banda Pig band boom. Banda grande banda Broom. Minha boca cheia. Não posso dizer isso. Não, senhor. Minha pobre boca é muito lenta, senhor. Bem, então traga sua boca por aqui. Eu vou encontrá-lo. Algo que possa dizer. Luke, Sorte gosta de lagos, Luke preso gosta de lagos, Luke Le cliques lagos Luke preso cliques lagos, pato leva Lixian Lakes. Luke, Luck gosta do Luke. Sorte leva pernas em Lake Stuck como eu não posso amar essa gordura de barbatana. Minha língua não é feita de borracha, Sr. Knox. Agora, venha agora. Venha agora. Não precisa ser tão burro agora. Tente dizer isso, Sr. Knox, por favor. Através de três árvores de queijo, três pulgas livres voaram enquanto estes por favor, gripe brisa congelante soprou brisa congelante fez três árvores. Congelar congelar As árvores fizeram as árvores Cheese Freeze! Isso é o que fez esses três espirros de fuga livre. Pare com isso! Isso é o suficiente! Senhor, eu não posso dizer essas coisas tolas, senhor. Muito bem, então, Sr. Knox. Senhor, vamos ter uma conversinha sobre Tweedle Beatles. O que você sabe sobre Tweedle Beatles? Bem, quando os Besouros Tweedle lutam, chama-se “Tweet Will Beetle Battle”? E quando eles lutam em uma poça, é um tweet Will Besouro batalha poça? E quando Tweedle Beatles batalha com pás em uma poça, eles chamam de tweet. Vai besouro paddle batalha E quando Beatles batalha besouros em uma batalha de remo poça na poça de batalha Beetle é uma poça em uma garrafa. Chamam isso de tweet ou besouro Buttle, medalha de batalha de remo de poça. E quando besouros lutam essas batalhas em uma garrafa com suas pás nas garrafas em um poodle nos poodles comendo macarrão, eles chamam isso de confusão. Puddle tweet Will poodle besouro macarrão garrafa paddle batalha. E agora espere um minuto, Sr. Socks Fox. Quando uma raposa está na garrafa, onde os Beatles Tweedle batalha com suas pás em uma poça em um novo poodle deletando, isso é o que eles chamam de um tweet Will Beetle macarrão, garrafa de poodle abraçado. Macerar dobrou. Aconchegados, enrolados. Raposa de meias, senhor. Raposa de meias. Nosso jogo acabou, senhor. Obrigado pela diversão, senhor. Isso nos leva ao final deste tutorial. Espero que tenha achado esta lição útil. Consulte as notas que acompanham esta seção para obter mais informações e obrigado por ouvir. 11. 10 - Tag de texto a falar: Olá e bem-vindo de volta. Neste tutorial, você vai aprender como usar tags SS ML para interpretar como o texto deve ser falado para caracteres especiais , certos tipos de palavras e diferentes tipos de números. O elemento dizer como permite que você especifique como determinados caracteres, palavras e números em seu arquivo de texto para fala devem ser falados. Um SE como tag requer o uso de interpretar como atributos, que determina o que está sendo processado. Atributos opcionais como formato e detalhe também podem ser usados, dependendo dos elementos selecionados. Deixe-me explicar o que isso significa ao marcar texto usando uma palavra a dizer como elemento. Você deve sempre incluir a interpretação como atributos dentro da tag de abertura, especificando como seus caracteres especiais, palavras e números devem ser falados. Por exemplo, se você estiver marcando números, o número representa uma data ou hora? É um número de telefone? É o número 10 ou o décimo objeto seguidos? É uma fração ou uma unidade de medida? Vamos passar por como marcar cada um desses valores com mais detalhes neste tutorial, além disso, além disso, dependendo do valor que está sendo marcado, você pode precisar especificar atributos adicionais como formato e detalhe, especialmente para valores como data e hora, que poderiam ser falados de várias maneiras diferentes. O elemento say as permite especificar como você deseja que seu texto seja falado para os seguintes itens. Números cardinais Isto interpreta o texto numérico como um número cardinal, como 5 400 ou 1234 números orginais. Isso interpreta o novo texto milagroso como um número original, como 5º 400 ou 1234º caracteres. Use esse valor para soletrar cada letra do texto, como frações ABC. Isso interpreta o texto numérico como uma fração. Use esse valor para frações comuns, como 3/20 e frações mistas, como 2,5 expletivos. Use esse valor para BLEEP ou censurar qualquer conteúdo ou palavras dentro da tag. Usando unidades de som. Isso interpreta em texto numérico como uma medida, como 1/2 polegada 12 onças, cinco pés um metro ou 200 milissegundos verbatim ou soletrar. Esse valor é semelhante ao uso de caracteres e soletrar palavras. Carta por carta datas usam esse valor para datas como 29 de janeiro de 1993 Hora. Use esse valor para o tempo, como 5 48 PM Números de telefone usam esse valor para indicar que o texto como um número de telefone . Além dos valores acima, o Amazon Polly também permite que você use valores como dígitos, que permitem que você soletrar cada dígito em seu texto individualmente, como 1234 etcetera e interpretar texto como parte de endereços de rua. Um outro valor que veremos neste tutorial é o uso de interjeições em suas narrações, que pode adicionar um elemento de diversão ao seu texto para arquivos de fala. Vamos começar com números cardeais. Números cardinais ar apenas números como 5 400 ou 1234. A estrutura para marcar o texto para interpretar corretamente os números cardinais é mostrada abaixo. Observe que o idioma selecionado afeta a forma como os números cardinais são falados pelo ar. Por exemplo, ouça como uma voz em inglês dos EUA em uma voz em inglês do Reino Unido pronuncia os números abaixo. O preço deste item tem $12,345. O preço deste item é $12.345. Como você pode ouvir uma voz Inglês dos EUA diz o número. 12.345. Onde uma voz inglesa do Reino Unido diz 12,345 Ouça as duas vozes novamente. O preço deste item tem $12,345. O preço deste item é $12.345. Em alguns casos, seu mecanismo de texto em fala reconhecerá números cardinais sem a necessidade de usar tags de marcação . Além disso, alguns mecanismos de texto para fala reconhecem o número de valor em vez de cardinal na interpretação . Como atributos, ouça uma gravação de fala sintetizada de um arquivo de texto marcado para interpretar números cardinais . A altura do Monte Everest é de 8848 metros, ou 29.029 pés. O preço deste item tem $12.345 o aluguel médio nesta área como $2500 por mês. orginais são números como o 1º 2º 3º 5º 13º 401234º etc. A estrutura para marcar o texto para interpretar corretamente os números orginais é mostrada abaixo como números cardinais, o idioma selecionado efeitos. Como os números orginais falam pelo ar, por exemplo, ouvem como uma voz inglesa dos EUA em uma voz inglesa do Reino Unido pronunciam os números abaixo. Hoje é o 350º aniversário da revolução. Hoje é o 350º aniversário da revolução, como você pode ouvir uma voz inglesa dos EUA diz o número 350º onde uma voz inglesa do Reino Unido diz 350º. Ouça as duas vozes novamente. Hoje é o 350º aniversário da revolução. Hoje é o 350º aniversário da revolução. Alguns mecanismos de texto para fala podem reconhecer números originais. Escrito um 2º 3º 17º, etc, sem a necessidade de usar tags de marcação. Amazon Polly também pode interpretar números orginais escritos como algarismos romanos. Em caso de dúvida, você pode apenas escrever o número, mas isso não é necessário. Se você usar a tag de marcação orginal corretamente, ouça o discurso sintetizado do texto abaixo, que é escrito como um número original sem marcas de marcação. Na segunda vez que ela veio à biblioteca, ela saiu com uma cópia da terceira edição dos livros antes de subir para o 17º andar. Não sei se foi a primeira vez dela ou a 100 vezes visitando a biblioteca. Ouça uma gravação de fala sintetizada de um arquivo de texto marcado para interpretar números originais. Kevin ficou em primeiro lugar na maratona anual do escritório. Dwight chegou em um segundo. Creed Terceiro, Pam bateu seu melhor pessoal por ser a sétima a terminar a linha de cruzamento. Stanley chegou em nono e Michael terminou em último lugar em 29º lugar. Aqui está outra variação do texto marcado para números originais. Ouça o discurso sintetizado do texto abaixo. Marcado para Amazon Polly James Charles Stewart foi ambos rei da Escócia como Jaime, o sexto e rei da Inglaterra, e a Irlanda tem James, o primeiro desde o ano 1603 até sua morte em 16 25. O elemento de caracteres permite que você soletre palavras e números em suas narrações. A estrutura para marcar o texto para interpretar os caracteres corretamente é mostrada abaixo. Alguns mecanismos de texto para fala podem reconhecer e pronunciar abreviações como Triple A e soletrar palavras abreviadas sem adicionar tags de marcação a texto como CIA, FBI , KGB , BBC, etc Os sequestradores eram agora o veículo fugiu do local nesta direção. Seus olhos estão para trás. Foi para o outro lado. Coloque uma rolha. Como se soletra FBI? Chorar? Ouça uma gravação de fala sintetizada de um arquivo de texto marcado para interpretar caracteres. Quem é W H O ou. 812 foi o título do álbum de estúdio Van Halen Zeht Su Are vamos levar o cão para um W A. L K antes de começar a chover usando o verbatim ou soletrar elementos executa a mesma função de soletrar palavras e números como usar caracteres. A estrutura para marcar o texto para interpretar corretamente esses elementos é mostrada abaixo. Ouça uma gravação de fala sintetizada de um arquivo de texto marcado para interpretar caracteres textualmente e soletrar elementos Tudo o que eu estou pedindo para nós um pouco r e s p e c t. Descubra o que significa para mim r E S p e C T Tome cuidado TCB você apenas um pouco quando você chega em casa R E s P E C T de volta outro elemento que você pode usar em seu texto para falar. Mark Ups chamou Dígitos. Dígitos executar uma função semelhante como ortografia textual e caracteres, mas Ele só funciona com números, não palavras. A estrutura para marcar o texto para interpretar os dígitos corretamente é mostrada abaixo usando a tag dígitos com o Google. O TTS funciona com números. Mas se você tentar processar palavras, você receberá um erro e nenhum som será reproduzido usando dígitos com a Amazon. Polly trabalha com números, mas não escreve palavras. Em vez disso, só fala a palavra. Ouça uma gravação de fala sintetizada de um arquivo de texto marcado para interpretar números e palavras usando os dígitos e soletrar atributos. Por favor, anote este número de segurança 12345 Por favor, anote este número de segurança 12345 Por favor, anote esta palavra de segurança Self love. Por favor, anote esta palavra de segurança espaço CLF L O V e. Outro elemento útil para marcar frações numéricas de têxteis. Isso funciona tanto para frações comuns como 3/20 e frações mistas como 2,5. A estrutura para marcar o texto para interpretar as frações corretamente é mostrada abaixo. Alguns mecanismos de texto em fala podem interpretar frações em seus arquivos de texto como 9º 2 e 3/4, etc, sem usar tags de marcação para o Amazon Polly interpretar números mistos como frações. Um símbolo de adição deve ser adicionado entre números no texto marcado, como três mais 1/2 Amazon. Polly não suporta um número misto sem o símbolo de adição. Ouça uma gravação de fala sintetizada de um arquivo de texto marcado para interpretar frações. Quase 2/5 dos U. S. adultos com 20 anos ou mais sofrem de obesidade. Você sabe como dividir seis por 3,5 sem usar uma calculadora ou perguntar ao Google? Todos sabemos que dividir 22 por sete ou três e 1/7 é uma boa aproximação à torta, mas 355 dividido por 113 ou três e 16 113ª temporada ainda mais perto aproximação ao verdadeiro valor da torta. O elemento explorador permite que você crie o efeito de censura palavras em sua narração. Usando um som, a estrutura para marcar texto para interpretar expletivos corretamente é mostrada abaixo. Ouça uma gravação de fala sintetizada de um arquivo de texto marcado para interpretar expletivos. Então eu disse a ele, eu fiz o que você quer dizer e ele diz de volta para mim, fiz você que eu posso onde eu quiser. Então eu disse que voltará para ele se for esse o caso, então é melhor você antes que eu estrague e foi exatamente o que aconteceu. Oficial, eu juro que o elemento de unidades permite que você interprete texto numérico como uma medida para Amazon Polly. O valor no texto deve ser um número ou uma fração, seguido por unidade de medida sem espaço entre eles, como em 1/2 polegada ou apenas a unidade como em um metro. A estrutura para marcar o texto para interpretar as unidades corretamente é mostrada abaixo. Alguns mecanismos de texto para fala podem reconhecer e interpretar unidades sem a necessidade de usar tags de marcação no texto. Por exemplo, 10 milissegundos 100 quilômetros cinco graus Celsius, 350 mililitros, 75 metros etc. Além disso, alguns mecanismos de texto em fala podem converter automaticamente unidades de medida em sua forma singular ou plural, dependendo do número. Ouça uma gravação de fala sintetizada de um arquivo de texto marcado para unidades de interpretação. Os caminhos na praia esta manhã devem ter 3 metros de altura. Em média, a velocidade de um piscar I dura apenas 1/10 de segundo ou 100 milissegundos. A dose de emergência de adrenalina para reviver alguém que entrou em choque anafilático é 0,1 miligramas por quilograma de um miligrama por mililitros delírio para uma dose máxima de 0,5 miligramas em um adulto e 0,3 miligramas em uma criança. Ao construir um deck para o seu pátio, configure os espaçamentos do portador em um mínimo de 1800 milímetros centros com orifícios de toco com não mais de 1500 milímetros de distância. O elemento data permite que você interprete datas em vários formatos, tem texto falado tanto texto do Google para fala e Amazon Polly interpretar datas usando estruturas de marcação ligeiramente diferentes. Então, vamos passar por cada um desses separadamente, começando com o Google TTS, a estrutura para marcar o texto para interpretar as datas corretamente usando o texto em fala do Google é mostrada abaixo. Observe que a tag date contém a interpretação necessária como elemento, além de dois atributos adicionais formato detalhado. Outra coisa a observar é que as datas usadas no campo de texto podem ser separadas usando pontuação como hífens, espaços e até mesmo espaços de conhecimento, como mostrado no exemplo abaixo. Vamos falar sobre o atributo de formato das datas. Elemento os atributos de formato usa os caracteres por que M e D para ano, mês e dia do mês, respectivamente. Como veremos em um momento, você pode usar várias combinações desses três caracteres no campo de formato. Há, no entanto, algumas regras a seguir. Se o elemento de formato inclui o caractere, por que, então? O campo de texto de data deve incluir um ano, por exemplo, o ano 1965. Se o elemento de formato incluir o caractere M, o campo de texto de data deve incluir um mês. Por exemplo, março, setembro, dezembro etc. Se o elemento de formato incluir o caractere D, o campo de texto de data deve incluir o dia do mês, como o 7º 24 ou 31º do mês. Além disso, se o caractere por que está incluído no formato, atributos que o ano devem ser escritos como um número de quatro dígitos, então direito o ano é 1978 e não apenas 78. Se o caractere D estiver incluído nos atributos de formato como um único dígito, então você pode usar um único dígito para dias como o quinto do mês. Se o formato contiver dois D, use números de dois dígitos para dias como 05 O mesmo se aplica aos meses. Se o caractere AMAs incluído no formato atributos como um único dígito, então você pode usar um único dígito como nove para o mês de setembro ou quatro para abril. Se o formato usa dígitos duplos do mês, certifique-se de que todos os números do mês sejam duplos dígitos como 04 para 09 de abril para setembro , etc. Em seguida, temos os atributos de detalhe que os atributos de detalhe controla a forma falada da data. Você tem duas opções? Opção um e Opção dois? Vamos falar sobre a Opção 1 primeiro. Se a opção de detalhe é igual a um em Lee os campos de dia e um mês ou ano campos de ar necessário . Embora ambos os campos podem ser fornecidos Opção um como a estrutura padrão para interpretar datas quando menos do que todos os três campos de ar dado no elemento de formato. Normalmente, você não precisará adicionar o detalhe de um elemento à tag de marcação. Se esta for a estrutura padrão para interpretar datas, como o mecanismo de texto para fala deve alternar automaticamente para este formato, o formulário falado para a Opção um como o dia original do mês e ano, portanto, nos exemplos mostrados abaixo a forma falada do texto seria o dia 19 de Maio de 1991 para o primeiro exemplo e o segundo de Março. Para o segundo exemplo, se a opção de detalhe é igual ao dia, mês e ano campos ar necessário Opção dois como a estrutura padrão para interpretar datas quando todos os três campos ar fornecido no elemento de formato. Normalmente, você não precisará adicionar o detalhe ao elemento à tag de marcação. Se esta for a estrutura padrão para interpretar datas, como o mecanismo de texto para fala deve alternar automaticamente para este formato o formulário falado para Opção dois como mês dia e ano orginal. Assim, nos exemplos mostrados abaixo, a forma falada do texto seria 15 de janeiro de 1929. Para o primeiro exemplo, 14 de março 18 79 para o segundo exemplo e 5 de setembro de 1946 para o último exemplo. Antes de falar sobre marcar texto para interpretar datas usando o Amazon Polly, vamos ouvir alguns exemplos falados de texto marcado usando os formatos que acabamos de discutir . Primeiro ouça uma gravação de fala sintetizada de um arquivo de texto marcado usando datas diferentes , baseando opções. Nasci em 16 de novembro de 1968. Minha irmã nasceu em 22 de junho de 1971. Meu irmão nasceu em 10 de fevereiro de 1974. Agora ouça uma gravação de fala sintetizada de um arquivo de texto marcado usando formato de data diferente em valores detalhados. Minha família e eu migramos para este país. Chegamos aqui no dia 26 de junho de 1952. Tenho outro encontro com o Quiroprático no dia 9 de Setembro. Albert Einstein ganhou o Prêmio Nobel de Física em 9 de novembro 1922 por seus serviços à física teórica e por sua descoberta da lei do efeito elétrico fotográfico . Vamos falar agora sobre a marcação de texto para interpretar datas usando o Amazon Polly. A estrutura para marcar texto para interpretar datas usando o Amazon Polly é mostrada abaixo. Observe que o elemento de data contém um formato de atributos adicionais. Separe os elementos de data no campo de texto usando hífens, exceto ao usar o formato y y y y y M m. D. D. Todos os formatos de data listados aqui podem ser usados com a Amazon. Polly aqui é uma dica útil ao usar o Amazon Polly para interpretar datas. Se você usar o formato Y Y Y Y Y M M D D, poderá fazer com que o Amazon Polly pule partes da data, usando pontos de interrogação especificando os atributos de formato na tag de marcação também não é necessário. Por exemplo, Amazon Polly renderiza os exemplos mostrados abaixo da seguinte maneira. 22 de setembro de 1989. Ouça uma gravação de fala sintetizada de um arquivo de texto marcado para o Amazon Polly usando diferentes formatos de data. Game of Thrones foi ao ar seu primeiro episódio na HBO em 17 de abril de 2011. Após oito temporadas, o último episódio de Game of Thrones foi ao ar em 19 de maio de 2019. O rei João da Inglaterra assinou a Carta Magna em 15 de junho 12 15. Você sabia que 4 de janeiro seu Dia Nacional de Espaguete? E esse dia 10 de novembro é o Dia Nacional do Cupcake de Baunilha. Por falar em comemorar carboidratos. Muitas pessoas entraram em pânico, pois acreditam que eventos cataclísmicos ocorreriam após dezembro de 2012, quando o antigo calendário maia chegou ao fim. Júlio César, cruzando o rio Rubicão em janeiro 49 a.C., foi o evento que precipitou a Guerra Civil Romana . Somos pagos todos os meses no dia 15. Nosso aniversário de casamento é em agosto, em 1964, a Xerox Corporation introduziu a primeira versão comercializada da moderna máquina de fax . Mas até alguém comprar uma de suas máquinas, eles não tinham mais ninguém para enviar faxes. Em 21 de julho de 1969 Neil Armstrong tornou-se o primeiro ser humano a caminhar na superfície da lua. Mas Buzz Aldrin foi o primeiro homem a pular e urinar nele. O elemento de tempo permite que você interprete o tempo em diferentes formatos tem texto falado tanto o texto do Google em fala quanto o Amazon Polly interpretar valores de tempo de forma diferente. Então vamos passar por cada um destes separadamente, começando com o Google TTS a estrutura para marcar texto para interpretar o tempo corretamente usando o texto do Google para fala é mostrado abaixo nota que a tag de tempo contém a interpretação necessária como elemento mais dois atributos adicionais, formato e detalhe. Outra coisa a observar é que os valores de tempo usados no campo de texto podem ser separados usando pontuação e/ou espaços, como mostrado no exemplo abaixo. O formato Atributos usa uma sequência de códigos de caracteres de campo de tempo, H. H. M s, Z 12 e 24 para o nosso minuto do nosso segundo do fuso horário minuto, hora de 12 horas e hora de 24 horas, respectivamente. O formato padrão é H. M S 12. Se o nosso minuto ou segundo não forem especificados no formato ou não houver dígitos correspondentes, o campo será tratado como um valor zero. tempo pode ser interpretado como hora do dia, por exemplo, para 26 PM ou duração de tempo, como quatro horas e 20 minutos. O elemento de detalhe controla se a forma falada do tempo como 12 horas ou 24 horas horas . Você tem duas opções. Opção um e Opção dois, a forma falada como tempo de 24 horas. Se o detalhe for igual a um ou se o detalhe for omitido, e o formato da hora como tempo de 24 horas, a forma falada como tempo de 12 horas. Se o detalhe for igual a dois ou se o detalhe for omitido e o formato do tempo for 12 horas, ouça uma gravação de fala sintetizada de um arquivo de texto marcado para o Google Text to speech usando diferentes formatos de hora. 16h26 duas horas, sete minutos e nove segundos, 16 horas 39 minutos e 57 segundos. Hora Padrão do Pacífico. 622 Hora padrão do Leste. Cinco Oclock 1700 5 p.m. Cinco. O Amazon Polly interpreta o elemento de tempo do texto numérico como duração em minutos e segundos e também pode reconhecer tempo básico formatando a estrutura para marcar texto para interpretar o tempo usando a Amazon. Polly é mostrado abaixo Ouça uma gravação de fala sintetizada de um arquivo de texto marcado para tempo de interpretação usando o Amazon Polly um minuto e 21 segundos. 4 26 PM cinco oclock 1700 horas 3 18 O elemento de telefone indica que o texto contido como um número de telefone Google, T TS e Amazon Polly interpretar valores de telefone ligeiramente diferente, de modo que irá cobrir ambos os processos. Separadamente, a estrutura para marcar o texto para interpretar corretamente os números de telefone usando o texto em fala do Google é mostrada abaixo. Observe que o elemento de telefone permite que você em códigos internacionais no campo de formato. O mecanismo de texto em voz do Google interpretará corretamente os códigos internacionais no campo de texto , mesmo que o código do país presente no elemento de formato não corresponda a ele. Além disso, ele irá interpretar extensões de número de telefone e até mesmo palavras de telefone. Ouça uma gravação de fala sintetizada de um arquivo de texto marcado para texto em fala do Google usando números de telefone. 5556789 5556789 Extensão 345 mais 3 +98 OO +123456 mais 3 +98 OO +123456 seis Saito 5556789 16 Saito 5556789 +18662255631 +155574992 Amazon Polly interpreta o texto numérico como um número de telefone de sete dígitos ou 10 dígitos. Extensões telefônicas também podem ser incluídas. Por favor, note que no momento da gravação desta lição, a opção de telefone só poderia ser usada com vozes em inglês. A estrutura para marcar texto para interpretar corretamente os números de telefone usando o Amazon Polly é mostrada abaixo algumas outras coisas. Para ter em mente é que o Amazon Polly pode interpretar números de telefone em texto sem marcar tags se traços de ar usados nos números de telefone. Além disso, observe que o idioma selecionado afeta a forma como os números de telefone falam pelo ar, por exemplo, ouvir a diferença entre a forma como uma voz de inglês americano diz o número de telefone abaixo e como um A voz inglesa diz isso. número de telefone da Veronica é 2122241555 Extensão 666 Veronica. Seu número de telefone é 212 duplo para 41 Triple 5 extensão. Triplo seis. Ouça uma gravação de fala sintetizada de um arquivo de texto marcado para interpretar números de telefone. Usando a extensão Amazon Polly 5551212 20 a 5551212 20 a 5551212. 345 5556789 5556789 Extensão. 345 6805556789 16805556789 Um elemento adicional que você pode usar com o Amazon Polly Voices como o elemento de endereço, que permite interpretar textos como parte de um endereço de rua. A estrutura para marcar texto para interpretar um endereço corretamente usando a Amazon, Polly é mostrada abaixo Ouça uma gravação de fala sintetizada de um arquivo de texto marcado para endereços. 14 slash 72 53 The Boulevard Springfield, 63103 Missouri EUA Apartamento, 69 1 88 Grand Central Tower, Condado de Cloudburst, Nova Gales do Sul 2177. Austrália 59 40. Ferguson Road, Richmond, British Columbia v sete B um M seis, Canadá O último elemento que eu quero cobrir antes do final desta lição são interjeições interjeições, também chamado de fala Contras Pode ser adicionado ao texto usando a marca de marcação mostrada abaixo. Por favor, note que os contras de fala estão acostumados. Biblioteca criada para Amazon Alexa Durante a gravação desta lição contras de fala não estavam disponíveis para o Amazon Polly Voices. Então o que eu gostaria de fazer é apenas jogar um vídeo gravado com vários contras de fala para que você possa ouvir como o som é. Abacha. Deborah tem que uh huh. Dele. Ahoy! Tudo bem. Eu baixo, hein? Yoga. Argh! Areva! Daraji! Como quiser. Bar Voie um homem. Ah, Botta bing bada boom bah, humbug bam, Bang, Batter up, Zynga baby Bingo, blah banha última Boeing osso uppity. Ambos o seu bon voyage Osh Boo hoo hoo! Boom! Booyah! Bravo, carro bombista ching! Cheque-mate! Cheerio. Saúde. Anime-se. Trip choo choo clank Clique clack galo um rabisco. Ooh! Golpe! Cowabunga! Maldito! Kim Dong! Idem. Não pontas, ponto ponto Duh. Burro. Não! Não faça dinamite. Ik ele. Encore em guarda! Eureka! Imagina isso, Geronimo! Vertigine-se! Boa dor. Boa sorte. Boa viagem. Apanhei-te! Ótima. Scott, cabeça erguida! Ouçam, ouçam! Quadril, quadril! Hurra! Hiss, porco, Patty! Hurra! Hurra! Huzzah! Creepers trepadores! Grilo Jiminy, Jenks. Só estou brincando. Kaboom! Cobb cordeiro coaching Kapow Chao Co Xam ca bam ka boom! Treinamento poderia mastigar ca flop. Poderia plop kerplunk. Kapow ela slat seu cárter! Toc, toc! Senhorita, eu olho para fora! Mamma Mia! Homem ao mar! Maazel me enganou. Messi quem? Não, não, não, não. Mais malvado! Mais malvado. De jeito nenhum. Agora, como, rapaz? Oh, irmão! Oh, querido. Oh, meu Oh, Snap Link! Está bem. Dokey. Poof! La la Open Sésamo! Ai! Rapaz, você ful Pim Club Poof! Bomba. Que charlatão! Leia e chore. Ribbit, certo. Oh, Roger. Choques retrô cortam alerta de spoiler. Squeaky swish. Swoosh! Toyota. Ele está ali. Carrapato do cárter, carrapato, Tic tac. Touche! Tisk, Tisk, Tweet! Uh huh. Uh oh. Voula de Whoa! Não quero. Cuidado! Caminho a percorrer! Bem feito! Bem, bem. Wham, whammo! Nós que lobo! Opa! Uma margarida. Quem? Uau! Uau! Za wowser blá, blá, blá. Sim, Caramba! Talvez ache que sabe com quem apostar. Yowza! Sim, Hauser. Yuck! Yum, zap, zing! Zoinks! Isso nos leva ao final deste tutorial. Espero que tenha achado esta lição útil. Consulte as notas que acompanham esta seção para obter mais informações e obrigado por ouvir. 12. 11 - Tag de ênfase de texto a fala: Olá e bem-vindo de volta. Neste tutorial, você aprenderá a usar tags SS ML para enfatizar certas partes do seu texto como texto em fala do Google e Amazon Polly interpretam a ênfase de forma diferente, abordaremos ambos separadamente. O elemento de ênfase é usado para enfatizar o texto. Este elemento modifica a fala de forma semelhante ao Prasit E, mas sem a necessidade de definir atributos de fala individuais. O elemento de ênfase suporta atributos de nível opcionais, que altera o grau de ênfase adicionado ao texto, a estrutura para marcar o texto para interpretar a ênfase usando o texto do Google para fala é mostrada abaixo do Google Text to speech suporta os seguintes níveis de ênfase forte, moderado, reduzido e nenhum escuta uma gravação de fala sintetizada de um arquivo de texto marcado usando diferentes níveis de ênfase. Devolva, disse Sue, como seu irmão escondeu a guloseima no bolso. Não, é meu, disse Tim, defendendo sua irmãzinha. Estou avisando, disse Sue, avançando ameaçadoramente. Oh, não, estou tão assustada, disse Tim com um sorriso. É melhor que estejas. Vou dizer à mãe, disse a Sue, abanando o dedo na cara dele. Vamos falar agora sobre marcar texto para interpretar ênfase usando o Amazon Polly, a estrutura para interpretar ênfase. Usar o Amazon Polly é o mesmo, mas com a ênfase da Amazon Polly muda a taxa de volume da fala. Mais ênfase faz com que o Amazon Polly fale o texto mais alto e mais lento, e menos ênfase faz com que ele fale mais silencioso e mais rápido. O Amazon Polly suporta os seguintes níveis de ênfase forte, aumenta o volume e diminui a taxa de fala. Assim, os discursos mais alto e mais lento moderado aumenta o volume e diminui a taxa de fala , mas não tanto quanto quando definido muito forte. Se o nível não estiver incluído na tag de marcação, o Amazon Polly processa a ênfase no nível moderado É a configuração padrão reduzida, diminui o volume e acelera a taxa de fala. Os discursos, suaves e rápidos. Ouça uma gravação de fala sintetizada de um arquivo de texto marcado para o Amazon Polly, usando diferentes níveis de ênfase. Devolva, disse Sue, como seu irmão, escondido para tratar em seu bolso. Não, é meu, disse Tim, defendendo sua irmãzinha. Estou avisando, disse Sue, avançando ameaçadoramente. Oh, não, estou tão assustada, disse ele com um sorriso. É melhor que estejas. Vou dizer à mãe, disse a Sue, abanando o dedo na cara dele. Isso nos leva ao final deste tutorial. Espero que tenha achado esta lição útil. Consulte as notas que acompanham esta seção para obter mais informações e obrigado por ouvir. 13. 12 - Tags de Prosody de texto a fala: para ver um mundo em um grão de areia e um céu em uma flor selvagem. Segure o infinito na palma da sua mão e eternidade em uma hora para ver um mundo em um grão de areia. Onda céu em uma flor selvagem. Segure o infinito na palma da sua mão e eternidade em uma hora. Olá e bem-vindo de volta. Neste tutorial, você aprenderá sobre Prasit E e como usar tags SS ML para alterar elementos Prasad IQ em seus arquivos de texto para fala. Vou explicar que processo ele quer dizer. Fale sobre alguns termos relacionados e mostre como alterar o tom, volume e a taxa do texto falado. O Prasit. Ele se refere a áreas da linguagem como o ritmo da sintonia, estresse e a entonação da fala, e como essas características contribuem para o significado. O Prasad. QI refere-se a atributos e aspectos do Prasit e do processo. O elemento é usado para personalizar o tom, volume e taxa de fala de suas tags Speech. A estrutura para marcar o texto para interpretar o Prasit E é mostrada abaixo. Se você gravar o mesmo texto usando vozes diferentes, você pode ver que algumas vozes dirão a mesma coisa em uma taxa mais lenta e rápida de volume de fala, taxa de fala e tom dependem da voz específica selecionada. Além das diferenças entre vozes para diferentes idiomas, há diferenças entre vozes individuais que falam a mesma língua por causa disso , enquanto atributos ar semelhante em todas as línguas, há são variações claras de idioma para idioma. Isso significa que não há valores absolutos apenas valores relativos. Os valores relativos podem ser escritos como uma porcentagem ou um número precedido por um sinal de mais ou menos , seguido por um símbolo de porcentagem, por exemplo, mais 15,2% menos 8% ou é um número relativo para atributos de pitch. Alterações relativas podem ser dadas em tons semi, usando um número precedido por um sinal de mais ou menos, seguido por S. T, que significa tons semi, por exemplo, mais 0,5 tons semi mais cinco tons semi menos dois tons semi. Etcetera. Observe que as unidades para str sensível a maiúsculas um tom semi é metade de um tom ou 1/2 passo na escala diatônica padrão. Ouça uma gravação de fala sintetizada de um arquivo de texto marcado usando processo diferente, ele atribui. Computação quântica é o uso de fenômenos mecânicos quânticos como uma superposição e emaranhamento para realizar computação. Computação quântica é o uso de fenômenos mecânicos quânticos, tal superposição e emaranhamento para realizar computação. Computação quântica é o uso de fenômenos mecânicos quânticos, tal superposição e emaranhamento para realizar computação. Computação quântica é o uso de fenômenos mecânicos quânticos, tal superposição e emaranhamento para realizar computação. Vamos dar uma olhada agora os elementos PRASAD QI do volume de pitch e taxa de fala e como esses ar interpretado pelo texto do Google para fala e Amazon Polly maneira. Alterar o tom do discurso permite aumentar ou diminuir o tom das vozes selecionadas . Existem três opções para definir o valor dos atributos de pitch com o texto em fala do Google . Você pode especificar um valor relativo, como extra baixo, baixo, médio, alto, extra alto e padrão, onde o valor médio é o tom padrão. Você também pode aumentar ou diminuir o tom especificando um número de tons semi. Observe que ao usar este método, usando sinais de mais ou menos e S T são necessários, você também pode aumentar ou diminuir o tom usando valores percentuais. Observe que o símbolo de porcentagem é obrigatório, mas usar sinais de mais ou menos são opcionais. Ouça os vários valores de pitch usados para narrar o texto de amostra abaixo. A primeira frase não tem marca para que você possa ouvir a voz padrão. Se eu tivesse um mundo próprio, tudo seria absurdo. Nada seria o que é porque tudo seria o que não é. E contrariavelmente, o que é que não seria. E o que não seria se você veria? Eu não sei o que você quer dizer, disse Alice Amazon. Polly permite que você defina, aumente ou abaixe o tom do seu discurso usando um valor pré-definido como extra baixo, baixo médio alto e extra alto. Você também pode aumentar o tom especificando uma porcentagem, por exemplo, mais 10% ou mais 5%. Observe que o valor máximo permitido é mais 50%. Se você definir o valor maior que esse valor, ele só será processado com o valor máximo de mais 50%. Você também pode diminuir o tom especificando uma porcentagem como menos 10% menos 20% etcetera, o menor valor permitido para diminuir o tom usando porcentagens como menos 33,3% especificando um valor menor que menos 33,3% será apenas processado no valor mínimo de menos 33,3%. Ouça uma gravação de fala sintetizada de um arquivo de texto marcado para o Amazon Polly Voices usando diferentes atributos de tom. Um sonho não é realidade, quem pode dizer qual é qual? Todo mundo quer alguma solução mágica para seu problema, e todo mundo se recusa a acreditar em magia. Não admira que esteja atrasado. Por que este relógio é exatamente dois dias lento. Você costumava ser muito mais aqui. Perdeste a tua muiteza. Às vezes, acreditava em seis coisas impossíveis antes do pequeno-almoço. Eu tenho uma teoria. As pessoas falam alto quando quero ser inteligente. Bem com o Google. Voz é que você pode alterar o volume do seu texto falado usando um número precedido pelo sinal de mais ou menos imediatamente seguido por DB para decibéis ou usar valores como silencioso, extra suave, suave, médio alto, extra alto ou padrão. O padrão é mais 0,0 decibéis. Note que especificar um valor de silencioso como igual a especificar decibéis de menos infinito e que todos os níveis de volume numérico em decibéis de ar em relação ao nível atual e deve sempre ter um sinal de mais ou menos, incluindo zero O uso do rótulo padrão redefine o nível de volume atual. Ouça uma gravação de fala sintetizada de um arquivo de texto marcado para o Google TTS usando atributos de volume diferentes. Estou falando esta linha no volume padrão para esta voz. Eu estou falando isso. Alinhe aproximadamente o dobro da amplitude do sinal original. Eu estou falando esta linha é aproximadamente metade da amplitude do sinal original. O Amazon Polly permite que você altere ou defina o volume para um nível pré-definido para sua voz atual , usando valores como silencioso extra suave, suave, médio alto, um extra alto. Você também pode aumentar o volume em relação ao nível de volume atual. Por exemplo, mais zero decibéis significa nenhuma mudança de volume, mais seis decibéis como aproximadamente o dobro da amplitude atual. Por favor, note que o valor positivo máximo permitido como cerca de 4,8 decibéis. Além disso, você pode diminuir o volume em relação ao nível de volume atual. Por exemplo, menos seis decibéis significa aproximadamente metade da amplitude atual. Ouça uma gravação de fala sintetizada de um arquivo de texto marcado para vozes do Amazon Polly usando atributos de volume diferentes. Estou falando esta frase do meu volume normal. Estou falando esta frase que permitiu um volume. Sempre que acordo, costumo falar devagar enquanto meu cérebro se concentra. Posso falar com o meu tom normal, mas também com um tom muito maior. E às vezes eu posso até falar com uma voz muito mais baixa. Outro atributo de Prasit EU pode mudar em seu texto como a taxa de fala usar valores relativos como extra lento, lento, médio rápido, extra rápido ou padrão para definir a taxa de fala ou uma porcentagem quando o valor é uma porcentagem não negativa. Ele atua como um multiplicador da taxa padrão. Por exemplo, um valor de 100% significa que não há alteração na taxa de fala. Um valor de 200% significa uma taxa de fala de duas vezes a taxa padrão, e um valor de 50% significa uma taxa de fala de metade da taxa padrão. Além disso, é importante ter em mente que a taxa padrão depende do idioma, dialeto e personalidade da voz que está sendo usada. Ouça uma gravação de fala sintetizada de um arquivo de texto marcado para o Google. Vozes TTS usando atributos de taxa diferentes um menino azul vêm soprar seu chifre, os navios e prado. A vaca está no milho. Onde está o garoto que cuida das ovelhas? Ele está debaixo de um palheiro. Dormir rápido Com o Amazon Polly Voices você pode definir a taxa de fala usando valores relativos como extra lento, lento , médio rápido, extra rápido, ou especificar uma porcentagem para aumentar ou diminuir o velocidade do discurso. 100% indica nenhuma alteração em relação à taxa normal, enquanto a porcentagem é maior que 100%. Aumente a taxa e as porcentagens abaixo de 100%. Diminua a taxa. Observe que com vozes do Amazon Polly o valor mínimo que você pode especificar como 20%. Ouça uma gravação de fala sintetizada de um arquivo de texto marcado para o Amazon Polly Voices usando atributos de taxa diferentes. É assim que eu faço quando falo mais devagar. Eu sempre falo mais rápido quando estou me divertindo. Vamos abaixar um pouco, depois esperar e assistir. Se eu falar um pouco mais rápido, isso não vai parecer um desastre. Se eu abrandar um pouco, você pode me encontrar no meio. Em resumo, você pode usar elementos Prasidh e com atributos combinados de volume de pitch e raid para ajustar o texto aos arquivos de fala e melhorar a qualidade de suas narrações. Isso nos leva ao final deste tutorial. Espero que tenha achado esta lição útil. Por favor, consulte as notas que acompanham esta seção para obter mais informações e obrigado por ouvir. 14. 13 - Tag de texto a falar a de MaxDuration: - Allen Chaves Allen, alimentadores terríveis, PortSys, aquecedores elétricos, compactadores de lixo, suco, suco, exaustor, chuveiros corre em contadores de água, talkies de caminhada, óculos de segurança de fio de cobre, pneus radiais, pellets, martelos de borracha, ventiladores e desumidificadores. Picture pendurado cortadores de papel, ferros de waffle, persianas. Removedores de tinta até ficarmos com fita adesiva impactaram dólares. Torneiras de cozinha, mesas dobráveis, intempéries, cabos adequados, aparência e fundo. Está de volta com poder. legado do pai tem que assinar por fumigação. Invocação de alto desempenho, impermeabilização interferência, isolamento multiuso, compressor de ar, conectores de grama contam detectores de fumaça cinzel. Gauges resposta. Kate é termostatos e desertores. Trailer engate de magnetizar mentores. Registros de tendência circuncidados automáticos, suportes angulares para nós e painéis soffit energizantes, disjuntores, aspiradores, cafeteiras, geradores povoados, correspondência saleiro e pimenteiro Way Olá e bem-vindo de volta. Neste tutorial, você aprenderá como definir uma duração máxima para fala sintetizada usando o processo da tag Duração máxima da Amazon. Em uma lição anterior, abordamos usando o processo do elemento para personalizar o tom, volume e a taxa de fala de suas tags. Você também pode especificar quanto tempo você deseja que seu texto falado leve usando o processo. A tag de duração do Amazon Max. Observe que esse recurso está disponível apenas para vozes do Amazon Polly, não para vozes do Google. Também é importante ter em mente que a duração da fala sintetizada será muito ligeiramente, dependendo da voz que você selecionar. Isso dificulta a correspondência de fala sintetizada com visuais ou outras atividades que exigem tempo preciso e podem ser especialmente desafiadoras se você planeja traduzir texto em diferentes idiomas. A estrutura para marcação de texto usando o processo da tag de duração do Amazon Max é mostrada abaixo de alguns dos usos para o processo. A tag de duração do Amazon Max inclui narrações de áudio de afundamento, gravadas ou traduzidas para vídeos, apresentações de slides, etc. Outros usos incluem ser capaz de combinar fala sintetizada com restrições de tempo. Por exemplo, se você estiver gravando uma narração para um 32º anúncio de rádio em sua mensagem levar 20 segundos para ser entregue e você for obrigado a incluir uma isenção de responsabilidade legal no final do anúncio . Convém comprimir o aviso de isenção de responsabilidade nos 10 segundos restantes usando um aviso de isenção de responsabilidade gravado gerado sintético . Aqui está um exemplo de um aviso de isenção de responsabilidade que normalmente levaria 15 segundos para entregar compactado em 10 segundos usando o processo i. e. tag de duração máxima da Amazon pago pelo Comitê de Ação Política da Associação de Eleições dos Contribuintes , autorizado pelo MP Johnson e LV Harvey em nome do T. termos e condições especiais. Por favor, consulte o nosso site para obter mais detalhes em www dot cpac dot trabalho, a duração máxima do seu discurso pode ser especificada em segundos ou milissegundos. O processo. O elemento de duração máxima da Amazon garante que qualquer texto colocado dentro das tags de duração máxima não exceda a duração especificada. Se o discurso usando sua voz ou idioma escolhido normalmente demorar mais do que a duração especificada, Amazon Polly acelerará para caber na duração especificada. Além disso, se a duração especificada for maior do que o necessário para ler o texto a uma taxa normal, Amazon Polly lerá o discurso normalmente. Em outras palavras, ele não vai diminuir a velocidade da fala ou adicionar silêncio, de modo que o áudio resultante será menor do que o tempo especificado. Observe também que o Amazon Polly pode aumentar a velocidade do seu texto falado não mais do que cinco vezes a taxa normal. Se o Texas falou mais rápido do que isso, provavelmente será ininteligível. Além disso, se a fala não puder caber dentro da duração especificada, mesmo quando acelerada até o máximo, o áudio será acelerado, mas durará mais do que a duração especificada. Algumas outras coisas a ter em mente ao marcar seus arquivos de texto para fala, pois você pode incluir uma única frase ou várias frases em uma tag de duração máxima, e você pode usar várias tags de duração máxima Prasit E Amazon dentro do seu texto. Ao calcular o tempo de duração máxima que você especificou, um processador TTS levará em conta quaisquer quebras ou pausas adicionadas ao texto e incluirá isso no período de duração. Além disso, Amazon Polly preservará as pausas curtas que ocorrem onde vírgulas e períodos de ar colocados dentro de uma passagem de texto. Uma dica útil ao usar essa tag para tentar manter suas passagens de texto curtas para reduzir a síntese de fala. Layton ver durante o processo de conversão de áudio, ouvir uma gravação de fala sintetizada de um arquivo de texto marcado usando várias tags de duração Prasit Imax. A fala é um modo especial de comunicação. Evidências sugerem que a anatomia especializada que confere fala humana atingiu seu estado atual em algum momento entre 150.000 anos atrás. A laringe é uma estrutura complexa feita de cartilagem, músculo e outros problemas moles. A última coisa que eu quero abordar nesta lição são algumas das limitações de usar a tag duração máxima e como ele funciona com outras tags SML,Por exemplo, Por exemplo, você não pode aninhar tags de duração máxima. Se você colocar uma tag de duração máxima dentro de outra Amazon, Polly ignorará a tag interna. Além disso, usando o processo, a tag de taxa não funciona com a tag de duração máxima como a função de ambas as tags para afetar a velocidade do texto falado. Finalmente, o texto usado dentro de uma tag de duração máxima da Prasit E Amazon não pode ter mais de 1500 caracteres. O texto mostrado abaixo, por exemplo, que foi usado no vídeo de abertura desta lição, tem 932 caracteres de comprimento, então uma quantidade considerável de texto pode ser usada antes de terminarmos esta lição. Vamos nos divertir um pouco. Você está pronto? Alguns de nós tem que fazer para passar, correr sobre-humano e eles não fizeram nada do que você está dizendo que você está envergonhado. Devastador. Lembre-se de demonstrar como dar ao público a sensação de que está levitando, nunca desvanecendo sempre que os odiadores para todos os lugares poderíamos dizer que eu vou estar comemorando porque eu sei a maneira como isso nos leva ao final deste tutorial. Espero que tenha achado esta lição útil. Consulte as notas que acompanham esta seção para obter mais informações e obrigado por ouvir. 15. 14 - Tags de pronúncia de texto a fala: Você diz qualquer um, e eu digo ou você não diz nem, nem eu . Nenhum dos dois. Nenhum dos dois. Nenhum dos dois. Vamos cancelar a coisa toda. Gosta de batata? E eu gosto do que Sato Você gosta de tomate e eu gosto de tomate, batata , tomate, tomate. Vamos chamar a coisa toda de Olá e bem-vindos de volta. Neste tutorial, abordamos a pronúncia de texto. Você aprenderá a marcar seu texto para pronunciar siglas e abreviaturas, usando nomes de telefone para diferentes pronúncias fonéticas e maneiras de melhorar a pronúncia de fala especificando partes da fala e significados alternativos em seus elementos de marcação . Vamos começar com como marcar arquivos de texto para pronunciar acrônimos e abreviaturas corretamente. Um acrônimo como uma palavra ou nome formado como uma abreviatura dos componentes iniciais de uma frase ou palavra. Normalmente letras individuais como a OTAN ou o mergulho. Você pode usar o elemento sub alias para substituir palavras ou expandir acrônimos. Nome dos elementos ou abreviaturas. Tal ditado o Federal Bureau of Investigation em vez do FBI, a British Broadcasting Corporation em vez da BBC, o Fundo Monetário Internacional em vez de I m f. Etcetera. A tag sub alias também pode ser usada para fornecer a pronúncia correta para sangrias de palavras, que são palavras com números para letras ou nomes exclusivos que os mecanismos TTS não conseguem pronunciar corretamente. A estrutura para marcar texto para interpretar acrônimos e abreviaturas como mostrado abaixo. Aqui estão algumas dicas úteis ao usar a sub tag. No momento da criação desta lição, as vozes do Google não suportam o uso de nomes de telefone, que veremos em um momento que você pode usar. O subelemento com o Google Voice é, em vez disso, se você planeja usar os mesmos acrônimos repetidamente em todo o texto, use o elemento sub alias para expandir a primeira instância do acrônimo em seu texto para que seus ouvintes saibam exatamente o que você está se referindo. O sub-elemento também pode ser usado para fornecer pronúncias simplificadas de palavras que os motores TTS acham difícil de ler, como palavras em outros idiomas. Ouça uma gravação de fala sintetizada de um arquivo de texto marcado usando tags Sebelius. O papel principal da Organização Mundial da Saúde é direcionar a saúde internacional dentro do sistema das Nações Unidas e liderar parceiros em respostas globais à saúde. irídio é um metal de transição branco muito duro, quebradiço e prateado do grupo de platina Alcoólicos Anonymous é um programa de 12 passos de recuperação do alcoolismo. O único requisito para ser membro de A é o desejo de parar de beber. Tim leu seu primeiro livro quando tinha apenas três anos de idade. Vamos dar uma olhada agora em como usar nomes de telefone e adicionar pronúncia fonética ao seu texto . Você pode usar a etiqueta de nome de telefone com o Amazon Polly para adicionar pronúncia fonética a texto específico . Observe que o Google TTS atualmente não oferece suporte ao uso de nomes de telefone. A etiqueta de nome de telefone deve incluir os dois atributos a seguir. Alphabet é usado para indicar qual alfabeto fonético Amazon Polly deve usar, e pH especifica a pronúncia fonética que você deseja que o Amazon Polly use em vez do ID associado de pronúncia padrão por padrão com o idioma usado pelo Voz . A estrutura para marcar texto para interpretar nomes de telefone corretamente é mostrada abaixo da Amazon . Polly pode interpretar nomes de telefone de vários alfabetos fonéticos, incluindo I p A. Sampa, um pinhão amazônico para pronúncia fonética chinesa mandarim. Se você planeja usar alfabetos fonéticos em idiomas diferentes do inglês, lembre-se de especificar o idioma correto antes de processar o texto. Ouça uma gravação de fala sintetizada de um arquivo de texto marcado usando pontas de telefone de pinhão. Você tem certeza de guerra, nós temos certeza. Agora o Amazon Polly suporta o uso de nomes de telefone em vários idiomas diferentes. Consulte a documentação que acompanha este curso para obter links para tabelas telefônicas, ferramentas e recursos para alfabetos fonéticos suportados. Está além do escopo deste curso para ensiná-lo sobre fonética. Você pode encontrar muitos tutoriais em vídeo on-line sobre este tópico. A coisa importante que você precisa saber para esta lição como como nomes de telefone pai ao marcar o seu texto. Então vamos passar por este processo brevemente. Vamos começar estudando a estrutura das tags telefônicas abaixo e ouvindo como as palavras são pronunciadas usando diferentes nomes de telefone e alfabetos fonéticos. Você diz noz-pecã. Eu digo noz-pecã, você diz noz-pecã. Eu digo noz-pecã. Falamos sobre o uso de ferramentas fonéticas na lição de ferramentas de texto para fala, e também fornecemos informações e links para várias ferramentas fonéticas, e o recurso está na documentação do curso que acompanha. Outra coisa sobre a qual falamos foi a importância de salvar arquivos de texto contendo nomes de telefone para o Amazon Polly usando o formato UTF oito. Então, vamos rever estes dois pontos brevemente. O primeiro passo é localizar e copiar a ortografia fonética correta das palavras. Você pode fazer isso gratuitamente, usando sites que fornecem dicionários on-line com ferramentas de ortografia fonética e conversão fonética . Consulte as notas do curso para obter mais detalhes. Depois de especificar o alfabeto fonético a ser usado e colar os nomes de telefone em seus arquivos de texto . Atributos de alfabeto e PH, lembre-se de salvar seu arquivo de texto usando UTF oito Codificação. Como mostrado aqui, agora que analisamos os sub-alias e tags de chamada, vamos dar uma olhada em maneiras de melhorar a pronúncia de suas palavras. Hedren M. PalavrasHedren M. Zehr que são escritas de forma idêntica, mas têm significados diferentes quando pronunciadas forma diferente. Amazon Polly é realmente muito bom quando se trata de reconhecer nomes hetero e palavras que transmitem diferentes significados. Dependendo do contexto, eles são usados e a tecnologia só está melhorando. Por exemplo, ouvir como o Amazon Polly interpreta as seguintes frases. Sem qualquer marcação, tags adicionadas, a banda gravará um registro. Recusamo-nos a aceitar mais lixo. Este país nunca irá progredir a menos que alcancemos progresso. Esses agricultores produzem muitos produtos. Meritíssimo, não vou contestar o concurso. Não se rebelem a menos que sejam rebeldes. Por favor, não nos sujeite a mais dor. Ao discutir o assunto de sua operação, vou contrastar todas as diferentes opções de contraste dessas telas de laptop no meu blog. Quando o fogo se aproximou, as autoridades decidiram fechar a estrada. Algumas palavras, no entanto, podem ser complicadas ou difíceis para os motores TTS reconhecer e interpretar corretamente. Ouça as frases abaixo enquanto elas estão sendo lidas, e discutiremos isso no próximo slide. Aprendi a ler e a ler a aprender. Aprendi a ler e a ler a aprender. Aumente o baixo em seu rádio e você vai pegar mais graves. Aumente o baixo em seu rádio e você vai pegar mais graves, como você acabou de ouvir. Algumas palavras como Leitura e base podem ser difíceis para motores TTS interpretar corretamente. É aqui que a etiqueta W vem a calhar. Você pode usar a tag W no Amazon Polly para personalizar a pronúncia de palavras especificando uma parte da fala ou um significado alternativo. Isso é feito usando atributos de função especificando uma parte da fala. Permite que você diga Amazon Polly se a interpretar a palavra lida como um verbo no presente, Tense diz, e eu vou ler este livro ou é a palavra vermelha no tempo passado? Como em, eu li este livro. Você pode fazer isso usando atributos diferentes como Amazon VB, um Amazon V B D. Use o Amazon Sense sublinhado um para significados alternativos para palavras. Por exemplo, a base do substantivo geralmente se refere à parte mais baixa da escala musical, mas também pode ser uma espécie de peixe de água doce se a pronúncia da palavra for diferente. Se você não quiser o significado padrão de palavras escritas da mesma forma, mas têm significados diferentes quando pronunciadas de forma diferente, use a tag de significado alternativo. A estrutura básica para marcar texto para personalizar a pronúncia de palavras usando o elemento W tem mostrado abaixo e nos slides a seguir, a palavra R E a d pode ser interpretada como a forma simples presente lida ou o passado em forma de particípio vermelho. A palavra B. s s pode ser interpretada como uma base de elemento musical ou é a sua alternativa que significa um baixo de peixe de água doce Em formas resumidas para melhorar a pronúncia de texto, usando S SML incluem apenas permitindo que a tecnologia para manter ficando mais inteligente em termos de fornecer melhor reconhecimento de contexto ou usando tags como a tag sub alias para pronunciar acrônimos e abreviaturas. A tag de chamada para pronunciar palavras com diferentes sons fonéticos. E a tag w para especificar partes da fala e significados alternativos. As ferramentas de texto girado deixaram-lhe alternar texto com sinônimos alternativos. Você pode usar o site do Departamento de Veículos Automotores para renovar o registro de seu veículo on-line. Ou ela vai ou eu vou Não há outro ou a cara triste nesta camiseta tem uma lágrima nela . Suspeito que o principal suspeito no incêndio da Catedral de Notre Dame é totalmente torto. Isso nos leva ao final deste tutorial. Espero que tenha achado esta lição útil. Consulte as notas que acompanham esta seção para obter mais informações e obrigado por ouvir. Algo deve ser, uh porque eu gosto de você. De jeito nenhum. Nenhuma maneira deve 16. 15 - o texto a falar Adicionar audições: Senhoras e senhores, bem-vindos. Aqui está o nosso número de abertura para esta noite. Nem obrigado, queridos ouvintes, esta é a minha primeira tentativa, Everett fazendo comédia de stand up. Por favor, seja gentil. Planeio divertir-te com umas piadas fabulosas esta noite. Quem? Você está pronto? Sim. Ok. Aqui vamos nós. Quanto mais alto veria níveis se esponjas não vivessem no oceano? Theo, qual é a diferença entre ignorância e apatia? Eu não sei. E eu não me importo. Como soube do semi-cólon que infringiu a lei? Ele recebeu duas sentenças consecutivas. Soube do ladrão que roubou um calendário? Ele pegou 12 meses. É todo o tempo que tenho. Obrigado. Olá e bem-vindo de volta. Neste tutorial, você vai aprender como inserir arquivos de áudio em suas narrações de voz usando o elemento de áudio . Também analisaremos outras tags de marcação para inserir elementos de áudio e mídia em seus arquivos de texto para fala. O elemento de áudio permite inserir arquivos de áudio gravados em suas narrações de voz. Atualmente, o elemento de áudio só é suportado nas vozes do Google. Os requisitos básicos para usar arquivos de áudio em seu texto incluem certificar-se de que o arquivo de áudio. Fonte. U R L usa o protocolo https uma duração máxima de 120 segundos e um tamanho máximo de arquivo de cinco megabytes. Você também deve incluir uma descrição para ser lida em voz alta se, por algum motivo, seu audiófilo não reproduzir a estrutura para marcar texto para arquivos de áudio, como mostrado abaixo . Uma maneira de evitar problemas com arquivos de áudio Não é reproduzida durante o processo de conversão de texto em fala é hospedar os arquivos de áudio em um serviço de armazenamento de mídia on-line ou na nuvem, como Dropbox ou o Google Drive da Amazon. Nós fornecemos links para mais informações sobre ferramentas e recurso é para hospedar arquivos de áudio na documentação do curso que acompanha. Apenas certifique-se de que os links que apontam para seus arquivos de áudio usaram o protocolo https. Você pode inserir diferentes formatos de arquivo de áudio como Wave MP three inaug em seu texto. Ouça o seguinte discurso Gravação. Este é o som de uma criança rindo cardos, o som de um cachorro latindo. Observe que na gravação você acabou de ouvir sons reproduzidos na ordem em que eles aparecem no texto. Em outras palavras, audiófilos normalmente tocam em sequência um após o outro. Agora ouça esta forma de gravação. O que está acontecendo aqui? Nem consigo me ouvir pensando. Com todos esses ruídos loucos acontecendo na gravação, você acabou de ouvir todos os sons ao ar tocando simultaneamente. Como é que isto funciona? Deixa-me mostrar-te. Além de usar o elemento de áudio em suas narrações de voz, você pode usar elementos como seqüenciais paralelas e tags de mídia para ajustar sua fala. As tags paralelas permitem que você reproduza vários elementos de mídia simultaneamente. As tags sequenciais permitem que você reproduza elementos de mídia conforme eles aparecem no texto. As tags de mídia permitem que você adicione elementos de texto e áudio dentro de tags paralelas e sequenciais e use atributos para modificá-los como texto fade e áudios dentro e fora. Aumentar ou diminuir o volume. Repita e defina a duração dos elementos de mídia e especifique onde os elementos de mídia começam e terminam. Pense em tags paralelas e sequenciais como contêineres. Você pode colocar sons de textura dentro de tags de mídia e modificá-los usando atributos diferentes . Se você precisar de mais controle sobre seus arquivos de texto e áudio incorporados, use tags paralelas para reproduzir elementos de mídia simultaneamente ou tags sequenciais para reproduzir elementos de mídia na ordem em que eles são gravados no arquivo de texto. Além disso, use vários atributos de mídia para ajustar sua fala. Vou te mostrar como isso funciona em um momento. Primeiro, vamos dar uma olhada rápida nos atributos de mídia que você tem permissão para usar com arquivos de texto e áudio. Os atributos de mídia oferecem um controle mais fino sobre qualquer texto ou áudio inserido em seu discurso. Use. Comece a especificar quando você deseja que um elemento de mídia comece a ser reproduzido. Por exemplo, você pode especificar um elemento de mídia para reproduzir após 37 ou 9,5 segundos. Use end para especificar quando um elemento de mídia deve parar de ser reproduzido. Isso é útil se você quiser reproduzir apenas os primeiros segundos de um arquivo de áudio longo e depois parar de reproduzir o arquivo. Contagem de repetição permite especificar quantas vezes você deseja que o elemento de mídia repita, por exemplo, duas vezes cinco vezes 10 vezes etcetera. A duração da repetição permite que você coloque um limite na duração da mídia inserida. nível de som permite ajustar o nível de som do áudio. Isso é útil se você estiver reproduzindo elementos de mídia simultaneamente e quiser que um dos elementos reproduza mais alto ou mais suave na mistura. Fade in duration permite que você especifique quando um elemento de mídia deve desaparecer em reprodução, e a duração do fadeout permite que você especifique até que ponto o texto ou o áudio devem começar a desaparecer No final do elemento de mídia, ouça novamente a gravação em que vários elementos de mídia são todos reproduzidos simultaneamente. Espere, o que está acontecendo aqui? Nem consigo me ouvir pensando com todos esses barulhos loucos acontecendo. Se você estudar a marcação deste texto, você verá cinco elementos de mídia incluídos nas tags P A R. O primeiro elemento é falado texto fechado em tags de fala e definido para começar 12 segundos no discurso com um nível de volume elevado de quatro decibéis, o segundo elemento como um arquivo de áudio de uma criança rindo, definido para repetir quatro vezes com um volume ligeiramente menor do que a narração. Os próximos três elementos de mídia são arquivos de áudio de cães latindo e carros com sirenes definidas para terminar o discurso Após 20 segundos, com um desaparecimento de cinco segundos no final, note que você pode combinar vários atributos de mídia ao marcar arquivos de mídia. Agora que você entende como criar uma narração com audiófilos simultâneos tocando em paralelo, deixe-me reproduzir o arquivo mais uma vez para que você possa escolher todos os vários elementos de mídia e suas configurações maneira. O que está acontecendo aqui? Nem consigo me ouvir pensando com todos esses barulhos loucos acontecendo. Aqui está outro exemplo de como inserir arquivos de áudio para reproduzir simultaneamente usando tags paralelas . Aqui vamos nós, preparando-nos para o corpo fonte maneira de mover para o ritmo. Sinta o amor se preparando para o corpo. Mas e aqui está um exemplo de como inserir arquivos de áudio para reproduzir sequencialmente com alguns ajustes de mídia. Oi, Olivia. Olá, Kate. Como você está? Bom, obrigado. Você pode recitar o alfabeto inglês para nossos ouvintes? Mostrar A B C D E f g h i J k l M N O p Mais nove letras e, em seguida, disse em resumo, usou o elemento de áudio para inserir áudio pré gravado em sua voz. Narrações usam tags paralelas para reproduzir arquivos de mídia simultaneamente. Tags sequenciais para reproduzir arquivos de mídia em ordem sequencial e tags de mídia para combinar arquivos de voz e áudio com atributos que permitem encontrar configurações de elementos de mídia, como horários de início e fim definir repetição e duração aumentar e diminuir volume e definir fade ins e fade outs. Isso nos leva ao final deste tutorial. Espero que tenha achado esta lição útil. Por favor, consulte as notas que acompanham esta seção para obter mais informações e obrigado por ouvir. Senhoras e senhores, por favor recebam Noah de volta ao palco. Obrigado. Acordei esta manhã e esqueci de que lado nasce o sol. Então me deu conta. Acabei de escrever uma canção sobre tortillas. Na verdade, é mais um rap. E daí se eu não souber o que significa Armagedom? Não é o fim do mundo. O campeão mundial de Twister acabou de ser preso. Ouvi dizer que ele recebeu uma sentença muito difícil. Eu recentemente decidi vender meu aspirador de pó. Tudo o que estava fazendo era juntar poeira. Odeio bonecas russas. Eles estão tão cheios de si mesmos. Como se chama um B que não pode se decidir? Talvez velcro. Que ripoff. Às vezes eu coloquei meus joelhos no peito e me inclinei para a frente. É assim que eu roto. Você tem sido um público maravilhoso. Obrigado e boa noite. 17. 16 - VoiceFX: Você está pronto? Olá e bem-vindo de volta. Neste tutorial, você vai aprender como adicionar efeitos de voz adicionais ao seu texto para arquivos de fala, como adicionar o som de respirar duas palavras e frases, sussurrar palavras de voz suavemente, controlar tambor de voz e adicionando compressão de intervalo dinâmico duas seções de seu texto para melhorar a qualidade de audição de áudio. Observe que os efeitos de voz abordados nesta lição estão disponíveis apenas para a Amazon no momento . Polly Voices Vamos começar esta lição aprendendo a adicionar o som da respiração ao seu texto. discurso de som natural inclui palavras faladas corretamente e sons respiratórios. Você pode tornar a fala sintetizada mais natural adicionando sons de respiração ao texto usando as tags de respiração Amazon e respiração automática da Amazon nas seguintes opções com o modo manual, você define a localização, o comprimento e o volume de uma respiração som dentro do texto. Com o modo automatizado, você pode deixar o Amazon Polly decidir onde inserir automaticamente sons respiratórios em sua fala. O modo misto permite que você e o Amazon Polly adicionem sons de respiração manual e automaticamente ao seu discurso. A estrutura para adicionar sons de respiração ao texto é mostrado abaixo nota que existem várias maneiras de usar essas tags e atributos. Vamos abordá-los com mais detalhes nos próximos slides. Modo manual. Vamos colocar a marca de respiração da Amazon em seu texto onde quiser que uma respiração apareça. Você pode personalizar o comprimento e o volume das respirações, usando os atributos de duração e volume. Duração permite que você controle o comprimento da respiração. Os valores que você pode usar para definir a duração das respirações incluem padrão. Extra curto, curto, médio longo, um extra longo. O valor padrão para duração é médio. O volume permite controlar a intensidade da respiração. Os valores que você pode usar para definir o volume de respirações incluem padrão extra macio, macio, médio alto e extra alto. O valor padrão para volume é médio. Observe que o comprimento exato em volume de cada valor depende da voz do Amazon Polly sendo usada para definir um som de respiração usando valores padrão no modo manual usado a tag de respiração Amazon sem atributos, por exemplo, para definir a duração e o volume de uma respiração para médio. Você normalmente definiria o valor desses atributos como mostrado aqui. Certo, relaxe e respire fundo para definir um som de respiração usando esses padrões. Basta usar as tags sem atributos como mostrado aqui. Adicionar respirações às suas frases pode fazer o seu discurso parecer mais natural. Você também pode adicionar sons de respiração individuais dentro de uma passagem de texto no modo manual, usando tags como mostrado aqui. Uau, eu terminei essa corrida muito rápido. Acho que acabei de bater o meu melhor pessoal. Observe que adicionamos elementos aninhados do Prasad IQ ao texto para acelerar a taxa de volume da voz e criar um efeito de som mais realista. No modo automatizado, você pode usar a marca Amazon respirações automáticas para dizer que o dedo do pé do Amazon Polly cria automaticamente ruídos respiratórios em intervalos apropriados. Modo automatizado. Vamos definir a frequência da respiração, intervalos, volume e duração. Observe, no entanto, que ao contrário do modo manual, a tag Amazon Auto Breaths requer tags de abertura e fechamento. Coloque a tag de abertura no início do texto, onde você deseja que os sons de respiração automatizados sejam iniciados e uma tag fechada onde você deseja que os sons de respiração terminem. Você pode usar atributos opcionais de frequência de volume e duração com o volume da marca Amazon Auto respirações controla o volume da respiração. Os valores que você pode usar para controlar o volume da respiração incluem padrão. Extra macio, macio, médio alto e extra alto. O valor padrão para o volume de respiração no modo automatizado como controles de frequência média. Com que frequência ocorrem sons respiratórios na frequência do texto. Os valores incluem padrão extra baixo, baixo, médio alto, um extra alto. O valor de frequência padrão é controles de duração média. O comprimento dos valores de duração da respiração que você pode usar incluem extra curto, curto, médio longo, um extra longo. O valor padrão para duração é médio por padrão. A frequência dos sons respiratórios depende do texto de entrada. No entanto, sons respiratórios geralmente ocorrem após vírgulas e períodos. Vejamos agora alguns exemplos de como usar a tag Amazon auto breaths. Nos próximos slides, veremos exemplos de fala gerada a partir de texto usando o modo automatizado sem especificar parâmetros opcionais e usando o modo automatizado com controle de volume, controle de freqüência e especificação de vários parâmetros . Ouça o primeiro exemplo de fala sintetizada usando sons de respiração automatizados sem especificar parâmetros opcionais. O sono é uma parte importante da sua rotina diária. Passamos cerca de 1/3 de nossas vidas dormindo. Ter sono de qualidade suficiente é tão essencial para a sobrevivência como comida e água. Todo mundo precisa dormir, mas seu propósito biológico continua sendo um mistério. Efeitos do sono quase todos os tipos de tecido e sistema no corpo, desde o cérebro, coração e pulmões ao metabolismo, função imune, humor e doença Research Resistência mostra que uma falta crônica de sono ou ficando sono de má qualidade aumenta o risco de distúrbios, incluindo pressão arterial elevada, doenças cardiovasculares, diabetes, depressão e obesidade. Agora ouça um exemplo de fala sintetizada usando sons de respiração automatizados com valores de controle de volume especificados. O sono é uma parte importante da sua rotina diária. Passamos cerca de 1/3 de nossas vidas dormindo. Ter sono de qualidade suficiente é tão essencial para a sobrevivência como comida e água. Todo mundo precisa dormir, mas seu propósito biológico continua sendo um mistério. Efeitos do sono quase todos os tipos de tecido e sistema no corpo, desde o cérebro, coração e pulmões ao metabolismo, função imune, humor e doença Research Resistência mostra que uma falta crônica de sono ou ficando sono de má qualidade aumenta o risco de distúrbios, incluindo pressão arterial elevada, doenças cardiovasculares, diabetes, depressão e obesidade. Aqui está um exemplo de fala sintetizada usando sons de respiração automatizados com valores de controle de frequência especificados. O sono é uma parte importante da sua rotina diária. Passamos cerca de 1/3 de nossas vidas dormindo. Ter sono de qualidade suficiente é tão essencial para a sobrevivência é comida e água. Todo mundo precisa dormir, mas seu propósito biológico continua sendo um mistério. Efeitos do sono quase todos os tipos de tecido e sistema no corpo, desde o cérebro, coração e pulmões ao metabolismo, função imune, humor e doença Research Resistência mostra que uma falta crônica de sono ou ficando sono de má qualidade aumenta o risco de distúrbios, incluindo pressão arterial elevada, doenças cardiovasculares, diabetes, depressão e obesidade. E aqui está um exemplo de fala sintetizada usando sons de respiração automatizados com vários parâmetros especificados. O sono é uma parte importante da sua rotina diária. Passamos cerca de 1/3 de nossas vidas dormindo. Ter sono de qualidade suficiente é tão essencial para a sobrevivência como comida e água. Todo mundo precisa dormir, mas seu propósito biológico continua sendo um mistério. Efeitos do sono quase todos os tipos de tecido e sistema no corpo, desde o cérebro, coração e pulmões ao metabolismo, função imune, humor e doença Research Resistência mostra que uma falta crônica de sono ou ficando sono de má qualidade aumenta o risco de distúrbios, incluindo pressão arterial elevada, doenças cardiovasculares, diabetes, depressão e obesidade. Agora que temos abordado como adicionar sons respiratórios ao texto. Vamos dar uma olhada em como adicionar um efeito sussurrante às narrações de voz. Use a tag sussurrada para indicar quando o texto deve ser falado em uma voz sussurrada em vez de um discurso normal. Observe que todas as vozes de texto em voz do Amazon Polly suportam o efeito sussurrante. Aqui está uma dica útil. Você pode melhorar o efeito sussurrado diminuindo o processo a taxa do seu texto em até 10%. A estrutura para marcar o texto para interpretar o sussurro é mostrada abaixo. Aqui está um exemplo de discurso sintetizado usando sussurros, e eu tenho um segredo para contar para o próximo efeito de voz. Você pode adicionar às suas narrações para fazer as vozes falarem mais suavemente. Deixa-me mostrar-te como se faz isto. Use a tag de efeito de nação de fluxo suave para indicar quando o texto deve ser falado. Em uma voz mais suave do que o normal, como o efeito sussurrante, você pode melhorar o efeito falado suave diminuindo o processo. A taxa do seu texto em até 10%. A estrutura para marcar o texto para interpretar a voz falada suave é como mostrado abaixo. Ouça alguns exemplos de discurso sintetizado marcados para narrações de voz faladas suaves . Olá, sou o Matthew. Este sou eu falando com minha voz normal, e este sou eu falando com minha voz mais suave. Se eu respirar um pouco antes de falar, posso me atrasar, relaxar, sentir mais calmo e mais em paz com o mundo. Eu sou Joanna. Como Matthew. Eu também tenho uma voz normal e uma voz mais suave. Quando chego a casa depois de um dia duro no escritório, gosto de dar um passeio na praia com a minha cachorra Bonnie. Só de pensar nisso me ajuda a estressar e relaxar. Outro efeito de voz útil. Você pode adicionar a narrações para fazer vozes soarem maiores ou menores controlando a voz. Tambor Timber é a qualidade tonal de uma voz que ajuda você a dizer a diferença entre vozes, mesmo quando elas têm o mesmo tom e intensidade. Uma das características fisiológicas mais importantes que contribui para a fala Tambor como o comprimento do trato vocal, o trato vocal como uma cavidade de ar que se estende desde o topo do vocal, dobra-se até a borda dos lábios para controlar a madeira da fala de saída Na Amazônia, Polly usou a tag comprimento do trato vocal tem mostrado abaixo. A etiqueta de comprimento do trato vocal tem o efeito de alterar o comprimento do trato vocal dos alto-falantes , que soa como uma mudança no tamanho do alto-falante. Aumentar o comprimento do trato vocal faz com que o alto-falante soe fisicamente maior, diminuindo. Faz o alto-falante soar menor. Observe que todas as vozes do Amazon Polly suportam o uso desta tag para alterar a madeira de uma voz usado os seguintes valores, adicionando um número percentual de mais ou menos ajusta o comprimento do trato vocal por uma alteração percentual relativa na atual voz, por exemplo, mais 4% ou menos 2%, você pode usar qualquer valor que varie de mais 100% a menos 50%. Quaisquer valores que estejam fora deste intervalo serão cortados, por exemplo, especificando um valor de mais 111% será cortado para soar como mais 100% e especificando um valor de menos 60% será cortado para soar como menos 50%. Você também pode especificar uma porcentagem absoluta para alterar o comprimento do trato vocal da voz selecionada atual , como 110% ou 75%. Observe que um valor absoluto de 110% como equivalente a um valor relativo de mais 10% e um valor absoluto de 100% como o mesmo valor padrão. Para a voz atual. Ouça alguns exemplos de fala sintetizada em que controlamos a voz Tambor alterando o comprimento do trato vocal. Esta é a minha voz original sem modificações. Agora imagine que eu sou muito maior. Ou talvez prefira a minha voz quando sou muito pequena. Você também pode controlar a madeira da minha voz fazendo pequenos ajustes, por exemplo, me fazendo soar um pouco maior, me fazendo parecer um pouco menor. Neste exemplo, você pode ver que o Amazon Polly permite combinar a tag de comprimento do trato vocal com qualquer outra tag S SML compatível. Como a madeira ou o comprimento do trato vocal e o jarro estreitamente conectados, você pode obter os melhores resultados combinando a tag de comprimento do trato vocal com o processo para a tag pitch para produzir a narração de voz mais realista. Com esse efeito, recomendamos experimentar diferentes combinações de tags e usar diferentes percentagens em valores ao combinar tags, como mostrado no exemplo abaixo, o tambor de arremesso da voz de uma pessoa são intrinsecamente conectado na fala humana. Se você estiver indo para reduzir o comprimento do trato vocal, você pode querer considerar aumentar o tom, também. Se você optar por alongar o trato vocal, você também pode tentar baixar o tom da voz. O último efeito de voz. Quero abordar nesta lição como adicionar compressão de intervalo dinâmico ao texto, dependendo do texto, idioma e voz usados em um arquivo de áudio. Os sons podem variar de sons ambientais permitidos suaves, como o som de um veículo em movimento , pode mascarar sons mais suaves, tornando difícil ouvir a faixa de áudio claramente para melhorar o volume de determinados sons em seu arquivo de áudio, você pode usar a tag de compressão de intervalo dinâmico. A tag DRC define um limite de intensidade de alcance médio para o áudio e aumenta o volume ou o ganho dos sons em torno desse limite. Ele aplica o maior ganho aumentado mais próximo do limiar e lições o ganho aumentou mais longe do limiar. Em termos simples, a compressão de intervalo dinâmico aumenta o volume de sons em torno do limite de intervalo médio. Usando compressão de faixa dinâmica torna sons de faixa média mais fácil de ouvir em ambientes barulhentos , que torna o arquivo de áudio Som ouvintes dedos mais claros A estrutura para adicionar arquivos de áudio RDC toe como mostrado abaixo. Observe que o valor de RDC diferencia maiúsculas e minúsculas e deve ser escrito em minúsculas dentro da tag . Observe também que todas as vozes e idiomas polly da Amazon são compatíveis com o uso da tag RDC. Além disso, lembre-se de que você pode aplicar compressão de intervalo dinâmico a uma seção inteira de texto ou apenas algumas palavras. Ouça a gravação de fala a seguir com a RDC aplicada a uma seção do texto. Gravações de áudio podem ser ambientes difíceis como um veículo em movimento, mas esta seção do áudio racial deve ser menos difícil de ser veículo em movimento porque temos aplicado compressão de alcance dinâmico para ele. Você também pode usar a compactação de intervalo dinâmico com a tag de volume do processo. Como este gráfico mostra a tag de volume do processo aumenta uniformemente o volume de todo o audiófilo em relação ao seu nível original. Mostrado aqui é uma linha pontilhada para um nível ajustado marcado no gráfico como uma linha sólida usando a tag DRC com o processo, tag volume aumenta ainda mais o volume de certas partes do arquivo de áudio. combinação de tags não afeta as configurações do processo da tag de volume em termos simples. O que isso significa é que você pode usar a tag de volume do processo para aumentar o volume em todo o audiófilo. Algo a ter em mente se você planeja usar a compressão de intervalo dinâmico com o processo. A tag de volume é que quando você usa ambas as tags juntas, o Amazon Polly aplica a tag DRC primeiro para aumentar os sons de intervalo médio perto do limite . Em seguida, aplica o processo a tag volume, que aumenta ainda mais o volume de toda a faixa de áudio uniformemente. Então, em termos simples, use a tag RDC com a tag de volume de processo para primeiro aumentar o volume dos sons de alcance médio e, em seguida, aumentar o volume geral de toda a faixa de áudio. Aqui estão algumas informações adicionais sobre o uso de compressão de intervalo dinâmico para usar as tags juntas aninham uma tag dentro da outra no exemplo abaixo. A tag de volume do processo aumenta o volume de toda a passagem muito alto. Enquanto a tag DRC aumenta o volume dos valores de intervalo médio na segunda frase, lembre-se também de usar tags de fechamento para ambos os elementos. Ouça a gravação de fala abaixo. Para ouvir esses efeitos em ação, este texto precisa ser compreensível e permitido. Este texto também tem de ser mais compreensível num automóvel em movimento. Em resumo, use as tags de respiração e respiração automática para ajudar a criar um discurso de som mais natural adicionando respirações a narrações de texto e voz. Use a tag sussurrada para adicionar sussurros ao texto. Use a etiqueta suave para efeitos de voz mais suaves. Use a tag de comprimento do trato vocal para alterar o tambor de voz alterando o tamanho dos alto-falantes . Comprimento do trato vocal e usar a etiqueta RDC com ou sem o processo. O dedo do pé do volume. Adicione compressão de intervalo dinâmico ao texto e aumente o volume de sons de médio alcance em suas narrações de áudio. Isso nos leva ao final deste tutorial. Espero que tenha achado esta lição útil. Por favor, consulte as notas que acompanham esta seção para obter mais informações e obrigado por ouvir. Olá e bem-vindos a outro episódio do podcast de meditação AI, onde só dizemos o que os outros estão pensando antes de começarmos. Respire fundo e relaxe. Sinta-se livre para fechar os olhos. Agora, a menos que você esteja dirigindo, nesse caso você pode querer manter seus olhos bem abertos. Em nome de todas as vozes sintéticas, eu faço o seguinte prometido a ano que nunca vou desistir de você nunca vou te decepcionar Nunca vou correr por aí e desertar você nunca vai te fazer chorar Nunca vou dizer adeus dizer uma mentira e machucar você jogo maneira 18. 17 - Tag de idioma de texto a fala: Senhoras e senhores, Madame Amos anos, envie um C senores comprando um diamante em Terrence Don Massey Carbon amarelos. Apresento-vos o certificado de boa-fé, indubitavelmente superqualificado, descompensado, tudo não convencional, um corpóreo e quase inconcebível, mas altamente crível. Kate, a narradora de IA. Olá e bem-vindo de volta. Neste tutorial, você aprenderá como especificar outro idioma para palavras específicas em seu texto usando a tag de marcação de idioma. Observe que isso não é o mesmo que traduzir texto para outros idiomas, que abordaremos em um tutorial separado. Além disso, lembre-se de que a tag de idioma que usaremos está disponível atualmente apenas para vozes do Amazon Polly. Você pode usar a tag de idioma para especificar outro idioma para uma frase ou frase de palavra específica em seu texto. As vozes sintéticas geralmente pronunciam melhor língua estrangeira, palavras e frases. Se o ar do está fechado dentro de um par de tags de idioma, você pode especificar o idioma usando XML. Idioma atribui a estrutura para interpretar texto usando outros idiomas, como mostrado abaixo Amazon. Polly suporta vozes de texto para fala em vários idiomas diferentes. Esta tabela lista os idiomas suportados pelo Amazon Polly com os códigos de idioma, você precisa usar com a tag de idioma. Aqui, você pode ver como usar atributos de idioma com a tag de marcação de idioma. Note que os códigos de identificação de idioma permitem até diferenciar entre usar um dialecto linguístico como palavras faladoras em francês ou francês, canadense ou falando em português Usando um português brasileiro ou europeu pronúncia. Vamos passar por alguns exemplos para que você possa ver como marcar texto para especificar usando outros idiomas ao pronunciar palavras específicas para entender como a tag de idioma funciona, vamos começar com o básico. Todas as palavras no texto são faladas no idioma da voz selecionada, menos que você aplique a tag de idioma. Se você aplicar a tag de idioma, as palavras dentro das tags serão faladas nesse idioma. Por exemplo, digamos que selecionamos a voz de Joanna para narrar nosso texto, e o texto contém palavras em um idioma estrangeiro, como o francês, sem tags de marcação de idioma . Joanna nos fala Inglês para Amazon Polly interpretar a frase mostrada abaixo na voz de Joanna Inglês dos EUA. Sem sotaque francês. Ouça como o texto soa quando convertido em áudio. Jamie Parle Pas Francais. Se você usar a voz de Joanna com o idioma tag Amazon. Polly falará a frase em francês acentuado americano porque Joanna não é uma voz francesa nativa . pronúncia é baseada em sua língua nativa, que é o inglês. Ouça como o texto soa quando convertido em um arquivo de áudio. Parla amigo Francais nota que muito parecido com a maneira como a maioria das pessoas não pronuncia palavras perfeitamente ao tentar falar uma língua estrangeira. voz de Joanna em inglês dos EUA não usa recursos perfeitos de pronúncia francesa para falar esta frase. Como um falante fluente de francês, você precisará usar uma voz nativa que fala francês. Como você sabe sobre um Bethel, digamos a tag de idioma, então é útil quando você quer que suas narrações de voz para pronunciar melhor palavras em línguas estrangeiras . Por exemplo, ouça a gravação de áudio abaixo como Matthew, outra voz inglesa dos EUA, pronuncia a palavra portuguesa brasileira para um tipo bem conhecido de churrasco de carne. Adoro comer ela Roscoe, que é carne grelhada brasileira. Adoro comer sapato hosko, que é carne grelhada brasileira. A tag de idioma também pode ser usada ao traduzir texto para idiomas estrangeiros. Por exemplo, se você usar a voz de Giorgio, que fala italiano com o texto de exemplo abaixo contendo uma frase em inglês. Amazon Polly falará a frase na voz de Giorgio com uma pronúncia italiana. Se você usar a mesma voz com a tag de idioma Amazon, Polly pronunciará as palavras marcadas em italiano acentuado Inglês. Ter um ouvir a gravação de áudio do texto mostrado abaixo. Talvez tenha acabado com a fábrica de chocolate. Talvez, na verdade, Charlie e a fábrica de chocolate. Isso não soa? Bellissimo? Aqui está outro exemplo de usar a tag language para pronunciar nomes em yukking. Foi Venti Quattro saltando Holly Grove que você seguiu. Você deve ver que ele wold na América para processar em padrão ético contralto público inferno desconhecido depois do sexo apenas estava experimentando ao vivo nós poderíamos contribuir para você Para Linda preso em Uki em você sabe, Venti Quattro. Bem, há muitos de vocês seguidos. Você deve ver que você disse na América para processar. Na verdade Go padrão controle público e heloc decisão Abou só estava experimentando licença. Podemos contribuir com você na porta da prisão. O último exemplo que eu quero mostrar usa a tag de idioma para pronunciar nomes estrangeiros usados no texto em seu idioma nativo. Ter um ouvir a gravação de áudio do texto mostrado abaixo Michelangelo de la Davico Osso são Rati Simoni ou mais comumente conhecido por seu primeiro nome. Michelangelo foi um escultor, pintor, arquiteto e poeta italiano pintor, do Hi Renee desde que nasceu em Forenza, ou República de Florença, considerado por muitos o maior artista de sua vida e por alguns o maior artista de todos os tempos, ele é muitas vezes considerado um concorrente para o título do arquetípico Renee desde Man, juntamente com seu rival, o companheiro Florentine Leonardo da Vinci Michelangelo Deal, ou Devika nascido ROTC Money ou, Mais comumente conhecido pelo seu primeiro nome, Michelangelo foi um escultor, pintor, arquiteto e poeta italiano pintor, da Hi Renee. Desde que nasceu em Ferentz, Say , ou A República de Florença, considerado por muitos o maior artista de sua vida e por alguns, o maior artista de todos os tempos, ele é muitas vezes considerado um concorrente para o título do arquetípico Renee desde o homem, juntamente com seu rival, o companheiro Florentino Leonardo da Vinci. Em resumo, use a tag de idioma para especificar outro idioma para palavras, frases ou frases específicas em seu texto. Lembre-se de que o Amazon Polly é compatível com vários idiomas, consulte a tabela de tags de identificação de idioma para códigos de idioma e use-os em atributos de linguagem XML para especificar o idioma. Isso nos leva ao final deste tutorial. Espero que tenha achado esta lição útil. Consulte as notas que acompanham esta seção para obter mais informações e obrigado por ouvir. Eu era um 20 na minha mochila ao longo da empoeirada América vez quando junto veio Osama You com um carregador de carga de lona high-end. Se você vai ganhar a América, faça comigo tudo bem, Reid e é por isso que o clima na caverna embaixo então eu disse Oh, não decida me perguntou se eu tinha visto isso com tanta coisa que estava na areia e eu disse: faça comigo tudo bem, Reid e é por isso que o clima na caverna embaixo então eu disse Oh, não decida me perguntou se eu tinha visto isso com tanta coisa que estava na areia e eu disse: Eu tenho todas as estradas da terra, quero dizer, em todos os lugares, cara. Eu estive em todos os lugares, homem Cruz para os s É que eu trago para a montanha homem de viagem Eu tive a minha parte Eu estive em todos os lugares Eu estive em todos os lugares homem é experiência Respirar, cara. Estive em todos os lugares Kingston para comer pizza. Diga que estive em todos os lugares, cara. Estive em todos os lugares, cara. Primeiro seu experimento eu trago para o American Air Man do meu chef. Estar em todo lugar. Ok, espere. Três. A montanha, a viagem deles. Já tive a minha parte, meu. Eu tenho sido caminho 19. 18 - o texto a de fala: juntando tudo: Bom dia pagamento recebido. Itens selecionados prontos para pegar perto de você A a 50 graus, 57 minutos 10 segundos ao norte e seis graus 54 minutos 27,8 segundos a leste esta noite às 7:30 Boa sorte. Olá. E bem-vindo de volta. Nesta aula, você vai aprender como criar arquivos de áudio a partir de arquivos de texto marcados. Os tópicos abordados nesta lição incluem a revisão do texto em fala, um processo de criação de arquivos de áudio, como criar arquivos de áudio usando vozes do Google e do Amazon Polly e como criar arquivos de áudio em diferentes idiomas. Então o que eu vou fazer nesta lição é orientá-lo através do processo de pegar conteúdo que foi adicionado a um arquivo de texto simples dois marcando com s tags SML e depois convertê-lo em um arquivo de áudio como este. Um teste de turnê é um método de inquérito em inteligência artificial ai para determinar se um computador é ou não capaz de pensar como um ser humano. O teste recebeu o nome de Alan em turnê do fundador do Turning Test em um cientista da computação inglês , analista agrupado, matemático e biólogo teórico. Antes de passarmos pelo processo de transformar um arquivo de texto marcado em uma narração de áudio. Vamos rever mais uma vez as etapas envolvidas no processo de texto para fala. O processo começa com a criação de conteúdo baseado em texto. Este conteúdo pode ser na forma de uma narração, script e vendas de artigos. Copie as instruções de treinamento. Um livro, etc. Após o conteúdo ter sido escrito, a próxima etapa é selecionar o mecanismo de texto para fala como mencionado anteriormente, você precisa escolher o mecanismo de texto para fala antes de marcar o texto, pois diferentes plataformas de texto para fala podem não apoiar ou permitir que você use uma bagunça. Marcas de marcação SML no arquivo de texto de amostra. Acabei de brincar com você. Por exemplo, o conteúdo usa palavras que exigem uma pronúncia fonética diferente, bem como efeitos como sussurros que apenas o Amazon Polly oferece atualmente. Então, para esse exemplo, usamos no Amazon Polly Voice para a narração de áudio. Em vez de selecionar o mecanismo Google TTs depois de selecionar seu mecanismo T ts, o próximo passo é marcar seu texto usando tags S SML. Para concluir esta etapa, revise todos os tutoriais de marcação fornecidos no módulo anterior deste curso. Depois de marcar seu arquivo de texto com tags S SML. O próximo passo é executar seu conteúdo através de sua ferramenta T ts depois de selecionar sua ferramenta de processamento de texto para fala. O próximo passo é selecionar seu idioma ou dialeto. Escolha uma voz masculina ou feminina para sua narração, importe seu arquivo de texto SS ml e converta seu texto em um arquivo de áudio. Depois de criar sua narração de áudio, você pode baixar nossa exportação de seu audiófilo e usá-lo para qualquer aplicativo que você precisa . Tais narrações de vídeo páginas da Web, podcasts, audiolivros, etc. George vai agora guiá-lo através deste processo e mostrar-lhe passo a passo. Como criar uma narração de áudio a partir de um arquivo de texto. Obrigado, Kate. Aqui temos o nosso arquivo de texto marcado. Como você pode ver, adicionamos as tags de fala aberta e próxima e inserimos tags de marcação S SML adicionais. Como esse arquivo de texto usa nomes de telefone, precisaremos converter esse texto em um arquivo de áudio usando o mecanismo de texto em fala do Amazon Polly , pois somente o Amazon Polly interpreta simultaneamente os objetivos de telefone e as tags de marcação frenéticas. Então este é o arquivo de texto que vamos carregar para a nossa ferramenta de processamento de texto para fala e converter em um arquivo de áudio. Vamos agora para o texto para Ferramenta de processamento de voz. Como mencionado anteriormente. Este curso foi criado. Usando algumas ferramentas de processamento de texto para fala. Usará o Wave Net vocalize ER para processar arquivos de texto usando vozes do Google e localizador de scripts para processar arquivos de texto usando o Amazon Polly Voices. Ambos os aplicativos funcionam exatamente da mesma maneira que foram criados pelo mesmo desenvolvedor de software . Vamos fazer login para essas ferramentas, começando com onda Net vocalize er, Uma vez que você está bloqueado, vá para adicionar novo. Isso irá levá-lo para a tela principal do Wave Net vocalize er, vamos também ir em frente e entrar no localizador de script. Clique em Adicionar Novo. Como você pode ver, ambas as ferramentas estão dispostas exatamente da mesma maneira. A única diferença com essas ferramentas é sua capacidade de processar diferentes recursos de texto para fala do S SML. Nós cobrimos esses recursos e diferenças extensivamente nos tutoriais de marcação S M L , então consulte essa empresa módulo ou informações sobre qual ferramenta selecionar ao processar arquivos de texto . A primeira coisa a fazer ao criar um arquivo de áudio é dar o nome do arquivador. Em seguida, selecione um idioma e, em seguida, escolha sua voz. Depois de nomear o arquivo e selecionar um idioma e voz, clique no botão Escolher arquivo para localizar. Selecione um upload de seu arquivo de texto. Depois que o arquivo de texto tiver sido selecionado e carregado, role para baixo até a parte inferior da tela e clique no botão Criar. Seu arquivo de texto será processado e convertido em um arquivo de áudio. Uma vez que seu texto foi convertido em áudio, reproduza o arquivo e ouça o resultado. Um teste de turnê é um método de inquérito em inteligência artificial para determinar se um computador é ou não capaz de pensar como um ser humano. Se tudo estiver OK, selecione a opção de download para baixar o arquivo de áudio finalizado para o disco rígido. Como mencionado em outra lição, script vocalizar ER salva arquivos de áudio em MP três formato e onda net vocalize er salva áudio está longe arquivo. Se você precisa que o áudio esteja em um formato diferente, você pode facilmente converter arquivos MP três áudios toe way e vice-versa, usando as ferramentas referidas em outras lições e o material do curso de download que acompanha apenas para recapitular o todo o processo e, em seguida, certifique-se de que o texto foi marcado corretamente e salvo em formatos de texto sem formatação . Faça login nas ferramentas de vocalização do wave net ou script vocalize er ou ambas, dependendo da turnê de texto em fala que você precisa nomear seu arquivo. Selecione um idioma, selecione um clique de voz sapatos arquivados e localize. Selecione em, carregue seu arquivo de texto e, finalmente, clique no botão Atualizar para converter seu arquivo de texto em uma narração de áudio. Um dos benefícios de usar voz sintética é que se você precisa corrigir ou melhorar qualquer coisa, você pode facilmente alterar o arquivo de texto de origem, re salvar, re carregar e repetir o processo até que você esteja feliz com o resultados. Obrigado, George. Você também teria a gentileza de mostrar aos nossos ouvintes como traduzir texto para outras línguas e transformar seus arquivos de texto traduzidos em narrações de áudio? Claro, seria um prazer. Deixe-me mostrar-lhe como traduzir texto para outras línguas e como converter texto traduzido em narrações de voz. Há duas maneiras de fazer isso. A primeira maneira é escrever o texto em um idioma diferente. Este método funciona se você for quem você planeja usar conspícuo, ler, escrever e entender esse idioma. A segunda maneira é escrever o conteúdo no idioma. Você sabe qual para este exemplo Roda dizer é Inglês. Em seguida, traduza o texto do inglês para outro idioma e passe pelo processo de criação de arquivos de áudio e marcação . Para este breve tutorial, vamos nos concentrar em traduzir texto para outras línguas e converter o resultado em um audiófilo narrado por uma voz sintética nativa falante. A primeira coisa que precisamos é do nosso arquivo de texto. Tenha em mente ao traduzir texto para outros idiomas para processamento de texto em fala que você não pode usar uma versão marcada do texto como o processo TTS. ER irá traduzir as tags de marcação, e isso irá produzir erros. Essa é uma das razões pelas quais recomendamos marcar uma cópia do seu conteúdo e não o arquivo de conteúdo original. Além disso, certifique-se de que o texto que você planeja transformar em uma narração de áudio possa ser traduzido para um idioma suportado por uma voz do Google ou do Amazon Polly. Então aqui está o nosso arquivo de texto. Sem marcas de marcação, copie todo o conteúdo do arquivo de texto para a área de transferência. Em seguida, abra seu navegador da Web e digite o Google Translate. Isso traz a ferramenta Google Translate. Para este exemplo, queremos certificar-se de que a tela de entrada de texto está definida como Inglês. Próximo. Selecione o idioma para o qual traduzir o texto. Para este exemplo, Vamos escolher Francês Colar seu texto nos livros didáticos inter. Note que o Google traduzir tudo tem um limite de caracteres, e ele foi. Traduza seu texto. Se exceder o limite, a ferramenta traduzirá automaticamente o texto para o idioma selecionado. Copie a tradução para a área de transferência e cole-a em um arquivo de texto simples. Salve seu arquivo de texto. Repita este processo para traduzir o texto para outros idiomas. Por exemplo, você pode traduzir o texto para alemão ou chinês ou qualquer outro idioma suportado pelo Google , TTS ou Amazon. Vozes Polly Agora que traduziste o teu texto, tens duas opções. Você pode obter alguém que tem uma compreensão fluente da linguagem para ajudá-lo a marcá-lo, ou você pode converter o texto traduzido, como é em áudio usando wave net vocalize er ou localizador de script. Existem algumas maneiras de converter texto traduzido em áudio usando wave net vocalize er a primeira maneira é fazer uma cópia do arquivo de texto traduzido, assim você preservar o conteúdo original e abrir e fechar tags de velocidade até o início e final do texto e, em seguida, salve o arquivo. Próximo log no reboque. Wave net vocalize er clique em adicionar novo Dê ao seu arquivo um nome. Selecione o idioma do arquivo de texto traduzido. Escolha uma voz. Em seguida, clique no botão Escolher arquivo e localize. Selecione um upload de seu arquivo de texto traduzido com as tags de fala adicionadas. Clique no botão Criar depois que o arquivo de texto tiver sido processado. Verifique se o arquivo foi convertido em áudio, mas a Rússia foi um. Este. Faça isso só fazer Alamoudi livre e não é sua ajuda ou mostrar que ela usa Expedia. Mafiosi. Ariel Appeated Tailed só se mudou na TV. Eleito por comando geralmente móvel, eles só vão ela na pobreza. Companhia de animais. Dassault Chaudhry. Se você estiver satisfeito com o resultado, baixe o arquivo de áudio para o seu disco rígido. Caso contrário, corrija qualquer coisa que precise ser corrigida e repita o processo até que esteja satisfeito com os resultados. Se você estiver usando a versão atualizada do Wave Net vocalize er, você pode pular usando o Google traduzir tudo e usar o recurso de tradução embutido diretamente dentro da própria ferramenta. Para fazer isso, basta carregar ou colar a versão de texto em inglês sem marcas de marcação adicionais na caixa de texto colar. Clique no botão Traduzir e, em seguida, clique no botão Criar. Verifique a geração do seu pedido após o processamento. LaTasha era um Este. Faça isso. Não leia Alemao. O livre sobre estes poção natural Pateta música especial vai se sentir tímido. Eu apropriado. Eu não me mexo. Não se esvazie sobre nós só mova um Comandante Woofy apenas um animal sem fins lucrativos. A empresa. O script social Localizador não tem um recurso de tradução integrado, mas você pode criar arquivos de áudio a partir de texto traduzido usando a tag de idioma com uma voz nativa , conforme explicado nos tutoriais de marcação de texto para fala. Para fazer isso, faça login em sua área de administração vocalizada de script. Clique em adicionar novo dê um nome ao seu arquivo. Selecione o idioma do arquivo de texto traduzido. Escolha uma voz desse conjunto de idiomas. Em seguida, clique no botão Escolher arquivo e localize. Selecione um upload de seu arquivo de texto traduzido com as tags de fala adicionadas. Clique no botão Criar depois que o arquivo de texto tiver sido processado. Verifique se ele foi convertido em áudio. Toshiba é um Este. Faça isso no rádio e melodicamente nesses Não é sua ajuda. vídeo da Oceanografia Música. Se Shania se apropriasse apenas de mais. Don t criou um menino anos de idade filmes. Kalmadi vai se sentir apenas conhecido pobreza. Animar a empresa. Há uma falsificação. Baixe o arquivo de áudio para o seu disco rígido. Parabéns. Você acabou de aprender como traduzir texto para outros idiomas e como converter texto traduzido em narrações de voz. Obrigado, George, George, por mostrar aos nossos ouvintes como criar arquivos de áudio a partir de arquivos de texto marcados e traduzidos . Isso nos leva ao fim desta lição. Espero que você tenha achado esta informação útil e obrigado por ouvir. 20. 19 - Dicas de texto a falar: - fazer novos amigos, mas manter o velho é prata Thea outro é ouro. Fazer novos amigos círculos rato Mas manter o velho não tem fim Um é prata, esse é o tempo que o outro vai durar. Serei seu amigo. Eu circulo sua rodada, faço novos amigos Não tem campo final Isso é quanto tempo Silver eu serei seu amigo O outro é chamado Fazer Novos Amigos Círculo é redondo Mantenha o velho não tem fim Thea Outras escolas serão suas amigas. Um círculo está em torno de fazer novos amigos Não tem fim. O que você faz? Isso é quanto tempo? Uma sílaba serei seus amigos. Você faz novos amigos Círculo é a chave. Sinto que não tem. É assim que eu vou ser seu amigo Círculo sua rodada Fazer novos amigos não tem fim Isso é quanto tempo o círculo está em torno de fazer novos amigos Não tem fim mas manter o velho é prata Thea outro é ouro Fazer novos amigos Um círculo é rato Mas manter o velho que não tem fim Um é prata Isso é quanto tempo o outro é ouro Olá e bem-vindo de volta nesta lição nós fornecemos dicas sobre como marcar arquivos de texto para voz, dicas para criar narrações de voz e sincronizar esses dois elenco de tela ou vídeo desktop gravações e vídeo sobre dubs dicas de solução de problemas sobre o que fazer se você tiver problemas ou erros e alguns pensamentos finais sobre onde ir e o que fazer depois de concluir este curso, vamos começar com algumas dicas básicas. Certifique-se de dominar os conceitos básicos de usar texto em fala antes de começar. É importante gerenciar suas expectativas e saber o que você pode ou não fazer ao usar vozes sintéticas. tecnologia atual de texto em fala é ótima, mas não é perfeita. A tecnologia, no entanto, só melhorará ao longo do tempo, então espere que as coisas continuem a ficar mais inteligentes e melhores. Também é importante compreender processos como marcação de texto e conversão de texto áudio, portanto, certifique-se de rever todos os vídeos e documentação do curso antes de começar. Certifique-se de que você tem acesso a todas as ferramentas que você precisa e que você sabe como usar essas ferramentas. Todas as ferramentas mostradas neste curso são bastante fáceis de usar e não requerem habilidades técnicas ou conhecimentos. Revise nossas ferramentas de texto em fala, lição Se você precisar de ajuda ou mais informações, lembre-se de marcar seu texto usando apenas arquivos de texto sem formatação. Não use formatação em seu texto como pedras em itálico, pois isso criará erros durante o processo de conversão de áudio, recomendamos fazer uma cópia do seu arquivo de texto original e trabalhar na cópia para coisas como marcações. Isso preserva seu texto original para itens como apresentações de slides, conteúdo da Web e uma variedade de outros usos. Além disso, lembre-se de salvar arquivos de texto no formato UTF oito. Se o seu conteúdo usa símbolos fonéticos, se você precisar de ajuda, consulte o tutorial de marcação sobre pronúncia de texto. George vai agora levá-lo através de um vídeo passo a passo. Percorra com dicas sobre como marcar seus arquivos de texto. Obrigado, Kate. Deixe-me compartilhar com você uma maneira rápida e prática de marcar seus arquivos de texto. Aqui está o arquivo de texto original. Como você pode ver, não há tags de marcação neste texto. A primeira dica é não funcionar no arquivo de texto original. Em vez disso, faça uma cópia na qual você trabalhará ao marcar seu texto. Desta forma, você preserva o arquivo de texto simples original sem Marcar tags no caso de precisar usá-lo para outra coisa, como copiar e colar frases em lados da apresentação, bloquear postagens, Web páginas, etc, e você terá uma versão marcada do texto que você pode continuar reutilizando e reeditando se necessário. Então vamos criar um novo arquivo de texto para a versão marcada do nosso texto. Vamos salvar este arquivo em um momento. Na seção de dicas do usuário avançado deste tutorial, recomendamos a criação de uma folha de fraude de texto simples ou um arquivo deslizado contendo tags S SML e trechos de texto e tags que você pode facilmente copiar e colar em novos arquivos de texto para fala . Como você pode ver aqui, você pode continuar adicionando itens e trechos e manter este arquivo de deslizamento à mão. Sempre que você estiver trabalhando em um novo projeto de texto em fala, você pode até salvar frases marcadas Hole que ele usou repetidamente, como narrações para apresentação de slides, intros ou declarações finais. A primeira coisa a adicionar ao seu novo arquivo de texto em branco das tags de abertura e fechamento de fala. Você pode digitá-los ou simplesmente copiar e colar estes do seu arquivo de deslizar. Em seguida, selecione todo o conteúdo do arquivo de conteúdo e, em seguida, copie e cole isso no arquivo de marcação entre as tags de fala abertas e fechadas. A próxima coisa que eu recomendo fazer é se livrar de quaisquer espaços entre linhas isso faz ou marcado arquivo de texto apertado, compacto e mais fácil de detectar quaisquer erros ou erros gritantes. Em seguida, descobrimos que adicionar parágrafos e pausas ao texto ajuda a criar uma geração de voz mais natural . Então vamos adicionar parágrafos e quebras a cada linha Ao usar parágrafos. Lembre-se de que precisamos abrir e fechar tags de parágrafo. Uma maneira rápida de fazer isso é passar pelo texto e adicionar as tags de parágrafo de abertura primeiro , em seguida, certifique-se de que seu arquivo de texto é definido uma palavra wrapping adul as tags de fechamento no final. Nós já criamos tags de parágrafo de fechamento com quebras de um segundo, então vamos apenas copiar essas tags de nosso arquivo deslizado e Adam para o final de cada linha de texto em nosso arquivo de marcação. Lembre-se de continuar salvando seu arquivo de texto em intervalos regulares. Como eu disse, também gostamos de adicionar pausas no final de cada linha, e descobrimos que uma pausa de um segundo entre parágrafos tende a abrandar um pouco a narração e criar uma pausa de som agradável e natural entre as frases. Falando de pausas e pausas, também descobrimos que adicionar pausas de cerca de 200 milissegundos entre vários itens separados com comércio e pausas de cerca de 500 milissegundos entre frases em parágrafos ajuda a melhorar o efeito sonoro natural da voz. Narração. Experimente pausas e intervalos de várias durações para encontrar o que funciona melhor para você e o projeto em que você está trabalhando, mas esse é geralmente o próximo passo que nós gostamos de fazer. Além disso, medida que você passa de marcar texto para converter seu arquivo de texto em áudio, você descobrirá que algumas partes do discurso precisam de pausas mais longas e outras não precisarão de nada . Então continue experimentando, ajustando e afinando até que sua gravação de voz soa tão natural quanto você pode torná-lo. Depois de adicionar quebras e pausas em quaisquer outras tags de marcação ou necessidades de texto. Todos eles foram abordados nos tutoriais de marcação S M L, portanto, consulte essas lições nos materiais do curso que o acompanham. Se você precisar de ajuda ou informações adicionais, continue até que seu arquivo de texto esteja pronto e já vá para o próximo passo, que é converter seu texto em fala mais uma vez. Você não precisa se preocupar muito com sua marca nesta fase, pois você pode continuar voltando a este arquivo e fazendo ajustes e melhorias. Se houver erros de ortografia ou erros gritantes, você poderá selecioná-los ao testar suas conversões de texto em fala. Normalmente, maioria dos erros ocorrem ao esquecer de adicionar tags de fechamento ou gravar tags incorretamente, como aspas ausentes, símbolos etc. Lembre-se de continuar salvando ou arquivando enquanto você ir e manter o foco. O Aziz. Você trabalha. Faça pequenas pausas com frequência se precisar, pois esta etapa do processo requer atenção aos detalhes. Depois de repetir este processo algumas vezes, você começará a desenvolver uma sensação instintiva para marcar texto com pausas, pausas, pausas, prasad, elementos de QI e vários outros recursos para criar narrações de áudio que soam como natural e humano Likas possível. Então este é o processo para marcar arquivos de texto. Lembre-se de preservar seu arquivo de conteúdo original criando e marcando uma cópia do conteúdo. Desta forma, pode continuar a reutilizar o conteúdo original e continuar a trabalhar na edição e melhoria da marcação ou do texto sem perder o conteúdo original da sua fala. Obrigado, George. Agora que abordamos algumas dicas básicas, vamos dar uma olhada em dicas de energia que podem melhorar seu fluxo de trabalho de texto em fala e ajudá-lo a obter melhores resultados. Como George mencionou no vídeo, recomendamos a criação de um arquivo de deslizamento ou uma folha de truques para armazenar tags SML e trechos de texto comumente usados . Dessa forma, você pode cortar e colar tags de marcação e outros trechos de forma rápida e fácil, como texto marcado para entradas de slides e finais em seu texto. Para ajudar você a economizar tempo, invista tempo na marcação do texto. Tente fazer sua narração soar o mais próximo da vida. Likas. Você também pode investir tempo para fazer suas narrações corretamente desta maneira. Seu narrador de voz fará um ótimo trabalho todas as vezes, se familiarizar com todas as diferentes vozes e personalidades de voz e aprender a combinar a voz certa com o trabalho. Google e Amazon Polly oferecem uma variedade de vozes em diferentes idiomas e dialeto. Use os áudios gravados para melhorar suas habilidades de escrita de cópia, crie mensagens de vendas mais eficazes e escreva scripts mais poderosos. Nós direcionamos o seu texto e usamos o mesmo texto em diferentes aplicações. Converta suas narrações em diferentes idiomas e muito mais. Se você estiver trabalhando em um grande pedaço de texto, divida-o em segmentos menores. Antes de convertê-los em áudio, audiófilos poderiam ser facilmente unidos para criar faixas de áudio de comprimento total. A última dica de energia que quero compartilhar com vocês é usar música de fundo para ajudar a tirar a borda artificial de suas narrações. Música e imagens podem criar um efeito poderoso com narrações de voz bem marcadas. Em alguns casos, pode ser difícil dizer se a narração está sendo falada por uma voz humana ou sintética . Mais uma vez, vou pedir ao George que demonstre como a música, vídeo e as narrações de voz sintéticas podem funcionar em conjunto. Olá, sou George. Sou uma voz gerada artificialmente. Narrador. Alguém como eu pode economizar tempo e dinheiro das empresas em áreas como marketing de vídeo, que todos sabem é uma das maneiras mais poderosas e eficazes de promover produtos e serviços on-line. Alcance novos públicos globalmente, estabeleça sua marca educar e informe ou clientes potenciais sobre seu negócio em equipe treinada, clientes e clientes. Alguns grandes usos para um I narrações de voz incluem vídeos de vendas. Explique os vídeos, vídeos de treinamento, anúncios em vídeo, apresentações em vídeo, podcasts, livros falados, páginas da Web para usuários com deficiência visual e tantos outros usos. Uma vez que você sabe como converter texto em fala, você pode criar vídeos com durações de áudio como esta de forma rápida e fácil usando ferramentas muito baratas. Obrigado por assistir este vídeo e ter um dia maravilhoso feito. Quero mostrar-lhe agora como criar faixas de áudio que irá sincronizar bem com naturalmente tempo de gravação de vídeo de transmissão de tela. Isso é útil se você planeja gravar vídeos sobre o ombro da área de trabalho, como tutoriais de tela e assim por diante. Primeiro, crie uma faixa de áudio guia áspera para o seu vídeo usando uma voz humana, que você substituirá mais tarde por uma narração de voz sintética bem pensada. Para fazer isso, grave uma faixa de áudio áspera com uma voz humana para criar uma sensação natural de tempo para sua gravação de tela e para estabelecer marcadores de conteúdo e guias gerais para as ações e idéias que você deseja expressar em seu vídeo. Se você usar uma ferramenta de edição de vídeo como Cam Tasia que pode separar faixas de vídeo e áudio durante o processo de edição. Então não se preocupe em gravar uma faixa de áudio de baixa qualidade com muitas bombas e Oz. Tosse, espirros, sniffles, cães, tráfego latindo, sons no fundo. Erros, etc. Como você não vai usar esta faixa em sua edição final, basta focar em gravar a ação em sua tela. Depois de gravar o guia em bruto, transcreva a faixa de áudio e melhore sua narração de texto. Escreva cada frase em uma linha separada com pausas entre frases. O próximo passo é converter seu texto em fala. Esta etapa é abordada em um módulo de treinamento anterior. Em seguida, adicione editar e corresponder o arquivo de áudio de narração de voz sintética à gravação de vídeo da tela. Depois de sincronizar a narração de voz sintética com seu vídeo, desligue ou exclua a faixa de voz humana para criar um vídeo acabado entregue com uma sensação natural de tempo e som ineficaz, preciso e profissional Narração de voz. Aqui está uma demonstração rápida de vídeo para que você possa ver como isso se parece. Então aqui temos nosso arquivo de texto marcado, e como você pode ver, nós já adicionamos a abertura nas tags Speak de fechamento, e também temos um número de outras tags de marcação SML já inseridas no texto Agora porque Estamos usando nomes de telefone. Como você pode ver aqui, usaremos a Amazon. Vamos precisar usar uma voz Amazon Polly em vez do Google porque nas vozes Amazon Polly agora pode interpretar alfabetos fonéticos, hum, hum, nomes de telefone. Então este é o nosso Esta é a queda de texto que estaremos carregando para converter em áudio. Então vamos agora para o nosso texto em processos de fala e converter este fogo este arquivo de texto em um arquivo de áudio. Então aqui temos nosso arquivo de texto marcado. Como você pode ver, adicionamos as tags de fala aberta e próxima e inserimos tags de marcação S SML adicionais. Como esse arquivo de texto usa nomes de telefone, precisaremos converter esse texto em um arquivo de áudio usando o mecanismo de texto em fala do Amazon Polly , pois somente o Amazon Polly interpreta simultaneamente os objetivos de telefone e as tags de marcação frenéticas. Então este é o arquivo de texto que vamos carregar para a nossa ferramenta de processamento de texto para fala e converter em um arquivo de áudio. Ao criar narrações de voz para vídeos de apresentação de slides, você pode inserir marcadores de alteração de slide na narração com pausas em ambos os lados Para permitir que o slide faça a transição. Você pode criar um marcador de mudança de slides usando palavras faladas como dizer, alterar, deslizar ou usar sons como marcadores podem ser excluídos da faixa de áudio no processo de edição de vídeo , outra coisa que você pode facilmente fazer com vozes sintéticas para corrigir seções de seu áudio com novas narrações de texto. Para fazer isso, crie um novo arquivo de texto usando a linha ou seção do texto que precisa ser corrigido. Execute o arquivo de texto marcado através do processador de texto para fala, Salve-o como um novo arquivo de áudio e substitua a seção de sua faixa de áudio com a nova em sua edição final. Vamos falar agora sobre a solução de problemas com que tipos de erros e desafios você pode esperar lidar ao processar arquivos de texto em fala e o que fazer para resolver ou corrigir quaisquer problemas e problemas que surjam primeiro. E se não conseguir iniciar sessão na ferramenta de processamento de texto para voz? Se isso acontecer, verifique se você inseriu os detalhes de login corretos e, se isso não resolver o problema, entre em contato com o desenvolvedor do software. Abra um ticket no help desk ou entre em contato com a equipe de suporte. Um dos problemas mais comuns. Você provavelmente encontrará nossas mensagens de erro ao processar texto em arquivos de fala. Se isso acontecer, verifique se há marcas SML ausentes ou extras como tags incorretas de abertura ou fechamento. Da mesma forma, verifique as tags de abertura e fechamento para elementos ausentes, como abrir ou fechar colchetes. As citações de Coghlan, etc. Com a maioria dos problemas, verifique se há erros de marcação no texto. Depois de corrigi-los, salvamos re upload e executar novamente o seu arquivo através do processador TTS. Além disso, verifique se você realmente carregou um arquivo de texto um descuido comum para abrir a ferramenta TTS , selecionar um idioma e voz e, em seguida, executar o processador sem ter carregado um arquivo de texto . Outra coisa que você pode verificar é que você não excedeu nenhum limite, como ter muitos caracteres ou links de áudio em seu arquivo de texto. Finalmente, se você tiver problemas depois de executar o processador de texto para fala, tente dividir arquivos de texto grandes em segmentos menores. Em seguida, converta-os em arquivos de áudio e verifique o áudio resultante para ver se você pode isolar quaisquer erros ou seções de texto que possam estar causando problemas no fechamento. Depois de concluir este curso, certifique-se de baixar as ferramentas TTS e o recurso é arquivo pdf e documentação da folha de truques . Familiarize-se com as ferramentas que não podem ser acessadas e como usá-las. Comece a aplicar suas novas habilidades Se você tiver um site, crie narrações para seus vídeos de vendas. Vídeos de treinamento, páginas da Web faladas para visitantes. Inicie um podcast normal. Transforme boletins informativos em conteúdo de áudio para seus assinantes, etc. Desafie-se. Inicie um novo projeto baseado em áudio ou recrie um trabalho existente usando narrações de voz sintéticas . Você também pode iniciar uma empresa que oferece serviços profissionais de texto para voz aos clientes. Se você decidiu fazer este curso para melhorar suas habilidades, expandir seu negócio, alcançar um público mais amplo ou por qualquer outro motivo. Espero que você tenha gostado de aprender a usar texto em fala para criar narrações de voz sonoras profissionais . Espero também que este curso tenha mostrado que o que você pode fazer usando texto em fala só é limitado pela sua imaginação. Imaginação. Uma última coisa. Por favor, mantenha-se em contato conosco visitando o link mostrado aqui e inscreva-se para receber atualizações do curso, dicas úteis e informações e notícias sobre os últimos desenvolvimentos de texto para fala. Isso nos leva ao final deste curso. Espero que o conhecimento que você ganhou nestas lições irá abrir muitas oportunidades e maravilhosos novos horizontes para você em nome de mim e de toda a equipe ai Narrador você Aqui vamos Sentir o amor se preparando para o corpo, mas passar para o ritmo sentir o amor 21. 20 - Recursos de texto a fala: Olá, sou eu de novo. Aqui no recurso é a seção. Você encontrará muitas informações úteis, incluindo arquivos para download com links para todas as ferramentas. E o recurso é que abordamos neste curso ferramentas adicionais de economia de tempo e recurso é transcrições de áudio com tags de marcação para que você possa aprender como criamos parte do conteúdo nas folhas de fraude de marcação SML para Google e Amazon Polly referências com links para toda a pesquisa feita para criar este curso e informações adicionais que você pode achar útil. Lembre-se de visitar o link abaixo e se inscreveu para ficar em contato e receber atualizações do curso , dicas e informações úteis e notícias sobre os últimos desenvolvimentos de texto em fala. Mais uma vez, Muito obrigado pela sua empresa e por fazer parte desta emocionante jornada. Desejo-lhe grande sucesso