Curso de principiantes de Text-To-Speech crea narraciones de voz realistas con voz de texto a voz y voces AI | Martin Aranovitch | Skillshare

Velocidad de reproducción


1.0x


  • 0.5x
  • 0.75x
  • 1x (Normal)
  • 1.25x
  • 1.5x
  • 1.75x
  • 2x

Curso de principiantes de Text-To-Speech crea narraciones de voz realistas con voz de texto a voz y voces AI

teacher avatar Martin Aranovitch, Digital Business Training & Education

Ve esta clase y miles más

Obtenga acceso ilimitado a todas las clases
Clases enseñadas por líderes de la industria y profesionales activos
Los temas incluyen ilustración, diseño, fotografía y más

Ve esta clase y miles más

Obtenga acceso ilimitado a todas las clases
Clases enseñadas por líderes de la industria y profesionales activos
Los temas incluyen ilustración, diseño, fotografía y más

Lecciones en esta clase

    • 1.

      Demo del curso de Text-To-Speech

      4:16

    • 2.

      01 - Resumen de texto a voz

      4:59

    • 3.

      02 - Beneficios de Text-To-Speech

      10:41

    • 4.

      03 - Introducción de texto a voz

      15:55

    • 5.

      04 - Proceso de marcado de texto a voz

      8:02

    • 6.

      05 - Herramientas de texto a voz

      16:28

    • 7.

      06 - Tutoriales de marcado de texto a voz

      3:14

    • 8.

      07 - Etiqueta de habla de texto a voz

      1:59

    • 9.

      08 - Etiqueta de ruptura de texto a voz

      8:02

    • 10.

      09 - Etiqueta de párrafos de texto a voz

      8:37

    • 11.

      10 - Etiqueta de palabras a palabras

      35:41

    • 12.

      11 - Etiqueta de énfasis de texto a voz

      3:56

    • 13.

      12 - Etiquetas de prótesis de texto a voz

      12:34

    • 14.

      13 - Etiqueta de duración de texto a voz MaxDuration

      7:27

    • 15.

      14 - Etiquetas de pronunciación de texto a voz

      12:27

    • 16.

      15 - Text-To-Speech Añadir audios

      13:16

    • 17.

      16 - Text-To-Speech VoiceFX

      20:49

    • 18.

      17 - Etiqueta de texto a voz

      10:06

    • 19.

      18 - Texto a hablar: unirlo todos

      17:31

    • 20.

      19 - Consejos de texto a voz

      22:58

    • 21.

      20 - Recursos de texto a voz

      1:16

  • --
  • Nivel principiante
  • Nivel intermedio
  • Nivel avanzado
  • Todos los niveles

Generado por la comunidad

El nivel se determina según la opinión de la mayoría de los estudiantes que han dejado reseñas en esta clase. La recomendación del profesor o de la profesora se muestra hasta que se recopilen al menos 5 reseñas de estudiantes.

439

Estudiantes

--

Proyectos

Acerca de esta clase

Este curso innovador es presentado y narrado enteramente por instructores de voz de IA. En este curso práctico de video paso a paso, aprenderás a usar el texto a voz y las últimas tecnologías de voz de IA para crear narraciones de voz profesionales y realistas de archivos de texto para una amplia gama de usos comerciales y aplicaciones comerciales.

El curso está diseñado específicamente para usuarios no técnicos. No se requieren ni necesitan habilidades de programación ni programación.

En este curso completo de video de 4 horas y 20 partes, aprenderás:

  • Una breve historia y una introducción básica a los usos y beneficios de usar el texto a habla.
  • Dónde encontrar herramientas gratuitas o económicas para crear narraciones de voz profesionales a partir de archivos de texto.
  • Cómo usar etiquetas de marcado de texto a voz para crear narraciones de voz realistas similares a los humanos.

El curso incluye tutoriales de video detallados y prácticos paso a paso que usan interesantes y entretenidos ejemplos de aplicaciones de texto a voz, y notas y materiales que se pueden descargar.

Al finalizar el curso, tendrás todas las habilidades, conocimientos y competencias necesarias para crear narraciones de voz profesionales y archivos de audio de texto a voz para una variedad de negocios, marketing y usos comerciales, incluyendo:

  • Vídeos educativos, de ventas y de capacitación
  • Presentaciones y documentación narradas
  • Cursos de e-Learning
  • Audiolibros y productos digitales basados en audio
  • Podcasts
  • Páginas web habladas
  • En línea/redes sociales / publicidad por radio
  • Anuncios grabados
  • Otros formatos de contenido y medios

Conoce a tu profesor(a)

Teacher Profile Image

Martin Aranovitch

Digital Business Training & Education

Profesor(a)

I have over 14 years of experience teaching businesses and non-technical users how to grow and manage an effective digital presence using smart and cost-effective technologies. My step-by-step video courses provide practical easy-to-follow information that will save you time and money and help you avoid time-consuming and expensive learning curves.

Ver perfil completo

Level: Beginner

Valoración de la clase

¿Se cumplieron las expectativas?
    ¡Superadas!
  • 0%
  • 0%
  • Un poco
  • 0%
  • No realmente
  • 0%

¿Por qué unirse a Skillshare?

Mira las galardonadas Skillshare Originals

Cada clase tiene lecciones cortas y proyectos prácticos

Tu membresía apoya a los profesores de Skillshare

Aprende desde cualquier lugar

Ve clases sobre la marcha con la aplicación de Skillshare. Progresa en línea o descarga las clases para verlas en el avión, el metro o donde sea que aprendas mejor.

Transcripciones

1. Demostración de curso de texto con la discurso: Hola. Mi nombre es Kate, y soy un narrador de voz basado en inteligencia artificial. En este breve video, quiero mostrarte algunas de las cosas que aprenderás a hacer en nuestro curso de texto a voz para principiantes utilizando herramientas económicas de texto a voz y narradores de voz sintéticos como yo. Entonces, siéntate, escucha, y disfruta. Hola. Se trata de un anuncio registrado. El tren de la línea azul que llega a la plataforma número uno partirá a las 8:06 y parará en las siguientes estaciones de Estados Unidos: Dead Horse, Alaska Nothing, Arizona Nowhere, Colorado Greasy Corner, Arkansas Fluffy Aterrizaje , Florida Infierno Para Cierto, Kentucky Buttzville, Nueva Jersey Tú dices o Tú dices Y yo digo ono dices ni o tampoco ni tampoco Vamos a apagar todo el asunto. Estimados oyentes, este es mi primer intento de hacer comedia de stand up. Por favor sé amable. Planeo entretenerte con unos chistes fabulosos esta noche. ¿ Estás listo? De acuerdo, aquí vamos. Estuve por todas partes, hombre estuve por todas partes, hombre Cruzó los desiertos hombre desnudo respiré el hombre aire de montaña De viaje tenía mi cuota hombre estuve por todas partes estuve en Louisville, Nashville, Knoxville, Ombabika Schefferville, Jacksonville, Waterville, Costa Rica, Pittsfield, Springfield, Bakersfield, Shreveport, Hackensack, Cadillac, Fond du Lac, Davenport, Idaho, Jellico, Argentina... Fox en Calcetines por Dr Seuss Fox, Calcetines, Box, Knox Knox en Caja, Fox en calcetines Knox en zorro en calcetines en caja Calcetines en Knox y Knox en caja Fox en calcetines en caja en Knox Pollitos con ladrillos Pollitos con bloques vienen Pollitos con ladrillos y bloques y relojes vienen Mira, señor, mira, señor. Señor Knox, señor... Hacer nuevos amigos... Pero guarden el viejo Uno es de plata... El otro es oro. Hacer nuevos amigos (un círculo es redondo), Pero mantener lo viejo (no tiene fin) Uno es plata (así es cuanto tiempo) El otro es oro (yo seré tu amigo) Un círculo es redondo (hacer nuevos amigos) No tiene fin ( pero quédate con lo viejo) Eso es cuanto tiempo (uno es de plata) seré tu amigo (el otro es de oro) Hola y bienvenidos a otro episodio del podcast de meditación AI donde solo decimos lo que otros están pensando... Antes de que empecemos... Respira hondo... y relájate. ¿ Mirarías todas esas cosas... Tienen llaves allen comederos gerbil asientos de inodoro, calentadores eléctricos compactadores de basura jugo extractor de jugo, varillas de ducha y medidores de agua walkie talkies alambres de cobre gafas de seguridad llantas radiales BB pellets mazos de goma ventiladores y deshumidificadores cuadro perchas cortadores de papel planchas gofres persianas de ventana removedores de pintura lamas de ventana cinta de enmascaramiento y canaletas de plástico grifos de cocina mesas plegables clima pelando jumper cables ganchos y lechada y spackle, empañadores de potencia, cucharas y cucharones, pesticidas para fumigación lubricación de alto rendimiento techado metal impermeabilización aislamiento multiusos... ¡ Felicidades! Hoy es tu día Te vas a grandes lugares Estás fuera y lejos. Tienes cerebro en la cabeza Tienes pies en tus zapatos Puedes dirigirte cualquier dirección que elijas Estás por tu cuenta y sabes lo que sabes Y tú eres el tipo que decidirá dónde ir. 2. 01: descripción de texto a discurso: Hola y bienvenidos a “Cómo crear archivos de audio de texto a voz” un curso práctico paso a paso para principiantes. Mi nombre es Kate, y soy un narrador de voz basado en la inteligencia artificial. Seré tu instructor principal a lo largo de las clases, junto con otros narradores sintéticos del habla como George, Mia, y Navin, cuyas voces figurarán en muchos de nuestros tutoriales, demos, y ejemplos. George, Mia, Navin, por favor preséntense. ¡ Hola! Soy George, y espero poder ayudarte a aprender a crear archivos de audio de sonido realista usando tecnologías de texto a voz igual que la que me creó. Y yo soy Mia de abajo. Como puedes ver, soy un narrador de voz de AI de sonido australiano y te estaré asistiendo en las lecciones, junto con mi compañero Navin. Navin, ¿estás ahí? ¿ Quieres saludar rápido a los oyentes? Gracias, Mia y bienvenidos queridos oyentes, soy Navin y también soy un narrador de voz creado usando la misma tecnología de inteligencia artificial que estarás aprendiendo a usar en este emocionante curso. Como puedes ver, crear archivos de audio de texto a voz no solo es muy divertido. pero también tiene muchas aplicaciones prácticas, sobre todo para negocios que quieren ahorrar tiempo y dinero con sus campañas de marketing digital , y promociones. Algunas de las cosas que puedes hacer usando texto a voz incluyen la creación de narraciones de audio y voz para videos de ventas, videos explicadores, cartas de ventas de video, videos de capacitación, anuncios de video para redes sociales, presentaciones, anuncios, podcasts, audiolibros, páginas web habladas para usuarios con discapacidad visual, y tantos otros usos y aplicaciones. Kate, no olvides decirle a nuestros oyentes que podemos convertir fácilmente archivos de texto y narraciones de voz de audio en muchos idiomas diferentes. Gracias, George. Yo lo haré. Una vez que aprendas a crear un archivo de texto a voz, puedes convertir rápida y fácilmente tus archivos de texto y narraciones de audio a decenas de idiomas diferentes. Kate, cuéntale a los oyentes algunas de las otras cosas emocionantes que les estaremos enseñando en este curso. Seguro... “Cómo crear archivos de audio de texto a voz” “Un curso práctico, paso a paso para principiantes” está diseñado para enseñarte a usar texto a voz y las últimas tecnologías de voz de IA para crear archivos de texto que luego se pueden convertir fácilmente en narraciones de voz similares a audio. Este curso fue creado específicamente para usuarios no técnicos, por lo que no es necesario aprender a codificar o programar software para aplicar las lecciones y obtener resultados. El curso abarcará una breve historia de síntesis del habla, una introducción básica al lenguaje de marcado SSML y tutoriales prácticos paso a paso sobre cómo crear archivos de texto a voz. Aprenderás dónde encontrar tecnologías y herramientas baratas y gratuitas que puedes utilizar para crear narraciones de voz profesionales a partir de archivos de texto, y te mostraremos cómo usar estas herramientas. También aprenderás a usar etiquetas de marcado de texto a voz básicas para insertar cosas como pausas, énfasis, y varias otras inflexiones en tu texto mientras te guiamos paso a paso por el proceso de creación de archivos de texto que luego pueden ser fácilmente convertido en narraciones de voz y archivos de audio para una amplia gama de aplicaciones como videos, instrucciones, presentaciones, anuncios grabados, y muchos otros usos. uso de texto a voz en aplicaciones web y de software ofrece muchos beneficios a empresas, empresas y organizaciones, sobre todo cuando se trata de cosas como ahorrar tiempo y dinero, comunicar su marca y mensaje a través de diversos plataformas de marketing digital y social, y ayudar a las empresas a llegar a una audiencia global más amplia por sus productos y servicios. En los próximos años, vamos a ver una explosión de aplicaciones de texto a voz y una creciente demanda nivel mundial de personas con habilidades básicas de texto a voz, como saber marcar y editar texto para su conversión a audio. Entonces... si buscas una oportunidad para adelantarte a la curva y ganar dinero con esta tendencia global emergente, o pensar en iniciar un negocio para sacar provecho de una creciente demanda de servicios de texto a voz , ahora es el mejor momento para aprender las habilidades básicas que este curso te enseñará. Entonces esa es una visión general de lo que cubrirá este curso. Una vez más, bienvenidos y empecemos. 3. 02: Beneficios de texto a discurso: Hola. Se trata de un anuncio registrado. Tren de Línea Azul que llega a la plataforma número uno partirá en el 806 y parará las siguientes estaciones de EU Caballo muerto. Alaska Nada. Arizona En ninguna parte. Colorado Risi Corner Huérfanos Todos Landing Lord Ayuda para el tiempo de servicio. Butterball Nueva Jersey Burger Town, Carolina del Norte. No Homestead, Ohio. Trabajo abajo en Texas y Disco, Wisconsin. El tren de la Línea Roja Escribiendo en mi teléfono Número dos partirá en 1913 y parará las siguientes estaciones australianas. Pollo Victoria, ya sabes. No, se equivocan. Wrong Nueva Gales del Sur Fresco en Australia Occidental. Manama Tom Victoria Buggy Queensland Sí, don historia querida. Bueno, la Nueva Gales del Sur. Whoa, Queensland y en ningún otro lugar de Tasmania. Por favor, quédate detrás de la línea amarilla y espera a que el tren llegue a una parada completa antes de embarcar. Hola y bienvenidos de nuevo antes de saltar a las clases del curso. Quiero hablar de por qué saber usar texto a discurso como una habilidad valiosa y cubrir los principales beneficios de usar texto a discurso para empresas y organizaciones, creadores de contenido y editores de contenido y diferentes tipos de usuarios finales. Texto a discurso es clave para el nuevo auge de la tecnología digital es un sector de crecimiento enorme. El mercado de texto a discurso se valoró en 1.300 millones de dólares en 2016 y se espera que llegue a los 3.3 mil millones para 2022. Las áreas clave del mercado incluyen electrón de consumo, ICS, educación, atención de la salud, transporte, finanzas al por menor, empresa y otras áreas. Este crecimiento traerá muchas oportunidades nuevas y emocionantes para muchos tipos diferentes de usos y diferentes tipos de usuarios. Texto a discurso Crea una Internet más Accesible para todos del 15 al 20% de la población mundial tiene alguna forma de discapacidad de aprendizaje basada en el lenguaje. 14% de los adultos en la U. S son analfabetos y muchos sólo tienen habilidades básicas de lectura. Adicionalmente, 244 millones de personas nacen en el extranjero en todo el mundo. Texto a voz ayuda a que la Web sea más inclusiva al convertirla en un lugar donde los usuarios puedan acceder, consumir y digerir información en formato de audio. Texto a discurso también puede ayudar a hacer la vida más fácil y hacer que el trabajo sea más eficiente y productivo. Texto a discurso puede ser utilizado para potenciar y entregar información en sitios web gubernamentales, corporativos y empresariales, aplicaciones móviles de General Blog, e libros, e cursos de aprendizaje, materiales de capacitación Documentación empresarial RRHH en políticas legales, transporte y anuncios públicos, sistemas y automatización diseñados para mejorar la experiencia del cliente y la comunicación. Ventas y marketing de medios, robótica, dispositivos embebidos, aplicaciones de autoservicio, Internet de las cosas y formas en las que ni siquiera hemos pensado todavía. Texto a discurso también será más necesario en la era digital a medida que los gobiernos y empresas buscan formas de aumentar el compromiso ciudadano en línea y fortalecer la responsabilidad social corporativa asegurando que la información esté disponible tanto en forma escrita como en formato audio texto a beneficios del habla, negocios y organizaciones. De muchas maneras mejora la calidad del recorrido del cliente al permitir que las empresas y organizaciones mejoren la experiencia del cliente y respondan a las diferentes necesidades, deseos y deseos del cliente en cuanto a cómo interactúan con el contenido. Texto a voz minimiza la carga de trabajo humana y reduce los costos operativos. TTS transmiten usado para proporcionar a los empleados y capacitación de clientes posventa. Educar al personal sobre RRHH y políticas legales. Servicios personalizados de manejo de clientes etcétera Texto a voz mejora branding nuevas T ts Tecnologías permiten a los negocios crear y utilizar una voz sintética reconocible para representar su marca en diferentes áreas del negocio y el tacto del cliente puntos. Texto a voz puede aumentar su presencia en la Web. Casi 800 millones de personas en todo el mundo tienen problemas de alfabetización, y 300 millones de personas tienen deficiencias visuales. contenido web mejorado por voz no interfiere con la usabilidad para usuarios sin discapacidades. También ayuda a todas las poblaciones, como usuarios mayores y hablantes extranjeros o no nativos. Texto a discurso puede ayudar a las empresas a llegar a nuevos mercados a nivel mundial. T ts Las voces están disponibles en decenas de idiomas y ojos de consenso. Discurso a partir de traducciones escritas. Texto a discurso también ayuda a las empresas a ahorrar tiempo y dinero. El contenido en línea se puede convertir rápida y fácilmente en habla sin contratar talento de voz humana y lenguaje. Traductores y texto a voz permite una implementación más fácil con el Internet de las cosas al dar a los dispositivos conectados una forma más fácil de usar de comunicarse con los consumidores. Texto a discurso también beneficia a los creadores de contenido y a los editores de contenido, a los creadores de contenido y a los editores pueden ahorrar tiempo y dinero consiguiendo que los narradores de voz TTS enuncien tus cursos. Narrador aéreo. Podcasts o audiolibros como una solución económica y de ahorro de tiempo en comparación con contratar talento de voz y te permite crear cursos e y productos de audio más rápido con menos tiempo y menos costo. Si necesitas talento de voz humana. Texto a voz permite crear borradores y scripts de audio terminados para narradores profesionales . Texto a voz también te permite crear mejor contenido si estás planeando crear un podcast de audiolibro. El producto de aprendizaje para Curso de capacitación escuchar un borrador de audio ayuda a mejorar contenido, la estructura y el diseño, corregir errores ortográficos o gramaticales y generar nuevas ideas. Texto a discurso también te ayuda a escribir contenido más efectivo. Escuchar el contenido de tu lanzador de ventas leído en voz alta te ayuda a enfocarte mejor en tu mensaje. Mejora bien tus habilidades de redacción y escritura de copias. Ventas y capacitación más eficaces scripts de video y presentaciones, contenido web, anuncios de radio y muchas otras formas de contenido. Por último, texto a discurso Ayuda a los creadores de contenido y editores a crear y entregar contenido a un público global facilitando la creación de contenido de audio multilingüe y productos de audio a partir de traducciones de idiomas. Texto a voz también brinda muchos beneficios a diferentes audiencias y usuarios. Texto a discurso ayuda a todos los estudiantes, incluidos los estudiantes con discapacidades de aprendizaje. Se utilizó texto a discurso para crear contenido de audio para lectores en dificultades. Alumnos con dislexia y estudiantes con bajos estudios de alfabetización demuestran que texto a habla mejora la comprensión lectora, ortografía, ortografía, detección de errores y comprensión de significados de palabras los usuarios con discapacidad visual y de lectura pueden se benefician en gran medida al tener contenido que se puede leer en voz alta y aprender contenido que se hace más accesible. Los usuarios de lenguas extranjeras también pueden beneficiarse del texto al habla ya que el contenido traducido convertido en habla facilita la comprensión y retención para un mayor porcentaje de la población en línea , cuya lengua materna es diferente a el idioma de un sitio web o aplicación móvil en particular . Los usuarios mayores también pueden beneficiarse en gran medida del texto al discurso. A medida que una creciente población de adultos mayores está cada vez más dependiente de la tecnología para el acceso a información y servicios entre 2015 y 2030 el número de personas de 60 años o más crecerá en 56%, pasando de 901 millones a 1.400 millones. Tan sólo en Estados Unidos, 59% de las personas mayores utilizaban Internet. El contenido móvil habilitado para voz diaria hace que Internet sea más accesible y crea una experiencia de usuario más fácil, especialmente para los usuarios móviles que acceden a contenido principalmente en dispositivos móviles. Leer contenido en una pantalla pequeña puede ser difícil e inconveniente. Es mucho más fácil que el contenido se lea en voz alta, especialmente para los usuarios en movimiento. Otro grupo de usuarios que pueden beneficiarse con el texto para hablar a nuestros usuarios con diferentes estilos de aprendizaje. Las personas tienen diferentes modalidades de aprendizaje. Hacer que el contenido digital en Internet, accesible en múltiples formatos crea un usuario más fácil La experiencia en texto de resumen a discurso brinda muchos beneficios a las empresas y organizaciones, creadores de contenido y editores de contenido y diferentes tipos de usuarios finales. A medida que el texto a discurso se vuelve más ampliamente utilizado en todos los aspectos de la vida, también traerá muchas oportunidades nuevas y emocionantes. T. La tecnologíaT. T s es económica y fácil de usar. Hace que la web sea accesible para todos los usuarios ayuda a crear mejor contenido, más rápido ahorra tiempo y dinero y tantos beneficios más. Esto nos lleva al final de este módulo. Consulte la documentación que acompaña en esta sección para obtener más información y gracias por escuchar. 4. 03: introducción de texto a la discurso: la forma en que la serie 9000 es la computadora más confiable jamás hecha. Ponte todo infalible e incapaz de ello. Abre las puertas de la bahía de pod. Lo siento, Dave. Me temo que no puedo hacer eso. Ese es el problema. Creo que sabes cuál es el problema, Justus. Bien a un lado. - Hola y bienvenidos a cómo crear archivos de audio de texto a voz. Un curso práctico paso a paso para principiantes. En esta lección, exploramos los antecedentes de la síntesis del habla con una breve historia de tecnologías de texto a voz , texto popular a motores del habla y términos básicos de texto a discurso utilizados en la creación de voces artificiales . Permitir que los humanos interactúen con las computadoras y conversen con las máquinas ha sido un sueño de larga data de visionarios de ciencia, escritores de ciencia ficción y, más recientemente, animadores de cine y software y juego virtuales desarrolladores. La humanidad, sin embargo, ha soñado con crear el habla artificial durante muchos siglos. rastrear la idea de que el otoño a thons podría conversar con los humanos. A Sfar Bacca's 1000. D. Donde, según la leyenda, Papa Sylvester, el segundo tomo robado de conocimiento secreto, una cabeza parlante que podría contestar cualquier pregunta de sí o no, se hizo mucho antes de que el invención del procesamiento electrónico de señales, gente ha tratado de construir máquinas que emulen el habla humana. Los primeros intentos de crear el habla humana artificialmente o, como ahora lo llamamos síntesis del habla incluye la construcción de modelos mecánicos del tracto vocal humano para producir sonidos vocales. Máquinas de voz mecánicas acústicas operadas por fuelles y dispositivos de voz electrónicos como sintetizadores de voz operados por teclado o olores populares y máquinas que convierten los patrones acústicos del habla en sonido. A mediados de los años setenta uno de los primeros sistemas de síntesis de voz, desarrolló uno de los primeros sistemas de síntesis de voz, consistente en un hardware de computadora independiente en un software especializado que podía leer e incluso cantar en italiano. En los 19 años ochenta, Bell Labs desarrolló uno de los primeros sistemas independientes del lenguaje multilingüe, haciendo un amplio uso de los métodos de procesamiento del lenguaje natural. Alrededor del mismo tiempo, Digital Equipment Corporation desarrolló una tecnología de habla, sintetizador y texto a voz llamada Deck Talk. Escucha una muestra de discurso generada por la charla de deck, utilizando las voces de Perfect Paul y Up a Gear Select. Ahora mismo estás escuchando mi perfecta voz de Paul. No obstante, también tengo otros presets. Esto, por ejemplo, en mi aquí arriba. Entonces, qué más sentados como se puede ver, primeros sintetizadores de habla Elektronik sonaban robóticos y a menudo eran apenas inteligibles. Suerte para un yo narradores como yo. síntesis del habla o el proceso de creación del habla humana artificialmente ha recorrido un largo camino desde aquellos primeros días en que los dispositivos de habla mecánicos intentaron emular el tracto vocal humano y simuladores electrónicos de habla y sintetizadores de habla crearon voz como sonidos usando circuitos eléctricos. La verdadera revolución en la tecnología del habla surgió cuando las computadoras digitales comenzaron a permitir la simulación de circuitos electrónicos. El conversión de señales analógicas a forma digital y la creación de señales analógicas a partir de información digital para producir sonido en forma de voz. Los avances en tecnología informática y la introducción de computadoras de escritorio eventualmente trajeron la síntesis de voz asequible y el reconocimiento de voz al alcance del usuario promedio de computadoras. Muchos sistemas operativos informáticos han incluido sintetizadores de voz desde principios de la década de los noventa, ya que estas tecnologías se volvieron más baratas y accesibles. Esto nos lleva a donde estamos ahora. La calidad del habla sintetizada está mejorando constantemente, y cada vez es más difícil distinguir entre el habla generado artificialmente y el habla humana, sobre todo a medida que las nuevas tecnologías de IA y aprendizaje automático texto a software de voz y voz aplicaciones, el Internet de las cosas, productos Elektronik y la industria del juego siguen empujando la tecnología de voz a nuevos límites . ¿ Has oído hablar de esta nueva tecnología? ¿ Hablas de este nuevo algoritmo para copiar voces? Sí, es desarrollado por una startup sabor completo. Esto es enorme. Nos puede hacer decir lo que sea ahora. ¿ En serio? Cualquier cosa. La buena noticia es que ofrecerán la tecnología tendiendo. Esto es enorme. ¿ Cómo funciona esta tecnología? Oigan chicos, Oigan chicos, creo que solían aprender y redes neuronales artificiales. Hillary tiene razón, y te puedo decir que su equipo es tarifas que le deseo mucho. Seguro que harán un buen trabajo. Entonces las voces artificiales se volverán indistinguibles de las voces humanas reales. A lo mejor algún día lo harán. Los sistemas de síntesis del habla y las máquinas parlantes ya no son una divertida novedad diseñada para suscitar una risa barata. Tetas texto a sistemas de voz capaces de generar IA. Voces como la mía se están integrando ahora en todas las áreas de la vida humana, incluyendo el aprendizaje, docencia, la venta de productos y servicios, la entrega de noticias, información y entretenimiento, leyendo recetas mientras cocinas e incluso realizas tareas y actividades en tu hogar y en tu oficina. Ahora que hemos mirado la historia de la síntesis del habla, echemos un vistazo a algunas tecnologías y sistemas TTS actuales que se están utilizando para crear habla humana artificial. Dado que este curso está dirigido a usuarios no técnicos, estas próximas diapositivas sólo presentan una visión general de las tecnologías de texto a voz para ayudar a poner las cosas en contexto. Al finalizar este curso, encontrarás una lista integral de referencias, sitios y recurso adicional es donde podrás conocer más sobre áreas técnicas relacionadas con las tecnologías de texto a voz o TTS. Una computadora de habla. puede implementar un sintetizador de voz en productos de software o hardware. Los sistemas de texto a voz convierten texto de lenguaje normal en voz. Si bien otros sistemas hacen representaciones lingüísticas simbólicas como las transcripciones fonéticas en el habla, las cualidades más importantes de un sistema de síntesis del habla son el nous y la inteligibilidad naturales . Natural Miss describe lo cerca que suena la voz generada sintética como el habla humana mientras que la inteligibilidad como la facilidad con la que se puede entender. El sintetizador de voz ideal tiene como objetivo generar formas sintéticas de onda del habla. Ese sonido es natural e inteligible como sea posible. Es importante tener en cuenta que todas las tecnologías del habla tienen fortalezas y debilidades. Por ejemplo, una de las principales tecnologías utilizadas para generar discursos llamados inventar síntesis de habla nativa con síntesis nativa inventada. Una base de datos muy grande de fragmentos de voz cortos llamados unidades se graban desde un solo altavoz y se recombinan para formar enunciados completos. En otras palabras, este método cadena segmentos de discurso grabado juntos. Si bien esto produce un habla sintetizada de sonido natural, es difícil modificar la voz. Por ejemplo, no se puede cambiar a un orador diferente ni alterar el énfasis o la emoción de su discurso sin registrar una base de datos completamente nueva. Déjame reproducir Usted un archivo de audio generado a partir del texto usando la síntesis de habla nativa elaborada. The Blue Lagoon es una película estadounidense de romance y aventura dirigida por Randall Kleiser, otro tipo de tecnología utilizada para generar discursos llamados Síntesis Paramétrica del habla, Síntesis Paramétrica tiene como objetivo crear un modelo máquina de la voz humana utilizando las propiedades acústicas del tracto vocal humano, y genera datos de audio analizando los valores de diversos parámetros del habla y luego alimentándolos a través de algoritmos de procesamiento de señales conocidos como olores voke. Tocamos este modelo antes al discutir la historia de la síntesis del habla. Aquí tienes un archivo de audio generado a partir del texto usando Síntesis paramétrica del habla. The Blue Lagoon es una película estadounidense de romance y aventura dirigida por Randall Kleiser. Como se puede escuchar, estas voces generadas sintéticamente no son malas. Si bien existen otros modelos de generación de voz utilizados para sintetizar onda de voz Net como la tecnología de voz de sonido más natural disponible actualmente. Y como uno de los principales modelos que estaremos utilizando a lo largo de este curso a medida que aprendemos a construir guiones para narraciones de voz. El modelo Wave Net como la misma tecnología utilizada para crear voz para aplicaciones como Google Assistant, Google Search y Google Translate La tecnología Wave Net proporciona más que una serie de voz sintética es que representa una nueva forma de crear el habla sintética. Wave Net genera voz que suena más natural que otros textos a sistemas de voz. Es sintetiza el habla con más humanos como el énfasis y la inflexión en sílabas, nombres telefónicos y palabras. Los estudios muestran que la mayoría de las personas prefieren el habla generada por red de onda, el audio sobre otros textos a las tecnologías del habla. A diferencia de la mayoría de los demás sistemas de texto a voz, un modelo de red de ondas crea formas de onda de audio sin procesar desde cero, utilizando una red neuronal que ha sido entrenada utilizando un gran volumen de muestras de voz. Aquí te dejamos algunas muestras de audio generado usando la síntesis de voz de red de onda. The Blue Lagoon es una película estadounidense de romance y aventura de 1980 dirigida por Randall Kleiser. Déjame tocar nuevamente los tres audiófilos de muestra para que puedas escuchar las diferencias entre inventar un Paramétrico nativo y síntesis de red de ondas. The Blue Lagoon es una película estadounidense de romance y aventura de 1980 Dirigida por Randall Kleiser. The Blue Lagoon es una película estadounidense de romance y aventura de 1980 Dirigida por Randall Kleiser. The Blue Lagoon es una película estadounidense de romance y aventura de 1980 dirigida por Randall Kleiser. Mi voz se ha generado a partir de un archivo de texto usando onda Net síntesis Wave. Net, sin embargo, no sólo sintetiza voces así como arroja un discurso sonoro más natural. uso de formas de onda crudas significa que la red de ondas puede modelar cualquier tipo de audio, incluida la música. Por ejemplo, aquí hay una muestra de música creada a partir de la entrada aleatoria de datos musicales en un algoritmo wavelet. ¿ No suena eso a música a tus oídos? Como se puede escuchar, wave Net abre muchas posibilidades Para sistemas de texto a voz. Echemos un breve vistazo Ahora a algunos de los motores de texto a voz más populares. motores de texto a voz permiten a los usuarios de aplicaciones como herramientas de correo electrónico , lectores Web, audiolibros y otros programas de software convertir texto escrito en sonido. Diferentes motores TTS proporcionan acceso a diferentes voces, idiomas y dialecto. Por ejemplo, Microsoft tiene un motor T. T s llamado Speak, que es una característica incorporada de programas como Word, Outlook y Power Point. Se puede hablar para tener texto escrito en sus documentos de palabra, correos electrónicos y presentaciones de diapositivas leídas en voz alta. Escuche una muestra de una voz de motor de voz de Microsoft leyendo una frase escrita en un documento de palabra . Mi corona está en mi corazón, no en mi cabeza, no adornada con diamantes y piedras indias. Tampoco, para ser visto. A mi corona se le llama contenido una corona. Es que rara vez los reyes disfrutaron. Esta cita es de la obra Rey Enrique el Sexto de William Shakespeare. Hola, soy Kendra de Amazon Polly. Observe que existe una diferencia entre decir contenido y contenido. Así es como diría la cita de Shakespeare. Mi corona está en mi corazón, no en mi cabeza, no adornada con diamantes y piedras indias. Tampoco para ser visto, mi corona se llama contenido corona. Es que rara vez los reyes disfrutan. Esta cita es de la obra Rey Enrique, la sexta, de William Shakespeare. El segundo ejemplo de audio que acabas de escuchar fue creado con Amazon Polly, que es un servicio de texto a voz que utiliza tecnologías avanzadas de deep learning para sintetizar el habla en decenas de voces reales en múltiples idiomas. Amazon Polly utiliza la misma tecnología de inteligencia artificial utilizada para alimentar al asistente de voz digital de Amazon Alexa. Escucharemos más de Amazon Polly en lecciones posteriores el último motor de TTS que quiero cubrir en esta lección como el motor de texto de Google Cloud a voz, que convierte texto en habla humana. Utilizando más de 100 voces en más de 20 idiomas y variantes, motor TTS de Google utiliza la síntesis de voz de red de onda y poderosas redes neuronales para entregar el audio de alta Fidelity utilizado en aplicaciones como Google Assistant, Google Traducir y Google Reader. El último área que quiero cubrir en esta lección son algunos de los términos de texto básico a discurso a los que nos referiremos a lo largo de este curso. Ya debes estar familiarizado, con términos como TT o texto a discurso, síntesis de habla y diferentes modelos para generar habla artificial o sintética como incoct nativo Parametric Wave net en términos como redes neuronales, aprendizaje automático y voces ai. En otras lecciones, aprenderás sobre s SML, que usaremos para marcar archivos de texto para conversiones audiófilos Prasit E, que te permite cambiar atributos de tu discurso como el volumen, tono y velocidad de tu nombres de texto y teléfonos y pronunciaciones fonéticas que permiten que palabras similares con diferentes significados se pronuncien correctamente en tus archivos de audio. Esto nos lleva al final de esta lección. Espero que hayan disfrutado tanto de esta lección como he disfrutado presentársela y gracias por escucharla. 5. 04: proceso de marcado de texto a discurso: Hola y bienvenidos de nuevo En esta lección, aprenderás a preparar texto para archivos de audio. Los temas que se tratan en esta lección incluyen lo que es s SML una visión general de s etiquetas de marcado SML y los principales formatos de archivo de audio que usaremos en el proceso de texto a discurso Antes de entrar en esta lección, vamos a divertirnos esta lección, un poco. Te voy a reproducir un video y quiero ver si puedes decir si el audio de este video fue grabado por un ser realmente humano o una voz de AI. Narrador Oh, los lugares a los que irá el Dr. Seuss. Enhorabuena. hoy es tu día. Te vas a grandes lugares. Te vas de alguna manera. Tienes cerebro en la cabeza, tienes pies en los zapatos. Puedes dirigirte en cualquier dirección que elijas. Estás por tu cuenta. Y ya sabes lo que sabes, y tú eres el tipo que decidirá a dónde ir. De acuerdo, Eso fue sólo una carrera de práctica. Veamos si puedes decir si este siguiente audio fue grabado por un ser realmente humano o una voz de AI. Narrador Oh, los lugares a los que irá el Dr. Seuss. Enhorabuena. Hoy es tu día te vas a grandes lugares. Estás fuera y lejos. Tienes cerebro en la cabeza. Tienes pies en tus zapatos. Puedes dirigirte en cualquier dirección que elijas. Estás por tu cuenta. Y sabes lo que sabes Y tú eres el tipo que decidirá a dónde ir. No está mal, ¿eh? Esta voz sólo tardó unos 20 años en perfeccionar a un ser humano. De acuerdo, última prueba. ¿ Es esta narración de voz, riel o un yo? Ah, los lugares a los que irá el Dr. Seuss. Enhorabuena. hoy es tu día. Te vas a grandes lugares. A menudo estás lejos. Tienes cerebro en la cabeza, tienes pies en los zapatos. Puedes dirigirte en cualquier dirección. Eliges la tuya por tu cuenta y sabes lo que sabes y eres el tipo que decidirá a dónde ir. El último archivo de audio que escuchaste fue grabado usando una voz artificial sintética con texto marcado para intentar que la narración sonara lo más cerca posible de una lectura natural. Escucha nuevamente la introducción de esta lectura con la voz rial y la voz sintética narrando el título al mismo tiempo. Ah, los lugares a los que irás el Dr. Seuss Como puedes oír, aún no estamos del todo ahí, pero nos estamos acercando. No sólo es cada vez mejor la tecnología para generar voz realista, sino que también está mejorando la forma en que podemos expresar voces usando etiquetas de marcado. Por ahora, empecemos echando un vistazo al lenguaje utilizado para marcar texto a archivos de voz. S S S M L significa lenguaje de marcado de síntesis de voz y consiste en etiquetas escritas que le dicen texto a los motores de voz cómo codificar texto para crear matices y agregar expresión a una voz sintética. S S S M L Como parte de un lenguaje llamado XML, XML significa lenguaje de marcado extensible y permite a los desarrolladores describir y organizar información de formas que los humanos y las computadoras pueden entender fácilmente. Si bien muchas empresas aire desarrollando nuevas aplicaciones de texto a voz para sus plataformas, no todos los motores de texto a voz, conciertos, mismas s etiquetas SML o hacen uso de todas las etiquetas SS ML que actualmente están disponibles. Algunas plataformas también desarrollan etiquetas SML personalizadas para su uso en sus propias aplicaciones, que pueden no funcionar en otros motores de texto a voz. Por ejemplo, medida que se está grabando esta lección, motor de texto a voz de Google no admite el uso de etiquetas s SML que permiten agregar variaciones fonéticas, palabras del dedo del pie en respiraciones para hablar o usar interjecciones en oraciones . Pero Amazon Polly sí. Exploraremos algunas de estas diferencias y qué herramientas usar para diferentes motores TTS más adelante en nuestros tutoriales. Entonces, ¿qué puedes hacer con las etiquetas s SML? Agregar etiquetas s SML a tus archivos de texto te permite hacer cosas como saltos de anuncios y pausas a tus narraciones. Agrega énfasis a tus palabras y oraciones. Expulsan las palabras y los números telefónicos dicen los números de manera diferente, dependiendo de si estás hablando de fechas, horas , unidades, fracciones o explicando la diferencia entre ser el número dos y venir segundo, agrega párrafos y oraciones a tus narraciones. Censura palabras en tu narración. Al igual que las palabras controlan Prait e atributos en tus narraciones para afinar elementos como el tono, el volumen y el tempo de las palabras habladas. Agrega variaciones fonéticas. Dos palabras. Sustituir abreviaturas para hablar su formato expandido como Organización Mundial de la Salud en lugar de W. H. O. R. Quién incrusta otros archivos de audio en tu voz. Narraciones como agregar sonidos o insertar instrucciones avanzadas como reproducir múltiples archivos multimedia de forma simultánea o secuencial. los principales formatos de archivo de audio que utilizaremos para convertir nuestro texto en narraciones de audio en este curso son wave y los archivos MP tres usando ya sea wave o MP tres funcionarán bien para grabar narraciones de voz. Los archivos Wave proporcionan una mejor calidad de sonido para grabar o distribuir música ya que el formato de onda puede cubrir la frecuencia completa que el oído humano es capaz de escuchar. Se comprime un archivo MP tres y tiene pérdida de calidad, mientras que un archivo wave es sin pérdidas y UN comprimido. MP tres nunca sonará mejor que wave ya que es un formato con pérdida. Los archivos MP tres, sin embargo, son de menor tamaño que los archivos wave, y por lo tanto son mucho más fáciles de distribuir. A pesar de que los archivos de onda se airan normalmente mucho más grandes en tamaño que los de MP treses, el almacenamiento en estos días ya no es un problema tan grande. Por lo que una vez más, usar cualquiera de estos formatos funcionará muy bien para las narraciones de voz. Tenga en cuenta que no estaremos cubriendo aspectos técnicos del audio digital como las tasas de muestreo , las profundidades de bits, etcétera en nuestras lecciones, ya que estos aire no son necesarios para convertir texto en archivos de audio para la mayoría comercial , exploraremos, sin embargo, sin embargo, algunas herramientas que puedes utilizar para convertir archivos de audio en diferentes formatos y algunos de los ajustes que estas herramientas proporcionan para mejorar la calidad de sonido de tus grabaciones de audio. Esto nos lleva al final de esta lección. Una vez más. Gracias por escuchar, y los veré de la siguiente manera lectiva. 6. 05: herramientas de texto a discurso: Hola y bienvenidos de nuevo. En esta lección, buscamos un texto a herramientas de voz. Los temas que se tratan en esta lección incluyen el proceso de texto a voz y las herramientas utilizadas para convertir texto en archivos de audio. Herramientas de ahorro de tiempo para agregar objetivos telefónicos a tu archivo SS ML. Convirtiendo archivos de audio a diferentes formatos, traduciendo contenido a diferentes idiomas, capturando audio y más. También veremos herramientas de texto a voz gratuitas y pagadas para crear archivos de audio a los que se puede acceder desde laptops, computadoras de escritorio, dispositivos móviles y la nube, y herramientas y recursos adicionales es que te recomendamos utilizando para ahorrar tiempo y dinero. Empecemos por desglosar el proceso de texto a voz para convertir tu script basado en texto en un archivo de audio. Este proceso comienza con tu contenido basado en texto. Este contenido puede ser en forma de narración, guión, artículo, copia de ventas, copia de ventas, instrucciones de capacitación, un libro, etcétera. Después de que tu contenido haya sido escrito, el siguiente paso es seleccionar tu motor de texto a voz como se mencionó en una lección anterior, necesitas elegir tu motor de texto a voz antes de marcar tu texto. Porque es posible que diferentes plataformas de texto a voz no admitan o permitan usar un lío. Etiquetas de marcado SML. Por ejemplo. Si tu contenido utiliza palabras que requieren una pronunciación fonética diferente, entonces probablemente querrás marcar tu texto para Amazon Polly en lugar de Google hasta que el motor de texto a voz de Google permita utilizar etiquetas fonéticas en S S S M l. Para mantener las cosas realmente simples, los únicos motores t ts que estaremos utilizando a lo largo de este curso son Google text to speech y Amazon Polly. Por lo que todo lo que necesitas hacer para completar este paso es elegir qué motor usarás para procesar tu contenido escrito. Después de seleccionar su motor T ts. El siguiente paso es entonces marcar tu archivo de texto con etiquetas S SML que el motor soportará . Este paso se cubre en detalle en los tutoriales de marcado. En nuestra siguiente lección, después de marcar tu archivo de texto con s etiquetas SML, el siguiente paso es ejecutar tu contenido a través de tu herramienta t ts. Buscaremos unas herramientas T. T s en tan solo unos momentos. Esencialmente, la herramienta debería permitirle seleccionar su idioma o dialecto. Elige una voz masculina o femenina, importa tu archivo de texto SS ml y luego convierte tu texto en un archivo de audio. Después de crear tu narración de audio, entonces deberías poder descargar o exportar tu audiófilo, que luego podrás usar para cualquier aplicación que te guste, como una narración en video, página Web, podcast, audiolibro, etcétera. Echemos un vistazo ahora en algún momento guardando texto a herramientas de voz. La primera herramienta que necesitas para crear un archivo de texto a voz como editor de texto plano. Si utilizas Windows, el editor de texto de bloc de notas gratuito incorporado, como una herramienta perfecta para el trabajo. Si tu computadora se ejecuta en IOS, una herramienta de editor de texto predeterminada como editor de texto es genial, también. Es importante recordar que todas tus marcas deben hacerse en un archivo de texto plano. uso de palabras y etiquetas de marcado solo no usan aplicaciones de procesamiento de textos con texto formateado , ya que esto no es compatible con motores de TI ts y dará lugar a errores. Otro punto importante a tener en cuenta es que si agrega símbolos fonéticos a su archivo de texto , necesitará guardar su archivo de texto utilizando la codificación utf ocho. Te mostraré cómo hacer esto en un tutorial posterior. La siguiente herramienta que recomendamos utilizar es una herramienta como el Diccionario Online MacMillan, ya que proporciona pronunciaciones de palabras y ortografías fonéticas que puedes copiar y pegar en tu archivo de texto. Permítanme mostrarles un ejemplo. Él puede Pekan otra gran herramienta en línea que puedes utilizar para nombres telefónicos y ortografía fonética, es el I. P. Un tipo de herramienta. Esta herramienta te permite construir una ortografía fonética de palabras usando un teclado en línea en alfabeto, que luego podrás copiar y pegar en tu archivo de texto. Aquí te presentamos un breve video demo que te muestra cómo funciona esta herramienta. La siguiente herramienta útil es Google. Traducir con Google Translate. Puedes pegar texto en tu idioma, traducido a otro idioma que no sea copiar y pegar la traducción en tu archivo de texto a voz. Aquí un breve video demo Carson Ananda Lindgren Un serpenteante castillo Nicotero es tan congruente. CIA. Kathy remitió Consejo Positivo. Ella me nombró Cell Koshien. Cualquier el Selkoe los fondos temblan. Por qué cada uno de manera asombrosa, alguna sesión de fotos la recesión. Yo soy es un zapato de dedo del pie del hígado. Esperanza Otra gran herramienta es una herramienta de conversión de formato de archivo. Hay muchas herramientas de conversión disponibles para elegir. Una que me gusta particularmente es online dash convert dot com, que te permite convertir fácilmente todo tipo de archivos y diferentes tipos de formatos de forma gratuita, incluyendo convertir archivos de audio MP tres en archivos wave y viceversa. Aquí te presentamos un breve video de esta interfaz de herramientas. Pasemos a las herramientas de conversión de texto a voz . Empezaremos con herramientas gratuitas que te permiten convertir texto en narraciones de audio. Tanto Google como Amazon proporcionan simuladores de texto a voz donde los desarrolladores impugnan scripts y descargan narraciones de audio, pero acceder a estos como un poco complicado y requieren configurar cuentas con la plataforma. En las notas adjuntas a esta lección se proporcionan más instrucciones y tutoriales sobre cómo acceder a estos simuladores T TS. Existen una serie de herramientas gratuitas de texto a voz a las que puedes acceder en línea que te permiten crear archivos de audio a partir de tu texto ingresado. Proporcionamos una lista de herramientas gratuitas de texto a voz en línea en las notas que acompañan a esta lección. La mayoría de las herramientas en línea gratuitas que probamos mientras juntamos este curso parecen ser bastante limitadas y no aceptaron etiquetas s SML markup. Ojalá, en el futuro, estas herramientas mejorarán aquí es un video demo de una herramienta TTS gratuita en línea que probamos mientras armamos este curso. Cómo forzar tu taza E house entrenar tu taza es sobre consistencia, pacientes y refuerzo positivo. El objetivo es inculcar buenos hábitos y construir un amoroso hecho con tu corte. Típicamente toma de 4 a 6 meses para que un cachorro esté totalmente entrenado en casa, pero algunos cachorros pueden tardar hasta usted año. Además de herramientas a las que puedes acceder a través de tu escritorio, computadora o laptop, también hay una serie de APS móviles de texto a voz a las que puedes acceder a través de tu teléfono. La mayoría de los teléfonos IOS y Android ahora vienen con funcionalidad incorporada de texto a voz. Todo lo que necesitas hacer es activado en tu teléfono. Puedes buscar texto a voz APS en tu teléfono solo yendo a tu tienda APP y escribiendo texto a voz. También proporcionamos enlaces a tutoriales como este sobre cómo activar el texto a voz de tu teléfono en las notas que acompañan a esta lección. Texto a voz permite que usted o su hijo tengan lectura de impuestos digitales en voz alta. Así es como se ve. Recuerda poner tus deberes en tu mochila Si planeas crear narraciones de audio profesionales usando voces de IA, recomendamos usar herramientas de texto a voz de pago ya que obtendrás acceso a un mejor soporte y actualizaciones regulares. Pasemos por un par de herramientas que te recomendamos usar para convertir tus archivos de texto en narraciones de audio. Existen dos herramientas de texto a voz basadas en la nube que utilizamos dependiendo de la plataforma TTS que requiera para su proyecto para narraciones de voz de Google Wave Net, utilizamos una herramienta llamada Wave Net vocalize er para voces de Amazon Polly. Utilizamos una herramienta llamada script vocalize ER. Ambas herramientas se utilizaron para crear las narraciones de voz para todo este curso, y ambas están desarrolladas por la misma empresa. Tanto wave net vocalize ER como script vocalize er permiten subir un archivo de texto marcado con S SML, convertir texto en audio, traducir el texto a diferentes idiomas y descargar grabaciones audiófilos de alta calidad para una gama de usos comerciales. Wave net vocalize er salidas archivos de audio como formato de onda y script vocalize er salidas audio como MP tres para obtener más información y enlaces a donde se puede acceder a ambas herramientas, herramientas, consulte las notas acompañantes para esta lección. Ya hemos cubierto las principales herramientas que necesitarás para crear archivos de texto a voz. El siguiente par de diapositivas proporcionan algunas herramientas adicionales, y el recurso es que quizás desee considerar usar, dependiendo de sus necesidades y de lo que planea usar. Texto a voz para una gran herramienta a utilizar si planeas escribir tu propio contenido para narraciones de audio ya que Graham early Graham escanea tu texto y te ayuda a corregir errores ortográficos. Mejora tu gramática en tu comunicación, y esto en última instancia te puede ayudar a crear y entregar un mensaje más poderoso y efectivo. Ya que no podemos pensar por nosotros mismos todavía, los narradores de voz ai como yo leerán lo que sea que escribas. Entonces si hay errores ortográficos en las palabras, leeremos como se presenta en su texto. Jim, ¿ podrías entrar aquí, por favor? Hola, Jim. Hola. Yo soy Harvey. Un gimnasio de computadora apesta, So Wow. Oh, eso es tan grosero. Lo siento. No puedo controlarlos. Sí, puedes. Ya sabes, trae a Pam por esto. Pam. Pam, Te ves muy caliente hoy. Dame, Harvey. Este es el amigo de Michael. Genial. Yo tan cachonda. Yo te quiero mucho tiempo, Tim. Ah, eso es asqueroso. Suzlon. ¡ Tim! ¡ Diablos! Mucho tiempo yo, lo chico mucho tiempo. Bueno, eres Deberías traer a Tim largo en un día. A mí me encantaría. Sí, sí. Arruinaste una broma graciosa. Te salgas de mi baja cinco. Está bien. Por Hardy, otro par de herramientas en las que quizá quieras considerar invertir, Especialmente si planeas iniciar un negocio ofreciendo servicios de texto a voz o crear videos con audio AI. Las narraciones son herramientas como engancharlo y no puede Asia. Estas herramientas no solo permiten capturar y editar videos en pantalla con narraciones de audio, sino que también pueden utilizar estas herramientas para extraer audios de videos publicados en otros sitios y exportar solo la banda sonora de estos videos grabados. Si planea ofrecer servicios de texto a voz y video profesionalmente o simplemente desea crear narraciones de video y audio para su propio negocio de marketing y promociones, le proporcionamos un listado de herramientas de creación de video en las notas acompañantes. Aquí, por ejemplo, es un video explicador rápido creado usando una herramienta de software de animación de video llamada Twombly que mi amigo George narró. Hola, soy George. Soy una voz generada artificialmente. Narrador Alguien como yo puede ahorrar tiempo y dinero a las empresas en áreas como el video marketing, que todo el mundo sabe es una de las formas más poderosas y efectivas de promover productos y servicios en línea. Llegar a nuevas audiencias a nivel mundial. Establece tu marca, educa e informa o prospectos sobre tu negocio y capacita a los clientes del personal y sube algunos grandes usos para una voz I. narraciones incluyen videos de ventas, explicar sus videos, videos de capacitación, anuncios de video, presentaciones de video, podcasts, libros hablados, páginas web para visualmente usuarios con discapacidad y tantos otros usos. Una vez que sepas convertir texto a voz, puedes crear videos con narraciones de audio como ésta de forma rápida y sencilla utilizando herramientas muy económicas. Gracias por ver este video y que tengan un día maravilloso. Por lo que en resumen, las herramientas que hemos cubierto en esta lección te ayudarán a ahorrar tiempo y dinero, creando archivos de texto a voz, el texto libre, conversión fonética y las herramientas de traducción que he mostrado te ayudarán ahorra tiempo creando tus archivos de texto. Te recomiendo elegir herramientas como wave net vocalize ER y script vocalize ER para convertir tus archivos de texto en audio de alta calidad es usar texto de Google a voz en voces de Amazon Polly. Y si planeas usar tus habilidades de texto para hablar en un entorno comercial, ya sea brindando servicios profesionales aire usando estos para potenciar tu propio negocio, entonces considera invertir en herramientas de video y audio para crear videos o grabar un extracto audio de otras fuentes. Esto nos lleva al final de esta lección. Una vez más. Gracias por escuchar, y los veré en la siguiente lección. 7. 06: tutorial de marcado de texto a la: Hola y bienvenidos de nuevo. Esta sección del curso incluye una serie de tutoriales que te mostrarán cómo marcar tus archivos de texto a voz. En esta lección se ofrece una visión general de los tutoriales que hemos incluido. A videos separados. Para una referencia más fácil, te mostraré cuál s SML. Las etiquetas de marcado se pueden utilizar con Google T TS y o Amazon Polly, y también te proporcionamos hojas de trucos S S M l. En los tutoriales que se proporcionan en esta sección, aprenderás a marcar tus archivos de texto a voz para hacer cosas como Ed pausa y rompe dos párrafos y oraciones en diferentes niveles de énfasis. Dos palabras controlan cómo se hablan tipos especiales de palabras, como números de teléfono, fechas, hora, unidades de medida, fracciones y números cardinales y orginales. También aprenderás a censurar palabras. Controlar proceso los elementos del habla como volumen de tono y velocidad de habla. Usa la pronunciación fonética con ciertas palabras, pronuncia acrónimos y abreviaturas e incrusta archivos de audio en tus scripts. También cubrimos etiquetas de marcado s SML adicionales que le permiten agregar aliento dos palabras hablan palabras suavemente o susurradas controlar la madera de las voces seleccionadas agregan compresión de rango dinámico y más. Para mantener las cosas simples, sólo nos centraremos en marcar archivos de texto a voz para Google text to speech y Amazon Polly motores, como se mencionó en una lección anterior. Es posible que los motores de texto a voz no admitan o permitan usar un lío. Etiquetas de marcado SML. Por lo que a medida que pasemos por los tutoriales, te haremos saber qué plataforma soporta las etiquetas que se están utilizando en los ejemplos. Cada tutorial seguirá un formato similar. El tag se enumerará en el encabezado de la diapositiva, seguido de un ejemplo de cómo utilizar la etiqueta de marcado SS ML y cómo el texto se sintetiza en voz después de ser procesado con un ejemplo de audio. Los símbolos en la esquina superior derecha de la diapositiva indicarán entonces si la etiqueta de marcado que se muestra funciona en el motor TTS de Google Amazon, Polly o ambos incluidos en las notas acompañantes. Para este módulo de capacitación, encontrarás hojas de trucos para Amazon Polly y el motor de texto a voz de Google. Esto nos lleva al final de esta lección. Por favor, complete los tutoriales de etiquetas de marcado SS ml en esta sección antes de proceder al siguiente módulo de capacitación. Gracias por escuchar y por ver este video 8. 07: etiqueta de discurso de texto a discurso: Hola y bienvenidos de nuevo. En este tutorial, aprenderás a usar la etiqueta de marcado speak s SML en tus archivos de texto a voz. El tag speak es el elemento raíz de todos s SML. El texto debe estar encerrado dentro de un par de etiquetas de hablar para ser convertido en discurso en una etiqueta de apertura para hablar al principio de su texto en una etiqueta de cierre para hablar al final de su archivo de texto. A continuación te mostramos un ejemplo de cómo usar la etiqueta speak en tu archivo de texto. Tenga en cuenta que todo el contenido que desea convertir en discurso está encerrado dentro de la apertura y cierre. Hablar etiquetas. Déjame reproducirte un ejemplo audio de cómo sonará este texto después de ser procesado por un motor de texto a voz que puede leer s palabras SML son singularmente la fuerza más poderosa disponible para la humanidad. Podemos optar por utilizar esta fuerza constructivamente con palabras de aliento o destructivamente usando palabras de desesperación. Las palabras tienen energía y poder con la capacidad de ayudar, sanar, de obstaculizar el dedo del pie duele, daño a humillar y demasiado humilde. Esto nos lleva al final de este tutorial. Consulte las notas acompañantes en este apartado para más información 9. 08: etiqueta de rotura de texto a discurso: Hola y bienvenidos de nuevo. En este tutorial, aprenderás a agregar pausas, palabras del dedo del pie, oraciones y párrafos en tu texto a los archivos de voz. Usando la etiqueta de break, veremos usar la etiqueta de break, y son atributos opcionales de tiempo y fuerza antes de explorar la etiqueta de break con más detalle . Vamos a refrescar nuestra memoria con la definición de Prait e Prasit. Se refiere a áreas del lenguaje como el ritmo de la melodía, estrés y la entonación del habla, y cómo estas características contribuyen al significado. Prasad IQ, por lo tanto se refiere a aspectos de Prait E, que vamos a cubrir en otro tutorial la etiqueta break como un elemento vacío, lo que significa que no produce sonido. Controla la pausa u otros límites del IQ prasad entre palabras. Tenga en cuenta que el uso de etiquetas de rotura es completamente opcional. Si este elemento no está presente entre palabras, la ruptura se determinará automáticamente en función de cómo el motor de texto a voz procesa el contexto lingüístico. En otras palabras, aunque no tengas etiquetas de rotura, un motor T. T s lo hará naturalmente en una pausa. Después de encontrar ciertas características gramaticales como la puntuación en tu texto, como puntos y comas, una etiqueta de salto, entonces te permite afinar el espaciado de pausas y saltos entre palabras, oraciones y párrafos. Si tuviste una etiqueta de ruptura después de una frase de palabra o párrafo, se insertará un descanso con una fuerza de IQ de Prasad mayor que si no se suministra ningún elemento de ruptura . Es decir, el motor de texto a voz determinará el contexto lingüístico de su texto e incrementará la pausa natural si detecta una etiqueta de ruptura en su contenido. Entonces, mientras que una oración sin etiquetas de ruptura tendrá pausas naturales, agregadas, agregadas etiquetas de break pueden extender esas pausas y crear una sensación más realista a tu narración. Como veremos en tan solo un momento. Escuchemos un ejemplo de un archivo de texto convertido en voz sin usar etiquetas de corte . Las palabras tienen energía y poder con la capacidad de ayudar, sanar, de entorpecer, dolor de dedo del pie, daño, humillar y demasiado humilde. Ahora escuchemos el mismo archivo de texto convertido en discurso con etiquetas de break. Palabras agregadas tienen energía y poder con la capacidad de ayudar, de sanar, de obstaculizar, de lastimar, lastimar, del dedo del pie, dañar, humillar y demasiado humilde. ¿ Pudiste escuchar la diferencia? Vamos a reproducir de nuevo los dos archivos de audio uno después. Las otras palabras tienen energía y poder con la capacidad de ayudar a sanar, a entorpecer, doler el dedo del pie, daño a humillar y palabras demasiado humildes tienen energía y poder con la capacidad de ayudar, sanar, de entorpecer, lastimar, dedo del pie , dañar, humillar y demasiado humilde. Como se mencionó anteriormente, la etiqueta de ruptura también te permite usar atributos opcionales como el tiempo y la fuerza. Usar una etiqueta de descanso con los atributos de tiempo te permite encontrar sintonizar tus narraciones estableciendo la duración de tu descanso o pausa usando segundos o milisegundos. Por ejemplo, tres segundos o 200 milisegundos. Escuchar un archivo de texto de ejemplo convertido en voz con etiquetas de salto basadas en tiempo agregadas. Pausemos la frase por 200 milisegundos a 500 milisegundos, luego un segundo, luego tres segundos, y finalmente, pausaremos durante cuatro horas. Solo estoy consiguiendo creo que ahora te das la idea de cómo funcionan las pausas y las rupturas en tus innovaciones de texto a discurso. Si utilizas Amazon Polly para convertir tus archivos de texto en voz, ten en cuenta que la cantidad de duración máxima que puedes especificar en la etiqueta de break como 10 segundos o 10,000 milisegundos. A continuación se muestra un ejemplo de un archivo de texto marcado usando la etiqueta de ruptura con diferentes atributos de tiempo . Escuchar la narración de habla sintetizada de este texto. Las palabras son singularmente la fuerza más poderosa de que dispone la humanidad. Podemos optar por utilizar esta fuerza constructivamente con palabras de aliento o destructivamente usando palabras de desesperación. Las palabras tienen energía y poder con la capacidad de ayudar, de sanar, de obstaculizar, de lastimar, lastimar, del dedo del pie, dañar, humillar y demasiado humilde. Usar una etiqueta de ruptura con la fuerza Atributos también te permite encontrar Afinar tus narraciones estableciendo la longitud de tus descansos o pausas usando valores relativos como la semana media extra fuerte, fuerte una semana extra una semana extra. Adicionalmente, puede usar el valor none para evitar una ruptura de IQ prasad o pausar que su procesador de texto a voz produciría e insertaría en su narración. Tenga en cuenta que si se utiliza Amazon Polly para convertir su texto en fuerza de voz, los valores de atributo air equivalente de Sina a pausar después de una frase de coma o párrafo especificando ninguno no crea pausa. Usa ninguno para eliminar. Una pausa que ocurre normalmente, como pausas insertadas después de un periodo que especifica una semana extra, tiene la misma fuerza que ninguna. Eso no tiene pausa especificando semana establece una pausa de la misma duración que la pausa después de un medio de coma tiene la misma fuerza que los conjuntos fuertes débiles, una pausa de la misma duración que la pausa creada después de una oración y especificando extra conjuntos fuertes, una pausa de la misma duración que la pausa creada después de un párrafo. Adicionalmente, si no utilizas atributos con la etiqueta de freno al procesar texto a voz con Amazon Polly, los resultados muy dependiendo de tu texto. Si no hay otra puntuación junto a la etiqueta de freno, crea una fuerza de rotura de valor medio, que es el equivalente a una pausa de longitud de coma. Si la etiqueta está junto a una coma, actualiza la etiqueta a una etiqueta de ruptura fuerte, que es el equivalente a una pausa de longitud de oración. Si la etiqueta está al lado de un punto, actualiza la etiqueta a una etiqueta de rotura extra fuerte o al equivalente de una pausa de longitud de párrafo . A continuación se muestra un ejemplo de un archivo de texto marcado usando la etiqueta de ruptura con diferentes atributos de fuerza . Escuchar la narración de habla sintetizada de este texto. Vamos a crear pausas en esta frase usando etiquetas de ruptura con la opción de fuerza. Empecemos con un descanso extra fuerte. Después un fuerte descanso seguido de un descanso medio un descanso de semana un descanso de semana extra y finalmente un descanso entre las vocales A e I oh, tú y no descanso en absoluto entre vocales A e i o u. como puedes ver, el break tag deja especifica duraciones exactas de pausa entre palabras, oraciones y párrafos y puede usarse para realzar el aspecto realista de sus narraciones de voz . Esto nos lleva al final de este tutorial. Espero que haya encontrado útil esta lección. Por favor, consulte las notas acompañantes en esta sección para obtener más información y gracias por escuchar. 10. 09: etiqueta de párrafo de texto a discurso: hola y bienvenidos de nuevo. En este tutorial, aprenderás a agregar pausas entre oraciones y párrafos usando etiquetas de marcado de párrafo y frase. En un tutorial anterior, explicamos cómo usar etiquetas de break para agregar pausas, palabras del dedo del pie, oraciones y párrafos que puedes ver en esta tabla. Es decir, um, break Elements realizan la misma función que usar una frase o etiqueta de párrafo. Por lo que además de usar etiquetas de break, puedes agregar una pausa entre párrafos en tu texto usando la etiqueta P. Esto equivale a especificar una pausa usando una etiqueta de break extra fuerte. El tag P proporciona una pausa más larga. Los hablantes nativos suelen colocar en comas o al final de una oración. Para utilizar etiquetas P, debe incluir el párrafo agregando una etiqueta de apertura al principio del párrafo y una etiqueta de cierre al final, como se muestra en el siguiente ejemplo. Este es el primer párrafo. Debe haber una pausa después de que se hable este texto. Este es el segundo párrafo. Aquí te mostramos un ejemplo de un archivo de texto convertido en voz usando etiquetas de salto de párrafo. Las palabras son singularmente la fuerza más poderosa de que dispone la humanidad. Podemos optar por utilizar esta fuerza constructivamente con palabras de aliento o destructivamente usando palabras de desesperación. Las palabras tienen energía y poder con la capacidad de ayudar a sanar, a entorpecer, daño del dedo del pie para humillar y demasiado humilde. Tenga en cuenta que las etiquetas P pueden incluir texto a renderizar en los elementos de SS ML que se muestran en esta lista. También puedes agregar pausas entre oraciones en tu texto usando la etiqueta S. Esto equivale a terminar una oración con un punto o especificar una pausa. Usando un fuerte break tag s tags aire útil para agregar pausas a versus y líneas de poesía . Como verás en tan solo un momento para usar s tags, debes encerrar la frase con etiquetas de apertura y cierre como se muestra en el siguiente ejemplo. María tenía un corderito cuyo vellón era blanco como la nieve. Y por todas partes que María iba el cordero estaba corto hace. Al igual que las etiquetas P, s tags pueden incluir texto a renderizar en los elementos de SS ML que se muestran en esta lista. Para concluir este tutorial, quiero jugarles una conocida historia infantil que ha sido marcada usando etiquetas de párrafo de ruptura y frase. Fox en calcetines por Dr Seuss Fox Calcetines Caja Knox Knox en Bucks Fox en calcetines. Golpes en Fox en calcetines, Calcetines Inbox en golpes y golpes en Bucks Fox en calcetines en caja en Knox. Pollitos con ladrillos vienen polluelos con bloques vienen polluelos con ladrillos y bloques y relojes. Ven a mirar. Mire, señor Knox, hagamos trucos con ladrillos y bloques, señor, hagamos trucos con polluelos y relojes. En primer lugar, voy a hacer una pila de ladrillos truco rápido. Entonces haré una pila de bloques de truco rápido. Puedes hacer una pila de polluelos truco rápido. Se puede hacer una pila de reloj truco rápido, y aquí hay un nuevo truco. Mr Knocks Calcetines en pollitos y pollitos en Fox Fox en relojes en ladrillos y bloques, Ladrillos y bloques en golpes en caja. Ahora venimos a garrapatas y charlas. Intente decir esto, señor Knox . Relojes en zorro reloj de garrapata en candado stock seis. Stick bric enfermo. 66 polluelos Hablar, por favor, señor. No me gusta este truco, señor. Mi lengua no es rápida ni chupada, señor. Me pongo Aunque palos y relojes mezclados con los polluelos y habla yo mismo, no puedo hacerlo. Señor Fox, lo siento mucho, señor Lock. Señor. Aquí te dejamos un juego fácil de jugar. Aquí hay una cosa fácil de decir. Nuevos calcetines a calcetines ¿Quién chupa? Calcetines Sue. ¿ Quién? SOS. ¿ De quién calcetines? Calcetines Suso Sue. Quién ve a quién. Entonces, ¿quién es calcetines nuevos? ¿ Señor? Ya ves, Suso demanda calcetines nuevos. Eso no es fácil, señor Fox, señor. ¿ Quién viene? El cuervo viene lento. Joe Crow viene ¿Quién? Sos Cuervos Ropa Sue SOS cuervos Ropa lenta Joe Cuervo SOS Cuyo ropa cose ropa Suso calcetines de zorro en calcetines Ahora lento Joe Crow SOS llama Inbox Ahora Sue SOS Rose on slow Joe Cuervos Ropa Fox SOS manguera en lento Joe Cuervos sabe manguera va rosa crece sabe manguera va, um cuervos Rose. Bruto. Um, señor Fox, odio este juego, señor. Este juego me hace bastante cojo la lengua, señor. Señor Knox, señor. Qué lástima, señor. Encontraremos algo nuevo que hacer. Ahora aquí hay un montón de nuevo goo azul ahora. Nuevo goo azul goo gooey, gooey azul goo, Nuevo goo, Louie! ¡ Louie! Louie creció para masticar. Eso es lo que está haciendo ese ganso. ¿ Eligen ir al señor? Si es así, usted dijo que solía masticar, señor, con el ganso. Demasiado triste, amigo. Señor. El señor Fox. Señor. No lo voy a hacer. No puedo decirlo. No lo voy a masticar muy bien, señor. Paso de esta manera. Encontraremos otro juego para jugarlo viene. Entonces viene sido. Trae Ben Escoba. Ben Trae sido escoba vigas de Ben Ben. Escoba estado de Ben, Habitación de Ben. Bim stands. Bolígrafos Benj. La escoba doblada de Ben se rompe en descansos de escoba gastados. La banda de Ben. La banda de Kim. Bandas grandes, bandas de cerdo, Human Ben lideran camionetas con escobas, Ben stand bangs y VIMs Band booms Pig band boom band band. Banda grande Broom Band. Mi boca llena. No puedo decir eso. No, señor. Mi pobre boca es demasiado lenta, señor. Bueno, entonces trae tu boca de esta manera. Yo lo encontraré. Algo que pueda decir. Luke, suerte le gustan los lagos, Luke atascado le gusta los lagos, Luke Le clics lagos Luke pegado clics lagos, pato toma Lagos Lixianos Luke, a suerte le gusta Luke. La suerte se lleva piernas en Lake Stuck me gusta No me puedo encantar tal blubber aleta. Mi lengua no está hecha de goma, señor Knox. Ahora, ven ahora. Ven ya. No tienes que ser tan tonto ahora. Intente decir esto, señor Knox, por favor. A través de tres árboles de queso, tres pulgas libres volaron mientras estas favor Brisa helada Gripe sopló brisa helada hizo thes tres árboles. Congelar congelar Los árboles hicieron thes árboles Queso ¡Congelar! Eso es lo que hizo estornudar a estos tres huida libre ¡Deténganlo! ¡ Deténganlo! ¡ Ya basta! Señor, no puedo decir cosas tan tontas, señor. Muy bien, entonces, señor Knox. Señor, Hablemos un poco de Tweedle Beatles ¿Qué sabes de Tweedle Beatles? Bueno, cuando Tweedle Beetles pelean, se llama tuit ¿Batallará escarabajo? Y cuando batallan en un charco, es un tuit ¿Batalla charco escarabajo? Y cuando Tweedle Beatles batallan con palas en un charco, lo llaman tuit. Will beetle paddle paddle battle Y cuando Beatles batallan escarabajos en una batalla de paddle charco en el charco de batalla Beetle es un charco en una botella. A esto lo llaman tuiteo o escarabajo Buttle, medalla de batalla de paddle charco. Y cuando los escarabajos luchan estas batallas en una botella con sus palas en las botellas sobre un caniche en los caniche comiendo fideos, llaman a esto un lodo. Puddle tweet Will caniche escarabajo de fideos botella paddle battle. Y ahora espere un minuto, señor Socks Fox. Cuando un zorro está en la botella, donde los Beatles de Tweedle batallan con sus palas en un charco en un nuevo caniche borrador, esto es lo que llaman un tuit Will Beetle fideos, botella de caniche acurado. Muddle se duplicó. Abrucado, waddled. Zorro en calcetines, señor. Zorro en calcetines. Nuestro juego está hecho, señor. Gracias por mucha diversión, señor. Esto nos lleva al final de este tutorial. Espero que haya encontrado útil esta lección. Por favor, consulte las notas acompañantes en esta sección para obtener más información y gracias por escuchar. 11. 10: etiqueta de SayAs de texto a discurso: Hola y bienvenidos de nuevo. En este tutorial, aprenderás a usar las etiquetas SS ML para interpretar cómo se debe hablar el texto para caracteres especiales , ciertos tipos de palabras y diferentes tipos de números. El elemento say as te permite especificar cómo se deben hablar ciertos caracteres, palabras y números en tu archivo de texto a voz. Una SE como etiqueta requiere usar la interpretación como atributos, que determina lo que se está procesando. También se pueden utilizar atributos opcionales como formato y detalle, dependiendo de los elementos seleccionados. Permítanme explicar lo que esto significa a la hora de marcar texto usando un dicho como elemento. Siempre debes incluir la interpretación como atributos dentro de la etiqueta de apertura, especificando cómo se deben decir tus caracteres especiales, palabras y números. Por ejemplo, si está marcando números, ¿representa el número una fecha u hora? ¿ Es un número telefónico? ¿ Es el número 10 o el décimo objeto consecutivo? ¿ Es una fracción o una unidad de medida? Pasaremos por cómo marcar cada uno de estos valores con más detalle en este tutorial, también, también, dependiendo del valor que se esté marcando, es posible que necesites especificar atributos adicionales como formato y detalle, especialmente para valores como fecha y hora, que podrían hablarse de varias maneras diferentes. El elemento say as te permite especificar cómo quieres que se hable tu texto para los siguientes ítems. Números cardinales Esto interpreta el texto numérico como un número cardinal, como 5 400 o 1234 números orginales. Esto interpreta el nuevo texto milagroso como un número original, como los caracteres 5º 400 o 1234º. Usa este valor para deletrear cada letra de tu texto, como Fracciones ABC. Esto interpreta el texto numérico como una fracción. Utilice este valor para ambas fracciones comunes, como 3/20 y fracciones mixtas, como 2.5 ejemplares. Utiliza este valor para BLEEP o censurar cualquier contenido o palabras dentro de la etiqueta. Usando unas unidades de sonido. Esto interpreta en texto numérico como una medida, como 1/2 pulgada 12 onzas, cinco pies un metro o 200 milisegundos literalmente o deletrear. Este valor es similar a usar personajes y deletrea palabras. Las fechas carta por carta utilizan este valor para fechas como el 29 de enero de 1993 Hora. Utilice este valor para el tiempo, como 5 48 PM Los números de teléfono utilizan este valor para indicar que el texto como número de teléfono . Además de los valores anteriores Amazon Polly también te permite utilizar valores como dígitos, que te permiten deletrear cada dígito de tu texto de forma individual, como 1234 etcétera e interpretar texto como parte de las direcciones de calle. Otro valor que veremos en este tutorial es el uso de interjecciones en tus narraciones, las cuales pueden agregar un elemento de diversión a tus archivos de texto a voz. Empecemos con números cardinales. Números cardinales aire solo números como 5 400 o 1234. A continuación se muestra la estructura para marcar el texto para interpretar correctamente los números cardinales. Tenga en cuenta que el lenguaje que seleccione afecta cómo se pronuncian los números cardinales. Por ejemplo, escuche cómo una voz en inglés de Estados Unidos en una voz en inglés del Reino Unido pronuncia los números a continuación. El precio de este artículo tiene $12,345. El precio de este artículo es de $12,345. Como se puede escuchar una voz en inglés de Estados Unidos dice el número. 12,345. Donde una voz inglesa del Reino Unido dice 12,345 Escuche nuevamente las dos voces. El precio de este artículo tiene $12,345. El precio de este artículo es de $12,345. En algunos casos, tu motor de texto a voz reconocerá números cardinales sin necesidad de usar etiquetas de marcado . Adicionalmente, algunos motores de texto a voz reconocen el número de valor en lugar de cardinal en la interpretación . Como atributos, escuche una grabación de voz sintetizada de un archivo de texto marcado para interpretar números cardinales . El monte Everest de altura es de 8848 metros, o 29,029 pies. El precio de este artículo tiene $12,345 la renta promedio en esta zona como $2500 mensuales. orginales son números como 1º 2º 3º 5º 13º 401234º etcétera. continuación se muestra la estructura para marcar texto para interpretar correctamente los números orginales como números cardinales, el idioma que selecciona efectos. Cómo se hablan los números orginales al aire, por ejemplo, escuchan cómo una voz en inglés de Estados Unidos en una voz en inglés del Reino Unido pronuncia los números a continuación. Hoy es el 350 aniversario de la revolución. Hoy es el 350 aniversario de la revolución, ya que se puede escuchar una voz en inglés de Estados Unidos dice el número 350 donde una voz inglesa del Reino Unido dice 350th. Escucha nuevamente las dos voces. Hoy es el 350 aniversario de la revolución. Hoy es el 350 aniversario de la revolución. Algunos motores de texto a voz pueden reconocer números orginales. Escrito un 2º 3º 17º etcétera sin necesidad de usar etiquetas de marcado. Amazon Polly también puede interpretar números orginales escritos como números romanos. En caso de duda, sólo puede escribir el número, pero esto no es necesario. Si utilizas correctamente la etiqueta de marcado orginal, escucha el discurso sintetizado del siguiente texto, cual se escribe como un número orginal sin etiquetas marcadas. La segunda vez que llegó a la biblioteca, salió con una copia de la tercera edición Libros antes de subir al piso 17. No sé si esta fue su primera vez o su 100 vez visitando la biblioteca. Escuchar una grabación de voz sintetizada de un archivo de texto marcado para interpretar números orginales . Kevin llegó primero en el maratón anual de oficinas. Dwight llegó en un segundo cercano. Creed Third, Pam venció a su mejor personal al ser la séptima en terminar la línea de cruce. Stanley llegó noveno y Michael terminó último en el puesto 29. Aquí hay otra variación de texto marcado para números orginales. Escucha el discurso sintetizado del texto a continuación. Marcado para Amazon Polly James Charles Stewart fue a la vez rey de Escocia como James, el sexto y rey de Inglaterra, e Irlanda tiene a James, el primero desde el año 1603 hasta su muerte en 16 25. El elemento de caracteres te permite deletrear palabras y números en tus narraciones. A continuación se muestra la estructura para marcar el texto para interpretar los caracteres correctamente. Algunos motores de texto a voz pueden reconocer y pronunciar abreviaturas como Triple A y deletrear palabras abreviadas sin agregar etiquetas de marcado a texto como CIA, FBI, KGB, BBC, etcétera, Los secuestradores eran ahora el vehículo huyó del lugar en esta dirección. Tus ojos están al revés. Se fue al revés. Ponga un corcho. ¿ Cómo se deletrea FBI? ¿ Llorar? Escuchar una grabación de voz sintetizada de un archivo de texto marcado para interpretar personajes. Quién es W H O ou. 812 fue el título de Van Halen zeht álbum de estudio Su Are vamos a llevar al perro por una W A. L K antes de que empiece a llover usando los elementos literales o deletrear realiza la misma función de deletrear palabras y números que usar caracteres. A continuación se muestra la estructura para marcar texto para interpretar correctamente estos elementos. Escucha una grabación de voz sintetizada de un archivo de texto marcado para interpretar personajes literales y deletrear elementos Todo lo que nos estoy pidiendo un poco de r e s p e c t. Descubre lo que significa para mí r E S p e C T Cuida TCB sólo un poquito cuando llegues a casa R E s P E C T volver otro elemento que puedes usar en tu texto para hablar. Mark Ups ha llamado Digits. Los dígitos realizan una función similar a la ortografía literal y los caracteres, pero solo funciona con números, no palabras. continuación se muestra la estructura para marcar el texto para interpretar los dígitos correctamente utilizando la etiqueta de dígitos con Google. TTS funciona con números. Pero si intentas procesar palabras, obtendrás un error y ningún sonido se reproducirá usando dígitos con Amazon. Polly trabaja con números pero no deletrea palabras. En cambio , sólo habla la palabra. Escuchar una grabación de voz sintetizada de un archivo de texto marcado para interpretar números y palabras usando los dígitos y deletrear atributos. Por favor, anote este número de seguridad 12345 Por favor, anote este número de seguridad 12345 Por favor, anote esta palabra de seguridad Self love. Por favor anote esta palabra de seguridad s espacio CLF L O V e. otro elemento útil para marcar fracciones textiles numéricos. Esto funciona tanto para fracciones comunes como 3/20 como fracciones mixtas como 2.5. A continuación se muestra la estructura para marcar el texto para interpretar las fracciones correctamente. Algunos motores de texto a voz pueden interpretar fracciones en tus archivos de texto como 9º 2 y 3/4 etcétera sin usar etiquetas de marcado para que Amazon Polly interprete números mixtos como fracciones. Se debe agregar un símbolo más entre los números en el texto marcado, como tres más 1/2 Amazon. Polly no soporta un número mixto sin el símbolo más. Escuchar una grabación de voz sintetizada de un archivo de texto marcado para interpretar fracciones. Casi 2/5 de U. S. Los adultos de 20 años en adelante sufren de obesidad. ¿ Sabes dividir seis por 3.5 sin usar calculadora ni preguntar a Google? Todos sabemos que dividir 22 por siete o tres y 1/7 es una buena aproximación al pastel, pero 355 dividido por 113 o tres y 16 113ª temporada aproximación aún más cercana al verdadero valor del pastel. El elemento explosivo te permite crear el efecto de censurar palabras en tu narración. Utilizando un sonido, continuación se muestra la estructura para marcar texto para interpretar correctamente las expletivas. Escuchar una grabación de voz sintetizada de un archivo de texto marcado para interpretar expletives. Entonces le digo, hice lo que te refieres y él me dice de vuelta, te hice puedo donde quiera. Entonces le digo de vuelta a él va a hacer Si ese es el caso, entonces mejor que antes de que explote y eso es exactamente lo que pasó. Oficial, te juro que el elemento de unidades te permite interpretar el texto numérico como una medida para Amazon Polly. El valor en tu texto debe ser un número o una fracción, seguido de unidad de medida sin espacio entre sí, como en 1/2 pulgada o simplemente la unidad como en un metro. A continuación se muestra la estructura para marcar el texto para interpretar las unidades correctamente. Algunos motores de texto a voz pueden reconocer e interpretar unidades sin la necesidad de utilizar etiquetas de marcado en su texto. Por ejemplo, 10 milisegundos 100 kilómetros cinco grados Celsius, 350 mililitros, 75 metros etcétera. Adicionalmente, algunos motores de texto a voz pueden convertir automáticamente unidades de medida en su forma singular o plural, dependiendo del número. Escuchar una grabación de voz sintetizada de un archivo de texto marcado para unidades de interpretación. Los caminos en la playa esta mañana deben haber sido de 10 pies de altura. En promedio, la velocidad de un parpadeo me dura sólo 1/10 de segundo o 100 milisegundos. La dosis de emergencia de adrenalina para revivir a alguien que ha entrado en shock anafiláctico es 0.1 miligramos por kilogramo de un miligramo por mililitros delirio a una dosis máxima de 0.5 miligramos en un adulto y 0.3 miligramos en un niño. Al construir una cubierta para tu patio, configura los espacios al portador en un mínimo de 1800 milímetros centros con orificios de tocón no más de 1500 milímetros de distancia. El elemento fecha te permite interpretar fechas en varios formatos, ha hablado texto tanto de Google texto a voz como de Amazon Polly interpreta fechas utilizando estructuras de marcado ligeramente diferentes. Entonces vamos a pasar por cada uno de estos por separado, empezando por Google TTS, la estructura para marcar texto para interpretar correctamente las fechas usando Google text to speech se muestra a continuación. Tenga en cuenta que la etiqueta de fecha contiene la interpretación requerida como elemento, más dos atributos adicionales formato en detalle. Otra cosa a tener en cuenta es que las fechas utilizadas en el campo de texto se pueden separar utilizando puntuaciones como guiones, espacios e incluso espacios conocidos, como se muestra en el siguiente ejemplo. Hablemos del atributo de formato de las fechas. Elemento los atributos de formato utiliza los caracteres por qué M y D para año, mes y día del mes, respectivamente. Como veremos en un momento, pueden utilizar diversas combinaciones de estos tres caracteres en el campo de formato. Hay, sin embargo, un par de reglas a seguir. Si el elemento format incluye el carácter, ¿por qué, entonces? El campo de texto de fecha debe incluir un año, por ejemplo, el año 1965. Si el elemento format incluye el carácter M, entonces el campo de texto de fecha debe incluir un mes. Por ejemplo, marzo, septiembre, diciembre etcétera. Si el elemento format incluye el carácter D, entonces el campo de texto de fecha debe incluir el día del mes, como el séptimo 24 o 31 del mes. Adicionalmente, si el carácter por qué se incluye en el formato, los atributos que el año deben escribirse como un número de cuatro dígitos, por lo que derecho el año es 1978 no sólo 78. Si el carácter D se incluye en los atributos de formato como un solo dígito, entonces puedes usar un solo dígito para días como el quinto del mes. Si el formato contiene dos D's, entonces use números de doble dígito para días como un 05 Lo mismo se aplica a los meses. Si el carácter AMs incluido en los atributos de formato como un solo dígito, entonces puedes usar un solo dígito como nueve para el mes de septiembre o cuatro para abril. Si el formato usa dígitos de mes dobles, entonces asegúrate de que todos los números de mes avisen dígitos dobles como 04 para el 09 de abril para septiembre , etcétera. A continuación, tenemos los atributos de detalle los atributos de detalle controla la forma hablada de la fecha. ¿ Tienes dos opciones? ¿ Opción uno y Opción dos? Hablemos primero de la Opción uno. Si opción de detalle es igual a uno en Lee los campos de día y un mes o año campos aire requerido . Si bien ambos campos se pueden suministrar Opción uno como la estructura por defecto para interpretar fechas cuando menos de los tres campos aire dados en el elemento formato. Por lo general, no necesitará agregar el detalle un elemento a la etiqueta de marcado. Si esta es la estructura predeterminada para interpretar fechas, ya que el motor de texto a voz debe cambiar automáticamente a este formato, la forma hablada para la Opción uno como el día orginal del mes y año, por lo que en los ejemplos que se muestran a continuación la forma hablada del texto sería el 19 de mayo de 1991 para el primer ejemplo y el segundo de marzo. Para el segundo ejemplo, si opción de detalle es igual al día, mes y año campos aire requerido Opción dos como la estructura predeterminada para interpretar las fechas en que los tres campos se suministran aire en el elemento formato. Por lo general, no necesitará agregar el detalle al elemento a la etiqueta de marcado. Si esta es la estructura predeterminada para interpretar fechas, ya que el motor de texto a voz debe cambiar automáticamente a este formato la forma hablada para Opción dos como mes día y año orginal. Por lo que en los ejemplos que se muestran a continuación, la forma hablada del texto sería el 15 de enero de 1929. Para el primer ejemplo, 14 de marzo 18 79 para el segundo ejemplo y 5 de septiembre de 1946 para el último ejemplo. Antes de hablar de marcar texto para interpretar fechas usando Amazon Polly, escuchemos algunos ejemplos hablados de texto marcado usando los formatos que acabamos de discutir . En primer lugar escuchar una grabación de voz sintetizada de un archivo de texto marcado usando diferentes fechas, opciones de base. Nací el 16 de noviembre de 1968. Mi hermana nació el 22 de junio de 1971. Mi hermano nació el 10 de febrero de 1974. Ahora escucha una grabación de voz sintetizada de un archivo de texto marcado usando diferentes formatos de fecha en valores de detalle. Mi familia y yo emigramos a este país. Llegamos aquí el 26 de junio de 1952. Tengo otra cita con Quiropráctico el día nueve de septiembre. Albert Einstein ganó el Premio Nobel de Física el 9 de noviembre 1922 por sus servicios a la física teórica y por su descubrimiento de la ley de la foto Efecto eléctrico. Hablemos ahora de marcar texto para interpretar fechas usando Amazon Polly. A continuación se muestra la estructura para marcar texto para interpretar fechas usando Amazon Polly. Tenga en cuenta que el elemento date contiene un formato de atributos adicionales. Separe los elementos de fecha en el campo de texto utilizando guiones, excepto cuando se utilice el formato y y y y M m d. D. Todos los formatos de fecha que aquí se enumeran se pueden utilizar con Amazon. Polly aquí es un consejo útil al usar Amazon Polly para interpretar fechas. Si utiliza el formato Y y Y M M M D D D, puede hacer que Amazon Polly omita partes de la fecha, utilizando signos de interrogación que especifican los atributos de formato en la etiqueta de marcado tampoco ha requerido. Por ejemplo, Amazon Polly renderiza los ejemplos que se muestran a continuación de la siguiente manera. El 22 de septiembre de 1989. Escucha una grabación de voz sintetizada de un archivo de texto marcado para Amazon Polly utilizando diferentes formatos de fecha. Game of Thrones emitió su primer episodio en HBO el 17 de abril de 2011. Después de ocho temporadas, el episodio final de Game of Thrones salió al aire el 19 de mayo de 2019. El rey Juan de Inglaterra firmó la Carta Magna el 15 de junio 12 15. ¿ Sabías que el 4 de enero su Día Nacional de Espaguetis? Y ese 10 de noviembre es el Día Nacional de Cupcake de Vainilla. Hablar de celebrar carbohidratos. Muchas personas entraron en pánico ya que creen que los eventos cataclísmicos ocurrirían después de diciembre 2012 cuando el antiguo calendario maya llegó a su fin. Julio César, cruzando el río Rubicón en enero del 49 aC fue el suceso que precipitó la Guerra Civil Romana . Nos pagan cada mes el día 15. Nuestro aniversario de bodas es en agosto, en 1964 Xerox Corporation presentó la primera versión comercializada de la moderna máquina de fax . Pero hasta que alguien más compró una de sus máquinas, no tenían a nadie más a quien enviar faxes. 21 de julio de 1969 Neil Armstrong se convirtió en el primer ser humano en caminar sobre la superficie de la luna. Pero Buzz Aldrin fue el primer hombre en saltar y orinar sobre él. El elemento de tiempo te permite interpretar el tiempo en diferentes formatos ha hablado texto tanto de Google texto a voz como de Amazon Polly interpretan los valores de tiempo de manera diferente. Entonces vamos a pasar por cada uno de estos por separado, comenzando con Google TTS la estructura para marcar texto para interpretar correctamente el tiempo usando texto de Google a voz se muestra a continuación nota que la etiqueta de tiempo contiene la interpretación requerida como elemento más dos atributos adicionales, formato y detalle. Otra cosa a tener en cuenta es que los valores de tiempo utilizados en el campo de texto se pueden separar usando puntuación y o espacios, como se muestra en el siguiente ejemplo. El formato Atributos utiliza una secuencia de códigos de caracteres de campo de tiempo, H. H. M s, Z 12 y 24 para nuestro minuto de la nuestra segunda de la zona horaria minuta, tiempo 12 horas y tiempo de 24 horas, respectivamente. El formato predeterminado es H. M S 12. Si nuestro minuto o segundo no se especifican en el formato o no hay dígitos coincidentes, el campo se trata como un valor cero. tiempo puede interpretarse como hora del día, por ejemplo, para 26 PM o duración del tiempo, como cuatro horas y 20 minutos. El elemento de detalle controla si la forma hablada del tiempo como tiempo de 12 horas o de 24 horas . Tienes dos opciones. Opción uno y Opción dos, la forma hablada como tiempo de 24 horas. Si detalle es igual a uno o si se omite detalle, y el formato de la hora como hora de 24 horas, el hablado forma como tiempo de 12 horas. Si detalle es igual a dos, o si se omite detalle y el formato de la hora como 12 horas, escuche una grabación de voz sintetizada de un archivo de texto marcado para Google Text al discurso utilizando diferentes formatos de tiempo. 4 26 PM dos horas, siete minutos y nueve segundos, 16 horas 39 minutos y 57 segundos. Hora Estándar del Pacífico. 6 22 Hora estándar del este. Cinco Ocllock 1700 5 p.m. Cinco. Amazon Polly interpreta el elemento de tiempo del texto numérico como duración en minutos y segundos y también puede reconocer el tiempo básico formateando la estructura para marcar texto para interpretar el tiempo usando Amazon. Polly se muestra a continuación Escuchar una grabación de voz sintetizada de un archivo de texto marcado para tiempo de interpretación usando Amazon Polly un minuto y 21 segundos. 4 26 PM cinco oclock 1700 horas 3 18 El elemento telefónico indica que el texto contenido como número telefónico Google, T TS y Amazon Polly interpretan los valores telefónicos de manera ligeramente diferente, por lo que cubrirá ambos procesos. Por separado, se muestra la estructura para marcar el texto para interpretar correctamente los números telefónicos usando Google continuaciónse muestra la estructura para marcar el texto para interpretar correctamente los números telefónicos usando Google text to speech. Tenga en cuenta que el elemento telefónico le permite en códigos internacionales en el campo de formato. El motor de texto a voz de Google interpretará correctamente los códigos internacionales en el campo de texto , aunque el código de país presente en el elemento de formato no coincida con él. Adicionalmente, interpretará extensiones de números de teléfono e incluso palabras telefónicas. Escuchar una grabación de voz sintetizada de un archivo de texto marcado para Google texto a voz usando números de teléfono. 5556789 5556789 Extensión 345 más 3 +98 OO +123456 más 3 +98 OO +123456 seis Saito 5556789 16 Saito 5556789 +18662255631 +155574992 Amazon Polly interpreta el texto numérico como un número telefónico de siete dígitos o 10 dígitos. También se pueden incluir extensiones telefónicas. Tenga en cuenta que al momento de grabar esta lección, la opción telefónica solo podría usarse con voces en inglés. A continuación se muestran algunas otras cosas la estructura para marcar el texto para interpretar correctamente los números de teléfono usando Amazon Polly. A tener en cuenta es que Amazon Polly puede interpretar números de teléfono en texto sin marcar etiquetas si guiones aire utilizado en los números telefónicos. Además, ten en cuenta que el idioma que seleccionas repercute cómo hablan los números telefónicos al aire, por ejemplo, escucha la diferencia entre cómo una voz en inglés americano dice el número de teléfono a continuación y cómo un Reino Unido Voz inglesa lo dice. El teléfono de Veronica es 2122241555 Extensión 666 Veronica. Su número telefónico es 212 doble a 41 Extensión triple cinco. Triple seis. Escuchar una grabación de voz sintetizada de un archivo de texto marcado para interpretar números telefónicos. Uso de Amazon Polly 5551212 20 a 5551212 20 a 5551212 Extensión. 345 5556789 5556789 Ampliación. 345 6805556789 16805556789 Un elemento adicional que puedes utilizar con Amazon Polly Voices como elemento de dirección, que te permite interpretar textos como parte de una dirección de calle. la estructura para marcar texto para interpretar una dirección correctamente usando Amazon, A continuación se muestrala estructura para marcar texto para interpretar una dirección correctamente usando Amazon, Polly Escuchar una grabación de voz sintetizada de un archivo de texto marcado para direcciones. 14 slash 72 53 The Boulevard Springfield, 63103 Missouri USA Apartment, 69 1 88 Grand Central Tower, Cloudburst County, Nueva Gales del Sur 2177. Australia 59 40. Ferguson Road, Richmond, British Columbia v siete B uno M seis, Canadá El último elemento que quiero cubrir antes del final de esta lección son interjecciones , también llamado discurso Cons Can al texto utilizando la etiqueta de marcado que se muestra a continuación. Tenga en cuenta que los contras del habla están acostumbrados. Biblioteca creada para Amazon Alexa Durante la grabación de esta lección los contras del discurso no estaban disponibles para Amazon Polly Voices. Entonces lo que me gustaría hacer es simplemente reproducirte un video en pantalla grabado de varios contras del habla para que puedas escuchar cómo suena el sonido. Abacha. Deborah llegó a uh eh. Él. Ahoy! Todo bien. Yo bajo, ¿eh? Yoga. Argh! Areva! ¡ Daraji! Como usted desee. Bar voie un hombre. Ah, Botta bing bada boom bah, humbug bam, Bang, Batter up, Zynga baby Bingo, bla manteca de cerdo Último Boeing uppity ósea. Tanto tu bon voyage Osh Boo hoo hoo! ¡ Boom! Booyah! Bravo, bombardero Carro ching! Jaque mate! Cheerio. Salud. Anímate. Trip choo choo clank Click clack Cock a doodle. ¡ Ooh! Golpe! Cowabunga! Maldita sea! ¡ Kim Dong! Ditto. No puntes, punto punto Duh. Tonta. ¡ No lo hagas! No hagas dinamita. Ik it. Encore en guardia! Eureka! Fancy eso, Geronimo! ¡ Agiddy arriba! Buen dolor. Buena suerte. Buena riddance. ¡ Gotcha! Genial. Scott, Cabezas arriba! ¡ Oigan, escuchen! Cadera, cadera! ¡ Hurra! Hiss, cerdo, Patty! ¡ Hurra! ¡ Hurra! Huzzah! ¡ Enredaderas de jeepers! Jiminy Cricket, Jenks. Sólo bromeando. Kaboom! Coaching de cordero Cobb Kapow Chao Co Xam ca bam ka boom! Coaching podría masticar ca flop. Podría plop kerplunk. Kapow su listón su cárter! ¡ Toc, toc! Señorita, ¡miro hacia fuera! Mamma Mia! ¡ Hombre por la borda! Maazel toff me fuera. Messi ¿Quién? No, no, no, No. ¡ Más malo! Mano. De ninguna manera. Ahora, ahora ¿cómo, muchacho? ¡ Oh, hermano! Oh, querida. Oh, mi Oh, snap Link! Está bien. Dokey. Poof! La la Open sésamo! ¡ Ouch! Chico, ¡Fuii Pim Club Poof! Bomba. ¡ Qué cuac! Lee em y llora. Ribbit, Derecha. Ah, Roger. Amortiguadores retro barra alerta Alerón. Swish chillón. ¡ Swoosh! Uh, Toyota. Él ahí está. Garrapata de sumidero, garrapata, Tic tac. Touche! Tisk, tisk, Tweet! Uh huh. Uh oh. Voula de Whoa! No quiero. ¡ Cuidado! Camino a seguir! ¡ Bien hecho! Bueno, bueno. ¡ Wham, whammo! ¡ Nosotros que lobo! ¡ Whoops! Una margarita ¿Quién? ¡ Wow! ¡ Wow! Za wowser yada, yada, yada. ¡ Sí, Yikes! A lo mejor tinta Ya sabes a quién apuestas. Yowza! Sí, Hauser. Yuck! Yum, zap, zing! Zoinks! Esto nos lleva al final de este tutorial. Espero que haya encontrado útil esta lección. Por favor, consulte las notas acompañantes en esta sección para obtener más información y gracias por escuchar. 12. 11: etiqueta de Emphasis enfasis de texto a la discurso: Hola y bienvenidos de nuevo. En este tutorial, aprenderás a usar las etiquetas SS ML para enfatizar ciertas partes de tu texto ya que tanto el texto de Google a la voz como Amazon Polly interpretan el énfasis de manera diferente, vamos a cubrir ambos por separado. El elemento de énfasis se utiliza para enfatizar el texto. Este elemento modifica el habla de manera similar a Prait E, pero sin la necesidad de establecer atributos individuales de voz. El elemento de énfasis soporta un nivel opcional atributos, lo que cambia el grado de énfasis agregado al texto la estructura para marcar texto para interpretar énfasis usando texto de Google a voz se muestra a continuación Google Text to speech soporta los siguientes Niveles de énfasis fuerte , moderado, reducido y ninguno escucha una grabación de voz sintetizada de un archivo de texto marcado usando diferentes niveles de énfasis. Devuélvemelo, dijo Sue, ya que su hermano escondió la golosina en su bolsillo. No, es mío, dijo Tim, espantándose de su hermanita. Te advierto, dijo Sue, avanzando de manera amenazadora. Oh, no, estoy tan asustada, dijo Tim con una sonrisita. Será mejor que lo seas. Se lo estoy diciendo a mamá, dijo Sue, meneando su dedo en la cara. Hablemos ahora de marcar texto para interpretar énfasis usando Amazon Polly, la estructura para interpretar énfasis. Usar Amazon Polly es lo mismo, pero con Amazon Polly el énfasis cambia la tasa en volumen del discurso. Más énfasis hace que Amazon Polly hable el texto más fuerte y más lento, y menos énfasis hace que hable más tranquilo y rápido. Amazon Polly apoya los siguientes niveles de énfasis fuerte, aumenta el volumen y ralentiza la tasa de habla. Por lo que los discursos más fuertes y más lentos moderados aumentan el volumen y ralentizan la velocidad de habla , pero no tanto como cuando se establece demasiado fuerte. Si el nivel no está incluido en la etiqueta de marcado que Amazon Polly procesa énfasis en el nivel moderado Es la configuración predeterminada reducida, disminuye el volumen y acelera la tasa de habla. Los discursos, suaves y rápidos. Escucha una grabación de voz sintetizada de un archivo de texto marcado para Amazon Polly, utilizando diferentes niveles de énfasis. Devuélvemelo , dijo Sue, como su hermano, escondido para tratar en su bolsillo. No, es mío, dijo Tim, espantándose de su hermanita. Te advierto, dijo Sue, avanzando de manera amenazadora. Oh, no, estoy tan asustada, lo dijo con una sonrisita. Será mejor que lo seas. Se lo estoy diciendo a mamá, dijo Sue, meneando el dedo en la cara. Esto nos lleva al final de este tutorial. Espero que haya encontrado útil esta lección. Por favor, consulte las notas acompañantes en esta sección para obtener más información y gracias por escuchar. 13. 12: etiquetas de Prosody de texto a discurso: para ver un mundo en un grano de arena y un cielo en una flor silvestre. Sostén el infinito en la palma de tu mano y la eternidad en una hora para ver un mundo en un grano de arena. Onda cielo en una flor salvaje. Sostén el infinito en la palma de tu mano y la eternidad en una hora. Hola y bienvenidos de nuevo. En este tutorial, aprenderás sobre Prait E y cómo usar las etiquetas SS ML para cambiar los elementos de Prasad IQ en tu texto a archivos de voz. Voy a explicar qué proceso quiere decir. Habla sobre algunos términos relacionados y te muestra cómo cambiar el tono, el volumen y la tasa de tu texto hablado. Prait. Se refiere a áreas del lenguaje como el ritmo de la melodía, estrés y la entonación del habla, y cómo estas características contribuyen al significado. Prasad. IQ se refiere a atributos y aspectos de Prait e el proceso. El elemento se utiliza para personalizar el tono, el volumen y la velocidad de habla de tus etiquetas Voz. A continuación se muestra la estructura para marcar texto para interpretar Prasit E. Si grabas el mismo texto usando voces diferentes, puedes ver que algunas voces dirán lo mismo a unavelocidad de volumen de voz más lenta y rápida, velocidad de volumen de voz más lenta y rápida, velocidad de voz y el tono dependen de la voz específica seleccionada. Además de las diferencias entre voces para diferentes idiomas, existen diferencias entre voces individuales que hablan el mismo idioma debido a esto , mientras que atributos aire similar en todos los idiomas, hay son claras variaciones de la lengua a la lengua. Esto significa que no hay valores absolutos sólo valores relativos. Los valores relativos se pueden escribir como un porcentaje o un número precedido de un signo más o menos , seguido de un símbolo de porcentaje, por ejemplo, más 15.2% menos 8% o es un número relativo para los atributos de tono. Los cambios relativos se pueden dar en semitonos, utilizando un número precedido de un signo más o menos, seguido de S. T, que significa semitonos, por ejemplo, más 0.5 semi tonos más cinco semi tonos menos dos semi tonos. Etcétera. Tenga en cuenta que las unidades para str sensible a mayúsculas y minúsculas un semi tono es la mitad de un tono o 1/2 paso en la escala diatónica estándar. Escuchar una grabación de voz sintetizada de un archivo de texto marcado usando diferente proceso, atribuye. computación cuántica es el uso de fenómenos mecánicos cuánticos tal superposición y enredo para realizar la computación. computación cuántica es el uso de fenómenos mecánicos cuánticos, tal superposición y enredo para realizar la computación. computación cuántica es el uso de fenómenos mecánicos cuánticos, tal superposición y enredo para realizar la computación. computación cuántica es el uso de fenómenos mecánicos cuánticos, tal superposición y enredo para realizar la computación. Echemos un vistazo ahora a los elementos del IQ PRASAD de volumen de tono y velocidad de voz y cómo estos aire interpretan por texto de Google al discurso y la manera Amazon Polly. Cambiar el tono de tu discurso te permite subir o bajar el tono de tus voces seleccionadas . Existen tres opciones para establecer el valor de los atributos de tono con texto de Google a voz. Se puede especificar un valor relativo como extra bajo, bajo , medio, alto, alto, extra alto y por defecto donde el valor medio como el tono predeterminado. También puedes aumentar o disminuir el tono especificando una serie de semitonos. Tenga en cuenta que al usar este método, requieren signos más o menos y S T, también se puede aumentar o disminuir el tono usando valores porcentuales. Tenga en cuenta que se requiere el símbolo de porcentaje, pero el uso de signos más o menos es opcional. Tener una escucha de los diversos valores de tono utilizados para narrar el texto de muestra a continuación. La primera oración no tiene marca para que puedas escuchar la voz predeterminada. Si tuviera un mundo propio, todo sería una tontería. Nada sería lo que es porque todo sería lo que no es. Y Contrariwise, qué es lo que no sería. ¿ Y qué no sería lo verías? No sé a qué te refieres, dijo Alice Amazon. Polly te permite establecer, subir o bajar el tono de tu discurso usando un valor predefinido como extra bajo, bajo medio alto y extra alto. También puedes aumentar el tono especificando un porcentaje, ejemplo, más 10% o más 5%. Tenga en cuenta que el valor máximo permitido es más 50%. Si establece el valor superior a esta cantidad, sólo se renderizará en el valor máximo de más 50%. También puedes disminuir el tono especificando un porcentaje como menos 10% menos 20% etcétera, el valor más pequeño permitido para disminuir el tono usando porcentajes como menos 33.3% especificando un valor menor que menos 33.3% menos 33.3% sólo será prestados al valor mínimo de menos 33.3%. Escucha una grabación de voz sintetizada de un archivo de texto marcado para Amazon Polly Voices utilizando diferentes atributos de tono. Un sueño no es realidad, ese quién es decir cuál es cuál? Todos quieren alguna solución mágica para su problema, y todos se niegan a creer en la magia. No es de extrañar que llegues tarde. Por qué este reloj es exactamente dos días de lentitud. Solías estar mucho más aquí. Has perdido tu muchedumbre A veces creía en hasta seis cosas imposibles antes del desayuno. Tengo una teoría. La gente habla fuerte cuando quiero actuar con inteligencia. Justo con Google. Voz es que puedes cambiar el volumen de tu texto hablado usando un número precedido por el signo más o menos inmediatamente seguido de DB para decibelios o usar valores como silencioso, extra suave, suave, medio fuerte, extra fuerte o por defecto. El valor predeterminado es más 0.0 decibelios. Tenga en cuenta que especificar un valor de silencioso como igual a especificar decibelios menos infinito y que todos los niveles de volumen numérico en decibelios se airen en relación con el nivel actual y siempre deben tener un signo más o menos, incluyendo cero El uso de la etiqueta predeterminada restablece el nivel de volumen actual. Escuchar una grabación de voz sintetizada de un archivo de texto marcado para Google TTS utilizando diferentes atributos de volumen. Hablo esta línea en el volumen predeterminado para esta voz. Hablo esto yo. Alinearlo aproximadamente el doble de la amplitud de la señal original. Hablo esta línea es aproximadamente la mitad de la amplitud de señal original. Amazon Polly te permite cambiar o ajustar el volumen a un nivel predefinido para tu voz actual , utilizando valores como silencioso extra suave, suave, suave, medio loud, un extra ruidoso. También puede aumentar el volumen en relación con el nivel de volumen actual. Por ejemplo, más cero decibelios significa que no hay cambio de volumen, más seis decibelios como aproximadamente el doble de la amplitud actual. Tenga en cuenta que el valor positivo máximo permitido como aproximadamente más 4.8 decibelios. Adicionalmente, puede disminuir el volumen en relación con el nivel de volumen actual. Por ejemplo, menos seis decibelios significa aproximadamente la mitad de la amplitud actual. Escucha una grabación de voz sintetizada de un archivo de texto marcado para voces de Amazon Polly utilizando diferentes atributos de volumen. Hablo esta frase de mi volumen normal. Hablo esta frase que permitió un volumen. Siempre que me despierto tiendo tiendo a hablar muy despacio A medida que mi cerebro se enfoca. Puedo hablar con mi tono normal, pero también con un tono mucho más alto. Y a veces incluso puedo hablar con una voz mucho más baja. Otro atributo de Prasit EU puede cambiar en tu texto ya que la tasa de voz usa valores relativos como extra lento, lento, medio rápido, extra rápido o predeterminado para establecer la tasa de voz o un porcentaje cuando el valor es un porcentaje no negativo. Actúa como multiplicador de la tasa de impago. Por ejemplo, un valor del 100% significa que no hay cambio en la tasa de habla. Un valor de 200% significa una tasa hablante del doble de la tasa por defecto, y un valor del 50% significa una tasa hablante de la mitad de la tasa por defecto. Además, es importante tener en cuenta que la tasa por defecto depende del idioma, el dialecto y la personalidad de la voz que se esté utilizando. Escucha una grabación de voz sintetizada de un archivo de texto marcado para Google. Voces TTS usando diferentes atributos de tasa un niño azul vienen a soplar tu cuerno, los barcos y prado. La vaca está en el maíz. ¿ Dónde está ese chico que cuida de las ovejas? Está debajo de un pajar. Durmiendo rápido Con Amazon Polly Voices puedes establecer la velocidad de voz usando valores relativos como extra lento, lento, medio rápido, un extra rápido, o especificar un porcentaje para aumentar o disminuir el velocidad del discurso. 100% indica que no hay cambio con respecto a la tasa normal, mientras que el porcentaje es mayor al 100%. Aumentar la tasa y porcentajes por debajo del 100%. Disminuir la tasa. Tenga en cuenta que con Amazon Polly voces el valor mínimo que puede especificar como 20%. Escucha una grabación de voz sintetizada de un archivo de texto marcado para Amazon Polly Voices utilizando diferentes atributos de tasa. Así es como voy cuando hablo extra despacio. Siempre hablo extra rápido cuando estoy teniendo una explosión. Bajémoslo una muesca, entonces esperemos y observemos. Si hablo un poco más rápido, esto no sonará como un desastre. Si me despacio un poco, puedes encontrarme en medio. En resumen, puedes usar Prasidh e elementos con volumen de tono combinado y atributos raid para afinar tu texto a archivos de voz y mejorar la calidad de tus narraciones. Esto nos lleva al final de este tutorial. Espero que haya encontrado útil esta lección. Por favor, consulte las notas acompañantes en esta sección para obtener más información y gracias por escuchar. 14. 13: etiqueta de Text-To-Speech de texto a la expresión: - Llaves allen , comederos terribles, PortSys, calentadores eléctricos, compactadores de basura, jugo, extractor, regaderas en medidores de agua, walking talkies, gafas de seguridad de alambre de cobre, llantas radiales, pellets, mazos de goma, ventiladores y deshumidificadores. Cortadores de papel para colgar cuadros, planchas de gofres, persianas de ventanas. Removedores de pintura hasta que estábamos enmascarando cinta impactó dólares. Grifos de cocina, mesas plegables, desprendimiento de tiempo, cables adecuados, miradas y fondo. Está de vuelta con poder. legal del padre tiene que firmar por fumigación. Invocación de alto rendimiento, impermeabilización entrometida, aislamiento multiusos, compresor de aire, conectores de hierba calculan detectores de humo cincel. Gauges contestan. Kate es termostatos y desertores. Trailer enganche de magnetizar mentores. Registros de tiende circuncidados automáticos, soportes angulares para nosotros mismos y paneles de soffit energizantes, disyuntores, aspiradoras, cafeteras, generadores poblados, emparejamiento salero y pimentero Camino Hola y bienvenidos de nuevo. En este tutorial, aprenderás a establecer una duración máxima para el habla sintetizada usando el proceso la etiqueta Amazon Max Duration. En una lección anterior, cubrimos el uso del proceso el elemento para personalizar el tono, el volumen y la velocidad de habla de tu discurso de etiquetas. También puedes especificar cuánto tiempo quieres que te lleve tu texto hablado usando el proceso. La etiqueta de duración Amazon Max. Ten en cuenta que actualmente esta función solo está disponible para voces de Amazon Polly, no para voces de Google. También es importante tener en cuenta que la duración del habla sintetizada será muy ligeramente, dependiendo de la voz que selecciones. Esto hace difícil emparejar el habla sintetizada con objetos visuales u otras actividades que requieren un tiempo preciso y pueden ser especialmente difíciles si planeas traducir texto a diferentes idiomas. la estructura para marcar texto utilizando el proceso la etiqueta de duración de Amazon Max se muestra algunos de los usos para el proceso. El tag de duración Amazon Max incluye narraciones de audio hundimiento, grabadas o traducidas a videos, presentaciones de diapositivas, etcétera. Otros usos incluyen poder hacer coincidir el habla sintetizada con las restricciones de tiempo. Por ejemplo, si está grabando una narración para un anuncio de radio 32 en su mensaje tarda 20 segundos en entregarse y se le requiere que incluya una renuncia legal al final de su anuncio . Es posible que desee comprimir el descargo de responsabilidad en los 10 segundos restantes utilizando un descargo de responsabilidad registrado generado sintético . Aquí un ejemplo de un descargo de responsabilidad que normalmente tardaría 15 segundos en entregar comprimido en 10 segundos usando el Proceso i e. etiqueta de duración máxima de Amazon pagada por la Asociación de Elección de Contribuyentes Comité de Acción Política , autorizado por el diputado Johnson y LV Harvey en nombre del paquete T. términos y condiciones especiales. Por favor consulta nuestra página web para más detalles en www dot cpac dot trabajo, la duración máxima de tu discurso se puede especificar en segundos o milisegundos. El proceso. El elemento de duración máxima de Amazon asegura que cualquier texto colocado dentro de las etiquetas de duración máxima no exceda la duración especificada. Si el discurso que utiliza la voz o el idioma elegido normalmente tardaría más que la duración especificada, Amazon Polly lo acelerará para que se ajuste a la duración especificada. Además, si la duración especificada es más larga de lo que se tarda en leer el texto a un ritmo normal, Amazon Polly leerá el discurso con normalidad. En otras palabras, no ralentizará el discurso ni agregará silencio por lo que el audio resultante será más corto que el tiempo especificado. También tenga en cuenta que Amazon Polly puede aumentar la velocidad de su texto hablado no más de cinco veces la tasa normal. Si Texas habla más rápido que esto, probablemente será ininteligible. Adicionalmente, si el discurso no puede caber dentro de la duración especificada, incluso cuando se acelere hasta el máximo, el audio se acelerará pero durará más que la duración especificada. Algunas otras cosas a tener en cuenta al marcar tus archivos de texto a voz ya que puedes incluir una sola oración o varias oraciones dentro de una etiqueta de duración máxima, y puedes usar múltiples etiquetas de Prasit E Amazon max duration dentro de tu texto. Al calcular el tiempo máximo de duración que ha especificado, un procesador TTS tomará en cuenta los descansos o pausas añadidos al texto e incluirá esto en el periodo de duración. Adicionalmente, Amazon Polly preservará las pausas cortas que ocurren donde se colocan comas y periodos dentro de un pasaje de texto. Un consejo útil al usar esta etiqueta como para tratar de mantener tus pasajes de texto cortos para reducir la síntesis del habla. Layton ver durante el proceso de conversión de audio, escuchar una grabación de voz sintetizada de un archivo de texto marcado usando múltiples etiquetas de duración de Prait Imax. El habla es un modo especial de comunicación. evidencia sugiere que la anatomía especializada que confiere el habla humana alcanzó su estado actual en algún momento entre 150 mil años atrás. El laringe es una estructura compleja hecha de cartílago, músculo y otros temas blandos. El último que quiero cubrir en esta lección son algunas de las limitaciones de usar la etiqueta de duración máxima y cómo funciona con otras etiquetas SML s,Por ejemplo, Por ejemplo, no se pueden anidar etiquetas de duración máxima. Si pones una etiqueta de duración máxima dentro de otra Amazon, Polly ignorará la etiqueta interna. Adicionalmente, usando el proceso, la etiqueta de tasa no funciona con la etiqueta de duración máxima como la función de ambas etiquetas en cuanto a afectar la velocidad de tu texto hablado. Por último, el texto utilizado dentro de una etiqueta de duración máxima de Prait E Amazon no puede tener más de 1500 caracteres. El texto que se muestra a continuación, por ejemplo, que se utilizó en el video de apertura de esta lección, tiene 932 caracteres de longitud, por lo que se puede usar una cantidad bastante importante de texto antes de que terminemos esta lección. Vamos a divertirnos un poco. ¿ Estás listo? Algunos de nosotros tenemos que hacer para lograrlo, correr sobrehumano y no han hecho nada de lo que dices que te avergüenzas. Devolador. Recuerda demostrar cómo dar al público sintiéndose como si fuera levitante, nunca se desvanece siempre que los odiadores por todas partes podríamos decir que estaré celebrando porque sé la forma en que esto nos lleva al final de este tutorial. Espero que haya encontrado útil esta lección. Por favor, consulte las notas acompañantes en esta sección para obtener más información y gracias por escuchar. 15. 14: etiquetas de pronunciación de texto a discurso: tú dices tampoco, y yo digo O dices ninguno y yo digo ninguno, tampoco. Tampoco. Tampoco. Tampoco. Vamos a apagar todo el asunto. ¿ Te gusta la papa? Y me gusta lo que Sato Te gusta el jitomate y me gusta el jitomate, papa, jitomate, jitomate, jitomate. Llamemos a todo el asunto Hola y bienvenidos de nuevo. En este tutorial, cubrimos la pronunciación de texto. Aprenderás a marcar tu texto para pronunciar acrónimos y abreviaturas, usando nombres telefónicos para diferentes pronunciaciones fonéticas y formas de mejorar la pronunciación del habla especificando partes del habla y significados alternos en tus elementos de marcado . Empecemos con cómo marcar archivos de texto para pronunciar acrónimos y abreviaturas correctamente. Un acrónimo como palabra o nombre formado como abreviatura a partir de los componentes iniciales de una frase o una palabra. Normalmente letras individuales como la OTAN o el buceo. Puede utilizar el elemento sub alias para sustituir palabras o expandir acrónimos. Nombre de los elementos o abreviaturas. Tal dicho el Buró Federal de Investigación en lugar del FBI, la British Broadcasting Corporation en lugar de la BBC, el Fondo Monetario Internacional en lugar de I m f. Etcetera. El sub alias tag también se puede utilizar para proporcionar la pronunciación correcta para palabras sangramientos, que son palabras con números para letras o nombres únicos que los motores TTS no pueden pronunciar correctamente. La estructura para marcar texto para interpretar acrónimos y abreviaturas como se muestra a continuación. Estos son algunos consejos útiles a la hora de usar la sub etiqueta. Al momento de crear esta lección, las voces de Google no admiten el uso de nombres telefónicos, que veremos en un momento que puedas usar. El sub elemento con Google Voice es en cambio, si planea usar las mismas acrónimos repetidamente a lo largo de su texto, use el elemento sub alias para expandir la primera instancia de las siglas en su texto para que sus oyentes sepan exactamente qué a la que te refieres. El sub elemento también se puede utilizar para proporcionar pronunciaciones simplificadas de palabras que los motores TTS encuentran difíciles de leer, como palabras en otros idiomas. Escuchar una grabación de voz sintetizada de un archivo de texto marcado usando etiquetas Sebelius. El papel primordial de la Organización Mundial de la Salud es dirigir la salud internacional dentro del sistema de las Naciones Unidas y dirigir a los asociados en las respuestas mundiales en materia de salud. Iridium es un metal de transición blanco muy duro, quebradizo, plateado del grupo platino Alcohólicos Anónimos es un programa de 12 pasos de recuperación del alcoholismo. El único requisito para ser miembro de A es el deseo de dejar de beber. Tim leyó su primer libro cuando sólo tenía tres años de edad. Echemos un vistazo ahora a cómo usar nombres telefónicos y agregar pronunciación fonética a tu texto . Puedes usar la etiqueta de nombre del teléfono con Amazon Polly para agregar pronunciación fonética a texto específico . Tenga en cuenta que Google TTS actualmente no admite el uso de nombres telefónicos. La etiqueta de nombre telefónico debe incluir los dos atributos siguientes. alfabeto se utiliza para indicar qué alfabeto fonético debe usar Amazon Polly, y pH especifica la pronunciación fonética que desea que Amazon Polly use en lugar del ID asociado de pronunciación estándar por defecto con el idioma utilizado por el seleccionado . A continuación se muestra la estructura para marcar el texto para interpretar correctamente los nombres de los teléfonos . Polly puede interpretar nombres telefónicos de varios alfabetos fonéticos, incluyendo I p A. Sampa, un piñón de Amazon para pronunciación fonética china mandarina. Si planea usar alfabetos fonéticos en idiomas distintos del inglés, recuerde especificar el idioma correcto antes de procesar su texto. Escuchar una grabación de voz sintetizada de un archivo de texto marcado usando objetivos telefónicos piñón. Seguro guerra, estamos seguros. Ahora Amazon Polly admite el uso de nombres telefónicos en muchos idiomas diferentes. Consulte la documentación que acompaña a este curso para obtener enlaces a tablas de llamadas, herramientas y recurso es para alfabetos fonéticos soportados. Está más allá del alcance de este curso enseñarte sobre fonética. Podrás encontrar muchos tutoriales en video en línea sobre este tema. Lo importante que debes saber para esta lección como cómo papá llama el teléfono al marcar tu texto. Entonces, pasemos por este proceso brevemente. Empecemos estudiando la estructura de las etiquetas de llamadas a continuación y escuchando cómo se pronunciaron las palabras aire usando diferentes nombres telefónicos y alfabetos fonéticos. Dices pecana. Yo digo pacana, tú dices pecana. Yo digo pacana. Hemos hablado de usar herramientas fonéticas en la lección de herramientas de texto a voz, y también brindamos información y enlaces a diversas herramientas fonéticas, y el recurso está en la documentación del curso que lo acompaña. otra cosa de la que hemos hablado fue de la importancia de guardar archivos de texto que contengan nombres telefónicos para Amazon Polly utilizando el formato UTF ocho. Entonces repasemos brevemente estos dos puntos. El primer paso es localizar y copiar la ortografía fonética correcta de las palabras. Esto se puede hacer de forma gratuita, utilizando sitios que proporcionan diccionarios en línea con herramientas de ortografía fonética y conversión fonética. Consulte las notas del curso para obtener más detalles. Después de especificar el alfabeto fonético para usar y pegar los nombres telefónicos en tus archivos de texto . Atributos del alfabeto y PH, recuerda guardar tu archivo de texto usando utf ocho Encoding. Como se muestra aquí ahora que hemos mirado los sub alias y las etiquetas de llamada, echemos un vistazo a formas de mejorar la pronunciación de tus palabras. Hedren M. Palabras deHedren M. Zehr que se deletrean de manera idéntica pero que tienen significados diferentes cuando se pronuncian manera diferente. Amazon Polly es realmente muy bueno cuando se trata de reconocer nombres hetero y palabras que transmiten diferentes significados. Dependiendo del contexto, se usan y la tecnología sólo está mejorando. Por ejemplo, ten una escucha de cómo Amazon Polly interpreta las siguientes oraciones. Sin ningún marcado, agregaron etiquetas, la banda grabará un disco. Nos negamos a asumir más rechazos. Este país nunca progresará a menos que logremos avances. Esos agricultores producen una gran cantidad de productos. Su Señoría, no voy a impugnar el concurso. No te rebeles a menos que seas rebelde. Por favor, no nos sometas a más dolor. Al discutir el tema de su operación, contrastaré todas las diferentes opciones de contraste de estas pantallas de portátiles en mi blogged. Cuando se acercó el incendio de los pinceles, las autoridades decidieron cerrar la carretera. Algunas palabras, sin embargo, pueden ser complicadas o difíciles para los motores TTS reconocer e interpretar correctamente. Escucha las siguientes frases mientras están siendo leídas, y luego discutiremos esto en la siguiente diapositiva. Aprendí a leer y a leer para aprender. Aprendí a leer y a leer para aprender. Sube el bajo en tu radio y captarás más bajo. Sube el bajo en tu radio y captarás más bajo, como acabas de escuchar. Algunas palabras como Leer y base pueden ser difíciles de interpretar correctamente para los motores TTS. Aquí es donde la etiqueta W es muy útil. Puedes usar la etiqueta W en Amazon Polly para personalizar la pronunciación de palabras especificando ya sea una parte del discurso o un significado alternativo. Esto se hace usando atributos de rol que especifican una parte del discurso. Te permite decirle a Amazon Polly si interpretar la palabra leída como verbo en el presente, dice Tense, y voy a leer este libro o la palabra es roja en tiempo pasado? Al igual que en, he leído este libro. Esto se puede hacer usando diferentes atributos como Amazon VB, un Amazon V B D. Use Amazon sense underscore uno para significados alternos a las palabras. Por ejemplo, la base de sustantivo generalmente se refiere a la parte más baja de la escala musical, pero también puede ser una especie de peces de agua dulce si la pronunciación de la palabra es diferente. Si no quieres el significado predeterminado de las palabras que se deletrean igual pero que tienen significados diferentes cuando se pronuncian de manera diferente, entonces usa la etiqueta de significado alternativo. la estructura básica para marcar texto para personalizar la pronunciación de palabras utilizando el elemento W A continuación se muestrala estructura básica para marcar texto para personalizar la pronunciación de palabras utilizando el elemento Wy en las siguientes diapositivas, la palabra R E a d puede interpretarse como la presente forma simple leída o el pasado participio forma rojo. La palabra B. A s s puede interpretarse como una base de elemento musical o es su alternativa que significa un bajo de peces de agua dulce En formas resumidas de mejorar la pronunciación del texto, usar S SML incluyen solo permitir que la tecnología se mantenga cada vez más inteligente en cuanto a proporcionar un mejor reconocimiento de contexto o usar etiquetas como la etiqueta sub alias para pronunciar acrónimos y abreviaturas. El tag telefónico para pronunciar palabras con diferentes sonidos fonéticos. Y la etiqueta w para especificar partes del habla y significados alternos. Las herramientas de texto giran te dejaron texto alterno con sinónimos alternos. Puede utilizar la página web del Departamento de Vehículos Automóviles para renovar su registro de vehículos en línea. O ella va o yo voy No hay otro o la cara triste de esta camiseta tiene una lágrima en ella . Sospecho que el principal sospechoso en el incendio de la Catedral de Notre Dame está totalmente torcido. Esto nos lleva al final de este tutorial. Espero que haya encontrado útil esta lección. Por favor, consulte las notas acompañantes en esta sección para obtener más información y gracias por escuchar. Algo debe ser, uh porque me gustas. De ninguna manera. De ninguna manera debe 16. 15: texto a la de añadir Audios: Señoras y señores, bienvenidos. Aquí está nuestro acto de apertura para la noche. Ni gracias, queridos oyentes, Este es mi primer intento, Everett haciendo comedia de pie. Por favor sé amable. Oh, planeo entretenerte con unos chistes fabulosos esta noche. ¿ Quién? ¿ Estás listo? Sí. Está bien. Aquí vamos. ¿ Cuánto más altos verían los niveles si las esponjas no vivieran en el océano? Theo, ¿cuál es la diferencia entre ignorancia y apatía? No lo sé. Y no me importa. ¿ Cómo se enteró del semi colon que quebrantó la ley? Se le dictaron dos sentencias consecutivas. ¿ Te enteraste del ladrón que robó un calendario? Le dieron 12 meses. Ese es todo el tiempo que tengo. Gracias. Hola y bienvenidos de nuevo. En este tutorial, aprenderás a insertar archivos de audio en tus narraciones de voz utilizando el elemento de audio . También veremos otras etiquetas de marcado para insertar elementos de audio y medios en sus archivos de texto a voz. El elemento de audio te permite insertar archivos de audio grabados en tus narraciones de voz. Actualmente, el elemento de audio sólo es compatible con las voces de Google. los requisitos básicos para el uso de archivos de audio en su texto se incluyen asegurarse de que el archivo de audio. Fuente. U R L utiliza el protocolo https una duración máxima de 120 segundos y un tamaño máximo de archivo de cinco megabytes. También debes incluir una descripción para ser leída en voz alta si por alguna razón, tu audiófilo no reproduce la estructura para marcar texto para archivos de audio como se muestra a continuación . Una forma de evitar problemas con los archivos de audio No se reproduce durante el proceso de conversión de texto a voz es alojar los archivos de audio usted mismo en un servicio de almacenamiento de medios en la nube o en línea como Amazon s tres Dropbox o Google Drive. Proporcionamos enlaces a más información sobre herramientas y recurso es para hospedar archivos de audio en la documentación del curso que lo acompaña. Tan solo asegúrate de que los enlaces que apuntan a tus archivos de audio usaran el protocolo https. Puedes insertar diferentes formatos de archivo de audio como Wave MP tres inaug en tu texto. Escucha el siguiente discurso Grabación. Este es el sonido de un niño riendo cardos, el sonido de un perro ladrando. Observe que en la grabación acaba de escuchar sonidos reproducirse en el orden en que aparecen en el texto. En otras palabras, audiófilos normalmente juegan en secuencia uno tras otro. Ahora escucha esta forma de grabación. ¿ Qué está pasando aquí? Ni siquiera puedo oírme pensar. Con todos estos ruidos locos pasando en la grabación, acabas de escuchar todos los sonidos sonando al aire simultáneamente. ¿ Cómo funciona esto? Déjame mostrarte. Además de usar el elemento de audio en tus narraciones de voz, puedes usar elementos como etiquetas secuenciales paralelas y de medios para afinar tu discurso. Las etiquetas paralelas te permiten reproducir múltiples elementos multimedia simultáneamente. Las etiquetas secuenciales te permiten reproducir elementos multimedia tal como aparecen en tu texto. Las etiquetas de medios permiten agregar elementos de texto y audio dentro de etiquetas paralelas y secuenciales y utilizar atributos para modificarlos como texto fundido y audios dentro y fuera. Aumentar o disminuir el volumen. Repita y establece la duración de los elementos de medios y especifica dónde comienzan y terminan los elementos de medios . Piensa en etiquetas paralelas y secuenciales como contenedores. Puedes colocar sonidos de textura dentro de etiquetas de medios y modificarlos usando diferentes atributos . Si necesita más control de sus archivos de texto y audio incrustados, utilice etiquetas paralelas para reproducir elementos multimedia simultáneamente o etiquetas secuenciales para reproducir elementos multimedia en el orden en que se escriben en su archivo de texto. Adicionalmente, usa varios atributos de medios para afinar tu discurso. Te mostraré cómo funciona esto en tan solo un momento. En primer lugar, echemos un vistazo rápido a los atributos de medios que se le permite usar con archivos de texto y audio. Los atributos de los medios te brindan un control más fino sobre cualquier texto o audio insertado en tu discurso. Uso. Comienza a especificar cuándo quieres que comience a reproducirse un elemento multimedia. Por ejemplo, puede especificar un elemento multimedia para reproducirse después de 37 o 9.5 segundos. Use end para especificar cuándo debe dejar de reproducirse un elemento multimedia. Esto es útil si solo quieres reproducir los primeros segundos de un archivo de audio largo y luego dejar de reproducir el archivo. Repetir recuento le permite especificar cuántas veces desea que se repita el elemento de medios, por ejemplo, dos veces cinco veces 10 veces etcétera. La duración de repetición le permite colocar un límite en la duración del medio insertado. nivel de sonido te permite ajustar el nivel de sonido de tu audio. Esto es útil si estás reproduciendo elementos multimedia simultáneamente y quieres que uno de los elementos se reproduzca más fuerte o más suave en la mezcla. Fade in duration te permite especificar cuándo un elemento multimedia debe desvanecerse en reproducción, y la duración de desvanecimiento te permite especificar hasta qué punto debe comenzar a desvanecerse el texto o el audio Desde el final de tu elemento multimedia, vuelve a escuchar la grabación donde diversos elementos mediáticos se están reproduciendo simultáneamente. Espera, ¿qué está pasando aquí? Ni siquiera me oigo pensar con todos estos ruidos locos pasando. Si estudias el marcado de este texto, verás cinco elementos multimedia encerrados dentro de las etiquetas P A R. El primer elemento es el texto hablado cerrado en tags de habla y configurado para comenzar 12 segundos en el discurso con un nivel de volumen elevado de cuatro decibelios, el segundo elemento como archivo de audio de un niño riendo, dispuesto a repetir cuatro veces con un volumen ligeramente inferior al de la narración. Los siguientes tres elementos mediáticos son archivos de audio de perros ladrando y autos con sirenas configuradas para finalizar el discurso Después de 20 segundos, con un desvanecimiento de cinco segundos al final, tenga en cuenta que se pueden combinar diversos atributos de medios al marcar archivos de medios. Ahora que entiendes cómo crear una narración con audiófilos simultáneos tocando en paralelo, déjame reproducir el archivo una vez más para que puedas escoger todos los diversos elementos mediáticos y su forma de configuración. ¿ Qué está pasando aquí? Ni siquiera me oigo pensar con todos estos ruidos locos pasando. Aquí hay otro ejemplo de cómo insertar archivos de audio para reproducirlos simultáneamente utilizando etiquetas paralelas . Aquí vamos, preparándonos para fonte cuerpo forma de moverse al ritmo. Siente el amor preparándose para cuerpo cuerpo. Pero y aquí hay un ejemplo de cómo insertar archivos de audio para reproducirlos secuencialmente con algunos ajustes de medios. Hola, Olivia. Hola, Kate. ¿ Cómo estás? Bien, Gracias. ¿ Se puede recitar el alfabeto inglés para nuestros oyentes? Mostrar A B C D E f g h i J k l M N O p Nueve letras más y luego dijo en resumen, utilizó el elemento de audio para insertar audio pre grabado en tu voz. Las narraciones utilizan etiquetas paralelas para reproducir archivos multimedia simultáneamente. Etiquetas secuenciales para reproducir archivos multimedia en orden secuencial y etiquetas de medios para combinar archivos de voz y audio con atributos que le permiten encontrar a los elementos de medios configuraciones como tiempos de inicio y fin establecer repetición y duración aumentar y disminuir volumen y establecer fundidos ins y desvanecerse outs. Esto nos lleva al final de este tutorial. Espero que haya encontrado útil esta lección. Por favor, consulte las notas acompañantes en esta sección para obtener más información y gracias por escuchar. Señoras y señores, por favor den la bienvenida a Noé de nuevo al escenario. Gracias. Me desperté esta mañana y olvidé de qué lado sale el sol. Entonces me amaneció. Acabo de escribir una canción sobre tortillas. En realidad, es más bien un rap. Entonces, ¿y si no sé qué significa Armagedón? No es el fin del mundo. El campeón mundial de Twister de lengua acaba de ser arrestado. Oí que le han dado una sentencia muy dura. Hace poco decidí vender mi aspiradora. Todo lo que hacía era juntar polvo. Odio las muñecas rusas. Están tan llenos de sí mismos. ¿ Cómo se llama a una B que no puede decidirse? A lo mejor Velcro. Qué estafa. En ocasiones me metí de rodillas en el pecho y me inclino hacia adelante. Así es como rodo. Has sido un público tan maravilloso. Gracias y buenas noches. 17. 16 - VoiceFX de texto a discurso: ¿ Estás listo? Hola y bienvenidos de nuevo. En este tutorial, aprenderás a agregar efectos de voz adicionales a tu texto a archivos de voz como agregar el sonido de respirar dos palabras y oraciones, susurrar palabras hablando suavemente, controlar tambor de voz y agregando compresión de rango dinámico dos secciones de tu texto para mejorar la calidad de escucha de audio. Tenga en cuenta que los efectos de voz cubiertos en esta lección actualmente solo están disponibles para Amazon. Polly Voices Comencemos esta lección aprendiendo a agregar el sonido de la respiración a tu texto. El habla sonando natural incluye palabras pronunciadas correctamente y sonidos respiratorios. Puedes hacer que el sonido del habla sintetizado sea más natural agregando sonidos de respiración al texto usando las etiquetas Amazon breath y Amazon auto breath en las siguientes opciones con modo manual, configuras la ubicación, longitud y el volumen de una respiración sonido dentro del texto. Con el modo automatizado, puedes dejar que Amazon Polly decida dónde insertar automáticamente los sonidos respiratorios en tu discurso. El modo mixto te permite a ti y a Amazon Polly añadir sonidos respiratorios tanto de forma manual como automática a tu discurso. A continuación se muestra la estructura para agregar sonidos de respiración al texto nota que existen varias formas de utilizar estas etiquetas y atributos. Cubriremos estos con más detalle en las próximas diapositivas. Modo manual. Vamos a colocar la etiqueta de aliento Amazon en tu texto donde quieras que aparezca un aliento. Se puede personalizar la longitud y el volumen de las respiraciones, utilizando los atributos de duración y volumen. La duración te permite controlar la longitud de la respiración. los valores que puedes usar para establecer la duración de las respiraciones se incluyen los valores predeterminados. Extra corto, corto, medio largo, un extra largo. El valor predeterminado para la duración es medio. El volumen te permite controlar la sonoridad de la respiración. Los valores que puedes usar para ajustar el volumen de respiraciones incluyen por defecto extra suave, suave, medio fuerte y extra fuerte. El valor predeterminado para el volumen es medio. Tenga en cuenta que la longitud exacta en volumen de cada valor depende de que la voz de Amazon Polly se utilice para establecer un sonido de respiración utilizando valores predeterminados en modo manual utilizado la etiqueta de aliento de Amazon sin atributos, por ejemplo, para establecer la duración y el volumen de una respiración a medio. Normalmente establecerías el valor de estos atributos como se muestra aquí. De acuerdo, solo relájate y respira para establecer un sonido de respiración usando estos valores predeterminados. Basta con utilizar las etiquetas sin atributos como se muestra aquí. Agregar respiraciones a tus oraciones puede hacer que tu discurso suene más natural. También puedes agregar sonidos de respiración individuales dentro de un pasaje de texto en modo manual, utilizando etiquetas como se muestra aquí. Wow, estoy acabando esa carrera muy rápido. Creo que acabo de vencer a mi mejor personal. Tenga en cuenta que hemos agregado elementos de Prasad IQ anidados al texto para acelerar la velocidad en volumen de la voz y crear un efecto de sonido más realista. En el modo automatizado, puedes usar la etiqueta de respiraciones automáticas de Amazon para decirle a Amazon Polly toe que crea automáticamente ruidos de respiración a intervalos apropiados. Modo automatizado. Vamos a establecer la frecuencia de aliento, intervalos, volumen y duración. Tenga en cuenta, sin embargo, que a diferencia del modo manual, la etiqueta Amazon Auto Breaths requiere etiquetas de apertura y cierre. Coloca la etiqueta de apertura al principio del texto, donde quieras que comiencen los sonidos de respiración automatizada y una etiqueta cerrada donde quieras que terminen los sonidos de respiración. Puede utilizar atributos opcionales de frecuencia y duración con el volumen de la etiqueta de respiraciones automáticas de Amazon controla el volumen de la sonoridad de la respiración. los valores que puedes usar para controlar el volumen de la respiración se incluyen los valores predeterminados. Extra suave, suave, medio ruidoso y extra fuerte. El valor por defecto para el volumen de la respiración en modo automatizado como controles de frecuencia media. Con qué frecuencia se producen sonidos respiratorios en la frecuencia del texto. Los valores incluyen por defecto extra bajo, bajo, medio alto, un extra alto. El valor de frecuencia predeterminado son los controles de duración media. El valor de duración de la respiración que puedes usar incluye por defecto extra corto, corto, medio largo, un extra largo. El valor predeterminado para la duración es medio por defecto. La frecuencia de los sonidos respiratorios depende del texto de entrada. No obstante, los sonidos respiratorios suelen ocurrir después de comas y periodos. Veamos ahora algunos ejemplos de cómo usar la etiqueta de respiraciones automáticas de Amazon. En las próximas diapositivas, veremos ejemplos de voz generada a partir del texto utilizando el modo automatizado sin especificar parámetros opcionales y utilizando el modo automatizado con control de volumen, control frecuencia y especificación de múltiples parámetros . Escucha el primer ejemplo de habla sintetizada usando sonidos de respiración automatizada sin especificar parámetros opcionales. El sueño es una parte importante de tu rutina diaria. Pasamos alrededor de 1/3 de nuestras vidas durmiendo. Lograr un sueño de calidad suficiente es tan esencial para la supervivencia como la comida y el agua. Todos necesitan dormir, pero su propósito biológico sigue siendo un misterio. sueño tiene efectos en casi todo tipo de tejido y sistema en el cuerpo, desde el cerebro, el corazón y los pulmones hasta el metabolismo, función inmune, ánimo y la enfermedad Resistencia Las investigaciones muestran que una falta crónica de sueño o de conseguir sueño de mala calidad aumenta el riesgo de trastornos, entre ellos la presión arterial alta, enfermedades cardiovasculares, la diabetes, la depresión y la obesidad. Ahora escucha un ejemplo de habla sintetizada usando sonidos de respiración automatizada con valores de control de volumen especificados. El sueño es una parte importante de tu rutina diaria. Pasamos alrededor de 1/3 de nuestras vidas durmiendo. Lograr un sueño de calidad suficiente es tan esencial para la supervivencia como la comida y el agua. Todos necesitan dormir, pero su propósito biológico sigue siendo un misterio. sueño tiene efectos en casi todo tipo de tejido y sistema en el cuerpo, desde el cerebro, el corazón y los pulmones hasta el metabolismo, función inmune, ánimo y la enfermedad Resistencia Las investigaciones muestran que una falta crónica de sueño o de conseguir sueño de mala calidad aumenta el riesgo de trastornos que incluyen presión arterial alta, enfermedad cardiovascular, diabetes, depresión y obesidad. Aquí hay un ejemplo de habla sintetizada usando sonidos de respiración automatizada con valores de control de frecuencia especificados. El sueño es una parte importante de tu rutina diaria. Pasamos alrededor de 1/3 de nuestras vidas durmiendo. Lograr un sueño de calidad suficiente es tan esencial para la supervivencia es la comida y el agua. Todos necesitan dormir, pero su propósito biológico sigue siendo un misterio. sueño tiene efectos en casi todo tipo de tejido y sistema en el cuerpo, desde el cerebro, el corazón y los pulmones hasta el metabolismo, función inmune, ánimo y la enfermedad Resistencia Las investigaciones muestran que una falta crónica de sueño o de conseguir sueño de mala calidad aumenta el riesgo de trastornos que incluyen presión arterial alta, enfermedad cardiovascular, diabetes, depresión y obesidad. Y aquí un ejemplo de habla sintetizada usando sonidos de respiración automatizada con múltiples parámetros especificados. El sueño es una parte importante de tu rutina diaria. Pasamos alrededor de 1/3 de nuestras vidas durmiendo. Lograr un sueño de calidad suficiente es tan esencial para la supervivencia como la comida y el agua. Todos necesitan dormir, pero su propósito biológico sigue siendo un misterio. sueño tiene efectos en casi todo tipo de tejido y sistema en el cuerpo, desde el cerebro, el corazón y los pulmones hasta el metabolismo, función inmune, ánimo y la enfermedad Resistencia Las investigaciones muestran que una falta crónica de sueño o de conseguir sueño de mala calidad aumenta el riesgo de trastornos que incluyen presión arterial alta, enfermedad cardiovascular, diabetes, depresión y obesidad. Ahora que hemos cubierto cómo agregar sonidos respiratorios al texto. Echemos un vistazo a cómo agregar un efecto susurrante a las narraciones de voz. Usa la etiqueta susurrada para indicar cuándo se debe hablar el texto en una voz susurrada en lugar de hablar normal. Tenga en cuenta que todas las voces de texto a voz de Amazon Polly apoyan el efecto de susurro. Aquí te dejamos un consejo útil. Puedes mejorar el efecto susurrado ralentizando el proceso la velocidad de tu texto hasta en un 10%. A continuación se muestra la estructura para marcar el texto para interpretar el susurro. Aquí tienes un ejemplo de discurso sintetizado usando susurros, y tengo un secreto que decirte al siguiente efecto de voz. Puedes agregar a tus narraciones como para hacer que las voces hablen más suavemente. Déjame mostrarte cómo hacer esto. Utilice la etiqueta de efecto nación de flujo suave para indicar cuándo se debe hablar el texto. En una voz más suave que la normal como el efecto susurro, puedes mejorar el efecto hablado suave al ralentizar el proceso. El índice de tu texto hasta en un 10%. La estructura para marcar el texto para interpretar la voz hablada suave es la que se muestra a continuación. Escucha un par de ejemplos de discurso sintetizado marcado para narraciones suaves de voz hablada . Hola, soy Matthew. Este soy yo hablando con mi voz normal, y este soy yo hablando con mi voz más suave. Si respiro antes de hablar, puedo frenarme, relajarme, sentirme más tranquilo y más en paz con el mundo. Yo soy Joanna. Al igual que Matthew. También tengo una voz normal y una voz más suave. Cuando llego a casa de un duro día en la oficina, me gusta ir a dar un paseo por la playa con mi perro Bonnie. solo pensar en ello me ayuda a desestresar y relajarme. Otro efecto de voz útil. Se puede agregar a las narraciones como para hacer que las voces suenan más o más pequeñas controlando la voz. Tambor Timber es la calidad tonal de una voz que te ayuda a notar la diferencia entre voces, incluso cuando tengan el mismo tono y sonoridad. Una de las características fisiológicas más importantes que contribuye al habla Tambor como la longitud del tracto vocal, el tracto vocal como una cavidad de aire que se extiende desde la parte superior de la vocal, pliega hasta el borde de los labios para controlar la madera del discurso de salida En Amazon, Polly utilizó la etiqueta de longitud del tracto vocal ha mostrado a continuación. El tag de longitud del tracto vocal tiene el efecto de cambiar la longitud del tracto vocal de los altavoces , que suena como un cambio en el tamaño del altavoz. Aumentar la longitud del tracto vocal hace que el altavoz suene físicamente más grande, disminuyendo. Hace que el altavoz suene más pequeño. Tenga en cuenta que todas las voces de Amazon Polly apoyan el uso de esta etiqueta para cambiar la madera de una voz utilizaron los siguientes valores, agregando un número más o menos por ciento ajusta la longitud del tracto vocal por un cambio porcentual relativo en el actual voz, por ejemplo, más 4% o menos 2% se puede utilizar cualquier valor que vaya desde más 100% hasta menos 50%. Cualquier valor que se encuentre fuera de este rango será recortado, por ejemplo, especificando un valor de más 111% se recortará para sonar como más 100% y especificando un valor de menos 60% se recortará para sonar como menos 50%. También puede especificar un porcentaje absoluto para cambiar la longitud del tracto vocal de la voz seleccionada actual , como 110% o 75%. Tenga en cuenta que un valor absoluto de 110% como equivalente a un valor relativo de más 10% y un valor absoluto de 100% como el mismo que el valor por defecto. Por la voz actual. Escucha algunos ejemplos de habla sintetizada donde controlamos la voz Tambor cambiando la longitud del tracto vocal. Esta es mi voz original sin modificaciones. Ahora imagina que soy mucho más grande. O quizá prefieras mi voz cuando soy muy pequeña. También puedes controlar la madera de mi voz haciendo ajustes menores, por ejemplo, haciéndome ejemplo, sonar un poco más grande, uh, uh, haciéndome sonar solo un poco más pequeño. En este ejemplo, puedes ver que Amazon Polly te permite combinar la etiqueta de longitud del tracto vocal con cualquier otra etiqueta S SML compatible. Debido a que la longitud de la madera o del tracto vocal y el pitcher están estrechamente conectados, podría obtener los mejores resultados al combinar la etiqueta de longitud del tracto vocal con el proceso pitch tag para producir la narración de voz más realista. Con este efecto, recomendamos experimentar con diferentes combinaciones de etiquetas y usar diferentes porcentajes en valores al combinar etiquetas como se muestra en el siguiente ejemplo, el pitcheo Tambor de la voz de una Persona son intrínsecamente conectado en el habla humana. Si vas a reducir la longitud del tracto vocal, es posible que quieras considerar aumentar el tono también. Si optas por alargar el tracto vocal, es posible que también quieras intentar bajar el tono de la voz. El último efecto de voz. Quiero cubrir en esta lección como agregar compresión de rango dinámico al texto, dependiendo del texto, el idioma y la voz que se utilicen en un archivo de audio. Los sonidos pueden variar desde sonidos ambientales permitidos suaves como el sonido de un vehículo en movimiento puede enmascarar sonidos más suaves, lo que dificulta escuchar claramente la pista de audio para mejorar el volumen de ciertos sonidos en su archivo de audio, puedes usar la etiqueta de compresión de rango dinámico. El tag DRC establece un umbral de sonoridad de rango medio para tu audio y aumenta el volumen o ganancia de los sonidos alrededor de ese umbral. Aplica la mayor ganancia aumentada más cercana al umbral y lecciones la ganancia aumentó más lejos del umbral. En términos simples, la compresión de rango dinámico aumenta el volumen de sonidos alrededor del umbral de rango medio. uso de la compresión de rango dinámico hace que los sonidos de rango medio sean más fáciles de escuchar en entornos ruidosos , lo que hace que el archivo de audio Suene más claro oyentes del dedo del pie La estructura para agregar archivos de audio DRC como se muestra a continuación. Tenga en cuenta que el valor de DRC es sensible a mayúsculas y minúsculas y debe escribirse en minúsculas dentro de la etiqueta . También tenga en cuenta que todas las voces y los idiomas de Amazon polly admiten el uso de la etiqueta DRC. Adicionalmente, ten en cuenta que puedes aplicar compresión de rango dinámico a toda una sección de texto o solo a unas pocas palabras. Escuchar la siguiente grabación de voz con DRC aplicada a una sección del texto. Las grabaciones de audio pueden ser entornos difíciles como un vehículo en movimiento, pero esta sección del audio racial debería ser menos difícil ser vehículo en movimiento porque le hemos aplicado compresión de rango dinámico. También puede utilizar la compresión de rango dinámico con la etiqueta de volumen de proceso. Ya que esta gráfica muestra la etiqueta de volumen de proceso aumenta uniformemente el volumen de todo el audiófilo desde su nivel original. Aquí se muestra una línea punteada a un nivel ajustado marcado en el gráfico como una línea sólida usando la etiqueta DRC con el proceso, etiqueta de volumen aumenta aún más el volumen de ciertas partes del archivo de audio. Combinar etiquetas no afecta la configuración del proceso la etiqueta de volumen en términos simples. Lo que esto significa es que puedes usar la etiqueta de volumen de proceso para aumentar el volumen en todo el audiófilo. Algo a tener en cuenta si planeas usar compresión de rango dinámico con el proceso. Etiqueta de volumen es que cuando usas ambas etiquetas juntas, Amazon Polly aplica primero la etiqueta DRC para aumentar los sonidos de rango medio cerca del umbral . Después aplica el proceso la etiqueta de volumen, que aumenta aún más el volumen de toda la pista de audio de manera uniforme. Por lo que en términos simples, utiliza la etiqueta DRC con la etiqueta de volumen de proceso para primero aumentar el volumen de los sonidos de rango medio y luego aumentar el volumen general de toda la pista de audio. Aquí hay alguna información adicional sobre el uso de la compresión de rango dinámico para usar las etiquetas juntas anidan una etiqueta dentro de la otra en el siguiente ejemplo. El tag de volumen de proceso aumenta demasiado alto el volumen de todo el pasaje. Si bien la etiqueta DRC mejora el volumen de los valores de rango medio en la segunda oración, recuerda también usar etiquetas de cierre para ambos elementos. Escuche la grabación de voz a continuación. Para escuchar estos efectos en acción, este texto necesita ser comprensible y permitido. Este texto también necesita ser más comprensible en un automóvil en movimiento. En resumen, usa las etiquetas de respiración y auto respiraciones para ayudar a crear un discurso sonoro más natural al agregar respiraciones a las narraciones de texto y voz. Usa la etiqueta susurrada para agregar susurros a tu texto. Usa la etiqueta suave para obtener efectos de voz hablada más suaves. Utilice la etiqueta de longitud del tracto vocal para cambiar Tambor de voz cambiando el tamaño de los altavoces . Longitud del tracto vocal y utilizar la etiqueta DRC con o sin el proceso. El dedo del pie etiqueta de volumen. Añade compresión de rango dinámico al texto e incrementa el volumen de sonidos de rango medio en tus narraciones de audio. Esto nos lleva al final de este tutorial. Espero que haya encontrado útil esta lección. Por favor, consulte las notas acompañantes en esta sección para obtener más información y gracias por escuchar. Hola y bienvenidos a otro episodio del podcast Meditación AI, donde solo decimos lo que están pensando los demás antes de empezar. Respira hondo y relájate. Siéntete libre de cerrar los ojos. Ahora a menos que estés conduciendo, en cuyo caso quizá quieras mantener los ojos bien abiertos. nombre de todas las voces sintéticas, hago lo siguiente prometido a año nunca te voy a dar por vencido Nunca te voy a defraudar Nunca vas a correr por ahí y desertar nunca vas a hacerte llorar Nunca vas a decir adiós Nunca vas a decir una mentira y te lastimó camino juego 18. 17: etiqueta de lenguaje de texto a discurso: Señoras y señores, señora Amos años, envíen a sus a C senores comprando un diamante en Terrence Don Massey Amarillos de carbono. Te doy el certificado de buena fe indubitablemente sobrecalificado, no compensado, todo poco convencional, un corpóreo y casi inconcebible pero altamente creíble. Kate the AI Narrator Hola y bienvenidos de nuevo. En este tutorial, aprenderás a especificar otro idioma para palabras específicas en tu texto usando la etiqueta de marcado de idioma. Tenga en cuenta que esto no es lo mismo que traducir texto a otros idiomas, que cubriremos en un tutorial separado. Además, ten en cuenta que la etiqueta de idioma que usaremos actualmente solo está disponible para voces de Amazon Polly. Puede usar la etiqueta de idioma para especificar otro idioma para una frase o frase de palabra específica en su texto. Por lo general, las voces sintéticas pronunciarán mejor la lengua extranjera, las palabras y las frases. Si el aire del del encerrado dentro de un par de etiquetas de idioma, puede especificar el idioma usando XML. lenguaje atribuye la estructura para interpretar texto utilizando otros idiomas como se muestra a continuación Amazon. Polly soporta voces de texto a voz en muchos idiomas diferentes. En esta tabla se enumeran los idiomas soportados por Amazon Polly con los códigos de idioma, es necesario utilizar con la etiqueta de idioma. Aquí, puedes ver cómo usar atributos de idioma con la etiqueta de marcado de idioma. Tenga en cuenta que los códigos de identificación lingüística incluso le permiten diferenciar entre usar dialecto lingüístico tales palabras hablantes en francés o francés, canadiense o palabras hablantes en portugués Usando un portugués brasileño o europeo pronunciación. Repasemos algunos ejemplos para que veas cómo marcar texto para especificar el uso de otros idiomas al pronunciar palabras específicas para entender cómo funciona la etiqueta de idioma, empecemos con lo básico. Todas las palabras de su texto se hablan en el idioma de su voz seleccionada, a menos que aplique la etiqueta de idioma. Si aplicas la etiqueta de idioma, las palabras dentro de las etiquetas se hablarán en ese idioma. Por ejemplo, digamos que seleccionamos la voz de Joanna para narrar nuestro texto, y el texto contiene palabras en un idioma extranjero como el francés sin etiquetas de marcado de idioma . Joanna nos habla inglés por lo que Amazon Polly interpretará la frase que se muestra a continuación en voz estadounidense de Joanna en inglés. Sin acento francés. Escucha cómo suena el texto cuando se convierte en audio. Jamie Parle Pas Francais. Si utilizas la voz de Joanna con la etiqueta de idioma Amazon. Polly hablará la sentencia en francés acentuado estadounidense porque Joanna es como no una voz nativa francesa. pronunciación se basa en su lengua materna, que es nosotros el inglés. Escucha cómo suena el texto cuando se convierte en un archivo de audio. Parla pal Francais nota que mucho como la forma en que la mayoría de la gente no pronuncia palabras perfectamente al tratar de hablar un idioma extranjero. La voz estadounidense en inglés de Joanna no utiliza características perfectas de pronunciación francesa para hablar esta frase. Como hablante de francés fluido, necesitará usar una voz nativa de habla francesa en su lugar. Como sabes de un Bethel, di la etiqueta del idioma, entonces es útil cuando quieres que tus narraciones de voz pronuncien mejor palabras en lenguas extranjeras . Por ejemplo, escuche la grabación de audio a continuación mientras Matthew, otra voz en inglés de Estados Unidos, pronuncia la palabra portuguesa brasileña para un tipo bien conocido de barbacoa de carne. Me encanta comerla Roscoe, que es carne brasileña a la parrilla. Me encanta comer hosko zapato, que es carne a la parrilla brasileña. También se puede utilizar la etiqueta de idioma al traducir texto a idiomas extranjeros. Por ejemplo, si utilizas la voz de Giorgio, quien habla italiano con el siguiente texto de ejemplo que contiene una frase en inglés. Amazon Polly hablará la frase en la voz de Giorgio con una pronunciación italiana. Si utilizas la misma voz con la etiqueta de idioma Amazon, Polly pronunciará las palabras etiquetadas en inglés acentuado italiano. Tener una escucha de la grabación de audio del texto que se muestra a continuación. A lo mejor en realidad terminó la fábrica de chocolate. A lo mejor, en realidad, Charlie y la fábrica de chocolate. ¿ No suena eso? Bellissimo? Aquí hay otro ejemplo de usar la etiqueta de idioma para pronunciar nombres en yukking. Fue,ya sabes, ya sabes, venti Quattro vaulting Holly Grove lo que seguiste. Debes ver que se le antojaba en América demandar en patrón ético contralto público desconocido infierno tras sexo solo estaba experimentando en vivo podríamos aportarte Para Linda encarcelada en Uki en tu sabes, Venti Quattro. Bueno, hay muchos de ustedes seguidos. Debes ver que le dijiste en América que demandaran. En efecto Go patron control publico y heloc decisión Abou apenas estaba experimentando licencia. Podríamos aportarle barril en la puerta de la cárcel. El último ejemplo que quiero mostrarte utiliza la etiqueta de idioma para pronunciar nombres extranjeros utilizados en el texto en su lengua materna. Tener una escucha de la grabación de audio del texto que se muestra a continuación Miguel Ángel de la Davico Hueso son Rati Simoni o más comúnmente conocidos por su nombre de pila. Miguel Ángel fue escultor, pintor, arquitecto y poeta italiano pintor, de la Hi Renee desde que nació en Forenza, o la República de Florencia, considerado por muchos el mayor artista de su vida y por algunos el más grande artista de todos los tiempos, a menudo se le considera contendiente por el título del arquetípico Renee desde que Man, junto con su rival, el compañero florentino Leonardo da Vinci Michelangelo Deal, o nacido en Devika ROTC Money o, más comúnmente conocido por su nombre de pila, Miguel Ángel era escultor, pintor, arquitecto y poeta italiano pintor, del Hi Renee. Desde que nació en Ferentz, Say , o La República de Florencia, considerado por muchos el mayor artista de su vida y por algunos, el más grande artista de todos los tiempos, a menudo se le considera un contendiente por el título del arquetípico Renee desde el hombre, junto con su rival, el compañero florentino Leonardo da Vinci. En resumen, usa la etiqueta de idioma para especificar otro idioma para palabras, frases o oraciones específicas en tu texto. Recuerde que Amazon Polly admite muchos idiomas, consulte la tabla de etiquetas de identificación de idiomas para los códigos de idioma y utilice estos dentro los atributos del lenguaje XML para especificar el idioma. Esto nos lleva al final de este tutorial. Espero que haya encontrado útil esta lección. Por favor, consulte las notas acompañantes en esta sección para obtener más información y gracias por escuchar. Yo era un 20 en mi mochila a lo largo de la polvorienta destetada América Más bien cuando llegó Osama You con un cargador de carga de lona de gama alta. Si vas a ganar América, hazme conmigo Vale, Reid Y por eso clima en la cueva debajo Entonces dije Oh, no decidas Me preguntó si lo había visto con tanto de eso aguantar la arena Y dije: Escucha, Tengo todos los caminos de la tierra que quiero decir en todas partes, hombre. He estado por todas partes, hombre Cruz por la s Es que traigo a la montaña hombre de viaje He tenido mi parte he estado por todas partes he estado por todas partes, hombre he estado por todas partes hombre es experimento Respira, hombre. He estado en todas partes Kingston por pizza Digamos que he estado en todas partes, hombre. He estado en todas partes, hombre. Primero su experimento le traigo al American Air Man fuera de mi chef. Estar en todas partes. Está bien, espera. Tres. El monte, Su viaje. Ya he tenido mi parte, hombre. Yo he sido mucho 19. 18 - Texto: lo que se hacemos en conjunto: buen pago por los días Recibido. Elementos seleccionados listos para recoger cerca de ti A a 50 grados, 57 minutos 10 segundos norte y seis grados 54 minutos 27.8 segundos este esta noche a las 7 30 Buena suerte. Hola. Y bienvenido de nuevo. En esta lección, aprenderás a crear archivos de audio a partir de archivos de texto marcados. Los temas que se tratan en esta lección incluyen revisar el texto a voz, un proceso de creación de archivos de audio, cómo crear archivos de audio utilizando las voces de Google y Amazon Polly y cómo crear archivos de audio en diferentes idiomas. Entonces lo que voy a hacer en esta lección es guiarte por el proceso de tomar contenido que se ha agregado a un archivo de texto plano dos marcándolo con s etiquetas SML y luego convirtiéndolo en un archivo de audio como este. Una prueba de gira es un método de indagación en inteligencia artificial ai para determinar si una computadora es o no capaz de pensar como un ser humano. El test lleva el nombre de Alan recorriendo al fundador del Turning Test en un científico informático inglés , analista agrupado, matemático y biólogo teórico. Antes de pasar por el proceso de convertir un archivo de texto marcado en una narración de audio. Repasemos una vez más los pasos involucrados en el proceso de texto a discurso. El proceso comienza con la creación de contenido basado en texto. Este contenido puede ser en forma de narración, guión y ventas de artículos. Copiar instrucciones de capacitación. Un libro, etcétera. Después de que tu contenido haya sido escrito, el siguiente paso es seleccionar tu motor de texto a voz como se mencionó anteriormente, necesitas elegir tu motor de texto a voz antes de marcar tu texto porque diferentes plataformas de texto a voz pueden no apoyar o permitir que utilice un desorden. Etiquetas de marcado SML en el archivo de texto de ejemplo. Te acabo de jugar. Por ejemplo, el contenido utiliza palabras que requieren una pronunciación fonética diferente así como efectos como susurrar que solo Amazon Polly ofrece actualmente. Entonces para ese ejemplo, usamos en Amazon Polly Voice para la narración de audio. En lugar de seleccionar el motor Google TTS después de seleccionar tu motor T ts, el siguiente paso es marcar tu texto usando etiquetas S SML. Para completar este paso, por favor revise todos los tutoriales de marcado proporcionados en el módulo anterior de este curso. Después de marcar tu archivo de texto con etiquetas S SML. El siguiente paso es ejecutar su contenido a través de su herramienta T ts después de seleccionar su herramienta de procesamiento de texto a voz. El siguiente paso es seleccionar tu idioma o dialecto. Elige una voz masculina o femenina para tu narración, importa tu archivo de texto SS ml y luego convierte tu texto en un archivo de audio. Después de crear tu narración de audio, puedes descargar nuestra exportación tu audiófilo y utilizarlo para cualquier aplicación que necesites . Dicho video narraciones Páginas web, podcasts, audiolibros, etcétera. George ahora te guiará por este proceso y te mostrará paso a paso. Cómo crear una narración de audio a partir de un archivo de texto. Gracias, Kate. Aquí tenemos nuestro archivo de texto marcado. Como se puede ver, hemos agregado las etiquetas open y close speak e insertado etiquetas de marcado S SML adicionales. Debido a que este archivo de texto utiliza nombres de teléfono, tendremos que convertir este texto en un archivo de audio utilizando el motor de texto de Amazon Polly a voz ya que solo Amazon Polly interpreta al mismo tiempo objetivos telefónicos y etiquetas de marcado frenético. Entonces este es el archivo de texto que subiremos a nuestra herramienta de procesamiento de texto a voz y convertiremos en un archivo de audio. Vayamos ahora al texto a Herramienta de procesamiento de voz. Como se mencionó anteriormente. Este curso ha sido creado. Usando un par de herramientas de procesamiento de texto a voz. Usará Wave Net vocalize ER para procesar archivos de texto usando Google voices y localizador de scripts para procesar archivos de texto usando Amazon Polly Voices. Ambas aplicaciones funcionan exactamente de la misma manera que fueron creadas por el mismo desarrollador de software . Vamos a iniciar sesión en estas herramientas, empezando por wave Net vocalize er, Una vez que estés encerrado, ve a agregar nuevo. Esto te llevará a la pantalla principal de Wave Net vocalize er, vamos también a seguir adelante e iniciar sesión en el localizador de scripts. Haga clic en agregar Nuevo. Como se puede ver, ambas herramientas están dispuestas exactamente de la misma manera. La única diferencia con estas herramientas es su capacidad para procesar diferentes características de texto a voz de S SML. Hemos cubierto ampliamente estas características y diferencias en los tutoriales de marcado S S S M L , por lo que referirse a esa firma de módulos o información sobre qué herramienta seleccionar al procesar archivos de texto . El primero que hay que hacer al crear un archivo de audio es dar el nombre del archivador. A continuación, selecciona un idioma, luego elige tu voz. Después de nombrar su archivo y seleccionar un idioma y voz, haga clic en el botón Elegir archivo para ubicarlo. Selecciona una carga tu archivo de texto. Una vez que tu archivo de texto haya sido seleccionado y subido, desplázate hacia abajo hasta la parte inferior de la pantalla y haz clic en el botón Crear. Tu archivo de texto será procesado y convertido en un archivo de audio. Una vez que el texto se haya convertido en audio, reproduzca el archivo y escuche el resultado. Una prueba de gira es un método de indagación en inteligencia artificial AI para determinar si una computadora es o no capaz de pensar como un ser humano. Si todo está bien, selecciona la opción de descarga para descargar tu archivo de audio terminado a tu disco duro. Como se mencionó en otra lección, script vocalize ER guarda archivos de audio en formato MP tres y wave net vocalize er guarda audio es archivo ausente. Si necesitas que el audio esté en un formato diferente, puedes convertir fácilmente archivos MP tres audios toe way y viceversa, utilizando las herramientas a las que se hace referencia en otras lecciones y el material del curso de descarga que lo acompaña solo para recapitular el todo el proceso, después asegúrate de que tu texto haya sido marcado correctamente y guardado en formatos de texto sin formato . Inicia sesión ya sea en la onda net vocalize o script vocalize er tools o ambas, dependiendo del texto a speech tour necesitas nombrar tu archivo. Seleccione un idioma, seleccione un clic de voz zapatos archivados y, a continuación, localice. Selecciona en, sube tu archivo de texto y finalmente haz clic en el botón de actualización para convertir tu archivo de texto en una narración de audio. Uno de los beneficios de usar la voz sintética es que si necesitas corregir o mejorar algo, puedes cambiar fácilmente el archivo de texto fuente, volver a guardar, volver a subir y repetir el proceso hasta que estés contento con el resultados. Gracias, George. ¿ Sería también lo suficientemente amable de mostrar a nuestros oyentes cómo traducir texto a otros idiomas y convertir sus archivos de texto traducidos en narraciones de audio? Por supuesto, sería un placer para mí. Déjame mostrarte cómo traducir texto a otros idiomas y cómo convertir texto traducido en narraciones de voz. Hay dos formas de hacer esto. El primer modo es escribir el texto en un idioma diferente. Este método funciona si eres quien planeas usar conspicuo, leer, escribir y entender ese lenguaje. El segundo camino es escribir el contenido en el idioma. Ya sabes cuál para este ejemplo Rueda dice es el inglés. Después traduce el texto del inglés a otro idioma y luego pasa por el proceso de creación de archivos de marcado y audio. Para este breve tutorial, nos vamos a centrar en traducir texto a otros idiomas y convertir el resultado en un audiófilo narrado por una voz sintética hablante nativa. El primero que necesitamos es nuestro archivo de texto. Tenga en cuenta al traducir texto a otros idiomas para el procesamiento de texto a voz que no se puede utilizar una versión marcada del texto como proceso TTS. ER traducirá las etiquetas de marcado, y esto producirá errores. Esta es una de las razones por las que te recomendamos marcar una copia de tu contenido y no del archivo de contenido original. Además, asegúrate de que el texto que planeas convertir en una narración de audio pueda traducirse a un idioma compatible con una voz de Google o Amazon Polly. Entonces aquí está nuestro archivo de texto. Sin etiquetas de marcado, copia todo el contenido de tu archivo de texto a tu portapapeles. A continuación, abre tu navegador Web y escribe Google Translate. Esto trae a la luz la herramienta Google Translate. Para este ejemplo, queremos asegurarnos de que la pantalla de entrada de texto esté configurada en inglés. Siguiente. Selecciona el idioma en el que traducir tu texto. Para este ejemplo, Vamos a elegir francés Pega tu texto en los libros de texto inter. Tenga en cuenta que el Google traducir todo tiene un límite de caracteres, y se fue. Traduce tu texto. Si supera el límite, la herramienta traducirá automáticamente tu texto al idioma que hayas seleccionado. Copie la traducción en su portapapeles y pegue en un archivo de texto sin formato. Guarda tu archivo de texto. Repite este proceso para traducir su texto a otros idiomas. Por ejemplo, puedes traducir el texto al alemán o chino o a cualquier otro idioma compatible con Google , TTS o Amazon. Polly Voces Ahora que has traducido tu texto, tienes dos opciones. Puedes conseguir que alguien que tenga una comprensión fluida del idioma para que te ayude a marcarlo, o puedes convertir el texto traducido, como lo es en audio usando wave net vocalize er o script localizer. Existen algunas formas de convertir texto traducido en audio usando wave net vocalize er la primera forma es hacer una copia del archivo de texto traducido, por lo que preserva el contenido original y las etiquetas de velocidad de apertura y cierre hasta el principio y final del texto y luego guarde el archivo. Siguiente iniciar sesión remolque. Wave net vocalize er click en añadir nuevo Dale un nombre a tu archivo. Seleccione el idioma de su archivo de texto traducido. Elige una voz. A continuación, haga clic en el botón elegir archivo y localice. Selecciona una carga tu archivo de texto traducido con las etiquetas de hablar agregadas. Haga clic en el botón Crear después de que su archivo de texto haya sido procesado. Comprueba que el archivo se haya convertido en audio, pero Rusia fue uno. Este. Hazlo solo hacer Alamoudi gratis y no es de tu ayuda o mostrar que usa Expedia. Mafiosi. Ariel Apropiado Cola sólo se movió en la televisión. Elegido abo mando usualmente móvil, lo harán ella sólo en pobreza. Animal do empresa. Dassault Chaudhry. Si estás contento con el resultado, descarga el archivo de audio a tu disco duro. De lo contrario, arregla cualquier cosa que necesite arreglar y repita el proceso hasta que estés contento con los resultados. Si estás usando la versión actualizada de Wave Net vocalize er, puedes saltar usando el Google translate all y usar la función de traducción incorporada directamente dentro de la propia herramienta. Para ello, basta con cargar o pegar la versión de texto en inglés sin ninguna etiqueta de marcado adicional en el cuadro de texto de pegar. Haga clic en el botón traducir y, a continuación, haga clic en el botón crear. Consulta la generación de tu pedido después del procesamiento. LaTasha era uno Este. Hazlo. No leas Alemao. El libre en estas poción natural especial de música Goofy se sentirá tímido. L apropiado. No me muevo. No aireen sobre nosotros solo mueva un comandante Woofy solo animal sin fines de lucro. El de la empresa. El script social Localizer no tiene una función de traducción incorporada, pero se pueden crear archivos de audio a partir de texto traducido utilizando la etiqueta de idioma con una voz hablante nativa , como se explica en los tutoriales de marcado de texto a voz. Para ello, inicia sesión en tu script área de administración vocalizada. Haga clic en agregar nuevo dale un nombre a su archivo. Seleccione el idioma de su archivo de texto traducido. Elige una voz de ese conjunto de idiomas. A continuación, haga clic en el botón elegir archivo y localice. Selecciona una carga tu archivo de texto traducido con las etiquetas de hablar agregadas. Haga clic en el botón Crear después de que su archivo de texto haya sido procesado. Comprueba que se haya convertido en audio. Toshiba es uno Este. Hazlo en la radio y melodicalmente en estos No es tu ayuda. Oceanografía El video de la música. Si Shania se apropió sólo más. Don t creó un niño películas de años de edad. Kalmadi se sentirá sólo conoció la pobreza. Animal la empresa. Ahí hay una falsificación. Descarga el archivo de audio en tu disco duro. Enhorabuena. Acabas de aprender a traducir texto a otros idiomas y a convertir Texto traducido en narraciones de voz. Gracias, George, George, por mostrar a nuestros oyentes cómo crear archivos de audio a partir de archivos de texto marcados y traducidos . Esto nos lleva al final de esta lección. Espero que hayan encontrado útil esta información y gracias por escuchar. 20. 19: consejos de texto a discurso: - hacer nuevos amigos pero mantener el viejo es plata Thea otro es oro. Hacer nuevos amigos círculos rata Pero mantener lo viejo no tiene fin Uno es plata, así es el tiempo que va el otro. Yo seré tu amigo. Circulo su ronda, hago nuevos amigos No tiene campo final Eso es cuanto tiempo Plata seré tu amigo El otro se llama Hacer Nuevos Amigos Círculo es redondo Mantener lo viejo no tiene fin Thea Otras escuelas serán tu amiga. Un círculo está alrededor Hacer nuevos amigos No tiene fin ¿Qué haces? ¿ Por cuánto tiempo? Una sílaba seré tus amigos. Haces nuevos amigos El círculo es la clave. Siente que no lo tiene. Así voy a ser tu amigo Círculo su ronda Hacer nuevos amigos no tiene fin Eso es lo largo que está un círculo alrededor Hacer nuevos amigos No tiene fin pero mantener el viejo es plateado Thea otro es oro Hacer nuevos amigos Un círculo es rata Pero mantener el viejo que no tiene fin Uno es plata Así es el tiempo que el otro es oro Hola y bienvenidos de nuevo en esta lección te proporcionamos consejos sobre marcar archivos de texto a voz, consejos para crear narraciones de voz y sincronizar estos dos videos en pantalla o de escritorio grabaciones y video sobre dubs consejos de solución de problemas sobre qué hacer si experimentas problemas o errores y algunas reflexiones de cierre sobre dónde ir y qué hacer después de completar este curso, comencemos con algunos consejos básicos. Asegúrate de dominar los conceptos básicos de usar texto a discurso antes de empezar. Es importante gestionar tus expectativas y saber lo que puedes y no puedes hacer al usar voces sintéticas. tecnología actual de texto a voz es genial, pero no es perfecta. la tecnología Sin embargo, sólo mejorará con el tiempo, así que espera que las cosas sigan siendo cada vez más inteligentes y mejores. También es importante entender procesos como marcar texto y convertir texto a audio, así que asegúrate de revisar todos los videos y la documentación del curso antes de empezar. Asegúrate de tener acceso a todas las herramientas que necesitarás y de que sepas usar estas herramientas. Todas las herramientas que se muestran en este curso son bastante fáciles de usar y no requieren habilidades técnicas ni conocimientos. Revisa nuestras herramientas de texto a voz, lección Si necesitas ayuda o más información, recuerda marcar tu texto usando solo archivos de texto sin formato. No utilices formato en tu texto como cursiva de boulder, ya que esto creará errores durante el proceso de conversión de audio, te recomendamos hacer una copia de tu archivo de texto original y trabajar en la copia para cosas como marcas. Esto preserva su texto original para cosas como presentaciones de diapositivas, contenido Web y una gama de otros usos. Además, recuerda guardar archivos de texto en formato utf ocho. Si su contenido utiliza símbolos fonéticos, si necesita ayuda, consulte el tutorial de marcado sobre pronunciación de texto. George ahora te llevará a través de un video paso a paso. Camina con consejos sobre cómo marcar tus archivos de texto. Gracias, Kate. Déjame compartir contigo una forma rápida y práctica de marcar tus archivos de texto. Aquí está el archivo de texto original. Como se puede ver, no hay etiquetas de marcado en este texto. El primer consejo entonces es no trabajar en su archivo de texto original. En cambio, haz una copia en la que trabajarás al marcar tu texto. De esta forma, conservas el archivo de texto sin formato original sin Marcar etiquetas en caso de que necesites usarlo para otra cosa, como copiar y pegar frases en lados de presentación, bloquear publicaciones, Web páginas, etcétera, y tendrás una versión marcada del texto que podrás seguir reutilizando y reeditando si es necesario. Entonces vamos a crear un nuevo archivo de texto para la versión marcada de nuestro texto. Guardaremos este archivo en un momento. En la sección Power User tips de este tutorial, te recomendamos crear una hoja de trucos de texto plano o un archivo deslizado que contenga etiquetas S SML y fragmentos de texto y etiquetas que puedes copiar y pegar fácilmente en nuevos archivos de texto a voz . Como puedes ver aquí, puedes seguir agregando elementos y fragmentos y mantener a mano este archivo de deslizamiento. Siempre que estés trabajando en un nuevo proyecto de texto a discurso, incluso puedes guardar Hole marcado frases que usó repetidamente, como narraciones para presentación de diapositivas, intros o declaraciones de cierre. Lo primero que hay que añadir a tu nuevo archivo de texto en blanco de las etiquetas de apertura y cierre de hablar. Puedes teclearlos o simplemente copiar y pegar estos desde tu archivo de deslizamiento. A continuación, selecciona todo el contenido de tu archivo de contenido, luego copia y pega esto en tu archivo de marcado entre las etiquetas de hablar abiertas y cerradas. Lo siguiente que recomiendo hacer es deshacerme de cualquier espacio entre líneas esto hace o marcado archivo de texto apretado, compacto y más fácil de detectar cualquier error o error flagrante. A continuación, hemos encontrado que agregar párrafos y pausas al texto ayuda a crear una generación de voz más natural . Por lo tanto, agreguemos párrafos y saltos a cada línea Al usar párrafos. Recuerda que necesitamos abrir y cerrar etiquetas de párrafo. Una forma rápida de hacerlo es pasar por el texto y montar primero las etiquetas de párrafo de apertura , Entonces asegúrate de que tu archivo de texto esté establecido una palabra envolviendo las etiquetas de cierre al final. Ya hemos creado etiquetas de párrafo de cierre con descansos de un segundo, así que solo copiaremos estas etiquetas de nuestro archivo deslizado y Adam al final de cada línea de texto en nuestro archivo de marcado. Recuerda seguir guardando tu archivo de texto a intervalos regulares. Como dije, también nos gusta sumar descansos al final de cada línea, y hemos encontrado que una ruptura de un segundo entre párrafos tiende a ralentizar un poco la narración y crear una pausa de sonido agradable y natural entre oraciones. Hablando de descansos y pausas, también hemos encontrado que agregar pausas de alrededor de 200 milisegundos entre múltiples elementos separados con comercio y pausas de alrededor de 500 milisegundos entre oraciones en párrafos ayuda a seguir realzar el efecto sonoro natural de la voz. Narración. Experimenta con pausas y descansos de diversas duraciones para encontrar lo que mejor te funcione para ti y el proyecto en el que estás trabajando, pero generalmente este es el siguiente paso que nos gusta hacer. Además, medida que pasas de marcar texto a convertir tu archivo de texto en audio, encontrarás que algunas partes del discurso necesitan descansos más largos y algunas no necesitarán ninguno en absoluto. Así que sigue experimentando, ajustando y afinando hasta que tu grabación de voz suene tan natural como puedas hacerlo. Después de agregar descansos y pausas en cualquier otra etiqueta de marcado o necesidades de texto. Todos estos fueron cubiertos en los tutoriales de marcado S S S M L, por lo que por favor refiérase a esas lecciones en los materiales del curso que lo acompaña. Si necesitas ayuda o información adicional, sigue adelante hasta que tu archivo de texto esté hecho y ya para llevarlo al siguiente paso, que es convertir tu texto en discurso una vez más. No tienes que preocuparte demasiado por tu marca en esta etapa ya que puedes seguir volviendo a este archivo y haciendo ajustes y mejoras. Si hay algún error ortográfico o errores evidentes, podrás elegirlos al probar tus conversiones de texto a voz. Normalmente, mayoría de los errores ocurren al olvidarse de agregar etiquetas de cierre o escribir etiquetas incorrectamente, como comillas faltantes, símbolos etcétera. Recuerda seguir guardando o archivando a medida que vas y mantente enfocado. Aziz. Trabajas. Tome pequeños descansos a menudo si es necesario, ya que esta etapa del proceso requiere atención al detalle. Después de repetir este proceso algunas veces, comenzarás a desarrollar una sensación instintiva para marcar texto con descansos, pausas, prasad, prasad, elementos IQ y diversas otras características para crear narraciones de audio que suenan lo más natural y humano posible Likas. Por lo que este es el proceso para marcar archivos de texto. Recuerda conservar tu archivo de contenido original creando y marcando una copia del contenido. De esta forma podrás seguir reutilizando tanto el contenido original como seguir trabajando en editar y mejorar el marcado de o texto sin perder el contenido original de tu discurso. Gracias, George. Ahora que hemos cubierto algunos consejos básicos, veamos consejos de potencia que pueden mejorar tu flujo de trabajo de texto a voz y ayudarte a obtener mejores resultados. Como mencionó George en el video, recomendamos crear un archivo de deslizamiento o una hoja de trucos para almacenar las etiquetas y fragmentos de texto s SML de uso común . De esta forma podrás cortar y pegar de forma rápida y sencilla etiquetas de marcado y otros fragmentos como texto marcado para intros y finales de diapositivas en tu texto. Para ayudarte a ahorrar tiempo, invierte tiempo en marcar tu texto. Trata de que tu narración suene lo más cerca de la vida. Likas. También puedes invertir tiempo en que tus narraciones sean correctas de esta manera. Tu narrador de voz hará un gran trabajo cada vez, se familiarizará con todas las diferentes voces y personalidades de voz y aprenderá a emparejar la voz adecuada con el trabajo. Google y Amazon Polly ofrecen una gama de voces en diferentes idiomas y dialectos. Utiliza los audios grabados para mejorar tus habilidades de redacción de copias crear mensajes de ventas más efectivos y escribir scripts más potentes. Pretendemos tu texto y utilizamos el mismo texto en diferentes aplicaciones. Convierte tus narraciones en diferentes idiomas y más. Si estás trabajando en un trozo de texto grande, dividirlo en segmentos más pequeños. Antes de convertir estos en audio, audiófilos podrían unirse fácilmente para crear pistas de audio de longitud completa. El último power tip que quiero compartir contigo es usar música de fondo para ayudar a sacar el filo artificial de tus narraciones. La música y las imágenes pueden crear un efecto poderoso con narraciones de voz bien marcadas. En algunos casos, puede ser difícil decir si la narración está siendo hablada por una voz humana o sintética . Una vez más, voy a pedir a George que les demuestre lo bien que la música, video y las narraciones de voz sintéticas pueden trabajar juntos. Hola, soy George. Soy una voz generada artificialmente. Narrador. Alguien como yo puede ahorrar tiempo y dinero a las empresas en áreas como el video marketing, que todo el mundo sabe es una de las formas más poderosas y efectivas de promover productos y servicios en línea. Llega a nuevas audiencias a nivel mundial, establece tu marca educa e informa o prospectos sobre tu negocio en personal capacitado, clientes y clientes. Algunos grandes usos para una narraciones de voz I incluyen videos de ventas. Explicar los videos, videos de capacitación, anuncios video, presentaciones , podcasts , libros hablados páginas web para usuarios con discapacidad visual y tantos otros usos. Una vez que sepas convertir texto a voz, puedes crear videos con duraciones de audio como ésta de forma rápida y sencilla utilizando herramientas muy económicas. Gracias por ver este video y tener un maravilloso día hecho. Quiero mostrarles ahora cómo crear pistas de audio que se sincronizarán bien con grabaciones de video de lanzamiento de pantalla de tiempo natural . Esto es útil si planeas grabar videos de escritorio sobre el hombro como tutoriales en pantalla y así sucesivamente. En primer lugar, crea una pista de audio guía aproximada para tu video usando una voz humana, que reemplazarás más adelante con una narración de voz sintética bien pensada. Para ello, graba una pista de audio aproximada con una voz humana para crear un sentido natural del tiempo para tu grabación en pantalla y para establecer marcadores de contenido y guías generales para las acciones e ideas que quieres expresar en tu video. Si utilizas una herramienta de edición de video como Cam Tasia que puede separar pistas de video y audio durante el proceso de edición. Entonces no te preocupes por grabar una pista de audio de baja calidad con muchas bombas y Oz. toser, estornudar, olfatear, perros, ladrar tráfico, sonidos en el fondo. Errores, etcétera. que no usarás esta pista en tu edición final, solo tienes que enfocarte en grabar la acción en tu pantalla. Después de grabar la guía aproximada, transcribe la pista de audio y mejora tu narración de texto. Escribe cada frase en una línea separada con pausas entre oraciones. El siguiente paso es convertir tu texto en discurso. Este paso se cubre en un módulo de capacitación previo. A continuación, agregue editar y emparejar el archivo de audio de narración de voz sintética a la grabación de video en pantalla. Después de sincronizar la narración de voz sintética con tu video, apaga o borra la pista de voz humana para crear un video terminado entregado con un sentido natural del tiempo y un sonido ineficaz, preciso y profesional narración de voz. Aquí tienes una demo rápida en video para que puedas ver cómo se ve esto. Entonces aquí tenemos nuestro archivo de texto marcado, y como pueden ver, ya hemos agregado la apertura en las etiquetas Speak de cierre, y también tenemos una serie de otras etiquetas de marcado SML ya insertadas en el texto Ahora porque estamos usando ah, nombres telefónicos. Como puedes ver aquí, estaremos usando Amazon. Tendremos que usar una voz de Amazon Polly en lugar de Google porque en el Amazon Polly las voces ahora mismo pueden interpretar alfabetos fonéticos, um, nombres telefónicos. Entonces esta es nuestra Esta es la caída de texto que estaremos subiendo para convertir en audio. Entonces vamos ahora a nuestros procesos de texto a voz y convertir este fuego este archivo de texto en un archivo de audio. Por lo que aquí tenemos nuestro archivo de texto marcado. Como se puede ver, hemos agregado las etiquetas open y close speak e insertado etiquetas de marcado S SML adicionales. Debido a que este archivo de texto utiliza nombres de teléfono, tendremos que convertir este texto en un archivo de audio utilizando el motor de texto de Amazon Polly a voz ya que solo Amazon Polly interpreta simultáneamente objetivos telefónicos y etiquetas de marcado frenético. Entonces este es el archivo de texto que subiremos a nuestra herramienta de procesamiento de texto a voz y convertiremos en un archivo de audio. Al crear narraciones de voz para videos de presentación de diapositivas, puede insertar marcadores de cambio de diapositiva en la narración con pausas a ambos lados Para permitir que la diapositiva realice la transición. Puedes crear un marcador de cambio de diapositiva usando palabras habladas como decir, cambiar, diapositiva o usar sonidos como un marcador se pueden eliminar de la pista de audio en el proceso de edición de video , algo más que puedes fácilmente hacer con voces sintéticas en cuanto a corregir secciones de tu audio con nuevas narraciones de texto. Para ello, cree un nuevo archivo de texto utilizando la línea o sección de texto que necesite ser arreglado. Ejecuta el archivo de texto marcado a través de tu procesador de texto a voz, Guárdalo como un nuevo archivo de audio y reemplaza la sección de tu pista de audio por la nueva en tu edición final. Hablemos ahora sobre la solución de problemas con qué tipo de errores y desafíos puedes esperar lidiar al procesar archivos de texto a voz y qué hacer para resolver o solucionar cualquier problema y problema que surja primero. ¿ Y si no puedes iniciar sesión en tu herramienta de procesamiento de texto a voz? Si esto sucede, comprueba que has ingresado los datos de inicio de sesión correctos, y si esto no soluciona el problema, entonces ponte en contacto con el desarrollador de software. Abre un ticket en su mesa de ayuda o ponte en contacto con su equipo de apoyo. Uno de los problemas más comunes. Probablemente te encuentres con nuestros mensajes de error al procesar archivos de texto a voz. En caso de que esto suceda, comprueba en tu texto las etiquetas SML faltantes o extras como etiquetas de apertura o cierre incorrectas. De igual manera, compruebe las etiquetas de apertura y cierre para detectar elementos faltantes como los corchetes de apertura o cierre. cita de Coghlan marca etcétera. Con la mayoría de los problemas, Comprueba tu texto para ver si hay errores de etiqueta de marcado. Después de arreglar estos, guardamos volver a subir y volver a ejecutar su archivo a través del procesador TTS. Además, comprueba que realmente has subido un archivo de texto un descuido común en cuanto a abrir la herramienta TTS , selecciona un idioma y una voz y luego ejecuta el procesador sin haber subido un archivo de texto . Otra cosa que puedes comprobar es que no has superado ningún límite, como tener demasiados caracteres o enlaces de audio en tu archivo de texto. Por último, si experimenta problemas después de ejecutar su procesador de texto a voz, intente desglosar archivos de texto grandes en segmentos más pequeños. Después convierte estos en archivos de audio y comprueba tu audio resultante para ver si puedes aislar cualquier error o sección de texto que pueda estar causando problemas al cerrar. Después de completar este curso, asegúrate de descargar las herramientas TTS y el recurso es archivo pdf y la documentación de la hoja de trucos . Familiarízate con las herramientas a dónde acceder y cómo utilizarlas. Empieza a aplicar tus nuevas habilidades Si tienes un sitio web, crea narraciones para tus videos de ventas. Videos de capacitación, páginas Web habladas para visitantes. Inicia un podcast regular. Convierte los boletines en contenido de audio para tus suscriptores, etcétera. Desafíate. Inicia un nuevo proyecto basado en audio o recrea una obra existente utilizando narraciones de voz sintéticas . También puedes iniciar un negocio ofreciendo servicios profesionales de texto a voz a clientes. Ya sea que decidiste tomar este curso para mejorar tus habilidades, hacer crecer tu negocio, llegar a un público más amplio o por cualquier otra razón. Espero que hayan disfrutado aprendiendo a usar texto a discurso para crear narraciones de voz de sonido profesional . También espero que este curso te haya demostrado que lo que puedes hacer usando texto a discurso solo está limitado por tu imaginación. Imaginación. Una última cosa. Por favor, manténgase en contacto con nosotros visitando el enlace que aquí se muestra y suscríbase para recibir actualizaciones del curso, consejos útiles e información y noticias sobre los últimos desarrollos de texto a discurso. Esto nos lleva al final de este curso. Espero que el conocimiento que has ganado en estas lecciones te abra muchas oportunidades y maravillosos nuevos horizontes para ti en nombre de mí mismo y de todo el equipo de ai Narrador te Aquí vamos Siente el amor preparándote para cuerpo pero muévete a la ritmo sentir el amor 21. 20: Recursos de texto a discurso: Hola, soy yo otra vez. Aquí en el recurso está la sección. Encontrarás mucha información útil, incluyendo archivos descargables con enlaces a todas las herramientas. Y recurso es que hemos cubierto en este curso herramientas de ahorro de tiempo adicionales y recurso es transcripciones de audio con etiquetas de marcado para que puedas aprender cómo creamos parte del contenido en las lecciones s SML markup tag cheat sheets para Google y Amazon Polly referencias con enlaces a toda la investigación realizada para crear este curso e información adicional que te puede resultar útil. Por favor, recuerde visitar el siguiente enlace y suscribirse para mantenerse en contacto y recibir actualizaciones del curso , consejos útiles e información y noticias sobre los últimos desarrollos de texto a discurso. Una vez más, Muchas gracias por su empresa y por ser parte de este emocionante viaje. Te deseo mucho éxito