Transkripte
1. : - Hallo. Mein Name ist Kate, und ich bin ein Spracherzähler mit künstlicher Intelligenz. In diesem kurzen Video möchte
ich Ihnen einige der Dinge zeigen, die Sie in unserem Text-to-Speech-Kurs für Anfänger
mit preiswerten Text-to-Speech-Tools und synthetischen Spracherzählern wie mir selbst tun werden. Lehnen Sie sich zurück, hören Sie zu und genießen Sie es. - Hallo. Dies ist eine aufgezeichnete Ankündigung. Der blaue Zug, der auf Bahnsteig Nummer eins ankommt, fährt um 8:06 Uhr ab und hält an den folgenden US-Stationen: Dead Horse, Alaska , Arizona Nowhere, Colorado Greasy Corner, Arkansas Fluffy Hölle für bestimmte, Kentucky Buttzville, New Jersey Du sagst entweder und ich sage entweder du sagst weder und ich sage auch weder Landung, Florida
Hölle für bestimmte, Kentucky
Buttzville, New Jersey
Du sagst entweder
und ich sage entweder,
du sagst weder
und ich sage auch weder Landung, Florida
Hölle für bestimmte, Kentucky
Buttzville, New Jersey
Du sagst entweder
und ich sage entweder,
du sagst weder
und ich sage auch weder Weder Weder lasst uns das Ganze abrufen. Liebe Zuhörer, das ist mein erster Versuch, eine Stand-up-Komödie zu machen. Bitte seien Sie freundlich. Ich habe vor, dich heute Abend mit tollen Witzen zu unterhalten. Bist du bereit? Ok, los
geht's. Ich war überall, Mann, ich war überall, Mann durchquerte die Wüsten nackten Mann Ich atmete die Bergluft Mann der Reise Ich hatte meinen Anteil Mann Ich war überall, wo ich in Louisville war, Nashville, Knoxville, Ombabika Schefferville, Jacksonville, Waterville, Costa Rica, Pittsfield, Springfield, Bakersfield, Shreveport, Hackensack, Cadillac, Fond du Lac, Davenport, Idaho, Jellico, Argentinien... Fuchs in Socken von Dr. Seuss Fox, Socken, Box, Knox Knox in Box, Fuchs in Socken Knox auf Fuchs in
Socken in Box Socken auf Knox und Knox in Box Fox in Socken auf Box auf Knox Küken mit Ziegeln Küken mit Blöcken kommen Küken mit Ziegeln und Blöcken und Uhren kommen , Sir, sehen Sie, Sir. Mr Knox, Sir... Neue Freunde finden... Aber halten Sie die
alte ist Silber... Der andere ist Gold. Machen Sie neue Freunde (ein Kreis ist rund), Aber halten Sie die alte (es hat kein Ende) Einer ist Silber (das ist, wie lange) Der andere ist Gold (Ich werde dein Freund sein) Ein Kreis ist rund (neue Freunde) Es hat kein Ende ( aber halten Sie die alte) Das ist, wie lange (eine ist Silber) Ich werde dein Freund sein (der andere ist Gold) Hallo und willkommen zu einer anderen Episode des AI Meditation Podcast wo wir nur sagen, was andere denken... Bevor wir anfangen... Sie tief durch... und entspannen Sie sich. Würdest du dir das ganze Zeug ansehen... Sie haben Inbusschlüssel
Rennmaus Feeders
WC-Sitze Rennmaus Feeders , elektrische Heizungen Müllverdichter Saft Extraktor, geduscht Stangen und Wasserzähler Walkie Talkies Kupferdrähte Schutzbrille Radialreifen BB Pellets Gummischlägel Ventilatoren und Luftentfeuchter Bild Kleiderbügel Papierschneider Waffeleisen Fensterläden malen Entferner Fenster Lamellen Abdeckband und Kunststoff-Dachrinnen Küchenarmaturen Klapptische Wetter Stripping Jumper Kabel Haken und bekämpfen Mörtel und Spachtel, Power Nebel, Löffel und Schöpfkellen, Pestizide für die Begasung Hochleistungsschmierung Metalldach Wasserabdichtung Mehrzweckisolierung... Herzlichen Glückwunsch! Heute ist dein Tag Du bist weg zu großartigen Orten Du bist weg und weg. Du hast Gehirne im Kopf Du hast Füße in deinen Schuhen Du kannst dich in jede Richtung lenken, die du wählst Du bist auf eigene Faust und weißt, was du weißt und du bist der Typ, der entscheidet wohin Geh.
2. 01 – Text-to-Speech: Hallo und willkommen zu „Wie man Text-to-Speech-Audiodateien erstellt“ einem praktischen Schritt-für-Schritt-Kurs für Anfänger. Mein Name ist Kate und ich bin ein auf künstlicher Intelligenz basierender Spracherzähler. Ich werde während des gesamten Unterrichts Ihr Hauptlehrer sein, zusammen mit anderen synthetischen Spracherzählern wie George, Mia und Navin, deren Stimmen in vielen unserer Tutorials,
Demos und Beispielen enthalten sein werden . George, Mia, Navin, bitte stellen Sie sich vor. Hallo! Ich bin George, und ich freue mich darauf, Ihnen zu helfen, realistisch klingende Audiodateien
mit Text-to-Speech-Technologien zu erstellen , genau wie die, die mich geschaffen hat. Und ich bin Mia von unten. Wie Sie sehen können, bin
ich ein Australier klingender KI-Spracherzähler und werde Sie
zusammen mit meinem Kumpel Navin im Unterricht unterstützen . Navin, bist du da? Willst du den Zuhörern ein kurzes Hallo sagen? Danke, Mia und willkommen liebe Zuhörer, ich bin Navin und ich bin auch ein Spracherzähler, der mit der gleichen
Technologie der künstlichen Intelligenz erstellt wurde , die Sie lernen werden, wie man in diesem spannenden Kurs zu verwenden. Wie Sie sehen können, Erstellen von Text-to-Speech-Audiodateien nicht nur viel Spaß. aber es hat auch viele praktische Anwendungen, vor allem für Unternehmen, die mit ihren digitalen
Marketing-Kampagnen und Promotions Zeit und Geld sparen wollen . Einige der Dinge, die Sie mit Text-to-Speech tun können, sind das Erstellen von Audio- und
Spracherzählungen für Verkaufsvideos, Erklär-Videos, Video-Verkaufsbriefe, Schulungsvideos, Videoanzeigen für soziale Medien, Präsentationen, Ankündigungen, Podcasts, Hörbücher, gesprochene Webseiten für sehbehinderte Benutzer und so viele andere Anwendungen und Anwendungen. Kate, vergessen Sie nicht, unseren Zuhörern mitzuteilen, dass wir Textdateien und
Audio-Stimmenerzählungen leicht in viele verschiedene Sprachen umwandeln können . Danke, George. Werde ich. Sobald Sie gelernt haben, wie Sie eine Text-to-Speech-Datei erstellen, können
Sie Ihre Textdateien und Audioerzählungen schnell und einfach in Dutzende von
verschiedenen Sprachen konvertieren . Kate, erzähl den Zuhörern von einigen der anderen spannenden Dinge, die wir ihnen in diesem
Kurs beibringen werden . Sicher... „So erstellen Sie Text-to-Speech-Audiodateien“ „Ein praktischer
Schritt-für-Schritt-Kurs für Anfänger“ wurde entwickelt, um Ihnen beizubringen, wie Sie Text-to-Speech und
die neuesten AI-Sprachtechnologien verwenden , um Textdateien zu erstellen, die dann leicht konvertiert werden können in audio-ähnliche Spracherzählungen. Dieser Kurs wurde speziell für nicht-technische Benutzer erstellt, sodass Sie nicht lernen müssen, wie man Software programmiert oder programmiert, um die Lektionen anzuwenden und
Ergebnisse zu erhalten . Der Kurs umfasst eine kurze Geschichte der Sprachsynthese, eine grundlegende Einführung in die SSML-Markup-Sprache und praktische Schritt-für-Schritt-Anleitungen zum Erstellen von Text-to-Speech-Dateien. Sie erfahren, wo Sie kostengünstige und kostenlose Technologien und Tools finden können
, mit denen Sie professionelle Spracherzählungen aus Textdateien erstellen können, und wir zeigen Ihnen, wie Sie diese Tools verwenden. Sie werden auch lernen, wie Sie grundlegende Text-to-Speech-Markup-Tags verwenden, um Dinge wie
Pausen,
Hervorhebungen und verschiedene andere Biegungen in Ihren Text einzufügen Pausen, Hervorhebungen und verschiedene andere Biegungen in Ihren Text einzufügen während wir Sie Schritt für Schritt durch den Prozess der Erstellung von Textdateien führen, die dann leicht in Spracherzählungen und Audiodateien für eine Vielzahl von Anwendungen
wie Videos,
Anweisungen,
Präsentationen,
aufgezeichnete Ankündigungen und viele andere Anwendungen konvertiert wie Videos,
Anweisungen, Präsentationen, Präsentationen, . Verwendung von Text-to-Speech in Web- und Software-Anwendungen bietet
Unternehmen, Unternehmen und Organisationen viele Vorteile , insbesondere wenn es darum geht, Zeit und Geld zu
sparen, ihre Marke und Botschaft über verschiedene digitale und soziale Marketingplattformen und Unternehmen dabei unterstützen, ein breiteres globales Publikum für ihre Produkte und
Dienstleistungen zu erreichen . In den nächsten Jahren werden
wir eine Explosion von Text-to-Speech-Anwendungen und eine
weltweit wachsende Nachfrage nach Menschen mit grundlegenden Text-to-Speech-Fähigkeiten sehen , wie zu wissen, wie Text für die Konvertierung in Audio markiert und bearbeitet werden. Also... wenn Sie nach einer Gelegenheit suchen, der Kurve voraus zu sein und Geld aus diesem
aufstrebenden globalen Trend zu verdienen ,
oder darüber nachdenken, ein Unternehmen zu gründen, um von einer wachsenden Nachfrage nach
Text-to-Speech-Diensten zu profitieren , ist jetzt die beste Zeit, um die grundlegenden Fähigkeiten zu erlernen, die Ihnen dieser Kurs beibringen wird. Das ist also ein Überblick darüber, was dieser Kurs abdecken wird. Wieder einmal, willkommen und lasst uns loslegen.
3. 02 – Text-To-Speech Vorteile: Hallo. Dies ist eine aufgezeichnete Ankündigung. Blue Line Zug, der auf Bahnsteig Nummer eins ankommt, fährt bei 806 ab und hält die folgenden US-Stationen Dead Horse. Alaska Nichts. Arizona nirgends. Colorado Risi Corner Waisen Alle Landing Lord Hilfe für den Dienst Zeit. Butterball New Jersey Burger Town, North Carolina. Nicht Homestead, Ohio. Job unten in Texas und Disco, Wisconsin. Die Red Line Zug Schreiben auf meinem Telefon Nummer zwei wird 1913 abfahren und die
folgenden australischen Stationen stoppen . Chicken Victoria, weißt
du. Nein, sie irren sich. Falsche New South Wales Cool in Westaustralien. Manama Tom Victoria Buggy Queensland Ja, Don Liebling Geschichte. Nun, die New South Wales. Whoa, Queensland und nirgendwo sonst in Tasmanien. Bitte stehen Sie hinter der gelben Linie und warten Sie vor dem Einsteigen auf den vollen Halt des
Zuges . Hallo und willkommen zurück, bevor wir in den Kursunterricht springen. Ich möchte darüber sprechen, warum ich weiß, wie man Text in Sprache als wertvolle Fertigkeit verwendet und
die Hauptvorteile der Verwendung von Text in Sprache für Unternehmen und Organisationen,
Content-Ersteller und Content-Publisher und verschiedene Arten von Endbenutzern abdecken die Hauptvorteile der Verwendung von Text in Sprache für Unternehmen und Organisationen, kann. Text zu Rede ist der Schlüssel für den neuen digitalen Technologieboom, es ist ein riesiger Wachstumssektor. Der Text to Speech Markt wurde 2016 auf 1,3 Milliarden US-Dollar geschätzt und wird voraussichtlich 3,3
Milliarden bis 2022 erreichen . wichtigsten Marktbereichen gehören Verbraucherelektronen, ICS, Bildung, Gesundheitswesen, Verkehr, Retail Finance, Unternehmen und andere Bereiche. Dieses Wachstum wird viele neue und spannende Möglichkeiten für viele verschiedene Arten von Anwendungen
und verschiedene Arten von Benutzern bringen . Text zu Sprache Schafft ein zugänglicheres Internet für alle 15 bis 20% der
Weltbevölkerung hat eine Form sprachbasierter Lernbehinderung. 14% der Erwachsenen in den USA sind Analphabeten und viele haben nur grundlegende Lesefähigkeiten. Darüber hinaus sind
244 Millionen Menschen auf der ganzen Welt geboren. Text zu Sprache hilft, das Web integrativer zu machen, indem es in einen Ort verwandelt, an dem Benutzer zugreifen, sie
nutzen und verdauen
können Informationen im Audioformatzugreifen, sie
nutzen und verdauen
können. Text zu Sprache kann auch dazu beitragen, das Leben zu erleichtern und die Arbeit effizienter und produktiver zu gestalten. Text-to-Speech kann verwendet werden, um Informationen in Regierungs-,
Unternehmens-und Business-Websites,
allgemeine Blog-Anwendungen, e-Bücher,
e-Lernkurse,
Schulungsmaterialien zu verbessern und zu liefern Unternehmens-und Business-Websites, allgemeine Blog-Anwendungen, e-Bücher, e-Lernkurse, e-Lernkurse, Unternehmensdokumentation HR in rechtlichen Richtlinien, Transport und öffentliche Ankündigungen, Systeme und Automatisierung entwickelt, um Kundenerfahrung und Kommunikation zu verbessern. Media Sales und Marketing, Robotik, Embedded-Devices, Self-Service-Anwendungen, das Internet der Dinge und Möglichkeiten, an die wir noch nicht einmal gedacht haben. Text zu Rede wird auch im digitalen Zeitalter notwendiger werden, da Regierungen und
Unternehmen nach Möglichkeiten suchen, das Bürgerengagement online zu erhöhen und die
soziale Verantwortung der Unternehmen zu stärken , indem sichergestellt wird, dass Informationen sowohl in schriftlicher als auch in Audio-Format Text zu Sprache Vorteile, Unternehmen und Organisationen. In vielerlei Hinsicht verbessert es die Qualität der Customer Journey, indem es Unternehmen und
Organisationen ermöglicht , das Kundenerlebnis zu verbessern und auf unterschiedliche Kundenbedürfnisse,
Wünsche und Wünsche im Hinblick auf die Interaktion mit Inhalten zu reagieren . Text-to-Speech minimiert den menschlichen Arbeitsaufwand und senkt die Betriebskosten. TTS vermitteln verwendet, um Mitarbeiter und After-Sales-Kundenschulungen zur Verfügung zu stellen. Schulung der Mitarbeiter in Bezug auf Personal- und Rechtspolitik. Personalisierte Kundenabwicklungsdienste usw. Text-to-Speech verbessert das Branding neuer Ts Technologien ermöglichen es Unternehmen, eine erkennbare synthetische Stimme zu schaffen und zu verwenden, um
ihre Marke in verschiedenen Bereichen des Unternehmens und Kundenkontakt darzustellen Punkte. Text-zu-Sprache kann Ihre Webpräsenz erhöhen. Fast 800 Millionen Menschen weltweit haben Alphabetisierungsprobleme, und 300 Millionen Menschen haben Sehbehinderungen. Sprachoptimierte Webinhalte beeinträchtigen die Benutzerfreundlichkeit für Benutzer ohne
Behinderungen nicht . Es unterstützt auch alle Bevölkerungsgruppen, wie ältere Benutzer und ausländische oder nicht-Muttersprachler. Text in Rede kann Unternehmen dabei helfen, neue Märkte weltweit zu erreichen. T ts Voices gibt es in Dutzenden von Sprachen und Konsensaugen. Rede aus schriftlichen Übersetzungen. Text zu Sprache hilft Unternehmen, Zeit und Geld zu sparen. Online-Inhalte können schnell und einfach in Sprache umgewandelt werden, ohne menschliche Stimme
Talent und Sprache einzustellen . Übersetzer und Text in Sprache ermöglichen eine einfachere Implementierung mit dem Internet der Dinge indem angeschlossenen Geräten eine benutzerfreundlichere Möglichkeit zur Kommunikation mit Verbrauchern gegeben wird. Text-zu-Sprache profitiert auch Content-Ersteller und
Content-Publisher, Content-Ersteller und Publisher können Zeit und Geld sparen, indem TTS Spracherzähler Ihre Kurse
aussprechen. Luft-Erzähler. Podcasts oder Hörbücher als wirtschaftliche und zeitsparende Lösung im Vergleich zur Einstellung von
Sprachtalent und ermöglicht es Ihnen, E-Kurse und Audioprodukte schneller mit weniger Zeit und weniger
Kosten zu erstellen . Wenn Sie menschliche Stimme Talent brauchen. Text-to-Speech ermöglicht es Ihnen, Entwürfe und fertige Audio-Skripte für professionelle
Erzähler zu erstellen . Text-to-Speech ermöglicht es Ihnen auch, bessere Inhalte zu erstellen, wenn Sie einen
Hörbuch-Podcast erstellen möchten . Das Lernprodukt für den Schulungskurs beim Hören eines Audioentwurfs hilft,
Inhalte,
Struktur und Layout zu verbessern ,
Inhalte, , Rechtschreib- oder Grammatikfehler zu
beheben und neue Ideen zu generieren. Text zu Sprache hilft Ihnen auch, effektivere Inhalte zu schreiben. Wenn Sie Ihren Verkaufs-Pitcher-Inhalt laut lesen, können Sie sich besser auf Ihre Nachricht konzentrieren. Verbessern Sie Ihre Schreib- und Schreibfähigkeiten richtig. Effektivere Vertrieb und Schulung Video-Skripte und Präsentationen, Web-Inhalte, Radio-Anzeigen und viele andere Formen von Inhalten. Schließlich unterstützt
Text-to-Speech Ersteller und Herausgeber von Inhalten bei der Erstellung und Bereitstellung von Inhalten für ein globales Publikum, da es einfacher ist, mehrsprachige Audioinhalte und Audioprodukte aus
Sprachübersetzungen zu erstellen . Text-to-Speech bietet auch viele Vorteile für verschiedene Zielgruppen und Benutzer. Text zu Sprache hilft allen Schülern, einschließlich Studenten mit Lernbehinderungen. Verwendet Text-to-Speech, um Audioinhalte für schwierige Leser zu erstellen. Studenten mit Legasthenie und Studenten mit niedrigen Alphabetisierungsstudien zeigen, dass Text zu Sprache Leseverständnis,
Rechtschreibung,
Fehlererkennung und Verständnis von Wortbedeutungen Seh- und Leseschädigte
verbessert Rechtschreibung, Fehlererkennung und Verständnis von Wortbedeutungen Seh- und Leseschädigte profitieren sehr von Inhalten, die laut ausgelesen werden können und Lerninhalte, die leichter zugänglich
gemacht werden können. Fremdsprachenbenutzer können auch von Text zu Sprache profitieren, da übersetzte Inhalte
in Sprache umgewandelt werden, ein größerer Prozentsatz der
Online-Bevölkerung , deren Muttersprache sich von die Sprache einer bestimmten Website oder mobilen App . Ältere Benutzer können auch stark von Text zu Sprache profitieren. Da eine wachsende ältere Bevölkerung zwischen 2015 und 2030 stärker von Technologien für den Zugang zu
Informationen und Dienstleistungen abhängig ist ,
wird die Zahl der Menschen im Alter von 60 Jahren und darüber um 56% von 901 Millionen auf 1,4 Milliarden wachsen. Allein in den USA nutzten
59% der Senioren das Internet. Tägliche sprachgesteuerte mobile Inhalte machen das Internet
leichter zugänglich und schaffen eine einfachere Benutzererfahrung, insbesondere für mobile Benutzer, die hauptsächlich auf mobilen Geräten auf Inhalte zugreifen. Lesen von Inhalten auf einem kleinen Bildschirm kann schwierig und unbequem sein. Es ist viel einfacher, den Inhalt laut vorzulesen, besonders für Benutzer unterwegs. Eine weitere Gruppe von Benutzern, die mit Text zu Sprache unsere Benutzer mit verschiedenen
Lernstilen profitieren können . Menschen haben unterschiedliche Lernmodalitäten. Bereitstellung digitaler Inhalte im Internet, die in mehreren Formaten
verfügbar sind, schafft eine einfachere Benutzererfahrung in zusammenfassenden Text-to-Speech bietet viele Vorteile für Unternehmen und Organisationen, Content-Ersteller und Content-Publisher und verschiedene Arten von Endbenutzern. Da Text zu Sprache in jedem Aspekt des Lebens immer häufiger verwendet wird, wird
es auch viele neue und spannende Möglichkeiten bringen. T.
Ts Technologie ist preiswert und einfach zu bedienen. Macht das Web zugänglich für alle Benutzer hilft, bessere Inhalte zu erstellen, schneller spart Zeit und Geld und so viele weitere Vorteile. Dies bringt uns zum Ende dieses Moduls. Weitere Informationen finden Sie in der Begleitdokumentation in diesem Abschnitt und vielen Dank für das Zuhören.
4. 03 – Text-to-Speech: die Art und Weise, wie die 9000-Serie der zuverlässigste Computer aller Zeiten ist. Tragen Sie alle narrensicher und unfähig zu ihm. Öffnen Sie die Türen des Pod Bay. Tut mir leid, Dave. Ich fürchte, das kann ich nicht. Das ist das Problem. Ich glaube, du weißt, was das Problem ist, Justus. Gut beiseite. - Hallo und willkommen, wie Text-to-Speech-Audiodateien zu erstellen. Ein praktischer Schritt für Schritt Kurs für Anfänger. In dieser Lektion erforschen
wir den Hintergrund der Sprachsynthese mit einer kurzen Geschichte von
Text-zu-Sprach-Technologien , populären Text-zu-Sprach-Engines und grundlegenden Text-to-Sprech-Begriffen, die bei der Erstellung
künstlicher Stimmen verwendet werden . Menschen zu erlauben, mit Computern zu interagieren und sich mit Maschinen zu unterhalten, war ein langjähriger Traum von Science-Visionären, Science-Fiction-Autoren und jüngerer Filmanimatoren und virtueller Software und Spiel -Entwicklern. Menschheit jedoch träumt
jedoch
seit vielen Jahrhunderten davon, künstliche Sprache zu schaffen. Der Gedanke, dass sich ein Thons im Herbst mit Menschen unterhalten könnte, lässt sich nachvollziehen. Ein Sfar Bacca ist 1000. D. Wo Legende
nach Papst Sylvester, der zweite gestohlene Band des geheimen Wissens, ein sprechender Kopf, der jede Frage mit Ja oder Nein beantworten konnte, wurde
es lange vor der Erfindung der elektronischen Signalverarbeitung haben
die Menschen versucht, Maschinen zu bauen, die menschliche Sprache emulieren. Frühe Versuche, menschliche Sprache künstlich zu erzeugen oder, wie wir es jetzt Sprachsynthese nennen, beinhaltet den Aufbau mechanischer Modelle des menschlichen
Stimmtraktes, um Vokalgeräusche zu erzeugen. Balg betätigte akustische mechanische Sprachmaschinen und elektronische Sprachgeräte wie tastaturgesteuerte Sprachsynthesizer oder Volksgerüche und Maschinen, die akustische
Sprachmuster in Klang umwandeln . Mitte der siebziger Jahre eines der ersten Sprachsynthesesysteme entwickelt, wurde
eines der ersten Sprachsynthesesysteme entwickelt,
bestehend aus einer eigenständigen Computerhardware in einer spezialisierten Software, die lesen und sogar singen
konnte. In den 1980er Jahren entwickelte
Bell Labs eines der ersten mehrsprachigen sprachigen unabhängigen Systeme, wobei er umfangreiche Methoden zur Verarbeitung natürlicher Sprachen nutzte. Etwa zur gleichen Zeit entwickelte
Digital Equipment Corporation eine Sprach-, Synthesizer- und Text-to-Sprachtechnologie namens Deck Talk. Hören Sie sich eine Sprachprobe an, die von Deck Talk generiert wird, indem Sie die Stimmen von Perfect Paul und Up a Gear Select verwenden. Im Moment hörst du meine vollkommene Paul-Stimme. aber Ich habeaberauch andere Voreinstellungen. Das, zum Beispiel, in meinem hier oben. Also, was mehr sitzen, wie man sehen kann, klang
frühe Elektronik-Sprachsynthesizer robotisch und waren oft kaum verständlich. Glück für ein I Erzähler wie mich. Sprachsynthese oder der Prozess der Schaffung menschlicher Sprache künstlich hat einen langen Weg seit jenen frühen Tagen, als mechanische sprechende Geräte versuchten, den menschlichen
Stimmtrakt zu emulieren und elektronische Sprachsimulatoren und Sprachsynthesizer erstellt Stimme wie Geräusche mit elektrischen Schaltungen. Die eigentliche Revolution in der Sprachtechnologie kam zustande, als digitale Computer
die Simulation elektronischer Schaltkreise ermöglichten . Die Umwandlung von analogen Signalen in digitale Form und die Erstellung von analogen Signalen aus digitalen Informationen, um Ton in Form von Sprache zu erzeugen. Fortschritte in der Computertechnologie und die Einführung von Desktop-Computern
brachten schließlich erschwingliche Sprachsynthese und Spracherkennung in die Reichweite des durchschnittlichen Computerbenutzers. Viele Computer-Betriebssysteme enthalten Sprachsynthesizer seit den frühen
neunziger Jahren, da diese Technologien billiger und zugänglicher wurden. Das bringt uns dorthin, wo wir jetzt sind. Die Qualität der synthetisierten Sprache verbessert sich stetig
und es wird immer schwieriger, zwischen künstlich erzeugter Sprache und menschlicher Sprache zu unterscheiden, insbesondere wenn neue Technologien für KI und maschinelles Lernen Text-zu-Sprach-Software und Stimme -Anwendungen, das Internet der Dinge, Elektronik-Produkte und die Gaming-Industrie treiben die Sprachtechnologie immer wieder an neue Grenzen . Haben Sie schon von dieser neuen Technologie gehört? Sprechen Sie über diesen neuen Algorithmus, um Stimmen zu kopieren? Ja, es wird von einem Startup voller Geschmack entwickelt. Das ist riesig. Es kann uns jetzt alles sagen lassen. Wirklich? Irgendwas. Die gute Nachricht ist, dass sie die Technologie tendenziell anbieten werden. Das ist riesig. Wie funktioniert diese Technologie? Hey, Leute, ich glaube, sie lernten und künstliche neuronale Netzwerke. Hillary hat Recht, und ich kann Ihnen sagen, dass ihr Team Raten ist, die ich ihm gerne wünsche. Ich bin sicher, dass sie einen guten Job machen werden. So werden künstliche Stimmen nicht von echten menschlichen Stimmen zu unterscheiden. Vielleicht werden sie es eines Tages tun. Sprachsynthesesysteme und Sprechmaschinen Luft nicht mehr eine amüsante Neuheit entwickelt, um ein
billiges Lachen zu entlocken. Boobs Text-zu-Sprachsysteme in der Lage, KI zu erzeugen. Stimmen wie meine werden jetzt in allen Bereichen des menschlichen Lebens integriert, einschließlich Lernen, Lehre, Verkauf von Produkten und Dienstleistungen, Lieferung von Nachrichten, Informationen und Unterhaltung, Rezepte lesen, während Sie kochen und sogar Aufgaben und Aktivitäten in Ihrem Haus und in Ihrem Büro durchführen. Nun, da wir uns die Geschichte der Sprachsynthese angeschaut haben, werfen
wir einen Blick auf einige aktuelle TTS-Technologien und Systeme, die verwendet werden, um
künstliche menschliche Sprache zu erzeugen . Da dieser Kurs sich an nicht-technische Benutzer richtet, bieten diese nächsten Folien nur einen Überblick über Text-zu-Sprach-Technologien, um die
Dinge in den Kontext zu bringen . Am Ende dieses Kurses finden
Sie eine umfassende Liste von Referenzen,
Websites und zusätzliche Ressourcen ist, wo Sie mehr über technische Bereiche im Zusammenhang mit
Text-to-Speech oder TTS-Technologien erfahren können . Ein Sprachcomputer. Ein Sprachsynthesizer kann in Software- oder Hardwareprodukten implementiert werden. Text-zu-Sprachsysteme wandeln normalen Sprachtext in Sprache um. Während andere Systeme symbolische sprachliche Darstellungen wie phonetische Transkriptionen
in Sprache darstellen , sind
die wichtigsten Eigenschaften eines Sprachsynthesesystems natürliche Nous und Verständlichkeit. Natural Miss beschreibt, wie eng die synthetisch erzeugte Stimme klingt wie menschliche Sprache während Verständlichkeit, wie leicht sie verstanden werden kann. Der ideale Sprachsynthesizer zielt darauf ab, synthetische Sprachwellenformen zu erzeugen. Dieser Klang ist natürlich und verständlich wie möglich. Es ist wichtig zu beachten, dass alle Sprachtechnologien Stärken und Schwächen haben. Zum Beispiel, eine der wichtigsten Technologien, die verwendet werden, um Reden zu erzeugen, die als concoct native
Sprachsynthese mit konkoktierter nativer Synthese bezeichnet werden. Eine sehr große Datenbank von Kurzsprachfragmenten, die als Einheiten bezeichnet werden, wird von einem einzigen
Lautsprecher aufgezeichnet und zu vollständigen Äußerungen neu kombiniert. Mit anderen Worten, diese Methode String-Segmente der aufgezeichneten Sprache zusammen. Während dies natürlich klingende synthetisierte Sprache erzeugt, ist
es schwierig, die Stimme zu modifizieren. beispielsweise Sie könnenbeispielsweisenicht zu einem anderen Lautsprecher wechseln oder die Betonung oder Emotion ihrer Sprache ändern ohne eine neue Datenbank aufzuzeichnen. Lassen Sie mich spielen Sie eine Audiodatei, die aus Text mit Hilfe von Concoct native Sprachsynthese generiert wird. Die Blaue Lagune ist ein 1980amerikanischer Romantik- und Abenteuerfilm unter der Regie von Randall Kleiser, eine andere Art von Technologie, die verwendet wird, um Reden zu erzeugen, die
Parametrische Sprachsynthese , zielt darauf ab, ein Maschinenmodell der menschlichen Stimme zu schaffen unter Verwendung der akustischen Eigenschaften des menschlichen Stimmtraktes
und erzeugt Audiodaten, indem die Werte verschiedener Sprachparameter analysiert und diese dann durch Signalverarbeitungsalgorithmen, die als Voke-Gerüche bekannt sind,
zugeführt werden. Wir haben dieses Modell früher berührt, als wir die Geschichte der Sprachsynthese diskutierten. Hier ist eine Audiodatei, die aus Text mithilfe der parametrischen Sprachsynthese generiert wird. Die Blaue Lagune ist ein US-amerikanischer Romantik- und Abenteuerfilm von Randall Kleiser aus dem Jahr 1980. Wie Sie hören können, sind diese synthetisch generierten Stimmen nicht schlecht. Zwar gibt es andere Sprachgenerierungsmodelle verwendet, um Sprachwelle Net als die
natürlichste klingende Sprachtechnologie derzeit zur Verfügung zu synthetisieren . Und als eines der Hauptmodelle, die wir während dieses Kurses verwenden werden, wenn wir lernen, Skripte für Spracherzählungen zu erstellen. Das Wave Net-Modell als die gleiche Technologie verwendet, um Sprache für Anwendungen wie
Google Assistant zu erstellen , Google-Suche und Google Translate Wave Net Technologie bietet mehr als nur eine Reihe von synthetischen Stimme ist es stellt eine neue Art und Weise synthetische Sprache zu schaffen. Wave Net erzeugt Sprache, die natürlicher klingt als andere Text-zu Sprachsystemen. Es ist synthetisiert Sprache mit menschlicher wie Betonung und Beugung auf Silben, Telefonnamen und Wörtern. Studien zeigen, dass die meisten Menschen Wellennetz generierte Sprache,
Audio gegenüber anderen Text-zu-Sprach-Technologien bevorzugen . Im Gegensatz zu den meisten anderen Text-zu-Sprachsystemen erstellt
ein Wave-Net-Modell unformatierte Audiowellenformen von Grund auf neu, wobei ein neuronales Netzwerk verwendet wird, das mit einer großen Menge an Sprachbeispielen trainiert wurde. Hier ist ein Beispiel für Audio, das mit Wave-Net-Sprachsynthese generiert wird Die Blaue Lagune ist ein US-amerikanischer Romantik- und Abenteuerfilm von Randall Kleiser aus dem Jahr 1980. Lassen Sie mich alle drei Sample-Audiophile wieder spielen, damit Sie die Unterschiede zwischen
einer nativen parametrischen Synthese und Wellennetzsynthese hören können . Die Blaue Lagune ist ein US-amerikanischer Romantik- und Abenteuerfilm von Randall Kleiser aus dem Jahr 1980. Die Blaue Lagune ist ein US-amerikanischer Romantik- und Abenteuerfilm von Randall Kleiser aus dem Jahr 1980. Die Blaue Lagune ist ein US-amerikanischer Romantik- und Abenteuerfilm von Randall Kleiser aus dem Jahr 1980. Meine Stimme wurde aus einer Textdatei mit Wave Net Synthese Wave generiert. Net
jedoch jedoch nicht nur synthetisierte Stimmen und liefert natürlichere klingende Sprache. Verwendung von Rohwellenformen bedeutet, dass Wave-Net jede Art von Audio modellieren kann, einschließlich Musik. beispielsweise ein Beispiel von Musik, Hier istbeispielsweise ein Beispiel von Musik,die aus zufälligen musikalischen Dateneingaben in einen Wavelet-Algorithmus erstellt wurde. Klingt das nicht einfach nach Musik in den Ohren? Wie Sie hören können, öffnet
wave Net viele Möglichkeiten für Text-zu-Sprachsysteme. Werfen wir einen kurzen Blick jetzt auf einige der beliebtesten Text-to-Speech Engines. Text-to-Speech-Engines ermöglichen es Benutzern von Anwendungen wie E-Mail-Tools, Webleser, Hörbücher und anderen Softwareprogrammen, geschriebenen Text in Ton zu konvertieren. Verschiedene TTS-Engines ermöglichen den Zugriff auf verschiedene Stimmen, Sprachen und Dialekte. Zum Beispiel hat
Microsoft eine T.
Ts Engine namens Speak, die eine integrierte Funktion von Programmen wie Word, Outlook und Power Point ist. Sie können sprechen, um Text in Ihren Wortdokumenten, e-Mails und Folienpräsentationen laut vorlesen zu lassen. Hören Sie sich ein Beispiel einer Microsoft Speak Engine Stimme an, die einen Satz liest, der in ein
Word-Dokument eingegeben wurde . Meine Krone ist in meinem Herzen, nicht auf meinem Kopf, nicht mit Diamanten und indischen Steinen geschmückt. Auch nicht gesehen
zu werden. Meine Krone wird als „Inhalt“ eine Krone bezeichnet. Es ist, dass selten Könige genossen. Dieses Zitat stammt aus dem Theaterstück König Heinrich der Sechste von William Shakespeare. Hallo, ich bin Kendra von Amazon Polly. Beachten Sie, dass es einen Unterschied zwischen Inhalt und Inhalt gibt. Hier ist, wie ich das Zitat von Shakespeare sagen würde. Meine Krone ist in meinem Herzen, nicht auf meinem Kopf, nicht mit Diamanten und indischen Steinen geschmückt. Auch nicht zu sehen, meine Krone wird als „Inhalt“ eine Krone bezeichnet. Es ist, dass Könige selten genießen. Dieses Zitat stammt aus dem Stück König Henry, der sechste, von William Shakespeare. Das zweite Audiobeispiel, das Sie gerade gehört haben, wurde mit Amazon Polly erstellt
, einem Text-to-Speech-Dienst, der fortschrittliche Deep-Learning-Technologien verwendet, um Sprache in Dutzenden lebensechter Stimmen in mehreren Sprachen
zu synthetisieren. Amazon Polly verwendet dieselbe Technologie für künstliche Intelligenz, die für den
digitalen Sprachassistenten Alexa von Amazon verwendet wird. Wir werden mehr von Amazon Polly in späteren Lektionen hören, die letzte TTS-Engine, die ich in
dieser Lektion als Google Cloud Text to Speech Engine behandeln möchte, die Text in menschliche Sprache umwandelt. Mit mehr als 100 Stimmen in über 20 Sprachen und Varianten verwendet
Google TTS-Engine Wave-Net-Sprachsynthese und leistungsstarke neuronale Netzwerke, um die High-Fidelity-Audio in Anwendungen wie Google Assistant, Google Übersetzen und Google Reader. Der letzte Bereich, den ich in dieser Lektion behandeln möchte, sind einige der grundlegenden Text-zu-Sprachbegriffe wir während dieses Kurses verweisen werden. Sie sollten jetzt vertraut sein, mit Begriffen wie TTs oder Text-to-Speech,
Sprachsynthese und verschiedenen Modellen für die Erzeugung künstlicher oder synthetischer Sprache wie concoct native Parametric Wave net in Begriffen wie neuronale Netzwerke, Machine Learning und ai Stimmen. In anderen Lektionen erfahren
Sie mehr über s SML, dem wir Textdateien für audiophile Konvertierungen markieren Prasit E, mit
denen Sie Attribute Ihrer Sprache wie Lautstärke, Tonhöhe und Rate Ihrer -Tag, Text- und Telefonnamen sowie phonetische Aussprachen, die es ermöglichen, ähnliche Wörter mit unterschiedlichen Bedeutungen korrekt in Ihren Audiodateien auszusprechen. Das bringt uns zum Ende dieser Lektion. Ich hoffe, Sie haben diese Lektion so sehr genossen, wie ich es genossen habe, sie Ihnen zu präsentieren, und danke, dass Sie zugehört haben.
5. 04 – Text-to-Speech: Hallo und willkommen zurück In dieser Lektion lernen
Sie, wie Sie Text für Audiodateien vorbereiten. Themen, die in dieser Lektion behandelt werden, gehören, was s SML einen Überblick über s SML Markup-Tags und die wichtigsten Audio-Dateiformate, die wir in der Text-to-Spech-Prozess verwenden, Bevor wir in
diese Lektion bekommen , lassen Sie uns ein wenig Spaß haben. Ich werde Ihnen ein Video abspielen und ich möchte sehen, ob Sie feststellen können, ob das Audio in diesem Video von einem wirklich menschlichen Wesen oder einer AI-Stimme aufgenommen wurde. Erzähler Oh,
die Orte, an denen Sie von Dr. Seuss gehen werden. Herzlichen Glückwunsch. Heute ist dein Tag. Du gehst zu großartigen Orten. Du bist in gewisser Weise weg. Du hast Gehirne im Kopf, du hast Füße in deinen Schuhen. Sie können sich in jede Richtung lenken, die Sie wählen. Du bist auf dich allein gestellt. Und du weißt, was du weißt, und du bist der Typ, der entscheidet, wohin er gehen soll. Okay, das war nur ein Übungslauf. Mal sehen, ob Sie feststellen können, ob dieses nächste Audio von einem wirklich menschlichen Wesen oder
einer AI-Stimme aufgenommen wurde . Erzähler Oh,
die Orte, an die Sie gehen, von Dr. Seuss. Herzlichen Glückwunsch. Heute ist dein Tag, an dem du an tolle Orte gehst. Du bist weg und weg. Du hast Gehirne in deinem Kopf. Du hast Füße in deinen Schuhen. Sie können sich in jede Richtung lenken, die Sie wählen. Du bist auf dich allein gestellt. Und du weißt, was du weißt, und du bist der Typ, der entscheidet, wohin du gehen sollst. Nicht schlecht, was? Diese Stimme brauchte nur 20 Jahre, um einen Menschen zu perfektionieren. Okay, letzter Test. Ist das eine Stimmenerzählung, Riel oder ein Ich? Oh, die Orte, an die Sie gehen, von Dr. Seuss. Herzlichen Glückwunsch. Heute ist dein Tag. Du gehst zu großartigen Orten. Du bist oft weg. Du hast Gehirne im Kopf, du hast Füße in deinen Schuhen. Sie können sich in jede Richtung lenken. Sie wählen Ihre selbst und Sie wissen, was Sie wissen, und Sie sind der Typ, der entscheiden wird, wohin Sie gehen. Die letzte Audiodatei, die Sie gehört haben, wurde mit einer synthetischen AI-Stimme mit markiertem Text aufgezeichnet um zu versuchen, die Erzählung so nah wie möglich an einer natürlichen Lektüre zu klingen. Hören Sie sich die Einführung dieser Lesung nochmals an, mit der Rialstimme und der synthetischen Stimme, die gleichzeitig den Titel erzählt. Oh, die Orte, an denen Sie Dr. Seuss gehen. Wie Sie hören können, sind
wir noch nicht ganz da, aber wir kommen immer näher. Die Technologie zur Erzeugung realistischer Stimme wird nicht nur besser, sondern auch die Art und Weise, wie wir Stimmen mit Markup-Tags ausdrücken können, verbessert sich. , Zunächst einmal werfen
wir einen Blick auf die Sprache,die zum Markieren von Text-zu-Sprachdateien verwendet wird. S S M L steht für Sprachsynthese Markup Sprache und besteht aus geschriebenen Tags, die
Text zu Sprachmaschinen mitteilen , wie man Text kodiert, um Nuancen zu schaffen und Ausdruck zu einer
synthetischen Stimme hinzuzufügen . S S M L Als Teil einer Sprache namens XML steht
XML für erweiterbare Markup-Sprache und ermöglicht Entwicklern,
Informationen auf eine Weise zu beschreiben und zu organisieren , die Mensch und Computer leicht verstehen können. Während viele Unternehmen Luft Entwicklung neuer Text-to-Speech-Anwendungen für ihre Plattformen, nicht alle Text-to-Sprach-Engines, Konzerte, gleiche s SML-Tags oder nutzen Sie alle SS ML-Tags, die derzeit verfügbar sind. Einige Plattformen entwickeln auch benutzerdefinierte SML-Tags für die Verwendung in ihren eigenen Anwendungen, die möglicherweise nicht in anderen Text-to-Speech-Engines funktionieren. Zum Beispiel, da diese Lektion aufgezeichnet wird, unterstützt
Googles Text-to-Speech-Engine nicht die Verwendung von SML-Tags, mit denen Sie
phonetische Variationen,
Zehenwörter in Atemzügen zur Sprache hinzufügen phonetische Variationen, oder Interjektionen in Sätzen verwenden können . Aber Amazon Polly tut es. Wir werden einige dieser Unterschiede untersuchen und welche Werkzeuge für verschiedene TTS-Engines zu verwenden später in unseren Tutorials. Also, was können Sie mit s SML-Tags tun? Durch das Hinzufügen von SML-Tags zu Ihren Textdateien können Sie beispielsweise Werbeumbrüche und Pausen zu Ihren Erzählungen ausführen. Fügen Sie Ihren Wörtern und Sätzen Nachdruck hinzu. Wörter buchstabieren und Telefonnummern sagen Zahlen unterschiedlich,
je nachdem, ob Sie über Datumsangaben,
Zeiten,
Einheiten,
Brüche sprechen Zeiten, Einheiten, oder den Unterschied zwischen Nummer zwei und nächster Sekunde erklären, Fügen Sie Absätze und Sätze zu Ihren Erzählungen hinzu. Zensor Worte in Ihrer Erzählung. Wie die Wörter steuern Prasit e Attribute in deinen Erzählungen, um Elemente wie
Tonhöhe,
Lautstärke und Tempo gesprochener Wörter zu verfeinern Tonhöhe, . Fügen Sie phonetische Variationen hinzu. Zwei Worte. Ersetzen Sie Abkürzungen, um ihr erweitertes Format zu sprechen, wie die Weltgesundheitsorganisation anstelle von W. H. O. R. Wer andere Audiodateien in Ihre Stimme einbindet. Erzählungen wie das Hinzufügen von Sounds oder das Einfügen erweiterter Anweisungen wie das gleichzeitige Abspielen mehrerer
Mediendateien oder sequentiell. Die wichtigsten Audio-Dateiformate, die wir verwenden werden, um unseren Text in Audio-Erzählungen in diesem
Kurs zu konvertieren , sind Welle und MP drei Dateien mit entweder Welle oder MP drei Formate funktionieren
gut für die Aufnahme von Spracherzählungen. Wave-Dateien bieten eine bessere Klangqualität für die Aufnahme oder Verteilung von Musik, da das
Wellenformat die volle Frequenz abdecken kann, die das menschliche Ohr hören kann. Eine MP drei Datei wird komprimiert und hat Qualitätsverlust, während eine Wave-Datei verlustfrei und UN-komprimiert ist. MP drei wird nie besser klingen als Welle, da es ein verlustbehaftetes Format ist. MP drei Dateien
sind
jedoch jedoch kleiner als Wave-Dateien, und so sind sie viel einfacher zu verteilen. Obwohl Wellendateien normalerweise viel größer sind als MP Dreier, ist die
Speicherung heutzutage kein so großes Problem mehr. Also wieder einmal, die Verwendung eines dieser Formate funktioniert gut für Spracherzählungen. Bitte beachten Sie, dass wir in unseren Lektionen keine technischen Aspekte von digitalem Audio wie
Sampling-Raten,
Bit-Tiefen
usw. behandeln werden Sampling-Raten, Bit-Tiefen , da diese Luft nicht notwendig ist, um Text in Audiodateien für die meisten kommerziellen -Anwendungen werden
wir
jedoch
einige Werkzeuge untersuchen, jedoch
einige Werkzeuge untersuchen, die Sie verwenden können, um Audiodateien in verschiedene Formate zu konvertieren, und einige der Einstellungen, die diese Tools bieten, um die Klangqualität Ihrer Audioaufnahmen zu verbessern. Das bringt uns zum Ende dieser Lektion. Wieder mal. Vielen Dank für das Zuhören, und ich werde Sie in der nächsten Lektion sehen.
6. 05 – Text-to-Speech: Hallo und willkommen zurück. In dieser Lektion schauen
wir einen Text zu Sprach-Tools. Themen, die in dieser Lektion behandelt werden, gehören der Text-zu-Sprachprozess und die Werkzeuge zum Konvertieren von Text in Audiodateien. Zeitsparende Werkzeuge zum Hinzufügen von Telefon Ziele zu Ihrer SS ML-Datei. Konvertieren von Audiodateien in verschiedene Formate, Übersetzen von Inhalten in verschiedene Sprachen, Aufnahme von Audio und vieles mehr. Wir werden auch kostenlose und kostenpflichtige Text-zu-Sprach-Tools für die Erstellung von Audiodateien, auf dievon Laptops,
Desktop-Computern,
mobilen Geräten und der Cloud
zugegriffenwerden kann von Laptops,
Desktop-Computern,
mobilen Geräten und der Cloud
zugegriffen Desktop-Computern, , und zusätzliche Tools und Ressourcen ist, die wir empfehlen mit, um Zeit und Geld zu sparen. Beginnen wir mit dem Aufschlüsseln des Text-zu-Sprachprozesses für die Umwandlung Ihres textbasierten Skripts in eine Audiodatei. Dieser Prozess beginnt mit Ihrem textbasierten Inhalt. Dieser Inhalt kann in Form einer Erzählung, eines
Skripts, eines Artikels, einer Verkaufskopie, Schulungsanleitung, eines Buches usw. vorliegen. Nachdem Ihr Inhalt geschrieben wurde, der nächste Schritt darin, Ihre Text-zu-Sprach-Engine auszuwählen, wie in einer vorherigen Lektion erwähnt Sie müssen Ihre Text-zu-Sprach-Engine auswählen, bevor Sie Ihren Text markieren. Da verschiedene Text-zu-Sprachplattformen möglicherweise nicht unterstützen oder erlauben, ein Durcheinander zu verwenden. SML-Markup-Tags. Zum Beispiel. Wenn in Ihrem Inhalt Wörter verwendet werden, die eine andere phonetische Aussprache erfordern, sollten Sie Ihren Text wahrscheinlich für Amazon Polly anstelle von Google markieren, bis
Googles Text-to-Speech-Engine die Verwendung von phonetischen Tags in S M l zulässt. Um die Dinge wirklich einfach zu halten, die einzigen t ts Motoren, die wir während dieses Kurses verwenden werden, sind Google Text to Speech und Amazon Polly. Alles, was Sie tun müssen, um diesen Schritt abzuschließen, ist zu wählen, welche Engine Sie verwenden, um
Ihre geschriebenen Inhalte zu verarbeiten . Nach der Auswahl Ihres T ts Motor. Der nächste Schritt besteht darin, Ihre Textdatei mit S-SML-Tags zu markieren, die von der Engine
unterstützt werden . Dieser Schritt wird in den Markup-Tutorials ausführlich behandelt. In unserer nächsten Lektion, nachdem Sie Ihre Textdatei mit s SML-Tags markiert haben, der nächste Schritt darin, Ihren Inhalt über Ihr t ts-Tool auszuführen. Wir werden ein T.
T s Werkzeuge in nur wenigen Augenblicken suchen . Im Wesentlichen sollte
das Tool Ihnen erlauben, Ihre Sprache oder Ihren Dialekt auszuwählen. Wählen Sie eine männliche oder weibliche Stimme, importieren Sie Ihre SS ml Textdatei und konvertieren Sie Ihren Text in eine Audiodatei. Nachdem Sie Ihre Audio-Erzählung erstellt
haben, sollten Sie dann in der Lage sein, Ihre Audiophilen herunterzuladen oder zu exportieren, die Sie dann für jede Anwendung verwenden können,
wie zum Beispiel eine Videoerzählung, Webseite, Podcast ,
Hörbuch
, etc. Werfen wir jetzt einen Blick auf einige Zeit speichern Text in Sprach-Tools. Das erste Werkzeug, das Sie benötigen, um eine Text-to-Speech-Datei als Nur-Text-Editor zu erstellen. Wenn Sie Windows, den integrierten freien Notizblock Texteditor, als perfektes Werkzeug für den Job verwenden. Wenn Ihr Computer auf IOS läuft, ein Standard-Texteditor-Tool wie Texteditor
großartig . Es ist wichtig, sich daran zu erinnern, dass alle Ihre Markierungen in einer Nur-Text-Datei durchgeführt werden sollten. Bei der Verwendung von Wörtern und Markierungs-Tags werden keine Textverarbeitungsanwendungen mit formatiertem
Text verwendet , da dies nicht mit TI ts Engines kompatibel ist und zu Fehlern führt. Ein weiterer wichtiger Punkt, den Sie beachten sollten, ist, dass Sie Ihre
Textdatei mit utf acht Codierung speichern müssen,wenn
Sie phonetische Symbole zu Ihrer Textdatei hinzufügen Textdatei mit utf acht Codierung speichern müssen, . Ich werde Ihnen zeigen, wie Sie dies in einem späteren Tutorial tun. Das nächste Werkzeug, das wir empfehlen, ist ein Tool wie das MacMillan Online Dictionary, da es Wortaussprachen und phonetische Schreibweisen bereitstellt, die Sie kopieren und in
Ihre Textdatei einfügen können . Lassen Sie mich Ihnen ein Beispiel zeigen. Er kann Pekan ein weiteres großes Online-Tool, das Sie für Telefonnamen und phonetische Rechtschreibung verwenden können, ist die I. P. Eine Art von Werkzeug. Mit diesem Tool können Sie eine phonetische Schreibweise von Wörtern mithilfe einer Online-Tastatur im Alphabet erstellen, die Sie dann kopieren und in Ihre Textdatei einfügen können. Hier ist ein kurzes Demo-Video, das Ihnen zeigt, wie dieses Tool funktioniert. Das nächste nützliche Tool ist Google. Übersetzen Sie mit Google Translate. Sie können Text in Ihrer Sprache einfügen, übersetzt in eine andere Sprache als Kopieren und Einfügen der Übersetzung in Ihre
Text-to-Sprachdatei . Hier ist eine kurze Demo-Video Carson Ananda Lindgren A mäandering Schloss Nicotero ist so sehr konsequent. CIA. Kathy verwies auf Positivo Rat. Sie nannte mich die Cell Koshien. Irgendwelche Selkoe die Gelder schütteln. Warum jeder erstaunlich, einige Foto schießen die Rezession. Ich bin ein Leberschuh. Hoffnung Ein weiteres großartiges Tool ist ein Dateiformatkonvertierungstool. Es stehen viele Konvertierungswerkzeuge zur Auswahl. Eine, die ich besonders mag, ist Online dash convert dot com, dem Sie leicht alle Arten von Dateien und verschiedene Arten von Formaten kostenlos konvertieren können, einschließlich der Umwandlung von MP drei Audiodateien in Wave-Dateien und umgekehrt. Hier ist ein kurzes Video von dieser Werkzeug-Schnittstelle. Gehen wir zu
Text-zu-Sprachkonvertierungstools . Wir beginnen mit kostenlosen Tools, mit denen Sie Text in Audioerzählungen umwandeln können. Sowohl Google als auch Amazon bieten Text-zu-Sprach-Simulatoren, bei denen Entwickler Skripte bestreiten und Audio-Erzählungen herunterladen, aber der Zugriff auf diese als ein wenig kompliziert und erfordert die Einrichtung von Konten mit der Plattform. Die in dieser Lektion beigefügten Notizen enthalten weitere Anweisungen und Tutorials, wie Sie auf diese T TS-Simulatoren
zugreifen können. Es gibt eine Reihe von kostenlosen Text-zu-Sprach-Tools, auf die Sie online zugreifen können, mit denen Sie
Audiodateien aus Ihrem eingegebenen Text erstellen können. Wir bieten eine Liste der kostenlosen Online-Text-zu-Sprach-Tools in den Notizen, die diese
Lektion begleiten . Die meisten kostenlosen Online-Tools, die wir getestet haben, während wir diesen Kurs zusammenstellen, scheinen
ziemlich begrenzt zu sein und akzeptierten keine SML-Markup-Tags. Hoffentlich in Zukunft verbessern, werden sich
diese Tools
in Zukunft verbessern,hier ist ein Demo-Video von einem kostenlosen Online-TTS-Tool, das wir getestet haben, während wir diesen Kurs zusammen. Wie belasten Sie Ihre Tasse E Haus Training Ihre Tasse ist über Konsistenz, Patienten und positive Verstärkung. Das Ziel ist es, gute Gewohnheiten zu vermitteln und eine liebevolle mit Ihrem Schnitt gemacht zu bauen. Es dauert in der Regel 4 bis 6 Monate, bis ein Welpe vollständig ausgebildet wird, aber einige Welpen können bis zu Ihnen Jahr dauern. Zusätzlich zu den Tools, die Sie über Ihren Desktop,
Computer oder Laptop zugreifen können , gibt es auch eine Reihe von Text to Speech mobile APS, auf die Sie über Ihr Telefon zugreifen können. Die meisten IOS- und Android-Telefone verfügen nun über integrierte Text-to-Speech-Funktionalität. Alles, was Sie tun müssen, ist auf Ihrem Telefon aktiviert. Sie können nach Text zu Sprache APS auf Ihrem Telefon suchen, indem Sie einfach in Ihren APP-Store gehen und Text in Sprache
eingeben. Wir bieten auch Links zu Tutorials wie diesem, wie Sie die
Text-zu-Sprache Ihres Telefons in den Notizen, die diese Lektion begleiten, aktivieren können. Text zu Sprache ermöglicht es Ihnen oder Ihrem Kind, digitale Steuern laut vorlesen zu lassen. Hier ist, wie es aussieht. Denken Sie daran, Ihre Hausaufgaben in Ihren Rucksack zu legen Wenn Sie professionelle
Audioerzählungen mit AI-Stimmen erstellen möchten , empfehlen
wir Ihnen, kostenpflichtige Text-zu-Sprach-Tools zu verwenden, da Sie Zugang zu besserem Support und
regelmäßigen Upgrades erhalten . Lassen Sie uns ein paar Werkzeuge durchlaufen, die wir verwenden, um Ihre Textdateien in
Audioerzählungen zu konvertieren . Es gibt zwei Cloud-basierte Text-zu-Sprach-Tools, die wir je nach TTS-Plattform verwenden Sie für Ihr Projekt für Google Wave Net-Spracherzählungen benötigen, verwenden
wir ein Tool namens Wave Net vocalize er für Amazon Polly Stimmen. Wir verwenden ein Tool namens Script vocalize ER. Beide Werkzeuge wurden verwendet, um die Spracherzählungen für diesen gesamten Kurs zu erstellen, und beide wurden von derselben Firma entwickelt. Sowohl wave net vocalize ER als auch script vocalize er ermöglichen es Ihnen, eine Textdatei hochzuladen, die
mit S SML markiert ist, Text in Audio
umzuwandeln, den Text in verschiedene Sprachen zu
übersetzen und hochwertige audiophile Aufnahmen herunterzuladen für eine Reihe von kommerziellen Anwendungen. Wave net vocalize er gibt Audiodateien als Wave-Format und Skript vocalize er Ausgabe Audio als MP drei für weitere Informationen und Links zu, wo Sie beide dieser
Tools zugreifen können , finden Sie in den Begleitnotizen für diese Lektion. Wir haben nun die wichtigsten Werkzeuge behandelt, die Sie benötigen, um Text-to-Speech-Dateien zu erstellen. Die nächsten paar Folien bieten einige zusätzliche Tools, und Ressource ist, dass Sie in Betracht ziehen,
je nach Ihren Anforderungen und was Sie verwenden möchten . Text in Sprache ist ein großartiges Werkzeug, um zu verwenden, wenn Sie planen, eigene Inhalte für
Audio-Erzählungen zu schreiben , da Graham früh Graham Ihren Text scannt und Ihnen hilft, Rechtschreibfehler zu beheben. Verbessern Sie Ihre Grammatik in Ihrer Kommunikation, und dies kann Ihnen letztendlich helfen, eine leistungsfähigere und effektivere Botschaft zu erstellen und zu liefern. Da wir noch nicht für uns selbst denken können, werden
ai-Spracherzähler wie ich lesen, was auch immer du tippst. Wenn also Rechtschreibfehler in den Wörtern vorhanden sind, lesen
wir diese wie in Ihrem Text dargestellt. Jim, könntest du
bitte reinkommen ? Hallo, Jim. Hallo. Ich bin Harvey. Ein Computer-Fitness-Studio saugt, So Wow. Oh, das ist so unhöflich. Es tut mir leid. Ich kann sie nicht kontrollieren. Ja, das kannst du. Wissen Sie, holen Sie Pam dafür. Pam. Pam, du siehst heute sehr heiß aus. Gib mir, Harvey. Das ist Michaels Freund. Großartig. Ich so geil. Ich liebe dich lange, Tim. Oh, das ist eklig. Suzlon. Tim! Verdammt. Lange Zeit mich
, Junge eine lange Zeit. Du solltest einen langen Tim an einem Tag mitbringen. Ich würde mich lieben. Ja, ja. Du hast einen lustigen Witz ruiniert. Du verschwindest aus meinen fünf. Ok. Von Hardy, ein
weiteres paar Tools, die Sie in Betracht ziehen könnten, investieren,
Vor allem, wenn Sie planen, ein Unternehmen zu starten, das Text-to-Sprachdienste anbietet oder
Videos mit KI-Audio erstellen . Erzählungen sind Werkzeuge wie Haken und können nicht Asien. diesen Tools können Sie nicht nur Bildschirmvideos mit Audioerzählungen aufnehmen und bearbeiten,
sondern Sie können diese Tools auch verwenden, um Audios aus Videos zu extrahieren, die auf anderen Websites veröffentlicht wurden und nur den Audio-Soundtrack dieser aufgezeichneten Videos
exportieren. Wenn Sie vorhaben, Text-zu-Sprach- und Videodienste professionell anzubieten oder einfach nur Video- und Audioerzählungen für Ihr eigenes Business-Marketing und Werbeaktionen
erstellen möchten , stellen
wir Ihnen eine Liste von Videoerstellungstools in den Begleitnotizen zur Verfügung. Hier zum Beispiel ein kurzes Erklärvideo, ist
zum Beispiel ein kurzes Erklärvideo,das mit einem Videoanimations-Softwaretool namens Twombly erstellt wurde , das mein Freund George erzählte. Hallo, ich bin George. Ich bin eine künstlich erzeugte Stimme. Erzähler Jemand wie ich kann Unternehmen Zeit und Geld in Bereichen wie Video-Marketing sparen, von
denen jeder weiß, ist eine der leistungsfähigsten und effektivsten Möglichkeiten, Produkte und
Dienstleistungen online zu bewerben . Erreichen Sie weltweit neue Zielgruppen. Etablieren Sie Ihre Marke, erziehen und informieren oder Interessenten über Ihr Unternehmen und schulen Mitarbeiter Kunden und klettert einige große Anwendungen für eine I Stimme. Erzählungen umfassen Verkaufsvideos, erklären ihre Videos, Schulungsvideos, Video-Anzeigen, Video-Präsentationen, Podcasts, gesprochene Bücher, Webseiten für visuell beeinträchtigte Benutzer und so viele andere Anwendungen. Sobald Sie wissen, wie man Text in Sprache umwandelt, können
Sie Videos mit Audio-Erzählungen wie dieser schnell und einfach mit sehr
preiswerten Tools erstellen . Vielen Dank, dass Sie dieses Video gesehen haben und einen wunderbaren Tag haben. Zusammenfassend werden
die Tools, die wir in dieser Lektion behandelt haben, Ihnen helfen, Zeit und Geld zu sparen, indem Sie Text-to-Speech-Dateien erstellen, den freien Text, phonetische Konvertierung und Übersetzungstools, die ich Ihnen gezeigt habe, helfen sparen Sie Zeit beim Erstellen Ihrer Textdateien. Ich empfehle die Auswahl von Tools wie Wave net vocalize ER und Script vocalize ER, um Ihre
Textdateien in qualitativ hochwertige Audio zu konvertieren ist mit Google Text in Sprache in Amazon Polly Stimmen. Und wenn Sie planen, Ihre Text-to-Sprachkenntnisse in einem kommerziellen Umfeld zu verwenden, entweder durch die Bereitstellung von professionellen Dienstleistungen Luft mit diesen, um Ihr eigenes Geschäft zu verbessern,
dann erwägen Sie, in Video- und Audio-Tools zu investieren, um Videos zu erstellen oder einen Extrakt aufzunehmen Audio aus anderen Quellen. Das bringt uns zum Ende dieser Lektion. Wieder mal. Danke, dass Sie zugehört haben, und ich werde Sie in der nächsten Lektion sehen.
7. 06 – Text-to-Speech Text-To-Speech: Hallo und willkommen zurück. Dieser Abschnitt des Kurses enthält eine Reihe von Tutorials, die Ihnen zeigen, wie Sie
Ihre Text-zu-Sprachdateien markieren . Diese Lektion bietet einen Überblick über die Tutorials, die wir aufgenommen haben. Ein separates Video. Zur einfacheren Referenz, Ich werde Ihnen zeigen, welche s SML. Markup-Tags können mit Google T TS oder Amazon Polly verwendet werden, und wir stellen Ihnen auch S M l Spickzettel zur Verfügung. In den Tutorials in diesem Abschnitt erfahren
Sie, wie Sie Ihre Text-zu-Sprachdateien markieren, um Dinge wie Ed zu tun, pausiert und bricht zwei Absätze und Sätze auf verschiedenen Ebenen der Hervorhebung. Zwei Wörter steuern, wie spezielle Arten von Wörtern gesprochen werden, wie Telefonnummern, Datumsangaben, Uhrzeit, Maßeinheiten, Brüche und Kardinal- und Orginalzahlen. Sie werden auch lernen, wie man Wörter zensiert. Kontrollieren Sie die Elemente der Sprache wie Tonhöhe Lautstärke und Sprechgeschwindigkeit. Verwenden Sie phonetische Aussprache mit bestimmten Wörtern, sprechen Sie Akronyme und Abkürzungen aus und betten Sie Audiodateien in Ihre Skripte ein. Wir decken auch zusätzliche s SML Markup-Tags, die Sie hinzufügen Atem zwei Wörter sprechen Worte leise oder geflüstert steuern das Holz der ausgewählten Stimmen hinzufügen Dynamikbereich Kompression und mehr. Um die Dinge einfach zu halten, konzentrieren
wir uns nur auf das Markieren von Text-zu-Sprachdateien für Google Text-to-Speech und Amazon Polly-Engines, wie in einer vorherigen Lektion erwähnt. Unterschiedliche Texte zu Sprachmaschinen unterstützen möglicherweise nicht oder erlauben es Ihnen, ein Durcheinander zu verwenden. SML-Markup-Tags. Während wir die Tutorials durchlaufen, werden
wir Sie wissen lassen, welche Plattform die Tags unterstützt, die in den Beispielen verwendet werden. Jedes Tutorial folgt einem ähnlichen Format. Das Tag wird in der Folienkopfzeile aufgeführt, gefolgt von einem Beispiel, wie das SS ML-Markup-Tag verwendet wird und wie der Text nach der Verarbeitung mit einem Audiobeispiel in
Sprache synthetisiert wird. Symbole in der oberen rechten Ecke der Folie zeigen dann an, ob das angezeigte Markup-Tag in Googles TTS-Engine Amazon,
Polly oder beides in den Begleitnotizen enthaltenen funktioniert . Für dieses Schulungsmodul findest
du Spickzettel für Amazon Polly und Googles Text-to-Speech-Engine. Das bringt uns bis zum Ende dieser Lektion. Bitte füllen Sie die Tutorials für das SS ml Markup-Tag in diesem Abschnitt aus, bevor Sie mit dem
nächsten Schulungsmodul fortfahren . Vielen Dank für das Zuhören und für das Ansehen dieses Video
8. 07 – Text-to-Speech: Hallo und willkommen zurück. In diesem Tutorial erfahren
Sie, wie Sie das SML-Markup-Tag sprechen in Ihren Text-to-Speech-Dateien verwenden. Das speak Tag ist das Wurzelelement aller s SML. Texttext muss innerhalb eines Sprech-Tags eingeschlossen sein, um an einem
öffnenden Speak-Tag am Anfang Ihres Textes an einem schließenden Speak-Tag am Ende der
Textdatei in Sprache umgewandelt werden zu können . Hier ist ein Beispiel für die Verwendung des speak -Tags in Ihrer Textdatei. Beachten Sie, dass der gesamte Inhalt, den Sie in Sprache konvertieren möchten, innerhalb des Öffnungs-
und Schließens eingeschlossen ist . Sprich Tags. Lassen Sie mich spielen ein Audio-Beispiel dafür, wie dieser Text klingen wird, nachdem er von einer
Text-to-Speech-Engine verarbeitet wird, die s SML Wörter lesen können, sind einzigartig die mächtigste Kraft Menschheit
zur Verfügung steht. Wir können uns entscheiden, diese Kraft konstruktiv mit Worten der Ermutigung oder zerstörerisch mit Worten der Verzweiflung einzusetzen. Worte haben Energie und Macht mit der Fähigkeit zu helfen, zu heilen, zu behindern Zehenverletzung, Schaden zu demütigen und zu demütigen. Dies bringt uns bis zum Ende dieses Tutorials. Weitere Informationen finden Sie in den Begleithinweisen in diesem Abschnitt
9. 08 – Text-to-Speech: Hallo und willkommen zurück. In diesem Tutorial erfahren
Sie, wie Sie Pausen,
Zehenwörter,
Sätze und Absätze in Ihrem Text zu Sprachdateien hinzufügen Zehenwörter, . Mit dem Break-Tag werden
wir uns die Verwendung des Break-Tags ansehen, und es sind optionale Zeit- und Stärke-Attribute, bevor wir das Break-Tag
genauer untersuchen . Lassen Sie uns einfach unser Gedächtnis mit der Definition von Prasit e Prasit auffrischen. Er bezieht sich auf Sprachbereiche wie Stimmrhythmus, Stress und Intonation von Sprache, und wie diese Merkmale zur Bedeutung beitragen. Prasad IQ bezieht sich
daher auf Aspekte von Prasit E, die wir in einem anderen Tutorial das Break-Tag als leeres Element abdecken werden, was bedeutet, dass es keinen Ton erzeugt. Es steuert Pausen oder andere Prasad IQ Grenzen zwischen Wörtern. Beachten Sie, dass die Verwendung von Break-Tags vollständig optional ist. Wenn dieses Element nicht zwischen Wörtern vorhanden ist, wird
der Umbruch automatisch basierend darauf bestimmt, wie die Text-to-Speech-Engine
den sprachlichen Kontext verarbeitet . Mit anderen Worten, selbst wenn Sie keine Break-Tags haben, ein
T.T wird
ein
T.Ts Motor natürlich in einer Pause. Nachdem Sie bestimmte grammatische Funktionen wie Satzzeichen im Text gefunden haben, wie z. B. Punkte und Kommas, einem Break-Tag können
Sie mit
einem Break-Tagden Abstand von Pausen und Brüchen zwischen Wörtern,
Sätzen und Absätzen fein einstellen . Wenn Sie nach einem Wortsatz oder Absatz ein Break-Tag hatten, wird
eine Unterbrechung mit einer Prasad-IQ-Stärke eingefügt, die größer ist als wenn kein Unterbrechungselement
angegeben wird . Mit anderen Worten, die Text-to-Speech-Engine bestimmt den sprachlichen Kontext Ihres Textes und erhöht die natürliche Pause, wenn es ein Break-Tag in Ihrem Inhalt erkennt. Während ein Satz ohne Break-Tags natürliche Pausen hat, hinzugefügt,hinzugefügt hinzugefügt, können
Break-Tags diese Pausen verlängern und eine lebensechte Atmosphäre für Ihre Erzählung schaffen. Wie wir in nur einem Augenblick sehen werden. Lassen Sie uns ein Beispiel für eine Textdatei hören, die in Sprache konvertiert wurde, ohne irgendwelche
Break-Tags zu verwenden . Worte haben Energie und Macht mit der Fähigkeit zu helfen, zu heilen, zu behindern, Zehenschmerzen Zehe, Schaden, zu demütigen und zu demütigen. Lassen Sie uns nun die gleiche Textdatei hören, die mit Break-Tags in Sprache umgewandelt wurde. Hinzugefügte Wörter haben Energie und Macht mit der Fähigkeit zu helfen, zu heilen, zu behindern, zu verletzen, zu
zehen, zehen, schaden, zu demütigen und zu demütigen. Konnten Sie den Unterschied hören? Lassen Sie uns die beiden Audiodateien nacheinander wieder abspielen. Die anderen Worte haben Energie und Macht mit der Fähigkeit zu helfen, zu heilen, zu behindern, Zehe weh Zehe, Schaden zu erniedrigen und zu demütigen Worten haben Energie und Macht mit der Fähigkeit
zu helfen, zu heilen, behindern, zu verletzen, Zeh, Schaden, zu demütigen und zu demütigen. Wie bereits erwähnt, können Sie mit
dem Break-Tag auch optionale Attribute wie Zeit und Stärke verwenden. ein Break-Tag mit den Zeitattributen verwenden, können Sie Ihre Erzählungen abstimmen, indem die Länge Ihrer Pause oder Pause mithilfe von Sekunden oder Millisekunden festlegen. Zum Beispiel drei Sekunden oder 200 Millisekunden. Hören Sie eine Beispieltextdatei, die in Sprache konvertiert wurde, mit zeitbasierten Break-Tags hinzugefügt wurde. Lassen Sie uns den Satz für 200 Millisekunden pausieren als 500 Millisekunden, dann eine Sekunde, dann drei Sekunden, und schließlich pausieren
wir ihn für vier Stunden. Ich bekomme nur, ich denke, Sie bekommen jetzt die Idee, wie Pausen und Pausen in Ihren
Text-to-Speech-Innovationen funktionieren . Wenn Sie Amazon Polly verwenden, um Ihre Textdateien in Sprache zu konvertieren, beachten
Sie bitte, dass die maximale Dauer, die Sie im Break-Tag als 10 Sekunden
oder 10.000 Millisekunden angeben können . Hier ist ein Beispiel für eine Textdatei, die mit dem break-Tag mit verschiedenen
Zeitattributen markiert ist. Hören Sie sich die synthetisierte Spracherzählung dieses Textes an. Worte sind einzigartig die mächtigste Kraft, die der Menschheit zur Verfügung steht. Wir können uns entscheiden, diese Kraft konstruktiv mit Worten der Ermutigung oder zerstörerisch mit Worten der Verzweiflung einzusetzen. Worte haben Energie und Macht mit der Fähigkeit zu helfen, zu heilen, zu behindern, zu verletzen, zu
zehen, zehen, schaden, zu demütigen und zu demütigen. ein Break-Tag mit den Stärke-Attributen verwenden, können Sie auch Ihre Erzählungen abstimmen,
indem Sie die Länge Ihrer Pausen oder Pausen mit relativen Werten wie extrastarke, starke mittlere Woche und zusätzliche Woche festlegen. Darüber hinaus können
Sie den Wert none verwenden, um eine Prasad-IQ-Unterbrechung oder Pause zu verhindern, die der
Text-zu-Sprachprozessor andernfalls erzeugen und in Ihre Erzählung einfügen würde. Bitte beachten Sie, dass, wenn Sie Amazon Polly verwenden, um Ihren Text in Sprachstärke zu konvertieren, Attributwerte von Sinas Äquivalent zum
Anhalten nach einem Komma-Satz oder Absatz , der keinen angibt, keine Pause erzeugen. Verwenden Sie keine, um sie zu entfernen. Eine normalerweise auftretende Pause, z. B. Pausen, die nach einem Zeitraum eingefügt werden, in dem eine zusätzliche Woche angegeben wird, hat die gleiche Stärke wie keine. Das hat keine Pause, die Woche angibt, setzt eine Pause von der gleichen Dauer wie die Pause, nachdem
ein Komma-Medium die gleiche Stärke hat wie schwache starke Sätze, eine Pause von der gleichen Dauer wie die Pause, die nach einem Satz erstellt wurde, und die Angabe zusätzlicher starke Sätze, eine Pause von der gleichen Dauer wie die Pause, die nach einem Absatz erstellt wurde. Wenn Sie bei der Verarbeitung von Text zu Sprache mit Amazon
Polly keine Attribute mit dem Brems-Tag verwenden,hängen
die Ergebnisse sehr von Ihrem Text ab. Wenn Sie bei der Verarbeitung von Text zu Sprache mit Amazon
Polly keine Attribute mit dem Brems-Tag verwenden , Wenn neben der Bremsbeschriftung keine andere Satzzeichen vorhanden
ist, wird eine Bruchfestigkeit von mittlerem Wert erzeugt, was einer Kommalängenpause entspricht. Wenn sich das Tag neben einem Komma befindet, wird das Tag auf ein starkes Break-Tag aktualisiert, das einer Satzlängenpause entspricht. Wenn sich das Tag neben einem Punkt befindet, wird das Tag auf ein extra starkes Break-Tag oder das Äquivalent einer
Absatzlängenpause aktualisiert . Hier ist ein Beispiel für eine Textdatei, die mit dem Break-Tag mit unterschiedlichen
Festigkeitsattributen markiert ist. Hören Sie sich die synthetisierte Spracherzählung dieses Textes an. Lassen Sie uns Pausen in diesem Satz erstellen, indem Sie Break-Tags mit der Option Stärke verwenden. Beginnen wir mit einer extra starken Pause. Dann eine starke Pause gefolgt von einer mittleren Pause pro Woche Pause eine zusätzliche Woche Pause und schließlich eine Pause zwischen den Vokalen A e I oh, du und keine Pause überhaupt zwischen den Vokalen A e i o u. Wie Sie sehen können, lässt
das Break-Tag geben Sie genaue Pausenzeiten zwischen Wörtern, Sätzen und Absätzen an und können verwendet werden, um den lebensechten Aspekt Ihrer
Spracherzählungen zu verbessern . Dies bringt uns bis zum Ende dieses Tutorials. Ich hoffe, Sie haben diese Lektion nützlich gefunden. Bitte beachten Sie die Begleitnotizen in diesem Abschnitt für weitere Informationen und vielen Dank
für Ihr Zuhören.
10. 09 – Text-To-Speech: Hallo und willkommen zurück. In diesem Tutorial erfahren
Sie, wie Sie Pausen zwischen Sätzen und Absätzen mithilfe von Absatz- und
Satzmarkup-Tags hinzufügen . In einem vorherigen Tutorial
haben wir erklärt, wie Sie Break-Tags verwenden, um Pausen,
Zehenwörter,
Sätze und Absätze hinzuzufügen Zehenwörter, , die Sie aus dieser Tabelle sehen können. Das ist, ähm, break Elemente führen die gleiche Funktion wie die Verwendung eines Satz- oder Absatz-Tags aus. Neben der Verwendung von Break-Tags können
Sie also mit dem P-Tag eine Pause zwischen Absätzen in Ihrem Text hinzufügen. Dies entspricht der Angabe einer Pause mit einem extra starken Break-Tag. Das P-Tag sorgt für eine längere Pause. Die Muttersprachler setzen in der Regel auf Kommas oder das Ende eines Satzes. Um P-Tags zu verwenden, müssen
Sie den Absatz einschließen, indem Sie am Anfang des Absatzes ein öffnendes Tag und ein schließendes Tag am Ende hinzufügen, wie im folgenden Beispiel gezeigt. Dies ist der erste Absatz. Es sollte eine Pause geben, nachdem dieser Text gesprochen wurde. Dies ist der zweite Absatz. Hier ist ein Beispiel für eine Textdatei, die mithilfe von Absatzumbruch-Tags in Sprache konvertiert wurde. Worte sind einzigartig die mächtigste Kraft, die der Menschheit zur Verfügung steht. Wir können uns entscheiden, diese Kraft konstruktiv mit Worten der Ermutigung oder zerstörerisch mit Worten der Verzweiflung einzusetzen. Worte haben Energie und Macht mit der Fähigkeit zu helfen, zu heilen, zu behindern, Zehenverletzung Schaden zu erniedrigen und zu demütigen. Beachten Sie, dass P-Tags Text enthalten können, der in den in dieser Liste angezeigten SS-ML-Elementen gerendert werden soll. Sie können auch Pausen zwischen Sätzen in Ihrem Text hinzufügen, indem Sie das S-Tag verwenden. Dies entspricht dem Beenden eines Satzes mit einem Punkt oder der Angabe einer Pause. Mit einem starken break-Tag s Tags Luft nützlich für das Hinzufügen von Pausen zu versus und Linien der Poesie . Wie Sie in nur einem Moment sehen werden, um s Tags zu verwenden, müssen
Sie den Satz mit öffnenden und schließenden Tags umschließen, wie im Beispiel unten gezeigt. Maria hatte ein kleines Lamm, dessen Vlies weiß wie Schnee war. Und überall, wo Maria ging, war das Lamm kurz her. Ähnlich wie P-Tags können
s-Tags Text enthalten, der in den in dieser Liste angezeigten SS-ML-Elementen gerendert werden soll. Um dieses Tutorial abzuschließen, möchte
ich Ihnen eine bekannte Children's Story spielen, die mit
Bruchabsatz und Satz-Tags markiert wurde . Fuchs in Socken von Dr. Seuss Fox Socks Box Knox Knox in Bucks Fox in Socken. Klopft auf Fox in Socken, Posteingang Socken auf Schläge und Schläge in Bucks Fox in Socken auf Box auf Knox. Küken mit Ziegeln kommen Küken mit Blöcken kommen Küken mit Ziegeln und Blöcken und Uhren. Komm, sieh mal. Hören Sie, Mr. Knox, lassen Sie uns Tricks mit Ziegeln und Blöcken machen, Sir, lassen Sie uns Tricks mit Küken und Uhren machen. Zuerst werde
ich einen schnellen Trick Brick Stack machen. Dann mache ich einen schnellen Trick-Block-Stack. Sie können einen schnellen Trick Küken Stapel machen. Sie können einen schnellen Trick Uhr Stapel machen, und hier ist ein neuer Trick. Mr. Knocks Socken auf Küken und Küken auf Fox Fox auf Uhren auf Ziegeln und Blöcken, Ziegel und Blöcke auf Schläge auf Box. Jetzt kommen wir zu Zecken und Gesprächen. Versuchen Sie, das zu sagen, Mr. Knox, Sir. Uhren auf Fuchs Zeckenuhren auf Schlossstock sechs. Kranke Bric-Stick. 66 Küken reden, bitte, Sir. Ich mag diesen Trick nicht, Sir. Meine Zunge ist nicht schnell oder schnell, Sir. Ich verstehe, obwohl Stöcke und Uhren mit den Küken verwechselt werden und sich selbst redet, kann
ich es nicht tun. Mr. Fox, es tut mir so leid, Mr. Lock. - Sir. Hier ist ein einfaches Spiel zu spielen. Hier ist eine einfache Sache zu sagen. Neue Socken zu Socken Wer saugt? Sue Socken Wer? SOS. Wessen Socken? Suso Sue Socken Wer sieht wen. Also, wer sind neue Socken? - Sir? Siehst du, Suso verklagt neue Socken. Das ist nicht einfach, Mr. Fox, Sir. Wer kommt? Krähe kommt langsam. Joe Crow kommt wer? Sos Krähen Kleidung Sue SOS Krähen Kleidung langsam Joe Crow SOS Wessen Kleidung Suso Socken von Fuchs in Socken Jetzt langsam Joe Crow SOS klopft Posteingang Jetzt Sue SOS Rose auf langsam Joe Krähen Kleidung Fox SOS Schlauch auf langsam Joe Krähen weiß, Schlauch geht Rose wächst Schlauch geht, ähm Krähen Rose. Sehr eklig. Mr Fox,
ich hasse dieses Spiel,
Sir. Mr Fox, ich hasse dieses Spiel, Dieses Spiel macht meine Zunge ziemlich lahm, Sir. Mr. Knox, Sir. Was für eine Schande, Sir. Wir finden etwas Neues zu tun. Jetzt gibt es viele neue blaue Goo jetzt. Neue goo blue goo gooey, gooey blue goo, New goo, Louie! Louie! Louie wuchs wegen Kaukauen. Das ist es, was diese Gans tut. Entscheiden Sie sich, zu Sir zu gehen? Wenn ja, sagten
Sie, sie hat immer gekaut, Sir, mit der Gans. Zu traurig, Alter. - Sir. Herr Fox. - Sir. Ich werde es nicht tun. Ich kann es nicht sagen. Ich werde es nicht sehr gut kauen, Sir. Treten Sie hierher. Wir werden ein anderes Spiel finden, um ihn zu spielen. Dann kommt schon. Bringt Ben Broom. Ben bringt Besen Ben Bens Strahlen. Besen war Bens Zimmer, Bens Zimmer. Bim steht. Benj Kugelschreiber Bens gebogener Besen bricht in verbrachten Besenpausen. Bens Band. Kims Band. Big bands, Schweinebänder, Human Ben führen Vans mit Besen, Ben Stand Pony und VIMs Band booms Schwein band boom band. Big Band Besen Band Meinen vollen Mund. Ich kann das nicht sagen. Nein, Sir. Mein armer Mund ist viel zu langsam, Sir. Nun, dann bringe deinen Mund auf diese Weise. Ich werde es finden. Etwas, was es sagen kann. Luke, Glück mag Seen, Luke stecken mag Seen, Luke Le klickt Seen Luke stecken Klicks Seen, Ente nimmt Lixian Lakes. Luke, Luck mag Luke. Glück nimmt Beine in Lake Stuck mag ich solche Flipper Blubber nicht lieben. Meine Zunge ist nicht aus Gummi, Mr. Knox. Jetzt
komm jetzt. Kommen Sie jetzt. Du musst jetzt nicht so dumm sein. Versuchen Sie, das zu sagen, Mr. Knox, bitte. Durch drei Käsebäume flogen
drei freie Flöhe, während diese bitte Grippe gefrieren Brise blies eisende Brise machte drei Bäume. Freeze freeze Er Bäume gemacht die Bäume Käse einfrieren! Das ist, was diese drei freien Flucht Niesen gemacht Stop it! Hör auf damit! Das reicht! Sir, ich kann so dumme Sachen nicht sagen, Sir. Sehr gut
, , Mr. Knox. Sir, reden
wir über Tweedle Beatles. Was wissen Sie über Tweedle Beatles? Nun, wenn Tweedle Beetles kämpfen, heißt
es ein Tweet Will Beetle Battle? Und wenn sie in einer Pfütze kämpfen, ist
es ein Tweet Will Käfer Pfütze Schlacht? Und wenn Tweedle Beatles mit Paddeln in einer Pfütze kämpfen, nennen
sie es einen Tweet. Will Käfer Paddel Kampf Und wenn Beatles Käfer in einer Pfütze Paddelschlacht
in der Käfer-Kampfpfütze kämpfen, ist eine Pfütze in einer Flasche. Sie nennen dies einen Tweet oder Käfer Buttle, Pfütze Paddle Battle Medaille. Und wenn Käfer diese Schlachten in einer Flasche mit ihren Paddeln in den Flaschen auf einem Pudel in den Pudeln kämpfen, die Nudeln essen, nennen
sie dies ein Verwirren. Pfütze Tweet Pudel Käfer Nudel Flasche Paddel Schlacht. Und jetzt warten Sie einen Moment, Mr. Socks Fox. Wenn ein Fuchs in der Flasche ist, wo die Tweedle Beatles kämpfen mit ihren Paddeln in einer Pfütze auf einem neuen Löschpudel, das ist, was sie einen Tweet Will Beetle Nudel nennen, Pudelflasche kuschelt. Verwirren Sie sich verdoppelt. Gekaumt, gewatscht. Fuchs in Socken, Sir. Fuchs in Socken Unser Spiel ist fertig, Sir. Vielen Dank für eine Menge Spaß, Sir. Dies bringt uns bis zum Ende dieses Tutorials. Ich hoffe, Sie fanden diese Lektion nützlich. Bitte beachten Sie die Begleitnotizen in diesem Abschnitt für weitere Informationen und vielen Dank
für Ihr Zuhören.
11. 10 – Text-to-Speech: Hallo und willkommen zurück. In diesem Tutorial erfahren
Sie, wie Sie SSML-Tags verwenden, um zu interpretieren, wie Text für
Sonderzeichen,
bestimmte Arten von Wörtern und verschiedene Arten von Zahlen gesprochen werden soll Sonderzeichen, . dem Sagen als Element können Sie angeben, wie bestimmte Zeichen, Wörter und Zahlen in Ihrer Text-to-Speech-Datei gesprochen werden sollen. Ein SE als Tag erfordert die Verwendung der Interpret als Attribute, die bestimmt, was verarbeitet wird. Optionale Attribute wie Format und Detail können ebenfalls verwendet werden, abhängig von den ausgewählten Elementen. Lassen Sie mich erklären, was das bedeutet, wenn Sie Text mit einem Sagen als Element markieren. Sie sollten die Interpret immer als Attribute in das öffnende Tag einfügen und
angeben, wie Ihre Sonderzeichen, Wörter und Zahlen gesprochen werden sollen. beispielsweise Wenn SiebeispielsweiseZahlen markieren, steht die Zahl für ein Datum oder eine Uhrzeit? Ist es eine Telefonnummer? Ist es die Zahl 10 oder das 10. Objekt in einer Reihe? Ist es ein Bruchteil oder eine Maßeinheit? Wir werden durch, wie Sie jeden dieser Werte in diesem Tutorial detaillierter markieren,
auch, auch, abhängig von dem Wert, der markiert wird, müssen
Sie möglicherweise zusätzliche Attribute wie Format und Detail angeben, insbesondere für Werte wie Datum und Uhrzeit, die auf verschiedene Arten gesprochen werden können. dem Sagen als Element können Sie angeben, wie Ihr Text für die folgenden
Elemente gesprochen werden soll . Kardinalzahlen Dies interpretiert numerischen Text als Kardinalzahl, z. B. 5 400 oder 1234 Orginalzahlen. Dies interpretiert neuen Wundertext als eine orginale Zahl, z. B. 5. 400 oder 1234. Zeichen. Verwenden Sie diesen Wert, um jeden Buchstaben des Textes zu buchstabieren, z. B. Dies interpretiert den numerischen Text als Bruchteil. Verwenden Sie diesen Wert für gemeinsame Brüche, z. B. 3/20 und gemischte Brüche, z. B. 2,5 Expletive. Verwenden Sie diesen Wert, um Inhalte oder Wörter innerhalb des Tags zu BLEEP zu zensieren oder zu zensieren. Verwenden eines Sound-Units. Dies interpretiert in numerischen Text als eine Messung, wie 1/2 Zoll 12 Unzen, fünf Fuß ein Meter oder 200 Millisekunden wörtlich oder buchstabiert. Dieser Wert ähnelt der Verwendung von Zeichen und buchstabiert Wörter. Buchstaben für Buchstabe Datumsangaben verwenden diesen Wert für Datumsangaben wie zum 29. Januar 1993 Zeit. Verwenden Sie diesen Wert für Zeit, z. B. 5 48 PM Telefonnummern verwenden diesen Wert, um anzugeben, dass der Text als
Telefonnummer . Zusätzlich zu den oben genannten Werten können Sie mit Amazon Polly auch Werte wie Ziffern verwenden, denen Sie jede Ziffer in Ihrem Text einzeln buchstabieren können, z. B. 1234 usw. und Text als Teil von Straßenadressen interpretieren können. Ein weiterer Wert, den wir in diesem Tutorial betrachten werden, ist die Verwendung von Interjektionen in Ihren Erzählungen, die Ihrem Text ein Element Spaß in Sprachdateien hinzufügen können. Beginnen wir mit Kardinalzahlen. Kardinalzahlen Luft nur Zahlen wie 5 400 oder 1234. Die Struktur zum Markieren von Text zur korrekten Interpretation von Kardinalzahlen ist unten dargestellt. Beachten Sie, dass die Sprache, die Sie auswählen, beeinflusst, wie Kardinalzahlen gesprochenen. beispielsweise an, Hören Sie sichbeispielsweise an,wie eine US-englische Stimme in einer britischen englischen Stimme die folgenden Zahlen ausspricht. Der Preis dieses Artikels hat $12,345. Der Preis für diesen Artikel ist $12,345. Wie Sie hören können, sagt eine US-englische Stimme die Nummer. 12.345. Wo eine britische englische Stimme sagt 12.345 Hören Sie sich die beiden Stimmen wieder. Der Preis dieses Artikels hat $12,345. Der Preis für diesen Artikel ist $12,345. In einigen Fällen erkennt
Ihre Text-to-Speech-Engine Kardinalzahlen, ohne
Markup-Tags verwenden zu müssen . Darüber hinaus erkennen
einige Text-to-Speech-Engines die Wert-Zahl anstelle von Kardinal in der Interpret . als Attribute Hören Sieals Attributeeine synthetisierte Sprachaufzeichnung einer Textdatei an, die für die Interpretation von
Kardinalzahlen markiert ist. Die Höhe des Mount Everest beträgt 8848 Meter, oder 29.029 Fuß. Der Preis für diesen Artikel hat $12.345 die durchschnittliche Miete in diesem Bereich als $2500 pro Monat. Orginale Zahlen sind Zahlen wie 1. 2. 3. 5. 13. 401234 usw. usw. Die Struktur zum Markieren von Text, um Orginalzahlen korrekt zu interpretieren, wird unten
wie Kardinalzahlen dargestellt , die Sprache, die Sie auswählen Effekte. Wie orginale Zahlen Luft gesprochen, zum Beispiel,
hören Sie, wie eine US-englische Stimme in einer britischen englischen Stimme die Zahlen unten ausspricht. Heute ist der 350. Jahrestag der Revolution. Heute ist der 350. Jahrestag der Revolution, wie man hören kann, eine US-englische Stimme sagt die Nummer 350., wo eine britische englische Stimme sagt 350. Hören Sie sich die beiden Stimmen nochmal an. Heute ist der 350. Jahrestag der Revolution. Heute ist der 350. Jahrestag der Revolution. Einige Text-zu-Sprach-Engines können orginale Zahlen erkennen. Es wurde ein 2. 3. 17. Etcetera geschrieben, ohne Markup-Tags zu verwenden. Amazon Polly kann auch Orginalzahlen interpretieren, die als römische Ziffern geschrieben wurden. Im Zweifelsfall können
Sie einfach die Nummer ausschreiben, aber das ist nicht notwendig. Wenn Sie das orginale Markup-Tag korrekt verwenden, hören Sie die synthetisierte Sprache des folgenden Textes an
, der als eine orginale Zahl ohne Markierungs-Tags geschrieben wird. Als sie das zweite Mal in die Bibliothek kam, ging
sie mit einem Exemplar der dritten Ausgabe der Bücher aus, bevor sie in den 17. Stock lief. Ich weiß nicht, ob es ihr erstes Mal war oder ihr 100 Mal in der Bibliothek war. Hören Sie sich eine synthetisierte Sprachaufzeichnung einer Textdatei an, die für die Interpretation von
Orginalzahlen markiert ist. Kevin belegte den ersten Platz beim jährlichen Büro-Marathon. Dwight kam kurz darauf. Creed Third, Pam schlug ihr persönliches Bestes, indem er der siebte, der die Kreuzungslinie beendet. Stanley wurde Neunter und Michael belegte den letzten Platz auf dem 29. Hier ist eine weitere Variante des Textes, der für orginale Zahlen markiert ist. Hören Sie sich die synthetisierte Rede des folgenden Textes an. Markiert für Amazon Polly James Charles Stewart war sowohl König von Schottland als James, der sechste und König von England, und Irland hat James, der erste aus dem Jahr 1603 bis zu seinem Tod in 16 25. dem Zeichenelement können Sie Wörter und Zahlen in Ihren Erzählungen buchstabieren. Die Struktur zum Markieren von Text zur korrekten Interpretation von Zeichen ist unten dargestellt. Einige Text-to-Speech Engines können Abkürzungen wie Triple A erkennen und aussprechen und abgekürzte Wörter
buchstabieren, ohne Markup-Tags zu Text wie CIA, FBI ,
KGB ,
BBC ,
etc. Die Entführer waren nun das Fahrzeug floh aus der Szene in diese Richtung. Deine Augen sind rückwärts. Es ging in die andere Richtung. Legen Sie einen Korken. Wie buchstabiert man das FBI? Weinen? Hören Sie eine synthetisierte Sprachaufzeichnung einer Textdatei an, die für die Interpretation von
Zeichen markiert ist. Wer ist W H O ou. 812 war der Titel von Van Halen zeht Studioalbum Su Sind wir gehen, um den Hund für ein W A zu nehmen . L K, bevor es beginnt zu regnen mit den wörtlichen oder buchstabieren Elemente führt die gleiche Funktion der Rechtschreibung Wörter und Zahlen wie die Verwendung von Zeichen. Die Struktur zum Markieren von Text zur korrekten Interpretation dieser Elemente ist unten dargestellt. Hören Sie eine synthetisierte Sprachaufnahme einer Textdatei markiert für die Interpretation von Zeichen wörtlich und buchstabieren Elemente Alles, was ich frage uns für ein wenig r e s p e c t. Finden Sie heraus, was es für mich bedeutet r E S p e C T Achten Sie auf TCB Sie nur ein wenig wenn Sie nach Hause
kommen R E s P E C T wieder ein anderes Element, das Sie in Ihrem Text zu Sprache verwenden können. Mark Ups hat Ziffern genannt. Ziffern erfüllen eine ähnliche Funktion wie wörtlich buchstabieren und Zeichen, aber es funktioniert nur mit Zahlen,
nicht mit Wörtern. Die Struktur zum Markieren von Text, um Ziffern korrekt zu interpretieren, wird unten mit dem
Ziffern-Tag mit Google dargestellt . TTS arbeitet mit Zahlen. Wenn Sie jedoch versuchen, Wörter zu verarbeiten, erhalten
Sie einen Fehler und kein Ton wird mit Ziffern mit Amazon wiedergegeben. Polly arbeitet mit Zahlen, buchstabiert aber keine Wörter. Stattdessen spricht
es nur das Wort. Hören Sie eine synthetisierte Sprachaufzeichnung einer Textdatei an, die für die Interpretation von Zahlen
und Wörtern mit den Ziffern und Rechtschreibattributen markiert ist. Bitte notieren Sie sich diese Sicherheitsnummer 12345 Bitte notieren Sie sich diese Sicherheitsnummer 12345 Bitte notieren Sie sich dieses Sicherheitswort Self Love. Bitte notieren Sie sich dieses Sicherheitswort s CLF Raum L O V e. Ein weiteres nützliches Element zur Markierung numerischer Textilien Fraktionen. Dies funktioniert sowohl für gemeinsame Brüche wie 3/20 als auch für gemischte Brüche wie 2,5. Die Struktur zum Markieren von Text zur korrekten Interpretation von Brüchen ist unten dargestellt. Einige Text-to-Speech-Engines können Brüche in Ihren Textdateien wie 9. 2 und
3/4 usw. interpretieren , ohne Markup-Tags für Amazon Polly zu verwenden, um gemischte Zahlen als
Brüche zu interpretieren . Zwischen Zahlen im markierten Text muss ein Pluszeichen hinzugefügt werden, z. B. drei plus 1/2 Amazon. Polly unterstützt keine gemischte Zahl ohne das Pluszeichen. Hören Sie eine synthetisierte Sprachaufzeichnung einer Textdatei an, die für die Interpretation von
Brüchen markiert ist. Fast 2/5 der U. S. Erwachsene im Alter von 20 Jahren und älter leiden an Fettleibigkeit. Wissen Sie, wie man sechs durch 3,5 teilt, ohne einen Rechner zu verwenden oder Google zu fragen? Wir alle wissen, dass die Teilung 22 durch sieben oder drei und 1/7 eine gute Annäherung an Kuchen ist, aber 355 geteilt durch 113 oder drei und 16 113. Saison noch näher an den wahren Wert des Kuchens. dem exploitiven Element können Sie den Effekt der Zensur von Wörtern in Ihrer Erzählung erzeugen. Unter Verwendung eines Sounds wird die Struktur zum Markieren von Text zur korrekten Interpretation von Expletiven unten dargestellt. Hören Sie sich eine synthetisierte Sprachaufzeichnung einer Textdatei an, die für die Interpretation von
Expletiven markiert ist. Also sagte ich zu ihm, ich habe gemacht, was du meinst, und er sagt zurück zu mir, ich kann, wo immer ich will. Also sage ich zurück zu ihm machen, wenn das der Fall ist,
dann bist du besser, bevor ich blase und das ist genau das, was passiert ist. Officer, ich schwöre, dass Sie numerischen Text als Maß für Amazon
Polly interpretieren können . Der Wert im Text sollte entweder eine Zahl oder einen Bruchteil sein, gefolgt von einer Maßeinheit ohne Zwischenraum, z. B. in 1/2 Zoll oder nur der Einheit wie in einem Meter. Die Struktur zum Markieren von Text, um Einheiten korrekt zu interpretieren, ist unten dargestellt. Einige Text-zu-Sprachmodule können Einheiten erkennen und interpretieren, ohne dass
Markup-Tags in Ihrem Text verwendet werden müssen . Zum Beispiel, 10 Millisekunden 100 Kilometer fünf Grad Celsius, 350 Milliliter, 75 Meter usw. Darüber hinaus können
einige Text-zu-Sprach-Engines Maßeinheiten automatisch in ihre
Singular- oder Pluralform umwandeln , abhängig von der Anzahl. Hören Sie eine synthetisierte Sprachaufzeichnung einer Textdatei an, die für die Interpretation von Einheiten markiert ist. Die Wege am Strand heute Morgen müssen 10 Meter hoch gewesen sein. Im Durchschnitt dauert
die Geschwindigkeit eines Blinkens I nur 1/10 Sekunde oder 100 Millisekunden. Die Notfalldosis von Adrenalin, um jemanden wiederzubeleben, der in einen anaphylaktischen Schock gegangen ist 0,1 Milligramm pro Kilogramm eines Milligramm pro Milliliter Wahnvorstellung bis zu einer maximalen Dosis von 0,5 Milligramm bei einem Erwachsenen und 0,3 Milligramm bei einem Kind. Wenn Sie ein Deck für Ihre Terrasse bauen, richten Sie die Trägerabstände auf mindestens 1800 Millimeter-Zentren mit Stumpflöchern von nicht mehr als 1500 Millimetern auseinander. dem Datumselement können Sie Datumsangaben in verschiedenen Formaten interpretieren, hat Text sowohl von Google Text-to-Speech als auch von Amazon Polly Daten mit leicht
unterschiedlichen Markup-Strukturen interpretieren . Lassen Sie uns also jedes dieser einzeln durchgehen,
beginnend mit Google TTS,
die Struktur zum Markieren von beginnend mit Google TTS, Text, um Datumsangaben korrekt mit Google-Text-zu-Sprache zu interpretieren ist unten dargestellt. Beachten Sie, dass das Datums-Tag die erforderliche Interpret als Element enthält, plus zwei zusätzliche Attribute Format im Detail. Eine andere Sache zu beachten ist, dass Datumsangaben, die im Textfeld verwendet werden, durch
Satzzeichen wie Bindestriche,
Leerzeichen und sogar Leerzeichen getrennt werden können Satzzeichen wie Bindestriche, , wie im folgenden Beispiel gezeigt. Lassen Sie uns über das Formatattribut der Daten sprechen. Element das Format Attribute verwendet die Zeichen warum M und D für Jahr, Monat und Tag des Monats, jeweils. Wie wir in einem Moment sehen werden, können
Sie verschiedene Kombinationen dieser drei Zeichen im Formatfeld verwenden. Es gibt
jedoch ein paar Regeln, die zu befolgen sind. Wenn das formatelement das Zeichen enthält, warum dann? Das Datumstextfeld muss ein Jahr enthalten, z. B. das Jahr 1965. Wenn das formatelement das Zeichen M enthält, muss das Datumstextfeld einen Monat enthalten. Zum Beispiel März, September, Dezember usw. Wenn das formatelement das Zeichen D enthält, muss das Datumstextfeld den Tag des Monats enthalten, z. B. den 7. 24. oder 31. des Monats. Darüber hinaus, wenn das Zeichen warum im Format enthalten ist, Attribute als das Jahr müssen als vierstellige Zahl geschrieben werden, so richtig ist das Jahr 1978 nicht nur 78. Wenn das Zeichen D in den Formatattributen als einstellige Ziffer enthalten ist, können
Sie eine einzelne Ziffer für Tage wie die fünfte des Monats verwenden. Wenn das Format zwei D's enthält, dann verwenden Sie zweistellige Zahlen für Tage wie ein 05 Das gleiche gilt für Monate. Wenn das Zeichen AMAs in den Formatattributen als eine Ziffer enthalten ist, dann können Sie eine einzelne Ziffer wie neun für den Monat September oder vier für April verwenden. Wenn das Format doppelte Monatsziffern verwendet, stellen
Sie sicher, dass alle Monatsnummern zweistellig wie 04 für April 09 für September stellen
Sie sicher, dass alle Monatsnummern zweistellig wie 04 für April 09 für September
usw. Als nächstes haben
wir die Detailattribute die Detailattribute steuert die gesprochene Form des Datums. Haben Sie zwei Möglichkeiten? Option eins und Option zwei? Lassen Sie uns zuerst über Option eins sprechen. Wenn die Detailoption auf Lee gleich eins ist, sind die Tagesfelder und ein Monat oder Jahr Felder Luft erforderlich . Obwohl beide Felder können Option eins als Standardstruktur für die Interpretation von
Datumsangaben angegeben werden, wenn weniger als alle drei Felder im Format-Element angegeben sind. In der Regel müssen
Sie dem Markup-Tag das Detail eines Elements nicht hinzufügen. Wenn dies die Standardstruktur für die Interpretation von Datumsangaben ist, da die Text-zu-Sprach-Engine automatisch in dieses Format wechseln sollte, wird
die gesprochene Form für Option eins als der ursprüngliche Tag des Monats und Jahres, so in den unten gezeigten Beispielen Die gesprochene Form des Textes wäre der 19. Mai 1991 für das erste Beispiel und der zweite März. Für das zweite Beispiel, wenn die Detailoption gleich dem Tag, Monat und Jahr Felder air erforderlich Option 2 als Standardstruktur für die Interpretation von Datumsangaben ist, wenn alle drei Felder im Formatelement geliefert werden. In der Regel müssen
Sie dem Markup-Tag das Detail nicht hinzufügen. Wenn dies die Standardstruktur für die Interpretation von Datumsangaben ist, da die Text-zu-Sprach-Engine automatisch in dieses Format wechseln sollte die gesprochene Form für Option zwei als Monat orginaler Tag und Jahr. In den unten gezeigten Beispielen wäre
die gesprochene Form des Textes der 15. Januar 1929. Für das erste Beispiel: 14. 18.
März 79 für das zweite Beispiel und 5. September 1946 für das letzte Beispiel. Bevor wir über das Markieren von Text für die Interpretation von Daten mit Amazon Polly sprechen, lassen Sie uns einige gesprochene Beispiele für Text hören, der in den Formaten markiert wurde, die wir gerade besprochen haben . Hören Sie sich zuerst eine synthetisierte Sprachaufnahme einer Textdatei an, die mit verschiedenen
Datumsangaben,
Basisoptionen markiert Datumsangaben, wurde. Ich wurde am 16. November 1968 geboren. Meine Schwester wurde am 22. Juni 1971 geboren. Mein Bruder wurde am 10. Februar 1974 geboren. Hören Sie sich nun eine synthetisierte Sprachaufnahme einer Textdatei an, die mit einem anderen
Datumsformat in Detailwerten markiert wurde. Meine Familie und ich wanderten in dieses Land. Wir kamen hier am 26. Juni 1952 an. Ich habe einen weiteren Termin mit Chiropraktiker am neunten September. Albert Einstein gewann am 9. November
1922 den Nobelpreis für Physik für seine Verdienste um die theoretische Physik und für seine Entdeckung des Gesetzes des Fotos Electric Effekt. Lassen Sie uns jetzt über das Markieren von Text für die Interpretation von Daten mit Amazon Polly sprechen. Die Struktur zum Markieren von Text zur Interpretation von Datumsangaben mit Amazon Polly ist unten dargestellt. Beachten Sie, dass das Datumselement ein zusätzliches Attributformat enthält. Trennen Sie die Datumselemente im Textfeld mit Bindestrichen, außer wenn Sie das Format y y y y y y M d.
D.verwenden. D. Alle hier aufgeführten Datumsformate können mit Amazon verwendet werden. Polly hier ist ein nützlicher Tipp, wenn Sie Amazon Polly verwenden, um Daten zu interpretieren. Wenn Sie das Format Y y Y Y M M D D verwenden, können
Sie Amazon Polly Teile des Datums überspringen lassen, wobei Fragezeichen verwendet werden, die die Formatattribute im Markup-Tag angeben, ebenfalls nicht erforderlich sind. beispielsweise Amazon Polly stelltbeispielsweisedie folgenden Beispiele wie folgt dar. Am 22.
September 1989. Anhören einer synthetisierten Sprachaufzeichnung einer Textdatei, die für Amazon Polly mit
verschiedenen Datumsformaten markiert ist. Game of Thrones ausgestrahlt seine erste Episode auf HBO am 17. April 2011. Nach acht Staffeln ging
die letzte Folge von Game of Thrones am 19. Mai 2019 in die Luft. König Johannes von England unterzeichnete die Magna Carta am 15. Wussten Sie, dass der 4. Januar sein Nationaler Spaghetti-Tag? Und am 10. November ist National Vanilla Cupcake Day. Sprich darüber, Kohlenhydrate zu feiern. Viele Menschen geraten in Panik, als sie glauben, dass kataklysmische Ereignisse nach Dezember
2012 auftreten würden , als der alte Maya-Kalender zu Ende ging. Julius Caesar, Überquerung des Rubicon River im Januar 49 v. Chr. war das Ereignis, das den römischen
Bürgerkrieg auslöste . Wir werden jeden Monat am 15. bezahlt. Unser Hochzeitstag ist im August, 1964 führte Xerox Corporation die erste kommerzialisierte Version des modernen
Faxgeräts ein. Aber bis jemand anderes eine ihrer Maschinen kaufte, hatten
sie niemanden, an den er Faxe senden konnte. Am 21. Juli 1969 wurde Neil Armstrong der erste Mensch, der auf der Oberfläche des
Mondes spaziert . Aber Buzz Aldrin war der erste Mann, der übersprungen und urinierte. Das Zeitelement können Sie interpretieren Zeit in verschiedenen Formaten hat gesprochener
Text sowohl Google Text zu Sprache und Amazon Polly interpretieren Zeitwerte unterschiedlich. Also lassen Sie uns durch jedes dieser einzeln gehen, beginnend mit Google TTS die Struktur zum Markieren von Text, um die Zeit korrekt
mit Google Text in Sprache zu interpretieren , wird unten gezeigt beachten Sie, dass das Zeit-Tag die erforderliche Interpret als Element plus zwei zusätzliche Attribute, Format und Detail. Eine andere Sache zu beachten ist, dass Zeitwerte, die im Textfeld verwendet werden, durch
Satzzeichen und/oder Leerzeichen getrennt werden können , wie im folgenden Beispiel gezeigt. Das Format Attribute verwendet eine Sequenz von Zeitfeld-Zeichencodes, H. H.
M s, Z 12 und 24 für unsere Minute unserer Sekunde der Minute Zeitzone, 12 Stunden Zeit und 24 Stunden Zeit, jeweils. Das Standardformat ist H. M S 12. Wenn unsere Minute oder Sekunde nicht im Format angegeben sind oder keine übereinstimmenden Ziffern vorhanden sind, wird
das Feld als Nullwert behandelt. Zeit kann als Stunde des Tages interpretiert werden, z. B.
für 26 Uhr oder Zeitdauer, wie vier Stunden und 20 Minuten. Das Detailelement steuert, ob die gesprochene Form der Zeit als 12 Stunden oder 24 Stunden Zeit. Sie haben zwei Möglichkeiten. Option eins und Option zwei, die gesprochene Form als 24 Stunden Zeit. Wenn Detail gleich eins ist oder wenn Detail weggelassen wird, und das Format der Zeit als 24 Stunden Zeit, die gesprochene Form als 12 Stunden Zeit. Wenn Detail gleich zwei oder wenn Detail weggelassen wird und das Format der Zeit als 12 Stunden Zeit, hören Sie eine synthetisierte Sprachaufzeichnung einer Textdatei, die für Google Text in Sprache
markiert verschiedenen Zeitformaten. 16 26 Uhr zwei Stunden, sieben Minuten und neun Sekunden, 16 Stunden 39 Minuten und 57 Sekunden. Pazifische Normalzeit. 6 22 Östliche Normalzeit. Fünf Uhr 1700, fünf Uhr. Amazon Polly interpretiert das Zeitelement des numerischen Textes als Dauer in Minuten und
Sekunden und kann auch grundlegende Zeit erkennen, die die Struktur zum Markieren von Text formatiert, um die Zeit mit Amazon zu interpretieren. Polly wird unten gezeigt Hören Sie eine synthetisierte Sprachaufzeichnung einer Textdatei an, die für die
Interpretation der Zeit mit Amazon Polly eine Minute und 21 Sekunden markiert ist. 4 26 PM fünf Uhr 1700 Stunden 3 18 Das Telefonelement zeigt an, dass der enthaltene Text als Telefonnummer Google, T TS und Amazon Polly Telefonwerte etwas anders interpretieren, so wird diese beiden Prozesse abdecken. Separat die Struktur zum Markieren von Text zur korrekten Interpretation von Telefonnummern mit
Google-Text to Speech gezeigt. Beachten Sie, dass Sie mit dem Telefonelement internationale Codes im Formatfeld verwenden können. Die Google Text to Speech Engine interpretiert internationale Codes im
Textfeld korrekt , auch wenn der Ländercode im Formatelement nicht mit ihm übereinstimmt. Darüber hinaus wird
es Telefonnummernerweiterungen und sogar Telefonwörter interpretieren. Hören Sie sich eine synthetisierte Sprachaufzeichnung einer Textdatei an, die für Google-Text in Speech
mit Telefonnummern markiert ist. 5556789 5556789 Extension 345 plus 3 +98 OO +123456 plus 3 +98 OO +123456 six Saito 5556789 16 Saito 5556789 +18662255631 +155574992 Amazon Polly interpretiert den numerischen Text als siebenstellige oder 10-stellige Telefonnummer. Telefonerweiterungen können ebenfalls mitgeliefert werden. Bitte beachten Sie, dass zum Zeitpunkt der Aufzeichnung dieser Lektion die Telefonoption nur für englische Sprachstimmen verwendet werden konnte. Die Struktur zum Markieren von Text, um Telefonnummern korrekt mit Amazon
Polly zu interpretieren , wird unten einige andere Dinge gezeigt. Zu beachten ist, dass Amazon Polly Telefonnummern im Text ohne Markierung von
Tags interpretieren kann , wenn Bindestriche Luft in den Telefonnummern verwendet. auch, Bitte beachten Sieauch,dass die von Ihnen ausgewählte Sprache beeinflusst, wie Telefonnummern in der Luft gesprochen werden, zum Beispiel, hören Sie den Unterschied zwischen dem, wie eine amerikanische englische Stimme die Telefonnummer
unten sagt , und wie ein UK Englische Stimme sagt es. Die Telefonnummer von Veronica ist 2122241555 Extension 666 Veronica. Seine Telefonnummer ist 212 Doppel- zu 41 Triple Fünf Erweiterung. Dreifache Sechs. Hören Sie sich eine synthetisierte Sprachaufzeichnung einer Textdatei an, die für die Interpretation von
Telefonnummern markiert ist. Verwenden der Erweiterung Amazon Polly 5551212 20 bis 5551212 20 bis 5551212. 345 5556789 5556789 Erweiterung 345 6805556789 16805556789 Ein zusätzliches Element, das Sie mit Amazon Polly Voices als
Adresselement verwenden können , mit
dem Sie Texte als Teil einer Straßenadresse interpretieren können. Die Struktur zum Markieren von Text, um eine Adresse korrekt mit Amazon zu interpretieren, Polly wird unten Anhören einer synthetisierten Sprachaufzeichnung einer Textdatei, die für
Adressen markiert ist, gezeigt . 14 Schrägstrich 72 53 The Boulevard Springfield, 63103 Missouri USA Wohnung, 69 1 88 Grand Central Tower, Cloudburst County, New South Wales 2177. Australien 59 40. Ferguson Road, Richmond, British Columbia v sieben B ein M sechs, Kanada Das letzte Element, das ich vor dem Ende dieser Lektion abdecken möchte, sind Interjektionen Interjektionen, auch als Sprache Cons Cans mit dem unten gezeigten Markup-Tag zum Text hinzugefügt werden. Bitte beachten Sie, dass Sprachnachteile daran gewöhnt sind. Für Amazon Alexa erstellte Bibliothek Während der Aufzeichnung dieser Lektion waren keine Sprachnachteile für Amazon Polly Voices
verfügbar. Also, was ich tun möchte, ist nur spielen Sie ein aufgezeichnetes Bildschirm Video von verschiedenen Sprache Nachteile, so dass Sie hören können, wie das ist klingt. Abacha. Deborah muss uh huh. Ihn. Ahoi! Alles in Ordnung. Ich bin tief, was? Yoga. Argh! Areva! Daraji! Wie Sie es wünschen. Bar voie ein Mann. Ah, Botta bing bada boom bah, humbug bam, bang, batter up, Zynga baby Bingo, blah Schmalz Letzte Boeing Knochen uppity. Beide Ihre bon Reise Osh Boo hoo hoo! Bumm! Booyah! Bravo, Bomber Auto ching! Schachmatt! Cheerio. Prost. Aufmuntern. Trip choo choo clank Click clack Schwanz ein doodle. Oh, oh! Putsch! Cowabunga! Verdammt! Kim Dong! Ditto. Dot nicht,
Dot Dot Duh. Dumm. Nicht! Machen Sie kein Dynamit. Ik es. Zugabe auf Wache! Eureka! Lust auf das, Geronimo! Verdammt! Gute Trauer. Viel Glück. Gutes Riddance. Gotcha! Großartig. Scott, Kopf hoch! Hören, hören! Hüfte, Hüfte! Hurra! Zischen, Schwein, Patty! Hurra! Hurra! Huzzah! Jeepers Creepers! Jiminy Cricket, Jenks. Nur ein Scherz. Kaboom! Cobb Lamm Coaching Kapow Chao Co Xam ca bam ka boom! Coaching könnte ca Flop kauen. Könnte Kerplunk poppen. Kapow ihre Latte ihren Sumpf! Klopfen, klopfen! Miss, ich sehe aus! Mama Mia! Mann über Bord! Maazel toff mich aus. Messi Wer? Nein, nein, nein, nein. Meeiner! Meeiner. Auf keinen Fall. Nun, wie
jetzt, Junge? Oh, Bruder! Oh, mein Lieber. Oh, mein Oh, Snap Link! Ok. Dokey. Puff! La la Open Sesam! Autsch! Junge, du verdammter Pim Club Puof! Pumpe. Wie Quack! Lesen Sie em und weinen. Ribbit, richtig. Oh, Roger. Retro Schocks Slash Spoiler Alarm Quietschende Schwärme. Swoosh! Äh, Toyota. Er ist da. Sump tick, tick tick tick, Tic tac. Berühre! Tisk, tisk, Tweet! Äh, huh. Äh, oh. Voula von Whoa! Nicht wollen. Pass auf! Weg zu gehen! Gut gemacht! Nun, na ja. Wham, whammo! Wir que Wolf! Whoops! Ein Gänseblümchen Wer? Wow! Wow! Za wowser yada, yada, yada. Ja, Yikes! Vielleicht wissen Sie, wen Sie wetten. Yowza! Ja, Hauser. Yuck! Yum, zap, Zing! Zoinks! Dies bringt uns bis zum Ende dieses Tutorials. Ich hoffe, Sie fanden diese Lektion nützlich. Bitte beachten Sie die Begleitnotizen in diesem Abschnitt für weitere Informationen und vielen Dank
für Ihr Zuhören.
12. 11 – Text-To-Speech Text-To-Speech: Hallo und willkommen zurück. In diesem Tutorial erfahren
Sie, wie Sie SS ML-Tags verwenden, um bestimmte Teile Ihres Textes hervorzuheben, da sowohl Google Text-to-Speech als auch Amazon Polly Hervorhebung unterschiedlich interpretieren Wir werden beide separat abdecken. Das Hervorhebungselement wird verwendet, um Text hervorzuheben. Dieses Element ändert die Sprache ähnlich wie Prasit E, aber ohne die Notwendigkeit, einzelne Sprachattribute festzulegen. Das Hervorhebungselement unterstützt eine optionale Ebene Attribute, die den Grad der Betonung zu Text hinzugefügt ändert die Struktur für die Markierung von Text, um Betonung mit Google Text zu Sprache
interpretieren wird unten Google Text in Sprache gezeigt unterstützt die folgenden Hervorhebungsstufen stark ,
moderat, reduziert und keiner hört eine synthetisierte Sprachaufnahme einer Textdatei, die mit
verschiedenen Hervorhebungsstufen markiert ist. Gib es zurück, sagte Sue, als ihr Bruder den Leckerbissen in seiner Tasche versteckt hat. Nein, es gehört mir, sagte Tim, wehrt seine kleine Schwester ab. Ich warne Sie, sagte Sue und
schreitet bedrohlich voran. Oh, nein, ich habe so Angst, sagte Tim mit einem Grinsen. Du solltest es besser sein. Ich sag's Mom, sagte Sue, wackelt mit dem Finger in sein Gesicht. Lassen Sie uns jetzt über das Markieren von Text für die Interpretation der Betonung mit Amazon Polly sprechen, der Struktur für die Interpretation der Betonung. Verwendung von Amazon Polly ist die gleiche, aber mit Amazon Polly ändert sich die Rate der Lautstärke der Sprache. Mehr Betonung macht Amazon Polly den Text lauter und langsamer, und weniger Betonung macht es leiser und schneller sprechen. Amazon Polly unterstützt die folgenden Hervorhebungsstufen stark, erhöht die Lautstärke und verlangsamt die Sprechgeschwindigkeit. So erhöhen die Reden lauter und langsamer moderat die Lautstärke und verlangsamt die
Sprechgeschwindigkeit , aber nicht so viel wie bei zu starker Einstellung. Wenn die Stufe nicht im Markup-Tag enthalten ist, verarbeitet Amazon Polly die Betonung auf der moderaten Ebene Ist die Standardeinstellung reduziert, verringert die Lautstärke und beschleunigt die Sprechgeschwindigkeit. Die Reden, weicher und schneller. Hören Sie sich eine synthetisierte Sprachaufzeichnung einer Textdatei an, die für Amazon Polly markiert ist, verwenden Sie verschiedene Hervorhebungsstufen. Gib es zurück, sagte Sue, als ihr Bruder,
versteckt, um in seiner Tasche zu behandeln. Nein, es gehört mir, sagte Tim, wehrt seine kleine Schwester ab. Ich warne Sie, sagte Sue und
schreitet bedrohlich voran. Oh, nein, ich habe so Angst, sagte er mit einem Grinsen. Du solltest es besser sein. Ich erzähle es Mom, sagte Sue, wackelte mit dem Finger in sein Gesicht. Dies bringt uns bis zum Ende dieses Tutorials. Ich hoffe, Sie haben diese Lektion nützlich gefunden. Bitte beachten Sie die Begleitnotizen in diesem Abschnitt für weitere Informationen und vielen Dank
für Ihr Zuhören.
13. 12 – Text-to-Speech Text-To-Speech: eine Welt in einem Sandkorn und einen Himmel in einer wilden Blume zu sehen. Halten Sie die Unendlichkeit in der Handfläche und die Ewigkeit in einer Stunde, um eine Welt in einem
Sandkorn zu sehen . Onda Himmel in einer wilden Blume. Halten Sie die Unendlichkeit in der Handfläche und die Ewigkeit in einer Stunde. Hallo und willkommen zurück. In diesem Tutorial erfahren
Sie mehr über Prasit E und wie Sie SS ML-Tags verwenden, um Prasad IQ-Elemente in
Ihrem Text in Sprachdateien zu ändern . Ich werde erklären, welchen Prozess er meint. Sprechen Sie über einige verwandte Begriffe und zeigen Sie, wie Sie Tonhöhe,
Lautstärke und Rate Ihres gesprochenen Textes ändern können. Prasit. Er bezieht sich auf Sprachbereiche wie Stimmrhythmus, Stress und Intonation von Sprache, und wie diese Merkmale zur Bedeutung beitragen. Prasad. IQ bezieht sich auf Attribute und Aspekte von Prasit e des Prozesses. Das Element wird verwendet, um die Tonhöhe,
Lautstärke und Sprechgeschwindigkeit Ihrer Tags Speech anzupassen . Die Struktur zum Markieren von Text zur Interpretation von Prasit E ist unten dargestellt. Wenn Sie denselben Text mit verschiedenen Stimmen aufzeichnen, können
Sie sehen, dass einige Stimmen dasselbe bei einer langsameren, schnelleren Sprachlautstärke,
Sprachgeschwindigkeit und Tonhöhe von der ausgewählten Stimme abhängen. Zusätzlich zu den Unterschieden zwischen den Stimmen für verschiedene Sprachen
gibt es Unterschiede zwischen einzelnen Stimmen, die dieselbe Sprache sprechen , während Attribute in allen Sprachen ähnlich sind, gibt es sind klare Variationen von Sprache zu Sprache. Dies bedeutet, dass es keine absoluten Werte nur relative Werte gibt. Relative Werte können als Prozentsatz oder Zahl geschrieben werden, denen ein Plus- oder Minuszeichen vorangestellt , gefolgt von einem Prozentsymbol, z. B. ist
,
gefolgt von einem Prozentsymbol,
z. B.
plus 15,2% minus 8% oder eine relative Zahl für Tonhöhenattribute. Relative Veränderungen können in Halbtönen gegeben werden, wobei eine Zahl mit einem Plus- oder Minuszeichen vorangestellt wird, gefolgt von S. gefolgt von S.
T ,
diezum Beispiel
fürHalbtöne zum Beispiel
für plus 0,5 Halbtöne plus fünf Halbtöne minus zwei Halbtöne. Etcetera. Beachten Sie, dass die Einheiten für str Groß- und Kleinschreibung ein Halbton ist die Hälfte eines Tones oder 1/2 Schritt auf der Standard-diatonischen Skala. Hören Sie eine synthetisierte Sprachaufzeichnung einer Textdatei markiert mit verschiedenen Verfahren, er Attribute. Quantenberechnung ist die Verwendung von quantenmechanischen Phänomenen wie einer Überlagerung und Verschränkung, um Berechnungen durchzuführen. Quantenberechnung ist die Verwendung von quantenmechanischen Phänomenen, einer
solchen Überlagerung und Verschränkung, um Berechnungen durchzuführen. Quantenberechnung ist die Verwendung von quantenmechanischen Phänomenen, einer
solchen Überlagerung und Verschränkung, um Berechnungen durchzuführen. Quantenberechnung ist die Verwendung von quantenmechanischen Phänomenen, einer
solchen Überlagerung und Verschränkung, um Berechnungen durchzuführen. Werfen wir einen Blick auf die PRASAD IQ Elemente der Tonhöhe Volumen und Rate der Rede und wie diese Luft von Google Text zu Sprache und Amazon Polly Weg interpretiert. die Tonhöhe Ihrer Sprache ändern, können Sie den Ton Ihrer ausgewählten Stimmen erhöhen oder senken . Es gibt drei Optionen, um den Wert von Tonhöhenattributen mit Google-Text to Speech festzulegen. Sie können einen relativen Wert wie „extra niedrig“, „niedrig“,
„
mittel“,„
hoch“,„
extra hoch“ und „default“ angeben , mittel“,„
hoch“, , wobei der mittlere Wert als Standardtonhöhe verwendet wird. Sie können die Tonhöhe auch erhöhen oder verringern, indem Sie eine Anzahl von Halbtönen angeben. Beachten Sie, dass Sie bei dieser Methode Verwendung von Plus- oder Minuszeichen und S T mit Prozentwerten erhöhen oder verringern
können. Beachten Sie, dass das Prozentsymbol erforderlich ist, aber die Verwendung von Plus- oder Minuszeichen ist optional. Hören Sie sich die verschiedenen Tonhöhenwerte an, die verwendet werden, um den Beispieltext unten zu erzählen. Der erste Satz hat keine Markierung, so dass Sie die Standardstimme hören können. Wenn ich eine eigene Welt hätte, wäre
alles Unsinn. Nichts wäre das, was es ist, weil alles sein würde, was es nicht ist. Und im Gegensatz dazu, was wäre es nicht. Und was es nicht wäre, würdest du sehen? Ich weiß nicht, was du meinst, sagte Alice Amazon. Polly können Sie die Tonhöhe Ihrer Sprache einstellen, erhöhen oder senken, indem Sie einen vordefinierten Wert wie extra niedrig, niedrig mittel hoch und extra hoch verwenden. Sie können die Tonhöhe auch erhöhen, indem Siez.
B.einen Prozentsatz z.
B. plus 10% oder plus 5% angeben. Beachten Sie, dass der zulässige Maximalwert plus 50% beträgt. Wenn Sie den Wert höher als diesen Betrag einstellen, wird
er nur mit dem Maximalwert plus 50% gerendert. Sie können die Tonhöhe auch verringern, indem Sie einen Prozentsatz wie minus 10% minus 20%
usw. angeben .
Der kleinste Wert, der für die Verkleinerung der Tonhöhe mit Prozentsätzen zulässig ist, beträgt minus 33,3%, wobei
ein Wert kleiner als minus 33,3% angegeben wird, nur mit dem Mindestwert von minus 33,3% gerendert. Hören Sie sich eine synthetisierte Sprachaufzeichnung einer Textdatei an, die für Amazon Polly Voices
mit unterschiedlichen Tonhöhenattributen markiert ist. Ein Traum ist keine Realität
, wer sagt, was ist was? Jeder will eine magische Lösung für sein Problem, und jeder weigert sich, an Magie zu glauben. Kein Wunder, dass du zu spät kommst. Warum diese Uhr genau zwei Tage langsam ist. Du warst früher viel mehr hier. Du hast deine Vielfältigkeit verloren Manchmal glaubte ich vor dem
Frühstück an bis zu sechs unmögliche Dinge . Ich habe eine Theorie. Die Leute reden laut, wenn ich klug handeln will. Genau bei Google. Voice ist, dass Sie die Lautstärke Ihres gesprochenen Textes ändern können, indem Sie eine Zahl vor dem Plus- oder Minuszeichen verwenden, gefolgt von DB für Dezibel oder Werte wie stumm, extra
weich , mittel laut, extra laut oder Standard. Der Standardwert ist plus 0,0 Dezibel. Beachten Sie, dass die Angabe eines Silent-Werts gleich der Angabe von Minus-Unendlichkeitsdezibel und dass alle numerischen Lautstärkepegel in Dezibel Luft relativ zum aktuellen Pegel und
immer ein Plus- oder Minuszeichen,
einschließlich Null habensollten immer ein Plus- oder Minuszeichen,
einschließlich Null haben Bei Verwendung der Label-Standardeinstellung wird der aktuelle Lautstärkepegel zurückgesetzt. Hören Sie sich eine synthetisierte Sprachaufzeichnung einer Textdatei an, die für Google TTS mit
verschiedenen Volume-Attributen markiert wurde. Ich spreche diese Zeile mit der Standardlautstärke für diese Stimme. Ich spreche das hier. Richten Sie es ungefähr doppelt so hoch wie die ursprüngliche Signalamplitude aus. Ich spreche diese Linie ungefähr die Hälfte der ursprünglichen Signalamplitude. Amazon Polly können Sie die Lautstärke auf einen vordefinierten Pegel für Ihre aktuelle
Stimme ändern oder einstellen , indem Sie Werte wie leise extra weich, weich, mittellaut extra laut verwenden. Sie können auch die Lautstärke relativ zum aktuellen Lautstärkepegel erhöhen. Zum Beispiel bedeutet
plus Null Dezibel keine Änderung der Lautstärke, plus sechs Dezibel ungefähr doppelt so hoch wie die aktuelle Amplitude. Bitte beachten Sie, dass der maximal zulässige positive Wert von ca. plus 4,8 Dezibel. Darüber hinaus können
Sie die Lautstärke relativ zum aktuellen Lautstärkepegel verringern. Zum Beispiel bedeutet
minus sechs Dezibel ungefähr die Hälfte der aktuellen Amplitude. Hören Sie sich eine synthetisierte Sprachaufzeichnung einer Textdatei an, die für Amazon Polly-Stimmen
mit unterschiedlichen Volume-Attributen markiert ist. Ich spreche diesen Satz meines normalen Bandes. Ich spreche diesen Satz, der einen Band erlaubt hat. Wann immer ich aufwache, neige
ich dazu, sehr langsam zu sprechen, während mein Gehirn in den Fokus gerät. Ich kann mit meiner normalen Tonhöhe sprechen, aber auch mit einer viel höheren Tonhöhe. Und manchmal kann ich sogar mit einer viel niedrigeren Stimme sprechen. Ein weiteres Attribut von Prasit EU kann in Ihrem Text ändern, da die Rate der Sprache verwenden relative Werte wie extra langsam, langsam, mittelschnell, extra schnell oder Standard, um die Rate der Sprache oder einen Prozentsatz, wenn der Wert ist ein nicht negativer Prozentsatz. Es fungiert als Multiplikator der Standardrate. Zum Beispiel bedeutet
ein Wert von 100% keine Änderung der Sprechrate. Ein Wert von 200% bedeutet eine Sprechrate von doppelt so viel wie der Standardsatz, und ein Wert von 50% bedeutet eine Sprechrate von der Hälfte des Standardsatzes. Außerdem ist
es wichtig zu beachten, dass die Standardrate von der Sprache, dem
Dialekt und der Persönlichkeit der verwendeten Stimme abhängt . Hören Sie sich eine synthetisierte Sprachaufzeichnung einer Textdatei an, die für Google markiert ist. TTS Stimmen mit verschiedenen Rate-Attribute ein kleiner Junge blau kommen blasen Sie Ihr Horn, die Schiffe und Wiese. Die Kuh ist im Mais. Wo ist der Junge, der sich um die Schafe kümmert? Er ist unter einem Heuhaufen. Schnell einschlafen Mit Amazon Polly Voices können Sie die Sprechgeschwindigkeit mit relativen Werten wie extra
langsam, langsam ,
mittelschnell , extra schnell einstellen
oder einen Prozentsatz angeben, um die Geschwindigkeit der Rede. 100% gibt keine Veränderung gegenüber der normalen Rate an, während der Prozentsatz größer als 100% ist. Erhöhen Sie die Rate und Prozentsätze unter 100%. Verringern Sie die Rate. Beachten Sie, dass bei Amazon Polly-Stimmen der Mindestwert, den Sie als 20% angeben können. Hören Sie sich eine synthetisierte Sprachaufzeichnung einer Textdatei an, die für Amazon Polly Voices
mit unterschiedlichen Ratenattributen markiert ist. So gehe ich, wenn ich extra langsam spreche. Ich spreche immer extra schnell, wenn ich eine Explosion habe. Lass es uns eine Kerbe runter nehmen, dann warten und zusehen. Wenn ich etwas schneller rede, klingt das nicht nach einer Katastrophe. Wenn ich etwas langsamer werde, kannst
du mich in der Mitte treffen. Zusammenfassend können
Sie Prasidh e Elemente mit kombinierten Tonhöhen- und Raid-Attributen verwenden, um
Ihren Text auf Sprachdateien abzustimmen und die Qualität Ihrer Erzählungen zu verbessern. Dies bringt uns bis zum Ende dieses Tutorials. Ich hoffe, Sie fanden diese Lektion nützlich. Bitte beachten Sie die Begleitnotizen in diesem Abschnitt für weitere Informationen und vielen Dank
für Ihr Zuhören.
14. 13 – Text-to-Speech Text-To-Speech: - Inbusschlüssel , schreckliche Feeder, Portsys,
elektrische Heizungen, Müllverdichter, Saft, Extraktor, Extraktor, geduschte Läufe in Wasserzählern, Walking Talkies, Kupferdraht Schutzbrille, Radialreifen, Pellets, Gummischlägel, Ventilatoren und Luftentfeuchter. Bild hängende Papierschneider, Waffeleisen, Fensterläden Lackentferner, bis wir das Klebeband abdeckten, haben Dollar beeinflusst. Küchenarmaturen, Klapptische, Wetterstripping, richtige Kabel, Aussehen und Hintergrund. Es ist wieder mit Macht. Das Recht des Vaters muss zur Begasung unterschreiben. Hochleistungs-Aufruf,
Einmischung Abdichtung, Mehrzweck-Isolierung, Luftkompressor, Luftkompressor, Gras-Steckverbinder rechnen Meißel Rauchmelder. Messgeräte antworten. Kate ist Thermostate und Überläufer. Anhängerkupplung de Magnetize Mentoren. Automatische beschnittene Tends Rekorde, Winkel Klammern für uns selbst und energetisierende Untersichten Paneele, Leistungsschalter,
Staubsauger , Kaffeemaschinen, bevölkerte Generatoren, passende Salz- und Pfefferstreuer Way Hallo und willkommen zurück. In diesem Lernprogramm erfahren
Sie, wie Sie mithilfe des
Amazon Max Duration-Tags eine maximale Dauer für synthetisierte Sprache festlegen . In einer vorherigen Lektion haben wir mit dem Prozess das Element behandelt, um die Tonhöhe,
Lautstärke und Sprechgeschwindigkeit Ihrer Tags Sprache anzupassen . Sie können auch angeben, wie lange der gesprochene Text mit dem Prozess dauern soll. Das Amazon Max Duration-Tag. Bitte beachten Sie, dass diese Funktion derzeit nur für Amazon Polly-Stimmen und
nicht für Google-Stimmen verfügbar ist. Es ist auch wichtig zu beachten, dass die Dauer der synthetisierten Sprache
je nach gewählter Stimme sehr leicht leichtist. Dies erschwert es, synthetisierte Sprache mit Visuals oder anderen Aktivitäten, die ein präzises Timing
erfordern, anzupassen und kann besonders schwierig sein, wenn Sie Text in
verschiedene Sprachen übersetzen möchten . Die Struktur zum Markieren von Text mit dem Amazon Max Duration-Tag wird
unten einige der Verwendungszwecke für den Prozess gezeigt . Das Amazon Max Duration-Tag enthält sinkende, aufgezeichnete oder übersetzte Audioerzählungen zu Videos, Folienpräsentationen usw. Andere Verwendungszwecke umfassen die Möglichkeit, synthetisierte Sprache mit Zeitbeschränkungen abzustimmen. beispielsweise Wenn Siebeispielsweiseeine Erzählung für eine 32. Radioanzeige in Ihrer Nachricht aufzeichnen, dauert die
Übermittlung 20 Sekunden , und Sie müssen am Ende Ihrer Ankündigung einen Haftungsausschluss angeben . Sie können den Haftungsausschluss unter Verwendung eines synthetisch
generierten aufgezeichneten Haftungsausschlusses in die verbleibenden 10 Sekunden komprimieren . Hier ist ein Beispiel für einen Haftungsausschluss, der normalerweise 15 Sekunden dauern würde, um
komprimiert in 10 Sekunden zu liefern , indem der Prozess i e. Amazon maximale Dauer Tag, für den der Steuerzahler Wahlverband Politische Aktion
Committee bezahlt wird , autorisiert von MP Johnson und LV Harvey im Namen der T-Packung. gelten besondere Geschäftsbedingungen. Bitte sehen Sie unsere Website für weitere Details unter www dot cpac dot work, die maximale Dauer Ihrer Rede kann in Sekunden oder Millisekunden angegeben werden. Der Prozess. Die Amazon maximale Dauer Element Versicherer, dass jeder Text innerhalb der maximalen Dauer Tags platziert
nicht überschreitet die angegebene Dauer. Wenn die Sprache, die Ihre Sprache oder Sprache verwendet, normalerweise länger dauert als die angegebene Dauer, beschleunigt
Amazon Polly sie so, dass sie in die angegebene Dauer passt. , Wenn die angegebene Dauer länger ist,als es dauert, um den Text mit normaler Geschwindigkeit zu lesen, liest
Amazon Polly die Rede normal. Mit anderen Worten, es wird die Sprache nicht verlangsamt oder Stille hinzugefügt, so dass das resultierende Audio kürzer ist als die angegebene Zeit. Beachten Sie auch, dass Amazon Polly die Geschwindigkeit Ihres gesprochenen Textes nicht mehr als das
Fünffache der normalen Rate erhöhen kann . Wenn Texas schneller als das spricht, wird
es wahrscheinlich unverständlich sein. Wenn die Sprache nicht innerhalb der angegebenen Dauer passen kann,
selbst wenn die Geschwindigkeit auf das Maximum beschleunigt wird,wird
die Audiowiedergabe beschleunigt, hält aber länger als die angegebene Dauer. Wenn die Sprache nicht innerhalb der angegebenen Dauer passen kann, selbst wenn die Geschwindigkeit auf das Maximum beschleunigt wird, Einige andere Dinge, die Sie beachten sollten, wenn Sie Ihre Text-zu-Sprachdateien so markieren, dass Sie einen einzelnen Satz oder mehrere Sätze in einem Tag mit maximaler Dauer einfügen können, und Sie können mehrere Prasit E Amazon maximale Dauer Tags in Ihrem Text verwenden. Bei der Berechnung der von Ihnen angegebenen maximalen Dauer berücksichtigt
ein TTS-Prozessor alle Pausen oder Pausen, die dem Text hinzugefügt wurden, und berücksichtigt diese in den Zeitraum. Darüber hinaus behält
Amazon Polly die kurzen Pausen bei, die auftreten, wenn Kommas und Perioden
innerhalb einer Textpassage platziert werden . Ein nützlicher Tipp, wenn Sie dieses Tag verwenden, um zu versuchen, Ihre Textpassagen kurz zu halten, um die
Sprachsynthese zu reduzieren . Layton sehen während des Audio-Konvertierungsprozesses, hören Sie eine synthetisierte Sprachaufnahme einer Textdatei, die mit mehreren Prasit
Imax Duration-Tags markiert wurde. Sprache ist eine spezielle Art der Kommunikation. Beweise deuten darauf hin, dass die spezialisierte Anatomie, die die menschliche Sprache verleiht, vor etwa 150.000 Jahren ihren
gegenwärtigen Zustand erreicht hat. Der Kehlkopf ist eine komplexe Struktur aus Knorpel, Muskeln und anderen weichen Problemen. Das letzte, was ich in dieser Lektion behandeln möchte, sind einige der Einschränkungen bei der Verwendung der maximalen Dauer Tag und wie es mit anderen s SML-Tags funktioniert, Zum Beispiel können
Sie nicht die maximale Dauer Tags verschachteln. Wenn Sie ein Tag mit maximaler Dauer in einen anderen Amazon einfügen, ignoriert
Polly das innere Tag. Darüber hinaus das funktioniert
dasRate-Tag nicht mit dem Tag der maximalen Dauer als Funktion beider Tags, um die Geschwindigkeit des gesprochenen Textes zu beeinflussen. Schließlich darf der
Text, der in einem Prasit E Amazon Max Duration Tag verwendet wird, nicht länger als 1500 Zeichen sein. Der unten gezeigte Text, zum Beispiel im Eröffnungsvideo dieser Lektion verwendet wurde, ist 932 Zeichen lang, so dass eine ziemlich große Menge an Text verwendet werden kann, bevor wir diese Lektion beenden. Lass uns ein bisschen Spaß haben. Bist du bereit? Einige von uns müssen tun, um es durchzukriegen, übermenschlich zu werden, und sie haben nichts gemacht, was du sagst, dass du dich schämst. Verheerend. Denken Sie daran, zu demonstrieren, wie das Publikum das Gefühl geben, dass es schwebt, nie verblassen, wenn die Hasser für überall, wo wir sagen könnten,
ich werde feiern, weil ich weiß, wie dies uns zum Ende dieses Tutorials bringt. Ich hoffe, Sie haben diese Lektion nützlich gefunden. Bitte beachten Sie die Begleitnotizen in diesem Abschnitt für weitere Informationen und vielen Dank für das Zuhören.
15. 14 – Text-to-Speech: Sie sagen auch, und ich sage Entweder Sie sagen weder und ich sage auch nicht. Keiner. Keiner. Keiner. Rufen wir das Ganze ab. Magst du Kartoffel? Und ich mag, was Sato Du magst Tomate und ich mag Tomaten, Kartoffeln, Tomaten, Tomaten, Tomaten. Rufen wir die ganze Sache Hallo an und willkommen zurück. In diesem Tutorial behandeln
wir Textaussprache. Sie lernen, wie Sie Ihren Text markieren, um Akronyme und Abkürzungen auszusprechen, Telefonnamen für verschiedene phonetische Aussprache
verwenden und Möglichkeiten zur Verbesserung der
Sprachaussprache durch Angabe von Sprachteilen und alternativen Bedeutungen in Ihren Markup-Elementen . Beginnen wir mit dem Markieren von Textdateien, um Akronyme und Abkürzungen
richtig auszusprechen . Ein Akronym als Wort oder Name, das als Abkürzung aus den Anfangskomponenten einer
Phrase oder eines Wortes gebildet wird. Normalerweise einzelne Buchstaben wie NATO oder Scuba. Sie können das Sub-Alias-Element verwenden, um Wörter zu ersetzen oder Akronyme zu erweitern. Name der Elemente oder Abkürzungen. Ein solches Sprichwort der Federal Bureau of Investigation statt FBI, der British Broadcasting Corporation statt BBC, der International Monetary Fund statt I m f. Etcetera. Das Sub-Alias-Tag kann auch verwendet werden, um die korrekte Aussprache für Wörter zu liefern, bei denen es sich um Wörter mit Zahlen für Buchstaben oder eindeutige Namen handelt, die TTS-Engines nicht
richtig aussprechen können . Die Struktur zum Markieren von Text, um Akronyme und Abkürzungen zu interpretieren, wie unten gezeigt. Hier sind einige nützliche Tipps für die Verwendung des Sub-Tags. Zum Zeitpunkt der Erstellung dieser Lektion unterstützen
Google-Stimmen nicht die Verwendung von Telefonnamen, die wir in einem Moment betrachten, den Sie verwenden können. Das Unterelement mit Google Voice ist stattdessen, wenn Sie vorhaben, die gleichen Akronyme wiederholt in Ihrem Text zu verwenden, verwenden Sie das Sub-Alias-Element, um die erste Instanz des Akronyms in Ihrem Text zu erweitern, damit Ihre Zuhörer genau wissen, was Sie beziehen sich auf. Das Unterelement kann auch verwendet werden, um vereinfachte Aussprache von Wörtern bereitzustellen, die
TTS-Engines schwer zu lesen finden, wie zum Beispiel Wörter in anderen Sprachen. Hören Sie sich eine synthetisierte Sprachaufzeichnung einer Textdatei an, die mit Sebelius-Tags markiert wurde. Die Hauptaufgabe der Weltgesundheitsorganisation besteht darin, die internationale Gesundheit innerhalb
des Systems der Vereinten Nationen zu lenken und Partner bei globalen Gesundheitsmaßnahmen zu führen. Iridium ist ein sehr hartes, sprödes, silberweißes Übergangsmetall der Platingruppe Alcoholics Anonymous ist ein 12-stufiges Programm der Erholung von Alkoholismus. Die einzige Voraussetzung, um Mitglied von A zu sein, ist der Wunsch, mit dem Trinken aufzuhören. Tim las sein erstes Buch, als er erst drei Jahre alt war. Werfen wir jetzt einen Blick auf die Verwendung von Telefonnamen und fügen Sie Ihrem Text phonetische Aussprache hinzu . Sie können das Telefonnamen-Tag mit Amazon Polly verwenden, um bestimmten
Text eine phonetische Aussprache hinzuzufügen . Beachten Sie, dass Google TTS derzeit keine Telefonnamen unterstützt. Das Telefonnamen-Tag muss die folgenden zwei Attribute enthalten. Alphabet wird verwendet, um anzugeben, welches phonetische Alphabet Amazon Polly verwenden soll, und pH gibt die phonetische Aussprache an, die Amazon Polly anstelle der
Standardaussprache Associate-ID standardmäßig mit der Sprache verwendet werden soll , die von der ausgewählten . Die Struktur zum Markieren von Text zur korrekten Interpretation von Telefonnamen wird unter Amazon angezeigt . Polly kann Telefonnamen aus verschiedenen phonetischen Alphabeten interpretieren, einschließlich I p A. Sampa, ein Amazon-Ritzel für Mandarin chinesische phonetische Aussprache. Wenn Sie phonetische Alphabete in anderen Sprachen als Englisch verwenden möchten, denken Sie
daran, die richtige Sprache anzugeben, bevor Sie Ihren Text verarbeiten. Hören Sie eine synthetisierte Sprachaufnahme einer Textdatei markiert mit Ritzel Telefon Ziele. Du bist sicher Krieg, wir sind sicher. Jetzt unterstützt Amazon Polly die Verwendung von Telefonnamen in vielen verschiedenen Sprachen. der Dokumentation zu diesem Kurs finden Sie Links zu Telefon-Tabellen, Tools und Ressourcen für unterstützte phonetische Alphabete. Es geht über den Rahmen dieses Kurses hinaus, Sie über Phonetik zu unterrichten. Viele Video-Tutorials finden Sie online zu diesem Thema. Das Wichtigste, was Sie für diese Lektion wissen müssen, wie Papa Telefonnamen beim Markieren Ihres Textes. Lassen Sie uns diesen Prozess kurz durchlaufen. Beginnen wir damit, die Struktur der unten stehenden Telefon-Tags zu studieren und zu hören, wie die Wörter mit verschiedenen Telefonnamen und phonetischen Alphabeten ausgesprochen werden. Du sagst Pekannuss. Ich sage Pekannuss, du sagst Pekannuss. Ich sage Pekannuss. Wir haben über die Verwendung von phonetischen Werkzeugen in der Text-zu-Sprach-Text-Lektion gesprochen, und wir bieten auch Informationen und Links zu verschiedenen phonetischen Werkzeugen, und Ressource ist in der begleitenden Kursdokumentation. Die andere Sache, über die wir gesprochen haben, war, wie wichtig es ist, Textdateien mit
Telefonnamen für Amazon Polly im UTF-8-Format zu speichern. Lassen Sie uns diese beiden Punkte kurz überprüfen. Der erste Schritt besteht darin, die korrekte phonetische Schreibweise von Wörtern zu finden und zu kopieren. Sie können dies kostenlos tun, indem Sie Websites
verwenden, die Online-Wörterbücher mit phonetischer Rechtschreibung und phonetischen
Konvertierungs-Tools zur Verfügung stellen. Weitere Informationen finden Sie in den Kursnotizen. Nachdem Sie das zu verwendende phonetische Alphabet angegeben haben und die Telefonnamen in Ihre
Textdateien eingefügt haben. Alphabet- und PH-Attribute,
denken Sie daran, Ihre Textdatei mit utf acht Codierung zu speichern. Wie hier nun gezeigt, wo wir uns die Sub-Alias und Telefon-Tags angesehen haben, werfen
wir einen Blick auf Möglichkeiten, um die Aussprache Ihrer Wörter zu verbessern. Hedren M. Zehr Wörter, die identisch geschrieben sind, aber unterschiedliche Bedeutungen haben, wenn sie
anders ausgesprochen werden. Amazon Polly ist eigentlich sehr gut, wenn es darum geht, Hetero-Namen und Wörter zu erkennen, die unterschiedliche Bedeutungen
vermitteln. Je nach Kontext werden
sie eingesetzt und die Technologie wird nur noch besser. beispielsweise anhören, Sie sichbeispielsweise anhören,wie Amazon Polly die folgenden Sätze interpretiert. Ohne Markup, Tags hinzugefügt, wird
das Band einen Datensatz aufzeichnen. Wir weigern uns, mehr Ablehnung zu übernehmen. Dieses Land wird niemals Fortschritte machen, wenn wir keine Fortschritte erzielen. Diese Landwirte produzieren eine Menge Produkte. Euer Ehren, ich werde den Wettbewerb nicht bestreiten. Rebellieren Sie nicht, es sei denn, Sie sind ein Rebell. Bitte unterwerfen Sie uns nicht mehr Schmerzen. Indem ich das Thema Ihrer Operation bespreche, werde
ich alle verschiedenen Kontrastoptionen dieser Laptop-Bildschirme auf meinem gebloggten kontrastieren. Als das Bürstenfeuer nahe kam, beschlossen
die Behörden, die Straße zu schließen. Einige Wörter
können
jedoch jedoch schwierig sein oder für TTS-Motoren schwierig sein, richtig zu erkennen und zu interpretieren. Hören Sie sich die folgenden Sätze an, während sie ausgelesen werden, und wir werden das dann auf der nächsten Folie besprechen. Ich lernte lesen und lesen, um zu lernen. Ich lernte lesen und lesen, um zu lernen. Drehen Sie den Bass auf Ihrem Radio und Sie werden mehr Bass fangen. Drehen Sie den Bass auf Ihrem Radio und Sie werden mehr Bass fangen, wie Sie gerade gehört haben. Einige Wörter wie Read und Base können für TTS-Engines schwierig sein, korrekt zu interpretieren. Hier kommt das W-Tag praktisch. Sie können das W-Tag in Amazon Polly verwenden, um die Aussprache von Wörtern anzupassen, indem Sie entweder einen Sprachteil oder eine alternative Bedeutung angeben. Dies geschieht mit Rollenattributen, die einen Teil der Sprache angeben. Lassen Sie Amazon Polly sagen, ob das Wort als Verb in der Gegenwart gelesen zu interpretieren, sagt
Tense, und ich werde dieses Buch lesen oder ist das Wort rot in der Vergangenheit? Wie in, Ich habe dieses Buch gelesen. Sie können dies mit verschiedenen Attributen wie Amazon VB, einem Amazon V B D tun. Verwenden Sie Amazon Sense Unterstrich eins für alternative Bedeutungen zu Wörtern. Zum Beispiel bezieht sich
die Substantivenbasis normalerweise auf den untersten Teil der musikalischen Skala, aber es kann auch eine Art von Süßwasserfischen sein, wenn die Aussprache des Wortes
anders ist . Wenn Sie die Standardbedeutung von Wörtern, die gleich geschrieben sind, aber unterschiedliche
Bedeutungen haben , wenn sie anders ausgesprochen werden, nicht möchten, verwenden
Sie das alternative Bedeutungs-Tag. Die grundlegende Struktur zum Markieren von Text, um die Aussprache von Wörtern mit dem
W-Element anzupassen , hat unten gezeigt und in den folgenden Folien, das Wort R E a d kann entweder als die gegenwärtige einfache Form gelesen oder die Vergangenheit interpretiert werden Partizipform rot. Das Wort B
A s s kann entweder als musikalische Elementbasis interpretiert werden oder ist seine alternative Bedeutung ein Süßwasserfisch-Bass In zusammenfassenden Möglichkeiten, um die Textaussprache zu verbessern, Verwendung von S SML umfassen nur erlauben, dass die Technologie zu halten klüger in Bezug auf die Bereitstellung einer besseren Kontexterkennung oder die Verwendung von Tags wie dem Sub-Alias-Tag, um
Akronyme und Abkürzungen auszusprechen . Das Telefon-Tag, um Wörter mit verschiedenen Lautgeräuschen auszusprechen. Und das w-Tag, um Teile der Sprache und alternative Bedeutungen anzugeben. Drehen von Textwerkzeugen lassen Sie alternativen Text mit alternativen Synonymen. Sie können die Website der Abteilung für Kraftfahrzeuge nutzen, um Ihre Fahrzeugregistrierung
online zu erneuern . Entweder sie geht oder ich gehe Es gibt keinen anderen oder das traurige Gesicht auf diesem T-Shirt hat einen Riss darin . Ich vermute, dass der Hauptverdächtige im Feuer der Kathedrale Notre Dame total krumm ist. Dies bringt uns bis zum Ende dieses Tutorials. Ich hoffe, Sie fanden diese Lektion nützlich. Bitte beachten Sie die Begleitnotizen in diesem Abschnitt für weitere Informationen und vielen Dank für das Zuhören. Etwas muss sein,
äh, weil ich dich mag. Auf keinen Fall. Auf keinen Fall muss
16. 15 – Text-to-Speech hinzufügen: Meine Damen und Herren, willkommen. Hier ist unser Eröffnungsakt für die Nacht. Auch danke, liebe Zuhörer, Dies ist mein erster Versuch, Everett macht Stand Up Comedy. Bitte seien Sie freundlich. Oh, ich habe vor, dich heute Abend mit einigen fabelhaften Witzen zu unterhalten. Wer? Bist du bereit? Ja. Ok. Los geht's. Wie viel höher wäre das Niveau zu sehen, wenn Schwämme nicht im Ozean leben würden? Theo, was ist der Unterschied zwischen Ignoranz und Apathie? Ich weiß es nicht. Und es ist mir egal. Wie haben Sie von dem Semikolon gehört, der das Gesetz gebrochen hat? Er erhielt zwei aufeinanderfolgende Strafen. Hast du von dem Dieb gehört, der einen Kalender gestohlen hat? Er hat 12 Monate. Das ist die ganze Zeit, die ich habe. Danke. Hallo und willkommen zurück. In diesem Tutorial erfahren
Sie, wie Sie Audiodateien mit dem Audio-Element in Ihre Spracherzählungen einfügen . Wir werden uns auch andere Markup-Tags ansehen, um Audio- und Medienelemente in Ihre
Text-zu-Sprachdateien einzufügen . dem Audio-Element können Sie aufgenommene Audiodateien in Ihre Spracherzählungen einfügen. Derzeit das Audio-Element nur in Google-Stimmen unterstützt. Die grundlegenden Anforderungen für die Verwendung von Audiodateien in Ihrem Text umfassen sicherzustellen, dass die Audiodatei. Quelle. U R L verwendet das https-Protokoll mit einer maximalen Dauer von 120 Sekunden und einer maximalen Dateigröße von fünf Megabyte. Sie sollten auch eine Beschreibung angeben, die laut vorgelesen werden soll, wenn aus irgendeinem Grund Ihr Audiophile nicht die Struktur zum Markieren von Text für Audiodateien abspielt, wie unten gezeigt . Eine Möglichkeit, Probleme mit Audiodateien zu vermeiden, die während der
Text-zu-Sprachkonvertierung nicht abgespielt werden, besteht darin, die Audiodateien selbst in einer Cloud oder einem Online-Medienspeicherdienst wie
Amazon drei Dropbox oder Google Drive zu hosten . Wir bieten Links zu weiteren Informationen über Tools und Ressourcen ist für das Hosten von Audiodateien in der begleitenden Kursdokumentation. Stellen Sie einfach sicher, dass Links, die auf Ihre Audiodateien verweisen, das https-Protokoll verwendet haben. Sie können verschiedene Audiodateiformate wie Wave MP three inaug in Ihren Text einfügen. Hören Sie sich die folgende Rede Aufzeichnung. Das ist der Klang eines Kindes, das Disteln lacht, das Geräusch eines Hundes bellt. Beachten Sie, dass in der Aufnahme Sounds gerade in der Reihenfolge wiedergegeben wurden, in der sie
im Text angezeigt werden . Mit anderen Worten, Audiophile spielen normalerweise nacheinander in der Reihenfolge. Hören Sie sich nun diesen Aufnahmeweg an. Was ist hier los? Ich kann mich nicht mal denken hören. Mit all diesen verrückten Geräuschen, die in der Aufnahme stattfinden, haben
Sie gerade alle Geräusche Luft gehört, die gleichzeitig spielen. Wie funktioniert das? Lassen Sie mich es Ihnen zeigen. Zusätzlich zur Verwendung des Audio-Elements in Ihren Spracherzählungen können
Sie Elemente wie parallele sequentielle und Media-Tags verwenden, um Ihre Sprache zu optimieren. parallelen Tags können Sie mehrere Medienelemente gleichzeitig wiedergeben. sequentiellen Tags können Sie Medienelemente so wiedergeben, wie sie im Text angezeigt werden. Medientags können Sie Text- und Audioelemente innerhalb paralleler und sequentieller Tags hinzufügen und
Attribute verwenden , um diese wie Fade-Text und Audios in und Out zu ändern. Erhöhen oder verringern Sie die Lautstärke. Wiederholen und legen Sie die Dauer von Medienelementen fest, und geben Sie an, wo Medienelemente beginnen und enden. Stellen Sie sich parallele und sequentielle Tags als Container vor. Sie können Textur-Sounds innerhalb von Medientags platzieren und diese mit unterschiedlichen Attributen ändern . Wenn Sie mehr Kontrolle über Ihre Text- und eingebetteten Audiodateien benötigen, verwenden Sie parallele Tags, um Medienelemente gleichzeitig wiederzugeben, oder sequentielle Tags, um
Medienelemente in der Reihenfolge abzuspielen , in der sie in Ihrer Textdatei geschrieben sind. Darüber hinaus können Sie verschiedene Medienattribute zur Feinabstimmung Ihrer Sprache verwenden. Ich werde Ihnen zeigen, wie das in einem Augenblick funktioniert. zunächst Lassen Sie unszunächsteinen kurzen Blick auf die Medienattribute werfen, die Sie mit Text- und
Audiodateien verwenden dürfen . Medienattribute geben Ihnen eine feinere Kontrolle über jeden Text oder Audio, der in Ihre Sprache eingefügt wird. Verwenden Sie. Beginnen Sie mit der Angabe, wann ein Medienelement mit der Wiedergabe beginnen soll. beispielsweise Sie könnenbeispielsweiseein Medienelement angeben, das nach 37 oder 9,5 Sekunden wiedergegeben werden soll. Verwenden Sie end, um anzugeben, wann ein Medienelement nicht mehr abgespielt werden soll. Dies ist nützlich, wenn Sie nur die ersten Sekunden einer langen Audiodatei wiedergeben und dann die Wiedergabe der Datei
beenden möchten. Mit der Wiederholungsanzahl können Sie angeben, wie oft das Medienelement wiederholt ,
z. B. zweimal fünfmal 10 Mal usw. Wiederholungsdauer ermöglicht es Ihnen, eine Begrenzung für die Dauer des eingefügten Mediums festzulegen. Soundpegel können Sie den Geräuschpegel Ihres Audios einstellen. Dies ist nützlich, wenn Sie Medienelemente gleichzeitig abspielen und möchten, dass eines der Elemente lauter oder weicher in der Mischung wiedergegeben wird. Fade-in-Dauer können Sie festlegen,
wann ein Medienelement in die Wiedergabe eingeblendet werden soll Mit der Fadeout-Dauer können Sie angeben, wie weit Text oder Audio ausgeblendet werden soll Am Ende
des Medienelements
hören Sie die Aufnahme erneut an, in der verschiedene Medienelemente werden alle gleichzeitig abgespielt. Warte, was ist hier los? Ich kann mich nicht mal denken hören, wenn all diese verrückten Geräusche vor sich gehen. Wenn Sie das Markup dieses Textes studieren, sehen
Sie fünf Medienelemente, die in P A R-Tags eingeschlossen sind. Das erste Element ist gesprochenes Texting geschlossen in sprechen Tags und so eingestellt, dass es 12 Sekunden in
die Sprache mit einer erhöhten Lautstärke von vier Dezibel beginnt , das zweite Element als Audiodatei eines lachenden Kindes, viermal wiederholt mit ein etwas niedrigeres Volumen als die Erzählung. Die nächsten drei Medienelemente sind Audiodateien von Hunden bellen und Autos mit Sirenen eingestellt, um die Rede zu beenden. Nach 20 Sekunden, mit einem Fünf-Sekunden-Ausblenden am Ende, beachten Sie, dass Sie verschiedene Medienattribute kombinieren können, wenn Sie -Mediendateien. Jetzt, da Sie verstehen, wie Sie eine Erzählung mit gleichzeitigen Audiophile erstellen, die
parallel gespielt wird, lassen Sie mich die Datei noch einmal abspielen, damit Sie alle verschiedenen Medienelemente und
ihre Einstellungen auswählen können . Was ist hier los? Ich kann mich nicht mal denken hören, wenn all diese verrückten Geräusche vor sich gehen. Hier ist ein weiteres Beispiel für das Einfügen von Audiodateien zur gleichzeitigen Wiedergabe mit parallelen Tags. Hier gehen wir, immer bereit zu fonte Körper Weg, um in den Rhythmus zu bewegen. Spüren Sie die Liebe immer bereit, um Körper Körper. Aber und hier ist ein Beispiel für das Einfügen von Audiodateien, um sequentiell mit einigen
Medienanpassungen abzuspielen . Hallo, Olivia. Hallo, Kate. Wie geht's dir? Gut, danke. Können Sie das englische Alphabet für unsere Zuhörer rezitieren? Zeigen Sie A B C D E f g h i J k l M N O p Neun weitere Buchstaben und dann sagte in Zusammenfassung, verwendet das Audio-Element, um voraufgenommene Audio in Ihre Stimme einfügen. Bei Erzählungen werden parallele Tags verwendet, um Mediendateien gleichzeitig abzuspielen. Sequenzielle Tags zur Wiedergabe von Mediendateien in sequentieller Reihenfolge und Medientags, um Sprach-
und Audiodateien mit Attributen zu kombinieren , die Sie Medienelementeinstellungen wie
Anfangs- und Endzeiten festlegen Wiederholung und Dauer erhöhen und verringern Lautstärke und Set Fade Ins und Fade Outs. Dies bringt uns bis zum Ende dieses Tutorials. Ich hoffe, Sie fanden diese Lektion nützlich. Bitte beachten Sie die Begleitnotizen in diesem Abschnitt für weitere Informationen und vielen Dank
für Ihr Zuhören. Meine Damen und Herren, bitte begrüßen Sie Noah wieder auf der Bühne. Danke. Ich wachte heute Morgen auf und vergaß, von welcher Seite die Sonne aufgeht. Dann dämmerte es mir. Ich habe gerade ein Lied über Tortillas geschrieben. Eigentlich ist
es eher ein Rap. Was ist, wenn ich nicht weiß, was Armageddon bedeutet? Es ist nicht das Ende der Welt. Der Weltmeister der Zunge Twister wurde gerade verhaftet. Ich höre, er wurde ein sehr hartes Urteil verhängt. Ich habe kürzlich beschlossen, meinen Staubsauger zu verkaufen. Alles, was es tat, war Staub zu sammeln. Ich hasse russische Puppen. Sie sind so voll von sich selbst. Wie nennt man ein B, das sich nicht ausdenken kann? Vielleicht mit Klettverschluss. Was für ein Ripoff. Manchmal nahm ich meine Knie in meine Brust und lehnte mich nach vorne. So rolle ich nur. Du warst so ein wunderbares Publikum. Danke und gute Nacht.
17. 16 – Text-to-Speech VoiceFX: Bist du bereit? Hallo und willkommen zurück. In diesem Tutorial erfahren
Sie, wie Sie Ihrem Text zusätzliche Spracheffekte hinzufügen können, z. B. das
Hinzufügen des Geräusch von zwei Wörtern und Sätzen, Flüstern von Wörtern leise, Steuern von Sprachtambor und Hinzufügen von Dynamikbereich-Komprimierung zwei Abschnitte Ihres Textes, um die Audiowiedergabequalität zu
verbessern. Bitte beachten Sie, dass die in dieser Lektion behandelten Spracheffekte derzeit nur für
Amazon verfügbar sind . Polly Voices Lassen Sie uns diese Lektion beginnen, indem Sie lernen, wie Sie Ihrem
Text das Geräusch des Atmens hinzufügen können. Natürlich klingende Sprache umfasst richtig gesprochene Wörter und Atemgeräusche. Sie können synthetisierte Sprache natürlicher klingen lassen, indem Sie dem Text Atemgeräusche hinzufügen, indem Sie
die Amazon Atem und Amazon Auto-Atem-Tags in den folgenden Optionen im manuellen Modus verwenden .
Sie legen den Ort, die Länge und die Lautstärke eines Atemzuges fest. Klang innerhalb des Textes. Mit dem automatisierten Modus können
Sie Amazon Polly entscheiden, wo Atemgeräusche automatisch in Ihre
Sprache eingefügt werden sollen . Mit dem gemischten Modus können Sie und Amazon Polly Ihrer Sprache Atemgeräusche sowohl manuell als auch
automatisch hinzufügen . Die Struktur für das Hinzufügen von Atemgeräuschen zum Text wird unten gezeigt beachten Sie, dass es
mehrere Möglichkeiten gibt , diese Tags und Attribute zu verwenden. Wir werden diese in den nächsten Folien ausführlicher behandeln. Manueller Modus. Lassen Sie uns das Amazon-Atem-Tag in Ihrem Text platzieren, wo immer Sie einen Atemzug haben möchten. Sie können die Länge und das Volumen der Atemzüge
mit den Attributen Dauer und Volumen anpassen . Mit der Dauer können Sie die Länge des Atems steuern. den Werten, die Sie zum Festlegen der Dauer von Atemzügen verwenden können, gehören Standardwerte. Extra kurz, kurz, mittellang, extra lang. Der Standardwert für die Dauer ist mittel. Mit der Lautstärke können Sie die Lautstärke des Atems steuern. Die Werte, die Sie für die Einstellung der Lautstärke der Atemzüge verwenden können, sind standardmäßig extra
weich, weich, mittellaut und extra laut. Der Standardwert für das Volume ist mittel. Bitte beachten Sie, dass die genaue Lautstärke jedes Wertes davon abhängt, dass die Amazon Polly-Stimme verwendet
wird, um einen Atemton mit Standardwerten im manuellen Modus einzustellen, die das
Amazon-Atem-Tag ohne Attribute verwendet wird , z. B. , um die Dauer und das Volumen eines Atemzuges auf mittel einzustellen. Normalerweise würden Sie den Wert dieser Attribute wie hier gezeigt festlegen. Okay, entspannen Sie sich
einfach und atmen Sie ein, um einen Atemgeräusch mit diesen Standardeinstellungen einzuspielen. Verwenden Sie einfach die Tags ohne Attribute, wie hier gezeigt. Sie Ihren Sätzen Atemzüge hinzufügen, können Sie Ihre Sprache natürlicher klingen lassen. Sie können auch einzelne Atemgeräusche innerhalb einer Textpassage im manuellen Modus hinzufügen,
indem Sie Tags verwenden, wie hier gezeigt. Wow, ich beende das Rennen wirklich schnell. Ich glaube, ich habe mein Bestes geschlagen. Beachten Sie, dass wir dem Text verschachtelte Prasad IQ-Elemente hinzugefügt haben, um die
Lautstärke der Stimme zu beschleunigen und einen realistischeren Klangeffekt zu erzeugen. Im automatisierten Modus können
Sie das Amazon Auto-Atem-Tag verwenden, um die Amazon Polly Zehe automatisch
Atemgeräusche in geeigneten Intervallen zu erzeugen . Automatisierter Modus. Lassen Sie uns die Häufigkeit von Atem,
Intervallen,
Lautstärke und Dauer einstellen Intervallen, . Beachten Sie
jedoch, jedoch, dass im Gegensatz zum manuellen Modus das Amazon Auto Breaths-Tag das Öffnen und Schließen von Tags erfordert. Platzieren Sie das öffnende Tag am Anfang des Textes, an der Sie möchten, dass automatisierte Atemgeräusche beginnen und ein geschlossenes Tag an der Stelle, an der die
Atemgeräusche enden sollen . Sie können optionale Volumenfrequenz- und -dauer-Attribute mit dem Amazon
Auto-Atem-Tag-Lautstärke verwenden, um die Lautstärke des Atems zu steuern. den Werten, mit denen Sie die Atemlautstärke steuern können, gehören Standardwerte. Extra weich, weich, mittellaut und extra laut. Der Standardwert für Atemvolumen im automatisierten Modus als Mittelfrequenzregler. Wie oft Atemgeräusche in der Textfrequenz auftreten. Die Werte umfassen Standard extra niedrig, niedrig, mittel hoch, ein extra hoch. Der Standardwert für die Frequenz ist Steuerelemente für mittlere Dauer. Die Länge der Werte für die Atemdauer, die Sie verwenden können, umfasst standardmäßig extra
kurz, kurz, mittel lang, eine extra lange. Der Standardwert für die Dauer ist standardmäßig mittel. Die Häufigkeit der Atemgeräusche hängt vom Eingabetext ab. jedoch Atemgeräusche tretenjedochoft nach Kommas und Perioden auf. Schauen wir uns jetzt einige Beispiele an, wie Sie das Amazon Auto-Atem-Tag verwenden. In den nächsten Folien werden
wir Beispiele für Sprache betrachten, die aus Text im automatisierten Modus generiert werden, ohne optionale Parameter
anzugeben und den automatischen Modus mit Lautstärkeregelung, Frequenzregelung und Angabe mehrerer Parameter . Hören Sie sich das erste Beispiel synthetisierter Sprache mit automatisierten Atemgeräuschen an, ohne optionale Parameter
anzugeben. Schlaf ist ein wichtiger Teil Ihrer täglichen Routine. Wir verbringen etwa 1/3 unseres Lebens mit dem Schlafen. Genug Schlafqualität ist für das Überleben genauso wichtig wie Nahrung und Wasser. Jeder braucht Schlaf, aber sein biologischer Zweck bleibt ein Geheimnis. Schlaf wirkt sich fast jede Art von Gewebe und System im Körper
aus, vom Gehirn, Herz und Lunge bis zum Stoffwechsel, Immunfunktion,
Stimmung und Immunfunktion Krankheit Resistance Resistance Resistance Resistance Resistance Resistance Resistance Resistance Resistance Resistance Qualität Schlaf erhöht das Risiko von Störungen, einschließlich Bluthochdruck, Herz-Kreislauf-Erkrankungen,
Diabetes, Diabetes, Depressionen und Fettleibigkeit. Hören Sie sich nun ein Beispiel für synthetisierte Sprache an, indem Sie automatisierte Atemgeräusche mit angegebenen
Lautstärkereglerwerten verwenden. Schlaf ist ein wichtiger Teil Ihrer täglichen Routine. Wir verbringen etwa 1/3 unseres Lebens mit dem Schlafen. Genug Schlafqualität ist für das Überleben genauso wichtig wie Nahrung und Wasser. Jeder braucht Schlaf, aber sein biologischer Zweck bleibt ein Geheimnis. Schlaf wirkt sich fast jede Art von Gewebe und System im Körper
aus, vom Gehirn, Herz und Lunge bis zum Stoffwechsel, Immunfunktion,
Stimmung und Immunfunktion Krankheit Resistance Resistance Resistance Resistance Resistance Resistance Resistance Resistance Resistance Resistance Qualität Schlaf erhöht das Risiko von Störungen, einschließlich Bluthochdruck, Herz-Kreislauf-Erkrankungen,
Diabetes, Diabetes, Depressionen und Fettleibigkeit. Hier ist ein Beispiel für synthetisierte Sprache mit automatisierten Atemgeräuschen mit spezifizierten
Frequenzregelwerten . Schlaf ist ein wichtiger Teil Ihrer täglichen Routine. Wir verbringen etwa 1/3 unseres Lebens mit dem Schlafen. Genug Qualität Schlaf ist so wichtig für das Überleben ist Nahrung und Wasser. Jeder braucht Schlaf, aber sein biologischer Zweck bleibt ein Geheimnis. Schlaf wirkt sich fast jede Art von Gewebe und System im Körper
aus, vom Gehirn, Herz und Lunge bis zum Stoffwechsel, Immunfunktion,
Stimmung und Immunfunktion Krankheit Resistance Resistance Resistance Resistance Resistance Resistance Resistance Resistance Resistance Resistance Qualität Schlaf erhöht das Risiko von Störungen, einschließlich Bluthochdruck, Herz-Kreislauf-Erkrankungen,
Diabetes, Diabetes, Depressionen und Fettleibigkeit. Und hier ist ein Beispiel für synthetisierte Sprache mit automatisierten Atemgeräuschen mit mehreren Parametern angegeben. Schlaf ist ein wichtiger Teil Ihrer täglichen Routine. Wir verbringen etwa 1/3 unseres Lebens mit dem Schlafen. Genug Schlafqualität ist für das Überleben genauso wichtig wie Nahrung und Wasser. Jeder braucht Schlaf, aber sein biologischer Zweck bleibt ein Geheimnis. Schlaf wirkt sich fast jede Art von Gewebe und System im Körper
aus, vom Gehirn, Herz und Lunge bis zum Stoffwechsel, Immunfunktion,
Stimmung und Immunfunktion Krankheit Resistance Resistance Resistance Resistance Resistance Resistance Resistance Resistance Resistance Resistance Qualität Schlaf erhöht das Risiko von Störungen, einschließlich Bluthochdruck, Herz-Kreislauf-Erkrankungen,
Diabetes, Diabetes, Depressionen und Fettleibigkeit. Nun, da wir behandelt haben, wie man dem Text Atemgeräusche hinzufügen kann. Werfen wir einen Blick darauf, wie man Stimmenerzählungen einen flüsternden Effekt hinzufügt. Verwenden Sie das flüsterte Tag, um anzugeben, wann Text in einer flüsterten Stimme statt
normaler Sprache gesprochen werden soll . Beachten Sie, dass alle Amazon Polly-Text-zu-Sprech-Stimmen den Flüstereffekt unterstützen. Hier ist ein nützlicher Tipp. Sie können den flüsterten Effekt verbessern, indem Sie den Prozess der Rate Ihres Textes um
bis zu 10% verlangsamen . Die Struktur zum Markieren von Text zu interpretieren Flüstern ist unten dargestellt. Hier ist ein Beispiel für synthetisierte Sprache mit Flüstern, und ich habe ein Geheimnis, um Ihnen den nächsten Stimmeffekt zu sagen. Sie können zu Ihren Erzählungen hinzufügen, um Stimmen leise sprechen zu lassen. Lassen Sie mich Ihnen zeigen, wie das geht. Verwenden Sie das Soft-Flow-Nation-Effekt-Tag, um anzugeben, wann Text gesprochen werden soll. In einer weicheren als normale Stimme wie der Flüstereffekt können
Sie den weichen gesprochenen Effekt verbessern, indem Sie den Prozess verlangsamen. Die Rate Ihres Textes um bis zu 10%. Die Struktur zum Markieren von Text, um weiche gesprochene Stimme zu interpretieren, ist wie unten gezeigt. Hören Sie sich ein paar Beispiele synthetisierter Sprache an, die für weiche gesprochene
Spracherzählungen markiert sind. Hi, ich bin Matthew. Ich spreche mit meiner normalen Stimme, und das spreche ich mit meiner weicheren Stimme. Wenn ich noch einmal atme, bevor
ich spreche, kann ich mich verlangsamen, entspannen, ruhiger
fühlen und mehr in Frieden mit der Welt. Ich bin Joanna. Wie Matthew. Ich habe auch eine normale Stimme und eine weichere Stimme. Wenn ich von einem anstrengenden Tag im Büro nach Hause komme, gehe
ich gerne mit meinem Hund Bonnie am Strand spazieren. Nur darüber nachzudenken hilft mir, Stress und Entspannung zu entlasten. Ein weiterer nützlicher Stimmeffekt. Sie können Erzählungen hinzufügen, um Stimmen größer oder kleiner zu klingen, indem Sie die Stimme steuern. Tambor Timber ist die Klangqualität einer Stimme, die Ihnen hilft, den Unterschied zwischen den Stimmen zu erkennen, auch wenn sie die gleiche Tonhöhe und Lautstärke haben. Eines der wichtigsten physiologischen Merkmale, die zur Sprache Tambor wie die
Länge des Stimmtraktes beiträgt , der Stimmtrakt als Hohlraum der Luft, die von der Oberseite des Gesangs reicht, faltet sich bis zum Rand der Lippen zu kontrollieren das Holz der Ausgangssprache In Amazon, Polly verwendet das Vokaltrakt-Längen-Tag unten gezeigt hat. Das Vokaltrakt-Längen-Tag hat den Effekt, die Länge des Lautsprechers zu ändern , was sich wie eine Änderung der Lautsprechergröße anhört. Durch das Erhöhen der Länge des Stimmtraktes klingt der Lautsprecher physisch größer und nimmt ab. Es macht den Lautsprecher kleiner klingen. Beachten Sie, dass alle Amazon Polly-Stimmen die Verwendung dieses Tags unterstützen, um das Holz einer Stimme zu ändern ,
indem die folgenden Werte
verwendet werden . Durch Hinzufügen einer Plus- oder Minusprozentzahl wird die Stimmbandlänge um eine relative prozentuale Änderung in der aktuellen Stimme, zum Beispiel, plus 4% oder minus 2% können Sie einen beliebigen Wert im Bereich von plus 100% bis minus 50% verwenden. Alle Werte, die außerhalb dieses Bereichs liegen, werden abgeschnitten beispielsweise einen Wert von plus 111%
angeben, werden abgeschnitten, um wie plus 100% zu klingen, und wenn Sie einen
Wert von minus 60% angeben , wird abgeschnitten, um minus 50% zu klingen. Sie können auch einen absoluten Prozentsatz angeben, um die Länge des Vokaltrakts der aktuell
ausgewählten Stimme zu ändern , z. B. 110% oder 75%. Beachten Sie, dass ein absoluter Wert von 110% entspricht einem relativen Wert von plus 10% und ein absoluter Wert von 100% wie der Standardwert. Für die aktuelle Stimme. Hören Sie sich einige Beispiele synthetisierter Sprache an, bei denen wir die Stimme Tambor kontrollieren, indem wir die Länge
des Gesangstraktes ändern . Das ist meine ursprüngliche Stimme ohne Änderungen. Stellen Sie sich vor, dass ich viel größer bin. Oder vielleicht bevorzugst du meine Stimme, wenn ich sehr klein bin. Sie können auch das Holz meiner Stimme steuern, indem Sie kleinere Anpassungen vornehmen,
zum Beispiel, zum Beispiel, indem Sie mich nur ein wenig größer klingen lassen, äh, was mich nur etwas kleiner klingen lässt. In diesem Beispiel sehen
Sie, dass Sie mit Amazon Polly das Vokaltrakt-Längen-Tag mit allen anderen
unterstützten S-SML-Tags kombinieren können . Da Holz oder Vokaltrakt-Länge und Krug eng miteinander verbunden sind, können Sie die besten Ergebnisse erzielen, indem Sie das Vokaltrakt-Längen-Tag mit dem Prozess zu
Ton-Tag kombinieren , um die realistischste Sprachausgabe zu erzeugen. Mit diesem Effekt empfehlen
wir, mit verschiedenen Tag-Kombinationen zu experimentieren und unterschiedliche Prozentsätze
in Werten zu verwenden , wenn Tags kombiniert werden, wie im folgenden Beispiel gezeigt , ist
der Pitching Tambor der Stimme einer Person intrinsisch verbunden in der menschlichen Sprache. Wenn Sie die Länge des Stimmtraktes reduzieren möchten, sollten
Sie vielleicht
auch die Tonhöhe erhöhen . Wenn Sie den Stimmtrakt verlängern möchten, können Sie auch versuchen, die Tonhöhe der Stimme zu senken. Der letzte Stimmeffekt. Ich möchte in dieser Lektion erläutern, wie Sie Text,
Sprache und Stimme,
die in einer Audiodatei verwendet wird,dynamische Bereichskomprimierung hinzufügen die in einer Audiodatei verwendet wird, können. Sounds können von weichen erlaubten Umgebungsgeräuschen reichen, wie der Klang eines fahrenden Fahrzeugs kann weichere Geräusche maskieren, so dass es schwierig ist, die Audiospur klar zu hören, um die Lautstärke bestimmter Sounds
in Ihrer Audiodatei zu verbessern , können Sie das Tag für die Komprimierung des dynamischen Bereichs verwenden. Das DRC-Tag legt einen mittleren Lautheitsschwellenwert für Ihr Audio fest und erhöht die Lautstärke oder Verstärkung der Sounds um diesen Schwellenwert herum. Es wendet den größten Gewinn an, der am nächsten an die Schwelle erhöht wird, und lehrt, dass der Gewinn weiter von der Schwelle entfernt
wurde. In einfachen Worten, Dynamikbereichskomprimierung erhöht die Lautstärke von Sounds um den Mittelbereichsschwellenwert. Verwendung von Dynamikbereichskomprimierung macht den Mittelbereich Sounds leichter zu hören in lauten Umgebungen, wodurch die Audiodatei Sound klarer toe Listener Die Struktur für das Hinzufügen von DRC toe Audiodateien wie unten gezeigt. Beachten Sie, dass der DRC-Wert Groß-/Kleinschreibung beachtet und in Kleinbuchstaben innerhalb des Tags geschrieben werden muss . Beachten Sie auch, dass alle Amazon polly Stimmen und Sprachen die Verwendung des DRC-Tags unterstützen. außerdem, Beachten Sieaußerdem,
dass Sie die dynamische Bereichskomprimierung auf einen ganzen Textabschnitt oder
nur ein paar Wörter anwenden können . Hören Sie die folgende Sprachaufzeichnung mit DRC auf einen Abschnitt des Textes angewendet. Audioaufnahmen können schwierige Umgebungen wie ein fahrendes Fahrzeug sein, aber dieser Abschnitt der Audio-Rasse sollte weniger schwierig sein, Fahrzeug zu bewegen, weil wir Dynamikbereich-Kompression angewendet haben. Sie können die Dynamikbereichskomprimierung auch mit dem Prozessvolume-Tag verwenden. Wie diese Grafik zeigt, erhöht das Prozessvolumen Tag gleichmäßig die Lautstärke des gesamten Audiophils von seinem ursprünglichen Pegel. Hier wird eine gepunktete Linie zu einem angepassten Pegel in der Grafik als durchgezogene Linie mit
dem DRC-Tag mit dem Prozess markiert , Lautstärke-Tag erhöht weiter die Lautstärke bestimmter Teile der Audiodatei. Kombinieren von Tags wirkt sich nicht auf die Einstellungen des Prozesses des Volume-Tags in einfachen Worten aus. Das bedeutet, dass Sie die Lautstärke-Tag verwenden können, um die Lautstärke über
das gesamte Audiophilen zu erhöhen . Etwas zu beachten, wenn Sie vorhaben, die Dynamikbereichskomprimierung mit dem Prozess zu verwenden. Volume-Tag ist, dass
Amazon Polly, wenn Sie beide Tags zusammen verwenden, zuerst das DRC-Tag anwendet, um die mittleren Range-Sounds in der Nähe des Schwellenwerts zu erhöhen . Es wendet dann den Prozess der Lautstärke-Tag, die weiter erhöht die Lautstärke der gesamten Audiospur gleichmäßig. Also, in einfachen Worten, verwenden Sie das DRC-Tag mit dem Prozesslautstärke Tag, um zuerst die Lautstärke der mittleren
Range-Sounds zu erhöhen und dann die Gesamtlautstärke der gesamten Audiospur zu erhöhen. finden Sie einige zusätzliche Informationen zur Verwendung der dynamischen Bereichskomprimierung, um die Tags folgenden Beispielfinden Sie einige zusätzliche Informationen zur Verwendung der dynamischen Bereichskomprimierung, um die Tags
zusammen ein Tag innerhalb des anderen zu verschachteln. Das Prozessvolumen-Tag erhöht die Lautstärke der gesamten Passage zu laut. Während das DRC-Tag die Lautstärke der mittleren Bereichswerte im zweiten Satz erhöht,
denken Sie daran, auch schließende Tags für beide Elemente zu verwenden. Hören Sie sich die Sprachaufzeichnung unten an. Um diese Effekte in Aktion zu hören, muss
dieser Text verständlich und erlaubt sein. Dieser Text muss auch in einem fahrenden Auto verständlicher sein. Zusammenfassend Verwenden Sie die Tags „Atem“ und „Auto atmen“, um eine natürlichere klingende Sprache zu erzeugen, indem Sie Text- und Spracherzählungen
Atemzüge hinzufügen . Verwenden Sie das flüsterte Tag, um Ihrem Text Flüstern hinzuzufügen. Verwenden Sie das Soft-Tag für weichere gesprochene Voicing-Effekte. Verwenden Sie das Vokaltrakt-Längen-Tag, um Voice Tambor zu ändern, indem Sie die Größe der Lautsprecher . Vokaltrakt-Länge und verwenden Sie das DRC-Tag mit oder ohne den Prozess. Die Lautstärke-Tag Zehe. Fügen Sie Text Dynamikbereichskomprimierung hinzu und erhöhen Sie die Lautstärke von Sounds im mittleren Bereich in Ihren Audioerzählungen. Dies bringt uns bis zum Ende dieses Tutorials. Ich hoffe, Sie fanden diese Lektion nützlich. Bitte beachten Sie die Begleitnotizen in diesem Abschnitt für weitere Informationen und vielen Dank
für Ihr Zuhören. Hallo und willkommen zu einer weiteren Episode des AI Meditation Podcasts, wo wir nur sagen, was andere denken, bevor wir beginnen. Sie tief durch und entspannen Sie sich. Fühlen Sie sich frei, Ihre Augen zu schließen. Wenn du nicht fährst, dann solltest du vielleicht deine Augen weit offen halten. Im Namen aller synthetischen Stimmen mache
ich das folgende Jahr zugesagt, dass ich dich nie aufgeben werde. Niemals werde dich im Stich lassen,
nie herumrennen und dich wüsten. Niemals werde ich dich zum Weinen bringen. sagen Sie eine Lüge und verletzen Sie Weg Spiel
18. 17 – Text-to-Speech: Meine Damen und Herren, Madam Amos Jahre, schicken Sie Ihren C Senores, den Sie einen Diamanten auf Terrence Don Massey Carbon Yellows kaufen. Ich gebe Ihnen die zertifizierte Bona-fide zweifellos überqualifiziert, nicht kompensiert, alles unkonventionell,
unkörperlich und fast unvorstellbar, aber höchst glaubwürdig. Kate die KI Erzähler Hallo und willkommen zurück. In diesem Tutorial erfahren
Sie, wie Sie eine andere Sprache für bestimmte Wörter in Ihrem Text mithilfe des
Sprachmarkup-Tags angeben . Bitte beachten Sie, dass dies nicht das gleiche ist wie das Übersetzen von Text in andere Sprachen, die wir in einem separaten Tutorial behandeln werden. außerdem, Beachten
Sieaußerdem,dass das Sprach-Tag, das wir verwenden, derzeit nur für Amazon
Polly-Stimmen verfügbar ist. Sie können das Sprach-Tag verwenden, um eine andere Sprache für einen bestimmten
Wortsatz oder Satz in Ihrem Text anzugeben . Synthetische Stimmen sprechen in der Regel Fremdsprache, Wörter und Sätze besser aus. Wenn die Luft in ein Paar von Sprach-Tags eingeschlossen ist, können
Sie die Sprache mit XML angeben. Sprache Attribute die Struktur für die Interpretation von Text mit anderen Sprachen, wie
unten Amazon gezeigt . Polly unterstützt Text-zu-Sprech-Stimmen in vielen verschiedenen Sprachen. In dieser Tabelle werden die von Amazon Polly unterstützten Sprachen mit den Sprachcodes aufgeführt, Sie mit dem Sprach-Tag verwenden müssen. Hier sehen
Sie, wie Sie Sprachattribute mit dem Sprachmarkup-Tag verwenden. Beachten Sie, dass die Sprachkennungscodes sogar erlauben, zwischen der Verwendung von
Sprachdialekt eine solche sprechenden Wörter in Französisch oder Französisch,
Kanadisch odersprechen Wörter in Portugiesisch Mit einem brasilianischen oder europäischen Portugiesischunterscheiden Sprachdialekt eine solche sprechenden Wörter in Französisch oder Französisch,
Kanadisch oder sprechen Wörter in Portugiesisch Mit einem brasilianischen oder europäischen Portugiesisch Aussprache. Lassen Sie uns einige Beispiele durchgehen, damit Sie sehen können, wie Sie Text markieren, um mit anderen
Sprachen angeben , wenn Sie bestimmte Wörter aussprechen, um zu verstehen, wie das Sprach-Tag funktioniert Beginnen wir mit den Grundlagen. Alle Wörter in Ihrem Text werden in der Sprache Ihrer gewählten Stimme gesprochen,
es sei denn, Sie wenden das Sprach-Tag an. Wenn Sie das Sprach-Tag anwenden, werden
die Wörter innerhalb der Tags in dieser Sprache gesprochen. Angenommen, wir wählen Joannas Stimme aus, um unseren Text zu erzählen, und der Text enthält Wörter in einer Fremdsprache wie Französisch ohne Sprachmarkup-Tags . Joanna spricht uns Englisch, also wird Amazon Polly den unten gezeigten Satz in
Joannas US-englischer Stimme interpretieren . Ohne französischen Akzent. Hören Sie, wie der Text klingt, wenn er in Audio konvertiert wird. Jamie Parle Pas Francais. Wenn Sie Joannas Stimme mit dem Sprachen-Tag Amazon verwenden. Polly wird den Satz in amerikanischem Französisch sprechen, weil Joanna als keine
französische Mutterstimme ist . Aussprache basiert auf ihrer Muttersprache, die uns Englisch ist. Hören Sie, wie der Text klingt, wenn er in eine Audiodatei konvertiert wird. Parla Kumpel Francais bemerkt, dass ähnlich wie die meisten Leute Wörter nicht perfekt aussprechen wenn sie versuchen, eine Fremdsprache zu sprechen. Joannas US-englische Stimme verwendet keine perfekten französischen Aussprachefunktionen, um diesen
Satz zu sprechen . Als fließender französischer Sprecher müssen
Sie stattdessen eine französisch sprechende Muttersprache verwenden. Wie Sie über ein Bethel wissen, sagen Sie das Sprach-Tag, dann ist nützlich, wenn Sie möchten, dass Ihre Spracherzählungen besser Wörter in
Fremdsprachen aussprechen . beispielsweise die Audioaufnahme unten an, Hören Sie sichbeispielsweise die Audioaufnahme unten an,da Matthew, eine andere US-englische Stimme, das brasilianische portugiesische Wort für eine bekannte Art von Fleischgrill
ausspricht. Ich liebe es, sie Roscoe zu essen, das brasilianische Grillfleisch ist. Ich liebe es, Schuh hosko zu essen, das brasilianische Grillfleisch ist. Das Sprach-Tag kann auch bei der Übersetzung von Text in Fremdsprachen verwendet werden. Zum Beispiel, wenn Sie die Stimme von Giorgio verwenden, der Italienisch spricht mit dem Beispieltext unten einen englischen Satz enthält. Amazon Polly wird den Satz in Giorgios Stimme mit einer italienischen Aussprache sprechen. Wenn Sie dieselbe Stimme mit dem Sprachtag Amazon verwenden, spricht
Polly die markierten Wörter in italienischem Englisch mit Akzentuierung aus. Lassen Sie sich die Audioaufnahme des unten gezeigten Textes anhören. Vielleicht hat die Schokoladenfabrik tatsächlich beendet. Vielleicht, Charlie und die Schokoladenfabrik. Klingt das nicht einfach? Bellissimo? Hier ist ein weiteres Beispiel für die Verwendung des Sprach-Tags, um Namen in Yukking auszusprechen. Es war, du weißt schon, Venti Quattro, der Holly Grove gewölbt hat, dem du gefolgt bist. Sie müssen sehen, dass es in Amerika wold, um in ethischen Muster Altralto öffentliche unbekannte
Hölle nach Sex zu verklagen war gerade live erleben wir könnten Sie Para Linda in Uki eingesperrt in Sie wissen, Venti Quattro. Nun, es sind viele von Ihnen gefolgt. Sie müssen sehen, dass Sie in Amerika gesagt haben, zu verklagen. In der Tat Go Muster Kontrolle öffentliche und heloc Entscheidung Abou gerade erlebt Urlaub. Wir könnten dich in die Gefängnistür einbringen. Das letzte Beispiel, das ich Ihnen zeigen möchte, verwendet das Sprach-Tag, um fremde Namen auszusprechen, die
im Text in ihrer Muttersprache verwendet werden . Hören Sie sich die Audio-Aufnahme des Textes unten Michelangelo de la Davico Bone sind Rati Simoni oder häufiger unter seinem Vornamen bekannt. Michelangelo war ein italienischer Bildhauer, Maler, Architekt und Dichter des Hi Renee seit der Geburt in Forenza, oder der Republik Florenz, von vielen
als der größte Künstler seines Lebens und von einigen der größten Künstler aller Zeiten, wird
er oft als ein Anwärter für den Titel des archetypischen Renee seit Man, zusammen mit seinem Rivalen, der Kollege Florentiner Leonardo da Vinci Michelangelo Deal,
oder Devika geboren ROTC Money oder, häufiger unter seinem Vornamen bekannt, Michelangelo war ein italienischer Bildhauer, Maler, Architekt und Dichter des Hi Renee. Seit der Geburt in Ferentz, Say oder der Republik Florenz, von vielen
als der größte Künstler seines Lebens und von einigen, dem größten Künstler aller Zeiten, wird
er oft als Anwärter angesehen für den Titel des archetypischen Renee seit dem Mann, zusammen mit seinem Rivalen, dem Kollegen Florentiner Leonardo da Vinci. Zusammenfassend
können Sie das Sprach-Tag verwenden, um eine andere Sprache für bestimmte Wörter,
Sätze oder Sätze in Ihrem Text anzugeben . Denken Sie daran, dass Amazon Polly viele Sprachen unterstützt, lesen Sie die Tabelle der Sprachkennzeichnungs-Tags für Sprachcodes und verwenden Sie diese innerhalb von XML-Sprachattributen, um die Sprache anzugeben. Dies bringt uns bis zum Ende dieses Tutorials. Ich hoffe, Sie fanden diese Lektion nützlich. Bitte beachten Sie die Begleitnotizen in diesem Abschnitt für weitere Informationen und vielen Dank für das Zuhören. Ich war ein 20 in meinem Rudel entlang der staubigen entwöhnen Amerika eher, als entlang kam Osama You mit einem High-End-Canvas Frachtlader. Wenn du Amerika gewinnst, machst mit mir okay, Reid und deshalb das Klima in die Höhle unter, dann sagte ich, Oh, entscheide dich
nicht, ob ich gesehen hätte, dass es mit so viel von dem Sand stehen würde und ich sagte:
Hör zu, Ich habe jede Straße im Land, die ich überall meine, Mann. Ich war überall, Mann Kreuz für die s Es ist ich bringen, um den Bergmann der Reise Ich hatte meinen Anteil Ich war überall wo ich gewesen wo ich überall war,
Mann, wo der Mensch war, ist Experiment Atmen, Mann. Ich war überall Kingston für Pizza. Sagen Sie, ich war überall, Mann. Ich war überall, Mann. Erst sein Experiment bringe ich dem American Air Man von meinem Koch. Sei überall. Okay, warte. Drei. Der Berg, Ihre Reise. Ich hatte meinen Anteil, Mann. Ich war so
19. 18 – Text-To-Speech: Zusammenstellen: Guten Morgen Zahlung erhalten. Ausgewählte Artikel bereit für die Abholung in Ihrer Nähe A bis 50 Grad, 57 Minuten 10 Sekunden Norden und sechs Grad 54 Minuten 27,8 Sekunden Osten heute Abend um 7 30 Good luck. Hallo. Und willkommen zurück. In dieser Lektion erfahren
Sie, wie Sie Audiodateien aus markierten Textdateien erstellen. Themen, die in dieser Lektion behandelt werden,
gehören das Überprüfen des Text-to-Spede-Prozesses , Erstellen von Audiodateien mit Google- und Amazon Polly-Stimmen sowie das Erstellen von
Audiodateien in verschiedenen Sprachen. Was ich in dieser Lektion tun werde, ist, Sie durch den Prozess der Aufnahme von Inhalten , die zu einer Nur-Text-Datei hinzugefügt wurden, zu führen, um sie mit s SML-Tags zu markieren und dann in eine Audiodatei wie diese zu
konvertieren. Ein Tourentest ist eine Untersuchungsmethode in künstlicher Intelligenz ai, um festzustellen,
ob ein Computer in der Lage ist, wie ein Mensch zu denken. Der Test wurde nach Alan benannt, der den Gründer des Turning Test auf einem englischen
Informatiker ,
gruppierten Analysten, gruppierten Analysten, Mathematiker und theoretischen Biologen bereist. Bevor wir durch den Prozess der Umwandlung einer markierten Textdatei in eine Audio-Erzählung gehen. Lassen Sie uns noch einmal die Schritte überprüfen, die im Text-zu-Sprach-Prozess involviert sind. Der Prozess beginnt mit der Erstellung von textbasierten Inhalten. Dieser Inhalt kann in Form einer Erzählung, eines Skripts und eines Artikelverkaufs vorliegen. Kopieren Sie die Trainingsanweisungen. Ein Buch, etcetera. Nachdem Ihr Inhalt geschrieben wurde, der nächste Schritt darin, Ihre Text-zu-Sprach-Engine auszuwählen, wie zuvor erwähnt Sie müssen Ihre Text-zu-Sprach-Engine auswählen, bevor Sie Ihren Text markieren, da verschiedene Text-zu-Sprachplattformen nicht unterstützen oder erlauben Sie, ein Durcheinander zu verwenden. SML-Markup-Tags in der Beispieltextdatei. Ich habe dich gerade gespielt. Zum Beispiel verwendet
der Inhalt Wörter, die eine andere phonetische Aussprache erfordern, sowie Effekte wie Flüstern, die nur Amazon Polly derzeit anbietet. Für dieses Beispiel haben wir in Amazon Polly Voice für die Audio-Erzählung verwendet. Anstatt die Google TTs-Engine auszuwählen, nachdem Sie Ihre T ts Engine ausgewählt haben, besteht
der nächste Schritt darin, Ihren Text mit S-SML-Tags zu markieren. Um diesen Schritt abzuschließen, lesen Sie bitte alle Markup-Tutorials, die im vorherigen Modul dieses Kurses zur Verfügung gestellt wurden. Nachdem Sie Ihre Textdatei mit S-SML-Tags markiert haben. Der nächste Schritt besteht darin, Ihre Inhalte über Ihr T ts-Tool auszuführen, nachdem Sie Ihr
Text-zu-Sprach-Verarbeitungswerkzeug ausgewählt haben. Der nächste Schritt besteht darin, Ihre Sprache oder Ihren Dialekt auszuwählen. Wählen Sie eine männliche oder weibliche Stimme für Ihre Erzählung, importieren Sie Ihre SS ml Textdatei und konvertieren Sie Ihren Text dann in eine Audiodatei. Nachdem Sie Ihre Audio-Erzählung erstellt
haben, können Sie unseren Export Ihrer Audiophile herunterladen und diese für jede Anwendung verwenden, die Sie benötigen . Ein solches Video Erzählungen Web-Seiten, Podcasts ,
Hörbücher, etc. George wird Sie nun durch diesen Prozess führen und Ihnen Schritt für Schritt zeigen. So erstellen Sie eine Audioerzählung aus einer Textdatei. Danke, Kate. Hier haben wir unsere markierte Textdatei. Wie Sie sehen können, haben
wir die open und close speak Tags hinzugefügt und zusätzliche S SML Markup-Tags eingefügt. Da diese Textdatei Telefonnamen verwendet, müssen
wir diesen Text mithilfe der Amazon
Polly-Text-to-Speech-Engine in eine Audiodatei konvertieren , da nur Amazon Polly Telefonziele und frenetische Markup-Tags gleichzeitig interpretieren. Dies ist also die Textdatei, die wir in unser Text-zu-Sprachverarbeitungstool hochladen und in eine Audiodatei
konvertieren. Gehen wir jetzt zum Text zu Speech Processing Tool. Wie bereits erwähnt. Dieser Kurs wurde erstellt. Verwenden Sie ein paar Text-zu-Sprachverarbeitungstools. Wird Wave Net vocalize ER für die Verarbeitung von Textdateien mit Google Voices und
Skript-Localizer für die Verarbeitung von Textdateien mit Amazon Polly Voices verwenden. Beide Anwendungen funktionieren genauso, wie sie vom selben
Softwareentwickler erstellt wurden . Lassen Sie uns auf diese Tools einloggen, beginnend mit Welle Net vocalize er, Sobald Sie eingesperrt sind, gehen Sie zu neuen hinzufügen. Dies bringt Sie zum Hauptbildschirm von Wave Net vocalize er, lassen Sie uns auch voran und melden Sie sich in Skript-Localizer. Klicken Sie auf „Neu hinzufügen“. Wie Sie sehen können, sind
beide Werkzeuge genau auf die gleiche Weise ausgelegt. Der einzige Unterschied zu diesen Werkzeugen ist ihre Fähigkeit, verschiedene
Text-zu-Sprachfunktionen von S SML zu verarbeiten . Wir haben diese Funktionen und Unterschiede ausführlich in den S S M L Markup-Tutorials behandelt , so beziehen sich auf dieses Modul Firma oder Informationen darüber, welches Werkzeug bei der Verarbeitung von
Textdateien ausgewählt werden soll . Das erste, was beim Erstellen einer Audiodatei zu tun ist, ist, den Dateinamen anzugeben. als Nächstes Wählen Sieals Nächsteseine Sprache aus, und wählen Sie dann Ihre Stimme aus. Nachdem Sie Ihre Datei benannt und eine Sprache und Stimme ausgewählt haben, klicken Sie auf die Schaltfläche Datei auswählen, um zu suchen. Wählen Sie einen Upload Ihrer Textdatei. Sobald Ihre Textdatei ausgewählt und hochgeladen wurde, scrollen Sie nach unten zum unteren Bildschirmrand und klicken Sie auf die Schaltfläche Erstellen. Ihre Textdatei wird verarbeitet und in eine Audiodatei konvertiert. Sobald Ihr Text in Audio konvertiert wurde, spielen Sie die Datei ab und hören Sie das Ergebnis an. Ein Tourentest ist eine Untersuchungsmethode in künstlicher Intelligenz KI, um festzustellen,
ob ein Computer in der Lage ist, wie ein Mensch zu denken. Wenn alles in Ordnung ist, wählen Sie die Download-Option, um die fertige Audiodatei auf Ihre Festplatte herunterzuladen. Wie in einer anderen Lektion erwähnt, Script vocalize ER speichert Audiodateien in MP drei Format und Wave net vocalize er speichert Audio ist weg Datei. Wenn Sie das Audio in einem anderen Format benötigen, können
Sie mühelos MP3 Audios Toe-Way-Dateien konvertieren und umgekehrt, indem Sie die in anderen Lektionen genannten Tools und das dazugehörige Downloadkursmaterial , um die und stellen
Sie sicher, dass Ihr Text korrekt markiert und im Nur-Text-Format gespeichert wurde . Melden Sie sich entweder in der Wave net vocalize oder Script vocalize er Werkzeuge oder beides, abhängig von der Text-zu-Sprach-Tour müssen Sie Ihre Datei benennen. Wählen Sie eine Sprache, wählen Sie eine Stimme klicken Schuhe eingereicht, und suchen Sie
dann. Wählen Sie ein, laden Sie Ihre Textdatei hoch und klicken Sie schließlich auf die Schaltfläche Aktualisieren, um Ihre Textdatei in eine
Audioerzählung zu konvertieren . Einer der Vorteile der Verwendung von synthetischer Sprache ist, dass Sie, wenn Sie
etwas korrigieren oder verbessern müssen , einfach die Quelltext-Datei ändern,
speichern,
erneut hochladen und den Vorgang wiederholen können speichern, , bis Sie mit dem Ergebnisse. Danke, George. Wären Sie auch freundlich genug, unseren Zuhörern zu zeigen, wie man Text in andere
Sprachen übersetzt und ihre übersetzten Textdateien in Audioerzählungen umwandelt? Natürlich wäre
es mir ein Vergnügen. Lassen Sie mich Ihnen zeigen, wie Sie Text in andere Sprachen übersetzen und wie Sie übersetzten
Text in Spracherzählungen umwandeln können. Es gibt zwei Möglichkeiten, dies zu tun. Der erste Weg besteht darin, den Text in einer anderen Sprache zu schreiben. Diese Methode funktioniert, wenn Sie diejenigen sind, die Sie auffällig verwenden möchten, lesen, schreiben und diese Sprache verstehen. Die zweite Möglichkeit besteht darin, den Inhalt in der Sprache zu schreiben. Sie wissen, welches für dieses Beispiel Wheel sagen Englisch ist. Dann übersetzen Sie den Text aus dem Englischen in eine andere Sprache und gehen Sie dann durch den Prozess der Erstellung von Markups und Audiodateien. Für dieses kurze Tutorial werden
wir uns auf die Übersetzung von Text in andere Sprachen konzentrieren und das Ergebnis in ein audiophiles von einer nativ sprechenden synthetischen Stimme erzählt. Das erste, was wir brauchen, ist unsere Textdatei. Beachten Sie beim Übersetzen von Text in andere Sprachen für die Text-zu-Sprachverarbeitung, dass Sie keine markierte Version des Textes als TTS-Prozess verwenden können. ER übersetzt die Markup-Tags, und dies führt zu Fehlern. Dies ist einer der Gründe, warum wir empfehlen, eine Kopie Ihres Inhalts und nicht die
ursprüngliche Inhaltsdatei zu markieren . außerdem sicher, Stellen Sieaußerdem sicher,dass der Text, den Sie in eine Audioerzählung verwandeln möchten, in eine
Sprache übersetzt werden kann , die von einer Google- oder Amazon Polly-Stimme unterstützt wird. Also hier ist unsere Textdatei. den gesamten Inhalt aus Ihrer Textdatei ohne Markup-Tags Kopieren Sieden gesamten Inhalt aus Ihrer Textdatei ohne Markup-Tagsin die Zwischenablage. als Nächstes Öffnen Sieals NächstesIhren Webbrowser und geben Sie Google Translate ein. Dies bringt das Google Translate Tool auf. In diesem Beispiel möchten
wir sicherstellen, dass der Texteingabe-Bildschirm auf Englisch eingestellt ist. Als Nächstes. Wählen Sie die Sprache aus, in die der Text übersetzt werden soll. In diesem Beispiel wählen
wir Französisch Fügen Sie Ihren Text in die inter-Lehrbücher ein. Beachten Sie, dass die Google übersetzen alle hat eine Zeichengrenze, und es ging. Übersetzen Sie Ihren Text. Wenn das Limit überschritten wird, übersetzt
das Tool Ihren Text automatisch in die von Ihnen ausgewählte Sprache. Kopieren Sie die Übersetzung in die Zwischenablage und fügen Sie sie in eine Nur-Text-Datei ein. Speichern Sie Ihre Textdatei. Wiederholen Sie diesen Vorgang, um Ihren Text in andere Sprachen zu übersetzen. Zum Beispiel können
Sie den Text ins Deutsche oder Chinesische oder eine andere Sprache, die von Google
,
TTS oder Amazon unterstützt wird,übersetzen ,
TTS oder Amazon unterstützt wird, . Polly voices Nun, da Sie Ihren Text übersetzt haben, haben
Sie zwei Möglichkeiten. Sie können jemanden bekommen, der ein fließendes Verständnis der Sprache hat, um Ihnen zu helfen, es zu markieren, oder Sie können den übersetzten Text, wie es in Audio mit Wave net vocalize er oder Script Localizer. Es gibt ein paar Möglichkeiten, um übersetzten Text in Audio zu konvertieren mit wave net vocalize er der erste Weg besteht darin, eine Kopie der übersetzten Textdatei zu erstellen, so dass Sie den ursprünglichen Inhalt und das Öffnen und Schließen von Geschwindigkeitstags bis zum Anfang und das Ende des Textes und speichern Sie die Datei. Nächstes Loggen Sie sich ein. Wave net vocalize er klicken Sie auf neue hinzufügen Geben Sie Ihrer Datei einen Namen. Wählen Sie die Sprache Ihrer übersetzten Textdatei aus. Wählen Sie eine Stimme. als Nächstes Klicken Sieals Nächstesauf die Schaltfläche Datei auswählen, und suchen Sie nach. Wählen Sie einen Upload Ihrer übersetzten Textdatei mit den hinzugefügten Speak-Tags. Klicken Sie auf die Schaltfläche Erstellen, nachdem Ihre Textdatei verarbeitet wurde. Überprüfen Sie, ob die Datei in Audio konvertiert wurde, aber Russland war eins. Das hier. Tun Sie es nur tun Alamoudi kostenlos und ist nicht Ihre Hilfe oder zeigen, dass sie Expedia verwenden. Mafiosi. Ariel Angemessene Tailed bewegte sich nur im Fernsehen. Gewählt abo in der Regel beweglichen Befehl, sie werden sie nur in Armut. Tier tun Gesellschaft. Dassault Chaudhry. Wenn Sie mit dem Ergebnis zufrieden sind, laden Sie die Audiodatei auf Ihre Festplatte herunter. Wenn nicht, korrigieren Sie alles, was repariert werden muss, und wiederholen Sie den Vorgang, bis Sie mit den Ergebnissen zufrieden sind. Wenn Sie die aktualisierte Version von Wave Net vocalize er verwenden, können
Sie überspringen die Verwendung der Google übersetzen alle und verwenden Sie die integrierte Übersetzungsfunktion direkt im Tool selbst. Um dies zu tun, laden Sie
einfach die englische Textversion ohne zusätzliche Markup-Tags in das Textfeld
einfügen oder fügen Sie sie ein. Klicken Sie auf die Schaltfläche „Übersetzen“ und dann auf die Schaltfläche „Erstellen“. Überprüfen Sie Ihre Auftragsgenerierung nach der Bearbeitung. LaTasha war einer dieser. Tun Sie es. Lesen Sie Alemao nicht. Die freien auf diesen natürlichen Trank Goofy Musik Special wird sich schüchtern fühlen. L passend. Ich bewege mich nicht. Nicht belüftet wegen uns nur einen Commander Woofy nur gemeinnützige Tier bewegen. Die Firma. Der Social Script Localizer verfügt nicht über eine integrierte Übersetzungsfunktion, aber Sie können Audiodateien aus übersetztem Text erstellen, indem Sie das Sprach-Tag mit einer native sprechenden Stimme verwenden, wie in den Text-to-Speech-Markup-Tutorials erläutert. dazu Melden Sie sichdazuin Ihrem Script-Vocalized Admin-Bereich an. Klicken Sie auf „Neu hinzufügen“ geben Sie Ihrer Datei einen Namen. Wählen Sie die Sprache Ihrer übersetzten Textdatei aus. Wählen Sie eine Stimme aus dieser Sprachgruppe aus. als Nächstes Klicken Sieals Nächstesauf die Schaltfläche Datei auswählen, und suchen Sie nach. Wählen Sie einen Upload Ihrer übersetzten Textdatei mit den hinzugefügten Speak-Tags. Klicken Sie auf die Schaltfläche Erstellen, nachdem Ihre Textdatei verarbeitet wurde. Überprüfen Sie, ob es in Audio konvertiert wurde. Toshiba ist einer dieser. Tun Sie es im Radio und melodisch auf diese Nicht Ihre Hilfe. Oceanography Music Video. Wenn Sie Shania nur mehr angeeignet haben. Don t erstellt einen Jungen Jahre alte Filme. Kalmadi wird fühlen, nur wusste Armut. Tier die Firma. Es gibt eine Fälschung. Laden Sie die Audiodatei auf Ihre Festplatte herunter. Herzlichen Glückwunsch. Sie haben gerade gelernt, Text in andere Sprachen zu übersetzen und
übersetzten Text in Spracherzählungen umzuwandeln . Vielen Dank,
George, George, unseren Zuhörern gezeigt haben, wie Sie Audiodateien aus markierten und übersetzten
Textdateien erstellen können. Das bringt uns zum Ende dieser Lektion. Ich hoffe, dass Sie diese Informationen nützlich gefunden haben und danke für das Zuhören.
20. 19 – Text-To-Speech Tipps: - Freunde neue
Freunde, aber halten Sie die alte ist Silber Thea andere ist Gold. Machen Sie neue Freunde Kreise Ratte Aber halten die alte hat kein Ende Einer ist Silber, das ist, wie lange der andere geht. Ich werde dein Freund sein. Ich kreise seine Runde, finde neue
Freunde Es hat kein Endfeld Das ist, wie lange Silber Ich werde dein Freund sein Der andere heißt Make New Friends Circle ist rund Halten Sie die alte es hat kein Ende Thea Andere Schulen werden Ihr Freund sein. Ein Kreis ist um neue Freunde zu schließen Es hat kein Ende Was machst du? Das ist wie lange? Eine Silbe werde ich deine Freunde sein. Du machst neue Freunde Circle ist der Schlüssel. Fühlt sich an, dass es nicht hat. So werde ich dein Freund sein Kreis seine Runde Machen Sie neue Freunde hat kein Ende Das ist, wie lange Schaum ein Kreis ist um neue Freunde machen Es hat kein Ende, aber halten Sie die alte ist Silber
Thea andere ist Gold Machen Sie neue Freunde Ein Kreis ist Ratte Aber halten Sie die alte, dass hat kein Ende Einer ist Silber Das ist, wie lange der andere Gold Hallo und willkommen zurück in dieser Lektion geben wir Tipps zum Markieren von Text in Sprachdateien, Tipps zum Erstellen von Sprachberichten und Synchronisieren dieser beiden Bildschirmdarstellungen oder Desktop-Video Aufzeichnungen und Videos über Dubs Tipps zur Fehlerbehebung, was zu tun ist, wenn Sie Probleme oder Fehler und einige abschließende Gedanken darüber, wohin Sie gehen und was nach Abschluss dieses
Kurses zu tun ist, lassen Sie uns mit einigen grundlegenden Tipps beginnen. Stellen Sie sicher, dass Sie die Grundlagen der Verwendung von Text-to-Speech beherrschen, bevor Sie beginnen. Es ist wichtig, Ihre Erwartungen zu verwalten und zu wissen, was Sie tun können und was nicht, wenn Sie
synthetische Stimmen verwenden . aktuelle Text-zu-Sprach-Technologie ist großartig, aber sie ist nicht perfekt. Die Technologie
wird
sich jedoch sich jedoch nur im Laufe der Zeit verbessern, also erwarten Sie, dass die Dinge immer intelligenter und besser werden. Es ist auch wichtig, Prozesse wie das Markieren von Text und das Konvertieren von Text in
Audio zu verstehen . Achten Sie
daher darauf, alle Kursvideos und -dokumentation zu überprüfen, bevor Sie beginnen. Stellen Sie sicher, dass Sie Zugriff auf alle Tools haben, die Sie benötigen, und dass Sie wissen, wie Sie
diese Tools verwenden . Alle in diesem Kurs gezeigten Werkzeuge sind sehr einfach zu bedienen und erfordern keine technischen Fähigkeiten oder Kenntnisse. Lesen Sie unsere Text-to-Sprach-Tools, Lektion Wenn Sie Hilfe oder weitere Informationen benötigen,
denken Sie daran, Ihren Text nur mit Nur-Text-Dateien zu markieren. Verwenden Sie keine Formatierung für Ihren Text wie Boulder Kursiv, da dies Fehler während der Audio-Konvertierung verursacht.
Wir empfehlen Ihnen, eine Kopie Ihrer ursprünglichen Textdatei zu erstellen und an der Kopie für Dinge
wie Markierungen zu arbeiten . Dadurch erhalten Sie Ihren Originaltext für Dinge wie Folienpräsentationen, Webinhalte und eine Reihe anderer Verwendungszwecke. auch
daran, Textdateien im UTF-8-Format zu speichern. Wenn Ihr Inhalt phonetische Symbole verwendet, Sie,
falls Sie Hilfe benötigen, lesenSie,
falls Sie Hilfe benötigen,das Markup-Tutorial zur Textaussprache. George wird dich nun durch ein Schritt-für-Schritt-Video führen. Gehen Sie durch mit Tipps, wie Sie Ihre Textdateien markieren können. Danke, Kate. Lassen Sie mich mit Ihnen eine schnelle und praktische Möglichkeit teilen, Ihre Textdateien zu markieren. Hier ist die ursprüngliche Textdatei. Wie Sie sehen können, gibt es keine Markup-Tags auf diesem Text. Der erste Tipp ist dann, dass Sie nicht an Ihrer ursprünglichen Textdatei arbeiten. stattdessen Erstellen Siestattdesseneine Kopie, an der Sie arbeiten, wenn Sie Ihren Text markieren. Auf diese Weise behalten
Sie die ursprüngliche Nur-Text-Datei ohne Markierungs-Tags bei, falls Sie sie
für etwas anderes verwenden müssen,
wie zum für etwas anderes verwenden müssen, Beispiel das Kopieren und Einfügen von Sätzen in Präsentationsseiten, Block-Beiträge, Web Seiten usw.,
und Sie werden eine markierte Version des Textes haben, die Sie bei
Bedarf weiterhin verwenden und erneut bearbeiten können . Lassen Sie uns also eine neue Textdatei für die markierte Version unseres Textes erstellen. Wir werden diese Datei in einem Moment speichern. Im Abschnitt „Power-Benutzer-Tipps“ dieses Lernprogramms empfehlen
wir, einen Spickzettel oder eine Wischdatei mit S-SML-Tags und
Textausschnitten und Tags zu erstellen , die Sie ganz einfach kopieren und in neuen Text in Sprachdateien einfügen können . Wie Sie hier sehen können, können
Sie weiterhin Elemente und Snippets hinzufügen und halten Sie diese Swipe-Datei griffbereit. Wenn Sie an einem neuen Text-to-Speech-Projekt arbeiten, können
Sie sogar Hole-markierte Sätze speichern, die er wiederholt verwendet hat, wie Erzählungen für Folienpräsentation, Intros oder Schlussanweisungen. Das erste, was Sie zu Ihrer neuen leeren Textdatei des öffnenden und schließenden Sprech-Tags hinzufügen müssen. Sie können diese entweder eingeben oder einfach nur kopieren und einfügen Sie sie aus Ihrer Swipe-Datei. als Nächstes Wählen Sieals Nächstesden gesamten Inhalt aus Ihrer Inhaltsdatei aus, kopieren
Sie ihn dann und fügen Sie ihn in Ihre Markupdatei zwischen den geöffneten und geschlossenen Speak-Tags ein. Das nächste, was ich empfehle, ist, alle Leerzeichen zwischen den Zeilen loszuwerden Textdatei eng, kompakt und einfacher machen, um irgendwelche eklatanten Fehler oder Fehler zu erkennen. Als nächstes haben
wir festgestellt, dass das Hinzufügen von Absätzen und Pausen zum Text dazu beiträgt, eine natürlichere
Klanggenerierung zu erzeugen . Lassen Sie uns also Absätze und Brüche zu jeder Zeile hinzufügen, wenn Sie Absätze verwenden. Denken Sie daran, dass wir Absatz-Tags öffnen und schließen müssen. Ein schneller Weg, dies zu tun, ist, durch den Text zu gehen und fügen Sie die öffnenden Absatz-Tags zuerst , Dann stellen Sie sicher, dass Ihre Textdatei ein Wortumbruch adul die schließenden Tags am Ende gesetzt. Wir haben bereits schließende Absatz-Tags mit einer Sekunde Umbrüchen erstellt, also kopieren wir diese Tags einfach aus unserer Wischdatei und Adam an das Ende jeder Textzeile in unserer Markup-Datei. Denken Sie daran, Ihre Textdatei in regelmäßigen Abständen zu speichern. Wie gesagt, wir fügen auch am Ende jeder Zeile Pausen hinzu,
und wir haben festgestellt, dass eine Pause von einer Sekunde zwischen den Absätzen dazu neigt, die
Erzählung ein wenig zu verlangsamen und eine schöne und natürlich klingende Pause zwischen den Sätzen zu schaffen. Apropos Pausen und Pausen, wir haben auch festgestellt, dass das Hinzufügen von Pausen von etwa 200 Millisekunden zwischen mehreren Elementen mit Commerce
getrennt sind, und Pausen von etwa 500 Millisekunden zwischen Sätzen in Absätzen hilft, weiter verstärken die natürliche klingende Wirkung der Stimme. Erzählung. Experimentieren Sie mit Pausen und Pausen verschiedener Dauer, um herauszufinden, was am besten für Sie und
das Projekt, an dem Sie gerade arbeiten,funktioniert das Projekt, an dem Sie gerade arbeiten, Dies ist
jedoch im Allgemeinen der nächste Schritt, den wir gerne machen. Wenn Sie von der Markierung von Text bis zur Umwandlung Ihrer Textdatei in Audio wechseln,werden
Sie feststellen, dass einige Teile der Sprache längere Pausen benötigen und einige
gar keine benötigen. Wenn Sie von der Markierung von Text bis zur Umwandlung Ihrer Textdatei in Audio wechseln, werden
Sie feststellen, dass einige Teile der Sprache längere Pausen benötigen und einige
gar keine benötigen Also experimentieren, anpassen und Feinabstimmung, bis Ihre Sprachaufnahme so natürlich klingt, wie Sie es schaffen können. Nach dem Hinzufügen von Unterbrechungen und Pausen bei anderen Markup-Tags oder Textanforderungen. Alle diese wurden in den S M L Markup-Tutorials behandelt Bitte beziehen Sie sich auf diese Lektionen in den begleitenden Kursmaterialien. Wenn Sie Hilfe oder zusätzliche Informationen benötigen, gehen Sie
weiter, bis Ihre Textdatei fertig ist, und schon, um sie zum nächsten Schritt zu bringen, nämlich Ihren Text wieder in Sprache zu konvertieren. Sie müssen sich nicht zu sehr um Ihre Markierung in diesem Stadium kümmern, da Sie immer
wieder zu dieser Datei kommen und Anpassungen und Verbesserungen vornehmen können. Wenn Rechtschreibfehler oder eklatante Fehler auftreten, können
Sie diese auswählen, wenn Sie Ihre Text-zu-Sprachkonvertierungen testen. Normalerweise treten
die meisten Fehler auf, wenn Sie vergessen, schließende Tags hinzuzufügen oder Tags falsch zu schreiben, z. B. fehlende Anführungszeichen, Symbole usw. Denken Sie daran, zu speichern oder zu speichern, während Sie gehen und konzentrieren Sie sich auf. Aziz. Du arbeitest. Machen Sie oft kleine Pausen, wenn Sie müssen, da diese Phase des Prozesses Liebe zum Detail erfordert. Nachdem Sie diesen Prozess ein paar Mal wiederholt
haben, werden Sie beginnen, ein instinktives Gefühl zu entwickeln, um Text mit Pausen, Pausen,
Prasad,
IQ-Elementen und verschiedenen anderen Funktionen zu markieren Prasad, Prasad, , um Audio-Erzählungen zu erstellen, die klingen so natürliche und menschliche Likas möglich. Dies ist also der Prozess zum Markieren von Textdateien. Denken Sie daran, die ursprüngliche Inhaltsdatei beizubehalten, indem Sie eine Kopie des
Inhalts erstellen und markieren . Auf diese Weise können Sie weiterhin den ursprünglichen Inhalt wiederverwenden und weiterhin daran arbeiten, das Markup von oder Text zu bearbeiten und zu
verbessern, ohne den ursprünglichen Inhalt Ihrer Rede zu verlieren. Danke, George. Nachdem wir nun einige grundlegende Tipps behandelt haben, schauen wir
uns Power-Tipps an, die Ihren Workflow für Text zu Sprache verbessern und Ihnen dabei helfen können bessere Ergebnisse zu erzielen. Wie George im Video erwähnt, empfehlen
wir, eine Swipe-Datei oder einen Spickzettel zu erstellen, um häufig verwendete SML-Tags und
Textausschnitte zu speichern . Auf diese Weise können Sie schnell und einfach Markup-Tags und andere Snippets wie
markierten Text für Folieneinführungen und -enden in Ihren Text einfügen . Um Zeit zu sparen,
investieren Sie Zeit in das Markieren Ihres Textes. Versuchen Sie, Ihre Erzählung so nah am Leben zu klingen. Likas. Sie können auch Zeit investieren, um Ihre Erzählungen auf diese Weise richtig zu machen. Ihr Spracherzähler wird jedes Mal einen großartigen Job machen, sich mit all den verschiedenen Stimmen und Stimmpersönlichkeiten vertraut machen und lernen, wie man die richtige Stimme dem Job
anpasst. Google und Amazon Polly bieten eine Reihe von Stimmen in verschiedenen Sprachen und Dialekt. Verwenden Sie die aufgezeichneten Audios, um Ihre Fähigkeiten beim Kopieren zu verbessern und effektivere
Verkaufsnachrichten zu erstellen und leistungsfähigere Skripts zu schreiben Wir verwenden Ihren Text und verwenden den gleichen Text in verschiedenen Anwendungen. Konvertieren Sie Ihre Erzählungen in verschiedene Sprachen und mehr. Wenn Sie an einem großen Textteil arbeiten, teilen Sie ihn in kleinere Segmente auf. Vor der Umwandlung in Audio konnten
Audiophile einfach miteinander verbunden werden, um Audiospuren in voller Länge zu erstellen. Der letzte Power-Tip, den ich mit Ihnen teilen möchte, ist die Verwendung von Hintergrundmusik, um den
künstlichen Vorteil von Ihren Erzählungen zu nehmen . Musik und Bilder können mit gut markierten Spracherzählungen einen kraftvollen Effekt erzeugen. In einigen Fällen kann
es schwierig sein zu erkennen, ob die Erzählung von einer menschlichen oder synthetischen Stimme gesprochen wird . Wieder einmal werde
ich George bitten, Ihnen zu zeigen, wie gut Musik, Video und synthetische Spracherzählungen zusammenarbeiten können. Hallo, ich bin George. Ich bin eine künstlich erzeugte Stimme. Sprecher. Jemand wie ich kann Unternehmen Zeit und Geld in Bereichen wie Video-Marketing sparen, von
denen jeder weiß, ist eine der leistungsfähigsten und effektivsten Möglichkeiten, Produkte und
Dienstleistungen online zu bewerben . Erreichen Sie neue Zielgruppen weltweit, etablieren Sie Ihre Marke zu informieren und zu informieren oder Interessenten über Ihr Unternehmen auf geschulte Mitarbeiter, Kunden und Kunden. Einige große Verwendungen für eine I Stimme Erzählungen umfassen Verkaufsvideos. Erklären Sie die Videos, Schulungsvideos Video-Anzeigen, Videopräsentationen ,
Podcasts ,
gesprochene Bücher, Webseiten für sehbehinderte Benutzer und so viele andere Verwendungen. Sobald Sie wissen, wie man Text in Sprache umwandelt, können
Sie Videos mit einer Audiodauer wie dieser schnell und einfach mit sehr
preiswerten Tools erstellen . Vielen Dank für das Ansehen dieses Video und haben Sie einen wunderbaren Tag getan. Ich möchte Ihnen jetzt zeigen, wie Sie Audiospuren erstellen, die sich gut mit natürlich
Zeitbildschirm-Cast Videoaufnahmen synchronisieren . Dies ist nützlich, wenn Sie planen, über die Schulter Desktop-Videos wie Bildschirm-Tutorials
und so weiter aufzunehmen . zunächst Erstellen Siezunächsteine grobe Guide-Audiospur für Ihr Video mit einer menschlichen Stimme, die Sie später durch eine gut durchdachte synthetische Sprachausgabe ersetzen. Sie dazu eine grobe Audiospur mit menschlicher Stimme auf, NehmenSie dazu eine grobe Audiospur mit menschlicher Stimme auf,um ein natürliches Zeitgefühl für Ihre
Bildschirmaufnahme zu schaffen und Inhaltsmarkierungen und allgemeine Anleitungen für die Aktionen und
Ideen festzulegen , die Sie in Ihrem Video ausdrücken möchten. Wenn Sie ein Videobearbeitungswerkzeug wie Cam Tasia verwenden, das Video- und Audiospuren
während des Bearbeitungsvorgangs trennen kann . Dann machen Sie sich keine Sorgen über die Aufnahme einer minderwertigen Audiospur mit vielen Bomben und Oz. Husten, Niesen, Schnüffeln, Hunde, bellen Verkehr, Geräusche im Hintergrund. Irrtümer
, etc. Da Sie diesen Track nicht in Ihrer endgültigen Bearbeitung verwenden, konzentrieren Sie sich
einfach auf die Aufnahme der Aktion auf Ihrem Bildschirm. Nachdem Sie die grobe Anleitung aufgenommen haben, transkribieren Sie die Audiospur und verbessern Sie Ihre Texterzählung. Schreiben Sie jeden Satz in eine separate Zeile mit Pausen zwischen den Sätzen. Der nächste Schritt besteht darin, Ihren Text in Sprache zu konvertieren. Dieser Schritt wird in einem vorherigen Trainingsmodul behandelt. als Nächstes Fügen Sieals NächstesBearbeiten hinzu und passen Sie die Audiodatei für die synthetische Sprachausgabe an die Bildschirmvideoaufnahme an. Nachdem Sie die synthetische Sprachausgabe mit Ihrem Video synchronisiert haben, schalten Sie die menschliche Sprachspur aus oder löschen Sie sie, um ein fertiges Video zu erstellen, das mit einem
natürlichen Zeitgefühl und ineffektiver,
präziser und professioneller Klang geliefert natürlichen Zeitgefühl und ineffektiver, wird. Stimme Erzählung. Hier ist eine schnelle Video-Demo, damit Sie sehen können, wie das aussieht. Also hier haben wir unsere markierte Textdatei, und wie Sie sehen können, haben
wir bereits die Öffnung auf den schließenden Speak-Tags hinzugefügt, und wir haben auch eine Reihe von anderen SML-Markup-Tags bereits in den Text eingefügt Jetzt weil Wir benutzen ah, Telefonnamen. Wie Sie hier sehen können, werden
wir Amazon verwenden. Wir müssen eine Amazon Polly Stimme anstelle von Google verwenden, weil auf dem Amazon Polly Stimmen jetzt phonetische Alphabete interpretieren können, ähm, Telefonnamen. Das ist also unser Dies ist der Textfall, den wir hochladen werden, um in Audio zu konvertieren. Also lassen Sie uns nun zu unseren Text-zu-Sprachprozessen gehen und dieses Feuer diese Textdatei in
eine Audiodatei konvertieren . Also hier haben wir unsere markierte Textdatei. Wie Sie sehen können, haben
wir die open und close speak Tags hinzugefügt und zusätzliche S SML Markup-Tags eingefügt. Da diese Textdatei Telefonnamen verwendet, müssen
wir diesen Text mithilfe der Amazon
Polly-Text-to-Speech-Engine in eine Audiodatei konvertieren , da nur Amazon Polly Telefonziele und frenetische Markup-Tags gleichzeitig interpretieren. Dies ist also die Textdatei, die wir in unser Text-zu-Sprachverarbeitungstool hochladen und in eine Audiodatei
konvertieren. Beim Erstellen von Spracherzählungen für Folienpräsentationsvideos können
Sie Folienwechselmarkierungen mit Pausen auf beiden Seiten in die Erzählung einfügen, um den Übergang
der Folie zu ermöglichen . Sie können einen Folienwechsel Marker mit gesprochenen Wörtern wie sagen, ändern, schieben oder mit Sounds wie Marker aus der Audiospur in der
Videobearbeitung gelöscht werden können , etwas anderes können Sie leicht tun Sie mit synthetischen Stimmen, um Abschnitte Ihres Audiosignals mit neuen Texterzählungen zu korrigieren. Sie dazu ErstellenSie dazueine neue Textdatei mit der Zeile oder dem Abschnitt des Textes, der repariert werden muss. Führen Sie die markierte Textdatei durch Ihren Text-zu-Sprachprozessor aus, speichern Sie sie als neue Audiodatei und ersetzen Sie den Abschnitt Ihrer Audiospur durch den neuen in Ihrer endgültigen Bearbeitung. Lassen Sie uns jetzt über die Fehlerbehebung sprechen, mit welchen Fehlern und Herausforderungen Sie bei der Verarbeitung von Text-zu-Sprachdateien
umgehen können und was zu tun ist, um Probleme
und Probleme zu lösen oder zu beheben , die zuerst auftreten. Was passiert, wenn Sie sich nicht bei Ihrem Text-zu-Sprachverarbeitungstool anmelden können? Wenn dies der Fall ist, überprüfen Sie, ob Sie die richtigen Anmeldedaten eingegeben haben Wenn das Problem dadurch nicht behoben
wird, wenden Sie sich an den Softwareentwickler. Öffnen Sie ein Ticket in ihrem Helpdesk oder setzen Sie sich mit ihrem Support-Team in Verbindung. Eines der häufigsten Probleme. Wahrscheinlich werden unsere Fehlermeldungen bei der Verarbeitung von Text-zu-Sprachdateien auftreten. Wenn dies geschieht, überprüfen Sie Ihren Text auf fehlende oder zusätzliche SML-Tags, wie z. B. falsche Öffnen oder Schließen von Tags. ähnlicher Weise Überprüfen Sie inähnlicher Weisedas Öffnen und Schließen von Tags auf fehlende Elemente wie das Öffnen oder Schließen von Klammern. Coghlans Zitat markiert etcetera. Bei den meisten Problemen überprüfen Sie Ihren Text auf Markup-Tag-Fehler. Nachdem wir diese behoben
haben, speichern wir den Upload und führen Ihre Datei erneut über den TTS-Prozessor aus. auch, Überprüfen Sieauch,ob Sie tatsächlich eine Textdatei hochgeladen haben, um das
TTS-Tool zu öffnen , wählen Sie eine Sprache und Stimme und führen Sie dann den Prozessor aus, ohne eine Textdatei hochgeladen . Eine andere Sache, die Sie überprüfen können, ist, dass Sie keine Grenzwerte überschritten haben, z. B. zu viele Zeichen oder Audio-Links in Ihrer Textdatei. Wenn nach dem Ausführen des Text-zu-Sprachprozessors Probleme auftreten,
versuchen Sie,große Textdateien in kleinere Segmente zu zerlegen. Wenn nach dem Ausführen des Text-zu-Sprachprozessors Probleme auftreten,
versuchen Sie, Konvertieren Sie diese dann in Audiodateien und überprüfen Sie Ihr resultierendes Audio, um zu sehen, ob Sie Fehler oder Textabschnitte
isolieren können , die beim Schließen Probleme verursachen könnten. Nachdem Sie diesen Kurs abgeschlossen haben, stellen Sie sicher, dass Sie die TTS-Werkzeuge herunterladen und Ressource ist PDF-Datei und Spickzettel Dokumentation . Sie sich mit den Tools vertraut, auf die Sie nirgends zugreifen können und wie Sie diese verwenden können. Beginnen Sie mit der Anwendung Ihrer neuen Fähigkeiten Wenn Sie über eine Website verfügen, erstellen Sie Erzählungen für Ihre Verkaufsvideos. Schulungsvideos, gesprochene Webseiten für Besucher. Starten Sie einen regulären Podcast. Verwandeln Sie Newsletter in Audio-Inhalte für Ihre Abonnenten, etc. Fordern Sie sich heraus. Starten Sie ein neues audio-basiertes Projekt oder erstellen Sie ein vorhandenes Werk mit
synthetischen Sprachberichten neu. Sie können auch ein Unternehmen gründen, das Kunden professionelle Text-zu-Sprachdienste anbietet. Egal, ob Sie sich für diesen Kurs entschieden haben, um Ihre Fähigkeiten zu verbessern, Ihr Geschäft
auszubauen, ein breiteres Publikum
zu erreichen oder aus irgendeinem anderen Grund. Ich hoffe, dass Sie es genossen haben, zu lernen, wie Sie Text zu Sprache verwenden, um professionell
klingende Spracherzählungen zu erstellen . Ich hoffe auch, dass dieser Kurs Ihnen gezeigt hat, dass das, was Sie mit Text zu Sprache tun können,
nur durch Ihre Vorstellungskraft begrenzt ist . Phantasie. Eine letzte Sache. Bitte bleiben Sie mit uns in Verbindung, indem Sie den hier gezeigten Link besuchen und abonnieren, um
Kursaktualisierungen,
nützliche Tipps und Informationen sowie Neuigkeiten zu den neuesten Text-to-Sprachentwicklungen zu erhalten Kursaktualisierungen, . Das bringt uns zum Ende dieses Kurses. Ich hoffe, dass das Wissen, das Sie in diesen Lektionen gewonnen haben, viele Möglichkeiten
und wunderbare neue Horizonte für Sie im Namen von mir und das gesamte ai Erzähler-Team Sie eröffnen Hier gehen wir Fühlen Sie die Liebe, die sich auf Körper vorbereitet, aber bewegen Sie sich zum Rhythmus fühlen die Liebe
21. 20 – Text-to-Speech: Hallo, ich
bin's wieder. Hier in der Ressource ist Abschnitt. Sie werden viele nützliche Informationen finden, einschließlich herunterladbarer Dateien mit Links zu allen Tools. Und Ressource ist, dass wir in diesem Kurs zusätzliche zeitsparende Tools behandelt haben und Ressource ist Audio-Transkripte mit Markup-Tags, so dass Sie lernen können, wie wir einige der Inhalte in
den Lektionen s SML-Markup-Tag-Spickzettel für Google und Amazon Polly erstellt Referenzen mit Links zu allen Recherchen durchgeführt, um diesen Kurs zu erstellen und zusätzliche Informationen, die Sie möglicherweise
nützlich finden . Bitte denken Sie daran, den untenstehenden Link zu besuchen und in Kontakt zu bleiben und
Kursaktualisierungen,
nützliche Tipps und Informationen sowie Neuigkeiten über die neuesten Text-to-Sprachentwicklungen zu erhalten Kursaktualisierungen, . Nochmals, Vielen Dank für Ihr Unternehmen und dafür, dass Sie Teil dieser spannenden Reise sind. Ich wünsche Ihnen viel Erfolg