Logo: SSML

Wenn Sie eine Antwort an Google Assistant zurückgeben, können Sie einen Teil der Speech Synthesis Markup Language (SSML) in Ihren Antworten verwenden. Mithilfe von SSML können Sie dafür sorgen, dass die Antworten auf Ihre Unterhaltung natürlicher wie eine natürliche Sprache wirken. Das folgende Beispiel zeigt das SSML-Markup und die entsprechenden Audiodaten von Google Assistant:

Node.js

function saySSML(conv) {
  const ssml = '<speak>' +
    'Here are <say-as interpret-as="characters">SSML</say-as> samples. ' +
    'I can pause <break time="3" />. ' +
    'I can play a sound <audio src="https://www.example.com/MY_WAVE_FILE.wav">your wave file</audio>. ' +
    'I can speak in cardinals. Your position is <say-as interpret-as="cardinal">10</say-as> in line. ' +
    'Or I can speak in ordinals. You are <say-as interpret-as="ordinal">10</say-as> in line. ' +
    'Or I can even speak in digits. Your position in line is <say-as interpret-as="digits">10</say-as>. ' +
    'I can also substitute phrases, like the <sub alias="World Wide Web Consortium">W3C</sub>. ' +
    'Finally, I can speak a paragraph with two sentences. ' +
    '<p><s>This is sentence one.</s><s>This is sentence two.</s></p>' +
    '</speak>';
  conv.add(ssml);
}

JSON

{
  "expectUserResponse": true,
  "expectedInputs": [
    {
      "possibleIntents": [
        {
          "intent": "actions.intent.TEXT"
        }
      ],
      "inputPrompt": {
        "richInitialPrompt": {
          "items": [
            {
              "simpleResponse": {
                "textToSpeech": "<speak>Here are <say-as interpret-as=\"characters\">SSML</say-as> samples. I can pause <break time=\"3\" />. I can play a sound <audio src=\"https://www.example.com/MY_WAVE_FILE.wav\">your wave file</audio>. I can speak in cardinals. Your position is <say-as interpret-as=\"cardinal\">10</say-as> in line. Or I can speak in ordinals. You are <say-as interpret-as=\"ordinal\">10</say-as> in line. Or I can even speak in digits. Your position in line is <say-as interpret-as=\"digits\">10</say-as>. I can also substitute phrases, like the <sub alias=\"World Wide Web Consortium\">W3C</sub>. Finally, I can speak a paragraph with two sentences. <p><s>This is sentence one.</s><s>This is sentence two.</s></p></speak>"
              }
            }
          ]
        }
      }
    }
  ]
}

Audio

URLs in SSML

Wenn Sie eine SSML-Antwort definieren, die nur eine URL enthält, können Et-Zeichen in dieser URL aufgrund der XML-Formatierung Probleme verursachen. Damit die URL korrekt referenziert wird, ersetzen Sie Instanzen von & durch &amp;.

Selbst wenn Ihre SSML-Antwort nur eine URL enthält, benötigt Actions on Google Anzeigetext für die Antwort. Da Text im <audio>-Tag nicht von Assistant vorgelesen wird, können Sie Fülltext oder eine kurze Beschreibung in Ihr <audio>-Tag einfügen, um diese Anforderung zu erfüllen. Der Text im <audio>-Tag wird nach der Audiowiedergabe von Assistant nicht vorgelesen und erfüllt die Action on Google-Anforderung für eine Anzeigetextversion Ihrer SSML.

Hier ein Beispiel für eine problematische SSML-Antwort:

<speak>
  <audio src="https://firebasestorage.googleapis.com/v0/b/project-name.appspot.com/o/audio-file-name.ogg?alt=media&token=XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX">
  </audio>
</speak>

Im obigen Beispiel wird & nicht für eine korrekte XML-Formatierung maskiert.

Eine korrigierte Version derselben SSML-Antwort sieht so aus:

<speak>
  <audio src="https://firebasestorage.googleapis.com/v0/b/project-name.appspot.com/o/audio-file-name.ogg?alt=media&amp;token=XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX">
  text
  </audio>
</speak>

Unterstützung für SSML-Elemente

In den folgenden Abschnitten werden die SSML-Elemente und -Optionen beschrieben, die auf Ihrer Actions on Google-Plattform verwendet werden können.

<speak>

Das Stammelement der SSML-Antwort.

Weitere Informationen zum Element speak finden Sie in der W3-Spezifikation.

Beispiel

<speak>
  my SSML content
</speak>

<break>

Ein leeres Element, mit dem Pausen oder andere prosodische Abgrenzungen zwischen Wörtern gesteuert werden. Die Verwendung von <break> zwischen Tokenpaaren ist optional. Wenn dieses Element nicht zwischen Wörtern eingefügt ist, wird die Pause automatisch basierend auf dem linguistischen Kontext festgestellt.

Weitere Informationen zum Element break finden Sie in der W3-Spezifikation.

Attribute

Attribut Beschreibung
time

Legt die Länge der Pause in Sekunden oder Millisekunden fest, z. B. "3s" oder "250ms".

strength

Legt die Stärke der prosodischen Pause mit relativen Werten fest. Gültige Werte sind: "x-weak", "weak", "medium", "strong" und "x-strong". Der Wert "none" gibt an, dass keine prosodische Pause eingefügt werden soll. Sie können damit vom Prozessor generierte prosodische Pausen vermeiden. Die anderen Werte geben eine kontinuierlich nicht abnehmende (konzeptuell zunehmende) Pausenstärke zwischen Tokens an. Stärkere Abgrenzungen werden typischerweise von Pausen begleitet.

Beispiel

Das folgende Beispiel verdeutlicht, wie Sie mit dem Element <break> eine Pause zwischen Schritten einfügen:

<speak>
  Step 1, take a deep breath. <break time="200ms"/>
  Step 2, exhale.
  Step 3, take a deep breath again. <break strength="weak"/>
  Step 4, exhale.
</speak>

<say‑as>

Mit diesem Element können Sie Informationen zur Art des im Element enthaltenen Textkonstrukts angeben. Damit lässt sich auch die Detailgenauigkeit für das Rendering des enthaltenen Texts festlegen.

Das Element <say‑as> hat das erforderliche Attribut interpret-as, das die Aussprache des Werts bestimmt. Je nach dem Wert in interpret-as können Sie die optionalen Attribute format und detail verwenden.

Beispiele

Das Attribut interpret-as unterstützt die folgenden Werte:

  • currency

    Das folgende Beispiel wird als „zweiundvierzig Dollar und ein Cent“ ausgesprochen. Wenn das Attribut „language“ weggelassen wird, wird die aktuelle Sprache verwendet.

    <speak>
      <say-as interpret-as='currency' language='en-US'>$42.01</say-as>
    </speak>
        
  • telephone

    Informationen hierzu finden Sie in der W3C Working Group Note SSML 1.0 say-as-Attributwerte in der Beschreibung zu interpret-as='telephone'.

    Das folgende Beispiel wird als „eins acht null null zwei null zwei eins zwei eins zwei“ gesprochen. Wenn das Attribut „google:style“ weggelassen wird, wird Null als Buchstabe O ausgesprochen.

    Das Attribut „google:style='zero-as-zero'“ funktioniert derzeit nur in englischsprachigen Sprachen.

          <speak>
            <say-as interpret-as='telephone' google:style='zero-as-zero'>1800-202-1212</say-as>
          </speak>
        
  • verbatim oder spell-out

    Das folgende Beispiel wird Buchstabe für Buchstabe (auf Englisch) gesprochen:

    <speak>
      <say-as interpret-as="verbatim">abcdefg</say-as>
    </speak>
        
  • date

    Das Attribut format enthält eine Reihe von Zeichencodes für Datumsfelder. Die in format unterstützten Feldzeichencodes sind {y, m, d} für Jahr, Monat und Tag (des Monats). Wenn die Feldcodes für Jahr, Monat und Tag jeweils einmal angegeben sind, werden 4, 2 und 2 Ziffern erwartet. Wird ein Feldcode wiederholt, entspricht die Anzahl der erwarteten Ziffern der Anzahl der Codewiederholungen. Die Felder im Datumstext können durch Satzzeichen und/oder Leerzeichen getrennt sein.

    Das Attribut detail legt die Aussprache des Datums fest. Für detail='1' ist nur das Tagesfeld und entweder ein Monats- oder ein Jahresfeld erforderlich, wobei es trotzdem möglich ist, alle drei Felder anzugeben. Dies ist der Standard, wenn nicht alle drei Felder angegeben sind. Gesprochen wird es als "The {Ordinaltag} of {Monat}, {Jahr}".

    Das folgende Beispiel wird als "The tenth of September, nineteen sixty" gesprochen:

    <speak>
      <say-as interpret-as="date" format="yyyymmdd" detail="1">
        1960-09-10
      </say-as>
    </speak>
        

    Das folgende Beispiel wird als "The tenth of September" gesprochen:

    <speak>
      <say-as interpret-as="date" format="dm">10-9</say-as>
    </speak>
        

    Für detail='2' sind die Felder für Tag, Monat und Jahr erforderlich. Das ist der Standard, wenn alle drei Felder angegeben sind. Die gesprochene Form lautet "{Monat} {Ordinaltag}, {Jahr}".

    Das folgende Beispiel wird als "September tenth, nineteen sixty" gesprochen:

    <speak>
      <say-as interpret-as="date" format="dmy" detail="2">
        10-9-1960
      </say-as>
    </speak>
        
  • characters

    Das folgende Beispiel wird als "C A N" (Englisch) gesprochen:

    <speak>
      <say-as interpret-as="characters">can</say-as>
    </speak>
        
  • cardinal

    Das folgende Beispiel wird als "Twelve thousand three hundred forty five" (US-Englisch) oder "Twelve thousand three hundred and forty five" (UK-Englisch) gesprochen:

    <speak>
      <say-as interpret-as="cardinal">12345</say-as>
    </speak>
        
  • ordinal

    Das folgende Beispiel wird als "First" gesprochen:

    <speak>
      <say-as interpret-as="ordinal">1</say-as>
    </speak>
        
  • fraction

    Das folgende Beispiel wird als "five and a half" gesprochen:

    <speak>
      <say-as interpret-as="fraction">5+1/2</say-as>
    </speak>
        
  • expletive oder bleep

    Im folgenden Beispiel wird ein Signalton ausgegeben wie bei einer Zensierung:

    <speak>
      <say-as interpret-as="expletive">censor this</say-as>
    </speak>
        
  • unit

    Passt Einheiten an die Zahl an, wenn zwischen Singular oder Plural unterschieden wird. Das folgende Beispiel wird als "10 feet" gesprochen:

    <speak>
      <say-as interpret-as="unit">10 foot</say-as>
    </speak>
        
  • time

    Das folgende Beispiel wird als "Two thirty P.M." gesprochen:

    <speak>
      <say-as interpret-as="time" format="hms12">2:30pm</say-as>
    </speak>
        

    Das Attribut format enthält eine Reihe von Zeichencodes für Uhrzeitfelder. Die in format unterstützten Feldzeichencodes sind {h, m, s, Z, 12, 24} für Stunde, Minute (der Stunde), Sekunde (der Minute), Zeitzone und 12- oder 24-Stunden-Format. Wenn die Feldcodes für Stunde, Minute und Sekunde jeweils einmal angegeben sind, werden 1, 2 und 2 Ziffern erwartet. Wird ein Feldcode wiederholt, entspricht die Anzahl der erwarteten Ziffern der Anzahl der Codewiederholungen. Die Felder im Uhrzeittext können durch Satzzeichen und/oder Leerzeichen getrennt sein. Wenn im Format keine Stunde, Minute oder Sekunde angegeben ist oder keine übereinstimmenden Ziffern vorhanden sind, wird das Feld als Nullwert behandelt. Der Standardwert für format lautet "hms12".

    Mit dem Attribut detail steuern Sie, ob die Uhrzeit im 12- oder 24-Stunden-Format gesprochen wird. Bei Angabe von detail='1' oder wenn beim 24-Stunden-Format detail weggelassen wird, wird das 24-Stunden-Format gesprochen. Bei Angabe von detail='2' oder wenn beim 12-Stunden-Format detail weggelassen wird, wird das 12-Stunden-Format gesprochen.

Weitere Informationen zum Element say-as finden Sie in der W3-Spezifikation.

<audio>

Unterstützt das Einfügen aufgezeichneter Audiodateien und anderer Audioformate in Verbindung mit synthetisierter Sprachausgabe.

Attribute

Attribut Erforderlich Standard Werte
src Ja URI der Audiomedienquelle. Als Protokoll wird https unterstützt.
clipBegin nein 0 Eine TimeDesignation, die für den Start der Wiedergabe den Versatz ab dem Start der Audioquelle festlegt. Wenn dieser Wert größer oder gleich der tatsächlichen Dauer der Audioquelle ist, wird kein Audio eingefügt.
clipEnd nein Unendlich Eine TimeDesignation, die für das Ende der Wiedergabe den Versatz ab dem Start der Audioquelle festlegt. Wenn die tatsächliche Dauer der Audioquelle unter diesem Wert liegt, endet die Wiedergabe zu diesem Zeitpunkt. Wenn clipBegin größer oder gleich clipEnd ist, wird kein Audio eingefügt.
speed Nein 100 % Das Verhältnis zwischen Wiedergabegeschwindigkeit der Ausgabe und normaler Eingabegeschwindigkeit als Prozentwert. Das Format ist eine positive reelle Zahl gefolgt von "%". Aktuell wird der Bereich [50% (langsam – halbe Geschwindigkeit), 200% (schnell – doppelte Geschwindigkeit)] unterstützt. Wenn Werte außerhalb dieses Bereichs angegeben werden, kann es eventuell sein, dass sie zu Werten innerhalb des Bereichs abgeändert werden.
repeatCount nein 1; oder wenn repeatDur festgelegt ist: 10 Eine reelle Zahl, die angibt, wie oft die Audioinhalte eingefügt werden, gegebenenfalls nach Zuschneiden mit clipBegin und/oder clipEnd. Teilwiederholungen werden nicht unterstützt, weshalb der Wert auf die nächste Ganzzahl gerundet wird. Null ist kein gültiger Wert und wird daher als nicht angegeben behandelt. Stattdessen wird dann der Standardwert verwendet.
repeatDur nein Unendlich Eine TimeDesignation, die als Begrenzung der Dauer der eingefügten Audiowiedergabe dient, nachdem die Attribute clipBegin, clipEnd, repeatCount und speed auf die Quelle angewendet wurden (anstelle der normalen Wiedergabedauer). Wenn die Dauer der bearbeiteten Audiowiedergabe unter diesem Wert liegt, endet die Wiedergabe zu diesem Zeitpunkt.
soundLevel Nein +0dB Hiermit passen Sie die Lautstärke der Audiowiedergabe an. soundLevel gibt den Wert in Dezibel an. Der maximale Bereich ist +/-40dB, wobei der tatsächliche Bereich geringer sein kann. Auch die Ausgabequalität kann innerhalb des Bereichs schwanken.

Die folgenden Einstellungen werden derzeit für die Audiowiedergabe unterstützt:

  • Format: MP3 (MPEG v2)
    • 24.000 Samples pro Sekunde
    • 24.000~96.000 Bit pro Sekunde, feste Abtastrate
  • Format: Opus in Ogg
    • 24.000 Samples pro Sekunde (Super-Breitband)
    • 24.000–96.000 Bit pro Sekunde, feste Abtastrate
  • Format (eingestellt): WAV (RIFF)
    • PCM 16-Bit mit Vorzeichen, Little Endian
    • 24.000 Samples pro Sekunde
  • Für alle Formate:
    • Einzelner Kanal bevorzugt, Stereo aber akzeptabel
    • Maximale Dauer: 240 Sekunden, für längere Audiowiedergaben gegebenenfalls Medienantworten implementieren
    • Maximale Dateigröße: 5 MB
    • Quell-URL muss HTTPS-Protokoll verwenden
    • Unser User-Agent beim Abrufen der Audiowiedergabe: "Google-Speech-Actions"

Der Inhalt des Elements <audio> ist optional und wird verwendet, wenn die Audiodatei nicht wiedergegeben werden kann, oder das Ausgabegerät kein Audio unterstützt. Wenn im Inhalt das Element <desc> vorkommt, wird für die Anzeige der Textinhalt dieses Elements verwendet. Weitere Informationen finden Sie in der Checkliste für Antworten im Abschnitt über aufgezeichnete Audioinhalte.

Die URL src muss ebenfalls eine HTTPS-URL sein. In Google Cloud Storage können Ihre Audiodateien unter einer HTTPS-URL gehostet werden.

Weitere Informationen zu Medienantworten finden Sie im Leitfaden für Antworten im Abschnitt zu Medienantworten.

Weitere Informationen zum Element audio finden Sie in der W3-Spezifikation.

Beispiel

<speak>
  <audio src="cat_purr_close.ogg">
    <desc>a cat purring</desc>
    PURR (sound didn't load)
  </audio>
</speak>

<p>,<s>

Satz- und Absatzelemente.

Weitere Informationen zu den Elementen p und s finden Sie in der W3-Spezifikation.

Beispiel

<p><s>This is sentence one.</s><s>This is sentence two.</s></p>

Best Practices

  • Verwenden Sie <s>...</s>-Tags, um ganze Sätze einzuschließen. Das gilt vor allem, wenn sie SSML-Elemente enthalten, welche die Prosodie ändern, also <audio>, <break>, <emphasis>, <par>, <prosody>, <say-as>, <seq> und <sub>.
  • Wenn eine Sprachunterbrechung so lang sein soll, dass Sie diese hören können, verwenden Sie <s>...</s>-Tags und fügen Sie die entsprechende Pause zwischen den Sätzen ein.

<sub>

Gibt an, dass der enthaltene Text bei Aussprache durch den Text im Attributwert "alias" ersetzt wird.

Sie können mit dem Element sub auch eine vereinfachte Aussprache eines schwer lesbaren Worts angeben. Im letzten Beispiel unten wird das anhand eines japanischen Texts gezeigt:

Weitere Informationen zum Element sub finden Sie in der W3-Spezifikation.

Beispiele

<sub alias="World Wide Web Consortium">W3C</sub>
<sub alias="にっぽんばし">日本橋</sub>

<mark>

Ein leeres Element, das eine Markierung in die Text- oder Tag-Sequenz einfügt. Die Markierung kann dazu verwendet werden, auf eine bestimmte Position in der Sequenz zu verweisen oder eine Markierung für asynchrone Benachrichtigungen in einen Ausgabestream einzufügen.

Weitere Informationen zum Element mark finden Sie in der W3-Spezifikation.

Beispiel

<speak>
Go from <mark name="here"/> here, to <mark name="there"/> there!
</speak>

<prosody>

Hiermit werden die Tonhöhe, die Sprechgeschwindigkeit und die Lautstärke für den Text im Element angepasst. Unterstützt werden derzeit die Attribute rate, pitch und volume.

Die Attribute rate und volume können gemäß den W3-Spezifikationen festgelegt werden. Den Wert des Attributs pitch können Sie auf drei Arten angeben:

Attribut Beschreibung
name

Die String-ID für jede Markierung.

Option Beschreibung
Relativ Geben Sie einen relativen Wert an (z. B. "low", "medium", "high" usw.), wobei "medium" die Standardtonhöhe ist.
Halbtöne Erhöhen oder verringern Sie die Tonhöhe um "N" Halbtöne mit "+Nst" oder "-Nst". Die Angabe von "+/-" und "st" ist erforderlich.
Prozentsatz Erhöhen oder verringern Sie die Tonhöhe um "N" Prozent mit "+N%" oder "-N%". Die Angabe von "%" ist erforderlich, "+/-" ist optional.

Weitere Informationen zum Element prosody finden Sie in der W3-Spezifikation.

Beispiel

Im folgenden Beispiel wird mit dem Element <prosody> die Sprechgeschwindigkeit verlangsamt und die Sprache zwei Halbtöne tiefer als normal ausgegeben:

<prosody rate="slow" pitch="-2st">Can you hear me now?</prosody>

<emphasis>

Hiermit wird der Text des Elements betont oder die Betonung entfernt. Mit dem Element <emphasis> ändern Sie die Sprache ähnlich wie mit <prosody>, ohne jedoch einzelne Sprachattribute festlegen zu müssen.

Dieses Element unterstützt das optionale Attribut "level" mit den folgenden gültigen Werten:

  • strong
  • moderate
  • none
  • reduced

Weitere Informationen zum Element emphasis finden Sie in der W3-Spezifikation.

Beispiel

Im folgenden Beispiel wird der Text durch das Element <emphasis> als Ankündigung gesprochen:

<emphasis level="moderate">This is an important announcement</emphasis>

<par>

Ein paralleler Mediencontainer, mit dem Sie mehrere Medienelemente gleichzeitig wiedergeben können. Als Inhalt sind nur ein oder mehrere der Elemente <par>, <seq> und <media> zulässig. Elemente vom Typ <media> können in beliebiger Reihenfolge angeordnet sein.

Sofern nicht durch ein untergeordnetes Element eine andere Startzeit angegeben wird, entspricht die implizite Startzeit des Elements der Startzeit des Containers <par>. Wenn für das Attribut begin oder end eines untergeordneten Elements ein Versatzwert angegeben ist, wird der Start des Elements relativ zur Startzeit des Containers <par> verschoben. Das Attribut "begin" des Stammelements <par> wird ignoriert. Der Start erfolgt mit Beginn der Ausgabe des SSML-Sprachsyntheseprozesses für das Stammelement <par>, d. h. effektiv zum Zeitpunkt "null".

Beispiel

<speak>
  <par>
    <media xml:id="question" begin="0.5s">
      <speak>Who invented the Internet?</speak>
    </media>
    <media xml:id="answer" begin="question.end+2.0s">
      <speak>The Internet was invented by cats.</speak>
    </media>
    <media begin="answer.end-0.2s" soundLevel="-6dB">
      <audio
        src="https://actions.google.com/.../cartoon_boing.ogg"/>
    </media>
    <media repeatCount="3" soundLevel="+2.28dB"
      fadeInDur="2s" fadeOutDur="0.2s">
      <audio
        src="https://actions.google.com/.../cat_purr_close.ogg"/>
    </media>
  </par>
</speak>

<seq>

Ein sequenzieller Mediencontainer, mit dem Sie Medienelemente nacheinander wiedergeben können. Als Inhalt sind nur ein oder mehrere der Elemente <seq>, <par> und <media> zulässig. Die Medienelemente werden in der Rendering-Reihenfolge angegeben.

Für die Attribute begin und end untergeordneter Elemente können Versatzwerte festgelegt werden. Weitere Informationen erhalten Sie nachfolgend unter Zeitangabe. Die Versatzwerte dieser untergeordneten Elemente gelten relativ zum Ende des vorherigen Elements in der Sequenz oder relativ zum Beginn des Containers <seq>, wenn es sich um das erste Element handelt.

Beispiel

<speak>
  <seq>
    <media begin="0.5s">
      <speak>Who invented the Internet?</speak>
    </media>
    <media begin="2.0s">
      <speak>The Internet was invented by cats.</speak>
    </media>
    <media soundLevel="-6dB">
      <audio
        src="https://actions.google.com/.../cartoon_boing.ogg"/>
    </media>
    <media repeatCount="3" soundLevel="+2.28dB"
      fadeInDur="2s" fadeOutDur="0.2s">
      <audio
        src="https://actions.google.com/.../cat_purr_close.ogg"/>
    </media>
  </seq>
</speak>

<media>

Steht für eine Medienebene innerhalb des Elements <par> oder <seq>. Als Inhalt für das Element <media> ist ein SSML-Element <speak> oder <audio> zulässig. In der folgenden Tabelle werden die für das Element <media> gültigen Attribute beschrieben.

Attribute

Attribut Erforderlich Standard Werte
xml:id Nein Eine eindeutige XML-Kennzeichnung für dieses Element. Codierte Entitäten werden nicht unterstützt. Die erlaubten Kennzeichnungswerte entsprechen dem regulären Ausdruck "([-_#]|\p{L}|\p{D})+". Weitere Informationen finden Sie in der Referenz zu "xml:id".
begin Nein 0 Die Startzeit des Mediencontainers. Wird ignoriert, wenn dies das Stammelement des Mediencontainers ist, das wie der Standardwert "0" behandelt wird. Gültige Stringwerte sind unten im Abschnitt Zeitangabe aufgeführt.
end Nein Die Endzeit des Mediencontainers. Gültige Stringwerte sind unten im Abschnitt Zeitangabe aufgeführt.
repeatCount Nein 1 Eine reelle Zahl, die angibt, wie oft das Medium eingefügt wird. Teilwiederholungen werden nicht unterstützt, weshalb der Wert auf die nächste Ganzzahl gerundet wird. Null ist kein gültiger Wert und wird daher als nicht angegeben behandelt. Stattdessen wird dann der Standardwert verwendet.
repeatDur nein Eine TimeDesignation, welche die Dauer des eingefügten Mediums begrenzt. Wenn die Dauer des Mediums unter diesem Wert liegt, endet die Wiedergabe zu diesem Zeitpunkt.
soundLevel Nein +0dB Hiermit passen Sie die Lautstärke der Audiowiedergabe an. soundLevel gibt den Wert in Dezibel an. Der maximale Bereich ist +/-40dB, wobei der tatsächliche Bereich geringer sein kann. Auch die Ausgabequalität kann innerhalb des Bereichs schwanken.
fadeInDur nein 0s Eine TimeDesignation für das Einblenden des Mediums von lautlos bis zum optional angegebenen soundLevel. Wenn die Dauer des Mediums unter diesem Wert liegt, stoppt das Einblenden am Ende der Wiedergabe und der Ton erreicht nicht die angegebene Lautstärke.
fadeOutDur nein 0s Eine TimeDesignation für das Ausblenden des Mediums vom optional angegebenen soundLevel bis zu lautlos. Wenn die Dauer des Mediums unter diesem Wert liegt, wird die Lautstärke auf einen niedrigeren Wert gesetzt, um sicherzustellen, dass die Stummschaltung am Ende der Wiedergabe erreicht wird.

Zeitangabe

Eine Zeitangabe, die für die Attributwerte "begin" und "end" des Elements <media> und der Mediencontainer (Elemente <par> und <seq>) verwendet wird, ist entweder ein Versatzwert (z. B. +2.5s) oder ein Syncbase-Wert (z. B. foo_id.end-250ms).

  • Versatzwert: Der Zeitversatzwert ist ein SMIL-Timecount-Wert. Zulässige Werte müssen dem folgenden regulären Ausdruck entsprechen: "\s\*(+|-)?\s\*(\d+)(\.\d+)?(h|min|s|ms)?\s\*"

    Der erste Ziffernstring ist der ganze Teil der Dezimalzahl und der zweite Ziffernstring der Dezimalbruchteil. Das Standardvorzeichen (d. h. "(+|-)?") ist "+". Die Einheitenwerte entsprechen Stunden, Minuten, Sekunden bzw. Millisekunden. Der Standardwert für die Einheiten ist "s" (Sekunden).

  • Syncbase-Wert: Ein Syncbase-Wert ist ein SMIL-Syncbase-Wert, bei dem Werte zulässig sind, die dem folgenden regulären Ausdruck entsprechen: "([-_#]|\p{L}|\p{D})+\.(begin|end)\s\*(+|-)\s\*(\d+)(\.\d+)?(h|min|s|ms)?\s\*".

    Die Ziffern und Einheiten werden so wie Versatzwerte interpretiert.

Sprachausgabe-Simulator

Die Actions Console enthält einen TTS-Simulator, mit dem Sie SSML mit einem der oben genannten Elemente testen können. Sie finden den TTS-Simulator in der Konsole unter Simulator > Audio. Geben Sie Ihren Text und SSML in den Simulator ein und klicken Sie auf Aktualisieren und anhören, um die Sprachausgabe zu hören.

Du kannst auch auf die Schaltfläche „Herunterladen“ klicken, um eine .mp3-Datei deiner Sprachausgabe zu speichern.