Hand schreibt etwas in ein Notiz-Buch, Hintergrund Naturkulisse – Visualisierung für den Wegweiser zu Vorschriften der Barrierefreiheit bei der Transkription von Audio und Video

Transkription für Video- und Audio-Inhalte: Vorschriften der Barrierefreiheit und praktische Tipps

Transkripte sind textbasierte Dokumente, die als Alternative zu Videos oder Audio-Inhalten angeboten werden. Ähnlich wie Untertitel beinhalten solche „Abschriften“ nicht nur das gesprochene Wort, sondern auch die Beschreibung wichtiger Geräusche, Musik und rein visuell vermittelten Eindrücken und Aktionen. Also alles, was das Verständnis des Mediums bzw. seines Inhalts wichtig ist.

Ziel eines Transkripts ist es, auditive und visuelle Inhalte für Menschen mit Einschränkungen erlebbar zu machen: Gehörlose oder Schwerhörige profitieren von der Transkription eines Podcasts – ebenso wie Taubblinde. Für letztere ist eine textliche Abschrift das einzige Mittel, um Zugang zu Audio- und Video-Inhalten zu erhalten. Denn Texte lassen sich via Braille-Tastatur auslesen und per Tastsinn erschließen.

Deshalb ist es bei der Erstellung solcher Text-Dokumente wichtig, diese Zielgruppe im Hinterkopf zu haben. Sie profitiert von der Transkription nicht nur bei reinen Audio-Inhalten, sondern auch bei Bewegtbild ohne Tonspur.

Weitere Vorteile eines Transkripts

  • Konsum von Audio- und Video-Inhalten nach eigenem Tempo
  • Nutzung der bequemen Browser-Suche und ggf. Sprung vom Transkript zur passenden Stelle (wenn Transkript mit Multimedia-Inhalten verlinkt ist)
  • Kopieren von Text-Passagen
  • Bessere Lesbarkeit des Inhalts für Suchmaschinen

Ein Transkript ist eine Mischung aus Untertiteln und Audio-Deskription.

Deshalb MUSS eine Video- bzw. Audio-Abschrift folgende Elemente enthalten:

  • Dialoge und Sprechertexte – und zwar im Wortlaut, wenn sie auf einem Drehbuch basieren. Nicht beabsichtigte „Ähms“, „Achs“ und „Uffs“ können ansonsten entfallen. Auch eine Vereinfachung oder Verkürzung von Sätzen ist möglich (zum Beispiel bei Tutorials), aber eben nicht bei Audio-Informationen aus dem Drehbuch.
  • Hintergrund-Geräusche (wenn sie wichtig für das Verständnis oder die Dramaturgie sind)
  • Text-Passagen aus einem Musikstück (wenn sie eine zentrale inhaltliche Bedeutung besitzen)
  • Stimmen aus dem Off (und zwar nicht mit Kursiv-Schrift gekennzeichnet, sondern via textlichem Hinweis in Klammern vor dem gesprochenen Text)
  • Identifikation der sprechenden Personen – wenn nicht offensichtlich (Sind die Namen der Protagonisten als Untertitel eingeblendet, müssen diese in der Abschrift ebenso erwähnt werden. Beispiel: Interview-Aussagen mehrerer Personen hintereinander geschnitten)
  • Verbale Beschreibungen von Info-Grafiken und eingeblendeten Texten (vollständige Information wiedergeben)
  • Nonverbale Kommunikation und Hinweise auf die Aussprache: Grimassen, Mimik, aber auch Lachen, Weinen
  • Erscheinungsbild von Personen (Kleidung, Alter, Haarfarbe) sowie Charakteristik einer Landschaft, eines Raumes

Folgende Elemente SOLLTEN in einem Transkript enthalten sein:

  • Relevante Musik-Stücke mit Titel und Interpret (nicht bei banaler Hintergrund-Musik)
  • Informationen zu dramaturgisch eingesetzter Musik: zum Beispiel „dramatische klassische Musik“ bei einer spannenden Szene; „laute Rockmusik“, die aus einem Radio tönt
  • Etwaige Herkunft der Musik: eine Person, die eine Melodie summt; eine Band, die spielt; Bespiel in Kombination mit obiger Anforderung: „(Band spielt Rockmusik)“
  • Text-Passagen aus Liedern, wenn inhaltlich von Bedeutung (verbal gekennzeichnet, dass es sich um einen Liedtext handelt)
  • Hinweise zur Aussprache: Flüstern, Singen, ein verzweifelter Schrei, eine weinerliche Stimme (Kriterium: inhaltliche Relevanz)
  • Erläuterungen zur Verständlichkeit von Dialog/Sprache: „(kaum hörbar)“, „(undeutlich)“
  • Text-Übersetzungen – zum Beispiel, wenn in einem Film in einer anderen Sprache gesprochen wird und die Übersetzung im Untertitel steht (Ob dann der Text in der Ursprungssprache auch wörtlich drin stehen muss – Ermessenssache, finde ich.)
  • Besondere Kamera-Einstellungen (kein banaler Zoom, aber eine kunstvolle Drohnenfahrt durchaus)

Einzelheiten und Beispiele zu den Anforderungen finden Sie in meinen Beiträgen zu Audio-Deskription und Video-Untertiteln.

Zeichensetzung in der Transkription

Eine korrekte Zeichensetzung innerhalb der Abschrift ist wichtig. Auch, um Betonungen zum Ausdruck zu bringen. Ein Fragezeichen kennzeichnet eine Frage. Schreit jemand, ist ein Ausrufezeichen angesagt. Dagegen ist ein „verzweifelter Schrei“ mehr, als dieses Satzzeichen zum Ausdruck bringen kann. Eine entsprechende verbale Beschreibung sollten Sie in Klammern aufführen.

Weitere sinnvolle Zeichen:

  • Gedankenstrich und Fortsetzung in neuer Zeile, um eine Unterbrechung des Dialogs/der Aussage zu transportieren
  • Drei Punkte, um eine bewusste Pause zu kennzeichnen
  • Frage- und Ausrufezeichen hintereinander, um eine ungläubige (Nach-)Frage zum Ausdruck zu bringen
  • Drei Gedankenstriche hintereinander, wenn ein Wort ausgeblendet werden soll, das im Video mit einem „Beep“ übertönt wird (aus Gründen der Dramaturgie oder Altersbeschränkung)

Hierbei handelt es sich um SOLL-Anforderungen im Sinne der WCAG.

Was darf nicht im Transkript stehen?

Auch im Transkript sind „Spoiler“ verboten, das bedeutet: Eine im Drehbuch absichtlich zurückgehaltene Information (wer ist der Unbekannte, der sich nähert), darf auch in der Abschrift nicht vorab aufgelöst werden. Der Audio- und/oder Video-Inhalt ist die Vorlage, an der wir uns orientieren.
 

Die Abschrift eines Multimedia-Beitrags kann an folgenden Stellen eingebunden werden:

  • auf der Seite des Mediums, am besten unmittelbar darunter oder daneben,
  • auf einer separaten Seite, die von der Seite des Audio-/Video-Inhalts verlinkt ist,
  • in einem Pop-up bzw. -Layer (der ebenfalls verlinkt ist) oder
  • in einem Text-Dokument (PDF, Word-Datei, Text-Datei).

Interaktive Transkripte

Einige barrierefreie Video- bzw. Audio-Player bieten interaktive Abschriften an, zum Teil in mehreren Sprachen. Die folgenden Beispiele sind absolut vorbildlich:

Screenshot tec.com: Video mit Titel und Kurzbeschreibung links, daneben das Transkript mit Zeitangaben und einer Sprachauswahl darüber (Auswahl: Deutsch)
Im Video-Player von ted.com ist die in mehreren Sprachen verfügbare Transkription interaktiv gestaltet. Mit Klick auf die Zeitangaben oder einzelne Sätze im Text springt das Video zur entsprechenden Stelle. Des Weiteren wird der gerade gesprochene Text im Transkript gelb hinterlegt, was die Orientierung fördert.
Screenshot Able Player: Transkript mit hervorgehobener texlicher Beschreibung der gerade sprechenden Person – mobile Ansicht mit Transkript unter Player
Der Able Player beinhaltet ebenso ein interaktives Transkript. Man kann sogar die Größe des Fensters mit der Text-Information anpassen (in der Desktop-Version). Der Video-Player ist als Open-Source-Lösung verfügbar.

Die mittlere Konformitätsstufe AA der WCAG entspricht den Anforderungen der BITV 2.0. Deshalb ist die BITV in der folgenden Übersichtstabelle nicht zusätzlich erwähnt.

Empfehlungen sind Soll-Anforderungen, Optionen sind Kann-Anforderungen im Sinne der WCAG.

Anforderungen Barrierefreiheit für Transkription abhängig vom Medium
MediumVorgaben zur Transkription
Video mit Ton

A: Empfehlung

AA: Empfehlung

AAA: Pflicht

Video ohne Ton

A: Pflicht, wenn keine Audio-Deskription vorhanden

AA: Empfehlung

AAA: Pflicht

Audio Podcast

A: Pflicht

AA: Pflicht

AAA: Pflicht

Live-Video mit Tonnicht anwendbar
Live-Video ohne Ton

A: Option

AA: Option

AAA: Pflicht

Live-Audio

A: Option

AA: Option

AAA: Pflicht, wenn keine Untertitel vorhanden

Wie bei den Untertiteln erleichtert die künstliche Intelligenz die Erstellung einer Abschrift. Um die Anforderungen der Barrierefreiheit zu erfüllen, ist eine manuelle Nachbearbeitung unerlässlich. 

Das liegt daran, dass die Sprach-Erkennung zwar das gesprochene Wort immer besser erkennt, aber die nonverbalen Inhalte nicht aus der Bild-Information extrahieren kann: relevante Mimiken, Geräusche, Beschreibungen einer äußeren Erscheinung usw.

Screenshot: Auswahl der Qualitätsstufe für eine Transkription bei Amberscript – rein maschinell mit 85 % Genauigkeit zu 0,25 Euro pro Minute, von Sprach-Experten mit 99 % Genauigkeit zu 2,25 Euro pro Minute.
Professionelle Services wie Amberscript bieten rein maschinelle oder menschlich unterstützte Transkription an – logischerweise mit großen Preisunterschieden. Wer in Sachen Transkription barrierefrei agieren möchte, muss trotz steigender Fähigkeiten der KI selbst Hand anlegen – oder tiefer in die Tasche greifen.
Markus Wierl Porträtfoto
Markus Wierl
Fehler beim Mailversand.
Bitte probieren Sie es in 2 Minuten wieder.
Vielen Dank für Ihre Anfrage, ich melde mich binnen 24h zurück.
Anrede
Bitte korrigieren bzw. ergänzen Sie Ihre Angabe.
Bitte korrigieren bzw. ergänzen Sie Ihre Angabe: Ziffern sind nicht erlaubt.
Bitte korrigieren bzw. ergänzen Sie Ihre Angabe.
Bitte korrigieren bzw. ergänzen Sie Ihre Angabe: Gültige E-Mail-Adresse eingeben.
Bitte überprüfen Sie Ihre Angabe!