Transkription für Video- und Audio-Inhalte: Vorschriften der Barrierefreiheit und praktische Tipps
Transkripte sind textbasierte Dokumente, die als Alternative zu Videos oder Audio-Inhalten angeboten werden. Ähnlich wie Untertitel beinhalten solche „Abschriften“ nicht nur das gesprochene Wort, sondern auch die Beschreibung wichtiger Geräusche, Musik und rein visuell vermittelten Eindrücken und Aktionen. Also alles, was das Verständnis des Mediums bzw. seines Inhalts wichtig ist.
Ziele und Vorteile eines Transkripts
Ziel eines Transkripts ist es, auditive und visuelle Inhalte für Menschen mit Einschränkungen erlebbar zu machen: Gehörlose oder Schwerhörige profitieren von der Transkription eines Podcasts – ebenso wie Taubblinde. Für letztere ist eine textliche Abschrift das einzige Mittel, um Zugang zu Audio- und Video-Inhalten zu erhalten. Denn Texte lassen sich via Braille-Tastatur auslesen und per Tastsinn erschließen.
Deshalb ist es bei der Erstellung solcher Text-Dokumente wichtig, diese Zielgruppe im Hinterkopf zu haben. Sie profitiert von der Transkription nicht nur bei reinen Audio-Inhalten, sondern auch bei Bewegtbild ohne Tonspur.
Weitere Vorteile eines Transkripts
- Konsum von Audio- und Video-Inhalten nach eigenem Tempo
- Nutzung der bequemen Browser-Suche und ggf. Sprung vom Transkript zur passenden Stelle (wenn Transkript mit Multimedia-Inhalten verlinkt ist)
- Kopieren von Text-Passagen
- Bessere Lesbarkeit des Inhalts für Suchmaschinen
Anforderungen an eine Transkription
Ein Transkript ist eine Mischung aus Untertiteln und Audio-Deskription.
Deshalb MUSS eine Video- bzw. Audio-Abschrift folgende Elemente enthalten:
- Dialoge und Sprechertexte – und zwar im Wortlaut, wenn sie auf einem Drehbuch basieren. Nicht beabsichtigte „Ähms“, „Achs“ und „Uffs“ können ansonsten entfallen. Auch eine Vereinfachung oder Verkürzung von Sätzen ist möglich (zum Beispiel bei Tutorials), aber eben nicht bei Audio-Informationen aus dem Drehbuch.
- Hintergrund-Geräusche (wenn sie wichtig für das Verständnis oder die Dramaturgie sind)
- Text-Passagen aus einem Musikstück (wenn sie eine zentrale inhaltliche Bedeutung besitzen)
- Stimmen aus dem Off (und zwar nicht mit Kursiv-Schrift gekennzeichnet, sondern via textlichem Hinweis in Klammern vor dem gesprochenen Text)
- Identifikation der sprechenden Personen – wenn nicht offensichtlich (Sind die Namen der Protagonisten als Untertitel eingeblendet, müssen diese in der Abschrift ebenso erwähnt werden. Beispiel: Interview-Aussagen mehrerer Personen hintereinander geschnitten)
- Verbale Beschreibungen von Info-Grafiken und eingeblendeten Texten (vollständige Information wiedergeben)
- Nonverbale Kommunikation und Hinweise auf die Aussprache: Grimassen, Mimik, aber auch Lachen, Weinen
- Erscheinungsbild von Personen (Kleidung, Alter, Haarfarbe) sowie Charakteristik einer Landschaft, eines Raumes
Folgende Elemente SOLLTEN in einem Transkript enthalten sein:
- Relevante Musik-Stücke mit Titel und Interpret (nicht bei banaler Hintergrund-Musik)
- Informationen zu dramaturgisch eingesetzter Musik: zum Beispiel „dramatische klassische Musik“ bei einer spannenden Szene; „laute Rockmusik“, die aus einem Radio tönt
- Etwaige Herkunft der Musik: eine Person, die eine Melodie summt; eine Band, die spielt; Bespiel in Kombination mit obiger Anforderung: „(Band spielt Rockmusik)“
- Text-Passagen aus Liedern, wenn inhaltlich von Bedeutung (verbal gekennzeichnet, dass es sich um einen Liedtext handelt)
- Hinweise zur Aussprache: Flüstern, Singen, ein verzweifelter Schrei, eine weinerliche Stimme (Kriterium: inhaltliche Relevanz)
- Erläuterungen zur Verständlichkeit von Dialog/Sprache: „(kaum hörbar)“, „(undeutlich)“
- Text-Übersetzungen – zum Beispiel, wenn in einem Film in einer anderen Sprache gesprochen wird und die Übersetzung im Untertitel steht (Ob dann der Text in der Ursprungssprache auch wörtlich drin stehen muss – Ermessenssache, finde ich.)
- Besondere Kamera-Einstellungen (kein banaler Zoom, aber eine kunstvolle Drohnenfahrt durchaus)
Einzelheiten und Beispiele zu den Anforderungen finden Sie in meinen Beiträgen zu Audio-Deskription und Video-Untertiteln.
Zeichensetzung in der Transkription
Eine korrekte Zeichensetzung innerhalb der Abschrift ist wichtig. Auch, um Betonungen zum Ausdruck zu bringen. Ein Fragezeichen kennzeichnet eine Frage. Schreit jemand, ist ein Ausrufezeichen angesagt. Dagegen ist ein „verzweifelter Schrei“ mehr, als dieses Satzzeichen zum Ausdruck bringen kann. Eine entsprechende verbale Beschreibung sollten Sie in Klammern aufführen.
Weitere sinnvolle Zeichen:
- Gedankenstrich und Fortsetzung in neuer Zeile, um eine Unterbrechung des Dialogs/der Aussage zu transportieren
- Drei Punkte, um eine bewusste Pause zu kennzeichnen
- Frage- und Ausrufezeichen hintereinander, um eine ungläubige (Nach-)Frage zum Ausdruck zu bringen
- Drei Gedankenstriche hintereinander, wenn ein Wort ausgeblendet werden soll, das im Video mit einem „Beep“ übertönt wird (aus Gründen der Dramaturgie oder Altersbeschränkung)
Hierbei handelt es sich um SOLL-Anforderungen im Sinne der WCAG.
Was darf nicht im Transkript stehen?
Auch im Transkript sind „Spoiler“ verboten, das bedeutet: Eine im Drehbuch absichtlich zurückgehaltene Information (wer ist der Unbekannte, der sich nähert), darf auch in der Abschrift nicht vorab aufgelöst werden. Der Audio- und/oder Video-Inhalt ist die Vorlage, an der wir uns orientieren.
Wo wird eine Transkription eingebunden?
Die Abschrift eines Multimedia-Beitrags kann an folgenden Stellen eingebunden werden:
- auf der Seite des Mediums, am besten unmittelbar darunter oder daneben,
- auf einer separaten Seite, die von der Seite des Audio-/Video-Inhalts verlinkt ist,
- in einem Pop-up bzw. -Layer (der ebenfalls verlinkt ist) oder
- in einem Text-Dokument (PDF, Word-Datei, Text-Datei).
Interaktive Transkripte
Einige barrierefreie Video- bzw. Audio-Player bieten interaktive Abschriften an, zum Teil in mehreren Sprachen. Die folgenden Beispiele sind absolut vorbildlich:
BITV- und WCAG: Wo ist eine Transkription Pflicht?
Die mittlere Konformitätsstufe AA der WCAG entspricht den Anforderungen der BITV 2.0. Deshalb ist die BITV in der folgenden Übersichtstabelle nicht zusätzlich erwähnt.
Empfehlungen sind Soll-Anforderungen, Optionen sind Kann-Anforderungen im Sinne der WCAG.
Medium | Vorgaben zur Transkription |
---|---|
Video mit Ton | A: Empfehlung AA: Empfehlung AAA: Pflicht |
Video ohne Ton | A: Pflicht, wenn keine Audio-Deskription vorhanden AA: Empfehlung AAA: Pflicht |
Audio Podcast | A: Pflicht AA: Pflicht AAA: Pflicht |
Live-Video mit Ton | nicht anwendbar |
Live-Video ohne Ton | A: Option AA: Option AAA: Pflicht |
Live-Audio | A: Option AA: Option AAA: Pflicht, wenn keine Untertitel vorhanden |
Automatische Erstellung von Abschriften via künstlicher Intelligenz
Wie bei den Untertiteln erleichtert die künstliche Intelligenz die Erstellung einer Abschrift. Um die Anforderungen der Barrierefreiheit zu erfüllen, ist eine manuelle Nachbearbeitung unerlässlich.
Das liegt daran, dass die Sprach-Erkennung zwar das gesprochene Wort immer besser erkennt, aber die nonverbalen Inhalte nicht aus der Bild-Information extrahieren kann: relevante Mimiken, Geräusche, Beschreibungen einer äußeren Erscheinung usw.