Automatische Transkription: Selbertippen war gestern

weiß, hellgraue Buchstabend auf dumkelm Grund, zur Bebilderung des Artikels: Automatische Transkription"
Published On: 15. September 2019By

Das Spracherkennungstool Amberscript kann Audiofiles in wenigen Sekunden in geschriebenen Text umwandeln. Wir haben getestet, wie gut die automatische Transkription wirklich klappt und wie das Tool im Vergleich zur Konkurrenz abschneidet.

Zu unserer Arbeit gehört, dass wir eine ganze Menge Interviews führen. Einige werden veröffentlicht, andere dienen der Recherche. In vielen Fällen ist es hilfreich, wenn am Ende eine verschriftlichte Version des Gesprächs vorliegt. Aber der Weg dahin war bisher oft mühsam. Audiodateien abzuhören und zu transkribieren ist zähe Fleißarbeit und kostet viel Zeit – sogar mit Spezialsoftware wie zum Beispiel f4transkript. Wie gut, dass in Zeiten von Siri und Alexa automatisierte Spracherkennung kein Problem mehr ist! Wir haben uns auf die Suche nach einem Tool gemacht, das uns das Transkribieren weitgehend abnimmt, und haben vier Angebote getestet. Unser Gewinner heißt: Amberscript.

So funktioniert das Tool

Nach kostenloser Registrierung gibt es zunächst einmal eine halbstündige Transkription geschenkt, damit lässt sich ausführlich testen. Lädt man eine Audiodatei hoch, fragt Amberscript nach der Sprache und der Anzahl der Sprecher*innen. Danach geht es los. Wenige Minuten später liegt die Benachrichtigungs-E-Mail im Postfach: Das Transkript sei bereit und warte auf manuelle Überarbeitung. In unserem Test musste Amberscript Interviewschnipsel verschriftlichen, die wir aus zwei verschiedenen Telefongesprächen zusammengeschnitten hatten. Deren Text ist nun im Amberscript-Editor nachzulesen, hier lässt sich alles nachhören und korrigieren. Nach dem Editieren kann der Text in verschiedenen Formaten heruntergeladen werden, wahlweise mit oder ohne Zeitstempel und Sprecher*innen.

In unserem Test hat die automatische Erkennung der Sprecher*innen nicht an allen Stellen funktioniert. Und außer mit Punkten am (gefühlten) Satzende hält sich Amberscript nicht wirklich mit Zeichensetzung auf. Aber die Hauptaufgabe – Wörter richtig zu verstehen – meistert Amberscript besser als andere Tools. Ein Beispiel: Zu den schwierigsten Wörtern im Test gehörte „Leukämie-Zentrum“. Nur ein weiteres Tool – Speechmatics – konnte das ebenfalls korrekt identifizieren. Bei Simon says wurde daraus ein „Sehzentrum“, der kostenlose Watson IBM Speech-to-text-Service erfand in zwei verschiedenen Versionen einmal „eine Glocke mit Zentrum“, im zweiten Versuch ein „Einsatzgebiet Zentrum“.

Das kostet es

Umsonst sind gute automatische Transkriptionen nicht zu bekommen. Pro Stunde Audioaufnahme berechnet Amberscript 20 Euro, das Abo ist etwas günstiger. Aber: Eine Transkription von Hand ist definitiv teurer, wenn man die Arbeitszeit gegenrechnet.

So viel Zeit muss sein

Die Bedienung von Amberscript ist intuitiv – die Website ist übersichtlich gestaltet und Chatbot „Amber“ führt durch alle Arbeitsschritte. Um aus einer Aufnahme einen wirklich gut lesbaren, korrekten Text zu extrahieren, ist mehr Zeit nötig: Mindestens muss die Aufnahme noch einmal komplett durchgehört werden. Wer das Transkript aber nur als Gesprächsnotiz benötigt, um zum Beispiel relevante Zitate zu identifizieren und nur punktuell nachzuhören, ist mit der uneditierten Version gut bedient.

Alternative f4x Spracherkennung erscheint Mitte Oktober

In unserem Vergleichstest hat Amberscript klar am besten abgeschnitten. Aber ab dem 14. Oktober könnte das Tool Konkurrenz von dem brandneuen Dienst f4x Spracherkennung bekommen: Der Hersteller der bewährten Transkriptionssoftware f4 hat zusammen mit dem Fraunhofer Institut für Intelligente Analyse- und Informationssysteme eine eigene Spracherkennungssoftware entwickelt. Leider kommt f4x etwas zu spät für unseren Vergleich. Wir werden es aber sicher noch testen. Der Preis liegt mit 15 Euro pro Stunde deutlich unter Amberscript. Weiterer Vorteil: Die Audiodateien werden verschlüsselt und laufen nur über Server in Deutschland.

Fazit

Künstliche Intelligenz kann vieles richtig gut, aber bei der Spracherkennung hinken Computer uns Menschen (noch?) deutlich hinterher. Trotzdem lohnt es sich, die grobe Transkriptions-Fleißarbeit an Tools wie Amberscript auszulagern. Und dass anschließend für den Feinschliff wieder ein menschliches Gehirn gefragt ist, finden wir eigentlich auch ganz beruhigend.

Dieser Text entstammt unserem Newsletter „Wuff-Sendung“, in dem wir etwa sechs Mal im Jahr über Trends in der Kommunikation berichten, Tools vorstellen und Tipps geben. Wer keine Ausgabe verpassen möchte, registriert sich hier.