Rasend schnell erstellt, viel biliger als händische Transkription, Genauigkeitsquote bis zu 95 %. Schreibbüros wie ich verfallen in Schnappatmung und bangen um ihre Existenz. Begründet? Gerne hätte ich die Leistungsfähigkeit der KI-Tools getestet, aber Interviewmaterial meiner Kundschaft kann ich aufgrund des Datenschutzes und meiner Verschwiegenheitspflicht natürlich nicht an ein KI-Transkriptionsbüro weitergeben!
Dankenswerterweise hat eine meiner langjährigsten Kundinnen, die Dokumentarfilmerin, Journalistin und Autorin Katarina Schickling (--> Mein Konsumkompass) ihre jüngste (wiederum unbefriedigende) Erfahrung mit KI-Transkription geteilt und mir gestattet, Auszüge aus einem KI-Transkript ihres neues Buchprojekts vorzustellen. Das Transkript wurde mittels eines durchaus gelobten KI-Tools eines Smartphones (von einem der Platzhirsche auf dem Markt) erstellt. Rahmenbedingungen: 2 Sprecher, keine Hintergrundgeräusche, hochdeutsch.
Die Transkription der Interviews erfolgte denn doch durch mich, weil die KI-Werke schlicht unbrauchbar waren. Dass plötzlich ein dritter Sprecher "erfunden" wurde, mal beiseite gelassen:
"Wie gesagt, angefangen von der von der, der Gefahr, dass die Immobilien werden, weil sie halt, wenn also. Wenn die meine Woche im Bett liegen stehen, die ja nicht mehr auf, außer Sie sind extrem motiviert. Aber auch auch was so ist, den Umfang, was so den Umfang der, der, also, ich meine, ich hab ..."
Meine Transkription:
"Wie gesagt, angefangen von der Gefahr, dass die immobil werden, weil wenn sie mal eine Woche im Bett liegen, stehen die ja nicht mehr auf, außer sie sind extrem motiviert. Also ich meine, ich habe..."
--> detaillierte Gegenüberstellung
Interessehalber habe ich die ersten 6 Minuten des KI-Teils korrigiert, ohne Verwendung von Transkriptionsregeln: 26 Minuten Arbeitszeit. Hochgerechnet auf eine Stunde Interview-Transkript also 260 Minuten, was einem Faktor von 4,25 entspricht; mein Tippfaktor liegt zwischen 3,5 und 4.
Nun mögen reine Transkriptionstools, wie sie Anbieter von KI-Transkriptionen verwenden, bessere Ergebnisse liefern, aber auch sie weisen mehr oder weniger gravierende Ungenaugikeiten und/oder Fehler auf. Diese erhöhen sich erheblich bei Audioaufnahmen mit Hintergrundgeräuschen oder allgmein bei schlechterer Aufnahmequalität:
- unkorrekte Groß- und Kleinschreibung
- falsche oder fehlende Interpunktion, wodurch Aussagen verfälscht werden
- Probleme bei der Zuordnung von Sprechern vor allem bei mehreren Sprechern, ähnlichen Stimmen oder Überlappungen
- falsche Wörter oder Auslassungen vor allem bei Wortzusammensetzungen, Eigennamen, Fachausdrücken
- Transkriptionsregeln, wie sie in der Analyse von Interviews in der qualitativen Sozialforschung notwendig sind, werden ignoriert
Des weiteren arbeiten KI-Transkriptionsbüros fast ausschließlich mit Abo-Modellen und die Transkripte landen in einer Cloud.
Eine Nachbarbeitung des kompletten KI-Transkripts ist also unumgänglich und kann vor allem beim nachträglichen Einfügen von Transkriptionsregeln gerne mal länger in Anspruch nehmen als eine händische Transkription. Erfolgt die die Korrektur/Nachbearbeitung von einer studentischen Hilfskraft zum Mindest-Stundenlohn, hört sich das Ganze erst mal kostengünstiger an als eine händische Transkription. Aber wie lange braucht der/die Korrigierende, wie fit ist sie in puncto komplexere Transkriptionsregeln?








