Vergleichende Studie 08.04.2024, 10:02 Uhr

Manuelle Transkription schlägt KI – zumindest derzeit noch

Manuelle Transkription ist derzeit noch besser als KI – das ist das Ergebnis einer Studie, die das CISPA Helmholtz-Zentrum durchgeführt hat. Stand der Technik ist allerdings der Dezember 2022, darauf weisen die Forschenden einschränkend hin.

Transkription

Manuelle Transkriptionen sind derzeit noch fehlerfreier als KI, das ist das Ergebnis einer Studie.

Foto: CISPA

Ein Team des Empirical Research Support (ERS) am CISPA Helmholtz-Center for Information Security hat Transkriptionsdienste untersucht. Zum ersten Mal haben sie die bekanntesten Anbieter systematisch verglichen. Im Fokus standen elf manuelle und KI-basierte Dienste. Die Studie zeigt: KI-Dienste liefern gute Qualität, haben aber Probleme bei der Sprecherzuordnung. Zudem treten sinnverzerrende Abweichungen auf. Unter den KI-Anbietern konnte sich Whisper AI von OpenAI als bestes Tool durchsetzen.

Wichtiges Werkzeug in der Forschung

Interviews sind ein wichtiges Werkzeug in der Forschung. Sie werden grundsätzlich in zwei Typen eingeteilt: quantitative und qualitative. Quantitative Interviews nutzen standardisierte Fragebögen, um statistisch auswertbare Daten zu sammeln. Qualitative Interviews dagegen zielen darauf ab, interpretierbare Daten zu gewinnen.

Eine spezielle Methode ist das Leitfadeninterview. Hierbei gibt es zwar einen Fragenkatalog, doch können die Gesprächspartner davon abweichen. „In der Cybersicherheitsforschung kommen diese Interviews zum Einsatz, wenn es um die Erschließung von Handlungs- und Deutungsmustern von Akteuren geht, die digital vermittelt handeln“, sagt Soziologe Dr. Rafael Mrowczynski vom  Team des Empirical Research Support (ERS) am CISPA. Das ERS-Team berät die Forschenden des Zentrums bei Methodenfragen.

Transkription in der Datenanalyse

Die Transkription ist ein zentraler Schritt in der qualitativen Datenanalyse. Die Standardprozedur ist, dass die Audioaufnahmen der Interviews in Text überführt werden. „Wichtig für die Qualität der Daten ist, dass die Transkriptionen adäquat sind“, erklärt Mrowczynski. Unterschiedliche Forschungsbereiche haben ihre eigenen Standards. „In der Cybersicherheitsforschung wird meist mit Transkripten gearbeitet, die präzise den Gesprächsinhalt wiedergeben“, so Mrowczynski weiter. Ein gutes Transkript enthält nur das Wesentliche.

Stellenangebote im Bereich Softwareentwicklung

Softwareentwicklung Jobs
SWR Südwestrundfunk Anstalt des öffentlichen Rechts-Firmenlogo
Ingenieur / Ingenieurin (w/m/d) im Bereich Elektrotechnik/Sicherheit und Netze SWR Südwestrundfunk Anstalt des öffentlichen Rechts
Stuttgart Zum Job 
Sauer Compressors-Firmenlogo
LSA-Engineer (m/w/d) Sauer Compressors
Birkenstock Productions Hessen GmbH-Firmenlogo
Verantwortliche Elektrofachkraft (m/w/d) Birkenstock Productions Hessen GmbH
Steinau-Uerzell Zum Job 
TenneT TSO GmbH-Firmenlogo
Elektroingenieur für die Planung und Sicherstellung der europäischen Stromversorgung (m/w/d) TenneT TSO GmbH
Netzgesellschaft Potsdam GmbH-Firmenlogo
Ingenieur (m/w/d) Strategische Netzplanung Strom Netzgesellschaft Potsdam GmbH
Potsdam Zum Job 
Narda Safety Test Solutions GmbH'-Firmenlogo
Einkäufer für den Bereich Elektrotechnik (m/w/d) mit der Möglichkeit zur Teamleitung Narda Safety Test Solutions GmbH'
Pfullingen Zum Job 
Evonik Operations GmbH-Firmenlogo
EMR-Anlageningenieur (m/w/d) Evonik Operations GmbH
Rheinfelden (Baden) Zum Job 
Staatliche Gewerbeaufsicht Niedersachsen-Firmenlogo
Ingenieur / Naturwissenschaftler (m/w/d) für den Einsatz im Arbeitsschutz / Umweltschutz / Verbraucherschutz (Bachelor of Science / Bachelor of Engineering / Diplom / FH) Staatliche Gewerbeaufsicht Niedersachsen
Braunschweig Zum Job 
Staatliche Gewerbeaufsicht Niedersachsen-Firmenlogo
Ingenieur / Naturwissenschaftler (m/w/d) für den Einsatz im Arbeitsschutz / Umweltschutz / Verbraucherschutz (Master, Diplom Uni) Staatliche Gewerbeaufsicht Niedersachsen
verschiedene Standorte Zum Job 
Thyssengas GmbH-Firmenlogo
Ingenieur Projektleiter Leitungsbau (m/w/d) Thyssengas GmbH
Dortmund Zum Job 
RHEINMETALL AG-Firmenlogo
Verstärkung für unsere technischen Projekte im Bereich Engineering und IT (m/w/d) RHEINMETALL AG
deutschlandweit Zum Job 
EMSCHERGENOSSENSCHAFT und LIPPEVERBAND-Firmenlogo
Gruppenleiter*in Elektrotechnik (m/w/d) EMSCHERGENOSSENSCHAFT und LIPPEVERBAND
Hamburger Hochbahn AG-Firmenlogo
Senior - Projektleiter Elektrotechnik Betriebsanlagen (w/m/d) Hamburger Hochbahn AG
Hamburg Zum Job 
3M Deutschland GmbH-Firmenlogo
Senior Capital Project Manager (m/f/d) 3M Deutschland GmbH
FCP Ingenieure Deutschland GmbH-Firmenlogo
BIM-Modeller Infrastruktur (m/w/d) FCP Ingenieure Deutschland GmbH
IMS Röntgensysteme GmbH-Firmenlogo
Entwicklungsingenieur (m/w/i) für digitale Inspektionssysteme IMS Röntgensysteme GmbH
Heiligenhaus Zum Job 
TGM Kanis Turbinen GmbH-Firmenlogo
Vertriebsingenieur (m/w/d) Bereich Service TGM Kanis Turbinen GmbH
Nürnberg Zum Job 
Griesemann Gruppe-Firmenlogo
Lead Ingenieur Prozessleittechnik (m/w/d) Griesemann Gruppe
Leipzig Zum Job 
Griesemann Gruppe-Firmenlogo
Lead Ingenieur Elektrotechnik (m/w/d) Griesemann Gruppe
Leuna, Leipzig Zum Job 
Deutsche Rentenversicherung Bund-Firmenlogo
Projektingenieur*in/ Teilprojektverantwortliche*r Elektrotechnik (m/w/div) Deutsche Rentenversicherung Bund
SWR Südwestrundfunk Anstalt des öffentlichen Rechts-Firmenlogo
Ingenieur / Ingenieurin (w/m/d) im Bereich Elektrotechnik/Sicherheit und Netze SWR Südwestrundfunk Anstalt des öffentlichen Rechts
Stuttgart Zum Job 
Sauer Compressors-Firmenlogo
LSA-Engineer (m/w/d) Sauer Compressors
Birkenstock Productions Hessen GmbH-Firmenlogo
Verantwortliche Elektrofachkraft (m/w/d) Birkenstock Productions Hessen GmbH
Steinau-Uerzell Zum Job 
TenneT TSO GmbH-Firmenlogo
Elektroingenieur für die Planung und Sicherstellung der europäischen Stromversorgung (m/w/d) TenneT TSO GmbH

Forschende können Transkripte selbst erstellen oder extern (an Drittanbieter) in Auftrag geben. Manuelle und KI-gestützte Transkriptionen sind gängige Optionen, wenn es um Drittanbieter geht. KI-gestützte Transkriptionen haben hierbei in letzter Zeit dank großer technologischer Fortschritte an Popularität gewonnen. Das CISPA-ERS-Team hat untersucht, welche Anbieter die besten Ergebnisse liefern. Ziel war es, eine Empfehlung für die Verwendung von Transkriptionen in qualitativen Interviews abzugeben.

So ist das Forschungsteam vorgegangen

Für ihr Forschungsprojekt erstellten Mrowczynski und sein Team, bestehend aus Dr. Maria Hellenthal, Dr. Rudolf Siegel und Dr. Michael Schilling, ein Set aus zehnminütigen Interviews und Gruppengesprächen. Diese waren auf Deutsch und Englisch und drehten sich um Cybersicherheit. „Wichtig war, dass Fachbegriffe aus der Community fallen, um daran die Präzision der Transkription überprüfen zu können“, erklärt Mrowczynski. Manche Interviews enthielten extra Hintergrundgeräusche. Das machte sie realitätsnäher.

Im Dezember 2022 schickten sie die Daten an elf Anbieter. Darunter waren Amberscript, GoTranscript, QualTranscribe, Rev, Scribble sowie KI-Dienste wie Amazon Transcribe, AssemblyAI, Audiotranskription.de, Google Cloud, Microsoft Azure und Whisper AI. Als Grundlage für den Vergleich erstellten sie ein Referenztranskript. Die Analyse konzentrierte sich auf zwei Hauptaspekte: die Wortfehlerrate und die qualitative Abweichung vom Original.

Ergebnis der Studie

Mrowczynski und sein Team untersuchten in ihrer Studie die Genauigkeit von manuellen und KI-basierten Transkriptionsdiensten. Das Fazit: Manuelle Transkriptionsdienste liefern meist gute Ergebnisse. KI-basierte Dienste hingegen neigen zu bedeutungsverzerrenden Abweichungen zwischen Aufnahme und Transkription.

Besonders problematisch ist laut Forschungsteam die Transkription von Fachbegriffen. So wurde in einem Beispiel „hashes“ fälschlicherweise als „ashes“ transkribiert. Im Vergleich der KI-Anbieter schnitt Whisper AI von OpenAI am besten ab. Englisch wurde von den meisten Anbietern besser transkribiert als Deutsch. Drei Anbieter boten gar keine deutsche Transkription an.

Ein weiteres Ergebnis der Studie: Hintergrundgeräusche wirkten sich generell negativ auf die Transkriptionsgenauigkeit aus. Schwierigkeiten hatten die KI-Anbieter außerdem mit der Sprecherzuordnung. Zudem waren die KI-Transkripte oft nicht formatiert, was die Weiterverarbeitung in Analyse-Software erschwerte.

Einschränkend bemerken die Forschenden, dass ihre Untersuchung den Stand der Technik im Dezember 2022 widerspiegelt und aktuelle Entwicklungen nicht berücksichtigt werden konnten.

Ein Beitrag von:

  • Dominik Hochwarth

    Redakteur beim VDI Verlag. Nach dem Studium absolvierte er eine Ausbildung zum Online-Redakteur, es folgten ein Volontariat und jeweils 10 Jahre als Webtexter für eine Internetagentur und einen Onlineshop. Seit September 2022 schreibt er für ingenieur.de.

Zu unseren Newslettern anmelden

Das Wichtigste immer im Blick: Mit unseren beiden Newslettern verpassen Sie keine News mehr aus der schönen neuen Technikwelt und erhalten Karrieretipps rund um Jobsuche & Bewerbung. Sie begeistert ein Thema mehr als das andere? Dann wählen Sie einfach Ihren kostenfreien Favoriten.