Abo

Voice-to-VoiceDeepL aus Köln startet Echtzeit-Sprachübersetzung

3 min
Eine junge Frau mit Headset nimmt an einem Video-call teil. Vor ihr steht ein aufgeklappter Laptop.

Echtzeit-Übersetzungen könnten Konferenz-Meetings für alle Teilnehmer in ihrer bevorzugten Sprache ermöglichen. 

DeepL übersetzt jetzt auch Gespräche live. Nach eigenen Angaben in deutlich besserer Qualität als die Konkurrenz.

Das Kölner Übersetzungs-Start-up DeepL geht in die Offensive und rollt eine Reihe neuer Services aus. Im Kern steht ein Echtzeit-Audiodienst. Sprich: Wenn die DeepL-Technik zwischengeschaltet ist, sollen Gesprächspartner sich beinahe natürlich unterhalten können – ganz unabhängig davon, ob welche Sprache sie sprechen. Künstliche Intelligenz schneidet mit, generiert eine Simultan-Übersetzung und gibt die mit geringer Verzögerung wieder als Sprache aus. Im Fachjargon ist von „Voice-to-Voice“-Übersetzung die Rede.

DeepL-Gründer:„Meilenstein in der Übersetzung“

Das Potenzial für die Technologie ist gewaltig: Messen und virtuelle Meetings könnten vereinfacht werden, internationale Teams einfacher zusammen arbeiten,  Sprachbarrieren auf Reisen oder im Hochschulkontext könnten verschwinden. Womöglich wird in Zukunft gar das jahrelange lernen von Fremdsprachen überflüssig. Jarek Kutylowski, Gründer und CEO von DeepL, spricht anlässlich der Ankündigung des Dienstes daher auch von einem „Meilenstein in der Übersetzung“. Das mag auf DeepL zutreffen, die Konkurrenz bietet ähnliche Services aber längst an. Microsoft und Google haben Echtzeitübersetzer in ihre Konferenzsysteme integriert. Auch Apples AirPods verfügen über eine ähnliche Funktion. Bislang berichten Nutzer aber häufig von mäßigen Ergebnissen. Die hohe Latenz – also der zeitliche Abstand zwischen Rede und Sprachwiedergabe – stört, die Übersetzung ist zu fehlerhaft.

Hier will DeepL nun punkten. Ein Blindtest soll nach Unternehmensangaben überzeugende Ergebnisse erbracht haben. 96 Prozent der Teilnehmer hätten DeepLs Übersetzungen denen der Konkurrenz vorgezogen. Die Fehlerquote liege mit 4 Prozent deutlich niedriger als beim Durchschnitt der Konkurrenz mit 17 Prozent. Auch unter anderen Bewertungsgesichtspunkten wie Sprachfluss und Genauigkeit der Übersetzung liege das DeepL-Tool vorn, so die Kölner.

Service lässt sich in Unternehmessoftware integrieren

Die machen ihren Audi-Übersetzer in den kommenden Wochen auf vielen Plattformen verfügbar. Neben den Konferenzdiensten Microsoft Teams und Zoom wird der Service auch über das Web oder Mobilgeräte nutzbar sein. Unternehmen können die Technik über Schnittstellen in ihre eigene Technik integrieren und so etwa ein Call-Center damit ausrüsten.

Wer beispielsweise Vorträge oder Präsentationen vor internationalem Publikum hält, kann den Zugang via QR-Code teilen. Die Zuhörer können die -Live-Übersetzung dann in ihrer jeweils gewählten Sprache abrufen. Die Chancen, dass die eigene Muttersprache dabei ist, stehen gut. DeepL Voice deckt von Beginn an über 40 Sprachen  ab, darunter sämtliche offizielle EU-Sprachen, Vietnamesisch, Thailändisch, Arabisch oder Hebräisch.

Zentrale Plattform für alle Übersetzungsleistungen

Auch diese breite Aufstellung über viele Sprachen und Anwendungskanäle hinweg sieht man bei DeepL als Unterscheidungsmerkmal von der Konkurrenz. „Globale Unternehmen haben heute kein reines Übersetzungsproblem mehr; sie haben ein strukturelles Problem im Betriebsablauf“, erläutert Kutylowski. Die Sprachlösungen am Markt ließen sich oft nicht schnell genug skalieren. „Durch die Zentralisierung der Übersetzungsabläufe in einer KI-gestützten, mehrsprachigen Plattform erhalten Teams Zugang zu schnellen, hochwertigen Übersetzungen, ohne durch veraltete Tools oder teure externe Dienstleister gebremst zu werden“, glaubt er.

DeepL behauptet sich seit Jahren gegen die Tech-Riesen und andere Start-ups, vor allem indem das Unternehmen sich auf die Übersetzung von Fachsprachen spezialisiert hat. Branchenbegriffe, Produkt- oder Eigennamen werden von der darauf trainierter Software besser erkannt und verarbeitet. Mit dem neuen Audiodienst sollen die Services noch stärker auf einzelne Unternehmen zugeschnitten werden. Firmen könnten etwa eine einheitliche Ausdrucksweise festlegen. Auch die Wiedergabe in einer bestimmten Stimme, unabhängig von der des Sprechers, ist denkbar.

Technisch will das Unternehmen den Dreischritt - Aufzeichnung, Übersetzung in Textform, Wiedergabe als Audio – künftig verkürzen und die Ausgabe direkt aus dem sprachlichen Input erzeugen. Das könnte die lästige Latenzzeit weiter reduzieren und der Technik zum Alltagsdurchbruch verhelfen. Spätestens dann brechen schwere Zeiten für professionelle Simultan-Übersetzer an.