Technologie für interaktive MT

by Spence Green
3 Minute Read

In diesem Artikel wird die Technologie beschrieben, die den interaktiven Übersetzungsvorschlägen von Lilt zugrunde liegt. Die Details wurden erstmals in einer akademischen Konferenzpublikation veröffentlicht unter dem Titel Models and Inference for Prefix-Constrained Machine Translation.

Maschinelle Übersetzungssysteme können ganze Sätze oder Dokumente übersetzen, sie können aber dazu verwendet werden, Übersetzungen fertigzustellen, die von einem Menschen begonnen worden, also eine Art automatische Vervollständigung auf Satzebene. In der Computerlinguistik-Literatur wird die Vorhersage des Rests eines Satzes als präfixbeschränkte maschinelle Übersetzung bezeichnet. Das Präfix eines Satzes ist der Teil, der von einem Übersetzer verfasst wird. Ein Suffix wird von der Maschine vorgeschlagen, um die Übersetzung fertigzustellen. Diese Vorschläge werden Übersetzern interaktiv nach jedem von ihnen eingegebenen Wort angezeigt. Übersetzer können das gesamte oder einen Teil des vorgeschlagenen Suffixes mit einer einzigen Tastenbetätigung übernehmen. Durch die Automatisierung der am besten vorhersehbaren Teile des Übersetzungsprozesses kann dadurch Zeit gespart werden.

Null
In Zusammenarbeit mit Minh-Thang Luong von der Universität Stanford veröffentliche die Lilt-Forschungsabteilung kürzlich mehrere neue wissenschaftliche Beiträge zum Bereich der präfixbeschränkten maschinellen Übersetzung auf der 54. Jahrestagung der Association for Computational Linguistics in Berlin. Neben der Erweiterung eines neuronalen maschinellen Übersetzungsmodells zur erstmaligen Ausführung von präfixbeschränkter Übersetzung in der Literatur, beschreibt die Publikation drei Verbesserungen am weit verbreiteten statistischen phrasenbasierten Paradigma: neue Möglichkeiten zur Messung der Suffixgenauigkeit, neue Machine-Learning-Techniken und neue Vorschlagsalgorithmen. Die Publikation beschreibt, wie jede dieser Innovationen die Vorschlagsqualität eines interaktiven Übersetzungssystems in umfassenden Englisch-Deutsch-Experimenten verbessert. Die in der Publikation beschriebenen Methoden werden in allen Produktionssystemen verwendet, die von Lilt bereitgestellt werden.

In einer interaktiven Situation sind die ersten Wörter des vorgeschlagenen Suffixes von entscheidender Bedeutung; diese Wörter sind der Fokus der Aufmerksamkeit des Nutzers, wenn er eine Übersetzung erstellt. Das in dieser Publikation beschriebene System wird so trainiert, dass es diesen ersten Wörtern gegenüber besonders empfindlich ist. Um diesen Effekt zu erzielen, enthält das System eine neue Möglichkeit, um zu berücksichtigen, welche Teile des Satzes bereits übersetzt wurden, damit der Vorschlag, was der Übersetzer als Nächstes eingeben wird, nicht mit bestehenden Inhalten redundant ist. Die technischen Details umfassen eine neue Strahlsuchstrategie und ein hierarchisches gmeinsames Modell der Ausrichtung und Übersetzung, die zusammen die Vorschläge dramatisch verbessern. Für Englisch-Deutsch-Nachrichten erhöht sich die Genauigkeit des nächsten Worts von 28,5 % auf 41,2 %.

Ein interaktives MT-System könnte dem Benutzer auch mehrere Vorschläge anzeigen. Wir beschreiben einen Algorithmus, um die n-besten nächsten Wörter direkt nach einem Präfix und deren entsprechende besten Suffixe zu finden. Unsere Experimente zeigen, dass dieser Ansatz bei der n-besten Listenextraktion in Kombination mit unseren anderen Verbesserungen die Genauigkeit des Vorschlags für das nächste Wort von 10-Besten-Listen von 33,4 % auf 55,5 % erhöht. Wir trainieren auch ein wiederkehrendes neuronales Übersetzungssystem auf präfixbeschränkte Übersetzung. Dieses neuronale System bietet noch genauere Vorhersagen als unser verbessertes phrasenbasiertes System. Die Inferenz ist aber um zwei Größenordnungen langsamer, was für eine interaktive Situation problematisch ist. (Bleiben Sie dran, um mehr über die kommenden Ergebnisse zur schnellen präfixbeschränkten neuronalen Übersetzung zu erfahren.)

Die Publikation schließt mit einer manuellen Fehleranalyse, die die Stärken und Schwächen sowohl der phrasenbasierten als auch der neuronalen Ansätze für die präfixbeschränkte Übersetzung aufzeigt. Neuronale Modelle sind besonders gut darin, grammatikalisch korrekten und gut formulierten Zielsprachen-Output zu erzeugen. Sie tendieren aber auch dazu, wichtige Wörter aus dem Inhalt auszulassen.