In diesem Artikel wird die Technologie beschrieben, die den interaktiven Übersetzungsvorschlägen von Lilt zugrunde liegt. Die Details wurden erstmals in einer akademischen Konferenzpublikation veröffentlicht unter dem Titel Models and Inference for Prefix-Constrained Machine Translation.
Maschinelle Übersetzungssysteme können ganze Sätze oder Dokumente übersetzen, sie können aber dazu verwendet werden, Übersetzungen fertigzustellen, die von einem Menschen begonnen worden, also eine Art automatische Vervollständigung auf Satzebene. In der Computerlinguistik-Literatur wird die Vorhersage des Rests eines Satzes als präfixbeschränkte maschinelle Übersetzung bezeichnet. Das Präfix eines Satzes ist der Teil, der von einem Übersetzer verfasst wird. Ein Suffix wird von der Maschine vorgeschlagen, um die Übersetzung fertigzustellen. Diese Vorschläge werden Übersetzern interaktiv nach jedem von ihnen eingegebenen Wort angezeigt. Übersetzer können das gesamte oder einen Teil des vorgeschlagenen Suffixes mit einer einzigen Tastenbetätigung übernehmen. Durch die Automatisierung der am besten vorhersehbaren Teile des Übersetzungsprozesses kann dadurch Zeit gespart werden.
In einer interaktiven Situation sind die ersten Wörter des vorgeschlagenen Suffixes von entscheidender Bedeutung; diese Wörter sind der Fokus der Aufmerksamkeit des Nutzers, wenn er eine Übersetzung erstellt. Das in dieser Publikation beschriebene System wird so trainiert, dass es diesen ersten Wörtern gegenüber besonders empfindlich ist. Um diesen Effekt zu erzielen, enthält das System eine neue Möglichkeit, um zu berücksichtigen, welche Teile des Satzes bereits übersetzt wurden, damit der Vorschlag, was der Übersetzer als Nächstes eingeben wird, nicht mit bestehenden Inhalten redundant ist. Die technischen Details umfassen eine neue Strahlsuchstrategie und ein hierarchisches gmeinsames Modell der Ausrichtung und Übersetzung, die zusammen die Vorschläge dramatisch verbessern. Für Englisch-Deutsch-Nachrichten erhöht sich die Genauigkeit des nächsten Worts von 28,5 % auf 41,2 %.
Ein interaktives MT-System könnte dem Benutzer auch mehrere Vorschläge anzeigen. Wir beschreiben einen Algorithmus, um die n-besten nächsten Wörter direkt nach einem Präfix und deren entsprechende besten Suffixe zu finden. Unsere Experimente zeigen, dass dieser Ansatz bei der n-besten Listenextraktion in Kombination mit unseren anderen Verbesserungen die Genauigkeit des Vorschlags für das nächste Wort von 10-Besten-Listen von 33,4 % auf 55,5 % erhöht. Wir trainieren auch ein wiederkehrendes neuronales Übersetzungssystem auf präfixbeschränkte Übersetzung. Dieses neuronale System bietet noch genauere Vorhersagen als unser verbessertes phrasenbasiertes System. Die Inferenz ist aber um zwei Größenordnungen langsamer, was für eine interaktive Situation problematisch ist. (Bleiben Sie dran, um mehr über die kommenden Ergebnisse zur schnellen präfixbeschränkten neuronalen Übersetzung zu erfahren.)
Die Publikation schließt mit einer manuellen Fehleranalyse, die die Stärken und Schwächen sowohl der phrasenbasierten als auch der neuronalen Ansätze für die präfixbeschränkte Übersetzung aufzeigt. Neuronale Modelle sind besonders gut darin, grammatikalisch korrekten und gut formulierten Zielsprachen-Output zu erzeugen. Sie tendieren aber auch dazu, wichtige Wörter aus dem Inhalt auszulassen.