Morphing ins verheißene Land

by Han Mai

09.12.2016 00:00:00 5 Minute Read

Gastbeitrag von Jost Zetzsche, ursprünglich in Ausgabe 16–12–268 von The Tool Box Journal veröffentlicht.

Manche von Ihnen wissen, dass ich sehr an Morphologie interessiert bin. Oder vielleicht sollte ich es anders sagen: Ich bin sehr frustriert, weil die Translation Environment Tools, die wir verwenden, keine Morphologie anbieten. Es gibt einige Ausnahmen, wie SmartCat, Star Transit, Across und OmegaT, die eine gewissen Morphologie-Unterstützung bieten. Alle von ihnen sind aber auf eine kleine Zahl von Sprachen beschränkt, und jede Anstrengung, diese auszuweiten, wäre sehr aufwendig und mit viel manueller Programmierung verbunden.

Andere Tools, wie beispielsweise memoQ, haben sich entschieden, mit der Erkennung von Fuzzy Matches besser zu fahren als mit spezifischen morphologischen Sprachregeln, aber auch das ist sicher nicht die bestmögliche Antwort.

Was ist also das Problem? Und worum geht es bei Morphologie in Übersetzungsumgebungs-Tools überhaupt?

Wäre es nicht schön, alle gebeugten Formen eines bestimmten Wortes in Ihrem Ausgangstext automatisch mit der ungebeugten Form in Verbindung zu bringen, die sich in Ihrer Terminologiedatenbank oder Ihrem Glossar befindet, und dies in Ihren Terminologie-Suchergebnissen angezeigt zu bekommen? Und ist es nicht leicht bescheuert, diese Frage überhaupt zu diesem Zeitpunkt stellen zu müssen, zu dem es völlig normal sein sollte, dass jedes Tool diese Funktion bietet? Falls Sie sich gewundert haben: Die Antwort auf beide Fragen lautet „Ja, ja, ein ganz klares Ja!“

Andererseits gibt es einen Grund, warum wir an diesem Punkt feststecken. Und das sind die Kosten. Falls Sie wirklich Morphologie-Regeln manuell für alle Sprachen eingeben müssen, wird das schnell zur Sisyphus-Arbeit (das geht schon los mit: „Was sind überhaupt alle Sprachen?“). Wenn Sie das nur für die „wichtigen“ Sprachen machen (was aus der Perspektive der Technologie-Anbieter „rentabel“ bedeutet), dann landen Sie in der Situation, in der wir uns mit den oben genannten Tools bereits befinden.

Vor ein paar Jahren hatte eine Gruppe von Leuten einschließlich mir die Idee, die Sammlung von Morphologie-Regeln für und mit jeder sprachspezifischen Gruppe von Übersetzern per Crowdsourcing durchzuführen. Nach der Sammlung der Regeln könnten diese dann in die verschiedenen Technologien integriert werden. Das klang gut, es war aber schwierig, das Projekt zu starten, weil an Mitteln fehlt, um die notwendige Infrastruktur aufzubauen oder an der Zeit, die es dauern würde, um die Sache zu finanzieren. Daneben gab es noch andere Probleme.

Und hier kommt das Übersetzungsumgebungs-Tool Lilt mit einem sehr coolen Vorschlag ins Spiel, der sehr wohl die Lösung sein könnte. Die neueste Version von Lilt für eine „neuronale Morphologie“-Engine für alle derzeit unterstützten Sprachen außer Chinesisch ein (also EN, DA, NL, FR, DE, IT, NO, PO, PT, RU, ES, SV).

Hier ganz offen die Wahrheit: Als ich die Pressemitteilung vor ein paar Wochen zum ersten Mal las, rollte ich mit den Augen und dachte mir, dass die Leute von Lilt lediglich etwas mit dem Wort neuronal um sich werfen möchten, weil es gerade in ist.

Es stellt sich aber heraus, dass ich mich irrte, als ich bei meinem Gespräch mit John DeNero von Lilt herausfand, dem Architekten dieses Teils des Lilt-Systems. John versuchte mir zu erklären, was das System macht und warum es einen großen Unterschied ausmachen kann. Den zweiten Teil zu verstehen war nicht so schwer, aber mein schwacher, technisch recht unbedarfter Geist hatte mit dem ersten Teil so seine Probleme.

(Übrigens gehen wir immer davon aus, dass man mit uns, den weniger technisch versierten Menschen, Mitleid haben muss, wenn wir Technologie nicht verstehen. Aber können Sie sich vorstellen, wie armselig das Leben für technisch versierte Leute ist, die mit uns in Babysprache kommunizieren müssen?)

Dieser Artikel bietet eine gute Zusammenfassung des Systems, das im Wesentlichen große einsprachige Korpora analysiert, morphologische Veränderungen feststellt (in der Theorie könnte es sich um jede beliebige Art von Veränderung handeln, in der Praxis konzentriert sich Lilt momentan auf Suffixe) und klassifiziert diese. Da jedes Wort innerhalb eines Kontextes bewertet und auch klassifiziert wird, kann das System zwischen der Adverbendung -ly im Englischen unterscheiden, wenn es „gladly“ oder „only“ begegnet. Mithilfe der gleichen Kontextanalyse kann das System auch sehr gute Schätzungen über die morphologische Transformation unbekannter Wörter vornehmen. (Ihm ist vielleicht noch nie das Wort „loquacious“ untergekommen, aber es würde wahrscheinlich korrekterweise annehmen, dass die Adverbumwandlung „locaciously“ lautet).

Dies funktioniert mit jeder Sprache (die Morphologie einsetzt, also mit Ausnahme von z. B. Chinesisch), solange genug Korpusmaterial vorhanden ist, um das System zu trainieren. Es dauert ca. 2,5 Tage, bis eine neue Sprache (auf sehr leistungsfähigen Computern) trainiert ist. Und das war's auch schon.

Ist das nicht perfekt (was auch immer „das“ ist??). John war bei seiner Beurteilung, wo das System versagt, sehr offen. Bei unregelmäßiger Morphologie versagt es gerne (es erkennt „geese“ evtl. nicht als Plural von „goose“ und „well“ nicht als Adverb von „gut“), und in ca. 5 % aller Fälle glaubt John, dass die Engine ein korrektes Urteil hätte treffen sollen, es aber nicht getan.

Andererseits haben die Terminologietreffer für die Benutzer um ein Drittel zugenommen, seit Lilt das System vor zwei Wochen eingeführt hat.

Ich halte das für einen Quantensprung – vor allem, weil es nicht nur den großen europäischen und asiatischen Sprachen (wenn zutreffend) zugute kommt, sondern auch den vielen anderen weniger häufigen Sprachen. Sie sagen vielleicht: Lilt deckt nur eine Handvoll Sprachen ab, ist das also nicht das Gleiche? Die Antwort darauf ist ein (zweifaches Nein). Erstens können Sie erwarten, dass Lilt weitere Sprachen hinzufügen wird, und (was noch wichtiger ist) das Modul, das zur Erstellung dieser neuronalen Morphologie-Engines benutzt wird, ist Open-Source und für alle Entwickler von Übersetzungstechnologie direkt hier verfügbar.

John hatte Folgendes über die verfügbare Engine und ihre Verwendbarkeit zu sagen:

„Hier ist unser Open-Source-Release des Morphologiesystems. Er wird als akademisches Projekt veröffentlicht und hat keine offizielle Unterstützung, ist also kein Produkt. Wenn jemand ihn verwenden möchte, müsste er sich aber auf eigene Faust damit vertraut machen (obwohl ich natürlich gerne Fragen beantworte).“

Also los, Kilgray und SDL und Atril und Wordfast und, und, und …

Es ist auch sehr vielversprechend, dass es andere Bereiche gibt, in denen morphologische Kenntnisse von einem Übersetzungssystem verwendet werden können: Wie wäre es mit der aktiven Änderung der Beugung eines Begriffs, der automatisch basierend auf seiner Verwendung im Quelltext eingefügt wird? Oder mit der Änderung der Beugung bei der Korrektur von Fuzzy-Matches? Oder von Vorschlägen aus maschinellen Übersetzungen?

Die Sache ist wirklich unbegrenzt. Seien Sie kreativ!