technologie pour la traduction automatique interactive

by Spence Green

26 juil. 2017 00:00:00 3 Minute Read

Cet article décrit la technologie derrière les suggestions de traduction interactives de Lilt. Les détails ont été publiés pour la première fois dans un article de conférence universitaire, Models and Inference for Prefix-Constrained Machine Translation .(Les modèles et l'inférence de la traduction automatique déterminée par les préfixes)

Les systèmes de traduction automatique peuvent traduire des phrases ou des documents entiers, mais ils peuvent également être utilisés pour terminer des traductions qui ont été commencées par une personne, une forme d'achèvement automatique au niveau de la phrase. Dans la littérature linguistique informatique, la prédiction du reste d'une phrase est appelée traduction automatique déterminée par les préfixes. Le préfixe d'une phrase est la partie écrite par un traducteur. Un suffixe est suggéré par la machine pour compléter la traduction. Ces suggestions sont proposées de manière interactive aux traducteurs après chaque mot qu'ils saisissent. Les traducteurs peuvent accepter la totalité ou une partie du suffixe proposé avec un seul clic sur le clavier, ce qui permet d'économiser du temps en automatisant les parties les plus prévisibles du processus de traduction.

En coopération avec Minh-Thang Luong de l'Université de Stanford, le service de recherche de Lilt a récemment publié plusieurs nouvelles contributions scientifiques dans le domaine de la traduction automatique déterminée par les préfixes, lors de la 54ᵉ réunion annuelle de l'Association de la linguistique informatique à Berlin. En plus d'étendre un modèle de traduction automatique neuronale pour effectuer une traduction précontrainte pour la première fois dans la littérature, l'article décrit trois améliorations au paradigme statistique largement utilisé, basé sur les phrases : de nouvelles façons de mesurer la précision des suffixes, de nouvelles techniques d'apprentissage automatique et de nouveaux algorithmes de suggestion. L'article décrit comment chacune de ces innovations améliore la qualité de la suggestion d'un système de traduction interactive dans des expériences anglais-allemand à grande échelle. Les méthodes décrites dans le document sont utilisées dans tous les systèmes de production déployés par Lilt.

Dans un paramètre interactif, les premiers mots du suffixe suggéré sont essentiels, ces mots sont au centre de l'attention de l'utilisateur lors de la composition d'une traduction. Le système décrit dans cet article est formé pour être particulièrement sensible à ces premiers mots. Pour atteindre cet effet, le système inclut une nouvelle façon de comptabiliser les parties de la phrase qui ont déjà été traduites, de sorte que la suggestion de ce que le traducteur saisira à la suite ne soit pas redondante par rapport au contenu existant. Les détails techniques comprennent une nouvelle stratégie de recherche de faisceau et un modèle commun hiérarchique d'alignement et de traduction qui améliorent ensemble les suggestions de manière considérable. Pour les informations anglais-allemand, la précision des mots suivants augmente de 28,5 % à 41,2 %.

Un système de traduction automatique interactive peut également afficher plusieurs suggestions à l'utilisateur. Nous décrivons un algorithme pour trouver efficacement les meilleurs mots suivants directement en suivant un préfixe et ses meilleurs suffixes correspondants. Nos expériences montrent que cette approche d'extraction de la liste des meilleurs résultats, combinée à nos autres améliorations, a augmenté la précision de la suggestion des mots suivants des 10 meilleures listes de 33,4 % à 55,5 %. Nous formons également un système de traduction neuronale récurrent pour la traduction déterminée par les préfixes. Ce système neuronal fournit des prévisions encore plus précises que notre système amélioré basé sur les phrases. Cependant, l'inférence est deux fois plus lente, ce qui est problématique pour un paramètre interactif. (Restez à l'écoute des résultats à venir concernant la traduction neuronale déterminée par les préfixes rapide.)

L'article se termine par une analyse d'erreurs manuelles qui révèle les forces et les faiblesses des approches basées sur les phrases et neuronales de la traduction déterminée par le préfixes. Les modèles neuronaux sont particulièrement bons pour produire des résultats de langue cible grammaticalement corrects et bien formés. Cependant, ils montrent également une tendance à omettre des mots de contenu importants.