Lilt Labs | Rapprocher la recherche et la pratique de la traduction

Voilà pourquoi la traduction automatique neuronale est un énorme bond en avant

Rédigé par Chris Healy | 2 août 2018 07:00:00

 

Bien que la traduction automatique soit présente depuis des décennies, tout ce que vous pourrez lire à ce sujet est une impression de proximité avec le mythique « Babel Fish », un dispositif de traduction personnelle instantané, lui-même prêt à remplacer chaque traducteur humain. La partie qui est laissée à l'écart est la relation de la traduction automatique avec les traducteurs humains. Pendant longtemps, cette relation n'était pas plus complexe que la post-édition d'un texte mal traduit, un processus que la plupart des traducteurs comparent à une corvée fastidieuse. Avec l'avènement de la traduction automatique neuronale, cependant, la traduction automatique n'est plus seulement quelque chose qui crée un travail plus pénible pour les traducteurs. C'est désormais leur partenaire, ce qui les rend plus rapides et améliore la précision de leur production.

 

Alors quel est le problème ?

Avant de passer au courageux nouveau monde de la traduction de demain, replaçons la technologie dans son contexte. Avant la traduction automatique neuronale, il y avait deux principaux paradigmes dans l'histoire du domaine. Le premier était la traduction automatique basée sur les règles (RBMT) et le second, dominant jusqu'à très récemment, était la traduction automatique statistique basée sur les séquences de mots (SMT).

Lors de la construction de systèmes de traduction automatique basés sur des règles, les linguistes et les informaticiens ont uni leurs forces pour écrire des milliers de règles pour la traduction du texte d'une langue à une autre. C'était suffisant pour que les réviseurs monolingues puissent avoir une idée générale des documents importants dans un contenu autrement ingérable dans une langue qu'ils ne pouvaient pas lire. Mais à des fins de création de bonnes traductions, cette approche a des lacunes évidentes : elle est chronophage et, naturellement, la traduction est de mauvaise qualité.

La SMT basée sur les séquences de mots, d'un autre côté, examine un grand ensemble de texte bilingue et crée un modèle statistique de traductions probables. Le problème avec la SMT est sa dépendance aux systèmes. Par exemple, elle est incapable d'associer des synonymes ou des dérivés d'un seul mot, ce qui nécessite l'utilisation d'un système supplémentaire responsable de la morphologie. Elle nécessite également un modèle de langue pour assurer la fluidité, mais il est limité à l'environnement immédiat d'un mot donné. La SMT est donc sujette aux erreurs grammaticales, et est relativement inflexible lorsqu'elle rencontre des séquences de mots différentes de celles incluses dans ses données de formation.

Enfin, nous en sommes désormais à l'avènement de la traduction automatique neuronale. Pratiquement tous les systèmes de NMT utilisent ce qu'on appelle l'architecture d'un « codeur-décodeur d'attention ». Le système a deux réseaux neuronaux principaux, l'un qui reçoit une phrase (l'encodeur) et la transforme en une série de coordonnées ou « vecteurs ». Un réseau neuronal de décodeur doit ensuite transformer de ces vecteurs en texte dans une autre langue, avec un mécanisme d'attention qui est placé entre les deux, ce qui aide le réseau de décodeur à se concentrer sur les parties importantes de la production de l'encodeur.

L'effet de cet encodage est qu'un système de NMT apprend la similitude entre les mots et les séquences de mots, les regroupant dans l'espace, alors qu'un système de SMT voit juste un tas de mots non liés qui sont plus ou moins susceptibles d'être présents dans une traduction.

Fait intéressant, cette architecture est ce qui rend la « traduction zero-shot » de Google possible. Une NMT multilingue bien entraînée peut décoder le même vecteur encodé dans différentes langues qu'elle connaît, que cette combinaison de langues source / cible particulière soit utilisée dans la formation ou non.

Alors que le décodeur fait son chemin à travers la traduction, il prédit des mots en fonction de la phrase entière, ce qui signifie qu'il produit des phrases cohérentes, contrairement à la SMT. Malheureusement, cela signifie également que les lacunes apparaissant tôt dans la phrase ont tendance à avoir un effet domino, ce qui réduit la qualité du résultat. Certains modèles de NMT ont également du mal à trouver des mots qu'ils ne connaissent pas, qui sont généralement des mots rares ou des noms propres.

Malgré ses défauts, la NMT représente une énorme amélioration de la qualité de la traduction automatique, et les lacunes qu'elle présente s'avèrent être des opportunités.

 

Les traducteurs et la traduction automatique : enfin ensemble

Bien que les améliorations de la traduction automatique signifient généralement des augmentations de ses applications habituelles (par exemple, la post-édition et la traduction automatique), le véritable gagnant avec la NMT est le traducteur. C'est particulièrement vrai lorsqu'un traducteur est en mesure de l'utiliser en temps réel alors qu'il traduit, plutôt que de faire de la post-édition d'une production de traduction automatique. Lorsque le traducteur travaille activement avec un moteur de NMT pour créer une traduction, ils sont en mesure de construire et d'apprendre l'un de l'autre, le moteur offrant une traduction que l'humain n'a peut-être pas considérée, et l'humain qui agit comme un modérateur, et ce faisant, devient un professeur du moteur.

Par exemple, lors du processus de traduction, lorsque le traducteur corrige le début d'une phrase, il améliore les chances du système d'obtenir le reste de la traduction correcte. Souvent, tout ce qu'il faut est un petit coup de pouce au début d'une phrase pour réparer le reste, et l'effet domino disparaît.

Entre-temps, les améliorations caractéristiques de la NMT en termes de grammaire et de cohérence signifient que, lorsqu'il obtient une traduction correcte, le traducteur passe moins de temps à corriger la grammaire et la production de la MT et à éviter la post-édition en même temps. Lorsqu'ils ont l'opportunité de travailler ensemble, les traducteurs et leurs moteurs de NMT finissent littéralement les phrases de l'autre. En plus d'accélérer le processus, et ici je parle en tant que traducteur, c'est honnêtement une expérience enrichissante.

 

Où allons-nous maintenant ?

La prédiction de l'avenir est toujours une entreprise risquée, mais en partant du postulat que la qualité et l'accessibilité de la NMT continue à s'améliorer, elle deviendra progressivement une partie indispensable de la boîte à outils d'un traducteur, tout comme les outils de TAO et la mémoire de traduction le sont déjà.

De nombreux travaux de recherche actuels se penchant sur l'obtention de meilleures données, et avec des systèmes de construction qui nécessitent moins de données. Ces deux domaines continueront à améliorer la qualité de la traduction automatique et à accélérer son utilité pour les traducteurs. Espérons que cette utilité atteindra également plus de langues, en particulier les langues avec moins de données disponibles pour la formation. Une fois que cela se produirait, les traducteurs de ces langues pourraient traduire de plus grands volumes de texte, améliorant progressivement la disponibilité de texte de qualité à la fois pour le public et pour la poursuite de la formation de la traduction automatique, ce qui permet à ces traducteurs, ayant déjà établi le travail de base, de passer à de plus grands défis.

Lorsqu'elle est bien utilisée, la NMT a le potentiel d'améliorer non seulement le travail des traducteurs, mais de rapprocher l'industrie de la traduction de son objectif : être le Babel Fish de l'humanité. Qui ne se trouve pas dans une application ou dans une oreillette, mais dans des réseaux de personnes.