La morphologie entre en terre promise

by Han Mai

9 déc. 2016 00:00:00 6 Minute Read

Article de l'invité Jost Zetzsche, publié à l'origine dans le numéro 16-12-268 de The Tool Box Journal.

Certains d'entre vous savent que je me suis beaucoup intéressé à la morphologie. Non, laissez-moi reformuler cela différemment : j'ai été très frustré que les outils d'environnement de traduction que nous utilisons n'offrent pas de morphologie. Il y a quelques exceptions : SmartCat, Star Transit, Across et OmegaT, qui offrent une certaine prise en charge de la morphologie. Mais tous sont limités à un petit nombre de langues, et tout effort pour développer ces codes nécessiterait un codage éreintant et manuel.

D'autres outils, comme memoQ, ont décidé qu'il leur était préférable d'utiliser une reconnaissance floue que des règles linguistiques morphologiques spécifiques, mais ce n'est clairement pas la meilleure réponse non plus.

Alors, quel est le problème ? Et avant toute chose en quoi consiste la morphologie des outils d'environnement de traduction ?

Eh bien, ne serait-ce pas agréable de voir que toutes les formes fléchies de n'importe quel mot donné dans votre texte source soient automatiquement associées aux formes non fléchies qui se trouvent dans votre base terminologique ou votre glossaire et que cela s'affiche dans les résultats de recherche de terminologie ? N'est-ce pas un peu idiot de devoir ne serait-ce que poser cette question à un moment alors que ce devrait être l'évidence même de faire en sorte que tout outil donné puisse fournir ce service ? Au cas où vous vous demandiez : la réponse aux deux questions est « Oui, oui, franchement oui ! »

D'autre part, il y a une raison pour laquelle nous sommes coincés là où nous sommes. Il s'agit du coût. Si vous devez vraiment entrer manuellement des règles de morphologie pour toutes les langues, cela devient rapidement un exercice sisyphéen (en commençant par : « que sont toutes les langues ? »). Si vous le faites uniquement pour les langues « importantes » (qui aux yeux des fournisseurs de technologie signifie « rentables »), vous vous retrouvez avec la situation que nous avons déjà avec les outils mentionnés ci-dessus.

Il y a quelques années, un groupe de personnes dont je fais partie avait l'idée de recueillir des règles de morphologie pour et avec chaque groupe de traducteurs spécifiques à une langue. Une fois que les règles ont été collectées, elles pourraient ensuite être intégrées aux différentes technologies. Cela paraissait être une bonne idée, mais il était difficile d'entammer le projet en raison d'un manque de fonds pour construire l'infrastructure nécessaire ou d'avoir le temps nécessaire pour lever des fonds, entre autres.

Découvrez l'outil d'environnement de traduction Lilt avec une proposition très sympa qui pourrait très bien être la solution. La dernière version de Lilt introduit un moteur de « morphologie neuronale » pour toutes les langues actuellement prises en charge à l'exception du chinois (donc : EN, DA, NL, FR, DE, IT, NO, PO, PT, RU, ES, SV).

Cependant, voici la pure vérité : lorsque j'ai lu le communiqué de presse pour la première fois il y a quelques semaines, j'ai levé les yeux au ciel et j'ai pensé que les personnes chez Lilt pensaient simplement qu'il était sage de balancer un peu de « neuronal » tant que c'était tendance.

Il se trouve que je faisais erreur cependant, comme j'ai pu le constater lorsque j'ai parlé avec John DeNero de Lilt, qui est l'architecte de cette partie du système de Lilt. John a essayé de m'expliquer ce que le système fait et pourquoi il peut faire une grande différence. Ce n'était pas si difficile de comprendre la seconde partie, mais mon esprit non technique avait du mal à comprendre la première partie.

(Soit dit en passant, nous supposons toujours que c'est nous, les moins férus de technologie, qui devons être pris en pitié lorsque nous ne comprenons pas la technologie. Mais pouvez-vous imaginer à quel point la vie des personnes enclins à la technique est pitoyable lorsqu'ils doivent nous parler comme à des enfants pour communiquer ?)

Cet article fournit une bonne synthèse du système, qui analyse essentiellement de grands corpus monolingues, détecte des modifications morphologiques (en théorie, il pourrait s'agir de toute sorte de modification ; dans la pratique, Lilt se concentre sur les suffixes désormais), et les classifie. Étant donné que tout mot est évalué et également classé dans un contexte, le système est en mesure de faire la distinction entre la fin adverbiale -ly en anglais lorsqu'il rencontre « gladly » et « only ». En utilisant la même analyse contextuelle, le système est également en mesure de faire suppositions éclairées sur la transformation morphologique de mots inconnus. (Par exemple, il peut ne jamais avoir rencontré le terme « loquacious », mais il y a des chances qu'il suppose, correctement, que la transformation adverbiale soit « loquaciously »).

Cela fonctionne avec toutes les langues (qui utilisent la morphologie, c'est pourquoi le chinois est exclu par exemple), à condition qu'il y ait suffisamment de matériel de corpus pour former le système. Le temps qu'il faut pour qu'une nouvelle langue soit entraînée est d'environ 2,5 jours (sur des ordinateurs très puissants). C'est tout.

Aujourd'hui, ce n'est pas parfait (qu'est-ce qui l'est ?). John était très ouvert dans son évaluation à propos des endroits où le système échoue. Il a tendance à échouer avec une morphologie irrégulière (il peut ne pas reconnaître que « geese » soit le pluriel de « goose » ou que « well » soit la forme adverbiale de « good »), et il y a environ 5 % des cas où John a estimé que le moteur aurait dû faire un jugement correct et ne l'a pas fait.

D'autre part, les correspondances de terminologie ont augmenté d'un tiers pour ses utilisateurs depuis que Lilt a introduit le système il y a deux semaines.

Je considère cela comme un saut quantique, en particulier parce que cela profitera non seulement aux grandes langues européennes et asiatiques (le cas échéant), mais aussi à la longue à d'autres langues. Eh bien, vous pourriez dire que Lilt ne traîte qu'une poignée de langues, alors est-ce que ce ne serait pas la même chose ? La réponse à cela est (un double) non. Tout d'abord, vous pouvez vous attendre à ce que Lilt continue à ajouter des langues, et, plus important encore, le module utilisé pour construire ces moteurs de morphologie neuronale est open source et disponible pour chaque développeur de technologie de traduction ici.

Voici ce que John a dit sur le moteur disponible et sa maniabilité :

« Voici notre version open source du système de morphologie. Il est publié comme un projet universitaire et n'a pas d'appui formel, donc ce n'est pas un produit. Si quelqu'un voulait l'utiliser, il devrait le comprendre tout seul, (bien qu'évidemment je sois heureux de répondre aux questions). »

Alors, il faut s'y mettre, Kilgray et SDL et Atril et Wordfast et, et . . . .

Il est également très prometteur qu'il y ait d'autres domaines où les connaissances morphologiques puissent être utilisées par un système de traduction : qu'est-ce que vous diriez de changer activement la flexion d'un terme qui est automatiquement inséré en fonction de son utilisation dans la source ? Ou que diriez-vous de changer cette flexion lors de la révision des correspondances approximatives ? Ou lorsque vous corrigez des suggestions de traduction automatique ?

Tout est possible avec ça. Faites preuve de créativité !