Lors de la recherche par faisceau en séquence pour les modèles de séquence, on découvre les mots suivants par ordre de probabilité. Cependant, lors du décodage, il peut y avoir d'autres contraintes ou des objectifs que nous souhaitons maximiser. Par exemple, la longueur de la séquence, le score BLEU ou les informations mutuelles entre les phrases cibles et sources. Afin de pouvoir accueillir ces desiderata supplémentaires, les auteurs ajoutent un terme Q supplémentaire à la probabilité de capturer le critère approprié et choisissent ensuite des mots en fonction de cet objectif combiné.
La difficulté ici est que nous ne connaissons pas les valeurs de ces quantités jusqu'à ce que nous ayons terminé notre décodage. Par exemple, nous ne savons pas combien de temps dure la séquence que nous allons produire, jusqu'à ce que nous ayons fini de décoder la phrase. Afin de résoudre ce problème, les auteurs apprennent Q en tant que fonction qui a les entrées suivantes : la phrase source, le préfixe de symboles cibles précédemment traités et l'état caché du décodeur actuel. En fonction de ces informations, il prédit la quantité en question. Dans l'exemple de la longueur de la séquence, il prédit le nombre de jetons de sortie que le décodeur génèrera.
Article : Learning to Decode for Future
Auteurs : Jiwei Li, Will Monroe, Dan Jurafsky
Publication : Université de Stanford