Los sistemas de TA neuronal generan traducciones de una palabra a la vez. Aun así, pueden generar traducciones fluidas porque eligen cada palabra basándose en todas las palabras generadas hasta ese momento. Por lo general, estos sistemas solo están entrenados para generar correctamente la próxima palabra basándose en todas las palabras anteriores. Un problema sistemático con este método de entrenamiento y traducción palabra por palabra es que las traducciones a menudo son demasiado cortas y omiten contenido importante.
En el artículo Neural Machine Translation with Reconstruction, los autores describen una forma nueva e inteligente de entrenar y traducir. Durante el entrenamiento, se busca que el sistema no solo genere correctamente cada palabra próxima, sino que también genere correctamente la oración fuente original según la traducción que se generó. De esta manera, el modelo es recompensado por generar una traducción que sea suficiente para describir todo el contenido del texto fuente original.
A la hora de traducir, su sistema genera varias alternativas y elige la traducción final de forma tal que se cumplan dos condiciones simultáneamente: que la traducción sea predecible teniendo en cuenta el texto fuente y que el texto fuente sea predecible teniendo en cuenta la traducción. La obtención de esta coherencia bidireccional beneficia enormemente la calidad de la traducción. En sus experimentos, las longitudes de las traducciones eran más similares a las de referencia de humanos, y el sistema era menos propenso a generar demasiado o muy poco contenido en comparación con una referencia de TA neuronal sólida.
Denny Britz entregó un resumen más técnico de este artículo cuando se publicó originalmente y Zhaopeng Tu, el primer autor, respondió a esos comentarios.
Artículo: Neural Machine Translation with Reconstruction
Autores: Zhaopeng Tu, Yang Liu, Lifeng Shang, Xiaohua Liu y Hang Li
Lugar: Association for the Advancement of Artificial Intelligence (AAAI) 2017