Al hacer una búsqueda de haz en modelos de secuencia a secuencia, se exploran las próximas palabras por orden de probabilidad. Sin embargo, durante la decodificación, puede haber otras limitaciones u objetivos que deseamos maximizar. Por ejemplo, la duración de la secuencia, la puntuación BLEU o la información mutua entre las oraciones de destino y de origen. Para dar lugar a estos deseos adicionales, los autores agregan un término Q adicional a la probabilidad que captura el criterio adecuado y luego selecciona palabras según este objetivo combinado.
La dificultad aquí es que no conoceremos los valores de estas cantidades, sino hasta que hayamos terminado nuestra decodificación. Por ejemplo, no conoceremos la longitud de la secuencia que vamos a producir hasta que hayamos terminado de decodificar la oración. Para resolver este problema, los autores toman a Q como una función que tiene las siguientes entradas: la oración de origen, el prefijo de los símbolos de destino previamente producidos y el estado oculto actual del decodificador. Según esta información, se predice la cantidad en cuestión. En el ejemplo de la longitud de la secuencia, predice el número de tokens de producción que generará el decodificador.
Artículo: Learning to Decode for Future Success (Aprender a decodificar para el éxito futuro)
Autores: Jiwei Li, Will Monroe y Dan Jurafsky
Publicación: Universidad de Stanford