Wenn Sie Beam-Suchen in Sequenz-Sequenz-Modellen durchführen, werden die nächsten Wörter in der Reihenfolge ihrer Wahrscheinlichkeit untersucht. Beim Decodieren können für uns jedoch andere Einschränkungen gelten oder es kann Ziele geben, die wir maximieren möchten. Beispiele sind Sequenzlänge, BLEU-Score oder gegenseitige Informationen zwischen Ziel- und Quellsätzen. Um diesen zusätzlich erwünschten Punkten gerecht zu werden, für die Autoren einen weiteren Begriff Q für die Wahrscheinlichkeit der Erfassung des angemessenen Kriteriums hinzu und wählen Wörter dann basierend auf diesem kombinierten Ziel.
Die Schwierigkeit besteht darin, dass wir die Werte dieser Mengen erst kennen, wenn wir unsere Decodierung abgeschlossen haben. Wir wissen beispielsweise nicht, wie lange die Sequenz, die wir ausgeben werden, ist, bis wir die Decodierung des Satzes tatsächlich abgeschlossen haben. Um dieses Problem zu lösen, trainieren die Autoren Q als Funktion mit den folgenden Inputs: Quellsatz, Präfix der zuvor ausgegebenen Zielsymbole und der aktuell verborgene Zustand des Decoders. Anhand dieser Informationen wird die fragliche Menge vorausgesagt. Im Sequenzlängenbeispiel wird die Anzahl der Output-Tokens vorausgesagt, die der Decoder generieren wird.
Aufsatz: Learning to Decode for Future Success
Autoren: Jiwei Li, Will Monroe, Dan Jurafsky
Veröffentlichung: Stanford University