Ein großes Problem beim effektiven Einsatz von maschinellen Lernsystemen in der Praxis ist die Domänenanpassung. Angesichts eines großen, unterstützenden und beaufsichtigten Datensatzes und eines kleineren Datensatzes von Interesse bedeutet das die Verwendung des unterstützenden Datensatzes, um die Leistung für den kleineren Datensatz zu erhöhen. In diesem Aufsatz wird ein Fall besprochen, bei dem K Datensätze aus einzelnen Domänen schnell an einen neuen Datensatz angepasst werden müssen. Das System lernt K separate Modelle zu jedem der K Datensätze und behandelt jedes als Experten. Angesichts einer neuen Domäne erstellt es dann ein weiteres Modell für diese Domäne, zusätzlich berechnet es aber die Aufmerksamkeit der Experten. Es berechnet die Aufmerksamkeit mittels eines Dot-Produkts, das die Ähnlichkeit der verborgenen Darstellung der neuen Domäne mit den Darstellungen der anderen K Domänen berechnet.
Zusätzlich zu dieser Kernidee schlagen die Autoren einige Modifizierungen vor, um die Leistung zu verbessern. Bei der ersten berechnen sie ein weiteres Formular der Aufmerksamkeit. Diesmal verwenden sie das innere Produkt zwischen der verborgenen Ebene der neuen Domäne und die Etiketteinbettung des wahrscheinlichsten Outputs der Expertennetzwerke. Sie stellen auch fest, dass die Leistung dadurch verbessert werden kann, dass nur spärlich Experten gewählt werden, indem nur die Top-K-Experten Non-Zero bleiben. Sie wählen K' über eine Rastersuche im Validierungssatz aus.
Aufsatz: Domain Attention with an Ensemble of Experts
Autoren: Young-Bum Kim, Karl Stratos, Dongchan Kim