Ce que nous lisons : Domain Attention with an Ensemble of Experts (Le domaine de l'attention avec un ensemble d'experts)

by Spence Green
2 Minute Read

Un problème important dans le déploiement efficace de systèmes d'apprentissage automatique en pratique est l'adaptation de domaine, en raison d'un grand ensemble de données supervisées auxiliaires et d'un plus petit ensemble de données d'intérêt, en utilisant l'ensemble de données auxiliaires pour augmenter les performances sur le plus petit ensemble de données. Cet article examine le cas où nous avons des ensembles de données K de domaines distincts qui s'adaptent rapidement à un nouvel ensemble de données. Il apprend les modèles K distincts de chacun des ensembles de données K et traite chacun comme des experts. Puis selon un nouveau domaine donné, il crée un autre modèle pour ce domaine, mais en plus, il fait attention aux experts. Il calcule l'attention par le biais d'un produit à points qui calcule la similitude de la représentation cachée du nouveau domaine avec les représentations des autres domaines de K.

En plus de cette idée de base, les auteurs proposent quelques modifications pour améliorer les performances. Dans un premier temps, ils calculent une forme supplémentaire d'attention. Cette fois, ils prennent le produit intérieur entre la couche cachée du nouveau domaine et l'intégration d'étiquettes de la production la plus probable des réseaux experts. Ils découvrent également que choisir peu d'experts en gardant uniquement les meilleurs experts non nul de K améliore les performances. Ils choisissent K via recherche de grille sur l'ensemble de validation.

Article : Domain Attention with an Ensemble of Experts

Auteurs : Young-Bum Kim, Karl Stratos, Dongchan Kim