Un problema importante en la implementación eficaz de los sistemas de aprendizaje automático en la práctica es la adaptación de dominio: existe un conjunto grande de datos, supervisado y auxiliar, y un conjunto de datos más pequeño de interés, y se usa el conjunto de datos auxiliar para aumentar el desempeño en el conjunto de datos más pequeño. Este documento contempla el caso en el que tenemos conjuntos de datos K de dominios distintos y se adaptan rápidamente a un nuevo conjunto de datos. Aprende modelos separados K en cada uno de los conjuntos de datos K y trata a cada uno como experto. Luego, dado un nuevo dominio, crea otro modelo para este dominio, pero, además, calcula la atención sobre los expertos. Calcula la atención a través de un producto escalar que calcula la similitud de la representación oculta del nuevo dominio con las representaciones de los otros dominios K.
Además de esta idea central, los autores proponen algunas modificaciones para mejorar el desempeño. En la primera, calculan una forma adicional de una atención. Esta vez, toman el producto interno entre la capa oculta del nuevo dominio y la incrustación de etiquetas de la producción más probable de las redes expertas. También concluyen que se mejora el desempeño si se eligen de forma dispersa a los expertos solo manteniendo los mejores expertos K distintos de cero. Eligen K a través de la búsqueda de cuadrículas en el conjunto de validación.
Artículo: Domain Attention with an Ensemble of Experts (Atención de dominio con un conjunto de expertos)
Autores: Young-Bum Kim, Karl Stratos, Dongchan Kim