En Lilt nos entristece ser testigo de los acontecimientos que se han desarrollado en Ucrania en las últimas semanas, y condenamos inequívocamente los actos de agresión de Rusia. Para nuestros colegas ucranianos, nuestra comunidad de traductores ucranianos y todos aquellos que tienen vínculos con el país, nuestro apoyo hacia ustedes es incondicional.
Los idiomas que se aprenden en la infancia influyen en casi todos los aspectos de la vida de una persona: su comunidad, su acceso a la información e incluso sus perspectivas profesionales. Esto lo observé con más precisión cuando viví en Oriente Medio, donde conocí a personas brillantes y ambiciosas que a menudo quedaban excluidas del trabajo intelectual por no hablar inglés. Si bien toda la humanidad comparte la habilidad para adquirir un lenguaje, y este es uno de los aspectos más fascinantes de la inteligencia humana, las diferencias lingüísticas pueden dividirnos social y económicamente.
Hace unas semanas, nuestros amigos de GALA ofrecieron de forma conjunta un seminario web con nuestro director general, Spence Green, llamado “Scaling Localization With Artificial Intelligence and Automation”. (Desarrollar la localización con la inteligencia artificial y la automatización).
Lilt se complace en anunciar hoy la adición del búlgaro y el esloveno a nuestra plataforma. De esta forma, Lilt admite oficialmente 40 idiomas (o 50 si se incluyen variaciones de idiomas, como el castellano y el español latinoamericano).
Hoy me complace anunciar que recaudamos 9,5 millones de dólares de una nueva financiación encabezada por Sequoia Capital. Bill Coughran, socio de Sequoia, se incorporará a nuestro consejo de administración. Todos nuestros inversionistas existentes, Redpoint Ventures, Zetta Venture Partners y XSeed Capital, participaron en la ronda. La financiación de la Serie A indica dos hitos importantes en la vida de una empresa: ingresos e impulso sólidos, y un plan convincente para la implementación de nuevo capital. También marca el inicio de una nueva asociación, en este caso entre nosotros, Bill y Sequoia. Nos entusiasma porque Bill es un líder único que ha contribuido a la ciencia, ha gestionado equipos técnicos grandes y ha sido director de empresas. Sequoia también ha financiado a las empresas que más admiramos, entre ellas Google, Apple y Stripe. En este artículo, describiré lo que hemos conseguido, lo que planeamos hacer y por qué estamos seguros de que Bill es el socio adecuado para lograrlo. Cómo llegamos aquí
Un problema importante en la implementación eficaz de los sistemas de aprendizaje automático en la práctica es la adaptación de dominio: existe un conjunto grande de datos, supervisado y auxiliar, y un conjunto de datos más pequeño de interés, y se usa el conjunto de datos auxiliar para aumentar el desempeño en el conjunto de datos más pequeño. Este documento contempla el caso en el que tenemos conjuntos de datos K de dominios distintos y se adaptan rápidamente a un nuevo conjunto de datos. Aprende modelos separados K en cada uno de los conjuntos de datos K y trata a cada uno como experto. Luego, dado un nuevo dominio, crea otro modelo para este dominio, pero, además, calcula la atención sobre los expertos. Calcula la atención a través de un producto escalar que calcula la similitud de la representación oculta del nuevo dominio con las representaciones de los otros dominios K.
Al hacer una búsqueda de haz en modelos de secuencia a secuencia, se exploran las próximas palabras por orden de probabilidad. Sin embargo, durante la decodificación, puede haber otras limitaciones u objetivos que deseamos maximizar. Por ejemplo, la duración de la secuencia, la puntuación BLEU o la información mutua entre las oraciones de destino y de origen. Para dar lugar a estos deseos adicionales, los autores agregan un término Q adicional a la probabilidad que captura el criterio adecuado y luego selecciona palabras según este objetivo combinado.
Los sistemas de TA neuronal generan traducciones de una palabra a la vez. Aun así, pueden generar traducciones fluidas porque eligen cada palabra basándose en todas las palabras generadas hasta ese momento. Por lo general, estos sistemas solo están entrenados para generar correctamente la próxima palabra basándose en todas las palabras anteriores. Un problema sistemático con este método de entrenamiento y traducción palabra por palabra es que las traducciones a menudo son demasiado cortas y omiten contenido importante. En el artículo Neural Machine Translation with Reconstruction, los autores describen una forma nueva e inteligente de entrenar y traducir. Durante el entrenamiento, se busca que el sistema no solo genere correctamente cada palabra próxima, sino que también genere correctamente la oración fuente original según la traducción que se generó. De esta manera, el modelo es recompensado por generar una traducción que sea suficiente para describir todo el contenido del texto fuente original.