Publicación invitada de Jost Zetzsche, originalmente publicada en la edición de 16–12–268 de The Tool Box Journal.
Algunos de ustedes saben que siempre me ha interesado la morfología. Déjenme decirlo de otra manera: he estado muy frustrado porque las herramientas de entornos de traducción que usamos no ofrecen morfología. Hay algunas excepciones, como SmartCat, Star Transit, Across y OmegaT, que ofrecen algunas herramientas morfológicas. Pero todos se limitan a una pequeña cantidad de idiomas, y cualquier esfuerzo para ampliarlos requeriría una codificación muy difícil y manual.
Otras herramientas, como memoQ, han decidido que es mejor ofrecer coincidencias parciales que hacer reglas lingüísticas morfológicas específicas, pero eso, claramente, tampoco es la mejor respuesta posible.
Entonces, ¿cuál es el problema? Además, en primer lugar, ¿qué es la morfología en las herramientas de entornos de traducción?
Bueno, ¿no sería bueno que todas las flexiones de una palabra en tu texto de origen se asocien automáticamente con la forma no flexionada de tu base terminológica o glosario y que eso se muestre en los resultados de búsqueda de terminología? E incluso, ¿no les parece innecesario tener que hacer esa pregunta cuando todas las herramientas deberían ofrecer ese servicio? En caso de que se lo pregunten, la respuesta a ambas preguntas es sí, sí; ¡en resumen, sí!
Por otro lado, hay una razón por la que estamos donde estamos. El costo. Si realmente tuviésemos que escribir reglas de morfología para todos los idiomas, estaríamos frente a una tarea imposible (y, de hecho, ¿qué son exactamente todos los idiomas?). Si se hace solo para los idiomas «importantes» (para los proveedores de tecnología eso significa «rentables»), al final terminaríamos en la misma situación que ya nos ofrecen las herramientas mencionadas anteriormente.
Hace unos años, un grupo de personas, entre ellas yo, tenía la idea de recopilar las reglas de morfología mediante la colaboración comunitaria para (y con) cada grupo de traductores específico para cada idioma. Después de recopilar las reglas, podrían integrarse a las diversas tecnologías. Parecía una buena idea, pero era difícil comenzar el proyecto debido a la falta de financiamiento para construir la infraestructura necesaria y/o el tiempo que habría sido necesario para recaudar fondos, entre otros problemas.
En ese momento, apareció la herramienta de entorno de traducción Lilt con una muy buena propuesta que podía ser la solución. La versión más reciente de Lilt presenta un motor de «morfología neuronal» para todos los idiomas admitidos actualmente, menos chino (EN, DA, NL, FR, DE, IT, NO, PO, PT, RU, ES y SV).
Sin embargo, esta es la verdad: Cuando leí el comunicado de prensa hace un par de semanas, con escepticismo pensé que las personas de Lilt creyeron conveniente usar la palabra "neuronal" porque está de moda.
Me enteré de que estaba equivocado cuando hablé con John DeNero de Lilt, que es el arquitecto de esta parte del sistema de Lilt. John intentó explicarme qué hace el sistema y por qué puede hacer una gran diferencia. No fue tan difícil entender la segunda parte, pero mi mente no técnica tenía dificultades con la primera.
(Por cierto, siempre suponemos que nos tienen que compadecer a nosotros, los que estamos menos inclinados a la tecnología, cuando no la entendemos. Pero, ¿pueden imaginarse lo frustrante que debe ser para los expertos tecnológicos cuando tienen que hablar con nosotros como si estuviesen hablando con bebés?)
Este artículo es un buen resumen del sistema, que básicamente analiza grandes corpus monolingües, detecta modificaciones morfológicas (en teoría, puede ser cualquier tipo de modificación; en la práctica, Lilt se centra en los sufijos en este momento) y los clasifica. Dado que toda palabra se evalúa y también se clasifica dentro de un contexto, el sistema puede distinguir entre la terminación adverbial -ly en inglés cuando se encuentra, por ejemplo, con «gladly» vs. «only». Con el mismo análisis contextual, el sistema también puede hacer conjeturas sólidas sobre la transformación morfológica de las palabras desconocidas. Por ejemplo, puede que nunca haya encontrado la palabra «loquacious», pero lo más probable es que suponga que la transformación adverbial sería «loquaciously».
Esto funciona con todos los idiomas (en los que se use la morfología; por lo que, por ejemplo, se excluye el chino), siempre que haya suficiente material de corpus para entrenar el sistema. El tiempo necesario para entrenar un idioma nuevo es aproximadamente 2,5 días (en computadoras muy poderosas). Eso es todo.
Cabe decir que no es perfecto (¿hay algo que lo sea?). John fue honesto en su evaluación de las fallas del sistema. Generalmente, falla con la morfología irregular (en inglés, quizá no reconozca «geese» como el plural de «goose» o «well» como la forma adverbial de «good»), y hay aproximadamente un 5 % de todos los casos en los que, según John, el motor debió haber hecho un juicio correcto y no lo hizo.
Por otro lado, el reconocimiento de la terminología ha aumentado un tercio entre sus usuarios, desde que Lilt presentó el sistema hace dos semanas.
Pienso que este es un salto enorme, particularmente porque no solo beneficiará a los grandes idiomas europeos y asiáticos (cuando corresponda), sino también al resto de idiomas no hegemónicos. Podrías decir que Lilt solo abarca algunos idiomas; por lo tanto, ¿no termina siendo lo mismo que se dijo antes? La respuesta es un «no» doble. En primer lugar, Lilt seguirá sumando idiomas y, principalmente, el módulo usado para construir estos motores de morfología neuronal es de código abierto y está disponible para cada desarrollador de tecnología de traducción aquí.
Esto es lo que dijo John sobre el motor disponible y su usabilidad:
«Este es nuestro lanzamiento de código abierto del sistema de morfología. Se lanzó como un proyecto académico y no tiene ningún soporte formal, así que no es un producto. Si alguien quisiera usarlo, tendría que descifrarlo por sí solo (aunque, por supuesto, pueden hacerme preguntas).»
Así que, póngase a trabajar, Kilgray y SDL y Atril y Wordfast y, y, y...
También es muy prometedor que haya otras áreas en las que el conocimiento morfológico puede ser usado por un sistema de traducción: ¿qué tal cambiar activamente la flexión de un término insertado automáticamente según su uso en el texto fuente? ¿O qué tal cambiar esa flexión al reparar coincidencias parciales? ¿O al reparar las sugerencias de la traducción automática?
No hay límites en esta área. ¡Usa toda tu creatividad!