La inteligencia artificial de las lenguas perdidas

Innovación

Durante siglos, nadie pudo descifrar los jeroglíficos egipcios. Una de las grandes civilizaciones del mundo antiguo, el reino de los papiros, permanecía ininteligible. Pero un dispositivo, también antiguo, destapó la cultura del Nilo ante nuestros ojos.

Los jeroglíficos no estaban solos en el universo de las lenguas perdidas. Hoy todavía existen alfabetos antiguos que no entendemos y lenguas sin apenas vestigios escritos que nunca llegaremos a comprender. En un mundo hipercomunicado, existen decenas de lenguas indescifrables, lenguas de las que no sabemos lo suficiente como para entenderlas. Pero un algoritmo de machine learning del MIT podría redirigir el rumbo de la historia.

La piedra de Rosetta y las lenguas perdidas

La invención de la escritura cambió el mundo antiguo. Todo parece haber empezado en Mesopotamia hace más de 5000 años, aunque se han encontrado vestigios de sistemas de protoescritura anteriores. La escritura cuneiforme que desarrolló la civilización sumeria sobre tablillas de arcilla iría contagiando, con el paso de los siglos, el resto del planeta. Después llegaron los jeroglíficos egipcios y, pronto, también en el valle del Nilo, la escritura con tinta sobre papiro que conquistó a los griegos.

De forma paralela, la escritura surgió en otros lugares del mundo sin que, se cree, mediase contacto entre las civilizaciones. Los primeros restos de la escritura simbólica china tienen más de 3000 años de antigüedad. Alrededor del 1000 antes de Cristo, las civilizaciones centroamericanas también contaban ya con sistemas de escritura. Pero volvamos a Egipto y Grecia.

A pesar de lo delicado de los papiros y los percances que sufrieron las primeras bibliotecas (como los famosos incendios de Alejandría), la escritura griega llegó hasta nuestros días de forma comprensible. Sin embargo, el significado de los jeroglíficos egipcios se perdió en la historia. Todo cambió cuando en 1799 se descubrió la piedra de Rosetta, el primer texto plurilingüe del mundo antiguo. Sobre la roca, estaba grabado el mismo texto en griego antiguo, escritura demótica (desarrollada al final del Antiguo Egipto) y escritura jeroglífica.

Aquel dispositivo enviado desde el pasado permitió descifrar por primera vez una lengua que se creía perdida. Desde entonces, han aparecido otras inscripciones plurilingües, pero la piedra de Rosetta sigue siendo la referencia en el estudio de lenguas indescifrables.

A lo largo de la historia, se estima que han existido más de 31 000 lenguas diferentes. Hoy en día, unas 6000 se mantienen vivas, aunque más de la mitad tienen menos de 10 000 hablantes. Es decir, la mayoría de lenguas que han existido está muerta o en peligro de extinción. Esto no significa, claro, que se vayan a perder para siempre. Muchas se pueden escribir con alfabetos y otros sistemas conocidos, lo que nos asegura, al menos en el horizonte cercano, que vamos a poder seguir leyendo todo lo que haya quedado escrito.

Inteligencia artificial para entender lo indescifrable

Hoy por hoy existen más de 40 lenguas que han llegado hasta nuestros días de forma escrita, pero que no podemos entender. Algunas usan sistemas logosilábicos, como las lenguas mayas o la escritura cuneiforme sumeria, otras usan sistemas silábicos, antepasados de los alfabetos, y otras son, simplemente, ambiguas. En la mayor parte de los casos, disponemos de pocas evidencias. Es decir, conocemos demasiado poco de estas lenguas como para poder descifrarlas. Y no podemos esperar a que exista una piedra de Rosetta de cada lengua.

Los investigadores del Computer Science and Artificial Intelligence Laboratory (CSAIL) del MIT (Estados Unidos) han desarrollado un algoritmo capaz de descifrar lenguas sin tener conocimiento previo de ellas y, al mismo tiempo, de relacionar sus hallazgos con los sistemas de escritura de otras lenguas perdidas.

Para hacer realidad lo que parece imposible, el algoritmo de machine learning utiliza el conocimiento acumulado durante siglos. Con ellos, define reglas que limitan las posibilidades. Por ejemplo, las lenguas suelen evolucionar siguiendo ciertos patrones. Uno de los más comunes es que no suelen eliminar sonidos por completo, sino que lo más habitual es sustituir uno por otro (la pe, la te y la ce latinas derivan en be, de y ge en castellano).

El algoritmo incorpora esta y otras reglas a partir de las cuales es capaz de estudiar todas las probabilidades para descifrar un input determinado. Así logra segmentar y ‘entender’ palabras y buscar correlaciones probables en otros sistemas conocidos. A través de este sistema, la profesora del MIT Regina Barzilay y el estudiante de doctorado Jiaming Luo lograron descifrar la lengua ugarítica y la lineal B, una antepasada del griego antiguo. Ambas son conocidas, con lo cual los investigadores pudieron comparar los resultados.

El algoritmo también ha demostrado su valía para comprobar la relación entre lenguas conocidas. Entre otros idiomas, los investigadores estudiaron el parentesco del íbero, hablado en el levante de la península Ibérica, y el euskera. Aunque encontraron trazos comunes, concluyeron que ambas lenguas no estaban relacionadas.

El próximo paso es pulir el algoritmo para que sea capaz de identificar el significado semántico de palabras desconocidas. “Por ejemplo, podemos identificar las referencias a personas o lugares y luego investigarlas a la luz de las evidencias históricas”, señala Barzilay. “Estos métodos […] se utilizan en varias aplicaciones de procesamiento de texto en la actualidad y son muy precisos, pero la pregunta clave es si las tareas son factibles sin datos del idioma antiguo con los que entrenar el algoritmo”.

Más de 40 lenguas perdidas, de todas las épocas de la historia y de todos los rincones del mundo, esperan la llegada de una nueva piedra de Rosetta que les permita comunicar su mensaje al mundo. Llevan miles de años aguardando. Quizá un algoritmo tenga la respuesta a todo.

Por Juan F. Samaniego

Imágenes | Wikimedia Commons/Sharon Mollerus, Clay Gregory, Pxhere

Archivado en
Subir