Descubre la Espiral de la Perdición Lingüística: Cómo la IA Amenaza Lenguas Vulnerables en Wikipedia
Publicado el 26-09-2025
En la era de la inteligencia artificial y la globalización digital, donde las máquinas aprenden a «hablar» nuestros idiomas, surge una paradoja alarmante: la misma tecnología que promete democratizar el conocimiento está empujando a las lenguas minoritarias hacia una «espiral de la perdición» en plataformas vitales como Wikipedia. ¿Estamos, sin darnos cuenta, condenando a la extinción lingüística a través de nuestra propia creación?
Un Faro Que Se Apaga: El Caso de la Wikipedia Groenlandesa
La historia de la edición groenlandesa de Wikipedia es un crudo recordatorio de los peligros ocultos de la inteligencia artificial mal utilizada. Hace cuatro años, Kenneth Wehr, un joven obsesionado con la isla autónoma danesa, asumió la gestión de su Wikipedia en idioma groenlandés. Su primera acción fue drástica: borrar casi todo. Lo que parecía un vibrante corpus de más de 1.500 artículos, escrito por cientos de voluntarios, era en realidad un espejismo digital, una compilación de textos mayoritariamente generados o fuertemente influenciados por traductores automáticos, sin la contribución de casi ningún hablante nativo.
Wehr, quien ahora enseña groenlandés en Dinamarca, descubrió que las páginas estaban plagadas de errores gramaticales flagrantes, palabras sin sentido y, en ocasiones, incluso datos catastróficamente incorrectos, como una entrada que afirmaba que Canadá tenía solo 41 habitantes. Estos fallos se magnificaban en una lengua aglutinante como el groenlandés, donde las palabras se construyen uniendo prefijos y sufijos, creando significados altamente contextuales que los sistemas de traducción automática no logran captar. Para Wehr, la conclusión era ineludible: los traductores de IA eran «realmente malos en groenlandés», y el contenido, aunque «pareciera» groenlandés a sus autores, no lo era en absoluto.
La Amenaza Silenciosa: Cómo la IA Contamina el Pozo Lingüístico
Lo que sucede con el groenlandés no es un caso aislado. Wikipedia, el proyecto multilingüe más ambicioso después de la Biblia, con ediciones en más de 340 idiomas, se enfrenta a una crisis de calidad en sus versiones de lenguas minoritarias y vulnerables. Voluntarios de cuatro idiomas africanos estiman que entre el 40% y el 60% de los artículos en sus Wikipedias son traducciones automáticas sin corregir. En la edición inuktitut, una lengua indígena cercana al groenlandés, se calcula que más de dos tercios de las páginas contienen segmentos creados por IA.
Esta contaminación digital genera lo que los expertos denominan una «espiral de la perdición» lingüística. Los sistemas de inteligencia artificial, desde Google Translate hasta ChatGPT, aprenden los idiomas «rascando» enormes volúmenes de texto de internet. Para muchas lenguas con pocos hablantes y escasa presencia en línea, Wikipedia se convierte, irónicamente, en la principal, y a veces única, fuente de datos lingüísticos. Esto crea un ciclo vicioso: los errores gramaticales e imprecisiones en Wikipedia alimentan los modelos de IA, que luego producen traducciones aún más defectuosas. Estas traducciones de baja calidad, a su vez, son utilizadas por usuarios bienintencionados para «engrosar» las Wikipedias minoritarias, perpetuando el problema. Es el clásico principio de «datos basura entran, basura sale» (garbage in, garbage out).
Kevin Scannell, un experto en software para lenguas amenazadas, subraya la gravedad: «Estos modelos se construyen sobre datos crudos. Intentan aprenderlo todo sobre un idioma desde cero. No hay otra entrada. No hay libros de gramática. No hay diccionarios. No hay nada más que el texto que se introduce». Esta dependencia exclusiva de Wikipedia para lenguas como el malgache, yoruba, shona o incluso para 27 idiomas considerados «de bajos recursos» en 2022, amplifica el riesgo. Si Wikipedia está mal escrita en estos contextos, las consecuencias para la preservación lingüística de futuras generaciones pueden ser devastadoras.
¿Ayuda o Destrucción? El Dilema de la Automatización Irresponsable
La automatización siempre ha sido parte integral de Wikipedia, con bots que reparan enlaces, formatos y errores ortográficos, mejorando la plataforma. Sin embargo, la irrupción de la inteligencia artificial generativa, accesible para cualquiera, ha cambiado el panorama. Como señala Amir Aharoni del Comité de Idiomas de Wikipedia, «si se usa la traducción automática de manera responsable, puede ser eficiente y útil. Desafortunadamente, no se puede confiar en que todas las personas la usen de manera responsable».
Trond Trosterud, un lingüista computacional, ha identificado a los «secuestradores de Wikipedia»: usuarios que, con o sin buenas intenciones, utilizan herramientas de IA para generar contenido extenso y aparentemente plausible en lenguas minoritarias. Antes, solo armados con diccionarios, su capacidad de daño era limitada; ahora, con Google Translate o ChatGPT, pueden industrializar la producción de textos erróneos. Este fenómeno afecta desproporcionadamente a las lenguas vulnerables, para las cuales la IA es inherentemente menos fiable debido a la escasez de datos de entrenamiento, similitudes con otros idiomas o estructuras gramaticales complejas (como las lenguas aglutinantes).
Yuet Man Lee, un profesor canadiense, describe esta mentalidad como la «arrogancia de las grandes Wikipedias»: usuarios acostumbrados a comunidades activas asumen que sus errores en ediciones más pequeñas serán corregidos. Pero en «páramos yermos» como la Wikipedia inuktitut, nadie corrige. Aunque sus intenciones eran buenas —contribuir a una Wikipedia indígena canadiense—, Lee admite: «No pensé que nadie lo notaría… Ahora estoy pensando que pudo haber sido una mala idea. No consideré que podría estar contribuyendo a un bucle recursivo». Incluso la propia herramienta de Wikipedia, Content Translate, que busca facilitar la traducción, adolece de las mismas debilidades de los sistemas de traducción externa, lo que llevó a la Wikipedia en inglés a prohibir su uso para la mayoría de artículos.
Consecuencias Tangibles: Del Campo al Aula, la Deformación Lingüística
Los efectos de esta degradación lingüística no se limitan a las pantallas de los ordenadores. Abdulkadir Abdulkadir, un planificador agrícola en Nigeria, dedica horas a la Wikipedia en fulfulde, un idioma hablado por pastores y agricultores en el Sahel. Él ve un enorme potencial en Wikipedia como recurso para información vital sobre cultivos en un idioma comprensible para las comunidades rurales. Sin embargo, las traducciones automáticas son catastróficas: «enero» se traduce como «junio», «agosto» o «septiembre», y «cosecha» como «fiebre» o «bienestar». Dar esta información errónea podría «fácilmente dañarlos», subraya.
En otra región de Nigeria, Lucy Iwuala lucha por la Wikipedia en igbo, preocupada por su desplazamiento por el inglés. Encuentra artículos «ilegibles» y «con letras que no se usan en el idioma igbo», atribuyendo el daño a usuarios inexpertos que buscan aumentar rápidamente el perfil de la Wikipedia igbo con contenidos generados por IA. Ella advierte que esto desanima a los usuarios, alejándolos y haciéndolos «regresar a la Wikipedia en inglés».
El impacto cultural es profundo. Noah Ha‘alilio Solomon, profesor de lengua hawaiana, lamenta que un 35% de las palabras en algunas páginas hawaianas de Wikipedia sean incomprensibles. Para una lengua que ha luchado por recuperarse de la extinción, ver esta «mala representación» es doloroso: «Nos recuerda todas las veces que nuestra cultura y lengua han sido apropiadas». El colmo de la irresponsabilidad se observa en la proliferación de libros generados por IA en Amazon, que prometen enseñar lenguas indígenas como el inuktitut o el cree, pero que Richard Compton, un lingüista, describe como «completamente sin sentido». La IA, en lugar de democratizar el acceso, está creando un «campo minado» para estudiantes y hablantes.
Un Futuro Incierto: Resistencia y Esperanza en la Era Digital
Frente a la realidad de que, según la UNESCO, una lengua se extingue cada dos semanas, la Fundación Wikimedia mantiene que la responsabilidad final recae en las comunidades individuales para gestionar el contenido de sus Wikipedias. Sin embargo, ¿qué sucede cuando no hay una comunidad activa para levantar la voz o corregir errores? La Fundación argumenta que su papel es mantener la plataforma abierta, esperando que alguien eventualmente la reviva.
El caso del inari sami, una lengua hablada en una remota comunidad de Finlandia, ofrece un contrapunto esperanzador. Tras estar al borde de la extinción, la lengua ha sido revivida por una asociación que promueve su uso. Con 6.400 artículos en Wikipedia, todos editados por hablantes fluidos, el inari sami demuestra que con cuidado y compromiso, Wikipedia puede ser una herramienta poderosa para la diversidad cultural y lingüística. Fabrizio Brecciaroli, de la asociación, enfatiza: «No nos importa la cantidad. Nos importa la calidad». La Wikipedia inari sami se ha integrado incluso en el currículo escolar y ha servido para inventar nuevas palabras, adaptando la lengua a la era digital. Para Brecciaroli, la ausencia de un Google Translate en inari sami podría ser una bendición.
Existe la esperanza de que, si se inyecta suficiente contenido de alta calidad en línea, los grandes modelos de lenguaje puedan eventualmente aprender y mejorar la traducción de lenguas minoritarias, rompiendo el ciclo de «basura entra, basura sale». Sin embargo, la carrera contra el tiempo es feroz. El problema general de la contaminación de datos de entrenamiento de IA con contenido generado por IA es una preocupación creciente para el futuro de la ética de la inteligencia artificial y el procesamiento del lenguaje natural.
Conclusión: El futuro de muchas lenguas vulnerables pende de un hilo en la balanza de la era digital. La IA, una herramienta de poder inmenso, puede ser un aliado o un verdugo, dependiendo de cómo la humanidad decida usarla. El trágico destino de la Wikipedia groenlandesa, que ha sido condenada al cierre por su comunidad debido a la «sinrazón que podría tergiversar el idioma» producida por las herramientas de IA, es una señal de alarma. Modelos de lenguaje que no pueden contar hasta diez en groenlandés demuestran que, a pesar de los avances tecnológicos, la intervención humana consciente y la valoración de la calidad sobre la cantidad son cruciales para evitar que la inteligencia artificial se convierta en el epitafio de la diversidad lingüística global. La gobernanza de la inteligencia artificial debe priorizar la protección de este valioso patrimonio cultural.
Fuente original: How AI and Wikipedia have sent vulnerable languages into a doom spiral