EL ÍNDICE DE LOS IDIOMAS MÁS RAROS DEL MUNDO


EL ÍNDICE DE LOS IDIOMAS MÁS RAROS DEL MUNDO

Aitzol Altuna Enzunza



¿Es el euskera más difícil que el castellano-francés...o es más bien al contrario?

La facilidad o dificultad para aprender un idioma, está muy condicionada por el conocimiento previo que tenga esa persona de otros idiomas, por lo que una clasificación entre idiomas fáciles y difíciles puede ser muy subjetiva.

Sí que existe un estudio que intenta analizar los idiomas de manera global, introduciendo parámetros objetivos para realizar esta clasificación, aprovechándose de la inteligencia artificial y de la big data.

Lenguas mutuamente inteligibles

El proyecto es de la empresa estadounidense de Silicón Valley IDIBON, la cual se dedica a desarrollar software relacionado con los idiomas: “Estamos en el negocio del procesamiento de lenguaje natural con muchos idiomas diferentes. Hasta ahora hemos trabajado en: inglés, portugués, español, italiano, francés, ruso, alemán, turco, árabe, japonés, griego, el chino mandarín, el persa, el polaco, el holandés, el sueco, el serbio, el rumano, el coreano, el húngaro (magiar), el búlgaro, el hindi, el croata, checo, ucraniano, finlandés, hebreo, urdu, catalán, eslovaco, indonesio, malayo, vietnamita, el bengalí, el tailandés, y un poco menos otros idiomas como en letón, estonio, lituano, kurdo, Yoruba, amárico, zulú, hausa, kazajo, sindhi, punjabi, tagalo, cebuano, danés y navajo".


El procesamiento del lenguaje natural (PNL), consiste en encontrar patrones en el lenguaje, por ejemplo, tomar montones de textos no estructurado y extraer automáticamente su estructura. Pero, hasta ahora, el inglés era el idioma central por su gran número de estudios.

"Idibon se formó para llevar tecnologías lingüísticas a todos los idiomas del mundo. Solo el 5% de las conversaciones del mundo cada día son en inglés, pero a medida que el mundo se conecta a Internet, la mayoría de las personas quedan excluidas. Las tecnologías lingüísticas están la mayoría en inglés.

Los motores de búsqueda hasta el filtrado de spam, funcionan solo en unos pocos de los 7.000 idiomas del mundo. En estas y otras tecnologías lingüísticas más avanzadas, como los asistentes personales inteligentes y el análisis social a escala, nos estamos quedando cortos al no permitir que las personas ingresen en la era digital con sus propios términos lingüísticos (...).

A nivel mundial, nuestros productos impactaron a empresas líderes. Por ejemplo, el mayor fabricante de teléfonos inteligentes se volvió más inteligente en más idiomas (...)" (Página web de la compañía: https://idibon.com/ y https://youtu.be/VvO5ylhI_co)-

La empresa Indibon creó el Atlas Mundial de Estructuras Lingüísticas (WALS en sus siglas en inglés), el cual evalúa 2.676 idiomas en un montón de características lingüísticas diferentes. Estas características incluyen el orden de las palabras, los tipos de sonidos, las formas de hacer una negación y muchas otras más: 192 características diferentes del lenguaje en total.


WALS es una gran base de datos de propiedades estructurales de las lenguas recopiladas a partir de materiales descriptivos por un equipo de 55 autores especialistas (fonológicas, gramaticales, léxicas). WALS nos permite tener una visión mundial, es decir, evaluar cada idioma en términos de lo inusual que es para cada característica comparándolo con otros 2.675 idiomas de todo el mundo.

La Universidad de Oxford, publicó por primera vez el Atlas Lingüístico WALS en el año 2005 en forma de libro con un CD (https://www.eva.mpg.de/lingua/research/tool.php).

Sin embargo, desde el 2008 se publica en Internet y se mantiene actualizado gracias a la asociación científica alemana Max Planck. Este atlas es una herramienta de un valor incalculable, pueden realizarse búsquedas por el nombre del idioma, de la familia lingüística o por algún rasgo de la gramática de la lengua.

La información que ofrece a quien consulta la base tiene diferentes aspectos como el geográfico (la ubicación de la lengua) o su afiliación lingüística (muestra las lenguas de la misma familia), así como otros de tipología lingüística básica: los rasgos de cada una de las lenguas https://www.geografiainfinita.com/2019/06/wals-el-atlas-de-los-rasgos-linguisticos/



El estudio de WALS

En algunas características, los datos en WALS son bastante escasos, por lo que el estudio previo que presentaron se limitaba a las 165 características que tienen al menos 100 idiomas. En esta etapa, también se eliminaron los idiomas que tienen menos de 10 de estas características, por lo que el estudio completo se reduce a 1.693 idiomas.




Por ejemplo, una de las características del estudio es el orden de las palabras, en inglés es sujeto-verbo-objeto (SVO): hay 1.377 idiomas que están codificados por el orden de palabras en WALS y el 35,5% de ellos tienen este orden SVO. Mientras tanto, solo el 8,7% de los idiomas comienzan con un verbo, como el galés, el hawaiano y el majang (Etiopía), por lo que, lingüísticamente, comenzar con un verbo es inusual o raro.

Ahora bien, un problema adicional era una gran cantidad de colinealidad entre muchas de estas 165 características. Siguiendo con el ejemplo, el orden general SVO tiene una colinealidad con otra característica que se mide en WALS, que era ver si un idioma usa separados objeto/verbo y sujeto/verbo, lo cual da un resultado muy similar, por lo que se rechazaron las características que estaban fuertemente correlacionadas entre sí. 

Finalmente, el estudio se limitó al análisis de las 21 características principales de un idioma:

1: Orden de objeto y verbo

2. Orden de adjetivo y sustantivo

3: Orden de morfema negativo y verbo

4: Medios morfológicos menores de señalización de negación

5: Posición de los afijos de aspecto temporal

6: Preguntas polares

7: Posición de los afijos posesivos pronominales

8: Expresión de sujetos pronominales

9: Consonantes uvulares (que se pronuncia posicionando la lengua en la parte de atrás de la boca)

10: La prohibición

11: Mano y brazo

12: Dedo y mano

13: Distinciones de género en pronombres personales independientes

14: Ubicaciones de tensión fija

15: El nasal velar (un tipo de consonantes)

16: Sistemas imperativo-hortativos (exhortativos)

17 Construcciones causativas no perifrásticas

18: Conjunción nominal y verbal

19: Sujetos complementarios 'Quiero'

20: Posesión predicativa

21: Presencia de consonantes o vocales poco comunes

Adicionalmente, se consideró que no todas la características debían de tener el mismo peso dentro de las "rarezas" de un idioma, por lo que se ponderó cada valor o característica y se tomó la media armónica. De ahí salió el Índice de Rareza (Weir-Index), que sería el promedio de las 21 características estructurales principales de los idiomas ponderando el peso de cada una de ellas.

Adjuntamos el listado completo de 1.563 idiomas con el que se ha hecho este estudio Weir-Index al final del artículo (del resto de idiomas, no hay datos suficientes).

Según el Atlas WALS:
TRIÁNGULO AZUL: Idiomas entre 2 y 4 vocales (son 93)
PUNTO AMARILLO: Idiomas con 5 y 6 vocales (288)
TRIÁNGULO ROJO: Idiomas entre 7 y 17 vocales (183)
Las hay con más de 14 vocales


¿Qué es raro? Lo menos frecuente.

Veamos dos ejemplos. Una de las características que distinguen a los idiomas es cómo hacen preguntas de SÍ/NO. La gran mayoría de los idiomas tienen una partícula de pregunta que se adhieren en algún lugar (como el ka al final de una pregunta japonesa). De los 954 idiomas codificados para esto en WALS, 584 de ellos tienen partículas de preguntas.




Pero, cambiar el orden de palabras en las preguntas como en el caso del inglés, tan solo ocurre en el 1,4% de los idiomas estudiados, es decir, en 13 idiomas. Es más, la mayoría de ellos provienen de Europa (9): alemán, checo, holandés, sueco, noruego, frisón, inglés, danés y castellano-español.
 
"English grammar is also sometimes unusual. English uses varying word orders to distinguish between questions and statements – meaning that the subject of the sentence precedes the verb in statements. Take the phrase “life is a box of chocolates” for example. Here, the order is subject (“life”) followed by the verb (“is”). In the question, “is life a box of chocolates?”, the order of these elements is reversed.
In a WALS survey of 955 languages, fewer than 2% of languages in the sample used Englishlike differences in sentence structure for questions. Over 50% of the languages added a question particle to differentiate a question from a statement. In Japanese, for example, you add the question particle “ka” to a statement to turn it into a question. The second most common strategy in WALS was to change the intonation pattern, such as changing a falling intonation pattern (for a statement) to a rising one (for a question). In contrast, Chalcatongo Mixtec (an indigenous language of Mexico) is a highly atypical language because it does not use any grammatical strategy to distinguish between questions and statements"

Pero, hay una forma aún más inusual de hacer las preguntas de SÍ/NO y eso es lo que hace Chalcatongo Mixteco: que es no hacer nada en absoluto. Es la única lengua estudiada que no tiene partícula, ni cambio de orden de palabras, ni cambio de entonación....No hay absolutamente ninguna diferencia entre una pregunta interrogativa de SÍ/NO y una simple frase declarativa.


Otra cuestión con la que los idiomas tienen que lidiar, es qué hacer con temas tan simples como los sujetos pronominales o pronombres (yo, tú, él...). La forma más común de solucionarlo, es agregar la información al verbo: 437 de los 711 idiomas lo hacen, como el español, el italiano y el portugués. El holandés, el alemán y el noruego como el inglés, prefieren tener pronombres de sujetos que están presentes en la oración (normalmente), pero, esto solo lo hacen 82 de los 711 idiomas codificados en WALS.

Kutenai (100 hablantes en Columbia Británica, Canadá) y Mumuye (400.000 hablantes en Nigeria), hacen algo aún más inusual: tienen algo así como pronombres de sujeto que van en posiciones diferentes. Y aún más inusual que esto es Chalcatongo mixteco nuevamente: combina varias estrategias diferentes.

Los idiomas más raros del mundo:

Si tomamos para su estudio tan solo los idiomas que más información tienen en la base WALS, sale un listado más corto de 239 idiomas de todo el mundo. En este listado, el idioma con mayores diferencias o rarezas que se alejan de la media es el mencionado Chalcatongo Mixteco, un idioma tonal con verbo-inicial hablado por 6.000 personas en Oaxaca, México. 

El segundo idioma entre los raros es hablado en Siberia (Rusia) por 22.000 personas: el Nenets (del que proviene una palabra común en muchos idiomas: parka). El número tres es choctaw, hablado por unas 10.000 personas, principalmente en Oklahoma (USA).

Pero, aquí está lo curioso: algunos de los idiomas más extraños, raros o inusuales del mundo, son idiomas con muchos millones de hablantes y muy conocidos: el alemán, el holandés, el noruego, el checo, el castellano-español y el chino-mandarín. Pero, también el inglés que es el número 33 en el Índice de Rarezas del Idioma en ese listado reducido de 239.

Chalcatongo, al norte de México


Los 25 idiomas más raros del mundo por continentes de los 239 analizados:

· En América del Norte: Chalcatongo Mixtec, Choctaw, Mesa Grande Diegueño, Kutenai y Zoque.

En Sudamérica: Paumarí y Trumai;

En Australia/Oceanía: Pitjantjatjara y Lavukaleve.

En África: Harar Oromo, Iraqw, Kongo, Mumuye, Ju|' hoan, y Khoekhoe.

En Asia: nenets, armenio oriental, abjasio, ladakhi y mandarín.

En Europa: alemán, holandés, noruego, checo y castellano-español.



Los 5 idiomas menos raros del mundo:

Curiosamente, entre los idiomas más "normales" o con menos excepciones lingüísticas sobre la media, los hay algunos algunos que tienen fama de no serlo, como es el caso del lituano, el indonesio, el turco, el euskera y el chino cantonés. Estos 5 idiomas tienen realmente un Índice de Rareza bajo.


El euskera, por ejemplo, es el 230 de esos 239, por tanto, sería un idioma de los más "normales" en cuanto a su composición sintáctica, entonación o fonemas, y es el 1.402 en el listado completo de 1.563 idiomas, estaría por tanto entre el 10% de los idiomas con menos rarezas.

Este índice, nos da idiomas aislados como el euskera como estándar o poco raros, pero otros igualmente aislados como el kutenai (USA-Canadá) como una de las lenguas más extrañas de todas, por lo que, el no tener otros idiomas de la misma familia lingüística no influye en este índice.


Aún más sorprendente, es que el chino mandarín está en el top 25 de los más extraños o con características que se salen de la media y el chino cantonés entre los últimos 10. Esto tiene que ver con el hecho de que tienen diferentes sonidos: el mandarín (a diferencia del chino cantonés), tiene continuos uvulares (que se pronuncian en una posición forzada de la lengua) y tiene algunos límites en las "nasales velares" (un tipo de consonantes poco frecuentes).



En la parte inferior del Índice de Rareza, hay dos idiomas de los que has oído hablar y tres de los que quizás no tengas ese concepto de ellos: el húngaro o magiar, normalmente reconocido como un bicho raro lingüístico, sale como totalmente típico o estándar en estas dimensiones. El chamorro (una lengua de Guam en Oceanía hablada por 95.000 personas), el ainu (solo quedan un puñado de hablantes en Japón, está casi extinto) y el purépecha (55.000 hablantes, la mayoría en México), son muy normales.

Pero, el idioma más súper típico de todos y no desviado en sus características lingüísticas, con un índice de rareza de tan solo 0,087, es el hindi, que tiene una sola característica extraña, este idioma se habla en la India y Paquistán principalmente, es el tercer idioma más hablado del mundo después del chino mandarín y del inglés con 680 millones de hablantes.

Cartel en los diferentes idiomas hablados en el Estado de Israel



ÍNDICE DE RAREZA DE LOS IDIOMAS (WEIR-INDEX)

LOS 1.563 IDIOMAS DEL MUNDO CLASIFICADOS SEGÚN SUS RAREZAS DE MAYOR A MENOR:

EL FRISIO: está en el puesto 41 (el primer idioma europeo que aparece en el listado de WALS con más rarezas)

ALEMÁN: en el 81

SUECO: en el 82

DANÉS: el 87

HOLANDÉS: en el 91

NORUEGO: en el 106

CHECO: en el 148

CASTELLANO-ESPAÑOL: en el 150

INGLÉS: en el 178

FRANCÉS: en el 184

ISLANDÉS: en el 189

GRIEGO: en el 315

IRLANDÉS: en el 344

CATALÁN: en el 878

RUSO: en el 981

UCRANIANO: en el 1039

ITALIANO: en el 1099

ESTONIO: en el 1105

RUMANO: en el 1223

BRETÓN: en el 1284

EUSKERA: en el 1402

PORTUGUÉS: en el 1426

HÚNGARO (MAGIAR): en el 1456




Artículo extrapolado y traducido del Publicado el 21.06.2013 en: The weirdest languages (archive.org)