Similitud léxica

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 27 de abril de 2022; las comprobaciones requieren 14 ediciones .

La similitud léxica (en lingüística ) es una medida de la medida en que las palabras de dos idiomas dados son léxicamente similares. La similitud léxica igual a uno (o 100%) significa la completa coincidencia de los dos idiomas dados , mientras que la igualdad 0 significa la ausencia total de palabras comunes en ellos.

Hay diferentes formas de determinar la similitud léxica , y los resultados obtenidos por diferentes métodos diferirán en consecuencia. Por ejemplo, el método adoptado en Etnología (una enciclopedia) es comparar una lista estandarizada de palabras en diferentes idiomas y encontrar palabras similares entre ellas tanto en ortografía como en significado. Usando este método, se encontró que el inglés tenía un 60% de similitud léxica con el alemán y un 27% con el francés .

La similitud léxica se puede utilizar para evaluar el grado de relación genética entre dos lenguas determinadas . Una similitud léxica de más del 85% significa que los dos idiomas comparados están relacionados entre sí, probablemente como dialectos relacionados.

La similitud léxica es solo uno de los indicadores de la inteligibilidad mutua de dos idiomas, ya que esta última a menudo depende del grado de similitudes morfológicas , fonéticas y gramaticales de los idiomas. Vale la pena señalar que la similitud léxica depende en gran medida de la lista estandarizada de palabras que se esté considerando. Por ejemplo, la similitud léxica entre el inglés y el francés es significativa en áreas relacionadas con la cultura , el litigio , y mucho menos en el área de las palabras de función básica. A diferencia de la inteligibilidad mutua, la similitud léxica solo puede ser simétrica entre dos idiomas.

La siguiente tabla muestra (según el libro de referencia Ethnologue [1] ) los valores de similitud léxica para pares de lenguas germánicas, romances y eslavas (la raya significa que no hay datos).

Código
de idioma
Idioma 1
Coeficientes de similitud léxica
catalán inglés Francés Alemán italiano portugués rumano romanche ruso sardo español
gato catalán una - - - 0.87 0.85 0.73 0.76 - 0.75 0.85
ing inglés - una 0.27 0,60 - - - - 0.24 - -
fra Francés - 0.27 una 0.29 0.89 0.75 0.75 0.78 - 0.80 0.75
deu Alemán - 0,60 0.29 una - - - - - - -
es italiano 0.87 - 0.89 - una - 0.77 0.78 - 0.85 0.82
por portugués 0.85 - 0.75 - - una 0.72 0.74 - - 0.89
Ron rumano 0.73 - 0.75 - 0.77 0.72 una 0.72 - - 0.71
Roh romanche 0.76 - 0.78 - 0.78 0.74 0.72 una - 0.74 0.74
rus ruso - 0.24 - - - - - - una - -
srd sardo 0.75 - 0.80 - 0.85 - - 0.74 - una 0.76
spa español 0.85 - 0.75 - 0.82 0.89 0.71 0.74 - 0.76 una
catalán inglés Francés Alemán italiano portugués rumano romanche ruso sardo español
Idioma 2 → gato ing fra deu es por Ron Roh rus srd spa

El uso de la lista Swadesh al comparar el ruso con otros idiomas eslavos da la siguiente imagen [2] :

Idioma comparable Porcentaje de vocabulario común con ruso
bielorruso 86%
ucranio 86%
Polaco 77%
checo / eslovaco 74%
búlgaro 74%
esloveno 74%
serbio 71%
macedónio 70%

Los datos de similitud se pueden utilizar para investigar las relaciones filogenéticas con otros idiomas.

Notas

  1. Véase, por ejemplo, datos de similitud léxica para francés . Archivado el 21 de octubre de 2012 en Wayback Machine . Alemán Archivado el 24 de septiembre de 2009 en Wayback Machine . Inglés Archivado el 10 de octubre de 2011 en Wayback Machine .
  2. Girdenis A., Maziulis V. Baltu kalbu divercencine chronologija // Baltistica. T. XXVII (2). - Vilna, 1994. - Pág. 9.