Similitud léxica

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 27 de abril de 2022; las comprobaciones requieren 14 ediciones .

La similitud léxica (en lingüística ) es una medida de la medida en que las palabras de dos idiomas dados son léxicamente similares. La similitud léxica igual a uno (o 100%) significa la completa coincidencia de los dos idiomas dados , mientras que la igualdad 0 significa la ausencia total de palabras comunes en ellos.

Hay diferentes formas de determinar la similitud léxica , y los resultados obtenidos por diferentes métodos diferirán en consecuencia. Por ejemplo, el método adoptado en Etnología (una enciclopedia) es comparar una lista estandarizada de palabras en diferentes idiomas y encontrar palabras similares entre ellas tanto en ortografía como en significado. Usando este método, se encontró que el inglés tenía un 60% de similitud léxica con el alemán y un 27% con el francés .

La similitud léxica se puede utilizar para evaluar el grado de relación genética entre dos lenguas determinadas . Una similitud léxica de más del 85% significa que los dos idiomas comparados están relacionados entre sí, probablemente como dialectos relacionados.

La similitud léxica es solo uno de los indicadores de la inteligibilidad mutua de dos idiomas, ya que esta última a menudo depende del grado de similitudes morfológicas , fonéticas y gramaticales de los idiomas. Vale la pena señalar que la similitud léxica depende en gran medida de la lista estandarizada de palabras que se esté considerando. Por ejemplo, la similitud léxica entre el inglés y el francés es significativa en áreas relacionadas con la cultura , el litigio , y mucho menos en el área de las palabras de función básica. A diferencia de la inteligibilidad mutua, la similitud léxica solo puede ser simétrica entre dos idiomas.

La siguiente tabla muestra (según el libro de referencia Ethnologue [1] ) los valores de similitud léxica para pares de lenguas germánicas, romances y eslavas (la raya significa que no hay datos).

Código de idioma	Idioma 1 ↓	Coeficientes de similitud léxica
		catalán	inglés	Francés	Alemán	italiano	portugués	rumano	romanche	ruso	sardo	español
gato	catalán	una	-	-	-	0.87	0.85	0.73	0.76	-	0.75	0.85
ing	inglés	-	una	0.27	0,60	-	-	-	-	0.24	-	-
fra	Francés	-	0.27	una	0.29	0.89	0.75	0.75	0.78	-	0.80	0.75
deu	Alemán	-	0,60	0.29	una	-	-	-	-	-	-	-
es	italiano	0.87	-	0.89	-	una	-	0.77	0.78	-	0.85	0.82
por	portugués	0.85	-	0.75	-	-	una	0.72	0.74	-	-	0.89
Ron	rumano	0.73	-	0.75	-	0.77	0.72	una	0.72	-	-	0.71
Roh	romanche	0.76	-	0.78	-	0.78	0.74	0.72	una	-	0.74	0.74
rus	ruso	-	0.24	-	-	-	-	-	-	una	-	-
srd	sardo	0.75	-	0.80	-	0.85	-	-	0.74	-	una	0.76
spa	español	0.85	-	0.75	-	0.82	0.89	0.71	0.74	-	0.76	una
		catalán	inglés	Francés	Alemán	italiano	portugués	rumano	romanche	ruso	sardo	español
Idioma 2 →		gato	ing	fra	deu	es	por	Ron	Roh	rus	srd	spa

El uso de la lista Swadesh al comparar el ruso con otros idiomas eslavos da la siguiente imagen [2] :

Idioma comparable	Porcentaje de vocabulario común con ruso
bielorruso	86%
ucranio	86%
Polaco	77%
checo / eslovaco	74%
búlgaro	74%
esloveno	74%
serbio	71%
macedónio	70%

Los datos de similitud se pueden utilizar para investigar las relaciones filogenéticas con otros idiomas.

Notas

↑ Véase, por ejemplo, datos de similitud léxica para francés . Archivado el 21 de octubre de 2012 en Wayback Machine . Alemán Archivado el 24 de septiembre de 2009 en Wayback Machine . Inglés Archivado el 10 de octubre de 2011 en Wayback Machine .
↑ Girdenis A., Maziulis V. Baltu kalbu divercencine chronologija // Baltistica. T. XXVII (2). - Vilna, 1994. - Pág. 9.