Memoria Mistica
MISTICA: La métrica de las lenguas en internet

MISTICA: La métrica de las lenguas en internet

Write haof XML files: Erick Iriarte Ahon ^lt;faia_at_amauta.rcp.net.pe>
Fecha: dom 25 sep 2005 12:34:07 AST
Message-Id: <200509291559.j8TFxepq015832@samana.funredes.org>

Fwd: [IWETEL] ThinkEPI: La métrica de las lenguas en internet

FYI: Sobre la labor pionera de Funredes.

Erick

>>Date: Wed, 21 Sep 2005 17:20:50 +0200
>>From: Grupo ThinkEPI <correo@THINKEPI.NET>
>>To: IWETEL@LISTSERV.REDIRIS.ES
>>Subject: [IWETEL] ThinkEPI: La métrica de las lenguas en internet

La métrica de las lenguas en internet

Por José Antonio Millán
http://jamillan.com

La Web pública es un objeto de estudio abierto
a todos (por definición). En una red dominada
inicialmente por el inglés, los hablantes de otras
lenguas con pujanza cultural pronto intentaron
descubrir cuál era su posición (Millán, 1997).

Los primeros estudios se desdoblaron en dos aspectos,
los cuantitativos y los cualitativos. Desde el punto
de vista cuantitativo interesaba ver qué cantidad de
páginas había en cada lengua. Cualitativamente,
importaba ver la presencia de determinados elementos
de una cultura en las páginas web de distintas lenguas.
El pionero de ambos estudios fue Daniel Pimienta, desde
la Fundación Redes y Desarrollo (FUNREDES, 1996a y b),
inicialmente para el español y el francés (en relación
con el inglés), y que hoy en día abarca (con el apoyo de
Unión Latina: http://www.unilat.org/ y de la Délégation
générale à la langue française:
http://www.culture.gouv.fr/culture/dglf/) las otras
lenguas romances y además el alemán. El catalán ha estado
ausente de estas medidas, porque Unión Latina se ocupaba
sólo de las lenguas oficiales de los estados miembros
(este año acaba de adherirse Andorra) y porque ninguna
institución catalana ha requerido hasta ahora la
colaboración de FUNREDES.

Para el estudio cuantitativo, que es el que nos ocupará,
Pimienta utilizó inicialmente el buscador Altavista y un
algoritmo de reconocimiento de lenguas (mediante palabras
exclusivas de cada lengua) para determinar las cifras
totales (FUNREDES, 1996a). Estudios posteriores como el
de Alis Technologies (1997), con el apoyo de Internet
Society, utilizaron un muestreo muy pequeño de sitios.

Las medidas, más fiables, que se extraían utilizando
buscadores generales tenían el problema fundamental de
saber si el buscador indizaba la totalidad del espacio
web, o si se centraba en el conjunto más antiguo de
páginas, dando poca cuenta de las nuevas incorporaciones
a la Web, y primando de esta manera las cifras de las
páginas en inglés (para una perspectiva global de la
situación en aquel momento de los buscadores con respecto
a la totalidad véase Millán, 2000). El catalán —que se
había iniciado en la Red muy tempranamente: Partal, 2004—
acogió una iniciativa precoz para decir a los buscadores
en qué lengua estaban sus sitios, mediante etiquetas meta
(Yzaguirre, 1997), como forma de aumentar su visibilidad.

La evolución de los estudios con una misma metodología
(los de FUNREDES, véase la página resumen: 2005) a lo
largo de los distintos años ha conducido a refinar no
sólo el uso simultáneo de varios buscadores y los
procedimientos de cálculo, sino también las medidas
absolutas, poniéndolas en relación con el número de
hablantes y también con el numero de personas con
conexión a la Red (productividad de un espacio web).
Estos parámetros se pueden utilizar también para cada
país, lo que proporciona una visión muy rica de
comunidades geográficamente dispersas como la
hispanohablante.

Según el estudio en vías de publicación, del que he
recibido un adelanto provisional (Pimienta, 2005),
la presencia relativa del inglés no ha dejado de bajar
desde 1998 (cuando tenía el 75% de la red) hasta el 45%
en la actualidad. El resto de las lenguas estarían,
RESPECTO AL INGLÉS, así: alemán 15,42%, francés 11,00%,
español 10,23%, italiano 6,77%, portugués 4,15%, rumano
0,37%. La novedad de las cifras anteriores (2003) es que
el español pierde el primer lugar de las lenguas romances
frente al francés.

Con casi una década de datos tal vez estemos en situación
de aventurar evoluciones cuantitativas para las lenguas
que se incorporan a la Red: inicios de crecimientos
rápidos, seguidos de mesetas de estabilización. El inglés
se estabilizó hace años, el español habría alcanzado ya
una de esas mesetas y el francés estaría llegando a la
suya. Pero para estas y otras muchas cosas es mejor
esperar la publicación definitiva del último estudio
de FUNREDES. Y en cuanto a los estudios cualitativos...
pueden ser objeto de otra nota.

Referencias

Alis Technologies (1997), "Palmarès des langues de la toile":
http://alis.isoc.org/palmares.html

FUNREDES (1996a), “El primer estudio de las lenguas y la Internet”:
http://funredes.org/LC/espanol/L1.html

FUNREDES (1996b), “El primer estudio de la cultura y la Internet”:
http://funredes.org/LC/espanol/L1.html

FUNREDES (2005), “Observatorio de las lenguas y culturas”:
http://funredes.org/LC/espanol

Millán, J.A. (1997), “El español en las redes globales”,
en Actas del I Congreso Internacional de la Lengua Española.
http://cvc.cervantes.es/obref/congresos/zacatecas/tecnologias/ponencias/millan.htm

Millán, J.A. (2000), "El libro de mil millones de páginas.
La ecología lingüística de la Web", en Revista de Libros
(Madrid), nº 45. Versión ampliada en la web:
http://jamillan.com/ecoling.htm

Partal, V. (2004), “El català a la xarxa: història i raons
d'un cas d'èxit”:
http://www.softcatala.org/articles/article39.htm

Pimienta, D. (2005), comunicación personal.

Yzaguirre, Ll. (1997) “Indexem en català”:
http://www.iula.upf.es/altres/pub/indexem/indexem.htm

-----------------------

Este artículo se publica sujeto a la Licencia Creative Commons
Reconocimiento-NoComercial-CompartirIgual 2.0
(http://creativecommons.org/licenses/by-nc-sa/2.0/deed.es)

José Antonio Millán es miembro del Grupo de Análisis sobre Estrategia y
Prospectiva de la Información (ThinkEPI)
http://thinkepi.net
Nearby Thu Sep 29 11:59:47 2005

Este archivo fue generado por hypermail 2.1.8 : dom 01 ene 2006 13:01:05 AST AST