MISTICA: Re: Consulta sobre recursos

From: Daniel Pimienta (pimienta_at_funredes.org)
Date: Mon Oct 18 19:26:41 2004


Ivan,

>http://www.w3.org/1998/11/05/WC-workshop/Papers/oneill.htm

El problema es que 1998 es hace mas de 5 a�os, una eternidad en terminos
demograficos en la red...

En 1998, nuestro metodo daba el ingl�s a 75% (en terminos de porcentaje de
paginas), pero desde entonces esta cifra ha ido bajando de manera constante
y segun nuestro trabajo esta abajo de 50%. Ver
http://www.funredes.org/LC/L5/evol.html

El mismo grupo (OCLC) ha realizado el a�o pasado un nuevo estudio
http://www.dlib.org/dlib/april03/lavoie/04lavoie.html y estoy en total
desacuerdo con la parte de sus resultados en relaci�n con idiomas
(mantienen una cifra de 72% para el ingl�s contra toda evidencia). El
metodo tiene un sustento estadistico muy debil pues se basa en un numero
limitado de numero IP tomado al azar para constituir una selecci�n a la
cual aplica algoritmos de reconocimiento de idiomas.

Por otra parte los datos de GlobalReach que he indicado NO tienen que ver
con p�ginas web; son estimaciones (aproximativas pues no hay una
metodolog�a identica para cada pa�s) del pocentaje de internautas que
hablan una lengua dada lo que es otro cuadro.

En cuanto a los datos que exhibes, salvo malentendido m�o, son datos del
"directorio de Google" el cual propone una selecci�n de sitios web (digo
bien de sitio, NO de paginas) y entonces no representan una base valida
para calcular la representaci�n de paginas en un idioma (ni tampoco de
sitios pues la selecci�n no es al azar).

Hay (�habia?) una t�cnica para conocer la estimaci�n del motor para la
cifra de numero de paginas en una lengua dada (b�squeda del complemento del
entorno vacio); desfortunadamente en este momento no esta funcionando ... y
no tengo tiempo para darle la vuelta. Aun cuando tengamos ese dato (como lo
hemos tenido en el pasado) hay que entender que los motores utilizan
algoritmos de reconocimiento de lengua que est�n claramente poco efectivo y
con una tendencia marcada a contabilizar como p�gina en ingl�s un alto
porcentaje de p�ginas redactada en idiomas distintos.



Este archivo fue generado por hypermail 2.1.3 : Tue Jan 4 10:02:49 2005 AST