Ivan,
>http://www.w3.org/1998/11/05/WC-workshop/Papers/oneill.htm
El problema es que 1998 es hace mas de 5 años, una eternidad en terminos
demograficos en la red...
En 1998, nuestro metodo daba el inglés a 75% (en terminos de porcentaje de
paginas), pero desde entonces esta cifra ha ido bajando de manera constante
y segun nuestro trabajo esta abajo de 50%. Ver
http://www.funredes.org/LC/L5/evol.html
El mismo grupo (OCLC) ha realizado el año pasado un nuevo estudio
http://www.dlib.org/dlib/april03/lavoie/04lavoie.html y estoy en total
desacuerdo con la parte de sus resultados en relación con idiomas
(mantienen una cifra de 72% para el inglés contra toda evidencia). El
metodo tiene un sustento estadistico muy debil pues se basa en un numero
limitado de numero IP tomado al azar para constituir una selección a la
cual aplica algoritmos de reconocimiento de idiomas.
Por otra parte los datos de GlobalReach que he indicado NO tienen que ver
con páginas web; son estimaciones (aproximativas pues no hay una
metodología identica para cada país) del pocentaje de internautas que
hablan una lengua dada lo que es otro cuadro.
En cuanto a los datos que exhibes, salvo malentendido mío, son datos del
"directorio de Google" el cual propone una selección de sitios web (digo
bien de sitio, NO de paginas) y entonces no representan una base valida
para calcular la representación de paginas en un idioma (ni tampoco de
sitios pues la selección no es al azar).
Hay (¿habia?) una técnica para conocer la estimación del motor para la
cifra de numero de paginas en una lengua dada (búsqueda del complemento del
entorno vacio); desfortunadamente en este momento no esta funcionando ... y
no tengo tiempo para darle la vuelta. Aun cuando tengamos ese dato (como lo
hemos tenido en el pasado) hay que entender que los motores utilizan
algoritmos de reconocimiento de lengua que están claramente poco efectivo y
con una tendencia marcada a contabilizar como página en inglés un alto
porcentaje de páginas redactada en idiomas distintos.
Este archivo fue generado por hypermail 2.1.3 : Tue Jan 4 10:02:49 2005 AST