MISTICA: Re: Consulta sobre recursos

From: Ricardo Baeza-Yates (rbaeza_at_dcc.uchile.cl)
Date: Fri Oct 15 19:36:36 2004


>No comprendo bien cómo una autómata indexador actuaría "priorizando"
>algunos idiomas, ni cuál podría ser el motivo para semejante acción poco
>ética en un buscador de tanto prestigio. Tampoco entiendo el fundamento
>para tu apreciación: "el ingles debe ser del orden de 70% de lo indexado".

Esto es en base a informacion que alguna vez Google publico en su sitio
(ahora no lo encontre), pero podria ser menor. En todo caso es mas del 50%
aun.
Con respecto a lo de la priorizacion no es un asunto de etica. Ningun
buscador posible consigue recorrer TODA la Web (ademas que va cambiando
permanentemente). Asi que se recorren usando el mismo ranking que Google
usa para traer las paginas mas importantes que han cambiado o que han
parecido primero. Ahi en forma natural las paginas en ingles tienen mayor
prioridad porque es el lenguaje de mas personas
que usan la Web, de mas paginas, etc. Por otro lado tambien la
conectividad es mejor (mejores servidores, mejores conexiones en Internet)
y por ende ademas se recorren mas rapido. Por ejemplo un crawler tarda
mucho mas en Bolivia que en USA en recorrer el mismo numero de paginas.

>Si esto fuera así, los demás idiomas deberían sumar el 30%, es decir:
>1,285,559,932 páginas indexadas a octubre. Empero, cuando sumamos las
>páginas indexadas por idioma, estas no llegan ni a los 2 millones. Por
>favor ver:
>http://directory.google.com/Top/World

En tu analisis hay dos errores:

- Primero, esos numeros de esa pagina no son paginas si no que son
sitios completos, pues es un directorio de sitios Web (y no paginas). Asi
que los numeros reales son mucho mas grandes.

- Segundo, esa pagina no tiene nada que ver con Google, solo es la copia
que Google usa del Open Directory Project que es publico (ODP:
www.dmoz.org) y que es creada por editores voluntarios en todos los paises.
Por supuesto la cobertura cambia de pais a pais dependiendo del tamaño del
pais y del numero de voluntarios. El buscador que tengo en Chile,
TodoCL.cl, tambien usa ODP y por ejemplo para Chile hay como 10 mil sitios
clasificados en ODP. Sin embargo, el numero real de sitios es 60 mil.
Pero esos 10 mil sitios son los mas importantes asi que deben cubrir al
menos un 50% de las paginas, unos 2 millones.

En resumen esa pagina no tiene ninguna relacion con las paginas que indexa
Google.

>Si estos datos son aproximadamente ciertos, aún no encuentro razones para
>dudarlo, el 35.2% de la población conectada, los del Inglés, producen el
>99.9% de los contenidos en la red. Estamos hablamos de páginas indexadas
>que pueden ser encontradas en una búsqueda por Google. Esto nos debe
>llevar a una seria reflexión sobre el tema del multilingüismo en Internet.

Intentare buscar las figuras que debo tener en alguna charla, pero
Google publico sus datos en la revista Wired de diciembre del 2000 y en ese
momento el ingles era como el 70%. Luego el 2003 publico en su sitio otros
datos y eso habia bajado a menos del 60% (asi que mi 70% original esta
equivocado). Los siguientes lugares eran el aleman, japones, castellano y
chino... eso es como un 15% si mi memoria no me engaña. Si a alguien le
interesa el impacto de los buscadores en Internet pueden ir al sitio Web
del centro (http://www.ciw.cl) y ver mi charla llamada "El Poder de Buscar".

Saludos
Ricardo



Este archivo fue generado por hypermail 2.1.3 : Tue Jan 4 10:02:49 2005 AST