MISTICA: Re: Consulta sobre recursos

From: Daniel Pimienta (pimienta_at_funredes.org)
Date: Tue Oct 12 07:07:10 2004


Iv�n,

>T� dices que "hay proporcionalmente mas p�ginas indexada en ingl�s que en
>otros idiomas". �Cu�l es aproximadamente esa proporci�n?

Es s�lo una hipot�sis. No tengo datos y seria muy dificil tenerlos pues, si
bien conocemos el numero de pagina indexadas por los motores, el
numero de paginas existentes es un dato muy controversial pues algunos
autores estiman que el "web invisible", si se le incluye los bases de datos
y las paginas dinamicas, podria ser 500 veces mas amplio que las
estimaciones del web visible.
Ver por ejemplo :
http://www.brightplanet.com/technology/deepweb.asp
http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/InvisibleWeb.html
http://library.rider.edu/scholarly/rlackie/Invisible/Inv_Web.html
http://www.thealbertalibrary.ab.ca/netspeed/netspd2003/presentations/E2_Invisible_Web.ppt

Nuestra hipotesis esta basada en estimaciones del tama�o del web visible y
del porcentaje de este web que los motores son capaces de indexar. Hasta
hace dos a�os los motores indexaban entre 35% y 50% del web visible.
Aparece ahora que no pueden seguir con el crecimiento y este valor tiende a
ubicarse entre 10% y 30% (respondo de memoria con riesgo de equivocarme).

Eso mas el hecho que el porcentage de paginas en ingl�s parece crecer de
nuevo (proporcionalmente) contra toda l�gica (el porcentaje de usuarios
angloparlantes sigue un rapido decline - ver
http://www.glreach.com/globstats/index.php3) nos hace pensar que los
motores indexan proporcionalmente mas paginas en ingl�s que en otros
idiomas y que eso explica el aparente recrecimiento del ingl�s.

>Por otro lado en el directorio de p�ginas web por idiomas se muestran que
>hay 74 idiomas registrados que suman cuando m�s 2 millones de p�ginas, me
>imagino que indexadas.
>�Es entonces evidente que esa proporci�n es del orden de uno a dos mil?

No. Hay una t�cnica que hemos utilizadado desde 1996 y llamamos "el m�todo
del complemento del entorno vaci�" que consiste en buscar algo como " -
hfhfbhfh" y que permite, para algunos motores, conocer el numero de paginas
indexadas que el motor considera de un idioma dado. Ese metodo arroja
cifras para el ingl�s superior a lo que consideramos es la realidad pero da
una repartici�n por idioma no tan alejada de la realidad. En este momento
parece que no funciona para Google, alltheweb y altavista :-(
Tal vez Benoit nos puede se�alar si funciona para otro motor?

Si Ricardo Baeza esta cerca podria indicar referencias recientes sobre el
web invisible y web demographics...



Este archivo fue generado por hypermail 2.1.3 : Tue Jan 4 10:02:49 2005 AST