Internet Invisible. La información oculta a los motores de búsqueda
La web invisible está compuesta por el conjunto de recursos accesibles únicamente por medio de algún tipo de pasarela o formulario web y que los motores de búsqueda no indizan. Comprende información: volátil, dinámica y en formatos especiales.
En el contexto de la comunidad científica y de profesionales de la información, se denomina web académica invisible a la información académica almacenada en bases de datos en Internet que no es recuperada por los buscadores convencionales y que sólo se puede acceder a ella interrogando los formularios de búsqueda de estas bases de datos.
Su volumen de crecimiento es muy alto y su calidad es considerada superior a la web indexable, principalmente porque la mayor parte de los sitios son especializados y su contenido es creado y aprobado por profesionales y especialistas en cada materia.
Las causas de su invisibilidad son:
- La profundidad de una URL
- El tamaño en kb. Muchos motores de búsqueda incluyen páginas web con un determinado número de kb.
- La frecuencia de rastreo, indización y actualización de los robots. Los buscadores muestran los resultados de las consultas en sus propios índices y no directamente sobre la web.
En cuanto a la clasificación de los recursos:
- Bases de datos bibliográficas: catálogos de bibliotecas, librerías , editoriales
- Bases de datos alfanuméricas: Obras de referencia, Diccionarios, enciclopedias…..estadísticas y bases de datos numéricas
- Páginas huérfanas
- Páginas no textuales
- Acceso mediante pasarelas
- Páginas dinámicas.
Por cada millón de páginas visibles hay otros 500 millones de páginas ocultas.
La información pública y gratuita de la Web invisible es actualmente de 400 a 550 veces mayor que el web visible.
Actualmente Google tiene indexado aproximadamente 1 billón de páginas.