Internet Invisible. La información oculta a los motores de búsqueda

La web invisible está compuesta por el conjunto de recursos accesibles únicamente por medio de algún tipo de pasarela o formulario web y que los motores de búsqueda no indizan. Comprende información: volátil, dinámica y en formatos especiales.

En el contexto de la comunidad científica y de profesionales de la información, se denomina web académica invisible a la información académica almacenada en bases de datos en Internet que no es recuperada por los buscadores convencionales y que sólo se puede acceder a ella interrogando los formularios de búsqueda de estas bases de datos.

Su volumen de crecimiento es muy alto y su calidad es considerada superior a la web indexable, principalmente porque la mayor parte de los sitios son especializados y su contenido es creado y aprobado por profesionales y especialistas en cada materia.

Las causas de su invisibilidad son:

  • La profundidad de una URL
  • El tamaño en kb. Muchos motores de búsqueda incluyen páginas web con un determinado número de kb.
  • La frecuencia de rastreo, indización y actualización de los robots. Los buscadores muestran los resultados de las consultas en sus propios índices y no directamente sobre la web.

En cuanto a la clasificación de los recursos:

  • Bases de datos bibliográficas: catálogos de bibliotecas, librerías , editoriales
  • Bases de datos alfanuméricas: Obras de referencia, Diccionarios, enciclopedias…..estadísticas y bases de datos numéricas
  • Páginas huérfanas
  • Páginas no textuales
  • Acceso mediante pasarelas
  • Páginas dinámicas.

Por cada millón de páginas visibles hay otros 500 millones de páginas ocultas.

La información pública y gratuita de la Web invisible es actualmente de 400 a 550 veces mayor que el web visible.

Actualmente Google tiene indexado aproximadamente 1 billón de páginas.