En artículos anteriores hemos reflexionado acerca de las herramientas de búsqueda conque contamos en Internet, y de la posibilidad de realizar búsquedas avanzadas. En esta oportunidad, queremos dar un paso más en esta búsqueda adecuada de la información, que es nuestro tesoro más preciado en la web. Tenemos que hablar, entonces, de la "web superficial" y la "web profunda", dos grandes niveles o estratos de la misma web.
Es evidente que habitualmente nos manejamos a niveles superficiales de la web, encontrando información que nos deja casi siempre satisfechos. Pero, si buscamos información un poco más precisa acerca de algún tema de interés, no nos resulta tan fácil encontrarla siguiendo los métodos de búsqueda comunes y más conocidos por nosotros. Y es que no todo se encuentra tan accesible, si nos reiteramos en los métodos y en los lugares en que realizamos la búsqueda. Este mundo web no tan accesible es el que denominamos la "web profunda".
El siguiente cuadro comparativo nos pinta y aclara el perfil de cada uno de estos niveles de la web:
Los buscadores tradicionales sólo ofrecen acceso a una pequeña parte de lo que existe online, lo
que se ha comenzado a llamar la Web superficial o visible. Lo que resta, la Web profunda o
invisible, es un amplio banco de información ubicado en catálogos, revistas digitales, blogs,
entradas a diccionarios y contenido de sitios que demandan un login (aunque sea gratuito) y otros
tipos de contenido que no aparecen entre los resultados de una búsqueda convencional.
La Web Superficial o visible
La Web Superficial comprende todos aquellos sitios cuya información puede ser indexada por los
robots de los buscadores convencionales y recuperada casi en su totalidad mediante una consulta
en sus formularios de búsqueda.
Las características principales de los sitios de la Web visible son:
- su información no está contenida en bases de datos
- es de libre acceso
- no se requiere la realización de un proceso de registro para acceder a la información.
- mayoritariamente está formada por páginas Web estáticas, es decir páginas o archivos con una URL fija y accesibles desde otro enlace.
La Web Profunda o invisible
Web invisible es el término utilizado para describir toda la información disponible en Internet que
no se recupera interrogando a los buscadores convencionales. Generalmente es información
almacenada y accesible mediante bases de datos.
Parte de la información es "invisible" a los robots de los buscadores convencionales, ya que los
resultados se generan en la contestación a una pregunta directa mediante páginas dinámicas (ASP,
PHP, etc.) es decir páginas que no tienen una URL fija y que se construyen en el mismo instante
(temporales) desapareciendo una vez cerrada la consulta.
En la "web profunda" encontramos, según Sherman y Price, cuatro tipo de contenidos invisibles, que se pueden ver con claridad en el siguiente cuadro:
La Web opaca está compuesta por archivos que, si bien podrían estar incluidos en los índices de los buscadores, no lo están.
La Web privada consiste en las páginas Web que podrían estar indizadas en los
buscadores pero son excluidas deliberadamente.
La Web propietaria incluye aquellas páginas en las que es necesario registrarse para tener
acceso al contenido, ya sea de forma gratuita o arancelada.
La Web realmente invisible se compone de páginas que no pueden ser indizadas por
limitaciones técnicas de los buscadores, programas ejecutables y archivos comprimidos,
páginas generadas dinámicamente, es decir, que se generan a partir de datos que
introduce el usuario, información almacenada en bases de datos relacionales, que no
puede ser extraída a menos que se realice una petición específica.
Algunos recursos de búsqueda en la Web Profunda:
En la "web profunda" encontramos también muchos recursos de búsqueda,entre los que se encuentran:
The WWW Virtual Library se considera el catálogo más antiguo en la web y fue iniciado por Tim Berners-Lee, el creador de la web.
Infoplease:
DeepWebTech ofrece cinco motores de búsqueda para temas específicos. Los motores de
búsqueda abarcan la ciencia, medicina y negocios. El uso de estos motores de búsqueda
específicos del tema, puede consultar las bases de datos subyacentes en la Web profunda.
TechXtra centra su información, en ingeniería, matemáticas e informática. Es posible
navegar a través de una extensa lista de revistas gratuitas especializadas de ingeniería,
documentos técnicos, descargas y podcasts.
A modo de Conclusión:
En síntesis, debemos tener presente que la web en su conjunto es el lugar en el que encontraremos información, tanto a nivel superficial como también a nivel profundo:
Según Lluis Codina: “Internet invisible es un nombre claramente inadecuado para referirse al sector
de sitios y de páginas web que no pueden indizar los motores de búsqueda de uso público. Debería
denominarse, en realidad, la web "no indizable", lo cual es un término mucho más adecuado”.
0 comentarios:
Publicar un comentario