Molti utenti del WEB sono convinti che utilizzando i motori di ricerca come Google o Yahoo, possono individuare qualsiasi contenuto. Quello che non sanno è che il motore di riceca ha un indice di search di circa il 10% di tutto il WEB. Il restante 90% delle pagine non indicizzate, viene definito WEB invisibile o Deep WEB. Questo non è altro che il contenuto di massa che è pubblicamente disponibile, ma nascosto dai motori di ricerca.
Certo, viene da pensare, come è possibile che miliardi di pagine WEB non possono essere trovate da Google?
In effetti, miliardi di pagine WEB sono al di là della capacità del motore di ricerca. Il robot o spider, che scansiona e cataloga il World Wide Web è limitato.
Per comprendere meglio questo concetto basta verificare alcune stime pubblicate dal FALL 2007:
1. Google.com indicizza circa 21.000 milioni di pagine web pubbliche.
2. 80 miliardi di pagine web statiche sono pubblicamente disponibili. Queste pagine possono essere facilmente trovati da Google e altri motori di ricerca. (www.ford.it ad esempio, www.nasa.gov)
3. 9.5 miliardi di pagine statiche sono nascoste al pubblico. Come contenuto intranet private, queste sono le pagine aziendali che sono aperte solo ai dipendenti di aziende specifiche.
4. 300 e più miliardi di pagine di database sono completamente invisibili a Google. Queste pagine non visibili, non sono delle pagine web normali.
Nonostante ciò Google, è considerato il migliore motore di ricerca di oggi. Anche con gli spider che catalogano in forma elettronica milioni di pagine web ogni settimana, gli indici di Google correnti solo 12,5 miliardi rispetto ai 220 miliardi di pagine presenti nel WEB, praticamente meno del 6% di tutti i contenuti disponibili su internet.
In definitiva se i cataloghi di Google contengono solo il 6% del World Wide Web, e gli altri motori di ricerca ancora meno, allora dove è il restante 90% dei contenuti web nascosti?
In collaborazione con www.itageek.com
Tutte le immagini sono dei rispettivi proprietari
