Deep web: wat Google laat liggen

Inleiding

Afgelopen jaar werd de biljoenste pagina opgenomen in de database van de zoekmachine van Google. Achter deze miljarden pagina’s, op zich al een enorme hoeveelheid informatie, gaan nog veel en veel meer gegevens schuil: data in de onderliggende databases. Te denken valt aan financiële data, goederencatalogi, vluchtschema’s enz. enz. Deze data is grotendeels on-zichtbaar voor de zoekmachines.

Uitdaging

De uitdaging voor de zoekmachines als Google, is het zichtbaar maken van het ‘deep web’: de data in de databases. Zoekmachines gebruiken op dit moment stukjes software die beginnen bij een webpagina en alle hyperlinks die daarop staan. Zo kan het gehele internet in kaart worden gebracht. Deze software is echter niet goed in staat de gegevens in de onderliggende databases te benaderen, omdat de sofware geen vragen stelt die afgestemd zijn op de diverse soorten databases. Dit is een grote uitdaging in verband met de grote verscheidenheid aan databasestructuren en geschikte zoektermen voor de databases.

Nieuwe zoekvragen

De oplossing is derhalve gelegen in het bedenken van software die nieuwe, specifieke zoek-vragen stelt aan de onderliggende databases. De zoekterm van een Googlegebruiker, moet met andere woorden eerst worden vertaald naar specifieke zoektermen die de onderliggende data-bases kunnen verwerken. Bovendien moet er ook gezocht worden naar de databases waarin de betreffende gegevens zijn opgenomen en moet onderzocht worden hoe die databases werken.

Semantisch web

De (ongelijksoortige) data uit de databases worden bij elkaar gebracht. Zo kan op termijn een ‘semantisch web’ ontstaan, waarbij alle beschikbare data op het internet aan elkaar gekoppeld kan worden.

Nieuwe mogelijkheden

Het web gaat hierdoor nieuwe mogelijkheden bieden. Gebruikers worden beter bediend en on-line ondernemingen kunnen nieuwe diensten aanbieden.