Verborgen informatie vinden op het Deep Web

 
 
Google, Facebook, Amazon en de ‘kleinere’ concurrenten op de zoekmarkt weten samen volgens internetwijsheid slechts de weg op één procent van het internet; het topje van de ijsberg. De rest is het zogenaamde Deep Web.
Het Deep Web – niet te verwarren met het Dark Web – staat bomvol informatie die niet door standaard zoekmachines wordt geïndexeerd. Welke informatie staat daar en hoe kom je er dan bij, is de vraag.
Hieronder wat sites die U daarbij kan helpen.
 

Zoekmachines en sociale netwerken kunnen redelijk goed omgaan met publiek beschikbare informatie op internet, zoals websites, blogs, downloads, webwinkels en openbare sociale media. Maar het grootste deel van internet bestaat uit afgeschermde content, zoals webmail, sites en servers met logins, instituuts- en bedrijfsdatabanken, cloudopslag, enzovoort.

Dit deel van het internet wordt niet gezien door de Googles, Facebooks en Amazons van deze wereld, is daardoor onbekend bij de gemiddelde internetgebruiker en vaak niet eens bereikbaar met een normale webbrowser. Deze niet-publieke informatie wordt Deep Web genoemd.

Een klein deel van het Deep Web wordt aangeduid met de term Dark Web. Dit is een verzamelnaam voor versleutelde webdiensten waar enerzijds politieke dissidenten en klokkenluiders veilig zouden kunnen communiceren, maar waar dankzij cryptovaluta ook drugs, geweld en andere narigheid te koop zijn. Het Deep Web is dus veel meer dan het Dark Web.

Hoe vind je informatie op het Deep Web dan wel? Onderstaande sites helpen je daarbij.

Deep Web Tech

Onderzoeksorganisaties en grote bedrijven kunnen met het doorzoeken van het Deep Web hun resultaten verbeteren. Deep Web Tech biedt daarvoor de dienst Explorit Everywhere! aan. Dit is een zoekmachine die reguliere bronnen op internet combineert met wat je er zelf aan toevoegt.

Dat kunnen bijvoorbeeld betaalde zoekdiensten zijn, abonnementen op databanken met onderzoeksgegevens en ga zo maar door. Door gebruik te maken van de technologie van Deep Web Tech is het mogelijk om vanuit één zoekvenster al die verschillende bronnen te doorzoeken om vervolgens de resultaten te filteren. Dat maakt zoeken door uitgebreide bronnen overzichtelijker.

Deze zoekmachine is niet gratis, maar de website biedt een testvenster aan om te laten zien wat mogelijk is. Met een zoekopdracht op de website kun je in één keer door 63 verschillende overheidsbronnen zoeken. Het brengt leuk in beeld hoeveel verschillen er zijn tussen zulke specifieke resultaten en bijvoorbeeld de standaardresultaten van Google.

DuckDuckGo

DuckDuckGo is als zoekmachine vooral bekend doordat de dienst altijd aangehaald wordt als privacy-vriendelijk alternatief voor Google. Je kunt er gewoon mee zoeken op het reguliere internet waarbij DuckDuckGo belooft advertentietrackers te blokkeren, zoekgeschiedenis privé te houden en je persoonlijke gegevens te respecteren.

Resultaten van zoekopdrachten blijven breder doordat ze niet aan je klikgedrag uit het verleden worden aangepast. Naast deze functionaliteit biedt DuckDuckGo meer. Zo zijn er plugins om de allround privacy van browsers te verbeteren en deze zoekmachine als standaard in te stellen. Qua zoekgedrag is DuckDuckGo zeer geschikt voor mensen die het Deep Web willen onderzoeken. Er worden namelijk ook bestemmingen op plaatsen als het TOR-netwerk en Wolfram|Alpha geïndexeerd. Deze zoekdienst haalt omzet uit het serveren van advertenties via het Yahoo-Bing alliance network en door samenwerking met Amazon en eBay.

Google Scholar

Is het mogelijk om een tekst over zoekmachines te schrijven zonder Google te noemen? Klaarblijkelijk niet. Wie een zoektocht door het Deep Web gaat ondernemen kan niet aan de slag zonder Google Scholar te overwegen.

Via deze loot aan de Google boom kun je zoeken in academische teksten en (Amerikaanse) jurisprudentie. Het is een bijna onmisbaar stuk gereedschap voor academici en (Amerikaanse) juristen die niet de populairste teksten zoeken, maar juist de obscure onderzoeken, rapporten en boeken die nodig zijn om een onderzoek af te kunnen ronden met betrouwbare bronvermelding.

Buiten Google Scholar om zijn er ook vergelijkbare andere diensten. CiteSeerX bijvoorbeeld is een gratis alternatief dat wat minder resultaat biedt en daarnaast zijn er betaalde diensten zoals Scopus van Elsevier. Google Scholar biedt gratis toegang tot naar schatting 389 miljoen academische documenten, wat het tot de grootste academische zoekmachine in de wereld maakt.

Hidden Wiki

Internet browsen via TOR doet soms denken aan de roerige begintijden in de vroege jaren 90. The Hidden Wiki biedt binnen dat kader een mooie casus over de complexiteit van een volledig vrij internet. Deze overzichtspagina werkt als een index van Deep Web-websites voor mensen die via TOR browsen.

Het is opgezet als een Wiki, wat inhoudt dat iedereen de pagina kan bewerken en er altijd naarstig gezocht wordt naar vrijwilligers om orde in de chaos te scheppen. De inhoud van de index kan daardoor van dag tot dag radicaal veranderen. Naar verluidt is de privésleutel van deze site een aantal jaar geleden gestolen waardoor het ook nooit helemaal zeker is of je op de echte Hidden Wiki bent. De link die wij bieden is die voor de etalage op het reguliere internet. Dat is vooralsnog het beste startpunt om op de Hidden Wiki terecht te komen.

Qua inhoud wordt door de aanhang veel tijd besteed aan het ophemelen van de geneugten van absolute vrijheid op internet. Wat je vooral tegenkomt zijn zaken als drugs, wapens, maak je eigen bom en verhandelingen rondom cryptovaluta zoals Bitcoin. Natuurlijk is er ook een mogelijkheid om naar Wikileaks te uploaden en anoniem te praten, maar daar ligt niet het zwaartepunt van deze bestemming. Hopelijk spreekt het voor zich dat je uiterst voorzichtig doet met de links op deze pagina.

Internet Archive: Wayback Machine

Websites komen en gaan, en zelfs degenen die lang blijven veranderen over tijd. Het Internet Archive probeert websites te archiveren en biedt via de eigen website een Wayback Machine aan. Vul hier het adres van een website in en het archief geeft je een tijdlijn met daarin momentopnames.

Je kunt zien hoe vaak de website is gearchiveerd en via een kalender de momentopnames van deze site bezoeken. De dienst is onofficieel van start gegaan in 1996 en officieel gelanceerd in 2001. Toen waren er al tegen de 10 miljard gearchiveerde webpagina’s beschikbaar. Vanzelfsprekend is niet iedere wijziging op iedere pagina te vinden. Een standaard indexering van internet met de ‘crawlers’ van het archief kost ongeveer anderhalf jaar.

Ook opslag is een factor. Het internet archief groeit sinds 2014 met 20 terabytes per maand en op dit moment neemt het meer dan 25 petabytes opslagruimte in. Meer dan genoeg om enkele regenachtige zondagen aan nostalgisch surfen te wijden.

Op zoek gaan naar verborgen informatie die niet met een gewone zoekmachine of browser te vinden is, klinkt wat spannender dan het in praktijk is. Je kunt meegaan in de veelal nogal hijgerige artikelen en video’s over het Dark Web, maar in alle eerlijkheid tart het gros van het aanbod de geloofwaardigheid en is het nieuwe er snel af. Wat overblijft is waar een zoektocht door het Deep Web wat ons betreft eigenlijk echt om gaat.

Je komt dan in aanraking met een collectie zoekmachines en bronnen waar je echt andere informatie vindt, dan die met een reguliere zoekopdracht in je favoriete browser naar voren komt. De verschillende bronnen die academische informatie naar boven halen, helpen bijvoorbeeld om je in een specifiek veld van wetenschap verder te ontwikkelen.

Leuk voor een avond lichtzinniger vermaak zijn de verschillende indexen en zoekmachines waarmee je in het verleden van internet kan duiken en indexen die leiden naar kleinere webpagina’s die door de algoritmes van de internetreuzen onvindbaar gemaakt worden. Wat dat betreft levert browsen met een TOR-browser misschien niet de meest nuttige informatie, maar het geeft wel een heerlijk nostalgisch jaren ‘90 tintje aan internet.

Kortom: bezoek eens het Deep Web; er gaat een wereld voor je open. Kijk maar!

Startpage

Startpage.com, niet te verwarren met startpagina.nl, is niet direct gerelateerd aan het Deep Web, maar in een opsomming van unieke browsers wel het vernoemen waard. Dit is een in Nederland gevestigde zoekmachine die de resultaten van Google filtert zodat jouw persoonlijke gegevens en zoekgedrag niet geregistreerd worden.

Door de focus zo vol op privacy te leggen en gebruikers uit de wind te houden (gegevens worden niet langer dan 48 uur opgeslagen en zoekresultaten worden niet op oud gedrag gefilterd) is Startpage een uitmuntende zoekmachine om aan een ontdekkingsreis van het Deep Web te beginnen. Je kunt naar hartenlust details opzoeken zonder dat die gelijk opgeslagen worden in de archieven van de internetreuzen.

Gebruik van Startpage is gratis, het bedrijf geeft zelf aan de diensten te financieren met behulp van ‘gesponsorde links’ op basis van onder meer AdWords. Daarbij zou slechts het absolute minimum aan gegevens gedeeld worden om de privacy te waarborgen. In 2011 werd door de EU aan Startpagina.com het European Privacy Seal toegekend.

Torch

Torch beweert de grootste zoekmachine voor het Deep Web te zijn met een index van meer dan een miljoen ‘verborgen’ webadressen. Tijdens ons bezoek stelt de pagina dat er 299.167 Onion-pagina’s geïndexeerd zijn. Dit zijn pagina’s die gebouwd zijn om via het TOR-netwerk te bezoeken.

Torch is de oudste zoekmachine voor het TOR gedeelte van het Deep Web, de naam is een samenvoeging van TOR en search. Op het reguliere internet is een bezoek te brengen aan Torch via een normale webbrowser. Let op: een zoektocht naar Torch via Google brengt als resultaat ook de Torch Browser naar voren.

Met het TOR-netwerk, de TOR-browser en het Deep Web heeft deze browser echter niets te maken. Het is namelijk een op Chromium gebaseerde webbrowser die de focus legt op torrents downloaden en delen op sociale media. Wil je los van een TOR-browser iets meer inzicht in de mogelijkheden van het Deep Web, dan is een zoekmachine als Ahmia zeker ook het vermelden waard.

TouchGraph

TouchGraph is een complex maar krachtig stuk gereedschap waarmee je onderlinge relaties in datasets kunt visualiseren. Deze software gebruikt Java om datasets uit onder meer Excel en databases binnen te halen en daar de onderlinge relaties van bloot te leggen. Een experimentele module laat je zelfs binnen Facebook analyses maken en in beeld brengen wat de onderlinge relaties en connecties van je vrienden zijn.

De software is in te zetten om het Deep Web te onderzoeken door verschillende bronnen in te lezen en vervolgens de onderlinge relaties te visualiseren. Als je eenmaal verhoudingen hebt opgezet kun je simpelweg door te klikken en te zoomen in de details duiken. Met een apart uitbreiding kun je de resultaten van je zoektochten als analyses presenteren op je webpagina. Voor wie er mee aan de slag wil, biedt TouchGraph een testversie aan die dertig dagen geldig is.

Wolfram Alpha

De zoekmachine Wolfram|Alpha bracht bij lancering wat verwarring teweeg doordat er automatisch verondersteld werd dat hij met Google zou concurreren, maar dat is niet correct. Wolfram|Alpha gebruikt een rekenalgoritme om antwoorden op vragen te calculeren aan de hand van academische en commerciële bronnen. Het biedt een eigen unieke toegang tot informatie op het Deep Web.

Wolfram|Alpha laat je op basis van geboden resultaten verder zoeken en doet denken aan Business Intelligence oplossingen. Het verschil zit hem in de uitkomst. Zoek je op Google naar ‘gold price worldwide’, dan krijg je de prijs van goud op die dag te zien, algemene vragen over de goudprijs en links naar sites die iets met de prijs van goud te maken hebben.

Voer je dezelfde opdracht in op Wolfram|Alpha dan krijg je de huidige prijs van goud te zien, een grafiekje met het verloop van de goudprijs over de afgelopen eeuw en suggesties voor verdere vragen die te maken hebben met goud zoals bijvoorbeeld de atomaire massa van goud, maar ook een voorspelling van de termijnmarkt voor koper ten opzichte van die van zilver.

The WWW Virtual Library

Je kunt een zoektocht die langs de vergeten delen van internet gaat niet afsluiten zonder een bezoekje te brengen aan de oudste index. The WWW Virtual Library verzamelt al sinds 1991 links naar webpagina’s, georganiseerd in verschillende categorieën.

Deze bibliotheek is ook niet door de minste opgezet. Niemand minder dan Tim Berners-Lee, de uitvinder van het world wide web (het deel van de internetijsberg dat boven de zee uitsteekt) is indertijd met deze index begonnen. Eens in de zoveel tijd kwam er toen op de mailingslijst melding van iemand die een nieuwe server opgezet had. Tim zette deze dan met de hand in de index. Met succes.

Tussen juli en augustus 1991 kwamen er tien tot honderd ‘hits’ per dag binnen op deze index. Het staat in wat schril contrast met de 3,5 miljard zoekopdrachten per dag die Google tegenwoordig verwerk, maar alles begint ergens. Tim Berners-Lee besteedt zijn dagen niet met het up-to-date houden van de index. Het archiveerwerk wordt vrijwillig uitgevoerd door beheerders van de verschillende categorieën.