di Fabio Massa
La peculiarità del deep web è l’elevato livello di anonimato favorito dall’utilizzo di particolari tecnologie, come Tor. Da una parte Tor garantisce un livello di anonimato che consente di trasferire in alta sicurezza i dati oppure di superare condizioni di censura presenti in alcuni paesi, dall’altra parte rappresenta il mezzo ideale per attività criminali. L’analisi forense dei client nei quali è stato installato “Tor Browser Bundle”, può aprire scenari investigativi interessanti, che smentiscono alcune certezze di anonimato garantite dai manutentori dello stesso progetto.
I motori di ricerca nel web, in un certo senso, sono il cuore pulsante di internet, il termine “googling” è diventato ormai parte del nostro linguaggio e delle nostre abitudini digitali per qualsiasi attività online che decidiamo di intraprendere. Ma non tutti sanno che i classici motori di ricerca come Google, Yahoo, Bing in realtà accedono solo ad una piccolissima parte dei dati presenti nella rete, stimati nel 2001 allo 0,03% e ad oggi al 4% dei reali contenuti di internet. I risultati delle ricerche effettuate con i tradizionali motori di ricerca riguarda solo ciò che è stato indicizzato dai web crawler. In realtà il resto dei contenuti e dei siti web sono presenti nel deep web, chiamato anche invisible web, hidden web ecc. vale a dire quella parte del web invisibile ai web crawler poiché generata in maniera tale da non permetterne l’indicizzazione. La peculiarità del deep web, da non confondere con la dark net, è l’elevato livello di anonimato favorito dall’utilizzo di particolari browser progettati per questo scopo.
Prima di trattare nello specifico l’argomento, è opportuno capire il funzionamento dei motori di ricerca e dei loro robot (crawler) nelle fasi di indicizzazione di quella parte di internet evidente che noi tutti conosciamo.
I robot implementano la vera e propria funzionalità di ricerca ed utilizzano sofisticati algoritmi per raccogliere i dati dalle pagine ipertestuali. Sono chiamati “ragni” proprio perché riescono a districarsi nella complessa infrastruttura dei dati del web in modo multidirezionale raccogliendo e indicizzando tutti i metadati. Questi metadati, composti da svariate informazioni, quali ad esempio elementi come il titolo della pagina, la posizione della pagina (URL) e le parole chiave ripetute all’interno del testo, occupano molto meno spazio di quanto contenuto all’interno della pagina e quindi rendono estremamente versatili e funzionali le operazioni di indicizzazione dei contenuti nei motori di ricerca attuali. Questi utilizzano i “crawler” per la scansione dei contenuti web in modo totalmente automatizzato, esplorando il World Wide Web e generando copia delle pagine visitate per eseguire una successiva analisi e la conseguente indicizzazione. I crawler però hanno alcuni limiti tecnologici che limitano il recupero e la scansione del contenuto del WWW.
Di seguito elenchiamo alcune categorie di risorse, utilizzate in particolar modo nel deep web, non raggiungibili da questi software:
- Unlinked Content: le pagine web non collegate ad altre pagine strutturate, in modo tale da impedire l’accesso al contenuto da parte dei Web Crawler. Il contenuto si riferisce a pagine senza backlink;
- Private Web: siti web protetti da username e password. Questi includono le VPN (reti private virtuali) e qualsiasi sito web in cui le pagine richiedano l’identificazione per l’accesso, che può essere a pagamento oppure gratuito e può includere svariate tipologie di banche dati;
- Limited Access Content: siti web che implementano strumenti tecnici di limitazione di accesso come ad esempio i Robot Exclusion Standard, i Captcha o siti che possiedono intestazioni PRAGMA http no-cache che vietano ai motori di ricerca di navigare e creare copia della cache;
- Scripted Content: pagine web che sono accessibili solo mediante link prodotti da JavaScript o contenuti scaricati in modo dinamico dal server web tramite soluzioni Aiax o Flash;
- Dynamic content: contenuti relativi a pagine web dinamiche. In questo caso, il contenuto della pagina viene visualizzato solo quando un utente compila un form contenente una query di ricerca (es. i criteri per la ricerca di un lavoro). Questo in genere include i database che generano le pagine su specifica richiesta;
- Non Html-Content: contenuto testuale codificato tramite immagini e video o formati di file specifici non gestiti dai motori di ricerca e quindi non indicizzabili. Ad esempio un contenuto testuale gestito tramite un protocollo Gopher e ospitato su un FTP non viene indicizzato dai motori di ricerca tradizionali. Anche Google non può indicizzare pagine web al di fuori di HTTP o HTTPS;
- Robots Exclusion: i file robot.txt che solitamente risiedono nella directory principale di un sito web possono essere impostati volontariamente per escludere l’indicizzazione del sito dai crawler; ciò, di conseguenza, renderà invisibili le pagine o il contenuto dello stesso;
- Software: alcuni contenuti web vengono intenzionalmente resi accessibili esclusivamente tramite software speciali come Tor. In pratica Tor consente agli utenti di accedere ai siti web che possiedono il suffisso anonimo dell’host “.onion” nascondendo il loro indirizzo IP.
La crescita del deep web si deve alla diffusione di due software open source, il browser TOR e il BitCoin. Il Browser Tor fornisce la piattaforma all’utente per la navigazione anonima e per l’accesso agli pseudo-domini di primo livello aventi estensione “.onion”, mentre il BitCoin è la valuta digitale utilizzata in modo particolare per eseguire transazioni finanziarie in modo anonimo specialmente all’interno del deep web. In particolare, la cripto moneta, o valuta digitale, utile per eseguire transazioni finanziarie in modo anonimo, utilizza la tecnologia peer to peer priva del supporto di un’autorità centrale che gestisce le transazioni e l’emissione di denaro. Tutto viene svolto tramite algoritmi crittografici che controllano la creazione e il trasferimento di denaro in modo completamente anonimo.
Articoli pubblicati da Fabio Massa