In internet tutti sanno che puoi essere un cane
Ne è passato di tempo, socialmente e tecnologicamente parlando, da quando una vignetta sul New Yorker (1993) disegnata da Peter Steiner riassumeva ingegnosamente tanto le potenzialità che i rischi delle interazioni in rete, diventando così un meme sulla condizione di anonimità degli utenti connessi online. La frase “nessuno sa che sei un cane in internet” proferita da un cane al suo collega poteva essere interpretata almeno in un doppio senso. Da una parte come stato democratico di liberazione relazionale rispetto ai condizionamenti materiali – classe, genere, esteriorità corporea, età…. e qui addirittura specie –, una idealizzazione delle relazioni puramente discorsive che, pensando alla inclusione degli animali, appariva meno radicale del sogno della intelligenza artificiale di Alain Touring, che voleva allargare la partecipazione anche a entità parlanti costruite artificialmente. Dall’altra parte, la vignetta si presentava come monito a valutare la “qualità” dei contatti online, che fornisce a chiunque libertà di impostura.
L’attuale orizzonte dominato dagli account social e dall’ostentazioni quasi obbligate di immagini personali (ma con concessione di ritocchi estetici preventivi) parrebbe aver calmierato parte dell’ansia. Il “fake”, invece, è forse diventato più insidioso essendosi spostato sui contenuti, e comunque ora è una categoria nota e combattuta anche se i successi sono così alterni che non ci esimeranno dalla fatica di esercitare sempre una critica attiva.
Impazzano invece i bot ciarlieri ma, quando a noi funzionalmente coscienti, sono perlopiù asserviti per rispondere rapidamente alle nostre esigenze e curiosità informative, o per servizi di customer care, dove ci evitano in tutti i modi di parlare con un essere umano in quanto, in quegli ambiti, entità forse rara e troppo empatica.
In ogni caso internet non è solo social network ed ha traiettorie di navigazione umanamente infinite in cui ameremmo inoltrarci come flaneur nella folla, ovvero spensierati e anonimi senza l’assillo di una sorveglianza continua, cosa che appare ormai una chimera. Non tanto per un paranoico senso di controllo ma per il reale pericolo di poter essere alla mercé di qualcuno pronto, surrettiziamente e per un qualche fine, a carpire dati sensibili o a profilare dettagliati report sulle nostre scelte, comportamenti o stili di vita.
Pur pronti a comprendere come vi sia una difficoltà intrinseca a dominare tutte le dinamiche che si sviluppano in questa fucina sempre aperta, troviamo altresì avvilente che le tante persone dedicate a elaborare e gestire le strategie e le azioni di marketing digitale non riescano ad anticipare, e dunque evitare, il cattivo uso di tecniche e strumenti pensati originalmente – vogliamo credere – per migliorare o mitigare determinati malfunzionamenti. Da un certo punto di vista sembra incredibile questa pervicacia ad avvelenare i pozzi in cui ci si abbevera – che significa far perdere credibilità relazionale all’intero sistema – non analizzando meglio le strumentazioni che si mettono in campo e le storture che esse creano, in certi casi invalidando anche i faticosi tentativi di rafforzare la sicurezza dei dati che transitano tra utenti e siti.
L’ultima sorpresa sul tema risale allo scorso novembre (2017) quando una ricerca condotta dal Center for Information Technology Policy dell’università di Princenton (No boundaries: Exfiltration of personal data by session-replay scripts) ha portato alla ribalta l’utilizzo di una tecnica, chiamata “reply session”, con cui qualunque editore di un sito internet, adottando il relativo software funzionale, può riprodurre esattamente tutte le interazioni avvenute durante la visita di un utente, comprese le informazioni scambiate. La reply session è l’esatta registrazione di quello che accade durante la visita di un sito, come se vi fosse una telecamera puntata dietro le spalle della persona che vi accede, tanto che è possibile a posteriore riprodurre ogni sua mossa in moviola.
Per capire come sia stato possibile arrivare a questo livello di intrusione e sofisticazione dobbiamo richiamare gli sforzi tecnici prodotti negli anni per rendere le pagine web più interattive e dunque funzionalmente potenziate. In questo senso le spinte sono state diverse: l’uso del browser come unica interfaccia funzionale per espletare qualunque esigenza di presentazione, immissione, modifica e scambio dati; l’esigenza dell’advertising di controllare con maggior precisione sia il comportamento dell’utente che la sincronizzazione esterna per convogliare contenuti promozionali appropriati da varie sorgenti; il passaggio tanto celebrato del web 2.0 per la capacità di gestire un dialogo a due vie funzionalmente meno asimmetrico tra centro e periferia. Non sarebbe stato possibile avere la user generated content senza il potenziamento della parte client per cui il browser non si limita al lavoro di presentazione ma, tramite l’interpretazione di codice (script) allegato alla pagina web servita dall’editore del sito, attiva anche le funzionalità predisposte per modificare, creare o inviare informazioni/contenuti in sincronizzazione con i domini dei server (sito/cloud).
Nel momento in cui carichiamo una qualche pagina web dunque importiamo con essa nel nostro browser, oltre alle istruzioni HTML e CSS per renderizzare contenuti e stili, anche pezzi di codice (programmi) utili a plasmare interattivamente i servizi. In questo modo siamo riusciti a ottenere, utilizzando solo il browser, la possibilità di costruire interfacce grafiche veramente sofisticate, flessibilità ovviamente aperte per quasi ogni tipo di estensione funzionale.
La funzione di replay session, sviluppata da aziende software specializzate che offrono servizi in internet, nelle intenzioni dichiarate è nata per dare agli editori e gestori di siti web la possibilità di migliorare l’esperienza di navigazione delle persone, che spesso riscontrano difficoltà in termini di usabilità, oppure incappano in errori. Avere l’abilità di rivedere ciò che durante le sessioni è accaduto può essere anche di aiuto a livello di customer care per ricostruire le azioni nell’esatto contesto.
Suonerebbe tutto abbastanza ragionevole se non fosse che, esaminando i dettagli implementativi e l’effettiva utilizzazione, si viene poi a scoprire che non solo le funzionalità lasciano spazio a pratiche pericolose ma che la loro attivazione sembrerebbe non segnalata (come dovrebbe) agli utenti navigatori dei siti interessati. Insomma, l’utilizzo di una tecnica che appare oggi molto diffusa, è ora nota ai più solo grazie a una benemerita indagine indipendente.
In effetti, ci ha pensato il Center for Information Technology Policy dell’università di Princenton ad attirare l’attenzione su questa pratica prendendo in considerazione, per ora, solo alcuni dei software sviluppati ( dalle aziende Yandex, FullStory, Hotjar, UserReplay, Smartlook, Clicktale e SessionCam), trovandoli in uso, tra i primi 50.000 siti maggiormente visitati (Alexa ranking), presso 482. I numeri sulla quantita di siti coinvolti è in continua evoluzione, anche perché non è sufficiente rintracciare la presenza del codice nelle pagine web scaricate essendo possibile che siano funzionalmente silenti visto che si può tenerli totalmente o in parte disattivi – alcuni software offrono ai gestori tali opzioni. L’indagine deve dunque accertarsi dell’effettivo utilizzo anche da altri segnali (il numero di siti coinvolti nella pratica è comunque cresciuto). La lista aggiornata, con le opzioni in uso riscontrate, può essere letta qui.
Per conoscere cosa si è riscontrato esattamente leggiamo parte delle conclusioni del rapporto.
Che cosa non va bene? Sinteticamente, molto.
Il tracciamento dei contenuti della pagina da parte dei programmi di queste aziende può causare il rilascio, come parte della registrazione, di dati sensibili verso aziende terze, informazioni quali condizione mediche, dettagli sulle carte di credito e altri dati visibili sulla pagina. Ciò può esporre le persone a furti di identità, tentativi di truffa e altri comportamenti non desiderati. Lo stesso è vero per il tracciamento degli input durante il checkout e i processi di registrazione. I servizi di replay offrono una combinazione manuale e automatiche di setting che consentono all’editore di escludere informazioni sensibili dalle registrazioni. Tuttavia, per evitare i tracciamenti, l’editore dovrebbe controllare e scartabellare diligentemente tutte le pagine che fanno vedere o accettano informazioni. Per i siti web generati dinamicamente, questo processo dovrebbe comportare l’ispezione del codice di generazione delle pagine web da parte del server. Inoltre, tale processo avrebbe bisogno di essere ripetuto ogni volta il sito è aggiornato o l’applicazione web che supporta il sito è cambiata.
[Nello specifico:]
1. Le password sono incluse nella sessione registrata. Tutti i servizi studiati provano a prevenire la pubblicazione di password escludendo automaticamente i campi di input della password dalla registrazione. Comunque, i box di login adatti per essere visti anche su dispositivi mobili e che usano input testuali per immagazzinare password non mascherate non sono redatte con questa regola a meno che l’editore non aggiunga manualmente un tag per escuderli. Abbiamo trovato almeno un sito dove la password inserita nel modulo di registrazione è stata rilasciata a SessionCam, anche se il modulo non è stato mai definitamente inviato.
2. Gli input di informazioni personali sensibili sono trattati in maniera parziale e imperfetta. Come una persona interagisce con un sito, si troverà a fornire dati sensibili durante la creazione di un account, mentre conduce un acquisto o ricerca qualcosa. Il programma di registrazione della sessione può usare direttamente le informazioni provenienti dai tasti battuti o i resoconti degli elementi di input per collezionare questi dati. Tutte le aziende studiate offrono qualche sorta di mitigazione attraverso un settaggio automatico preventivo, ma la copertura offerta varia grandemente a secondo il fornitore.
3. Il settaggio manuale delle informazioni di identificazione personale mostrate sulla pagina è un modello fondamentalmente insicuro. Oltre a collezionare gli input, la registrazione della sessione colleziona anche i contenuti delle pagine visualizzate. A differenza della registrazione degli input nessuna delle aziende fornisce un settaggio automatico di default per il contenuto visualizzato. Tutto il contenuto visualizzato nei nostri test è finito per essere rilasciato.
Le aziende di tali programmi si aspettano che i gestori dei siti segnalino tutte le informazioni identificative delle persone incluse nelle pagine visualizzate. I dati sensibili degli utenti hanno molte vie per finire nelle registrazioni e piccoli rilasci su tante pagine possono portare a una enorme accumulazione di dati personali in una singola registrazione di sessione4. Il servizio di registrazione può fallire a proteggere i dati personali. I servizi di registrazione aumentano l’esposizione ai data breach nel momento in cui inevitabilmente finiranno nelle registrazioni. Questi servizi devono gestire i dati registrati con la stessa sicurezza che l’editore garantisce per le stesse informazioni.
Possiamo fornire un esempio specifico di come i servizi di registrazione possono fallire a fare ciò. Una volta che la sessione è completa gli editori possono rivederla utilizzando una dashboard fornita dal servizio di registrazione. La dashboard dell’editore per Yandex, Hotjar e Smartlook consegnano tutte dei playback all’interno di una pagina HTTP, anche per registrazioni che avvengono su pagine accedute dall’utente via protocollo HTTPS. Ciò permette, con un tipo di attacco middle-in-the-man, di inniettare uno script nella pagina di playback ed estrarre tutti i dati registrati. Ancora peggio, Yandex e Hotjar consegnano il contenuto della pagina via HTTP, per cu i dati che precedentemente erano protetti via HTTPS sono ora vulnerabili per la sorveglianza di reti passive.
Riferimenti
“No boundaries: Exfiltration of personal data by session-replay scripts“, 15/11/2017, Freedomtothinker.com.
Wikipedia, Replay session.