La storia culturale delle macchine parlanti
Nonostante la sua importanza per la vita sociale, il suono come evento in sé rimane poco problematizzato nell’ambito delle scienze sociali. Eppure praticamente galleggiamo in un universo di suoni, ovvero eventi prodotti da pressioni nell’aria – che possiamo definire il fenomeno primo – che poi interpretiamo come rumori più o meno indefiniti o segnali di senso articolati e pregnanti.
Il libro La voce artificiale. Un’indagine media-archeologica sul computer parlante trae spunto dalla attuale affermazione delle tecnologie computerizzate degli assistenti vocali – Siri, Alexa, Google Home, ecc. – per entrare nelle dinamiche costruttive e auditive che consentono a un evento sonoro di essere interpretato come artefatto culturale e sociale.
Avere esperienze nella fenomenologia sonora – di un suono che esiste perché variabilmente risonante nei corpi che incontra – credo alleni ad affrontare questioni peculiari quali gli effetti stranianti della sua imprevedibilità e transitorietà o la sua presa nel coinvolgimento umano – cognitiva, emotiva e fisica. Tale competenza ha evidentemente giovato all’autore – Domenico Napolitano, giovane ricercatore sociale e sperimentato organizzatore di performance sonore, esso stesso artista del campo – pronto ad affrontare con tenacia e arguzia un largo spettro di questioni vagliandole da prospettive di studio diverse ma proficuamente interrelate – filosofiche, sociologiche, tecniche, letterarie, linguistiche, informatiche, economiche, estetiche ed anche etnografiche, con interviste ai professionisti che nell’ambito vocale elaborano strategie e usi della intelligenza artificiale.
Da questo punto di vista l’indagine sul computer che ha imparato a rispondere e parlare con una voce sintetica – ormai modulabile a piacere anche con le caratteristiche e i tic di una determinata voce umana (cloning) – oltre ad essere una puntuale e chiara descrizione di tutte le sfaccettature del fenomeno, è un manuale generoso e istruttivo su come analizzare in generale un medium tecnologico nella sua costruzione e accoglienza in quanto artefatto socio-culturale.
La ricerca come opera di hackeraggio e demistificazione
L’indagine è dunque condotta sempre a un doppio livello – sulla specificità della nuova tecnologia vocale e sui risvolti più generali dei nuovi assemblaggi tra uomo e macchina – poiché, come afferma l’autore commentando le tesi postumaniste, «la voce artificiale può essere vista come l’espressione di una condizione che si verifica tra esseri umani e tecnologia, una modulazione del confine mobile che li mette in relazione» (p. 425).
Questo continuo rilancio tra particolare e generale è veramente utile in un contesto così complesso quale quello aperto dalla diffusione delle tecnologie digitali in rete e dallo strasbordante sviluppo di prodotti informazionali che – datificando e filtrando ogni tipo di attività e comportamento – imbasticono ambienti e relazioni di ogni genere. Essa si propone a tutti gli effetti come un’opera di hackeraggio e demistificazione che riesce ad aprire e illustrare le black box dal cuore algoritmico a cui (sulla rete) siamo ormai soggetti, precisandone i principi di funzionamento e i potenziali rischi insiti in ogni nuovo intreccio di umano e macchinico.
Tra le tante questioni affrontate, ad esempio, vi è la disamina dei nuovi software intelligenti da cui impariamo che dietro il buon funzionamento di una intelligenza artificiale vi sono calcoli statistici che non debbono capire il significato dei segni ma solo individuare la probabilità che determinati dati testuali si correlino a determinati dati sonori – cosa che si ottiene se gli algoritmi possono accedere a una quantità incredibile di campioni fattuali reali – cosicché il parlato si rivela essere una simulazione data-driven di effetti vocali pre-acquisiti dal campo – potenti operazioni che possono permettersi il lusso di bypassare le abilità interne, semantiche ed ermeneutiche, a cui è vincolato l’essere umano.
Allo stesso tempo, si evidenzia come la capacità di progettare ed esternare all’ambito macchinico funzioni umane così sofisticate – che poi si ibridano intimamente alle nostre vite incidendo sulla volontà decisionale delle persone – siano lasciate ad aziende che rispondono ad interessi tendenti a sfuggire – nonostante il loro potere effettuale – ai principi di responsabilità (etica e sociale) che normalmente regolano le attività svolte nelle comunità.
Far riemergere contesti, saperi, interessi e immaginari
Queste prime considerazioni ci rendono più comprensibile il motivo per cui lo studio di una tecnologia comunicativa possa o debba abbracciare un così ampio spettro di questioni.
Intanto, bisogna confrontarsi con un immaginario – quello sulle voci disincarnate – che è antico come l’uomo, oltre che con i numerosi tentativi di costruire macchine parlanti o di utilizzare la voce per antropomorfizzarle e riportarle nel nostro dominio – nel film 2001: Odissea nello spazio di Stanley Kubrick (1968) la voce del computer Hal 9000 gioca costantemente con questa tensione sublimale di bisogno di familiarità e timore dell’alterità macchinica.
Ma l’altro grande tema è che le facoltà comunicative legate al linguaggio hanno un ruolo centrale per l’essere umano e la voce, anche in qualità di marcatore corporeo univoco, è il suo medium di eccellenza. Con i computer che comprendono e producono il linguaggio vocale attraverso processi computazionali che partono da dati acustici si entra in un nuovo scenario esistenziale in cui la prima assunzione a cadere è che ogni voce presuma un corpo umano.
Già questo mette in discussione tutta una serie di assunzioni: la voce, sia nell’azione del parlare che nel rispondere, è stata sempre vissuta e intesa come principio di individuazione umana, e anche indizio di una presenza piena e responsabile – un concetto quest’ultimo molto dibattuto in filosofia nei termini di una “metafisica della presenza” tendente a criticare i privilegi attribuiti alla funzione fonetica/performativa rispetto ad altri segni di presenza.
Per l’autore dunque la voce artificiale è un «fenomeno socio-tecnico che si muove trasversalmente tra tecnologie, saperi, storie, desideri, interessi e immaginari, e che riguarda allo stesso tempo strutture antropologiche, sociali ed epistemologiche» (p. 19).
L’istruttività di una buona ricerca
Si accennava alla possibile fruibilità del lavoro come guida istruttiva per indagare le tecnologie mediali. In effetti a giocare a favore di questa tesi vi sono diversi fattori: l’impostazione metodologica; l’ampia disamina dei riferimenti teorici-critici includenti gli studiosi che, nel panorama internazionale, sono reputati tra i più attenti alle problematiche affrontate; l’intelligibilità discorsiva.
Un altro elemento da evidenziare è lo sforzo di integrare le teorie prese a riferimento – archeologia dei media, materialismo e costruzionismo (Science and Technology Studies, Actor-network theory, Critical algorithm studies, Sound studies) – per illustrare come il processo del «farsi voce» sia storico, sociale ed evolutivo e come le tecnologie – analizzate nelle fasi altalenanti di costruzione in cui si mediano input economici, sociali e tecnici – vadano scandagliate anche nella loro materialità, così come nei contesti di uso, essendo esse stesse dei veri e propri «modi di pensare» in quanto li attualizzano e li performano «incarnando epistemologie, psicologie e capacità operative» (p. 70).
Il proficuo lavoro delle pratiche artistiche nell’ambito sonoro
Per concludere, è interessante accennare all’utilità di attingere alle esperienze artistiche relative al suono per il loro valore contributivo alle problematiche della ricerca. La voce e i suoi effetti, anche nell’intersezione con gli artefatti tecnologici – «la voce nella macchina» e «la voce della macchina» – sono infatti al centro di riflessioni e pratiche artistiche che, grazie alle spinte sperimentali, hanno la capacità non solo di rappresentare nuove forme di eventi, ma anche di anticipare innovazioni creative poi candidate a divenire persino prodotti commerciali.
In pratica, gli artisti del suono spesso svelano al pubblico – e qui si riportano molti esempi – ciò che probabilmente avviene o avverrà nei laboratori privati di qualche azienda al permanere degli attuali scenari tecnici e socio-culturali. In queste opere, supportate dall’utilizzo degli ultimi software – machine learning e reti neurali abilmente gestite – si possono ad esempio intavolare sfide improvvisando in tempo reale sul palco duetti tra la propria voce incarnata e la stessa voce clonata ma generata e cantata – in espressioni vocali impossibili per un essere umano – da un computer.
Il tema in questo caso è il confine tra identità corporea e macchina – la voce infatti è dell’artista, ma, allo stesso tempo, è anche della macchina.
D’altro canto le pratiche artistiche possono disvelare scenari più critici riguardo alla potenza e alla imprevedibilità progettuale dei processi di datificazione a cui, più in generale, tutto oggi sembra sottomesso.
La datificazione di ogni fenomeno e l’utilizzo di software in grado di metterli in relazione – attraverso il solo fatto di essere diventati pura datità numerica – sono in grado di generare degli oggetti/fenomeni ibridi che combinano, a piacere, alcune delle loro caratteristiche singolari.
Apprendiamo così che vi sono sintesi vocali in grado di ibridare il timbro della voce di qualcuno con lo stile prosodico di qualcun altro, e questo vale per qualunque altra caratteristica paralinguistica (voice conversion) – diverse aziende stanno già commercializzando come prodotto le cosiddette skin voice.
Riferimenti
Napolitano, D., 2022, La voce artificiale. Un’indagine media-archeologica sul computer parlante , Napoli, Edizione Scientifica.