A ciascuno la sua voce
Come parliamo e ascoltiamo dai Neanderthal all'intelligenza artificiale
Il linguaggio è ciò che ci rende umani. Dai primi suoni pronunciati dai nostri progenitori ai dialoghi con le intelligenze artificiali di nuova generazione, Cox ci fa esplorare la storia della comunicazione e del linguaggio, per aiutarci a capire chi eravamo, chi siamo e soprattutto chi saremo.
- Collana: ScienzaFACILE
- ISBN: 9788822068903
- Anno: 2020
- Mese: maggio
- Formato: 14 x 21 cm
- Pagine: 288
- Tag: Scienza Comunicazione
Cos’è che ci rende umani? Secondo Trevor Cox, è la capacità di parlare e ascoltare a distinguerci dagli altri animali. Il suo avvincente racconto di come il nostro modo di comunicare si è evoluto nel corso del tempo – e oggi si trasforma grazie all’intelligenza artificiale – è una storia epica, originale e affascinante, che ci porta dai primi suoni emessi dai nostri antenati alle più recenti tecniche del sound design. Ma non solo.
Come si abbattono gli “stereotipi vocali”? Si può curare la balbuzie? Esistono modi per mantenere giovane la voce anche in età avanzata? La macchina della verità funziona davvero? In cosa consiste il beatboxing? E come è cambiata la maniera di cantare con l’uso di Auto-Tune? Dialogando con neuroscienziati, vocal coach, ingegneri del suono e programmatori informatici, Cox analizza tutti gli aspetti che riguardano la nostra identità vocale, portandoci a scoprire quanto la voce sia essenziale per definire la nostra individualità.
Quale impatto hanno allora tecnologie come Siri o Alexa, in grado di capirci e risponderci, sulla nostra unicità di esseri umani? Come ascolta e parla un’intelligenza artificiale, e che effetto avrà sul modo di comunicare del futuro?
«Considero questa invenzione come un evento epocale nella storia della scienza... un ringra- ziamento... per l’immenso piacere provato... nell’ascoltare lo strumento del signor Edison»1.
«La Sua fantastica invenzione si è impadronita della mia mente a tal punto che ho dif coltà a fare ordine tra i miei pensieri e a proseguire nel lavoro. È un risultato di portata (scienti ca) straordinaria, il suo potenziale è immenso»2.
Nel dicembre del 1877, Thomas Edison registrò e riprodusse sul suo fonografo la lastrocca Mary Had a Little Lamb, entrando nella storia. Non si trattò semplicemente di «un evento epocale nella storia della scienza»: per la voce umana fu una rivoluzione. Prima di allora, sentir parlare qualcuno era esclusivamente un’esperienza da fare in prima persona: bisognava ascoltare i suoni prodotti dalla sua bocca.
Possiamo leggere il testo dei discorsi celebri pronunciati prima dell’arrivo del fonografo, ad esempio quello di Abraham Lincoln a Gettysburg, ma non sapremo mai con esattezza come parlò il presi- dente. Il fonografo ha permesso invece di catturare il modo in cui si parla, un dato di importanza paragonabile a quella delle parole stesse. Se qualcuno dice «va tutto bene», il suo tono potrebbe farvi capire che in realtà non va tutto bene.
La voce è alla base della nostra identità. Quando riceviamo la telefonata di un amico o di una persona cara, ci bastano poche pa- role per capire con chi stiamo parlando. È una capacità fenomenale. Se a chiamare è un estraneo, l’accento e l’intonazione ci spingono immediatamente a fare ipotesi sull’estrazione sociale, sul livello di istruzione e persino sull’età, sulla statura e sulla personalità del nostro interlocutore, sebbene in questo caso i preconcetti e i pregiu- dizi inducano spesso in errore. Adattiamo il nostro modo di parlare all’immagine che vogliamo offrire. Siamo camaleonti della voce: senza rendercene conto, parliamo con accento più marcato quando siamo nella nostra città e meno marcato altrove, per non farci no- tare. La nostra identità vocale è meno costante di quanto possiamo immaginare.
Lo sconcerto che proviamo nell’ascoltarci in una registrazione non fa che rendere ancora più evidente l’importanza della voce nel de nire la percezione che abbiamo di noi stessi. La voce che sen- tiamo per tutta la vita rimbomba più di quella che sentono gli altri, perché nel trasmettere il suono dalla laringe all’orecchio, le vibra- zioni delle ossa ampli cano i bassi. Una registrazione ci rivela im- mediatamente che l’identità vocale che presentiamo agli altri non corrisponde alla nostra voce interiore. Prima di Edison e della sua invenzione ignoravamo beatamente tutto ciò.
Possiamo suddividere la “storia orale” dell’umanità in tre epo- che, e considerare il fonografo come uno spartiacque. In origine eravamo come gli altri animali, e ci esprimevamo con versi sem- plici per in uenzare i nostri simili: spaventare i rivali, avvertire di un pericolo, attrarre un partner. La seconda epoca ebbe inizio con la comparsa del linguaggio, che rese possibile un’in nità di imprese collettive e ci permise di dominare il mondo. Buona parte di ciò che dicevamo mirava ancora a in uenzare le idee e il com- portamento altrui – dal genitore che intimava al bambino di non correre per strada a Enrico V che spronava le truppe urlando: «An- cora una volta alla breccia!» – ma imparammo a parlare anche per il piacere di farlo e per divertirci, stabilire una relazione con la realtà circostante, fare dichiarazioni d’amore. L’arrivo di innova- zioni tecnologiche come il fonografo, che segnò l’inizio della terza epoca, consentì ai singoli individui di raggiungere un pubblico più ampio, talvolta con effetti disastrosi. Al processo di Norimberga, un ministro tedesco dichiarò che la dittatura nazista era stata la prima a servirsi «di tutti i mezzi tecnici disponibili per la domina- zione del Paese. Strumenti tecnici quali la radio e l’altoparlante, servirono a togliere il pensiero indipendente a ottanta milioni di individui»3. Oggi assistiamo all’alba di una nuova, entusiasmante èra, quella dell’intelligenza arti ciale (IA), in cui abbiamo cominciato a dialogare con i computer. Non sappiamo ancora se sia un bene o un male, ma è certo che condividendo con le macchine la nostra eccezionale abilità di comunicazione verbale l’abbiamo resa meno unica.
Questo libro racconta la storia evolutiva della capacità di parla- re e di ascoltare, di come ognuno di noi sviluppi questi doni feno- menali nel corso dell’infanzia, e dell’impatto della tecnologia sulla comunicazione umana. Affrontare una conversazione appare sem- plice perché siamo abituati a farlo, ma parlare e ascoltare, in realtà, sono tra le attività più complesse che la mente e il corpo devono eseguire. Parlare richiede una ginnastica anatomica ben precisa, governata con meticolosità da un gran numero di aree cerebrali di- stinte. Capire cosa sta dicendo una persona e cogliere dal suo tono di voce indizi utili sull’umore e sul senso delle sue parole è terribil- mente complicato. I processi in gioco, in condizioni normali, non sono visibili, però il lavoro di psicologi, neuroscienziati e biologi ci sta aiutando a far luce su ciò che accade. Molte conversazioni che un tempo si svolgevano in forma non mediata, faccia a fac- cia, sono state soppiantate da dialoghi trasmessi e trasformati dalla tecnologia. E con il diffondersi delle conversazioni con i computer l’in uenza della tecnologia non potrà che aumentare. Quali segreti rischiamo di svelare involontariamente ai nostri dispositivi? Come ascolta e parla una IA, e che effetto avrà sul linguaggio umano del futuro?
Il fonografo è un ottimo esempio dell’impatto della tecnologia sul nostro modo di parlare e ascoltare. Il suo esordio davanti al pub- blico britannico avvenne nel febbraio del 1878 con una dimostra- zione alla Royal Institution, il luogo in cui nell’Età vittoriana le per- sone che contavano si riunivano per scoprire le ultime novità della scienza e dell’ingegneria. In una sala gremita, William H. Preece, ingegnere capo del British Postal Telegraph Department, mostrò come funzionava una copia dell’invenzione di Edison assemblata in fretta e furia la settimana precedente a causa del ritardo nella conse- gna di un fonografo spedito dall’America. Anche Preece, come Edi- son, decise di testare il dispositivo con una lastrocca, Hey Diddle Diddle, the Cat and the Fiddle. «Si potevano distinguere chiaramente le parole, ma la voce era caricaturale, debolissima e soprannaturale» riferì il «London Weekly Graphic». La scelta di una lastrocca per dimostrare come funzionava un’innovazione tecnologica così rivo- luzionaria era stata azzeccata: conoscendo il testo, l’ascoltatore po- teva completare inconsciamente le parole perse a causa del rumore prodotto dall’ago che danzava sulla stagnola, graf andola. La nuova invenzione ebbe un successo clamoroso: «La gente si accalcava in- torno al tavolo per vedere il fonografo, ascoltarlo e parlargli, e il tea- tro non si svuotò no alle undici, quando furono spente le lampade a gas: un’indicazione chiara del fatto che era ora di andarsene»4.
Thomas Edison e il suo fonografo.
Il secondo fonografo a stagnola costruito da Edison arrivò in In- ghilterra nel giro di due settimane. Di solito non è visibile al pub- blico, ma ho avuto il privilegio di poterlo osservare da vicino in occasione di un programma radiofonico della BBC a cui ero stato invitato5. Il rullo centrale, avvolto nella stagnola, viene fatto ruo- tare con una manovella inserita sul lato sinistro. Sul lato opposto, un grande volano rende più uniforme il movimento. Il suono della voce è convogliato da un imbuto su una piccola membrana, le cui vibrazioni vengono trasmesse a un ago che incide un solco sulla stagnola in rotazione. Il meccanismo è semplice e geniale: le vibra- zioni dell’aria che costituiscono il suono della voce si trasformano in oscillazioni dell’ago e queste, a loro volta, incidono un solco di pro- fondità variabile nella stagnola. Per riprodurre il suono si ripercorre il solco con un altro ago, la puntina: le irregolarità fanno vibrare la membrana, che trasmette le oscillazioni alle molecole dell’aria e da qui all’orecchio dell’ascoltatore.
Il fonografo di Edison è un pezzo da museo che non viene più utilizzato, ma durante la mia visita riuscii a registrare su un’altra macchina analoga i versi di Alfred Tennyson Come into the garden, Maud: una scelta obbligata, visto che lo stesso Tennyson era presen- te quando la poesia fu declamata nel fonografo in occasione del suo debutto alla Royal Institution. Per essere sicuri che il solco sia ab- bastanza profondo bisogna avvicinarsi molto alla cornetta e urlare, altrimenti nella riproduzione le parole vengono coperte dal rumore di fondo. Ascoltando l’incisione la mia voce sembrava strozzata, ma le parole erano chiaramente intelligibili nonostante l’inevitabile stridore.
Nelle prime dimostrazioni del funzionamento del fonografo gli esperimenti potevano scon nare nel gioco. Uno dei più popolari, all’epoca, consisteva nel riprodurre la registrazione modi cando la velocità della manovella. Uno degli spettatori affermò di aver udito «una vecchia arrabbiata» quando il cilindro era stato fatto ruotare troppo velocemente e «un vecchio decrepito con la bocca piena d’acqua» quando era stato rallentato6. I Beatles erano famosi per i loro esperimenti innovativi con i suoni – la sovrapposizione di voci, la riproduzione di registrazioni al contrario e a velocità diverse – e negli anni ’70 alcuni gruppi religiosi si lamentarono del fatto che riproducendo al contrario canzoni come Stairway to Heaven dei Led Zeppelin si udivano testi satanici. Tutto ciò, in realtà, lo aveva già fatto Edison con la sua registrazione dell’urlo «Mad dog! Mad dog! Mad dog!».
L’impatto della tecnologia sulla voce non si è limitato affatto alla possibilità di giocare con le registrazioni: ha cambiato il nostro modo di parlare e di cantare. Recentemente ho confrontato una re- gistrazione storica del monologo shakespeariano Ora è l’inverno del nostro scontento, incisa al fonografo dall’attore Sir Henry Irving, con una versione moderna di David Morrissey. Nell’incisione ottocen- tesca, Irving proietta la sua voce affettata utilizzando una tecnica af nata per i palcoscenici dei grandi teatri. Nel caso di Morrissey, invece, il microfono permette all’attore di parlare con un tono nor- male e di declamare i versi come se si trovasse di fronte a poche persone, facendo distinguere chiaramente le sfumature lievemente rauche della sua voce.
Le trasformazioni del modo di cantare sono state ancora più profonde. Tra le prime incisioni realizzate con il fonografo trovia- mo quelle di Adelina Patti, una superstar della lirica dell’epoca: se le confrontiamo con quelle di una grande cantante moderna come Amy Winehouse notiamo che il timbro operistico della Patti si di- stingue per purezza e dolcezza, mentre la voce della Winehouse è molto più carica di personalità, di soul. Adelina Patti aveva dovuto modellare il proprio apparato vocale così da produrre un suono po- tente. Con l’aiuto dell’elettronica, Amy Winehouse aveva invece potuto godere di una libertà espressiva molto più grande. Grazie alla tecnologia, la musica moderna ci offre una varietà vocale scon nata.
Il suono, per sua natura, è ef mero, ma da quando è possibile re- gistrarlo la situazione è cambiata. Oggi i ricercatori dispongono di un vasto patrimonio storico di ascolti la cui analisi ci ha già rivelato cambiamenti culturali come il calo di tonalità della voce femminile negli ultimi decenni o la sostituzione della pronuncia nasale cockney con una miscela di accenti multiculturali nell’East End di Londra. È verosimile che la nostra voce non abbia mai smesso di evolversi nel corso della storia dell’umanità, ma solo ora siamo in grado di osservar- ne direttamente i cambiamenti. Confrontando registrazioni vecchie e nuove, si può addirittura valutare come cambia la voce di un indi- viduo dopo una vita passata a parlare e ascoltare. Per fortuna il nostro apparato vocale resiste bene all’invecchiamento: le rughe e i capelli bianchi appaiono molto prima che la voce si deteriori.
Fra tutte le applicazioni immaginate da Edison per la sua in- venzione, quella a cui teneva di più era la possibilità di registrare la voce delle persone prima che morissero. La voce racchiude la personalità di un individuo più di un’immagine perché è viva. «Con la sua capacità di conservare i discorsi, la voce e le ultime parole dei nostri familiari morenti e delle persone celebri», profetizzava Edison, «il fonografo spodesterà la fotogra a, non c’è dubbio»7. La sua predizione si rivelò errata, ma per registrare la voce dei nostri cari ricorriamo sempre più spesso ai lmati. Grazie ai telefoni cellulari e ad altri dispositivi, le immagini in movimento e le colonne sonore stanno contendendo il campo alle fotografie.
Oggi l’IA ci consente di simulare una conversazione con una persona morta, in una forma vocale di commemorazione. Si parla molto dei posti di lavoro persi per colpa delle nuove tecnologie, ma chi l’avrebbe mai detto che anche i medium delle sedute spiritiche avrebbero nito per diventare super ui... Certo, presumibilmente loro lo sapevano già e si sono dati ad altro!
Nel 2015, Roman Mazurenko, redattore di una rivista online, è morto tragicamente, investito da un’auto pirata a Mosca. Per potergli parlare ancora una volta, la sua carissima amica Eugenia Kuyda, imprenditrice nel settore tecnologico, ha realizzato un chatbot, alimentando con le migliaia di messaggi scritti da Roman un pro- gramma “intelligente” capace di ricreare il modo di esprimersi del suo amico. A differenza di Tennyson e delle sue parole incise per sempre nella cera del fonografo, il Roman-bot può rispondere con frasi che non compaiono nei messaggi originali8. Ecco una tipica conversazione tra Eugenia e il bot:
Eugenia: Come stai?
Roman-bot: Bene. Un po’ giù. Mi auguro che tu non stia facendo nulla di
interessante senza di me.
Eugenia: Stanno accadendo molte cose. La vita va avanti, ma ci manchi. Roman-bot: Anche voi mi mancate. Immagino che volersi bene voglia dire proprio questo9.
Che dire? Parlare con una persona cara che non c’è più – in- teriormente o ad alta voce – non è infrequente, ma l’idea che sia una macchina a risponderci è inquietante. La tecnologia ha creato una spaccatura nella cerchia degli amici e dei parenti di Roman: c’è chi ha apprezzato la cosa e chi l’ha trovata di cattivo gusto. Adesso immaginate di fare un passo in più e di ricostruire la voce di Roman partendo dalle registrazioni disponibili. È assolutamente fattibile: per chi ha perso la capacità di parlare a causa di patologie come le malattie del motoneurone, le voci arti ciali personalizzate sono una soluzione sempre più diffusa. Se il pensiero di un chatbot comme- morativo che invia messaggi vi mette a disagio, provate a imma- ginare quanto potrà sembrarvi macabra una macchina che riporta in vita la voce di una persona cara. È un tema che solleva molti interrogativi di natura etica: ad esempio, abbiamo il diritto di impa- dronirci delle tracce digitali lasciate da un individuo per creare una parvenza di immortalità?
L’IA sta cambiando in maniera radicale il nostro modo di dia- logare. Per un essere umano, parlare e ascoltare non sono solo un modo per trasmettere informazioni fattuali. La frase «ti voglio bene» è carica di connotazioni. Rivolgerla a un computer può sembrare poco verosimile, ma ogni giorno migliaia di persone professano il loro affetto per Alexa, l’assistente vocale di Amazon10. L’arrivo di macchine capaci di capire e rappresentare le emozioni – o anche solo di imitarle in maniera convincente – cambierà per sempre il nostro rapporto con questi dispositivi. Non siamo poi così distanti dallo scenario descritto in Lei, un lm del 2013 in cui un uomo, spinto dalla solitudine, si innamora di Samantha, un sistema opera- tivo dotato di intelligenza arti ciale.
Chi rischia di perdere il lavoro con il miglioramento delle tec- nologie digitali di conversazione? All’inizio del XIX secolo i luddi- sti distruggevano le macchine della Rivoluzione industriale perché le vedevano come una minaccia alla loro sopravvivenza. Nei primi anni del Novecento, la crescente diffusione delle registrazioni mu- sicali fece temere al compositore John Philip Sousa che ben pre- sto «nessuno sarà più disposto a impegnarsi nella nobile disciplina dell’apprendimento della musica»11. Nel 2014, a Hartford, nel Con- necticut, si è dovuta rimandare la messa in scena dell’Anello del Nibe- lungo di Richard Wagner per le proteste suscitate dalla scelta di usare un computer al posto dell’orchestra tradizionale12. Se le macchine impareranno a esprimere le emozioni ci capiterà di vedere attorucoli luddisti all’assalto del Globe Theatre per distruggere androidi intenti a recitare Shakespeare? E se l’IA riuscisse addirittura a sostituirsi al Bardo e a scrivere una commedia da far recitare a robot-attori?
Il teatro ha una lunga tradizione di animali, fantasmi e manichini utilizzati per far luce sulla natura umana. Con l’arrivo di macchine ca- paci di dialogare, anche la tecnologia potrà svelarci molto di noi stessi. Pensate alla fatica con cui gli scienziati stanno cercando di realizzare computer che sappiano parlare e ascoltare, e paragonatela alla natu- ralezza di un bambino che impara a fare la stessa cosa: crediamo che fare addizioni complesse sia dif cile e che sostenere una conversazione sia facile, ma quando è una macchina a doverlo fare scopriamo che la parte più semplice sono i calcoli. La capacità umana di dialogare, all’apparenza così naturale, ha in realtà qualcosa di incredibile.
Oggi tendiamo ad associare la capacità di parlare e di ascolta- re alla tecnologia, ma se vogliamo capire davvero come abbiamo imparato a comunicare verbalmente dobbiamo risalire a ciò che è accaduto molto prima dell’invenzione del fonografo. Come si è evo- luto il linguaggio umano? I Neanderthal erano in grado di chiac- chierare con il “moderno” Homo sapiens? Il primo capitolo affronta proprio questo tema scottante.
09 Agosto 2020 | La lettura |
08 Settembre 2020 | Doppiozero |
23 Giugno 2020 | Adolgiso.it |
01 Gennaio 2021 | Corriere del Sud |
08 Marzo 2021 | www.doppiozero.com |
23 Agosto 2022 | La Stampa |