Ce scientifique a donné sa voix à Stephen Hawking – puis a perdu la sienne

"Tu m'entends bien ?" Je demande à Brad Story au début d'un appel vidéo. Prononcer une phrase aussi simple que celle-ci, je l'apprendrai plus tard, revient à accomplir ce qui est sans doute l'acte moteur le plus complexe connu de toutes les espèces : la parole.

Mais alors que Story, un spécialiste de la parole, pointe son oreille et secoue la tête, cet acte de parole particulier ne semble pas si impressionnant. Un pépin technologique nous a rendus pratiquement muets. Nous passons à un autre système moderne de transmission de la parole, le smartphone, et entamons une conversation sur l'évolution des machines parlantes - un projet qui a commencé il y a un millénaire avec des histoires magiques de têtes de laiton parlantes et se poursuit aujourd'hui avec une technologie qui, pour beaucoup d'entre nous, pourrait aussi bien être magique : Siri et Alexa, l'IA de clonage de la voix, et toutes les autres technologies de synthèse vocale qui résonnent dans notre quotidien.

Une brève période de mutisme induite par la technologie pourrait être la plus proche de nombreuses personnes qui perdent la voix. Cela ne veut pas dire que les troubles de la voix sont rares. Environ un tiers des personnes aux États-Unis souffrent d'une anomalie de la parole à un moment donné de leur vie en raison d'un trouble de la voix, connu sous le nom de dysphonie. Mais perdre complètement et définitivement la voix est beaucoup plus rare, généralement causé par des facteurs tels qu'une blessure traumatique ou une maladie neurologique.

Pour Stephen Hawking, c'était ce dernier. En 1963, l'étudiant en physique de 21 ans a reçu un diagnostic de sclérose latérale amyotrophique (SLA), une pathologie neurologique rare qui éroderait son contrôle musculaire volontaire au cours des deux décennies suivantes jusqu'à une paralysie quasi totale. En 1979, la voix du physicien était devenue si pâteuse que seules les personnes qui le connaissaient bien pouvaient comprendre son discours.

"La voix est très importante", a écrit Hawking dans ses mémoires. "Si vous avez une voix pâteuse, les gens risquent de vous traiter de déficient mental."

En 1985, Hawking a développé un cas grave de pneumonie et a subi une trachéotomie. Cela lui a sauvé la vie mais a pris sa voix. Par la suite, il ne pouvait communiquer que par le biais d'un processus fastidieux à deux personnes : quelqu'un pointait des lettres individuelles sur une carte, et Hawking haussait les sourcils lorsqu'ils frappaient la bonne.

"Il est assez difficile de mener une conversation comme celle-là, et encore moins d'écrire un article scientifique", a écrit Hawking. Lorsque sa voix s'est évanouie, tout espoir de poursuivre sa carrière ou de terminer son deuxième livre a disparu, le best-seller qui ferait de Stephen Hawking un nom connu : Une brève histoire du temps : du Big Bang aux trous noirs.

Mais bientôt, Hawking produisit à nouveau un discours - cette fois pas avec l'accent anglais de la BBC qu'il avait acquis en grandissant dans la banlieue nord-ouest de Londres, mais un accent vaguement américain et résolument robotique. Tout le monde n'était pas d'accord sur la façon de décrire l'accent. Certains l'appelaient écossais, d'autres scandinave. Nick Mason de Pink Floyd l'a qualifié de "positivement interstellaire".

Peu importe le descripteur, cette voix générée par ordinateur deviendrait l'une des inflexions les plus reconnaissables de la planète, reliant l'esprit de Hawking à d'innombrables publics désireux de l'entendre parler des plus grandes questions : les trous noirs, la nature du temps et l'origine de notre univers.

Contrairement à d'autres orateurs célèbres à travers l'histoire, la voix de marque de Hawking n'était pas entièrement la sienne. C'était une reproduction de la voix réelle d'un autre scientifique pionnier, Dennis Klatt, qui dans les années 1970 et 1980 a développé des systèmes informatiques de pointe capables de transformer pratiquement n'importe quel texte anglais en discours synthétique.

Les synthétiseurs vocaux de Klatt et leurs dérivés portaient différents noms : MITalk, KlatTalk, DECtalk, CallText. Mais la voix la plus populaire produite par ces machines – celle que Hawking a utilisée au cours des trois dernières décennies de sa vie – portait un seul nom : Perfect Paul.

"Il est devenu si connu et incarné par Stephen Hawking, dans cette voix", me dit Story, professeur au Département des sciences de la parole, du langage et de l'audition à l'Université de l'Arizona. "Mais cette voix était vraiment la voix de Dennis. Il a basé la majeure partie de ce synthétiseur sur lui-même."

Les conceptions de Klatt ont marqué un tournant dans la synthèse vocale. Les ordinateurs pouvaient désormais prendre le texte que vous avez tapé dans un ordinateur et le convertir en parole d'une manière hautement intelligible. Ces systèmes ont réussi à capturer de près les façons subtiles dont nous prononçons non seulement des mots, mais des phrases entières.

Alors que Hawking apprenait à vivre et à travailler avec sa nouvelle voix dans la seconde moitié des années 1980, la propre voix de Klatt devenait de plus en plus rauque – une conséquence du cancer de la thyroïde, qui l'avait affligé pendant des années.

"Il parlait avec une sorte de murmure rauque", explique Joseph Perkell, spécialiste de la parole et collègue de Klatt lorsqu'ils travaillaient tous les deux au sein du Speech Communications Group du MIT dans les années 1970 et 1980. "C'était une sorte d'ironie ultime. Voici un homme qui a travaillé sur la reproduction du processus de la parole et il ne peut pas le faire lui-même."

Bien avant d'apprendre à construire la parole avec des ordinateurs, Klatt a regardé des ouvriers du bâtiment construire des bâtiments lorsqu'il était enfant dans la banlieue de Milwaukee, Wisconsin. Le processus le fascinait.

"Il a commencé comme une personne très curieuse", explique Mary Klatt, qui a épousé Dennis après leur rencontre au laboratoire de sciences de la communication de l'Université du Michigan, où ils avaient des bureaux côte à côte au début des années 1960.

Dennis est venu au Michigan après avoir obtenu une maîtrise en génie électrique de l'Université Purdue. Il travaillait dur au laboratoire. Cependant, tout le monde ne l'a peut-être pas remarqué, étant donné son bronzage profond, son habitude de jouer au tennis toute la journée et sa tendance à effectuer plusieurs tâches à la fois.

"Quand j'allais à son appartement, il faisait trois choses à la fois", dit Mary. "Il aurait ses écouteurs sur les oreilles, écoutant de l'opéra. Il regarderait un match de baseball. Et en même temps, il rédigerait sa thèse."

Lorsque le directeur du laboratoire de sciences de la communication, Gordon Peterson, a lu la thèse de Dennis - qui portait sur les théories de la physiologie auditive - il a été surpris de voir à quel point c'était bon, se souvient Mary.

"Dennis n'était pas un dur à cuire. Il a travaillé de longues heures, mais c'était comme si c'était amusant, et c'est un vrai scientifique curieux."

Après avoir obtenu un doctorat. en sciences de la communication de l'Université du Michigan, Dennis a rejoint la faculté du MIT en tant que professeur adjoint en 1965. C'était deux décennies après la Seconde Guerre mondiale, un conflit qui avait incité les agences militaires américaines à commencer à financer la recherche et le développement de technologies de pointe. technologies de synthèse vocale et de cryptage, un projet qui s'est poursuivi en temps de paix. C'était aussi environ une décennie après que le linguiste Noam Chomsky ait largué sa bombe sur le comportementalisme avec sa théorie de la grammaire universelle - l'idée que toutes les langues humaines partagent une structure sous-jacente commune, qui est le résultat de mécanismes cognitifs câblés dans le cerveau.

Au MIT, Klatt a rejoint le Speech Communication Group interdisciplinaire, que Perkell décrit comme un "foyer de recherche sur la communication humaine". Il comprenait des étudiants diplômés et des scientifiques qui avaient des parcours différents mais un intérêt commun pour l'étude de tout ce qui touche à la parole : comment nous la produisons, la percevons et la synthétisons.

À cette époque, dit Perkell, il y avait une idée selon laquelle vous pouviez modéliser la parole à l'aide de règles spécifiques, "et que vous pouviez faire en sorte que les ordinateurs imitent [ces règles] pour produire de la parole et percevoir la parole, et cela avait à voir avec l'existence de phonèmes. "

Les phonèmes sont les éléments de base de la parole - de la même manière que les lettres de l'alphabet sont les unités de base de notre langue écrite. Un phonème est la plus petite unité sonore d'une langue qui peut changer le sens d'un mot. Par exemple, "pen" et "pin" sont phonétiquement très similaires, et chacun a trois phonèmes, mais ils se différencient par leurs phonèmes intermédiaires : /ɛ/ et /ɪ/, respectivement. L'anglais américain a 44 phonèmes largement classés en deux groupes : 24 sons de consonnes et 20 sons de voyelles, bien que les Sudistes puissent parler avec un son de voyelle de moins en raison d'un phénomène phonologique appelé la fusion épingle-stylo : "Puis-je emprunter une épingle pour écrire quelque chose ?"

Pour construire ses synthétiseurs, Klatt a dû trouver comment faire en sorte qu'un ordinateur convertisse les unités de base du langage écrit en éléments de base de la parole - et le fasse de la manière la plus intelligible possible.

Comment faire parler un ordinateur ? Une approche simple mais abrutissante consisterait à enregistrer quelqu'un prononçant chaque mot du dictionnaire, à stocker ces enregistrements dans une bibliothèque numérique et à programmer l'ordinateur pour lire ces enregistrements dans des combinaisons particulières correspondant au texte saisi. En d'autres termes, vous rassembleriez des extraits comme si vous rédigiez une lettre de rançon acoustique. Mais dans les années 1970, il y avait un problème fondamental avec cette approche dite de concaténation : une phrase prononcée sonne très différemment d'une séquence de mots prononcés isolément.

"La parole est continuellement variable", explique Story. "Et la vieille idée selon laquelle" nous demanderons à quelqu'un de produire tous les sons d'une langue, puis nous pourrons les coller ensemble ", ne fonctionne tout simplement pas."

Klatt a signalé plusieurs problèmes avec l'approche concaténative dans un article de 1987 :

Klatt a donc adopté une approche différente - une approche qui traitait la synthèse vocale non pas comme un acte d'assemblage, mais comme un acte de construction. Au cœur de cette approche se trouvait un modèle mathématique qui représentait le tractus vocal humain et la manière dont il produit les sons de la parole, en particulier les formants.

Si vous aviez mis la tête dans le bureau de Dennis au MIT à la fin des années 1970, vous l'auriez peut-être vu - un homme mince d'un mètre quatre-vingt-dix avec une barbe grisonnante - assis près d'une table qui contenait des volumes de la taille d'une encyclopédie. avec des spectrogrammes. Ces morceaux de papier étaient la clé de son approche de la synthèse. Représentations visuelles de la fréquence et de l'amplitude d'une onde sonore dans le temps, c'est l'étoile polaire qui guide ses synthétiseurs vers une voix de plus en plus naturelle et intelligible.

Perkell le dit simplement : "Il parlait dans le microphone, puis analysait le discours, puis faisait faire la même chose à sa machine."

Que Dennis ait utilisé sa propre voix comme modèle était une question de commodité, pas de vanité.

"Il a dû essayer de reproduire quelqu'un", dit Perkell. "Il était l'orateur le plus accessible."

Sur ces spectrogrammes, Dennis a passé beaucoup de temps à identifier et analyser les formants.

"Dennis a fait beaucoup de mesures sur sa propre voix pour savoir où devraient se trouver les formants", explique Patti Price, spécialiste de la reconnaissance vocale et linguiste, et ancienne collègue de Dennis au MIT dans les années 1980.

Les formants sont des concentrations d'énergie acoustique autour de fréquences spécifiques dans une onde de parole. Lorsque vous prononcez la voyelle de "chat", par exemple, vous produisez un formant lorsque vous baissez la mâchoire et avancez votre langue pour prononcer le son de voyelle "a", représenté phonétiquement par /æ/. Sur un spectrogramme, ce son apparaîtrait sous la forme de plusieurs bandes sombres apparaissant à des fréquences spécifiques dans la forme d'onde. (Au moins un spécialiste de la parole, un Perkell dit qu'il connaissait au MIT, peut regarder un spectrogramme et vous dire quels mots un orateur a dit sans écouter un enregistrement.)

"Ce qui se passe, pour un [son de voyelle ou de consonne] particulier, c'est qu'il existe un ensemble de fréquences qui sont autorisées à passer facilement à travers cette configuration particulière [du tractus vocal], en raison de la manière dont les ondes se propagent à travers ces constrictions et expansions. ", raconte Story.

Pourquoi certaines fréquences ont-elles un passage facile ? Prenons l'exemple d'un chanteur d'opéra brisant un verre de vin en émettant une note aiguë. Ce phénomène rare mais réel se produit car les ondes sonores du chanteur excitent le verre à vin et le font vibrer très rapidement. Mais cela ne se produit que si l'onde sonore, qui transporte plusieurs fréquences, en transporte une en particulier : une fréquence de résonance du verre à vin.

Chaque objet dans l'Univers a une ou plusieurs fréquences de résonance, qui sont les fréquences auxquelles un objet vibre le plus efficacement lorsqu'il est soumis à une force externe. Comme quelqu'un qui ne danse que sur une certaine chanson, les objets préfèrent vibrer à certaines fréquences. Le conduit vocal ne fait pas exception. Il contient de nombreuses fréquences de résonance, appelées formants, et ce sont les fréquences au sein d'une onde sonore que le tractus vocal "aime".

Les modèles informatiques de Dennis ont simulé la façon dont le tractus vocal produit des formants et d'autres sons de la parole. Au lieu de s'appuyer sur des sons préenregistrés, son synthétiseur calculait les formants nécessaires pour créer chaque son de parole et les assemblait en une forme d'onde continue. Autrement dit : si la synthèse concaténative revient à utiliser des Legos pour construire un objet brique par brique, sa méthode revient à utiliser une imprimante 3D pour construire quelque chose couche par couche, sur la base de calculs précis et des spécifications de l'utilisateur.

Le produit le plus célèbre issu de cette approche était DECtalk, une boîte de la taille d'une mallette de 4 000 $ que vous connecteriez à un ordinateur comme vous le feriez avec une imprimante. En 1980, Dennis a autorisé sa technologie de synthèse à la Digital Equipment Corporation, qui a publié en 1984 le premier modèle DECtalk, le DTC01.

DECtalk a synthétisé la parole en trois étapes :

DECtalk pouvait être contrôlé par ordinateur et par téléphone. En le connectant à une ligne téléphonique, il était possible de passer et de recevoir des appels. Les utilisateurs pouvaient récupérer des informations à partir de l'ordinateur auquel DECtalk était connecté en appuyant sur certains boutons du téléphone.

Ce qui en a finalement fait une technologie de référence, c'est que DECtalk pouvait prononcer pratiquement n'importe quel texte anglais et qu'il pouvait modifier stratégiquement sa prononciation grâce à des modèles informatiques qui représentaient la phrase entière.

"C'est vraiment sa principale contribution - être capable de prendre littéralement le texte du discours", a déclaré Story.

Perfect Paul n'était pas la seule voix que Dennis a développée. Le synthétiseur DECtalk en offrait neuf : quatre voix d'hommes adultes, quatre voix de femmes adultes et une voix d'enfant appelée Kit the Kid. Tous les noms étaient des allitérations ludiques : Rough Rita, Huge Harry, Frail Frank. Certains étaient basés sur les voix d'autres personnes. Beautiful Betty était basée sur la voix de Mary Klatt, tandis que Kit the Kid était basée sur celle de leur fille Laura. (Vous pouvez en entendre certains, ainsi que d'autres extraits d'anciens synthétiseurs vocaux, dans cette archive hébergée par l'Acoustical Society of America.)

Mais "en ce qui concerne les entrailles de ce qu'il faisait", dit Perkell, "c'était un exercice solitaire". Parmi les voix de DECtalk, Dennis a passé de loin le plus de temps sur Perfect Paul. Il semblait penser qu'il était possible de, eh bien, perfectionner Paul parfait - ou du moins s'approcher de la perfection.

"D'après les comparaisons spectrales, je m'en rapproche", a-t-il déclaré à Popular Science en 1986. "Mais il reste quelque chose d'insaisissable, que je n'ai pas pu capturer. […] Il s'agit simplement de trouver le bon modèle."

Trouver le bon modèle consistait à trouver les paramètres de contrôle qui simulaient le mieux le conduit vocal humain. Dennis a abordé le problème avec des modèles informatiques, mais les chercheurs en synthèse vocale qui sont venus bien avant lui ont dû travailler avec des outils plus primitifs.

La synthèse vocale est partout autour de nous aujourd'hui. Dites « Hey Alexa » ou « Siri » et vous entendrez bientôt l'intelligence artificielle synthétiser un discours de type humain grâce à des techniques d'apprentissage en profondeur presque instantanément. Regardez un blockbuster moderne comme Top Gun: Maverick, et vous ne réaliserez peut-être même pas que la voix de Val Kilmer a été synthétisée – la voix réelle de Kilmer a été endommagée suite à une trachéotomie.

En 1846, cependant, il a fallu un shilling et un voyage à l'Egyptian Hall de Londres pour entendre la synthèse vocale à la pointe de la technologie. Cette année-là, la salle montrait "The Marvelous Talking Machine", une exposition produite par PT Barnum qui présentait, comme l'a décrit le participant John Hollingshead, un "monstre scientifique de Frankenstein" parlant et son inventeur allemand "au visage triste".

L'Allemand maussade était Joseph Faber. Arpenteur-géomètre devenu inventeur, Faber a passé deux décennies à construire ce qui était alors la machine parlante la plus sophistiquée au monde. Il en construisit deux mais détruisit le premier dans un « accès de dérangement temporaire ». Ce n'était pas le premier rapport de l'histoire de la violence contre une machine parlante. L'évêque allemand du XIIIe siècle Albertus Magnus aurait construit non seulement une tête de laiton parlante - un appareil que d'autres bricoleurs médiévaux auraient construit - mais un homme de métal parlant à part entière "qui répondait aux questions très facilement et vraiment quand on le lui demandait". Le théologien Thomas d'Aquin, qui était un étudiant de Magnus, aurait mis l'idole en pièces parce qu'elle ne se taisait pas.

La machine de Faber s'appelait l'Euphonia. Cela ressemblait à une fusion entre un orgue de chambre et un humain, possédant un visage en bois "mystérieusement vacant", une langue d'ivoire, un soufflet pour les poumons et une mâchoire articulée. Son corps mécanique était attaché à un clavier à 16 touches. Lorsque les touches étaient enfoncées dans certaines combinaisons en conjonction avec une pédale qui poussait l'air à travers le soufflet, le système pouvait produire pratiquement n'importe quel son de consonne ou de voyelle et synthétiser des phrases complètes en allemand, anglais et français. (Curieusement, la machine parlait avec des notes de l'accent allemand de son inventeur, peu importe la langue.)

Sous le contrôle de Faber, l'automate de l'Euphonia commençait les émissions avec des phrases du type : "Veuillez excuser ma prononciation lente… Bonjour, mesdames et messieurs… C'est une journée chaude… C'est une journée pluvieuse." Les spectateurs lui posaient des questions. Faber appuyait sur des touches et poussait des pédales pour le faire répondre. Un spectacle londonien s'est terminé avec Faber faisant réciter son automate God Save the Queen, ce qu'il a fait d'une manière fantomatique qui, selon Hollingshead, sonnait comme s'il venait des profondeurs d'une tombe.

Cette machine était l'un des meilleurs synthétiseurs vocaux de ce que l'on pourrait appeler l'ère mécanique de la synthèse vocale, qui s'étendait sur les 18e et 19e siècles. Les scientifiques et les inventeurs de cette époque - notamment Faber, Christian Gottlieb Kratzenstein et Wolfgang von Kempelen - pensaient que la meilleure façon de synthétiser la parole était de construire des machines qui reproduisaient mécaniquement les organes humains impliqués dans la production de la parole. Ce n'était pas une mince affaire. À l'époque, la théorie acoustique en était à ses débuts et la production de la parole humaine intriguait encore les scientifiques.

"Une grande partie de [l'ère mécanique] essayait vraiment de comprendre comment les humains parlent réellement", explique Story. "En construisant un appareil comme Faber l'a fait, ou les autres, vous obtenez rapidement une appréciation de la complexité du langage parlé, car il est difficile de faire ce que Faber a fait."

Vous souvenez-vous de l'affirmation selon laquelle la parole est l'action motrice la plus complexe effectuée par toutes les espèces sur Terre ? Physiologiquement, cela pourrait bien être vrai. Le processus commence dans votre cerveau. Une pensée ou une intention active des voies neuronales qui encodent un message et déclenchent une cascade d'activité musculaire. Les poumons expulsent l'air par les cordes vocales, dont les vibrations rapides hachent l'air en une série de bouffées. Au fur et à mesure que ces bouffées traversent le tractus vocal, vous les façonnez stratégiquement pour produire un discours intelligible.

"Nous bougeons notre mâchoire, nos lèvres, notre larynx, nos poumons, le tout dans une coordination très exquise pour faire sortir ces sons, et ils sortent à un rythme de 10 à 15 [phonèmes] par seconde", explique Perkell.

Acoustiquement, cependant, la parole est plus directe. (Perkell note la différence technique entre la parole et la voix, la voix faisant référence au son produit par les cordes vocales dans le larynx, et la parole faisant référence aux mots, phrases et phrases intelligibles résultant de mouvements coordonnés du tractus vocal et des articulateurs. "Voix" est utilisé familièrement dans cet article.) Comme analogie rapide, imaginez que vous soufflez de l'air dans une trompette et entendez un son. Ce qui se passe? Une interaction entre deux choses : une source et un filtre.

Vous pouvez appliquer le modèle de filtre source à n'importe quel son : pincer une corde de guitare, applaudir dans une grotte, commander un cheeseburger au service au volant. Cette idée acoustique est arrivée au 20e siècle et a permis aux scientifiques de réduire la synthèse vocale à ses composants nécessaires et d'éviter la tâche fastidieuse de répliquer mécaniquement les organes humains impliqués dans la production de la parole.

Faber, cependant, était toujours bloqué sur son automate.

L'Euphonia était surtout un flop. Après le passage à l'Egyptian Hall, Faber a tranquillement quitté Londres et a passé ses dernières années à se produire dans la campagne anglaise avec, comme Hollingshead l'a décrit, "son seul trésor - son enfant d'un travail infini et d'une douleur incommensurable".

Mais tout le monde ne pensait pas que l'invention de Faber était un spectacle secondaire étrange. En 1845, il a captivé l'imagination du physicien américain Joseph Henry, dont les travaux sur les relais électromagnétiques avaient contribué à jeter les bases du télégraphe. Après avoir entendu l'Euphonia lors d'une démonstration privée, une vision a germé dans l'esprit d'Henry.

"L'idée qu'il a vue," dit Story, "était que vous pouviez synthétiser la parole assis ici, à [une machine Euphonia], mais vous transmettriez les frappes via l'électricité à une autre machine, qui produirait automatiquement ces mêmes frappes pour que quelqu'un loin, très loin entendrait ce discours."

En d'autres termes, Henry a imaginé le téléphone.

Il n'est donc pas étonnant que plusieurs décennies plus tard, Henry ait encouragé Alexander Graham Bell à inventer le téléphone. (Le père de Bell avait également été un fan de l'Euphonia de Faber. Il a même encouragé Alexander à construire sa propre machine parlante, ce qu'Alexandre a fait - il pourrait dire "Maman".)

La vision d'Henry allait au-delà du téléphone. Après tout, le téléphone de Bell a converti les ondes sonores de la parole humaine en signaux électriques, puis en ondes sonores du côté récepteur. Ce qu'Henry prévoyait était une technologie capable de compresser puis de synthétiser les signaux vocaux.

Cette technologie arrivera près d'un siècle plus tard. Comme Dave Tompkins l'a expliqué dans son livre de 2011, How to Wreck a Nice Beach: The Vocoder from World War II to Hip-Hop, The Machine Speaks, il est venu après qu'un ingénieur des Bell Labs nommé Homer Dudley ait eu une révélation sur la parole alors qu'il était allongé dans un Lit d'hôpital de Manhattan : Sa bouche était en fait une station de radio.

L'idée de Dudley n'était pas que sa bouche pouvait diffuser le jeu des Yankees, mais plutôt que la production de la parole pouvait être conceptualisée sous le modèle du filtre source - ou un modèle globalement similaire qu'il appelait la nature porteuse de la parole. Pourquoi parler d'une radio ?

Dans un système radio, une onde porteuse continue (source) est générée puis modulée par un signal audio (filtre) pour produire des ondes radio. De même, dans la production de la parole, les cordes vocales du larynx (source) génèrent un son brut par vibration. Ce son est ensuite façonné et modulé par le conduit vocal (filtre) pour produire une parole intelligible.

Dudley n'était cependant pas intéressé par les ondes radio. Dans les années 1930, il s'intéressait à la transmission de la parole à travers l'océan Atlantique, le long du câble télégraphique transatlantique de 2 000 milles. Un problème : ces câbles en cuivre avaient des contraintes de bande passante et ne pouvaient transmettre que des signaux d'environ 100 Hz. La transmission du contenu de la parole humaine à travers son spectre nécessitait une bande passante minimale d'environ 3000 Hz.

Pour résoudre ce problème, il a fallu réduire la parole à son strict nécessaire. Heureusement pour Dudley et pour l'effort de guerre allié, les articulateurs que nous utilisons pour façonner les ondes sonores - notre bouche, nos lèvres et notre langue - se déplacent suffisamment lentement pour passer sous la limite de bande passante de 100 Hz.

"La grande perspicacité de Dudley était qu'une grande partie des informations phonétiques importantes dans un signal de parole était superposée à la porteuse vocale par la modulation très lente du tractus vocal par le mouvement des articulateurs (à des fréquences inférieures à environ 60 Hz)" explique. "Si ceux-ci pouvaient d'une manière ou d'une autre être extraits du signal vocal, ils pourraient être envoyés à travers le câble télégraphique et utilisés pour recréer (c'est-à-dire synthétiser) le signal vocal de l'autre côté de l'Atlantique."

Le synthétiseur électrique qui a fait cela s'appelait le vocodeur, abréviation de codeur vocal. Il utilisait des outils appelés filtres passe-bande pour diviser la parole en 10 parties ou bandes distinctes. Le système extrairait alors des paramètres clés tels que l'amplitude et la fréquence de chaque bande, crypterait ces informations et transmettrait le message brouillé le long des lignes télégraphiques à une autre machine de vocodeur, qui débrouillerait alors et finalement "prononcerait" le message.

À partir de 1943, les Alliés ont utilisé le vocodeur pour transmettre des messages de guerre cryptés entre Franklin D. Roosevelt et Winston Churchill dans le cadre d'un système appelé SIGSALY. Alan Turing, le cryptanalyste anglais qui a déchiffré la machine allemande Enigma, a aidé Dudley et ses collègues ingénieurs des Bell Labs à convertir le synthétiseur en un système de chiffrement de la parole.

"À la fin de la guerre", a écrit le philosophe Christoph Cox dans un essai de 2019, "des terminaux SIGSALY avaient été installés partout dans le monde, y compris sur le navire qui transportait Douglas MacArthur lors de sa campagne dans le Pacifique Sud".

Bien que le système ait fait un bon travail de compression de la parole, les machines étaient massives, occupant des pièces entières, et la parole synthétique qu'elles produisaient n'était ni particulièrement intelligible ni humaine.

"Le vocodeur", a écrit Tompkins dans How to Wreck a Nice Beach, "a réduit la voix à quelque chose de froid et tactique, métallique et sec comme des boîtes de soupe dans un bac à sable, déshumanisant le larynx, pour ainsi dire, pour certains des moments les plus déshumanisants de l'homme. : Hiroshima, la crise des missiles de Cuba, les goulags soviétiques, le Vietnam. Churchill l'avait, FDR l'a refusé, Hitler en avait besoin. Kennedy était frustré par le vocodeur. Mamie Eisenhower l'a utilisé pour dire à son mari de rentrer à la maison. Nixon en avait un dans sa limousine . Reagan, dans son avion. Staline, dans son esprit désintégrant.

Le timbre bourdonnant et robotique du vocodeur a trouvé un accueil plus chaleureux dans le monde de la musique. Wendy Carlos a utilisé un type de vocodeur sur la bande originale du film A Clockwork Orange de Stanley Kubrick en 1971. Neil Young en a utilisé un sur Trans , un album de 1983 inspiré des tentatives de Young de communiquer avec son fils Ben, incapable de parler en raison d'une paralysie cérébrale. Au cours des décennies suivantes, vous auriez pu entendre un vocodeur en écoutant certains des noms les plus populaires de la musique électronique et du hip-hop, notamment Kraftwerk, Daft Punk, 2Pac et J Dilla.

Pour la technologie de synthèse vocale, la prochaine étape majeure viendrait à l'ère de l'informatique avec la praticité et l'intelligibilité du système de synthèse vocale de Klatt.

"L'introduction des ordinateurs dans la recherche sur la parole a créé une nouvelle plate-forme puissante pour généraliser et générer de nouveaux énoncés, jusqu'à présent non enregistrés", explique Rolf Carlsson, qui était un ami et collègue de Klatt et est actuellement professeur à l'Institut royal suédois de KTH. Technologie.

Les ordinateurs ont permis aux chercheurs en synthèse vocale de concevoir des modèles de contrôle qui manipulaient la parole synthétique de manière spécifique pour la rendre plus humaine, et de superposer ces modèles de contrôle de manière intelligente afin de simuler plus étroitement la façon dont le tractus vocal produit la parole.

"Lorsque ces approches basées sur la connaissance sont devenues plus complètes et que les ordinateurs sont devenus plus petits et plus rapides, il est finalement devenu possible de créer des systèmes de synthèse vocale pouvant être utilisés en dehors du laboratoire", a déclaré Carlsson.

Hawking a dit qu'il aimait Perfect Paul parce que cela ne le faisait pas ressembler à un Dalek – une race extraterrestre de la série Doctor Who qui parlait avec des voix informatisées.

Je ne sais pas à quoi ressemblent les Daleks, mais à mon oreille, Perfect Paul a un son assez robotique, surtout par rapport aux programmes de synthèse vocale modernes, qui peuvent être difficiles à distinguer d'un locuteur humain. Mais sonner comme un humain n'est pas nécessairement la chose la plus importante dans un synthétiseur vocal.

Price dit que parce que de nombreux utilisateurs de synthétiseurs vocaux étaient des personnes ayant des troubles de la communication, Dennis était "très concentré sur l'intelligibilité, en particulier l'intelligibilité sous stress - lorsque d'autres personnes parlent ou dans une pièce avec d'autres bruits, ou lorsque vous accélérez, est-ce encore intelligible ?"

Perfect Paul peut ressembler à un robot, mais il est au moins facile à comprendre et relativement peu susceptible de mal prononcer un mot. C'était une commodité majeure, non seulement pour les personnes ayant des troubles de la communication, mais aussi pour ceux qui utilisaient DECtalk d'autres manières. La société Computers in Medicine, par exemple, offrait un service téléphonique où les médecins pouvaient appeler un numéro et faire lire par une voix DECtalk les dossiers médicaux de leurs patients – prononçant les médicaments et les conditions – à toute heure du jour ou de la nuit.

"DECtalk a fait un meilleur travail pour parler ces [termes médicaux] que la plupart des profanes", a déclaré Popular Mechanics citant un dirigeant d'une société informatique dans un article de 1986.

Atteindre ce niveau d'intelligibilité nécessitait l'élaboration d'un ensemble sophistiqué de règles qui capturaient les subtilités de la parole. Par exemple, essayez de dire "Joe a mangé sa soupe". Maintenant, recommencez, mais remarquez comment vous modifiez le /z/ dans "his". Si vous parlez couramment l'anglais, vous mélangerez probablement le /z/ de "his" avec le /s/ voisin de "soupe". Cela convertit le /z/ en un son non exprimé, ce qui signifie que les cordes vocales ne vibrent pas pour produire le son.

Le synthétiseur de Dennis pouvait non seulement apporter des modifications telles que la conversion du / z / dans "Joe ate his soup" en un son non exprimé, mais il pouvait également prononcer correctement les mots en fonction du contexte. Une publicité DECtalk de 1984 offrait un exemple :

"Considérez la différence entre 1,75 et 1,75 million de dollars. Les systèmes primitifs interpréteraient cela comme" dollars-une-période-sept-cinq" et "dollars-une-période-sept-cinq-millions". Le système DECtalk tient compte du contexte et interprète ces chiffres correctement comme "un dollar et soixante-quinze cents" et "un virgule sept cinq millions de dollars".

DECtalk disposait également d'un dictionnaire contenant des prononciations personnalisées pour les mots défiant les règles phonétiques conventionnelles. Un exemple : "calliope", qui est représenté phonétiquement par /kəˈlaɪəpi/ et prononcé "kuh-LYE-uh-pee".

Le dictionnaire de DECtalk contenait également d'autres exceptions.

"Il m'a dit qu'il avait mis des œufs de Pâques dans son système de synthèse vocale afin que si quelqu'un le copiait, il puisse dire que c'était son code", dit Price, ajoutant que, si elle se souvient bien, en tapant "suanla chaoshou", qui était un des plats chinois préférés de Klatt, ferait dire au synthétiseur "Dennis Klatt".

Certaines des règles les plus importantes de DECtalk pour l'intelligibilité étaient centrées sur la durée et l'intonation.

"Klatt a développé un système de synthèse vocale dans lequel les durées naturelles entre les mots étaient préprogrammées et également contextuelles", explique Story. "Il devait programmer : si vous avez besoin d'un S mais qu'il se situe entre un son Ee et un son Ah, il fera quelque chose de différent que s'il se situait entre un Ooo et un Oh. Vous deviez donc avoir toutes ces règles contextuelles construit là aussi, et aussi pour construire des pauses entre les mots, et ensuite avoir toutes les caractéristiques prosodiques : pour une question, le ton monte, pour une déclaration, le ton entre."

La possibilité de moduler la hauteur signifiait également que DECtalk pouvait chanter. Après avoir écouté la machine chanter New York, New York en 1986, TA Heppenheimer de Popular Science a conclu que "ce n'était pas une menace pour Frank Sinatra". Mais même aujourd'hui, sur YouTube et des forums comme /r/dectalk, il reste un petit groupe de personnes enthousiastes qui utilisent le synthétiseur - ou des émulations logicielles de celui-ci - pour lui faire chanter des chansons, de Ainsi parlait Zarathoustra de Richard Strauss à Internet -la célèbre chanson "Trololo" de Happy Birthday to You, que Dennis a fait chanter par DECtalk pour l'anniversaire de sa fille Laura.

DECtalk n'a jamais été un chanteur gracieux, mais il a toujours été intelligible. L'une des raisons importantes est la façon dont le cerveau perçoit la parole, un domaine d'étude auquel Klatt a également contribué. Il faut beaucoup d'efforts cognitifs au cerveau pour traiter correctement un discours de mauvaise qualité. L'écouter assez longtemps peut même causer de la fatigue. Mais DECtalk était "un peu hyper-articulé", dit Price. C'était facile à comprendre, même dans une pièce bruyante. Il avait également des fonctionnalités particulièrement utiles pour les personnes ayant des problèmes de vision, comme la possibilité d'accélérer la lecture de texte.

En 1986, le synthétiseur DECtalk était sur le marché depuis deux ans et avait connu un certain succès commercial. Pendant ce temps, la santé de Dennis se détériorait. Ce coup du sort ressemblait à un "échange avec le diable", a-t-il déclaré à Popular Science.

Le diable devait être d'accord avec les résultats plus bienveillants du commerce. Comme le vantait une publicité : "[DECtalk] peut donner à une personne malvoyante un moyen efficace et économique de travailler avec des ordinateurs. Et cela peut donner à une personne malvoyante un moyen de verbaliser ses pensées en personne ou par téléphone. "

Dennis n'a pas commencé sa carrière scientifique avec pour mission d'aider les personnes handicapées à communiquer. Au contraire, il était naturellement curieux des mystères de la communication humaine.

"Et puis ça a évolué en, 'Oh, ça pourrait vraiment être utile pour d'autres personnes'", dit Mary. "C'était vraiment satisfaisant."

En 1988, Hawking devenait rapidement l'un des scientifiques les plus célèbres au monde, en grande partie grâce au succès surprise de A Brief History of Time. Dennis était entre-temps conscient que Hawking avait commencé à utiliser la voix de Perfect Paul, dit Mary, mais il a toujours été modeste à propos de son travail et "n'a pas circulé pour le rappeler à tout le monde".

Non pas que tout le monde ait besoin d'un rappel. Lorsque Perkell a entendu la voix de Hawking pour la première fois, il a dit qu'il était "indubitable pour moi que c'était KlattTalk", la voix qu'il avait régulièrement entendue sortir du bureau de Dennis au MIT.

Mary préfère ne pas s'attarder sur l'ironie de Dennis perdant sa voix vers la fin de sa vie. Il a toujours été optimiste, dit-elle. C'était un scientifique avant-gardiste qui aimait écouter Mozart, préparer le dîner pour sa famille et travailler pour éclairer le fonctionnement interne de la communication humaine. Il a continué à faire cela jusqu'à une semaine avant sa mort en décembre 1988.

Perfect Paul a marqué toutes sortes de rôles parlants tout au long des années 1980 et 1990. Il a diffusé les prévisions sur la radio météo NOAA, a fourni des informations de vol dans les aéroports, a exprimé le personnage de télévision Mookie dans Tales from the Darkside et la veste robotique dans Back to the Future Part II. Il a parlé dans des épisodes de The Simpsons, a été présenté sur la chanson bien nommée de Pink Floyd Keep Talking, a inspiré des blagues dans le jeu vidéo en ligne Moonbase Alpha et a laissé tomber des lignes sur des morceaux de rap de MC Hawking comme All My Shootings Be Drivebys. (Le vrai Hawking a dit qu'il était flatté par les parodies.)

Hawking a continué à utiliser la voix de Perfect Paul pendant près de trois décennies. En 2014, il produisait toujours Perfect Paul via le matériel de synthétiseur CallText de 1986, qui utilisait la technologie de Klatt et la voix de Perfect Paul mais présentait des règles prosodiques et phonologiques différentes de celles de DECtalk. Le matériel rétro est devenu un problème : le fabricant avait cessé ses activités et il ne restait plus qu'un nombre fini de puces dans le monde.

Ainsi commença un effort concerté pour sauver la voix de Hawking. Le hic ?

"Il voulait que le son soit exactement le même", explique Price. "Il le voulait juste dans le logiciel, car l'une des cartes d'origine était morte. Et puis il était nerveux de ne pas avoir de cartes de rechange."

Il y avait eu des tentatives précédentes pour reproduire le son du synthétiseur de Hawking via un logiciel, mais Hawking les avait toutes rejetées, y compris une tentative d'apprentissage automatique et les premières tentatives de l'équipe avec laquelle Price travaillait. Pour Hawking, aucun ne sonnait tout à fait juste.

"Il l'a utilisé pendant tant d'années que c'est devenu sa voix et il n'en voulait pas [une nouvelle]", a déclaré Price. "Ils auraient peut-être pu simuler son ancienne voix à partir d'anciens enregistrements de lui, mais il ne voulait pas cela. C'était devenu sa voix. En fait, il voulait obtenir un droit d'auteur ou un brevet ou une protection pour que personne d'autre ne puisse utilise cette voix."

Hawking n'a jamais breveté la voix, bien qu'il l'ait qualifiée de sa marque de fabrique.

"Je ne le changerais pas pour une voix plus naturelle avec un accent britannique", a-t-il déclaré à la BBC dans une interview en 2014. "On me dit que les enfants qui ont besoin d'une voix de synthèse en veulent une comme la mienne."

Après des années de travail acharné, de faux départs et de rejets, l'équipe avec laquelle Price a collaboré a finalement réussi à faire de la rétro-ingénierie et à émuler l'ancien matériel pour produire une voix qui, à l'oreille de Hawking, sonnait presque identique à la version de 1986.

La percée est intervenue quelques mois seulement avant la mort de Hawking en mars 2018.

"Nous allions faire la grande annonce, mais il avait un rhume", a déclaré Price. "Il ne s'est jamais amélioré."

La synthèse vocale est aujourd'hui pratiquement méconnaissable par rapport aux années 1980. Au lieu d'essayer de reproduire le tractus vocal humain d'une manière ou d'une autre, la plupart des systèmes de synthèse vocale modernes utilisent des techniques d'apprentissage en profondeur dans lesquelles un réseau neuronal est formé sur un nombre massif d'échantillons de parole et apprend à générer des modèles de parole basés sur les données. exposé à.

C'est loin de l'Euphonia de Faber.

"La façon dont [les synthétiseurs vocaux modernes] produisent la parole", dit Story, "n'est en aucun cas liée à la façon dont un humain produit la parole."

Certaines des applications les plus impressionnantes d'aujourd'hui incluent l'IA de clonage de la voix comme VALL-E X de Microsoft, qui peut reproduire la voix de quelqu'un après l'avoir écouté parler pendant seulement quelques secondes. L'IA peut même imiter la voix de l'orateur d'origine dans une langue différente, capturant également l'émotion et le ton.

Tous les orthophonistes n'aiment pas nécessairement la vraisemblance de la synthèse moderne.

"Cette tendance à converser avec des machines me dérange beaucoup, en fait", dit Perkell, ajoutant qu'il préfère savoir qu'il parle avec une personne réelle lorsqu'il est au téléphone. "Cela déshumanise le processus de communication."

Dans un article de 1986, Dennis écrivait qu'il était difficile d'estimer l'impact d'ordinateurs de plus en plus sophistiqués capables d'écouter et de parler sur la société.

"Les machines parlantes ne sont peut-être qu'une mode passagère", a-t-il écrit, "mais le potentiel de nouveaux services puissants est si grand que cette technologie pourrait avoir des conséquences considérables, non seulement sur la nature de la collecte et du transfert normaux d'informations, mais aussi sur nos attitudes envers la distinction entre l'homme et l'ordinateur."

En pensant à l'avenir des machines parlantes, Dennis a probablement pensé que des technologies plus récentes et plus sophistiquées finiraient par rendre la voix de Perfect Paul obsolète - un destin qui s'est largement joué. Ce qui aurait été pratiquement impossible à prédire pour Dennis, cependant, était le sort de Perfect Paul vers le 55ème siècle. C'est alors qu'un trou noir engloutira un signal de Perfect Paul.

En hommage à Hawking après sa mort, l'Agence spatiale européenne a transmis en juin 2018 un signal de Hawking parlant vers un système binaire appelé 1A 0620–00, qui abrite l'un des trous noirs connus les plus proches de la Terre. Lorsque le signal y arrivera, après avoir rayonné à la vitesse de la lumière dans l'espace interstellaire pendant quelque 3 400 ans, il traversera l'horizon des événements et se dirigera vers la singularité du trou noir.

La transmission devrait être la première interaction de l'humanité avec un trou noir.

Construire une machine parlante Perfectionner Perfect Paul Têtes parlantes La chaîne de parole John Henry et les visions du futur Le vocodeur et la nature porteuse de la parole DECtalk frappe le grand public La voix de Perfect Paul dans le monde Le destin de Perfect Paul