Éléments de production et perception de la parole

Comment l'être humain exploite t-il les signaux acoustiques de parole pour communiquer ? Première partie : Mécanismes physiques de la production (...) Voir descriptif détaillé

Éléments de production et perception de la parole

Comment l'être humain exploite t-il les signaux acoustiques de parole pour communiquer ? Première partie : Mécanismes physiques de la production (...) Voir descriptif détaillé

En guise d’introduction : Qu’ont à voir ensemble la parole et l’acoustique ?

Pas tout, mais beaucoup de chose !
Que la parole soit une suite de sons, cela ne pose de problème à quasiment personne, c’est même ce qu’on pourrait appeler une évidence, pourtant la parole, et plus largement l’échange de paroles, c’est avant tout un ensemble de phénomènes, cognitifs et physiques. Comme l’illustre la Figure 1, des processus cognitifs et physiques sont en jeu.

Figure 1
Représentation schématique de deux interlocuteurs, des centres cognitifs décisionnels et perceptifs à la production de sons de parole.

En tant qu’acousticienne et passionnée par la qualité vocale de mes chanteurs préférés, j’ai un jour décidé d’étudier la voix et suis alors entrée en émerveillement devant la complexité de l’appareil phonatoire humain, que l’on utilise pourtant quotidiennement sans se poser de questions. Les thématiques d’études et de travail autour de la voix et de la parole sont nombreuses, par exemple, surdité et parole, troubles de l’appareil phonatoire et parole, troubles cognitifs et parole, geste et paroles, et d’autres encore.

Mais cet article a la vocation beaucoup plus modeste de faire un aperçu des notions essentielles d’acoustique pour décrire un son de parole et ainsi mieux comprendre quelles sont les caractéristiques acoustiques d’un signal de parole intelligible. Ce premier article de la série se veut donc être une base pour aller plus loin dans la compréhension des problématiques liées à la voix et à la parole, si le coeur vous en dit !

L’appareil phonatoire

Les sons de parole sont produits grâce à l’appareil phonatoire qui comprend le diaphragme, les poumons, la trachée, le pharynx, le larynx et les cavités buccale et nasale. Les sons de parole voisés (Nous verrons ce qu’il en est des sons dits « non-voisés » plus loin.) naissent alors de différents phénomènes décrits Figure 2.

Figure 2
Représentation de l’appareil phonatoire et du rôle des différents organes intervenant dans la production de sons de parole voisés.

Le flux d’air issu des poumons est guidé par la trachée jusqu’au larynx dans lequel se trouvent les cordes vocales. La parole est essentiellement produite lors de l’expiration de l’air, parler en inspirant n’est pas une pratique courante ! La glotte est l’espace entre les cordes vocales, on parle également d’aire glottique. Les cordes vocales sont naturellement espacées lors de la respiration (inspiration et expiration), comme le montre une photographie prise au dessus des cordes vocales présentée Figure3.a. En revanche, pour produire un son voisé, un accolement des cordes vocales, illustré Figure3.b, est réalisé par le locuteur grâce au contrôle des différents muscles et cartilages qui constituent le larynx. La sur-pression provoquée par le flux d’air en amont des cordes vocales lorsque celles-ci sont tendues et accolées donne naissance à un phénomène d’auto-oscillation ; les cordes vocales se mettent à vibrer périodiquement (de manière régulière) à une fréquence comprise entre 100 et 400 Hz en général. La glotte s’ouvre et se ferme alternativement, ce qui module l’écoulement d’air issu des poumons et constitue une source de débit acoustique. Les cordes vocales sont ainsi qualifiées de source glottique et sont à l’origine du son voisé. À ce propos, il peut être bon ici de noter que le terme « plis vocaux » est souvent préféré à celui de « cordes vocales » car le fonctionnement physique de ces deux « bandelettes » de muscle n’est pas, comme on le pensait autrefois, physiquement comparable à celui d’une corde d’instrument mais est comparable à celui des lèvres d’un-e trompettiste ou d’une anche de saxophone.

Figure 3.a
Photographie des cordes vocales d’un sujet dont la glotte est ouverte (respiration).

Figure 3.b
Cordes vocales accolées pour la phonation.

Avant de poursuivre l’exploration de l’appareil phonatoire, demandons-nous quelle différence y a t-il entre des sons de parole voisés et non voisés ? Chacun peut répondre soi-même à cette question en plaçant une main sur son cou (sans appuyer), au niveau de la pomme d’Adam, dont l’emplacement est à deviner pour mesdames. Il s’agit dans un premier temps de prononcer une phrase à voix haute et ensuite de prononcer la même phrase mais en chuchotant, toujours avec la main posée sur le cou au niveau de la glotte, et de sentir la différence. Les cordes vocales vibrent dans le premier cas seulement ! Les vibrations sont transmises par les tissus et cartilages. Lorsque les cordes vocales vibrent, on parle de sons de parole voisés. Une différence acoustique très nette apparaît entre les sons voisés et non voisés, n’est-ce pas ? Dans un flot de parole non chuchoté, il y a en réalité succession de sons voisés et non voisés, bien que les sons non voisés soient minoritaires en terme de durée.

Le processus de phonation est-il entièrement décrit à ce stade ? Non. En effet, l’expérience de placer son oreille au niveau de la glotte (ou un microphone pour être plus réaliste !) pour écouter le son qui s’en échappe, serait troublante car à cet endroit du larynx, la phrase prononcée plus haut est inintelligible ! Pourquoi ? Parce que les cavités buccale et nasale ont également un rôle très important à jouer. Elles constituent ce qu’on appelle les articulateurs, illustrés Figure 4.

Figure 4
Vue en coupe schématique des articulateurs de l’appareil phonatoire.

Les articulateurs agissent en résonateur acoustique, c’est à dire que la propagation acoustique de l’onde sonore créée au niveau de la glotte est influencée par la géométrie et le volume des cavités en aval du larynx. Cela a pour conséquence une maximisation de l’énergie acoustique autour de certaines fréquences, les fréquences de résonance, et la diminution de l’énergie acoustique autour d’autres fréquences. Il en résulte un filtrage au paragraphe suivant.

Ce qu’en disent les physicien-ne-s...

D’un point de vue physique, la production de sons voisés est souvent décrite par le modèle source-filtre. C’est une description simplifiée, satisfaisante en première approximation, qui a toujours du succès car elle est mathématiquement facile à manipuler et à implémenter sous forme d’algorithme pour analyser et synthétiser des sons de parole à l’aide d’un ordinateur.

La théorie source-filtre est illustrée Figure 5 à l’aide de différents spectres. La représentation spectrale d’un son permet de décomposer son énergie en fonction de la fréquence et permet ici à mon sens une compréhension plus intuitive.

1) Le spectre de la source glottique est harmonique du fait de sa périodicité, c’est c’est à dire que le son contient de l’énergie à la fréquence fondamentale de vibration des cordes vocales $f_0$ ainsi qu’aux fréquences $2\times f_0$, $3\times f_0$,... $n\times f_0$. L’énergie diminue toutefois avec la fréquence.

2) L’effet de filtrage des cavités buccale et nasale sur la source glottique est représenté par une fonction de transfert, c’est à dire une suite de coefficients qui pondèrent l’énergie du spectre de la source glottique. On note sur cet exemple la présence de trois fréquences de résonance.

3) L’effet de radiation est ici l’effet des lèvres sur le rayonnement acoustique des sons de parole. En effet, tout comme la forme évasée d’une clarinette ou d’un trombone, la forme de la bouche humaine permet d’augmenter l’énergie du son rayonné en hautes fréquences.

4) Il en résulte un spectre, toujours harmonique, dont l’énergie varie avec la fréquence.

Figure 5
Représentation des différentes étapes de la production d’un son voisé à l’aide de spectres, illustrations de la théorie source-filtre.

La voix est donc un signal acoustique harmonique, ce qui est une propriété très importante d’un point de vue perceptif. C’est une propriété également vérifiée par de nombreux instruments de musique joués de manière classique. Une théorie suggère que notre préférence pour les sons musicaux consonants (par opposition à dissonants) est acquise très jeune par l’exposition aux sons harmoniques tels que ceux de la voix.

La représentation donnée Figure 5 ne rend cependant pas compte de la variabilité dans le temps des sons de parole, car en effet la parole est une succession de phonèmes et nos articulateurs sont sans cesse en mouvement lorsque nous parlons.

Afin de tenter de mieux comprendre et prédire la phonation, de nombreux chercheurs en physique de la parole s’attellent à proposer des équations sur la base d’explorations in vitro et in vivo, et d’approximations astucieuses. Par exemple, de nombreux chercheurs de cette communauté considèrent qu’une corde vocale peuvent être décrite par deux systèmes masses-ressort-amortissement. Un schéma résumant les différents mécanismes en jeu dans la phonation est proposé Figure 6.

Figure 6
Schéma des différentes interactions physiques en jeu dans la production de sons voisés.

L’appareil phonatoire est un système dynamique complexe car il fait intervenir à la fois les lois de l’aérodynamique qui s’appliquent aux flux d’air, de la mécanique qui s’appliquent aux différents tissus dont les cordes vocales, et de l’acoustique qui régissent la propagation du son. Les différents couplages qui en résultent et l’interaction fluide structure dans la glotte ont de quoi donner des cheveux blancs aux plus jeunes des physicien-ne-s !
Une des applications de ce travail est par exemple une aide à la conception de prothèses de cordes vocales pour des patients ayant subi une laryngectomie.

Après ces considérations théoriques, qu’en est-il de la parole en pratique ? C’est ce que nous allons voir au paragraphe suivant.

Caractéristiques acoustiques des signaux de parole

PARAGRAPHE ENCORE EN CHANTIER.

Enveloppe temporelle et composition spectrale : vers une représentation par spectrogramme des sons de parole, c’est à dire mêlant informations temporelles et fréquentielles.

Dans un cas le réglage des paramètres permet une meilleure finesse temporelle du spectrogramme (Figure 7) et dans l’autre une meilleure finesse fréquentielle (Figure 8), mais il s’agit bien de l’analyse du même son. Chaque réglage constitue un compromis entre finesse temporelle et finesse fréquentielle.

Figure 7
Enregistrement de l’extrait de phrase « Lorsque Thibaut s’approche,... » Haut : Enveloppe temporelle, Bas : Spectrogramme paramétré pour favoriser les détails dans le domaine temporel.

Figure 8
Enregistrement de l’extrait de phrase « Lorsque Thibaut s’approche,... » Haut : Enveloppe temporelle, Bas : Spectrogramme paramétré pour favoriser les détails dans le domaine fréquentiel.

Le rythme moyen de la parole est de 4 Hz, c’est à dire qu’un événement nouveau survient en moyenne tous les 0.25 s.

Conclusion : vers l’influence perceptive des paramètres physiques de la parole

Nous venons de voir ensemble comment sont produits les sons de parole voisés. Ils résultent de la mise en œuvre des différents organes de l’appareil phonatoire, siège de phénomènes aérodynamiques, mécaniques et acoustiques complexes alors que parler et échanger des paroles semble la plupart du temps si simple. Merveille du corps humain et de l’évolution !

Les bases données dans cet article seront exploitées dans un prochain article pour expliquer quels traits acoustiques sont déterminants dans la compréhension d’un message parlé, nous parlerons alors de perception catégorielle et d’intelligibilité !

Nos partenaires

Voir également