Tout ce que vous direz pourra être utilisé …
Vous avez certainement entendu ce message diffusé automatiquement lorsque vous appelez une plateforme téléphonique : « cet entretien peut être enregistré dans le cadre de la qualité et l’amélioration de nos services ». Ce dont vous ne vous doutez pas, c’est que votre voix a pu être utilisée à bien d’autres fins.
La course au passeport vocal
Les événements tragiques du 11 septembre associés aux progrès de notre société à l’ère digitale, ont donné le coup d’envoi à la course à l’empreinte vocale, à laquelle votre voix a pu contribuer en venant enrichir la base de données de référence de Systèmes de Reconnaissance Vocale. Les Systèmes de Reconnaissance Vocale (ASRS) ont connu un véritable essor laissant entrevoir le spectre proche de cette empreinte tant convoitée. Estelle DAVET, commissaire principale et chef du Service central de l’informatique et des traces technologiques d’Ecully (Lyon), préfère parler de signature sonore, car contrairement à une empreinte qui reste invariable dans le temps, la voix s’altère :
La voix change avec l’âge. C’est pourquoi on ne peut parler d’empreinte mais de signature sonore.

Ces systèmes automatisés, déjà largement utilisés par les polices et services de renseignements, peuvent émettre une estimation statistique quant à la similarité ou la différence entre deux voix, en utilisant une base de données vocales de référence en 15 minutes alors qu’il aurait 15 heures à un expert humain.
Le 11 septembre a été le déclencheur car après les attaques, la police et les services de renseignements ont réalisé que bien qu’ils étaient en possession de nombreux enregistrements des voix des terroristes, ils n’avaient la technologie nécessaire à l’extraction des informations,
déclare Antonio MORENO VENTEPÁN.
Antonio MORENO VENTEPÁN est le directeur technique de Agnitio Corp, qui est la société espagnole à l’origine de Batvox, l’outil de reconnaissance vocale leader sur le marché.

Lorsque l’Espagne a connu à son tour son propre 11 septembre 1, Batvox fut utilisé pour identifier certains des responsables de l’attentat. Ces individus portaient des masques sur la vidéo Youtube qu’ils avaient réalisée, mais parlaient normalement.
Batvox permet soit de comparer une voix inconnue à une voix connue, soit de confirmer l’identité d’une voix connue, quelques soit la langue ou le type de langage utilisé. Ses algorithmes reposent sur les rapports de ressemblance (Likelihood Ratios) en utilisant une approche Bayésienne, tout comme pour les analyses ADN. Le système d’analyse de Batvox repose sur sa base de données de référence, alimentée par les voix de la population, la vôtre peut-être, qui lui sert d’étalon. Plus le nombre d’échantillons de voix est important, meilleure est la discrimination. LR représente la probabilité de concordance entre une voix enregistrée à une voix connue (celle d’un suspect, par exemple).

Ces rapports de ressemblance sont recevables devant le Cour.
L’anatomie de la voix
La voix est une caractéristique biométrique comme le sont l’empreinte digitale, le réseau vasculaire rétinien ou l’ADN. Elle est dotée de caractéristiques variables et fluctuantes comme le pitch, le timbre (voix chaude, nasillarde, métallique, …), la fréquence vocale( voix aiguë, grave, médium),liée à la tension des cordes vocales et exprimée en Hertz (la trajectoire des formants), l’intensité,dépendant de la force de l’expiration, exprimée en décibels mais dont certaines restent identificatoires. La parole est également déterminée par des caractéristiques physiques : la bouche, la gorge, le nez, les dents, la taille et la forme des cordes vocales ainsi que les muscles de la mâchoire.
La parole trouve sa source dans l’activité respiratoire qui fait vibrer les cordes vocales. Elle est le résultat de deux phénomènes : la phonation et l’articulation. La phonation consiste en la production d’un phénomène acoustique, et l’articulation (impliquant les lèvres, la langue, le palais, la glotte, le nez) à la modulation de ce dernier.

Autant de facteurs qui rendent notre voix unique. Et pourtant les variations possibles sont multiples. Notre voix est différente selon que l’on crie, ou que l’on parle normalement. Il est reconnu qu’au téléphone, nous modifions notre voix, souvent de façon inconsciente : la qualité vocale s’en trouve altérée. Chacun présentent des variabilités de voix qui peuvent dépendre de son âge, du moment de la journée, de la situation communicante dans laquelle il se trouve (une dispute, une rencontre amoureuse, …), son état d’âme ou son état de santé (enrhumé, fatigué, …), s’il est sous l’influence d’alcool ou de substances, etc …
Néanmoins, certains facteurs restent stables :
- les traits phonétiques particuliers à chacun (idiosyncrasiques)
- les particularités lexicales (l’emploi répété d’un mot, d’une locution…)
- les particularités morphologiques (fautes de grammaire, de conjugaison, …)
- les particularités syntaxiques (constructions de phrases particulières : pléonasmes, anaphore, anacoluthe, …)
- les particularités familières (tics de langage, …)
- les identificateurs paralinguistiques (raclements de gorge, toux, rire, …)
- traits prosodiques (tempo, gamme tonale, pauses,…)
Toutes ces singularités contribuent fortement à l’établissement de notre passeport vocal.
Le passeport vocal
Rien ne résiste à Batvox
– Multiplicité des traces
– Durée minimum requise
– Traces issues d’écoutes téléphoniques ou d’appels à partir de téléphones portables
– Voix déguisées ou masquées
- Le 11 mars 2004, vers 7h40, 10 bombes ont explosé dans quatre trains de banlieue bondés. Bilan final : 191 morts et 1824 blessés… Attentat revendiqué par Al Quaida. ↩