25 ans après la naissance des premiers systèmes, la reconnaissance vocale est devenue suffisamment fiable et facile d'utilisation pour investir les téléphones mobiles et les systèmes de navigation embarqués. Et ce dès l'année prochaine...
L'idée de pouvoir dialoguer avec une machine grâce aux techniques de reconnaissance vocale a longtemps été un serpent de mer, tant les solutions proposées s'avéraient décevantes. Mais un quart de siècle après l'apparition des premiers systèmes, chercheurs, fournisseurs de technologies et éditeurs maîtrisent enfin leur sujet... Du moins, une bonne partie.
Les applications se multiplient : télécommunications, automobile, enseignement, renseignements (annuaires, centres d'appel,…). Pour autant, les résultats doivent être nuancés. Il faut en effet distinguer les applications de reconnaissance vocale se limitant à des mots isolés de celles qui portent sur des paroles continues. « Les premières, désormais au point, concernent par exemple les commandes vocales ou l'interrogation de fichiers. Elles s'adressent en général à un seul utilisateur et le vocabulaire utilisé se limite à une centaine de mots. Les secondes touchent à la conversation courante sur des sujets divers et doivent intégrer un large vocabulaire, qui peut couvrir 100.000 à 200.000 mots. Là, les taux de reconnaissance ne sont pas toujours très bons », explique Jean-François Sérignat, responsable au sein du CNRS du Groupe d'étude sur l'oral et le dialogue (Geod).
L'une des applications classiques de la reconnaissance vocale concerne la dictée vocale et l'ensemble des commandes vocales qui permettent de piloter un PC et ses logiciels. « En dix ans, la puissance des processeurs et l'enrichissement des algorithmes, notamment dans le domaine de la sémantique, ont permis de faire un bond technologique important. Nous sommes passés d'une diction discontinue avec pause entre chaque mot à un flux continu. La notion d'apprentissage n'existe plus. Une fois le logiciel installé, vous dictez immédiatement le courrier à votre PC et ce, avec un taux de reconnaissance qui se situe entre 94% et 99% », assure Christophe Van Mighem, responsable commercial chez Nuance de la solution logicielle Dragon NaturallySpeaking.
Constat peu ou prou identique en ce qui concerne l'apprentissage des langues étrangères. « De gros progrès ont été réalisés dans ce domaine », constate Nagi Sioufi, président d'Auralog, entreprise française et l'un des spécialistes mondiaux du secteur, « la technologie SETS (Spoken error tracking system) que nous avons lancée l'an dernier permet d'isoler dans une phrase un mot mal prononcé ». Un mot, mais pas encore une syllabe. « Analyser une phrase de 3 secondes ne pose pas de problème, mais avec un phonème de 100 millisecondes, la taille du signal devient critique et les résultats ne sont pas encore probants. », admet Nagi Sioufi.
Outre les solutions destinées aux centres d'appel, services d'annuaires ou routage de communications, les marché à forte croissance sont ceux des solutions mobiles et embarquées. Courant 2007, taper un SMS sur son téléphone portable, à pied ou en voiture, sera devenu inutile, et réservé aux nostalgiques du langage codé. Textos et emails seront tout simplement dictés, comme du reste, le ou les destinataires. Quant aux systèmes de navigation embarqués, on pourra bientôt leur faire un brin de causette : « Entrer le lieu de destination de façon vocale sera possible sur les GPS haut de gamme dès l'an prochain », signale Philippe Jeanrenaud, responsable marketing solutions embarquées de Nuance.
Et le secteur est loin d'avoir épuisé ses ressources. Pour Jean-François Sérignat, les axes de recherche ne manquent pas : maîtrise du bruit ambiant, reconnaissance vocale multilingue, reconnaissance de la parole pour les malentendants, ou encore les « smart rooms » : « Il s'agit là de télésurveillance médicale. Le but est de pouvoir établir un diagnostic à distance en cas de problème soudain, grâce à des capteurs sonores installés au domicile d'un malade ». Souriez, vous êtes écoutés…

L'échec de sa fusion avec TeliaSonera n'empêche pas Orange de poursuivre sa politique de croissance externe. L'opérateur vient d'annoncer avoir remporté pour 51 millions d'euros...
« Ils s'appellent Martin, Mia, Victor et Yasmine; ils ont 20 ans dans la France d'aujourd'hui ». La chaine de télévision Arte vient d'entamer la diffusion d'une série, le « Twenty...
A l'occasion de la conférence Salesforce.com Live organisée à Paris le 7 octobre 2008, Laurent Lasserre, directeur de Google Entreprise France faite le point sur l'offre professionnelle...
Pour faire face à la compétition de My Yahoo, iGoogle et Cie, le service de pages d'accueil personnalisées Netvibes vient de conclure un partenariat avec le géant Rambler, un...
Près de cinq ans après les premiers tests de Lagardère avec VirginMega, c'est au tour de Free-Hotspot.com, un opérateur alternatif spécialisé dans les réseaux sans-fil d'annoncer...
La reconnaissance vocale appliquée à l'apprentissage des langues ne permet pas comme le déclare votre interviewé de travailler sa prononciation mais uniquement son intonation, c'est à dire le "chant" de votre voix. Quant à imiter un accent anglais british ou américain, c'est devenu inutile car comme le souligne un récent rapport du British Council 75% des échanges se fait dans un anglais qui est ni américain ni britannique, c'est en fait l'anglais de la communication internationale qui n'est pas pris en compte par la reconnaissance vocale.