Contexte et évolution des interactions

Historiquement, les interfaces utilisateurs ont été créées pour rendre l’interaction avec les machines plus intuitives. Avec l’émergence des ordinateurs qui s’utilisent avec un clavier et une souris, la grande majorité des personnes qui ont vu naître et appris l’informatique ont ces codes ancrés en elles. Par la suite, les écrans tactiles sont arrivés avec l’ambition d’améliorer l’efficacité et la simplicité d’usage. Une nouvelle gestuelle a ainsi vu le jour : scroll, swipe,… Depuis l’avènement du smartphone, ces comportements digitaux sont acquis de tous, encore plus par les générations plus jeunes (et les populations chez lesquelles l’accès à l’informatique est arrivé directement avec le smartphone).

De nouvelles formes d’interactions ont par la suite été proposées notamment des commandes gestuelles via des systèmes comme Kinect ou de Réalité augmentée / virtuelle. Ou encore des commandes vocales avec Siri, Alexa, Google Home,… Même si toutes les statistiques de l’époque laissaient entendre que ces comportements allaient dominer, il faut bien avouer que toutes ces nouvelles formes d’interaction n’ont pas dépassé le stade des early adopters. Néanmoins, la popularisation et la médiatisation de ces objets connectés a mis en lumière les possibilités offertes par la commande vocale, peut-être de façon trop idéalisée par rapport aux capacités technologiques de l’époque.

La promesse offerte par les interfaces vocales reste néanmoins séduisante. Les évolutions de certains comportements mis en exergue depuis le covid (dû aux relations à distance) et l’apparition de nouvelles façons de communiquer ont libéré la parole… par la voix. Décryptage ci-dessous.
 

Signaux faibles : comportements vocaux observés

 

Appel en visio

La visioconférence a transformé notre manière de communiquer. Des applications comme FaceTime, WhatsApp, Teams, Google Meet, Zoom,.. ont fait des merveilles en rapprochant les gens malgré la distance. Ces technologies ne se limitent pas à la simple transmission d’images et de sons, elles apportent une dimension humaine aux échanges numériques.
 

Utilisation d’écouteurs sans fil

Un autre comportement révélateur de l’usage de la voix est l’utilisation croissante des écouteurs sans fil. Aujourd’hui, parler dans la rue, tout en ayant les mains libres, est devenu une chose courante. Ce phénomène témoigne d’un désir d’interaction sans contraintes physiques, où l’utilisateur peut s’exprimer sans se soucier de manipuler un téléphone. Les écouteurs comme les AirPods facilitent cette expérience, rendant l’interaction vocale naturelle et dénuée de tout support physique.
 

Messages vocaux

Les messages vocaux sont une autre illustration de cette évolution. De plus en plus d’utilisateurs optent pour cette méthode d’échanges, préférant la rapidité et l’expressivité des voix aux échanges textuels parfois impersonnels. Les plateformes de messagerie comme WhatsApp ou Telegram ont intégré cette fonctionnalité, offrant une alternative au texte plus rapide, sans contrainte et enlevant la barrière de l’orthographe.
 

Haut-parleur lors des appels

L’usage du haut-parleur lors des appels témoigne également de ce changement. Dans des contextes variés, des conversations professionnelles aux discussions familiales, la communication devient collective, rendant la machine vocale au centre des échanges. Ce comportement souligne l’usage public de la voix avec un support numérique, même dans des environnements partagés.
 

Commande vocale

Nous l’avons souligné, la révolution des interfaces vocales n’a pas eu lieu telle qu’annoncée. Néanmoins, des comportements ont tout de même commencé à être adoptés par l’ajout de fonctionnalités de commande vocale dans des objets du quotidien autre que le smartphone (télécommande TV, voiture,…). Les interactions restent simples, mais elles existent et participent à la démocratisation et à l’éducation de cette forme d’interaction.
 

Streaming et jeux vidéo

L’essor du streaming (live, vidéo, podcast,…) et des jeux vidéo communautaires en ligne participent également à cette tendance. Échanger avec sa communauté ou ses coéquipiers seul et à distance, devant son ordinateur participe à l’habitude d’utiliser la voix sans interaction physique et souvent sans objets en main.
 
usage de la voix
 

Facteurs culturels, générationnels et contextuels

Ces observations ne sont pas accompagnées de sources statistiques car il est très compliqué de trouver des données fiables et l’histoire montre qu’elles sont à prendre avec des pincettes. Néanmoins, toutes vont dans ce sens, mais démontrent largement que ces comportements sont avant tout plébiscités par les jeunes générations. L’usage de la parole en public, par l’intermédiaire d’un objet technologique, semble plus naturel et plus acquis dans les conversations.

Les nouvelles technologies ont ainsi débridé une partie de la population à l’utilisation plus libre de la voix. Ces nouveaux comportements ne sont, pour autant, pas universels et peuvent même agacer une grande partie de la population. L’adoption globale de cette forme d’interaction au même titre que le clavier/souris reste donc modulée par des facteurs culturels, générationnels et contextuels.

Le processus semble donc être en cours, mais il reste dépendant du confort de chacun face aux normes sociales établies et aux perceptions d’intrusion dans l’espace partagé.
 

Vers une démocratisation des interfaces conversationnelles ?

Le potentiel des interfaces conversationnelles ne se limite pas à une adoption sociale de ses codes de communication. Néanmoins d’autres facteurs peuvent laisser penser que les interfaces conversationnelles pourraient connaître un ancrage plus pérenne dans nos habitudes :

  • La performance des nouvelles solutions n’est plus une limite. Elles peuvent désormais comprendre des nuances, interpréter des contextes multiples, se souvenir d’une conversation et générer des réponses complexes. On est loin de la commande basique.
  • L’engouement médiatique autour de l’IA ne cesse d’augmenter et aujourd’hui, une large partie de la population en a au moins entendu parler.
  • L’ensemble des géants du web (Google, Microsoft, Meta,…) intègre ces nouvelles fonctionnalités dans leurs produits et communiquent à coup de publicité mondiale auprès du grand public
  • Des nouveaux devices commencent à voir le jour avec une expérience réinventée autour de la commande vocale (Humane Ai Pin, Rabbit R1, Smart Glasses de Meta, le projet de smartphone de Sam Altman et Jony Ive ou encore le Tesla Optimus) et auront probablement un impact médiatique important vu les acteurs.

 

A l’aube d’une ère 100% conversationnelle ?

Les interfaces conversationnelles pourraient repenser notre façon de communiquer avec les machines. Cependant, il est peu probable qu’elle remplace totalement les interfaces utilisateurs classiques. C’est plus vers une cohabitation de différents modes d’interactions que l’avenir devrait nous porter en permettant des expériences hybrides.

Notre rôle de designer sera alors de modéliser des flux d’activité et imaginer des parcours utilisateur au travers d’interfaces multimodales : clavier, tactile, voix, geste, cérébral,…. Cela se fera au regard de la complexité des tâches à réaliser, des avancées technologiques, des environnements ou encore selon les habitudes et préférences des utilisateurs.

 

© Photo de Andrea Piacquadio.