Publié le: 05/03/2025 @ 13:05:58: Par Nic007 Dans "Programmation"
ProgrammationSesame, une entreprise spécialisée dans le développement d'assistants vocaux basés sur l'intelligence artificielle , a publié un article intéressant sur le soi-disant Conversational Speech Model (CSM), un modèle développé par elle qui sert à rendre les voix des assistants virtuels plus naturelles et réalistes , et nous devons dire que les premiers résultats sont étonnants. Habituellement, aussi réaliste que soit leur voix, les assistants vocaux répondent avec un ton plat et inexpressif , soit parce qu'ils ne peuvent pas comprendre pleinement les nuances de la voix humaine avec laquelle ils communiquent, soit parce qu'ils ne peuvent pas beaucoup varier le ton de leur propre voix. Le CSM propose de résoudre ce problème de trois manières :

- Il comprend le contexte de la conversation et adapte le ton de sa voix en conséquence.
- Il gère mieux le timing des conversations , comme les pauses et les interruptions, pour rendre le dialogue plus fluide et naturel.
- Il reproduit les émotions et les nuances vocales , rendant la voix plus expressive et engageante.

En bref, le CSM est un modèle qui vise à donner à l’IA une certaine intelligence émotionnelle , afin qu’elle puisse répondre non seulement en fonction de l’entrée vocale qui lui est donnée, mais aussi de son ton. Vous voulez l'essayer par vous-même ? Allez sur https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo , choisissez la voix de Maya ou de Miles et ayez une bonne conversation. N'oubliez pas que le CSM a actuellement été formé en anglais et ne parle pas couramment d'autres langues. Sesame a promis que dans les mois à venir, il étendrait le support à 20 autres langues. Précisons également que, aussi naturelle que soit la voix, la connaissance générale de ce modèle est plutôt limitée par rapport à un ChatGPT ou à un Gemini , car son objectif principal est précisément le langage naturel.

Mais pourquoi alors Google et OpenAI n’ont-ils pas déjà mis en œuvre quelque chose de similaire ? Nous n'avons pas de réponse officielle, mais selon Sesame, l'implémentation de CSM nécessite des ressources importantes , notamment pendant la phase de formation, en raison de l'utilisation élevée de la mémoire et de la nécessité de gérer de gros lots de données. De plus, il n’est même pas facile de mesurer de manière objective les performances obtenues : donner un score, une valeur, aux capacités contextuelles et à l’expressivité d’un chatbot nécessite des méthodes d’évaluation avancées et pas toujours standardisées.
Poster un commentaire
Vous devez être identifié pour accéder à cette fonctionnalité

Utilisateur
Mot de passe
 
Informaticien.be - © 2002-2025 AkretioSPRL  - Generated via Kelare
The Akretio Network: Akretio - Freedelity - KelCommerce - Votre publicité sur informaticien.be ?