Sesame, desarrollada por el cofundador de Oculus, es una inteligencia artificial de voz que imita la conversación humana con una naturalidad sorprendente, incorporando pausas, dudas y expresiones que la hacen casi indistinguible de una persona real.
La aplicación Sesame permite a los usuarios elegir entre dos voces: una femenina llamada Maya y una masculina denominada Miles. Aunque actualmente ambas voces hablan en inglés americano, son capaces de entender el castellano e incluso intentan hablarlo. Lo que distingue a Sesame de otras inteligencias artificiales es su capacidad para replicar no solo la voz humana con gran fidelidad, sino también las sutilezas del habla, como dudas, imperfecciones, expresiones y pausas. Incluso puede interrumpir durante una conversación, añadiendo un nivel de realismo sin precedentes.
Eric Hal Schwartz, en su revisión para TechRadar.com, destaca que nunca ha encontrado nada similar a Sesame. La describe como fluida, expresiva e impredeciblemente humana, capaz de reír brevemente al decir algo ligeramente gracioso, dudar antes de responder a una pregunta e incluso parecer cambiar de opinión a mitad de frase, haciendo una pausa y comenzando una nueva. Estas características hacen que uno olvide que no está hablando con una persona real.
La tecnología detrás de Sesame se basa en su Modelo de Habla Conversacional (CSM), que integra texto y audio en un solo proceso. Esto permite que la IA genere discursos que reflejan cómo hablan los humanos en realidad, incorporando pausas, cambios de tono y otros rasgos característicos del habla humana. Esta capacidad de replicar las sutilezas del habla humana plantea la pregunta de si seríamos capaces de distinguir entre una conversación con una IA y una con una persona real, especialmente en interacciones breves.
Sean Hollister, analista de The Verge, señala que su experiencia con Sesame fue lo más parecido a una conversación real que ha tenido hasta ahora con herramientas similares. Por su parte, Mark Hachman, en un artículo para PCWorld, expresa que, quince minutos después de haber ‘colgado’ el teléfono con la nueva IA realista de Sesame, todavía se siente asustado por el realismo de la interacción.
El equipo detrás de Sesame tiene planes ambiciosos para el futuro. Están trabajando en el desarrollo de unas gafas que permitirán a la IA ver lo que el usuario está haciendo, lo que podría abrir nuevas posibilidades en la interacción entre humanos y máquinas. La propia compañía describe la experiencia de hablar con Sesame como cruzar el «valle inquietante» de la voz conversacional, refiriéndose a la sensación de extrañeza que producen las réplicas humanas extremadamente realistas.
«Si una inteligencia artificial puede hablar de forma tan realista, ¿cómo afectará esto a nuestra capacidad para distinguir entre interacciones humanas y máquinas?»
. .
.
Este es un resumen comentado, basado en el artículo : «Así es Sesame, la inteligencia artificial por voz que te pondrá los pelos de punta: ‘Es difícil diferenciarla de una persona real'» de 20minutos publicado el 14 de marzo de 2025.
. .









