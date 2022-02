Tan conveniente como pedirle a Siri que salte a la siguiente pista o cargue canciones de tu artista favorito sin sacar tu teléfono, hay ocasiones en las que interactuar verbalmente con asistentes inteligentes no es una opción. Entonces, los investigadores de la Universidad de Cornell desarrollaron una cámara inteligente portátil que puede detectar comandos de voz incluso cuando el usuario no murmura ningún sonido.



La inteligencia de los asistentes activados por voz y su capacidad para comprender sin esfuerzo los comandos de voz continúan mejorando año tras año, pero lo único en lo que han sido muy buenos desde el principio es en entender comandos simples. Una de las mejores razones para optar por los auriculares inalámbricos de Apple, Google y Amazon es el fácil acceso a los asistentes inteligentes de cada empresa a través de palabras clave, por lo que la experiencia es completamente manos libres.



Pero para esos momentos en los que no quieres ladrar órdenes en voz alta (como cuando está abarrotado un vagón de metro lleno de gente) o no quieres que nadie sepa que le estás pidiendo a Siri que ponga en cola la lista de reproducción de los mejores éxitos de Celine, el SpeeChin es una alternativa interesante.



Diseñado por Cheng Zhang, profesor asistente de ciencias de la información en el Cornell Ann S. Bowers College of Computing and Information Science, y Ruidong Zhang, estudiante de doctorado de la Universidad de Cornell, SpeeChin es una cámara infrarroja compacta que cuelga de un collar que se usa a la altura del pecho. La cámara apunta hacia arriba, capturando un video de alto contraste de los movimientos de la barbilla del usuario que, después de un poco de entrenamiento, se puede usar para descubrir lo que alguien está diciendo sin que emita ningún sonido. La ubicación de la cámara no solo es más encubierta que montar una cámara en la cara de alguien para registrar los movimientos de la boca, sino que también se encuentra en un ángulo donde no se pueden capturar las caras de otras personas, lo que garantiza que no haya problemas de privacidad.



Los investigadores probaron el SpeeChin con 20 participantes; 10 de ellos hablaron 54 frases simples que incluían dígitos y comandos comunes de asistente de voz en inglés, y 10 hablaron 44 palabras y frases simples en chino mandarín. Después de un período de entrenamiento, la cámara de seguimiento pudo reconocer comandos en inglés con un 90,5 % de precisión y comandos en chino mandarín con un 91,6 % de precisión. Esto fue con los participantes pronunciando las diversas frases mientras permanecían inmóviles. Cuando se les pidió que pronunciaran estas frases mientras caminaban, la precisión disminuyó como resultado de las variaciones en los movimientos de cada persona, incluidos sus pasos y el movimiento adicional de sus cabezas.



Es un problema que podría resolverse potencialmente con una sesión de entrenamiento más larga que incluyera a los participantes de pie y caminando mientras trabajaban en la biblioteca de frases y comandos, así como un equipo de cámara mejorado que pudiera seguir mejor los movimientos de la chin a través de una resolución más alta en velocidades de fotogramas. Aquí está la esperanza de que los investigadores continúen desarrollando la tecnología, porque con capacidades de reconocimiento de voz más avanzadas, el mundo sería un lugar más pacífico donde nadie tendría que hacer un sonido.