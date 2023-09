El lunes, los creadores de ChatGPT OpenAI Anunciado Estaba comenzando a implementar el reconocimiento de voz e imagen en ChatGPT. Básicamente, la IA puede reconocer una imagen por lo que es. y comunicarse con los usuarios al respecto. Además, la IA ahora tiene capacidades de síntesis de voz a texto y de síntesis de texto a voz, todas las cuales son Se supone que debe hacer que el chatbot parezca más, ejem, “humano” de lo que era anteriormente.OpenAI compartió un video promocional que se supone ofrece a los usuarios una idea de cómo se verán las capacidades de reconocimiento de imágenes. En él, un usuario le pide ayuda a ChatGPT para bajar el sillín de su bicicleta, a lo que el chatbot responde con algunas generales (y, si fuéramos poco caritativos, (extremadamente obvio) consejo para bajar cualquier tipo de asiento. El usuario primerizo del asiento de bicicleta trazó un círculo alrededor del cierre del asiento de bicicleta y pidió ayuda más detallada, para lo cual ChatGPT supuestamente reconoció el tipo de perno y le dijo al usuario que necesitaba una llave allen . El sistema supuestamente también puede ver imagen del manual de usuario y la caja de herramientas para ver si tienen la llave del tamaño correcto. Si bien el reconocimiento de imágenes no es algo con lo que muchos servicios de chatbot hayan experimentado, también estamos muy actualizados en sistemas de reconocimiento de voz. como síntesis de voz. OpenAI se burló de los nuevos servicios de voz del chatbot con un video de una madre que le pide a ChatGPT que le lea a sus hijos antes de dormir historia sobre un erizo del bosque en particular (ella podría simplemente leer un libro ilustrado real, pero supongo que esa es una forma de ser padre ). Las muestras incluidas en la publicación del blog de OpenAI tienen una cadencia de sonido natural, aunque no es como “Juniper”, “Sky” o “ Los paquetes de voces de Breeze crearán voces únicas para el pequeño Larry el Erizo o cualquiera de sus amigos del bosque. Cada voz se basa en un actor de doblaje que autorizó sus sonidos para el sistema, según OpenAI. Es similar a otra sintetización de voz IA de empresas como ElevenLabs . Ese servicio ha sido arrastrado por ser inicialmente usado para deepfakes y acoso . OpenAI dijo que sus primeros servicios de voz solo se estaban implementando en el chat de voz ChatGPT. La compañía también está otorgando licencias para sus sistemas de voz. a Spotify, que el lunes Anunciado Nuevas capacidades de traducción de voz de podcasts. El sistema debería poder mantener la misma voz de los podcasters, pero hacer que hablen en español, francés y Alemán para empezar.

Por supuesto, la nueva característica solo está disponible para los usuarios que pagan por el servicio Plus o Enterprise, y ambas capacidades deberían estar disponibles en iOS y Android dentro de las próximas dos semanas. Los usuarios de la versión web de ChatGPT también deberían tener capacidades de imagen lo suficientemente pronto. El sistema tampoco será tan rápido ni tan capaz como sugiere cualquiera de esos videos promocionales. cableado

Advertisement

informado basado en una versión prelanzamiento que el reconocimiento de voz tomó varios segundos para responder, y que el sistema de imagen no intenta para identificar a las personas en las fotografías (tendremos que esperar y ver qué tan bien el sistema intenta proteger la privacidad de las personas en las fotografías). En un correo electrónico a Gizmodo, un portavoz de OpenAI dijo que estaban intentando implementar nuevas funciones “gradualmente para permitir mejoras y refinamiento de las mitigaciones de riesgos a lo largo del tiempo”, algo que es aún más “crucial” con el reconocimiento de voz e imagen. El otro problema con los modelos basados en la visión es que el chatbot tiene un campo completamente nuevo donde puede malinterpretar o no medir con precisión indicaciones de los usuarios. OpenAI afirmó que la empresa adoptó esta nueva característica para intentar reducir los riesgos, pero sólo será cuestión de tiempo antes de que los usuarios superen los límites éticos del chatbot una vez más. ChatGPT tiene

Advertisement Advertisement

visto rechazo de usuarios totales Desde que tuvo gran popularidad por primera vez en noviembre de 2022. Parte del problema es que algunos usuarios sienten que la empresa ha

obstaculizó las capacidades del chatbot

ya que OpenAI ha luchado por encontrar algún tipo de equilibrio ético entre mitigar los daños y dejar que los usuarios de sus chatbots se vuelvan locos.OpenAI también se enfrenta a una importante competencia por su chatbot por parte de importantes actores tecnológicos como Meta así como startups como antrópico . Google es según se informa se prepara para lanzar su propio competidor GPT-4 llamado “Gemini”, que también podría incluir capacidades de reconocimiento de imagen y voz. La semana pasada, la empresa presentó su generador de imágenes IA DALL-E 3 AI

Advertisement

eso también incluye la integración ChatGPT. Realmente, es sólo otra empresa bebiendo el kool aid del “lenguaje natural”, pensando que la capacidad de operar un sistema que utiliza lenguaje natural es de alguna manera un reemplazo para una interfaz de usuario que funcione mejor. iOS and Android within the next two weeks. Users on the web version of ChatGPT should also have image capabilities soon enough. The system also won’t be nearly as fast or as capable as any of those promo videos suggest. Wired reported based on a pre-release version that the voice recognition took several seconds to respond, and that the image system won’t try to identify people in photos (we’ll have to wait and see how well the system tries to protect peoples’ privacy in photos).

In an email to Gizmodo, a spokesperson for OpenAI said they were trying to roll out new features “gradually to allow for improvements and refinement of risk mitigations over time,” something that is even more “crucial” with voice and image recognition.

Advertisement

The other issue with vision-based models is that the chatbot has a whole new arena where it can misinterpret or fail to accurately gauge users’ prompts. OpenAI claimed the company red-team ed this new feature to try and reduce risks, but it will only be a matter of time before users push the ethical boundaries of the chatbot once again.

ChatGPT has watched its total users decline since it first saw massive popularity back in November 2022. Part of the issue is some users feel like the company has hindered the chatbot’s capabilities as OpenAI has struggled to find some kind of ethical balance between mitigating harms and letting their chatbot users run buck wild.

Advertisement

OpenAI is also facing major competition for its chatbot from major tech players such as Meta as well as startups like Anthropic. Google is reportedly set to release its own GPT-4 competitor called “Gemini” which could also include image and voice recognition capabilities. Last week, OpenAI unveiled its DALL-E 3 AI image generator which also includes ChatGPT integration. Really, it’s just another company drinking the “natural language” Kool-Aid , thinking that the ability to operate a system using natural language is somehow a replacement for a better-functioning user interface.