13 junio 2024

El nuevo ChatGPT escucha, mira y habla

Imagen de Sanket Mishra en Pexels

Imagen de Sanket Mishra en Pexels

OpenAI está transformando su chatbot en un asistente de voz, fusionado, además, con generadores de imágenes y chatbots.

La última versión beta de ChatGPT (GPT-4o) puede recibir y responder a comandos de voz, imágenes y vídeos.

La compañía ha asegurado que la nueva app “hace malabarismos con audio, imágenes y vídeo” bastante más rápido y de manera eficaz que las versiones anteriores de ChatGPT. La nueva aplicación, ya disponible de forma gratuita tanto para smartphones como para ordenadores portátiles y de mesa, es parte de un esfuerzo más amplio para combinar chatbots conversacionales como ChatGPT con asistentes de voz, como el Asistente de Google o el Siri de Apple.

Esta es la primera vez que ofrece ChatGPT como aplicación de escritorio. Anteriormente la empresa ofrecía tecnologías similares desde varios productos gratuitos y de pago. Ahora los ha integrado en un único sistema que está disponible en todos sus productos.

Por ejemplo, GPT-4o responde a comandos de voz conversacionales, a la vez que usa una retransmisión de vídeo en vivo para analizar problemas matemáticos escritos en una hoja de papel, mientras “lee” en voz alta historias que había “escrito” sobre la marcha.

La nueva aplicación no puede generar vídeos, eso sí, pero puede generar imágenes fijas que representan los fotogramas de un vídeo.

Hasta ahora OpenAI brindaba una versión de ChatGPT que podía aceptar comandos de voz y responder también con voz. Pero era un mosaico de tres tecnologías de IA: una que convertía voz en texto, otra que generaba una respuesta de texto y otra que convertía este mismo texto en una voz sintética.

Las versiones anteriores de esta tecnología ya habían aprendido de sonidos, imágenes y vídeos. Los desarrolladores llaman a esto «IA multimodal». Es ahora cuando OpenAI ha comenzado a combinar los chatbots con IA generadoras de imagen, audio y vídeo.

Leave a Reply