ChatGPT podrá identificar audio e imágenes y responder con voz

0
726
ChatGPT podrá identificar audio e imágenes y responder con voz
ChatGPT podrá identificar audio e imágenes y responder con voz

Inicialmente para los usuarios que utilicen el servicio Plus y Enterprise de ChatGPT, y en un futuro cercano se ampliará al público en general

ChatGPT está elevando su tecnología basada en inteligencia artificial a un nuevo nivel y tiene como objetivo principal el convertirse en un asistente virtual. OpenAI ha revelado una actualización que habilitará a este popular chatbot para “ver, escuchar y hablar”.

Con estas nuevas capacidades y una interfaz totalmente renovada, los usuarios podrán mantener conversaciones habladas con ChatGPT y también podrán enviarle imágenes.

La empresa ha anunciado que la función de reconocimiento de voz e imágenes estará disponible para los usuarios de los planes Plus y Enterprise en las próximas dos semanas. Además, se encuentra en consideración la posibilidad de extender el acceso a otros grupos de usuarios en un futuro cercano.

La capacidad de utilizar la voz estará accesible en las aplicaciones móviles tanto para iOS como para Android. En cuanto a las imágenes, esta función será compatible en todas las plataformas disponibles.

Voz

La última actualización de ChatGPT introduce la capacidad de mantener una conversación utilizando la voz. Esto significa que los usuarios pueden, por ejemplo, solicitar que el asistente les cuente una historia para dormir o entablar un diálogo sobre un tema que les interese.

Para habilitar esta función en la aplicación móvil de ChatGPT, dirígete al menú de Configuración y haz clic en “Nuevas funciones”. Luego, selecciona la opción de “Conversaciones con voz”. A continuación, ve al icono de auriculares en la esquina superior derecha de la pantalla de inicio y elige la voz que prefieras entre las cinco disponibles.

Esta innovación en la funcionalidad de voz se basa en un nuevo modelo de conversión de texto a voz, el cual tiene la capacidad de generar audio de manera similar a la voz humana a partir únicamente de texto y una breve muestra de voz.

OpenAI colaboró con profesionales del doblaje para desarrollar cada una de las voces. Además, hicieron uso de su sistema de reconocimiento de voz de código abierto, conocido como Whisper, para transformar las expresiones habladas en texto.

Leer más:

TikTok exige informar si videos son elaborados con IA

Reconocimiento de imágenes

Esta innovación permitirá a los usuarios presentar a ChatGPT una o varias imágenes. De esta manera, por ejemplo, podrían enviarle una foto de lo que tienen en el refrigerador, y el asistente evaluaría el contenido visual para sugerir recetas basadas en esos ingredientes.

Si los usuarios desean que ChatGPT se concentre en un área específica de la imagen, pueden hacer uso de la herramienta de dibujo en la aplicación.

Para utilizar esta función, basta con pulsar el icono de imagen para tomar o seleccionar una fotografía. En dispositivos iOS o Android, es necesario presionar primero el botón “más”.

Esta característica de detección de imágenes es compatible tanto con GPT-3.5 como con GPT-4. Estos modelos de inteligencia artificial aplican su capacidad de comprensión y razonamiento del lenguaje a una variada gama de elementos visuales, incluyendo fotografías, capturas de pantalla y documentos que combinan texto e imágenes.