En el mundo de la inteligencia artificial, OpenAI ha marcado un hito con el lanzamiento
de su más reciente modelo, el GPT-4o. Este modelo, conocido como “omni” por su
capacidad de procesar y generar contenido a través de texto, audio e imagen,
representa un salto cualitativo en la interacción humano-computadora.
OpenAI dijo hace unos días que pronto GPT-4 será visto como una «IA tonta», y aquí
tenemos la prueba. Acaba de presentar GPT-4o, un nuevo modelo de lenguaje que
reduce la latencia a solo 320 milisegundos de media.
Características Innovadoras
El GPT-4o destaca por su capacidad de respuesta en tiempo real, con una latencia
comparable al tiempo de respuesta humana en una conversación. Esto significa que
puede responder a entradas de audio en tan solo 232 milisegundos, con un promedio
de 320 milisegundos. Además, el modelo ha mejorado significativamente en la
comprensión de texto en idiomas no ingleses y en la comprensión de visión y audio en
comparación con modelos anteriores.
Multimodalidad y Multilingüismo
Una de las características más impresionantes de GPT-4o es su naturaleza multimodal.
Puede aceptar cualquier combinación de texto, audio e imagen como entrada y generar
cualquier combinación de texto, audio e imagen como salida. Esto abre un abanico de
posibilidades para aplicaciones en educación, entretenimiento y servicios al cliente1.
Además, el modelo soporta más de 50 idiomas, cubriendo más del 97% de los
hablantes a nivel mundial. Durante una demostración en vivo, Mira Murati, CTO de
OpenAI, mostró la capacidad multilingüe del modelo al interactuar con él en italiano y
tenerlo traducir entre inglés e italiano.
Accesibilidad y Eficiencia
Lo que también distingue a GPT-4o es su accesibilidad. OpenAI ha anunciado que el
modelo es gratuito para todos los usuarios, lo que democratiza el acceso a esta
tecnología avanzada2. En términos de eficiencia, el API de GPT-4o es dos veces más
rápido y 50% más barato que su predecesor, GPT-4 Turbo.
Aplicaciones Prácticas
Las aplicaciones prácticas de GPT-4o son tan diversas como emocionantes. Desde la
preparación de entrevistas hasta juegos interactivos como piedra, papel o tijera; desde
la traducción en tiempo real hasta la creación de música y chistes; GPT-4o promete
revolucionar la forma en que interactuamos con la tecnología.
GPT-4o de OpenAI no es solo una actualización, es una redefinición de lo que es
posible en el campo de la inteligencia artificial. Con su lanzamiento, OpenAI no solo ha
establecido un nuevo estándar en la industria, sino que también ha abierto la puerta a
un futuro donde las barreras entre humanos y máquinas se vuelven cada vez más
difusas.
GPT-4o usa una única red neural para trabajar con voz, texto e imagen, incluye
también nuevas funciones, como la capacidad de describirte lo que ve en una foto. Por
ejemplo, si le enseñas una foto de un iPhone 15, te explica sus especificaciones. Ya
está disponible con las mejoras de texto e imagen, también para los usuarios gratuitos