OpenAI ha lanzado su próxima versión del modelo de IA GPT-4. La última actualización del modelo da un nuevo salto en el mundo de los chatbots de OpenAI. La última versión de GPT viene con un nuevo y poderoso modelo de comprensión de imágenes y texto. Sin embargo, la versión actualizada de GPT actualmente está disponible solo para usuarios de ChatGPT Plus.
La generación anterior de GPT ha arrasado con el mundo con su profundo aprendizaje de idiomas y conversaciones ingeniosas. Aunque, el modelo no tenía la capacidad de comprender imágenes y traducirlas al formato de texto. Con el anuncio de la cuarta generación de un modelo de IA, OpenAI ha llevado su inteligencia artificial a la siguiente etapa.
GPT-4 de OpenAI Nuevos avances y reconocimiento de imágenes
Produce salidas de texto a partir de entradas que contienen texto y gráficos intercalados, según un artículo reciente de OpenAI. GPT-4
muestra capacidades idénticas a las de las entradas de solo texto en una variedad de dominios, incluidos documentos que contienen texto y fotos, diagramas o capturas de pantalla.
Sin embargo, debido a problemas de uso indebido, la empresa está posponiendo la implementación de su capacidad de descripción de imágenes y el GPT-4 La versión que está disponible para los suscriptores del servicio ChatGPT Plus de OpenAI solo admite texto.
GPT-4 se desempeña en el «nivel humano» en una variedad de puntos de referencia profesionales y académicos, puede crear texto y puede tomar entradas de texto e imágenes. Una actualización por encima de GPT-3.5, que solo aceptaba texto. Por ejemplo, GPT-4 completa con éxito un examen de barra simulado con una puntuación en el 10% superior de los examinados, pero GPT-3.5 recibió una puntuación en el 10% inferior.
En un artículo de blog, OpenAI dijo que GPT-4 todavía puede cometer los mismos errores que las iteraciones anteriores. Los errores cometidos fueron tales como galimatías «alucinantes», defender los prejuicios sociales y dar malos consejos.
Tampoco «aprende de su experiencia», lo que dificulta que las personas le enseñen cosas nuevas, y desconoce los eventos que ocurrieron después de alrededor de septiembre de 2021, cuando se terminaron sus datos de entrenamiento.
Leer también
12 Las mejores alternativas de ChatGPT con funciones intuitivas y potentes
Planes de Microsoft sobre el modelo de video AI de GPT Kosmos-1
A pesar de los inconvenientes, se espera que su tecnología se convierta en un arma secreta para su software de oficina, motor de búsqueda y otros objetivos de Internet. El gigante tecnológico Microsoft ha gastado miles de millones de dólares en OpenAI.
Kosmos-1, un modelo de lenguaje multimodal de Microsoft que funciona con varios formatos, se ha presentado anteriormente. La IA en el Kosmos-1 presentación puede interpretar imágenes además de texto. Por ejemplo, se le pregunta a la IA: «¿Qué hora es ahora?». Después de recibir una imagen de un reloj que muestra la hora como 10:10. La IA responde, «10:10 en un reloj grande», a eso.
Además, la modelo tiene la capacidad de identificar un peinado específico que luce una dama. Identifica el cartel de una película y notifica al usuario cuándo se estrenará la película.
Andreas Braun, director técnico de Microsoft Alemania, declaró la semana pasada que GPT-4 “brindará posibilidades completamente diferentes, incluidas películas”. Sin embargo, según el comunicado de hoy, GPT-4 no menciona video. El único componente multimodal es la entrada de fotos, que es mucho menos de lo previsto.