El lanzamiento de o3, un nuevo modelo de IA de OpenAI, ha generado gran expectación. A pesar de su lanzamiento discreto, los resultados obtenidos en diversas pruebas son asombrosos, superando incluso el rendimiento de programadores humanos en tareas de razonamiento y abstracción.
Un rendimiento excepcional en benchmarks
o3 ha demostrado un rendimiento excepcional en varios benchmarks. En SWE-bench Verified, una prueba para ingenieros de software, alcanzó un impresionante 71.7%, superando ampliamente a modelos anteriores como GPT-4 (31%) y situándose por encima de competidores como Claude Sonnet 3.5 y Gemini 2.0 Flash. En Codeforces, un test de programación competitiva, o3 obtuvo una puntuación que lo situaría entre los mejores 175 programadores, superando incluso a DeepMind Alphacode 2.
Excelencia en ciencia y matemáticas
La capacidad de o3 no se limita a la programación. En el test GPQA Diamond, que evalúa conocimientos científicos, o3 alcanzó un 87.7%, superando el rendimiento promedio de los doctores. Incluso en el exigente benchmark FrontierMath, diseñado para evaluar el razonamiento matemático avanzado, o3 logró un 25.2%, un resultado significativo considerando que la mayoría de los modelos de IA solo alcanzan un 2%.
ARC-AGI: Un reto superado
En el benchmark ARC-AGI, que evalúa la capacidad de adaptación a problemas novedosos, o3 obtuvo un 87.5%, un avance significativo comparado con modelos anteriores. Este resultado, aunque no implica necesariamente que o3 sea una Inteligencia Artificial General (AGI), demuestra un gran potencial.
Consideraciones sobre el costo y el futuro
Si bien el rendimiento de o3 es excepcional, su costo actual es elevado. Se espera que una versión más accesible, o3-mini, esté disponible en el primer trimestre de 2025 a un precio más competitivo, lo que podría impulsar su adopción en diversos ámbitos. La competencia en el mercado de IA se intensificará con la aparición de modelos similares.
Dos vertientes en la IA
La evolución de la IA parece estar bifurcándose en dos grandes vertientes: modelos enfocados en rapidez y una cierta tolerancia al error, como los ChatGPT actuales, y modelos de razonamiento más precisos y potentes como o3, aunque más costosos y con tiempos de respuesta más largos. OpenAI está diversificando su estrategia para atender ambas necesidades, lo que podría ser clave para su éxito financiero.
Fuente: Xataka