Un coloso de 671.000 millones de parámetros
DeepSeek V3, el nuevo modelo de lenguaje grande (LLM) de la startup china DeepSeek, ha irrumpido en el panorama de la inteligencia artificial con una magnitud impresionante: 671.000 millones de parámetros, superando en un 60% al ya enorme Llama 3.1 405B. Esta cifra pone de manifiesto la ambiciosa apuesta de China por liderar la carrera de la IA.
Eficiencia sorprendente en el entrenamiento
Lo que resulta aún más notable es la eficiencia en su entrenamiento. A diferencia de los cuantiosos recursos empleados en GPT-4 (se estima alrededor de 80 millones de dólares), DeepSeek V3 requirió un coste significativamente menor: tan solo 5,5 millones de dólares. Este logro se obtuvo utilizando 2.048 GPUs H800 y 14,8 billones de tokens de datos. Esta eficiencia ha generado sorpresa incluso en figuras clave de la industria, como Andrej Karpathy.
Rendimiento comparable a los líderes
Las pruebas internas indican un rendimiento competitivo con modelos líderes, tanto de código abierto como propietarios. DeepSeek V3 superó en ciertas pruebas a Llama 3.1 405B y GPT-4, aunque el número de parámetros puede influir en las comparaciones directas. Solo Claude 3.5 Sonnet parece haber presentado un desempeño similar o superior en algunas evaluaciones.
Arquitectura innovadora y mejoras en la velocidad
El modelo utiliza una arquitectura Mixture-of-Experts (MoE), optimizando el uso de parámetros para diversas tareas. DeepSeek ha implementado dos mejoras clave: una estrategia de balanceo de carga y un sistema de predicción de tokens. Estas innovaciones han triplicado la velocidad de generación de tokens en comparación con su predecesor, alcanzando 60 tokens por segundo con el mismo hardware.
China avanza con paso firme en la IA
DeepSeek V3, disponible bajo una licencia MIT, representa un significativo avance en la investigación y desarrollo de IA en China, a pesar de las restricciones comerciales impuestas por Estados Unidos. Este lanzamiento se suma a otros recientes desarrollos chinos en IA, demostrando un impulso notable hacia la innovación y la competencia en este campo. El enfoque de código abierto lo hace accesible para investigadores y académicos de todo el mundo, contribuyendo a un mayor avance global.
Más parámetros, mayor capacidad (generalmente)
El número de parámetros en un modelo de IA generalmente se correlaciona con su capacidad y precisión. Modelos más grandes, como DeepSeek V3, requieren más recursos computacionales para su funcionamiento óptimo, pero ofrecen potencialmente mayor precisión y versatilidad en sus tareas.
Este modelo se destaca por su gran tamaño, su entrenamiento eficiente y bajo costo, así como su rendimiento competitivo. Representa una contribución significativa al campo de la IA y la creciente competencia entre China y otras potencias tecnológicas.