Una startup china llamada DeepSeek acaba de lanzar DeepSeek V3, un LLM absolutamente gigantesco que está disponible con una licencia MIT "abierta" que permite a los desarrolladores descargarlo de GitHub y modificarlo para diversos escenarios, incluyendo algunos comerciales.
Rendimiento prometedor. Según las pruebas internas, DeepSeek V3 supera a modelos de IA Open Source como a otros propietarios y que solo pueden usarse a través de una API. En pruebas como la de programación de Codeforces el modelo chino logró superar a Llama 3.1 405B, a GPT-4o y a Qwen 2.5 72B, aunque todos ellos tienen muchos menos parámetros y eso puede influir en el rendimiento y las comparaciones. Solo Claude 3.5 Sonnet parece resistir su capacidad, y superó o igualó al modelo chino en varias pruebas.
Entrenamiento eficiente y barato pero voraz. Según sus responsables, DeepSeek V3 "solo" necesitó 2,788 millones de horas de entrenamiento en 2.048 GPUs H800, las versiones capadas de las H100 de NVIDIA. Según sus responsables el entrenamiento costó tan solo 5,5 millones de dólares, y se estima que para entrenar GPT-4 OpenAI invirtió cerca de 80 millones de dólares. Para entrenarlo utilizaron un conjunto de datos (dataset) con 14,8 billones de tokens, una cifra igualmente enorme: un millón de tokens equivale aproximadamente a 750.000 palabras. Andrej Karpathy, cofundador de OpenAI (desde hace meses fuera de la empresa) se mostró sorprendido por esa eficiencia y reducido coste del entrenamiento.
Un 60% más grande que Llama 3.1 405B. Meta tenía hasta ahora uno de los modelos de IA más grandes del mercado con 405.000 millones de parámetros (405B). El modelo de DeepSeek llega a los 671B, casi un 66% más. La pregunta, claro, es si tantos parámetros sirven de algo.
Cuantos más parámetros, (normalmente) mejor. El número de parámetros suele tener una fuerte relación con la capacidad de los modelos. Los modelos de IA que corren localmente en nuestros PCs o móviles suelen tener muchos menos (3B, 7B, 14B suelen ser sus tamaños) y los que se ejecutan en centros de datos son capaces de ser mucho más grandes y capaces tanto en precisión como en opciones y potencia, como ocurre con DeepSeek V3. Pero claro, cuanto más grandes son más recursos de computación necesitan para ser usados con cierta fluidez.
Dos innovaciones para lograr mejorar. DeepSeek V3 hace uso de una arquitectura Mixture-of-Experts que solo activa algunos parámetros de forma óptima para procesar diversas tareas de forma eficiente. Sus responsables han introducido dos mejoras llamativas en este nuevo modelo. La primera, una estrategia de balanceo de carga que monitoriza y ajusta la carga en los "expertos". La segunda, un sistema de predicción de tokens. La combinación de ambas permite que la generación de tokens triplique la de DeepSeek V2: ahora llega a 60 tokens por segundo al usar el mismo hardware que su predecesor.
China coge carrerilla. Este nuevo modelo "abierto" es la última demostración del gran avance que China está haciendo a pesar de los cortapisas de la guerra comercial con Estados Unidos. DeepSeek ya nos sorprendió hace poco más de un mes con su modelo DeepSeek-R1, capaz de competir con o1 de OpenAI en el ámbito del "razonamiento" por IA. Y otras startups y grandes empresas de tecnología chinas siguen trabajando de forma frenética, y los frutos son visibles y prometedores. Y además, con un enfoque Open Source que los hace especialmente interesantes para investigadores y académicos.
Imagen | Xataka con Freepik Pikasso
En Xataka | China iba a la zaga en IA, pero no para de lanzar modelos cada vez más avanzados. Y muy socialistas
Ver 17 comentarios
17 comentarios
pedromartinez12
¿Lo de confundir China el país (titular) con una empresa de China (primer párrafo) es sólo porque es China? Me encantaría ver los méritos de las tecnológicas estadounidenses como si fueran consecuencia de las acciones de su gobierno, o incluso en las empresas españolas. Me parto.
A los que redactais, si cambias el país y sigue teniendo sentido el titular no es xenofobia ni sinofobia.
Pericodelospalotes
Mientras tanto en Europa somos orgullosamente líderes en burocracia para frenar el desarrollo de la IA. Somos una gran potencia sin duda.
vainillalake
¿Pero por qué sucede recientemente en China todos esos avances? 😨 Primero fue TikTok y las personas creían que era algo normal, pero luego pasó así con varias cosas, lanzaron su primer juego AAA (Wukong), una IA que compite con GPT-4o (DeepSeek) y apareció un avión militar de 6ta generacion que no tiene Estados Unidos. Que está pasando y por qué nadie nos lo dice 😰
simonup
Pregúntenle por el Tíbet a ver qué tanto sabe…
josuecaballero
Grande lo de china! Analizar tecnologias de otros paises, conocer sus errores, sacar un producto similar de baja coste y comienza el juego de la evolucion optimizando procesos para tener un producto competitivo por debajo del costo de la competencia, estrategia que les ha resultado util por mas de 20 años, ahora se ven de tu a tu con potencias mundiales.
rafaello76
Hay que preguntarse por qué los grandes descubrimientos, se hacen en EEUU y no en Europa.
Somos líderes en bienestar social. Esa es nuestra gran virtud. Será suficiente para garantizar nuestro futuro?