DeepSeek-V4 llega con 1M de contexto, 21× más barato, y se mete entre GPT-5.5 y Claude Opus
OpenAI lanzó GPT-5.5 el 23 de abril. Veinticuatro horas después, DeepSeek soltó la preview de V4 en Hugging Face: Pro y Flash, ambos open source bajo MIT, ambos con contexto de un millón de tokens por defecto. La coincidencia de fechas no es casual. Mientras Opus sigue cobrando como si fuera el único modelo decente del planeta, el tablero ya cambió.
Lo que salió, sin hype
DeepSeek publicó dos modelos. Ambos Mixture of Experts, ambos con ventana de 1M tokens como estándar, no como feature premium. La diferencia está en el tamaño:
| Modelo | Parámetros totales | Parámetros activos | Peso en disco |
|---|---|---|---|
V4-Pro |
1.6T | 49B | 865 GB |
V4-Flash |
284B | 13B | 160 GB |
V4-Pro se convierte en el modelo open weights más grande que existe al día de hoy. Más grande que Kimi K2.6 (1.1T) y más del doble que V3.2 (685B). Flash, en cambio, cabe en una MacBook Pro decente con cuantización ligera.
Por qué esto incomoda al mundo Anthropic
Llevamos meses escuchando que Claude Opus es imbatible en agentic coding. Y sí, sigue siendo muy bueno. Pero DeepSeek se atrevió a publicar en su reporte técnico algo que pocos se atreven a decir:
V4-Pro en tareas de Agentic Coding supera a Sonnet 4.5, y la calidad de entrega se acerca a Opus 4.6 en modo no-thinking. Todavía hay brecha contra Opus 4.6 en modo thinking.
Traducido: un modelo abierto, chino, con pesos descargables, se está metiendo al ring con los modelos cerrados más caros del mercado. Y lo hace con un detalle que cambia la ecuación económica completa: el pricing.
| Modelo | Input / 1M tokens | Output / 1M tokens |
|---|---|---|
V4-Flash |
$0.14 | $0.28 |
V4-Pro |
$1.74 | $3.48 |
| Claude Opus 4.7 | ~$5.00 | ~$25.00 |
V4-Flash es más barato que GPT-5.4 Nano. V4-Pro es el modelo frontier más económico del mercado. Para cualquier persona que mueva volumen real — bots de WhatsApp, integraciones con n8n o Make, pipelines de OCR — esto no es un detalle, es una diferencia de un cero en la factura mensual.
DeepSeek API ahora soporta las dos interfaces más usadas: OpenAI ChatCompletions y Anthropic API. Si ya tienes código escrito para Claude, literalmente cambias el base_url y el model. El resto sigue funcionando. Así de fácil migrar.
La arquitectura: DSA y el colapso del contexto caro
Lo más interesante del reporte técnico no es el benchmark. Es cómo lograron que 1M de contexto no sea prohibitivamente caro. Introducen DSA (DeepSeek Sparse Attention), un mecanismo que comprime en la dimensión de tokens y evita que el costo de VRAM y cómputo explote cuando el contexto crece.
En la práctica, esto significa que puedes meter un codebase completo, un PDF largo o una conversación de horas sin que el modelo se ahogue ni te cueste una fortuna. Esto es lo que Anthropic y OpenAI han estado vendiendo como feature premium durante meses. DeepSeek lo volvió el estándar gratuito.
Qué significa si automatizas para vivir
Para quienes armamos bots, integraciones y agentes en Make, n8n, Claude Code u OpenClaw, hay tres cosas concretas que cambian desde esta semana:
- Compatibilidad directa con Claude Code. DeepSeek optimizó V4 específicamente para agentes como Claude Code, OpenClaw, OpenCode y CodeBuddy. Puedes usarlo como drop-in replacement.
- Contexto largo sin miedo. Un cliente puede mandarte 500 páginas de documentos gubernamentales y el modelo los procesa en una sola pasada. Adiós al chunking manual.
- Fechas de deprecación. Los endpoints viejos
deepseek-chatydeepseek-reasonerse retiran el 24 de julio de 2026. Si tienes integraciones apuntando ahí, agenda la migración ya.
El ángulo geopolítico (porque existe)
V4 corre nativamente en chips Huawei Ascend y Cambricon, no solo en Nvidia. Eso es una señal fuerte de que el ecosistema chino de IA ya no depende del hardware estadounidense para servir modelos frontier. Anthropic y OpenAI ya acusaron a DeepSeek de destilar sus modelos; China respondió que son alegatos sin fundamento.
Independientemente de quién tenga razón en ese pleito, el hecho material es que hoy cualquier desarrollador en Cuernavaca puede bajar los pesos, cargarlos con Ollama o vLLM, y tener un modelo casi frontier corriendo localmente. Sin llamar a San Francisco, sin pagarle tarjeta de crédito a nadie.
Mi opinión sin filtro
Claude Opus sigue siendo mi herramienta de cabecera para trabajo técnico complejo. No voy a mentir sobre eso. El modo thinking de Opus todavía produce salidas de calidad superior cuando el problema es realmente difícil.
Pero para el 80% del trabajo diario — clasificar mensajes de WhatsApp, generar copies de productos para Mercado Libre, extraer campos de INEs, escribir funciones PHP de tamaño medio — V4-Flash es ridículamente suficiente. Y a ese precio, dejar de usarlo por lealtad a un vendor cerrado es literalmente tirar dinero.
La era del "solo un modelo premium para todo" se acabó. Empieza la era del ruteo inteligente: modelo caro para tareas difíciles, modelo barato open source para el volumen. Quien no esté armando esa capa de ruteo en sus automatizaciones, va a pagar el doble durante los próximos doce meses.
Qué hacer esta semana
- Probar V4-Flash vía OpenRouter o directamente en
api-docs.deepseek.comcon un caso real tuyo. - Medir calidad contra tu modelo actual en 10 prompts representativos. Sin benchmarks académicos, solo tus tareas reales.
- Si la calidad está ≥ 85% de tu modelo actual, migrar el volumen y dejar el modelo caro solo para tareas complejas.
- Agendar la migración de endpoints viejos antes del 24 de julio.
El comunicado oficial de DeepSeek cierra con una frase que vale la pena guardar, porque resume bien la estrategia de esta empresa en los últimos dos años:
No seducido por los elogios, no atemorizado por las calumnias; seguir el camino recto y mantenerse íntegro.
Los clásicos chinos siempre pegan. Y este, soltado justo cuando Anthropic y OpenAI acusan a DeepSeek de robarles tecnología, pega todavía más duro.