Dos puntos bajo Opus 4.6 y cinco veces más barato: Gemini 3.5 Flash cambia el cálculo

Google lanzó Gemini 3.5 Flash el lunes a 1,50 dólares por millón de tokens de entrada y 9 dólares por millón de salida. El nuevo modelo sostiene más de 280 tokens de salida por segundo, conserva la misma ventana de contexto de un millón de tokens de su predecesor y se planta en el Artificial Analysis Intelligence Index con 55 puntos, nueve por encima del Gemini 3 Flash. El martes por la mañana, un hilo en r/Anthropic ya había puesto el gráfico junto al de Claude Opus 4.6 y formulado la pregunta que el mercado lleva seis meses esquivando: ¿en qué momento dos puntos de ventaja en un benchmark dejan de justificar un precio cinco veces mayor?

El Intelligence Index agrega un grupo de evaluaciones públicas (razonamiento, conocimiento, programación, matemáticas y resolución de tareas agénticas) en una sola nota de 1 a 100. Claude Opus 4.6, en modo de razonamiento adaptativo, marca 57. Gemini 3.5 Flash, lanzado el 19 de mayo, marca 55. La subida de nueve puntos versión sobre versión es el mayor salto que Flash ha registrado en una sola generación, suficiente para que el nuevo modelo iguale al Sonnet anterior de Anthropic en inteligencia bruta por una fracción del coste de aquel.

El encuadre “más inteligente” que usó el hilo de Reddit infla la diferencia a favor de Flash. En el Intelligence Index puro, Opus 4.6 sigue por delante por dos puntos. El gráfico que reventó el hilo no es el Intelligence Index aislado: es la vista de eficiencia-de-inteligencia frente a coste, donde el eje hace otro trabajo y donde Flash 3.5 no solo gana a Opus 4.6 sino que ocupa una franja sin nadie cerca.

Opus 4.6 cobra unos 6,25 dólares por millón de tokens de entrada y 25 por millón de salida. Flash cobra 1,50 y 9. Para una carga de chat con peso dos a uno a favor de la salida, la ratio efectiva queda más cerca de 4,5x que del “cinco veces” redondo que tituló el hilo. El redondeo es honesto. La velocidad empeora el cuadro para el buque insignia: Flash 3.5 sostiene más de 280 tokens de salida por segundo y Opus 4.6, en modo de razonamiento de máximo esfuerzo, anda en torno a una décima parte de ese ritmo en el mismo banco de pruebas. Para productos donde un usuario mira un cursor parpadeante —asistentes de programación, agentes de soporte, cualquier flujo interactivo— la latencia es una característica que el precio no recupera.

Hace un año, el argumento para comprar el modelo más caro era de una línea. El salto de calidad al siguiente escalón era lo bastante grande como para que la diferencia de precio fuera un error de redondeo frente al valor entregado. El gráfico que el hilo pegó es otro gráfico. El coste marginal de los últimos dos puntos de inteligencia se ha convertido en la decisión entera de precio para cargas de producción, y el error de redondeo cae ahora más cerca de 4,75 dólares de cada seis gastados.

Hay un argumento limpio para mantener Opus 4.6 en la pila. Razonamiento de contexto largo sobre cientos de páginas, bucles de agente donde los errores se acumulan paso a paso, análisis documental donde una diferencia de dos puntos en una nota agregada oculta ventajas específicas mucho mayores. Opus sigue siendo el modelo al que un ingeniero recurre cuando el modo de fallo es “la respuesta estuvo mal”, no “la respuesta llegó tarde”. La cuota de cargas de producción con ese perfil se está reduciendo. No es cero, y es justo el tramo donde los 25 dólares por millón se ganan el sueldo.

Los turnos de chat que mueven la mayoría del tokenaje facturable —redacción, resumen, clasificación, traducción, autocompletado de código, razonamiento de cara a cliente— caben todos en Flash. La pregunta que los equipos de ingeniería se hacen cada trimestre ya no es “qué modelo es mejor”. Es “qué modelo da más por dólar con latencia aceptable”. Esa segunda pregunta Flash la gana ahora por un margen que no exige sutilezas para interpretarse.

El segundo encuadre del hilo, el de que el consenso es que Opus 4.6 es mejor que 4.7, merece un trato más blando. Es anecdótico. Las dos últimas versiones de Opus de Anthropic han recibido reseñas divididas en evaluaciones de código y rigor de uso de herramientas, con equipos que reportan regresiones en bucles de agente largos en 4.7 y otros que reportan victorias limpias sobre cargas idénticas. Ambas cosas pueden ser ciertas cuando el comportamiento se ajusta en muchos ejes entre versiones menores. Los dos modelos quedan, además, a menos de un punto el uno del otro en el índice público, así que la división de la comunidad se parece más al gusto que a la capacidad. Lo que nadie discute es que el precio de cualquiera de los dos Opus no se mueve.

La señal más profunda en la conversación de Reddit es lo que los usuarios no discutían. Nadie defendió en el hilo el precio de Opus en términos generales. Las defensas que aparecieron eran específicas de carga. “Opus sigue ganándome en este bucle de agente”. “Opus se queda en nuestra tubería de revisión de documentos”. Son reales, pero son defensas de carga, no defensas de buque insignia. Un buque insignia debería ganar en el conjunto, no en un carril concreto.

Dos puntos de diferencia en inteligencia. Cinco veces el precio. Seis veces la velocidad en la dirección contraria. Una ventana de contexto de un millón de tokens a 1,50 dólares el millón de entrada. Entrada multimodal, Elo en tareas agénticas por encima de 1650, descuento del noventa por ciento en entrada cacheada. La respuesta de Anthropic en el próximo trimestre contará su propia historia. El argumento más difícil de redactar, en mayo de 2026, es el que un comercial tiene que llevar dentro a una reunión con un cliente.

Etiquetas: Google, tech-en1, Anthropic, ia, Artificial Analysis, benchmarks de LLM