El modelo más barato que pasa la evaluación gana

La mayoría de los equipos entra al build con el modelo ya elegido. Suele ser el modelo frontier del vendor que vendió el proyecto anterior. A la evaluación no le importa qué vendor estuvo en la sala. A la evaluación le importa qué modelo pasa.

La matriz que corremos, no la que se lee

Para cada ruta de producción, evaluamos contra una matriz de candidatos. La matriz suele incluir tres modelos frontier de vendors distintos, dos o tres modelos de gama media, un modelo pequeño y rápido, y al menos una opción open-weights desplegada en nuestra propia infraestructura. El score no es un número solo. Son cuatro columnas: calidad contra la evaluación, latencia p95, dólares por millón de tokens, y comportamiento bajo input mal formado o adversarial.

Un modelo no "gana" porque tenga el score de calidad más alto. Un modelo gana porque es el más barato que pasa los umbrales que el negocio dejó por escrito.

Lo que suele ganar en realidad

En los builds que hemos enviado, el modelo frontier gana en calidad más veces de las que pierde. En el scorecard completo, gana menos veces de las que la sala espera.

El patrón que se repite: un modelo de gama media con un prompt más ajustado y un retry estructurado pasa el mismo umbral que el frontier, corre en un tercio de la latencia, y deja la ruta de producción por debajo de $0.50 por millón de tokens. El modelo frontier deja la misma ruta a un costo cuatro o cinco veces mayor. A la evaluación no le importa que el frontier impresione más en aislamiento. La evaluación elige el más barato porque esa es la regla.

Por qué importa más allá del costo

La cuenta del modelo es la victoria visible. No es la más importante.

La victoria más importante es la portabilidad. Cuando aparece un modelo nuevo — y aparece uno cada seis a diez semanas hoy — re-correr la matriz de evaluación es un miércoles por la tarde, no un proyecto de migración. El equipo es dueño del arnés. El arnés elige el modelo. No hay vendor lock-in del que negociar la salida, porque la evaluación es contra la que se construyó el sistema, no el modelo.

La segunda más importante es la honestidad bajo estrés. La carga de producción no es la carga con la que corrió la demo. Los modelos más pequeños suelen degradarse de forma más predecible cuando sube la carga, se disparan los retries o el input se pone raro. La matriz lo expone en la semana tres, no en el primer incidente.

Lo que esto no es

Esto no es un argumento contra los modelos frontier. Frontier cuando hace falta. Los agentes que necesitan razonamiento de horizonte largo, los flujos donde una respuesta equivocada es catastrófica, las tareas donde los modelos más baratos genuinamente no pasan la evaluación — esos corren en el modelo frontier. La decisión la toma el scorecard, no el comercial que llegó primero a la sala.

La regla de la fábrica es directa: la evaluación decide. El modelo más barato que pasa gana. La relación con el vendor está aguas abajo de la evaluación, nunca aguas arriba.