El debat és el cost per tancar features reals, no només benchmarks.
Anthropic i OpenAI competeixen pel millor agent de codificació.
El febrer del 2026 enfronta Claude Opus 4.6 i GPT-5.3-Codex en el terreny que importa als equips reals: tancar features completes en repositoris grans amb diffs correctes i poques regressions. Els benchmarks públics orientatiu, però la mesura rellevant és el cost per PR fusionat amb èxit en el vostre propi repositori.
Context de la setmana
Els equips seriosos mesuren reintents necessaris, diffs correctes al primer intent, regressions introduïdes i cost total per PR fusionat, no la puntuació en benchmarks de codi sintètic. La finestra de context efectiva —no l'anunciada— determina quants fitxers rellevants pot gestionar l'agent en repositoris de mida real.
Què ha canviat
- Refactor multifitxer millorat: millor seguiment de dependències internes i coherència entre fitxers modificats en una sola sessió agencial.
- Generació de tests i depuració: creació de casos de test rellevants i anàlisi de causes arrel en fallades de CI.
- Pricing orientat a tasca: model de cost basat en tokens més eines per sessió agencial, no en tokens individuals.
Impacte per a equips de desenvolupament
L'arquitectura d'enginyeria ha d'assumir un enfocament multi-model: un agent per a exploració i investigació de context, un altre per al patch final, i revisió humana obligatòria en canvis d'alt risc. A mitjà termini, els equips que construeixin capes d'abstracció sobre els models tindran més flexibilitat per canviar de proveïdor.
Recomanacions pràctiques
- Construir un benchmark intern representatiu amb 20-30 PRs reals cobrind els tipus de tasca habituals.
- Registrar model utilitzat, prompt exacte i resultat per tasca per identificar patrons de força i debilitat.
- Separar tasques de lectura i anàlisi de les d'escriptura en els pipelines CI per controlar el cost.
- Revisar les polítiques de llicència i residència de dades de cada proveïdor de model abans del desplegament.
Què vigilar a continuació
- Finestres de context efectives en repositoris reals versus les mides anunciades en màrqueting.
- Polítiques de retenció i ús del codi enviat a les APIs de cada proveïdor.
- Capacitats d'execució en sandbox aïllat per a proves de codi generat.
Conclusió: No hi ha un únic guanyador universal entre models de codi: hi ha la millor eina per tipus de tasca, mida de repositori i restriccions de dades del vostre context. Invertir en avaluació interna és la capacitat que amortitza cada canvi de model futur.