Codex vol tancar el cicle codi, proves i revisio.
OpenAI orienta Codex a tasques completes d'enginyeria.
OpenAI posiciona Codex com a motor d'enginyeria amb cicles d'avaluació i millora, no només autocompletat.
Context de la setmana
El cas publicat d'agents fiscals auto-millorables il·lustra el patró: producció genera senyals, les senyals refineixen el comportament.
Que ha canviat
- Agents de domini: tasques verticals amb mètriques de negoci.
- Evals integrats: datasets de regressió per capacitat.
- Sandbox d'execució: entorns aïllats per a proves.
Impacte per a equips de desenvolupament
Els equips han d'invertir en avaluació abans d'escalar l'autonomia; sense evals, risc d'optimitzar mètriques equivocades.
Recomanacions practiques
- Definir evals representatius abans del pilot en producció.
- Separar entorns d'experimentació i producció.
- Mesurar impacte de negoci (temps, errors), no LOC.
- Documentar límits de l'agent i escalat humà.
Que vigilar a continuacio
- APIs d'agents gestionats vs self-hosted.
- Cost d'execució prolongada en sandbox.
- Marc legal en dominis regulats (finances, salut).
Conclusio: Codex destaca en dominis acotats amb avaluació contínua, no en autonomia oberta sense mètriques.