Codex vise la boucle complete : code, tests, revue, apprentissage.
OpenAI oriente Codex vers des taches d'ingenierie de bout en bout.
OpenAI positionne Codex comme moteur d'ingénierie avec cycles d'évaluation et d'amélioration, pas seulement comme autocomplétion.
Contexte de la semaine
Le cas public d'agents fiscaux auto-améliorants illustre le pattern : la production génère des signaux, les signaux affinent le comportement.
Ce qui a change
- Agents de domaine : tâches verticales avec métriques métier.
- Evals intégrés : jeux de régression par capacité.
- Sandbox d'exécution : environnements isolés pour les tests.
Impact pour les equipes de developpement
Les équipes doivent investir dans l'évaluation avant de scaler l'autonomie ; sans evals, risque d'optimiser les mauvaises métriques.
Recommandations pratiques
- Définir des evals représentatifs avant le pilote en production.
- Séparer environnements d'expérimentation et de production.
- Mesurer l'impact métier (temps, erreurs), pas les LOC.
- Documenter les limites de l'agent et l'escalade humaine.
Points de vigilance
- API d'agents managés vs self-hosted.
- Coût d'exécution prolongée en sandbox.
- Cadre juridique dans les domaines régulés (finance, santé).
Conclusion: Codex excelle dans des domaines bornés avec évaluation continue, pas en autonomie ouverte sans métriques.