AI Agent Evaluations

Performance results of AI coding agents on Nuxt code generation tasks, measuring success rate and execution time.

Last run date: March 6, 2026

Agent Performance Results

Model	Agent	Total Evals	Success Rate
Claude Opus 4.6	Claude Code	25	96%
Claude Sonnet 4.6	Claude Code	25	92%
Gemini 3.1 Pro Preview	Gemini CLI	25	88%
GPT 5.3 Codex (xhigh)	Codex	25	88%
Cursor Composer 1.5	Cursor	25	84%
Gemini 3 Pro Preview	Gemini CLI	25	80%
Claude Sonnet 4.5	Claude Code	25	64%
Devstral 2	OpenCode	25	36%