SWE-Bench

Read news on SWE-Bench with our app.

Anthropic overtakes OpenAI: Claude Opus 4 codes seven hours nonstop, sets record SWE-Bench score and reshapes enterprise AI

Some critical issues with the SWE-bench dataset