SWE-bench

SWE-bench's repositories

SWE-bench: Can Language Models Resolve Real-world Github Issues?

Language:PythonMIT3509 31 240

Open sourced predictions, execution logs, trajectories, and results from model inference + evaluation runs on the SWE-bench task.

Language:Shell165 9 36

Run SWE-bench evaluations remotely

Language:PythonMIT800

Landing page + leaderboard for SWE-Bench benchmark

Language:HTML3 1 1

000

Evaluation data + results for SWE-agent inference on HumanEvalFix task

Language:Jupyter Notebook010