Cognition AI launches FrontierCode benchmark for code quality

LaunchDevelopers

Jun 8, 8:45 PM

Cognition AI launches FrontierCode benchmark for code quality

FrontierCode measures code mergeability with criteria like correctness, test quality, and style. Built by 20+ open-source maintainers spending 40+ hours per task, it achieves 81% lower false positive rate than SWE-Bench Pro. Even top models struggle on this new standard.

··Discuss

Jun 8, 8:45 PM