Scaling test-time compute for Qwen-3.6-27B and Gemma-4-31B surpasses Claude Mythos

AnalysisAI Models

1 day ago

Scaling test-time compute for Qwen-3.6-27B and Gemma-4-31B surpasses Claude Mythos

User reports a scaffold using 25-40x more compute on baseline models. With branches=5, iterations=10, and 6 branch-aware hypotheses, code optimization performance reportedly exceeds Claude Mythos.

··Discuss

1 day ago