3DThinkVLA: Co-training framework adds 3D reasoning to VLA models

AnalysisAI ModelsRobotics

7 days ago

3DThinkVLA: Co-training framework adds 3D reasoning to VLA models

The 3DThinkVLA framework enables vision-language-action models to perform implicit 3D spatial reasoning during action prediction via a 3D-thinking-guided co-training approach. It injects latent 3D priors to improve geometric perception without explicit 3D supervision.

7 days ago